Introduction à PySpark SQL
Généralité
Description :
Le cours d’introduction à PySpark SQL vise à fournir aux participants une compréhension de base de PySpark SQL, une interface SQL de PySpark qui permet d’effectuer des opérations de traitement et d’analyse de données sur des DataFrames à l’aide du langage SQL familier. Les participants apprendront comment manipuler et analyser des données en utilisant des requêtes SQL au sein de l’écosystème PySpark.
Objectifs
- Comprendre les avantages et l’utilité de PySpark SQL.
- Savoir comment utiliser le langage SQL pour manipuler des DataFrames dans PySpark.
- Apprendre à effectuer des opérations d’analyse et de transformation de données à l’aide de requêtes SQL dans PySpark.
- Être capable d’intégrer les capacités de PySpark SQL dans les flux de travail de traitement de données.
Public
Ce cours s’adresse aux:
- Étudiants en informatique, en science des données ou en ingénierie.
- Professionnels des données débutants cherchant à élargir leurs compétences en PySpark SQL.
- Toute personne intéressée par l’analyse de données en utilisant des requêtes SQL au sein de PySpark.
Prérequis
- Connaissance de base en programmation Python : Les participants devraient avoir une compréhension fondamentale de la syntaxe et des concepts de base de Python.
- Les apprenants devront avoir suivit le cours de PySpark PySpark00.
.
Contenu du cours
Introduction à PySpark SQL
- Présentation de PySpark SQL : rôle et avantages.
- Comparaison entre les opérations de transformation classiques et l’utilisation de SQL.
- Configuration de l’environnement PySpark pour l’utilisation de SQL.
Manipulation de données avec PySpark SQL
- Utilisation de requêtes SQL pour sélectionner et filtrer des données.
- Aggrégation de données avec les fonctions d’agrégation SQL.
- Jointures de tables pour combiner des données à l’aide de SQL.
- Gestion des valeurs nulles dans les requêtes SQL.
Utilisation avancée de PySpark SQL
- Introduction aux fonctions utilisateur définies (UDF) avec SQL.
- Utilisation de fenêtres SQL pour les analyses basées sur des partitions.
- Intégration de PySpark SQL avec d’autres composants de PySpark.
- Exemples de cas d’utilisation concrets de PySpark SQL.
Informations
| Niveau | Intermédiaire |
| Modes d’enseignement | Présentiel – Distanciel – En ligne |
| Durée | 3 jours -21 heures |
| Lieux | Paris |
| Code cours | PySparkSQL00 |