Introduction à PySpark
Généralités
Description :
Le cours d’introduction à PySpark est conçu pour les débutants souhaitant acquérir une compréhension fondamentale de PySpark, la bibliothèque Python pour le traitement de données distribuées avec Apache Spark. Ce cours est idéal pour les étudiants, les professionnels des données novices et les développeurs Python intéressés par le traitement de données à grande échelle.
Objectifs
- Comprendre les concepts clés d’Apache Spark et de PySpark.
- Savoir configurer un environnement PySpark.
- Apprendre à manipuler des données en utilisant PySpark.
- Maîtriser les opérations de transformation et d’analyse de base avec PySpark.
Public
Ce cours s’adresse aux personnes souhaitant :
- Acquérir les bases de PySpark pour manipuler des données massives et complexes sur des environnements distribués, tels que les clusters Hadoop ou Spark.
- Développer des compétences en manipulation de données avec PySpark, incluant la transformation, le nettoyage, et la préparation des données pour des analyses avancées.
- Apprendre à effectuer des analyses de données à grande échelle en utilisant les capacités de calcul parallèle offertes par PySpark.
- Se préparer aux métiers du Big Data, comme Data Engineer, Data Analyst ou Data Scientist, en maîtrisant un outil clé utilisé dans ces domaines.
- Optimiser le traitement des données en utilisant les techniques avancées de PySpark, telles que les opérations sur les DataFrames, les RDDs, et l’intégration avec d’autres outils Big Data.
- Comprendre l’intégration de PySpark avec les bases de données distribuées, le machine learning, et les pipelines de données complexes.
- Préparer une transition vers des compétences avancées en Big Data et en Data Science, en s’initiant à l’optimisation des performances des clusters et à l’utilisation des bibliothèques Spark pour le Machine Learning (MLlib).
Prérequis
- Connaissance de base en programmation Python : Les participants devraient avoir une compréhension fondamentale de la syntaxe et des concepts de base de Python.
- Notions élémentaires en traitement de données : Une familiarité avec les concepts de base du traitement et de la manipulation de données, tels que les tableaux, les listes et les opérations de base, serait bénéfique mais n’est pas obligatoire.
.
Contenu du cours
Introduction à Spark et PySpark
- Présentation d’Apache Spark et de son écosystème.
- Avantages et cas d’utilisation de Spark.
- Introduction à PySpark : architecture et fonctionnement.
- Installation et configuration de l’environnement PySpark.
Manipulation de données avec PySpark
- Chargement de données à partir de différentes sources (CSV, JSON, etc.).
- Création de DataFrames : structuration des données.
- Exploration initiale des données : visualisation et premières analyses.
- Gestion des schémas et des types de données.
Opérations de Transformation
- Compréhension des opérations de transformation : map, filter, groupBy, etc.
- Utilisation de fonctions anonymes (lambda) pour les transformations.
- Application de transformations sur les DataFrames.
- Gestion des valeurs manquantes et nettoyage des données.
Opérations d'Analyse et Agrégation
- Introduction aux opérations d’analyse : moyenne, somme, comptage, etc.
- Utilisation des fonctions d’agrégation sur les DataFrames.
- Combinaison de transformations et d’opérations d’analyse.
- Utilisation de jointures pour combiner des données.
Introduction aux UDF
- Définition des User-Defined Functions (UDF) pour des opérations personnalisées.
Informations
| Niveau | Intermédiaire |
| Modes d’enseignement | Présentiel – Distanciel – En ligne |
| Durée | 3 jours -21 heures |
| Lieux | Paris |
| Code cour | PySpark00 |