Introduction à PySpark Streaming
Généralité
Description :
Le cours d’introduction à PySpark Streaming vise à offrir aux participants une compréhension de base du traitement de données en temps réel à l’aide de la bibliothèque PySpark Streaming. Les participants apprendront comment traiter et analyser des flux de données en temps réel à l’aide de PySpark, ouvrant la voie à la construction d’applications de streaming en direct.
Objectifs
- Comprendre les concepts fondamentaux du traitement de données en temps réel.
- Savoir comment configurer un flux de données en temps réel avec PySpark Streaming.
- Apprendre à effectuer des transformations et des analyses sur des flux de données en direct.
- Être capable de construire des applications de streaming en direct avec PySpark.
Public
Ce cours s’adresse aux:
- Étudiants en informatique, en science des données ou en ingénierie intéressés par le traitement de données en temps réel.
- Professionnels des données souhaitant élargir leurs compétences pour inclure le traitement de flux en temps réel avec PySpark.
- Développeurs Python curieux d’explorer le traitement de données en streaming avec PySpark.
Prérequis
- Connaissance de base en programmation Python : Les participants devraient avoir une compréhension fondamentale de la syntaxe et des concepts de base de Python.
- Notions élémentaires en traitement de données : Une familiarité avec les concepts de base du traitement et de la manipulation de données serait bénéfique mais n’est pas obligatoire.
.
Contenu du cours
Introduction au streaming en temps réel et PySpark
- Présentation du traitement de données en temps réel et de son importance.
- Vue d’ensemble de PySpark Streaming : concepts et architecture.
- Configuration de l’environnement PySpark pour le traitement de streaming.
Création de flux de données en temps réel
- Collecte de données en temps réel à partir de sources variées (ex. : Kafka, sockets).
- Création de DStreams (streams de données) avec PySpark Streaming.
- Gestion de fenêtres temporelles pour l’agrégation et l’analyse.
Transformations et analyses sur les flux de données
- Application de transformations en temps réel sur les DStreams (map, filter, etc.).
- Utilisation de fonctions d’agrégation sur les flux de données en temps réel.
- Enrichissement des données en streaming à l’aide de jointures.
Intégration de données en streaming dans des applications
- Utilisation de sauvegardes en temps réel pour stocker les résultats.
- Intégration de données en streaming avec des bases de données ou des systèmes externes.
- Gestion des erreurs et de la tolérance aux pannes dans les applications de streaming.
Applications avancées de streaming avec PySpark
- Introduction au traitement de flux de fenêtres glissantes et de sessions.
- Utilisation de techniques de fenêtrage avancées pour l’analyse temporelle.
- Intégration de PySpark Streaming avec d’autres composants de PySpark.
Mise en œuvre de projets de streaming en direct
- Conception et mise en œuvre d’un projet complet de traitement de streaming en direct.
- Analyse et résolution de problèmes courants dans les applications de streaming.
- Présentation des projets aux autres participants et discussion.
Informations
| Niveau | Intermédiaire |
| Modes d’enseignement | Présentiel – Distanciel – En ligne |
| Durée | 3 jours -21 heures |
| Lieux | Paris |
| Code cours | PySparkStr00 |