Introduction à PySpark Streaming

Généralité

N

Description :

Le cours d’introduction à PySpark Streaming vise à offrir aux participants une compréhension de base du traitement de données en temps réel à l’aide de la bibliothèque PySpark Streaming. Les participants apprendront comment traiter et analyser des flux de données en temps réel à l’aide de PySpark, ouvrant la voie à la construction d’applications de streaming en direct.

N

Objectifs

  • Comprendre les concepts fondamentaux du traitement de données en temps réel.
  • Savoir comment configurer un flux de données en temps réel avec PySpark Streaming.
  • Apprendre à effectuer des transformations et des analyses sur des flux de données en direct.
  • Être capable de construire des applications de streaming en direct avec PySpark.
N

Public

Ce cours s’adresse aux:

  • Étudiants en informatique, en science des données ou en ingénierie intéressés par le traitement de données en temps réel.
  • Professionnels des données souhaitant élargir leurs compétences pour inclure le traitement de flux en temps réel avec PySpark.
  • Développeurs Python curieux d’explorer le traitement de données en streaming avec PySpark.
N

Prérequis

  • Connaissance de base en programmation Python : Les participants devraient avoir une compréhension fondamentale de la syntaxe et des concepts de base de Python.
  • Notions élémentaires en traitement de données : Une familiarité avec les concepts de base du traitement et de la manipulation de données serait bénéfique mais n’est pas obligatoire.

.

Contenu du cours

N

Introduction au streaming en temps réel et PySpark

  • Présentation du traitement de données en temps réel et de son importance.
  • Vue d’ensemble de PySpark Streaming : concepts et architecture.
  • Configuration de l’environnement PySpark pour le traitement de streaming.
N

Création de flux de données en temps réel

  • Collecte de données en temps réel à partir de sources variées (ex. : Kafka, sockets).
  • Création de DStreams (streams de données) avec PySpark Streaming.
  • Gestion de fenêtres temporelles pour l’agrégation et l’analyse.
N

Transformations et analyses sur les flux de données

  • Application de transformations en temps réel sur les DStreams (map, filter, etc.).
  • Utilisation de fonctions d’agrégation sur les flux de données en temps réel.
  • Enrichissement des données en streaming à l’aide de jointures.
N

Intégration de données en streaming dans des applications

  • Utilisation de sauvegardes en temps réel pour stocker les résultats.
  • Intégration de données en streaming avec des bases de données ou des systèmes externes.
  • Gestion des erreurs et de la tolérance aux pannes dans les applications de streaming.
N

Applications avancées de streaming avec PySpark

  • Introduction au traitement de flux de fenêtres glissantes et de sessions.
  • Utilisation de techniques de fenêtrage avancées pour l’analyse temporelle.
  • Intégration de PySpark Streaming avec d’autres composants de PySpark.
N

Mise en œuvre de projets de streaming en direct

  • Conception et mise en œuvre d’un projet complet de traitement de streaming en direct.
  • Analyse et résolution de problèmes courants dans les applications de streaming.
  • Présentation des projets aux autres participants et discussion.

Informations

Niveau Intermédiaire
Modes d’enseignement  Présentiel – Distanciel – En ligne
Durée 3 jours -21 heures
Lieux  Paris
Code cours PySparkStr00

Pour plus d'informations ou toute autre assistance concernant le cours ou l'admission, vous pouvez visiter notre page Contactez-nous ou cliquer sur le bouton ci-dessous.