Introduction à PySpark SQL

Généralité

N

Description :

Le cours d’introduction à PySpark SQL vise à fournir aux participants une compréhension de base de PySpark SQL, une interface SQL de PySpark qui permet d’effectuer des opérations de traitement et d’analyse de données sur des DataFrames à l’aide du langage SQL familier. Les participants apprendront comment manipuler et analyser des données en utilisant des requêtes SQL au sein de l’écosystème PySpark.

N

Objectifs

  • Comprendre les avantages et l’utilité de PySpark SQL.
  • Savoir comment utiliser le langage SQL pour manipuler des DataFrames dans PySpark.
  • Apprendre à effectuer des opérations d’analyse et de transformation de données à l’aide de requêtes SQL dans PySpark.
  • Être capable d’intégrer les capacités de PySpark SQL dans les flux de travail de traitement de données.
N

Public

Ce cours s’adresse aux:

  • Étudiants en informatique, en science des données ou en ingénierie.
  • Professionnels des données débutants cherchant à élargir leurs compétences en PySpark SQL.
  • Toute personne intéressée par l’analyse de données en utilisant des requêtes SQL au sein de PySpark.
N

Prérequis

  • Connaissance de base en programmation Python : Les participants devraient avoir une compréhension fondamentale de la syntaxe et des concepts de base de Python.
  • Les apprenants devront avoir suivit le cours de PySpark PySpark00.

.

Contenu du cours

N

Introduction à PySpark SQL

  • Présentation de PySpark SQL : rôle et avantages.
  • Comparaison entre les opérations de transformation classiques et l’utilisation de SQL.
  • Configuration de l’environnement PySpark pour l’utilisation de SQL.
N

Manipulation de données avec PySpark SQL

  • Utilisation de requêtes SQL pour sélectionner et filtrer des données.
  • Aggrégation de données avec les fonctions d’agrégation SQL.
  • Jointures de tables pour combiner des données à l’aide de SQL.
  • Gestion des valeurs nulles dans les requêtes SQL.
N

Utilisation avancée de PySpark SQL

  • Introduction aux fonctions utilisateur définies (UDF) avec SQL.
  • Utilisation de fenêtres SQL pour les analyses basées sur des partitions.
  • Intégration de PySpark SQL avec d’autres composants de PySpark.
  • Exemples de cas d’utilisation concrets de PySpark SQL.

Informations

Niveau Intermédiaire
Modes d’enseignement  Présentiel – Distanciel – En ligne
Durée 3 jours -21 heures
Lieux  Paris
Code cours PySparkSQL00

Pour plus d'informations ou toute autre assistance concernant le cours ou l'admission, vous pouvez visiter notre page Contactez-nous ou cliquer sur le bouton ci-dessous.