Introduction à PySpark MLib

Généralité

N

Description :

Le cours d’introduction à PySpark MLlib vise à fournir aux participants une première approche des concepts et des techniques de base du machine learning avec PySpark. Les participants apprendront comment utiliser la bibliothèque MLlib de PySpark pour développer, entraîner et évaluer des modèles de machine learning sur des données distribuées, ouvrant ainsi la voie à l’analyse prédictive et à l’apprentissage automatique à grande échelle.

N

Objectifs

  • Comprendre les fondamentaux du machine learning et son utilisation avec PySpark.
  • Savoir comment préparer, traiter et transformer les données pour le machine learning.
  • Apprendre à construire, entraîner et évaluer des modèles de machine learning avec PySpark MLlib.
  • Être capable d’intégrer les modèles de MLlib dans des applications PySpark plus larges.
N

Public

Ce cours s’adresse aux:

  • Étudiants en informatique, en science des données ou en ingénierie intéressés par le machine learning à grande échelle.
  • Professionnels des données souhaitant étendre leurs compétences au domaine du machine learning distribué avec PySpark.
  • Développeurs Python ayant des connaissances en machine learning et désirant explorer les possibilités de l’apprentissage automatique distribué.
N

Prérequis

  • Connaissance de base en programmation Python : Les participants devraient avoir une compréhension fondamentale de la syntaxe et des concepts de base de Python et avoir suivi le cours PySpark00.
  • Notions élémentaires en machine learning : Une familiarité avec les concepts fondamentaux du machine learning, tels que les ensembles d’entraînement, les ensembles de test, les modèles, etc., serait bénéfique mais n’est pas obligatoire.

.

Contenu du cours

N

Introduction au Machine Learning avec PySpark

  • Présentation du machine learning et de son importance.
  • Vue d’ensemble de PySpark MLlib : architecture et fonctionnalités.
  • Configuration de l’environnement PySpark pour le machine learning.
N

Préparation des données pour le Machine Learning

  • Utilisation de requêtes SQL pour sélectionner et filtrer des données.
  • Aggrégation de données avec les fonctions d’agrégation SQL.
  • Jointures de tables pour combiner des données à l’aide de SQL.
  • Gestion des valeurs nulles dans les requêtes SQL.
N

Construction de modèles de Machine Learning

  • Introduction aux types de modèles pris en charge par PySpark MLlib.
  • Création de jeux d’entraînement et de validation.
  • Entraînement de modèles de régression et de classification.
  • Évaluation des performances des modèles.
N

Techniques avancées de Machine Learning avec PySpark

  • Introduction aux modèles de clustering et de recommandation.
  • Exploration des techniques d’apprentissage en ligne.
  • Utilisation de pipelines pour structurer le flux de travail de machine learning.
N

Intégration de modèles dans des applications PySpark

  • Intégration de modèles MLlib dans des applications PySpark plus larges.
  • Mise en œuvre de la prédiction en temps réel avec PySpark.
  • Exemples de cas d’utilisation concrets du machine learning distribué avec PySpark.

Informations

Niveau Intermédiaire
Modes d’enseignement  Présentiel – Distanciel – En ligne
Durée 3 jours -21 heures
Lieux  Paris
Code cours PySparkMlib00

Pour plus d'informations ou toute autre assistance concernant le cours ou l'admission, vous pouvez visiter notre page Contactez-nous ou cliquer sur le bouton ci-dessous.