Description
Cette formation sur Hadoop et Spark vise à initier les participants aux concepts fondamentaux du Big Data et de la gestion des données massives. Elle couvre l'architecture de Hadoop, y compris HDFS, MapReduce et YARN, ainsi que les fonctionnalités de Spark, telles que RDD, DataFrames et PySpark. Les apprenants découvriront également comment manipuler des données, effectuer des analyses avec Spark.ML et automatiser des processus avec des pipelines. Ce programme s'adresse aux professionnels souhaitant approfondir leurs compétences en traitement de données et en machine learning.
Objectifs
- Comprendre le principe de fonctionnement de Spark
- Utiliser l'API PySpark pour interagir avec Spark en Python
- Utiliser les méthodes de Machine Learning avec la librairie MLlib de Spark
- Traiter les flux de données avec Spark Streaming
- Manipuler les données avec Spark SQL
Récapitulatif
Public
Développeurs, Data analysts, Data scientists, architectes Big Data et toute personne souhaitant acquérir des connaissances dans le domaine de la Data Science et sur Spark
Prérequis
Avoir des notions de SQL et des connaissances de base en mathématiques et statistiques
Une première expérience en programmation Python est requise
Méthodes et modalités pédagogiques
Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.
Moyens et supports pédagogiques
Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation
Modalités de suivi et d'évaluations
Auto-positionnement des stagiaires avant la formation
Émargement des stagiaires et formateur par 1/2 journée
Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires
Auto-évaluation des acquis de la formation par les stagiaires
Questionnaire de satisfaction à chaud et à froid à l'issue de la formation
Programme détaillé
Introduction à Hadoop
- L'ère du Big Data
- Architecture et composants de la plateforme Hadoop
HDFS
- NameNode / DataNode / ResourceManager
- MapReduce et YARN
Introduction à Spark
- Qu'est-ce que Spark ?
- Spark vs MapReduce
- Fonctionnement
Rdd
- DataFrames
- Data Sets
- Comment interagir avec Spark ?
- PySpark : programmer avec Spark en Python
Installation de Spark
- Sur une infrastructure distribuée
- En local
Spark pour la manipulation des données - PySpark
- Utilisation de SparkSQL et des DataFrames pour manipuler des données
- Charger des données depuis Hadoop, depuis des fichiers CSV, texte, JSON...
- Transformer des données (création de DataFrames, ajout de colonnes, filtres...)
Utilisation de Spark.ML pour le machine learning
- Apprentissage supervisé
- Forêts aléatoires avec Spark
- Mise en place d'un outil de recommandation
- Traitement de données textuelles
- Automatiser vos analyses avec des pipelines
Spark Streaming
- Introduction à Spark Streaming
- La notion de "DStream"
- Principales sources de données
- Utilisation de l'API
- Manipulation des données
Spark SQL
- Initialisation à Spark SQL
- Création de DataFrames
- Manipulation des DataFrames (opérations basiques, agrégations et groupBy, missing data)
- Chargement et stockage de données (avec Hive, JSON...)
Démonstration GraphX et GraphFrames
- Présentation de GraphX
- Principe de création des graphes
- API GraphX
- Présentation de GraphFrames
- GraphX vs GraphFrames