PySpark - Traitement des données

Découvrez les fondamentaux de Hadoop et Spark pour maîtriser le Big Data. Apprenez à manipuler des données avec PySpark, à réaliser des analyses avancées et à exploiter le machine learning et le streaming pour optimiser vos projets.

Partager cette formation :

Description Objectifs Récapitulatif Programme détaillé

Description

Cette formation sur Hadoop et Spark vise à initier les participants aux concepts fondamentaux du Big Data et de la gestion des données massives. Elle couvre l’architecture de Hadoop, y compris HDFS, MapReduce et YARN, ainsi que les fonctionnalités de Spark, telles que RDD, DataFrames et PySpark. Les apprenants découvriront également comment manipuler des données, effectuer des analyses avec Spark.ML et automatiser des processus avec des pipelines. Ce programme s’adresse aux professionnels souhaitant approfondir leurs compétences en traitement de données et en machine learning.

Objectifs

Comprendre le principe de fonctionnement de Spark
Utiliser l'API PySpark pour interagir avec Spark en Python
Utiliser les méthodes de Machine Learning avec la librairie MLlib de Spark
Traiter les flux de données avec Spark Streaming
Manipuler les données avec Spark SQL

Récapitulatif

Public

Développeurs, Data analysts, Data scientists, architectes Big Data et toute personne souhaitant acquérir des connaissances dans le domaine de la Data Science et sur Spark

Prérequis

Avoir des notions de SQL et des connaissances de base en mathématiques et statistiques
Une première expérience en programmation Python est requise

Méthodes et modalités pédagogiques

Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.

Moyens et supports pédagogiques

Mise à disposition d’un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d’une documentation pédagogique numérique pendant la formation
La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
Dans le cas d’une formation sur site Entreprise, le client s’engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard…) au bon déroulement de l’action de formation conformément aux prérequis indiqués dans le programme de formation

Modalités de suivi et d'évaluations

Auto-positionnement des stagiaires avant la formation

Émargement des stagiaires et formateur par 1/2 journée

Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires

Auto-évaluation des acquis de la formation par les stagiaires

Questionnaire de satisfaction à chaud et à froid à l’issue de la formation

Programme détaillé

Introduction à Hadoop

L'ère du Big Data
Architecture et composants de la plateforme Hadoop

HDFS

NameNode / DataNode / ResourceManager
MapReduce et YARN

Introduction à Spark

Qu'est-ce que Spark ?
Spark vs MapReduce
Fonctionnement

Rdd

DataFrames
Data Sets
Comment interagir avec Spark ?
PySpark : programmer avec Spark en Python

Installation de Spark

Sur une infrastructure distribuée
En local

Spark pour la manipulation des données – PySpark

Utilisation de SparkSQL et des DataFrames pour manipuler des données
Charger des données depuis Hadoop, depuis des fichiers CSV, texte, JSON…
Transformer des données (création de DataFrames, ajout de colonnes, filtres…)

Utilisation de Spark.ML pour le machine learning

Apprentissage supervisé
Forêts aléatoires avec Spark
Mise en place d'un outil de recommandation
Traitement de données textuelles
Automatiser vos analyses avec des pipelines

Spark Streaming

Introduction à Spark Streaming
La notion de "DStream"
Principales sources de données
Utilisation de l'API
Manipulation des données

Spark SQL

Initialisation à Spark SQL
Création de DataFrames
Manipulation des DataFrames (opérations basiques, agrégations et groupBy, missing data)
Chargement et stockage de données (avec Hive, JSON…)

Démonstration GraphX et GraphFrames

Présentation de GraphX
Principe de création des graphes
API GraphX
Présentation de GraphFrames
GraphX vs GraphFrames

PySpark - Traitement des données

3 jours (21 heures)

Référence :

MOD_2024854

Formation Inter

2750 € ^HT

3 jours (21 heures)

Référence :

MOD_2024854

Formation Intra

Toutes les formations Big Data

Intelligence Artificielle, Data Big Data Big Data

Big Data Foundation

Découvrez le big data : bases, technologies clés (Hadoop, MongoDB), techniques de data mining et préparation à la certification Big Data Foundation.

En savoir plus
Intelligence Artificielle, Data Big Data Big Data

Big data - Concept et enjeux

Découvrez les fondamentaux du Big Data : définitions, technologies clés comme Hadoop, et meilleures pratiques pour intégrer efficacement ces concepts dans votre système d'information.

En savoir plus
Intelligence Artificielle, Data Big Data Big Data

Hadoop - Architecture et administration de clusters

Maîtrisez les technologies Big Data avec notre formation Hadoop.

En savoir plus
Intelligence Artificielle, Data Big Data Big Data

Hadoop, développez des applications Big data

Maîtrisez les fondamentaux du Big Data et de l’écosystème Hadoop pour collecter, stocker et analyser de grands volumes de données.

En savoir plus
Intelligence Artificielle, Data Big Data Big Data

Spark - Mise en oeuvre et programmation

Découvrez Spark : ses origines, son fonctionnement et les langages pris en charge. Apprenez à utiliser le Shell avec Scala et Python, à créer des…

En savoir plus

Les données saisies dans ce formulaire sont conservées par nos soins afin de pouvoir répondre au mieux à votre demande. Nous accordons de l’importance à la gestion de vos données, en savoir plus sur notre démarche Données Personnelles.

PySpark - Traitement des données

Description

Objectifs