Description
Ce programme de formation vise à initier les participants aux fondamentaux de Spark, en abordant son origine, son fonctionnement et les langages supportés. Les apprenants découvriront l'utilisation du Shell Spark, la gestion des RDD et les règles de développement en Java et Python. La formation inclut également une introduction au streaming, aux différents gestionnaires de clusters, ainsi qu'à l'intégration avec Hadoop et Cassandra. Ce cursus s'adresse principalement aux développeurs et aux data scientists souhaitant acquérir des compétences pratiques en traitement de données distribuées.
Objectifs
- Mettre en oeuvre Spark pour optimiser des calculs
- Développer des applications avec Spark Streaming
- Mettre en oeuvre un cluster Spark
Récapitulatif
Public
Chefs de projets, data scientists, développeurs
Prérequis
Avoir connaissance de Java ou Python, des bases Hadoop et des notions de calculs statistiques
Méthodes et modalités pédagogiques
Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.
Moyens et supports pédagogiques
Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation
Modalités de suivi et d'évaluations
Auto-positionnement des stagiaires avant la formation
Émargement des stagiaires et formateur par 1/2 journée
Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires
Auto-évaluation des acquis de la formation par les stagiaires
Questionnaire de satisfaction à chaud et à froid à l'issue de la formation
Programme détaillé
Introduction
- Présentation de Spark
- Origine du projet
- Apports
- Principe de fonctionnement
- Langages supportés
Premiers pas
- Utilisation du Shell Spark avec Scala ou Python
- Gestion du cache
Règles de développement
- Mise en pratique en Java et Python
- Notion de contexte Spark
- Différentes méthodes de création des RDD
- - Depuis un fichier texte, un stockage externe
- Manipulations sur les RDD (Resilient Distributed Dataset)
- - Fonctions
- - Gestion de la persistance
Streaming
- Objectifs
- Principe de fonctionnement
- Notion de StreamingContext
- DStreams
- Démonstrations
Cluster
- Différents cluster managers
- - Spark en autonome
- - Mesos
- - YARN
- - Amazon EC2
- Architecture
- - SparkContext
- - Cluster manager
- - Executor sur chaque nœud
- Définitions
- - Driver program
- - Cluster manager
- - Deploy mode
- - Executor
- - Task
- - Job
- Mise en oeuvre avec Spark et Amazon EC2
- Soumission de jobs
- Supervision depuis l'interface Web
Intégration Hadoop
- Création et exploitation d'un cluster Spark / YARN
Support Cassandra
- Description rapide de l'architecture Cassandra
- Mise en oeuvre depuis Spark
- Exécution de travaux Spark s'appuyant sur une grappe Cassandra