Description
Le programme de formation sur Pentaho Data Integration (PDI) vise à initier les participants à l'extraction, la transformation et le chargement de données. Il couvre les aspects fondamentaux tels que l'installation de l'outil, la gestion des flux de données, l'accès aux sources et cibles, ainsi que la manipulation et l'enrichissement des données. Les participants apprendront également à gérer les erreurs, automatiser les tâches et optimiser les processus. Ce programme s'adresse principalement aux professionnels de la data, aux analystes et aux développeurs souhaitant améliorer leurs compétences en intégration de données.
Objectifs
- Comprendre l'environnement Pentaho et son fonctionnement
- Maîtriser l'utilisation d'un ETL (Extract Transform Load)
- Maîtriser l'outil Pentaho et la bibliothèque de composants
Récapitulatif
Public
Toute personne amenée à gérer des flux de données inter-application et / ou ayant en charge l'alimentation d'une base de données décisionnelle
Prérequis
Toute personne amenée à gérer des flux de données inter-application et / ou ayant en charge l'alimentation d'une base de données décisionnelle
Méthodes et modalités pédagogiques
Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.
Moyens et supports pédagogiques
Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation
Modalités de suivi et d'évaluations
Auto-positionnement des stagiaires avant la formation
Émargement des stagiaires et formateur par 1/2 journée
Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires
Auto-évaluation des acquis de la formation par les stagiaires
Questionnaire de satisfaction à chaud et à froid à l'issue de la formation
Programme détaillé
Présentation
- Pourquoi Pentaho Data Integration (PDI) ?
- Historique et présentation au sens large
- Installation et configuration de l'outil
Génération d'une première extraction de données
- Les transformations et tâches (ordonnancement des transformations)
- De l'extraction à l'alimentation de données
- Appréhender et gérer les flux de data
- Exécution d'une transformation d'une tâche
Accéder aux données sources / cibles
- La notion de métadonnées
- Configurer l'accès aux sources de données
- Les sources / cibles supportées
- Les liens entre les sources (jointures)
- Alimentation en Insert / Update (Insertion / Mise à jour)
Manipuler les données
- Trier son flux en ascendant ou descendant
- Dédoubler son flux
- Filtrer ses données selon plusieurs critères (alléger le flux)
- Extraction d'informations à partir d'un champ (chaîne de caractères)
- Remplacer une donnée par une autre
- Gestion des opérateurs / opérations de calculs sur le flux
- Bien utiliser le produit cartésien
- Joindre les informations issues de données hétérogènes
- Comparer des flux de données
Enrichir son flux de données
- Génération de logs
- Création / Récupération des variables (dates, numériques, alphanumériques)
- Utilisation du résultat d'un flux
- Les propriétés d'un flux et de son ordonnanceur
Les boucles
- Les problématiques
- Les boucles avec paramètres et le composant « Copie lignes vers résultat »
- Les boucles avec les composants « Copie lignes vers résultat » et « Récupération lignes depuis le résultat »
Exploitation
- Gérer les erreurs
- Générer des traces (logs)
- Comprendre les erreurs et lancer des alertes (Débogage)
- La parallélisation (exécution simultanée de plusieurs flux de données)
- Import / export des développements
- Automatisation des tâches / transformations
- Documentation (mise en place des normes en cas d'erreurs ou de reprises)