Accueil > Nos Formations > Intelligence Artificielle, Data > Big Data > Analyse et Data Science > Introduction au data mining

Introduction au data mining

0 ( avis)

Découvrez le rôle essentiel du data scientist dans l'entreprise, ses compétences clés et sa boîte à outils. Apprenez à manipuler diverses typologies de données, à appliquer des algorithmes puissants, et à déployer des modèles tout en intégrant l'éthique

Description Objectifs Récapitulatif Programme détaillé

Description

Cette formation sur le rôle du data scientist en entreprise aborde les compétences clés et les outils nécessaires pour exceller dans ce domaine. Les participants exploreront les typologies de données, l'analyse exploratoire, ainsi que divers algorithmes tels que le clustering et la classification. Des applications pratiques, comme la conception de moteurs de recommandation, sont également incluses. Destinée aux professionnels souhaitant approfondir leurs connaissances en data science, cette formation met également l'accent sur l'éthique et les impacts sociaux liés à l'utilisation des données.

Objectifs

  • Appréhender les différentes facettes du métier de Data Scientist
  • Appréhender la collecte de données, l'identification de mesures aberrantes
  • Apréhender l'analyse de texte, les modèles prédictifs...
  • Mener des analyses exploratoires pour identifier des opportunités de service
  • Choisir des supports visuels à fort impact pour communiquer vos résultats
  • Connecter les différences sources de données à un entrepôt de données
  • Croiser les différences sources de données avec des sources externes
  • Tester les algorithmes sur des sous-ensembles de données
  • Exploiter Hadoop et les plateformes de calcul distribué
  • Représenter les résultats de façon graphique et concise

Récapitulatif

Public

Développeurs, statisticiens et Business Analysts

Prérequis

Connaissance d'un langage de script (Python ou R)
Connaissances de bases en statistiques et/ou méthodes numériques
Expérience du shell sous Linux

Méthodes et modalités pédagogiques

Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.

Moyens et supports pédagogiques

Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation

Modalités de suivi et d'évaluations

Auto-positionnement des stagiaires avant la formation

Émargement des stagiaires et formateur par 1/2 journée

Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires

Auto-évaluation des acquis de la formation par les stagiaires

Questionnaire de satisfaction à chaud et à froid à l'issue de la formation

Programme détaillé

Le data scientist et son rôle dans l'entreprise

  • Fiche d'identité et profils chez LinkedIn, Amazon, Facebook...
  • Les compétences recherchées

La boîte à outils du data scientist

  • Langages de script : R, Python
  • Langages compilés: C/C++, Java/Clojure
  • Plateformes et frameworks: Hadoop, Mahout, Weka, Orange

Typologie de données

  • Données structurées et non structurées
  • Documents texte, emails, logs
  • Séries temporelles, données spatiales
  • Transactions (e-commerce, banque)
  • Télécoms et données d'appel
  • TP : collecte de données web publiques

L'analyse exploratoire

  • Qualifier les données
  • Détecter les tendances, patterns récurrents et anomalies
  • Gérer les outliers
  • Versionner son code
  • Comment organiser une chaîne de traitement : Make, Camel
  • TP : mise en place d'une chaîne évolutive de traitement de données

Algorithmes

  • Clustering
  • Corrélation et Frequent Itemset
  • Classification et prédiction
  • Analyse de séquences, filtrage et modèles de Markov
  • Méthodes d'ensemble

Plateformes et environnements pour la fouille de données

  • Pig/Hive et Mahout
  • Introduction à Weka
  • Python et Numpy, Scipy

R

Applications

  • Moteurs de recommandation
  • Optimisation d'allocation de ressources
  • Identification d'anomalies
  • TP : conception d'un moteur de recommandation d'articles web

Mise en œuvre

  • Validation d'un modèle – jeux d'apprentissage, test et courbes ROC
  • Déploiement : l'atout "DevOps"
  • Passage à l'échelle: l'avantage MapReduce
  • Intégration à Hadoop
  • Visualisation de jeux de données massives
  • Publier via une IHM web: D3.js

Penser les impacts sociaux

  • Effets indirects d'une approche orientée données
  • La CNIL, devoirs d'éthique et le respect de la vie privée
Introduction au data mining
Inter
Intra
4 jours (28 heures)
Référence :
MOD_2024515
Formation Inter
2650 € HT
4 jours (28 heures)
Référence :
MOD_2024515
Formation Intra

Trouvez la formation qui
répond à vos enjeux

Nos autres formations

Vous aimerez aussi

Langage R - Traitement de données et analyses statistiques

Découvrez R, un puissant logiciel pour la manipulation et l'analyse de données. Apprenez à créer et utiliser des fonctions, à gérer vos données et à…

Être rappelé

Page Formation | Formulaire de contact

Les données saisies dans ce formulaire sont conservées par nos soins afin de pouvoir répondre au mieux à votre demande. Nous accordons de l’importance à la gestion de vos données, en savoir plus sur notre démarche Données Personnelles.

Demander un devis

Page Formation | Formulaire de devis

Les données saisies dans ce formulaire sont conservées par nos soins afin de pouvoir répondre au mieux à votre demande. Nous accordons de l’importance à la gestion de vos données, en savoir plus sur notre démarche Données Personnelles.

Je m'inscris

Page Formation | Formulaire d'inscription

Les données saisies dans ce formulaire sont conservées par nos soins afin de pouvoir répondre au mieux à votre demande. Nous accordons de l’importance à la gestion de vos données, en savoir plus sur notre démarche Données Personnelles.