Intro Data Mining v2
Intro Data Mining v2
Intro Data Mining v2
Introduction
DM: Motivation
❑ Améliorer la productivité:
➢ Forte pression due à la concurrence du marché
➢ Brièveté du cycle de vie des produits
➢ Besoin de prendre des décisions stratégiques efficaces:
✓ Exploiter le vécu (données historiques) pour prédire le futur et anticiper le marché.
✓ individualisation des consommateurs (dé-massification).
Qualité
Meta Data / Modèles
Connaissances / patterns
Informations /Données
Quantité
DM : Définition.
DM est un processus inductif, itératif et interactif de découverte dans les BD larges de modèles
de données valides, nouveaux, utiles et compréhensibles.
➢ Itératif: nécessite plusieurs passes.
➢ Interactif: l’utilisateur est dans la boucle du processus.
➢ Valides: valables dans le futur.
➢ Nouveaux: non prévisibles.
➢ Utiles: permettent à l’utilisateur de prendre des décisions.
➢ Compréhensibles: présentation simple.
Le data Mining désigne le processus d’analyse de volumes massifs de données et du Big Data sous
différents angles afin d’identifier des relations entre les data et de les transformer en informations
exploitables. Ce dispositif rentre dans le cadre de la Business Intelligence et a pour but d’aider les
entreprises à résoudre des problèmes, à atténuer des risques et à identifier et saisir de nouvelles
opportunités business.
Technologie BD Statistique
• BD’s relationnelles
• Data warehouses
• BD’s transactionnelles
• BD’s avancées
• BD’s objet et objet-relationnelles
• BD’s spatiales
• Séries temporelles
• BD’s Textes et multimedia
• BD’s Hétérogènes
• WWW
14
Concepts clés du DM
Utiliser le DM implique de connaître de nombreux concepts, outils et techniques qui gravitent autour de cette
notion. En voici les principaux :
▪ Le nettoyage et la préparation des données : c’est une étape au cours de laquelle les données sont
transformées afin d’être analysées et traitées de manière opérationnelle. Supprimer des erreurs ou
identifier une information manquante par exemple.
▪ L’intelligence artificielle (IA) : ce sont des systèmes qui effectuent des activités analytiques en
imitant la réflexion humaine comme l’apprentissage, le raisonnement ou la résolution de problèmes.
▪ L’apprentissage de règles d’association : il s’agit d’outils recherchant des relations entre des
variables d’un jeu de données. Il peut, entre autres, permettre à une entreprise d’identifier des
produits qui sont généralement achetés ensemble par les clients.
▪ L’analyse de données : c’est le fait d’évaluer des informations numériques et de les utiliser de manière
utile.
▪ Le data warehousing : il s’agit littéralement d’un entreposage de données afin d’aider une organisation à
prendre les meilleures décisions. C’est une composante essentielle du data mining à grande échelle.
▪ Le machine learning : c’est une technique de programmation informatique qui utilise des probabilités
statistiques afin de donner aux ordinateurs et IoT la capacité « d’apprendre ». Le machine learning et
l’intelligence artificielle sont deux notions liées.
▪ La régression : c’est une méthode analytique utilisée pour prédire une plage de valeurs numériques (les
ventes, les températures ou les cours des actions par exemple) à partir d’un jeu de données spécifique.
❑ Auparavant, seules les organisations dotées de moyens colossaux comme la NASA pouvaient avoir
accès à ces technologies analytiques. Les coûts du stockage et de l’analyse étaient tout simplement trop
élevés pour être accessibles aux autres organisations.
❑ Aujourd’hui, les technologies cloud, l’IA, le machine learning et le deep learning se démocratisent. De
nombreuses entreprises mettent désormais ces systèmes ainsi que les IoT au service de leur business.
❑ En 2020, les appareils connectés (IoT) étaient au nombre de 10 milliards. Les données générées par
cette activité et stockées dans le cloud créent un besoin urgent d’outils d’analyse flexibles et évolutifs
capables de gérer des masses d’informations provenant de jeux de données disparates.
Application: Bourse
Application: Assurances
Assurances Définition des profils
des clients
24
Domaines d’application
Application: Banques
◼Analyse de questionnaires
(prospectifs, satisfaction…)
26
DM: Processus
❑ Le DM est souvent présenté comme un ensemble intégré d’outils permettant entre autres de comparer
plusieurs techniques sur les mêmes données.
Prétraitements
Analyse
❑ Types :
➢ Données discrètes : données binaires (sexe, …),
données énumératives (couleur, …), énumératives
ordonnées (réponses 1:très satisfait, 2:satisfait, …).
➢ Données continues : données entières ou réelles (âge,
salaire, …)
➢ Dates
➢ Données textuelles
➢ Pages/liens web, Multimédia, …
❑ Tâches du DM
➢ Classification
➢ Clustering (Segmentation)
➢ Recherche d’associations
➢ Recherche de séquences
➢ Détection de déviation
5IIR EMSI Casablanca 29
Les 2 types de méthodes de data mining
❑ Les méthodes descriptives (recherche de « patterns ») :
➢ visent à mettre en évidence des informations présentes mais cachées par le volume des données
(c’est le cas des segmentations de clientèle et des recherches d’associations de produits sur les
tickets de caisse)
➢ réduisent, résument, synthétisent les données
➢ il n’y a pas de variable à expliquer
Data Mining
d’Association d’Exceptions
d’exemples
d’une variable d’une variable
Quelques types de scores
❑ Score d’appétence
➢ prédire l’achat d’un produit ou service
❑ Score de (comportement) risque
➢ prédire les impayés ou la fraude
❑ Score de pré-acceptation
➢ croisement des deux précédents
❑ Score d’octroi (ou d’acceptation)
➢ prédire en temps réel les impayés
❑ Score d’attrition
➢ prédire le départ du client vers un concurrent
❑ Et aussi :
➢ En médecine : diagnostic (bonne santé : oui / non) en fonction du dossier du patient et des
analyses médicales
➢ Courriels : spam (oui / non) en fonction des caractéristiques du message (fréquence des
mots…)
❑ KDD (knowledge data discovery) / ECD (Extraction des connaissances à partir des
données est un processus :
➢ Pré-traitement (Pre-processing)
➢ Data mining
➢ Post-traitement (Post-processing)
Variation de l’entropie
Arbre de décision