Intro Data Mining v2

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 69

Data Mining

Introduction
DM: Motivation

• Est-ce une bonne idée de faire de la publicité de musique rap dans


des magazines pour personnes âgées?

• Est-ce que vous saviez que les compagnies de cartes de crédit


peuvent suspecter un vol de carte, même si le propriétaire de la
carte n’est pas encore au courant?

• Qui sont mes meilleurs clients?

• Pourquoi et comment le chiffre d’affaire a baissé?


2
DM: Motivation
❑ Croissance en puissance/coût des machines capables:
➢ de supporter de gros volumes de données
➢ d’exécuter le processus intensif d’exploration
➢ hétérogénéité des supports de stockage

Masse importante de données


–supports hétérogènes

5IIR EMSI Casablanca 3


DM: Motivation
❑ Explosion des données:
➢ Masse importante de données (millions de milliards d’instances) : elle double tous les 20 mois: BD très
larges - Very Large Databases (VLDB)
➢ Données multi-dimensionnelles (milliers d’attributs): BD denses
➢ Inexploitables par les méthodes d’analyse classiques
➢ Collecte de masses importantes de données (Gbytes/heure) : Données satellitaires, génomiques (micro-
arrays, …), simulations scientifiques, etc.
➢ Besoin de traitement en temps réel de ces données

❑ Améliorer la productivité:
➢ Forte pression due à la concurrence du marché
➢ Brièveté du cycle de vie des produits
➢ Besoin de prendre des décisions stratégiques efficaces:
✓ Exploiter le vécu (données historiques) pour prédire le futur et anticiper le marché.
✓ individualisation des consommateurs (dé-massification).

5IIR EMSI Casablanca 4


DM: Motivation
Quantité versus Qualité

Qualité
Meta Data / Modèles

Connaissances / patterns

Informations /Données

Quantité
DM : Définition.
DM est un processus inductif, itératif et interactif de découverte dans les BD larges de modèles
de données valides, nouveaux, utiles et compréhensibles.
➢ Itératif: nécessite plusieurs passes.
➢ Interactif: l’utilisateur est dans la boucle du processus.
➢ Valides: valables dans le futur.
➢ Nouveaux: non prévisibles.
➢ Utiles: permettent à l’utilisateur de prendre des décisions.
➢ Compréhensibles: présentation simple.

Le data Mining désigne le processus d’analyse de volumes massifs de données et du Big Data sous
différents angles afin d’identifier des relations entre les data et de les transformer en informations
exploitables. Ce dispositif rentre dans le cadre de la Business Intelligence et a pour but d’aider les
entreprises à résoudre des problèmes, à atténuer des risques et à identifier et saisir de nouvelles
opportunités business.

5IIR EMSI Casablanca 6


Induction
❑ Abduction: Procédé consistant à introduire une règle à titre d’hypothèse afin de considérer
un résultat comme un cas particulier tombant sous cette règle
Ex, diagnostic médical, …
▪ Toutes les voitures ont quatre roues ET La Peugeot 206 a Quatre roues ⟹ La Peugeot 206 est une
voiture.

❑ Déduction: Raisonnement qui conclut à partir de prémisses et d’hypothèses à la vérité


d’une proposition en utilisant des règles d’inférence (logique mathématique).
▪ Toutes les voitures ont 4 roues ET La Peugeot 206 est une voiture ⟹ La Peugeot 206 a
Quatre roues .

➢ Induction: Généralisation d’une observation ou d’un raisonnement établis


à partir de cas singuliers.
✓ Utilisée donc en DM (tirer une conclusion à partir d’une série de faits, pas sûre à
100%)
✓ Exemple: La Clio a 4 roues, La Peugeot a 4 roues, La BMW a 4 roues, la Mercedes a 4
roues ⟹ Toutes les voitures ont 4 5IIR
roues.
EMSI Casablanca 7
DM: Autres Définitions
❑ Le data mining est l’ensemble des algorithmes et méthodes :
• destinés à l’exploration et à l’analyse,
• pour de grandes bases de données informatiques,
• sans a priori.

❑ Le data mining permet la détection dans les données :


• de règles, d’associations, de tendances inconnues, de structures particulières,
• restituant l’information utile,
• tout en réduisant la quantité de données.

⇒ pour aide à la décision

5IIR EMSI Casablanca 8


Le processus de découverte de connaissances (ECD)

Data mining : Coeur de KDD (Knowledge Data Discovery)

5IIR EMSI Casablanca 9


Démarche méthodologique
1. Comprendre l’application (Connaissances a priori, objectifs, etc.)
2. Sélectionner un échantillon de données (Choisir une méthode d’échantillonnage)
3. Nettoyage et transformation des données
i. Supprimer le «bruit» : données superflues, marginales, données manquantes, etc.
ii. Effectuer une sélection d’attributs, réduire la dimension du problème, etc.
4. Appliquer les techniques de fouille de données (Choisir le bon algorithme)
5. Visualiser, évaluer et interpréter les modèles découverts
i. Analyser la connaissance (intérêt)
ii. Vérifier sa validité (sur le reste de la base de données)
iii. Réitérer le processus si nécessaire
6. Gérer la connaissance découverte
i. La mettre à la disposition des décideurs
ii. L’échanger avec d’autres applications (système expert, …)

5IIR EMSI Casablanca 10


Data Mining et aide à la décision
Potentiel de support
de décisions Décideurs ou
Prise Utilisateurs
de décisions
Présentations des
connaissances: techniques Analyste(s)
de visualisation de données
Data Mining
Découverte de connaissances Administrateurs
de bases de
Exploration de données
données
(Statistiques, Requêtes, …)
Data Warehouses
Sources de données
(Papiers, fichiers, Fournisseurs d’informations, SGBD, …)

5IIR EMSI Casablanca 11


DM et statistiques
❑ Datamining: Exploratoire, Data-driven modeling
❑ Statistiques: Confirmatoire, User-driven modeling
❑ Distribution d’une seule variable : moyenne, médiane, variance, écart-type, …
❑ Explorer les relation entre variables : coefficient de corrélation, …
❑ Découverte de la cause des relations entre de nombreuses variables est assez
complexe.
❑ test du X2, ...
❑ Réseaux bayésiens (probabilités conditionnelles)

5IIR EMSI Casablanca 12


DM: Confluence de plusieurs Disciplines

Technologie BD Statistique

Apprentissage Data Mining Visualisation

Théorie de l’information Autres


Disciplines
DM: sur quels types de données

• BD’s relationnelles
• Data warehouses
• BD’s transactionnelles
• BD’s avancées
• BD’s objet et objet-relationnelles
• BD’s spatiales
• Séries temporelles
• BD’s Textes et multimedia
• BD’s Hétérogènes
• WWW

14
Concepts clés du DM
Utiliser le DM implique de connaître de nombreux concepts, outils et techniques qui gravitent autour de cette
notion. En voici les principaux :
▪ Le nettoyage et la préparation des données : c’est une étape au cours de laquelle les données sont
transformées afin d’être analysées et traitées de manière opérationnelle. Supprimer des erreurs ou
identifier une information manquante par exemple.

▪ L’intelligence artificielle (IA) : ce sont des systèmes qui effectuent des activités analytiques en
imitant la réflexion humaine comme l’apprentissage, le raisonnement ou la résolution de problèmes.

▪ L’apprentissage de règles d’association : il s’agit d’outils recherchant des relations entre des
variables d’un jeu de données. Il peut, entre autres, permettre à une entreprise d’identifier des
produits qui sont généralement achetés ensemble par les clients.

▪ Le clustering : c’est un process de partitionnement d’un jeu de données en clusters (sous-groupes)


pour aider les utilisateurs à comprendre le regroupement de données ou des faits auparavant
inconnus.

5IIR EMSI Casablanca 15


Concepts clés du DM
▪ La classification : cette technique sert à catégoriser ou classer des informations issues d’un jeu de
données dans le but d’établir des prédictions.

▪ L’analyse de données : c’est le fait d’évaluer des informations numériques et de les utiliser de manière
utile.

▪ Le data warehousing : il s’agit littéralement d’un entreposage de données afin d’aider une organisation à
prendre les meilleures décisions. C’est une composante essentielle du data mining à grande échelle.

▪ Le machine learning : c’est une technique de programmation informatique qui utilise des probabilités
statistiques afin de donner aux ordinateurs et IoT la capacité « d’apprendre ». Le machine learning et
l’intelligence artificielle sont deux notions liées.

▪ La régression : c’est une méthode analytique utilisée pour prédire une plage de valeurs numériques (les
ventes, les températures ou les cours des actions par exemple) à partir d’un jeu de données spécifique.

5IIR EMSI Casablanca 16


L'avenir du DM
❑ L’avenir est prometteur pour ce domaine et la science de la donnée étant donné la croissance constante
du volume des données. Et tout comme les techniques minières ont évolué et se sont perfectionnées
grâce aux améliorations technologiques, les technologies d’extraction d’informations précieuses issues
des données permettent d’améliorer la qualité du mining.

❑ Auparavant, seules les organisations dotées de moyens colossaux comme la NASA pouvaient avoir
accès à ces technologies analytiques. Les coûts du stockage et de l’analyse étaient tout simplement trop
élevés pour être accessibles aux autres organisations.

❑ Aujourd’hui, les technologies cloud, l’IA, le machine learning et le deep learning se démocratisent. De
nombreuses entreprises mettent désormais ces systèmes ainsi que les IoT au service de leur business.

❑ En 2020, les appareils connectés (IoT) étaient au nombre de 10 milliards. Les données générées par
cette activité et stockées dans le cloud créent un besoin urgent d’outils d’analyse flexibles et évolutifs
capables de gérer des masses d’informations provenant de jeux de données disparates.

5IIR EMSI Casablanca 17


L'avenir du DM
❑ Les solutions d’analyse cloud permettent aux organisations d’accéder à des données et à des ressources
informatiques de manière plus pratique et plus rentable. Le cloud computing aide les structures à
collecter rapidement des données provenant de différentes sources comme :
➢ Les ventes
➢ Le marketing
➢ Le web (site et réseaux sociaux par exemple)
➢ Les systèmes de production
➢ L’inventaire
➢ Le service commercial
❑ Grâce à une solution cloud, elles peuvent ensuite compiler ces données, les préparer, les analyser et agir
en conséquence pour obtenir de meilleurs résultats.

5IIR EMSI Casablanca 18


Objectifs et outils
❑ Le Data Mining cherche des structures de deux types : modèles et patterns.
➢ Patterns:
✓ une structure caractéristique possédée par un petit nombre d’observations: niche de clients à
forte valeur, ou au contraire des clients à haut risque
✓ Outils: classification, visualisation par réduction de dimension (ACP, AFC etc.), règles
d’association.
➢ Modèles:
✓ Construire des modèles a toujours été une activité des statisticiens. Un modèle est un résumé
global des relations entre variables, permettant de comprendre des phénomènes, et d’émettre
des prévisions. « Tous les modèles sont faux, certains sont utiles » (G.Box)*
✓ Le DM ne traite pas d’estimation et de tests de modèles préspécifiés, mais de la découverte de
modèles à l’aide d’un processus de recherche algorithmique d’exploration de modèles:
linéaires ou non, explicites ou implicites: réseaux de neurones, arbres de décision, SVM,
régression logistique, réseaux bayesiens.…
✓ Les modèles ne sont pas issus d’une théorie mais de l’exploration des données.
✓ Autre distinction: prédictif (supervisé) ou exploratoire (non supervisé).

5IIR EMSI Casablanca 19


Objectifs et outils
❑ Développer des techniques et systèmes efficaces et extensibles pour l’exploration de :
➢ BD larges et multi-dimensionnelles
➢ Données distribuées

❑ Faciliter l’utilisation des systèmes de DM


➢ Limiter l’intervention de l’utilisateur
➢ Représentation simple de la connaissance
➢ Visualisation sous forme exploitable

5IIR EMSI Casablanca 20


Domaines d’application
❑ Domaines concernés :
➢ Customer Relationship Management (CRM).
➢ Détection de fraude (CB, téléphone mobile).
➢ Text Mining (étude de mails de réclamation, extraction et classification de connaissance
dans les textes).
➢ Web Mining (personnalisation de sites web en fonction des habitudes et du contenu
examiné).
➢ Aide au diagnostic médical.

Exemple : en fonction de points communs détectés avec les symptômes d’autres


patients connus, le système peut catégoriser de nouveaux patients au vu de leurs
analyses médicales en risque estimé (probabilité) de développer telle ou telle maladie.

5IIR EMSI Casablanca 21


Domaines d’application
❑ Domaines pluridisciplinaires :
➢ Analyse de données, statistiques, probabilités.
➢ Bases de données.
➢ Intelligence artificielle :
✓ systèmes experts ;
✓ apprentissage automatique ;
✓ logique.
➢ Sciences cognitives :
➢ neurosciences ;
➢ psychologie expérimentale ;
➢ philosophie...

5IIR EMSI Casablanca 22


Domaines d’application
Applications: Grande Distribution
Vente par correspondance Définition de profils des clients
23
◼Analyse du panier de la ménagère ◼Prédiction des taux de réponses à des listes de diffusions
◼Analyse des données liées au ◼Optimisation des réapprovisionnements

paiement (adresse, sexe…) ◼Propositions spécifiques de services à des individus profilés

◼Élimination des “mauvais” clients

Application: Bourse

• Analyse du cours de la bourse pour pouvoir passer des ordres automatiques de


transactions boursières
Domaines d’application

Application: Assurances
Assurances Définition des profils
des clients

◼Analyse des données personnelles (sexe, ◼Élimination des “mauvais”


age, profession…) clients
◼Analyse des données sur les éléments à
◼Tarification du contrat
assurer (type de voiture, puissance…)
◼Analyse des sinistres ◼Évaluation des risques

◼ Détection des fraudes

24
Domaines d’application

Application: Banques

Banques Définition des profils


des clients

◼Analyse de la situation bancaire ◼Élimination des “mauvais”


(solde, produits bancaires …) clients
◼Analyse de données ◼Autorisation de crédits aux
supplémentaires (sexe, “bons” clients
profession, situation familiale…) ◼Propositions spécifiques de
services
25
Domaines d’application

Application: Production Industrielle

Production industrielle Prédiction et détection


◼Analyse du fonctionnement de la ◼Optimisation de la production
chaîne de production ◼Adéquation au marché

◼Analyse des produits ◼Anticipation des défauts

◼Analyse des ventes ◼Diagnostics de pannes

◼Analyse de questionnaires

(prospectifs, satisfaction…)

26
DM: Processus
❑ Le DM est souvent présenté comme un ensemble intégré d’outils permettant entre autres de comparer
plusieurs techniques sur les mêmes données.

❑ Mais le DM est bien plus qu’une boîte à outils:

Prétraitements
Analyse

5IIR EMSI Casablanca 27


DM et KDD
« Le Data Mining est une étape dans le processus d’extraction des connaissances à partir des
données (ECD), qui consiste à appliquer des algorithmes d’analyse des données »

An overview of the Steps that compose the KDD Process

5IIR EMSI Casablanca 28


Paramètres d’un processus KDD
❑ Données: Valeurs des champs des enregistrements
des tables de l’entrepot (base de données)

❑ Types :
➢ Données discrètes : données binaires (sexe, …),
données énumératives (couleur, …), énumératives
ordonnées (réponses 1:très satisfait, 2:satisfait, …).
➢ Données continues : données entières ou réelles (âge,
salaire, …)
➢ Dates
➢ Données textuelles
➢ Pages/liens web, Multimédia, …

❑ Tâches du DM
➢ Classification
➢ Clustering (Segmentation)
➢ Recherche d’associations
➢ Recherche de séquences
➢ Détection de déviation
5IIR EMSI Casablanca 29
Les 2 types de méthodes de data mining
❑ Les méthodes descriptives (recherche de « patterns ») :
➢ visent à mettre en évidence des informations présentes mais cachées par le volume des données
(c’est le cas des segmentations de clientèle et des recherches d’associations de produits sur les
tickets de caisse)
➢ réduisent, résument, synthétisent les données
➢ il n’y a pas de variable à expliquer

❑ Les méthodes prédictives (modélisation) :


➢ visent à extrapoler de nouvelles informations à partir des informations présentes (c’est le cas du
scoring)
➢ expliquent les données
➢ il y a une variable à expliquer

5IIR EMSI Casablanca 30


Tableau des méthodes descriptives

5IIR EMSI Casablanca 31


Tableau des méthodes prédictives

5IIR EMSI Casablanca 32


Segmentation (Clustering)
❑ Regrouper des objets en groupes, ou classes, ou familles, ou segments, ou clusters, de sorte que :
➢ 2 objets d’un même groupe se ressemblent le plus possible
➢ 2 objets de groupes distincts diffèrent le plus possible
➢ le nombre des groupes est parfois fixé
➢ les groupes ne sont pas prédéfinis mais déterminés au cours de l’opération
❑ Méthode descriptive :
➢ pas de variable à expliquer privilégiée
➢ décrire de façon simple une réalité complexe en la résumant
❑ Utilisation en marketing, médecine, sciences humaines…
➢ segmentation de clientèle marketing
❑ Les objets à classer sont :
➢ des individus
➢ des variables
➢ les deux à la fois (biclustering)

5IIR EMSI Casablanca 33


Classement et prédiction
❑ Ce sont des méthodes prédictives
➢ on parle aussi d’apprentissage supervisé (réseaux de neurones)
❑ Classement : la variable à expliquer (ou « cible », « réponse », « dépendante ») est qualitative
➢ on parle aussi de classification (en anglais) ou discrimination
❑ Prédiction : la variable à expliquer est quantitative
➢ on parle aussi de régression
➢ exemple : le prix d’un appartement (en fonction de sa superficie, de l’étage et du quartier)
❑ Scoring : classement appliqué à une problématique d’entreprise (variable à expliquer souvent binaire)
➢ chaque individu est affecté à une classe (« risqué » ou « non risqué », par exemple) en fonction de
ses caractéristiques

5IIR EMSI Casablanca 34


Méthodes d’Extraction de Modèles de Connaissances

Data Mining

d’Association d’Exceptions

d’exemples
d’une variable d’une variable
Quelques types de scores
❑ Score d’appétence
➢ prédire l’achat d’un produit ou service
❑ Score de (comportement) risque
➢ prédire les impayés ou la fraude
❑ Score de pré-acceptation
➢ croisement des deux précédents
❑ Score d’octroi (ou d’acceptation)
➢ prédire en temps réel les impayés
❑ Score d’attrition
➢ prédire le départ du client vers un concurrent
❑ Et aussi :
➢ En médecine : diagnostic (bonne santé : oui / non) en fonction du dossier du patient et des
analyses médicales
➢ Courriels : spam (oui / non) en fonction des caractéristiques du message (fréquence des
mots…)

5IIR EMSI Casablanca 36


Résumé - Introduction
❑ D
ƒ ata mining : découverte automatique de modèles intéressants à partir d’ensemble
de données de grande taille

❑ KDD (knowledge data discovery) / ECD (Extraction des connaissances à partir des
données est un processus :
➢ Pré-traitement (Pre-processing)
➢ Data mining
➢ Post-traitement (Post-processing)

❑ Pour le data mining, utilisation de différents …


➢ Base de données (relationelle, orientée objet, spatiale, WWW, …)
➢ Connaissances (classification, clustering, association, …)
➢ Techniques (apprentissage, statistiques, optimisation, …)
➢ Applications (génomique, télécom, banque, assurance, distribution, …)

5IIR EMSI Casablanca 37


Traitement des données
❑ Nettoyage des données
❑ Intégration des données
❑ Transformation des données
❑ Sélection des données
❑ Réduction des données

5IIR EMSI Casablanca 38


Découverte des connaissances

5IIR EMSI Casablanca 39


Découverte des connaissances

5IIR EMSI Casablanca 40


Nettoyage des Données

5IIR EMSI Casablanca 41


Données manquantes

5IIR EMSI Casablanca 42


Données Bruitées

5IIR EMSI Casablanca 43


Données Bruitées

5IIR EMSI Casablanca 44


Données Bruitées: Régression linéaire

5IIR EMSI Casablanca 45


Données Inconsistantes

5IIR EMSI Casablanca 46


Intégration des Données

5IIR EMSI Casablanca 47


Transformation des Données

5IIR EMSI Casablanca 48


Discrétisation des Données

5IIR EMSI Casablanca 49


Discrétisation basée sur l’Entropie (1)

5IIR EMSI Casablanca 50


Discrétisation basée sur l’Entropie (2)

Variation de l’entropie

5IIR EMSI Casablanca 51


Sélection des données

5IIR EMSI Casablanca 52


Réduction des données

5IIR EMSI Casablanca 53


Matrice de Contingence
Un moyen pour présenter simultanément et de manière croisée deux données statistiques.

5IIR EMSI Casablanca 54


Extraction de Connaissance (1)

5IIR EMSI Casablanca 56


Extraction de Connaissance (2)

5IIR EMSI Casablanca 57


Extraction de Connaissance (3)

5IIR EMSI Casablanca 58


Post-Traitement: Préparation des Connaissances
Tableau :

Arbre de décision

5IIR EMSI Casablanca 59


Exemple de représentation: Arbre de décision
❑ Généralités

5IIR EMSI Casablanca 60


Arbre de décision: Principe de construction

5IIR EMSI Casablanca 61


Définition d’une partition

5IIR EMSI Casablanca 62


Choix d’une partition

5IIR EMSI Casablanca 63


Gain d’information

5IIR EMSI Casablanca 64


Algorithme de Construction

5IIR EMSI Casablanca 65


Exemple 1

Arbre de décision final :

5IIR EMSI Casablanca 66


Exemple 2 (1)

5IIR EMSI Casablanca 67


Exemple 2 (2)

5IIR EMSI Casablanca 68


Exemple 2 (2)

5IIR EMSI Casablanca 69


Règle d’arrêt

5IIR EMSI Casablanca 70

Vous aimerez peut-être aussi