DM Chapitre1
DM Chapitre1
DM Chapitre1
La fouille de données est un domaine qui est apparu avec l’explosion des
quantités d’informations stockées, avec le progrès important des vitesses de
traitement et des supports de stockage.
– organisation des rayonnages dans les supermarchés en regroupant les produits qui sont
généralement achetés ensemble;
– diagnostic médical
– commerce électronique
– analyser les pratiques et stratégies commerciales et leurs impacts sur les ventes
Dans cette étape, on s’intéresse à la manière dont les données sont générées
et collectées. D’après la définition du problème et des objectifs du data
mining, on peut avoir une idée sur les données qui doivent être utilisées. Ces
données n’ont pas toujours le même format et la même structure. On peut
avoir des textes, des bases de données, des pages web, ...etc.
Les données collectées doivent être "préparées". Avant tout, elles doivent être
nettoyées puisqu’elles peuvent contenir plusieurs types d’anomalies : des
données peuvent être omises à cause des erreurs de frappe ou à causes des
erreurs dues au système lui-même, dans ce cas il faut remplacer ces données ou
éliminer complètement leurs enregistrements.
Des données peuvent être incohérentes c-à-d qui sortent des intervalles permis,
on doit les écarter où les normaliser. Parfois on est obligé à faire des
transformations sur les données pour unifier leur poids.
Dans cette étape, on doit choisir la bonne technique pour extraire les
connaissances (exploration) des données. Des techniques telles que les
réseaux de neurones, les arbres de décision, les réseaux bayésiens, le
clustering, ... Sont utilisées. Généralement, l’implémentation se base sur
plusieurs de ces techniques, puis on choisit le bon résultat.
E) Interprétation du modèle et établissement des
conclusions
Généralement, l’objectif du data mining est d’aider à la prise de décision en
fournissant des modèles compréhensibles aux utilisateurs. En effet, les
utilisateurs ne demandent pas des pages et des pages de chiffres, mais des
interprétations des modèles obtenus. Les expériences montrent que les modèles
simples sont plus compréhensibles mais moins précis, alors que ceux
complexes sont plus précis mais difficiles à interpréter.
1.3 Quel type de données fouiller ?
Les attributs numériques qui comportent les variables réelles ou entières tel
que la longueur, le poids, l’âge, ... sont caractérisés par une relation d’ordre et
une mesure de distance.
– La classification.
– L’estimation.
– Le groupement par similitude (règles d’association).
– L’analyse des clusters.
– La description.
Le groupement par similitude et l’analyse des clusters sont des tâches non-
supervisées.
– Classification