Rapport Tic
Rapport Tic
Rapport Tic
Paul BIYA
Représentation du Cameroun
BP : 13719 Yaoundé Tel/fax (237)22 72 99 57 / 22 72 99 58 E-mail : [email protected]
site web: www.iai-cameroun.com
Classe L2B/Groupe 4
Rédigé par :
ASSONTIA Florentin Leonel
KAMGAING Abed Nego (chef)
Encadrant :
MEWOLO Joel Marcus
MOMISSE MOMISSE Stephane Mme. NGO NDOUM
MOUGANG Miclanche Kevine
MOUHAMADOU Habibou
NKENG NKENG Steve Lesage
NOUBI Miguim Sorelle Yvanna
ZAINAB Charifa Ahmadou
INTRODUCTION ................................................................................................................... 3
I. Qu’est-ce que le DATA MINING ? ................................................................................... 4
II. Processus de data mining ............................................................................................ 4
1. Définition du problème...........................................................................................................4
2. Collecte des données ...............................................................................................................5
3. Construire le modèle d’analyse ..............................................................................................5
4. Etude des résultats ..................................................................................................................5
5. Formalisation et diffusion ......................................................................................................5
III. Techniques de data mining ...................................................................................... 5
1. Analyse du panier de la ménagère .........................................................................................6
2. Le raisonnement base sur la mémoire...................................................................................6
3. La détection automatique de clusters ....................................................................................6
4. L'analyse des liens ...................................................................................................................6
5. Les arbres de décision.............................................................................................................7
6. Les réseaux de neurones ........................................................................................................7
7. Les agents intelligents ou knowbot ........................................................................................7
IV. Outils de data mining.................................................................................................... 8
RapidMiner ..................................................................................................................................8
WEKA ...........................................................................................................................................8
Tanagra ........................................................................................................................................9
CONCLUSION ...................................................................................................................... 10
INTRODUCTION
Traduit littéralement par " forage des données ", le Data Mining est un processus non
élémentaire de mises à jour de relations, corrélations, dépendances, associations, modèles,
structures, tendances, classes, facteurs obtenus en navigant à travers de grands ensembles de
données, généralement consignées dans des bases de données (relationnelles ou pas), navigation
réalisée au moyen de méthodes mathématiques, statistiques ou algorithmiques. D'après Le Gartner
Group, 1996, ce processus peut être itératif et/ou interactif selon les objectifs à atteindre (Bien que
non explicitement contenu dans la définition, on considère le Data Mining comme un processus (le
plus automatisé possible) qui va des données élémentaires disponibles dans un Data Warehouse à la
décision en apportant à chaque étape de ce processus une plus-value informationnelle qui peut aller
jusqu'au déclenchement automatique d'actions en fonction de l'information de synthèse mise à
jour. On comprend, derrière le concept du Data Mining l'héritage de l'intelligence artificielle et des
systèmes experts. Mais on comprend aussi l'utilisation des méthodes d'analyses des données qui ont
pour objet de découvrir des structures, des relations entre faits au moyen de données élémentaires
et de techniques mathématiques appropriées. Ses outils représentent l’élément de base autour
desquels la connaissance du client et la réalisation de ses applications se construisent. Donc, quel est
le processus de data mining ? Quelles sont ses techniques et outils ?
I. Qu’est-ce que le DATA MINING ?
Le Data Mining est en fait un terme générique englobant toute une famille d'outils facilitant
l'exploration et l'analyse des données contenues au sein d'une base décisionnelle de type Data
Warehouse ou DataMart. Les techniques mises en action lors de l'utilisation de cet instrument
d'analyse et de prospection sont particulièrement efficaces pour extraire des informations
significatives depuis de grandes quantités de données. Le data mining en français exploration des
données, fait référence aux méthodes algorithmiques d’évaluation des données qui sont appliquées
à des ensembles de données particulièrement vastes et complexes. L’exploration de données est
conçue pour extraire des informations cachées dans un grand volume de données (surtout des
données massives, dites « big data ») et ainsi identifier encore mieux les corrélations cachées, les
tendances et les modèles qui s’y reflètent. Les outils d’exploration de données sont donc utiles.
Le terme de « data mining » ne désigne pas la génération de données ou les ensembles de
données eux-mêmes, mais seulement la pratique de l’analyse de données pratique de l’analyse de
données. Bon nombre des méthodes utilisées proviennent de la statistique : toutefois, l’exploration
des données n’est pas un processus purement statistique, mais un processus interdisciplinaire qui
utilise des techniques d’apprentissage issues de l’informatique et des mathématiques (surtout
l’apprentissage non supervisé) et qui s’allie à l’intelligence artificielle (web-marketing/vendre-
surinternet/quest-ce-que-lintelligence-artificielle/).
Il ne suffit pas de stocker une multitude de données au sein d'une base spécialisée, Data
Warehouse ou Big Data, encore faut-il les exploiter. C'est là le rôle du Data Mining qui, bien utilisé,
saura tirer les enseignements contenus dans cette masse de données bien trop importante pour se
contenter des seuls outils statistiques. Plus qu'une théorie normalisée, Le traitement des données à
travers le data mining est un processus de cinq étapes fondamentales :
1. Définition du problème
Quel est le but de l'analyse, que recherche-t-on ? Quels sont les objectifs ? Comment traduire
le problème en une question pouvant servir de sujet d'enquête pour cet outil d'analyse bien
spécifique ? A ce sujet, se souvenir que l'on travaille à partir des données existantes, la question doit
être ciblée selon les données disponibles.
Une phase absolument essentielle. On n'analyse que des données utilisables, c'est à dire
"propres" et consolidées. On n'hésitera pas à extraire de l'analyse les données de qualité douteuse.
Bien souvent, les données méritent d'être retravaillées. S'assurer au final que la quantité de données
soit suffisante pour éviter de fausser les résultats. Cette phase de collecte nécessite le plus grand soin.
Ne pas hésiter à valider vos choix d'analyse sur plusieurs jeux d'essais en variant les
échantillons. Une première évaluation peut nous conduire à reprendre les points 1 ou 2.
Il est temps d'exploiter les résultats. Pour affiner l'analyse on n'hésitera pas à reprendre les
points 1, 2 ou 3 si les résultats s'avéraient insatisfaisants. C'est à dire qu'ils ne seraient pas en phase
avec les objectifs fixés au temps 1.
5. Formalisation et diffusion
Les résultats sont formalisés pour être diffuser. Ils ne seront utiles qu'une fois devenus une
connaissance partagée. C'est bien là l'aboutissement de la démarche. C'est aussi là que réside la
difficulté d'interprétation et de généralisation.
Les techniques de Data Mining représente une partie très importante dans la tache de ce
dernier, on va citer quelques-unes afin de donner une description générale sans entrer dans le détail.
1. Analyse du panier de la ménagère
L'analyse du panier de la ménagère est un moyen de trouver les groupes d'articles qui vont
ensembles lors d'une transaction. C'est une technique de découverte de connaissances non
dirigée (de type analyse de clusters) qui génère des règles et supporte l'analyse des séries
temporelles (si les transactions ne sont pas anonymes). Les règles générées sont simples,
faciles à comprendre et assorties d'une probabilité, ce qui en fait un outil agréable et
directement exploitable par l'utilisateur métier. Exemple : Le client qui achète de la peinture achète
un pinceau Le client qui achète un téléviseur achète un magnétoscope sous 5 ans.
L'analyse des liens est une technique de description qui s'inspire et repose sur la théorie des
graphes. Elle consiste à relier des entités entre elles (clients, entreprises, ...) par des liens. A
chaque lien est affecté un poids, défini par l'analyse, qui quantifie la force de cette relation.
5. Les arbres de décision
Les arbres de décision sont utilisés dans le cadre de la découverte de connaissances dirigée.
Ce sont des outils très puissants principalement utilisés pour la classification, la description ou
l'estimation. Le principe de fonctionnement est le suivant : pour expliquer une variable, le
système recherche le critère le plus déterminant et découpe la population en sous populations
possédant la même entité de ce critère. Chaque sous population est ensuite analysée comme la
population initiale. Le modèle rendu est facile à comprendre et les règles trouvées sont très
explicites. Ce système est donc très apprécié.
Les réseaux de neurones représentent la technique de Data Mining la plus utilisée. Pour
certains utilisateurs, elle en est même synonyme. C'est une transposition simplifiée des
neurones du cerveau humain. Dans leur variante la plus courante, les réseaux de neurones
apprennent sur une population d'origine puis sont capables d'exprimer des résultats sur des
données inconnues. Ils sont utilisés dans la prédiction et la classification dans le cadre de
découverte de connaissances dirigée. Certaines variantes permettent l'exploration des séries
temporelles et des analyses non dirigées (réseaux de Kohonen). Cependant, on leur reproche souvent
d'être une "boîte noire" : il est difficile de savoir comment les résultats sont produits, ce qui rend les
explications délicates, même si les résultats sont bons.
Les agents intelligents ou Knowbot sont des entités logicielles autonomes dont les plus
récentes versions s'intègrent tout à fait dans le processus de data mining. Certains iront jusqu'à
les considérer comme des outils de data mining. Certains d'entre eux, les plus élaborés, sont
capables de suivre et mémoriser les mouvements, visites et achats sur Internet et permettent
d'élaborer des profils d'utilisateurs pour leur faire des offres commerciales "un à un (one to
one) ". L'utilisateur peut, quant à lui, lancer des appels d'offres et mises en concurrence
automatiquement gérés par ces agents.
IV. Outils de data mining
De plus en plus d'entreprises disposent de grandes quantités de données qui constituent des
ressources précieuses pour la segmentation de la clientèle, la gestion des ventes ou le marketing
ciblé. Cependant, tant que ces ensembles de données ne peuvent pas être suffisamment
analysés et évalués, ils sont sans valeur pour une entreprise. L'information est abondante, mais
seuls ceux qui savent comment l'utiliser peuvent en tirer profit. Les outils d'exploration de données
aident à gérer les volumes de données et à identifier les tendances et les modèles sensibles. À cette
fin, les logiciels de data mining sont de plus en plus complexes et le choix d'outils s'élargit, On
distingue :
RapidMiner
RapidMiner est l’un des outils de data mining les plus populaires. En 2014, selon une
étude de KDnuggets c’était l’outil de data mining le plus utilisé, devant l’outil R. Il est
accessible gratuitement et facile à utiliser, même sans connaissances particulières en
programmation. Néanmoins, il offre un large choix d’opérateurs. Les start-ups start-ups en
particulier font un usage fréquent de cet outil. RapidMiner a été écrit en Java et contient plus
de 500 opérateurs plus de 500 opérateurs avec des approches différentes pour démontrer
les connexions dans les données - entre autres, il y a des options pour l'exploration de
données, l'exploration de texte et l'exploration Web, mais aussi pour l'analyse d'humeur
(Analyse du sentiment, Opinion Mining).
WEKA
WEKA est un logiciel open source développé par l'Université de Waikato. L'outil de
data mining est basé sur Java et peut être utilisé avec Windows, MacOs et Linux. Reconnu
pour ses capacités étendues d'apprentissage machine capacités étendues d'apprentissage
machine, il prend en charge toutes les principales tâches d'exploration de données telles que
la mise en grappe, l'association, la régression ou la classification. L'interface utilisateur
graphique facilite l'accès au logiciel. En outre, WEKA offre la connexion aux bases de données
SQL et peut traiter les données demandées. La force de WEKA réside dans la classification :
l'outil de data mining est connu pour ses nombreuses classifications, y compris les réseaux
neuronaux artificiels, les arbres de décision, les algorithmes ID3 ou C4.5. Cependant, est
moins puissant dans d'autres techniques telles que l'analyse cluster. Seules les procédures
les plus importantes sont proposées ici.
Tanagra
Le Data Mining est une méthodologie qui automatise la synthèse de connaissances à partir de
gros volumes de données. L'essor de cette technologie est le résultat d'un accroissement dramatique
de l'information numérique qui, de par son abondance, est sous-exploitée sans outil et expertise
adéquats. Cette technologie repose sur une diversité de techniques (intelligence artificielle,
statistiques, théorie de l'information, génie logiciel, bases de données, ...) qui requièrent des
compétences variées et de haut niveau.