2 IRAD - FD - Chap2
2 IRAD - FD - Chap2
2 IRAD - FD - Chap2
Chapitre 2
La discrétisation des données
numériques
Dr ATMANI Baghdad 0
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
2.1 Introduction
L’étape de prétraitement porte sur l’accès aux données en vue de
construire des tables bidimensionnelles. En fonction du type des données (e.g.
numérique, symbolique, etc.), des méthodes de prétraitements pour la
discrétisation des données continue sont mises en œuvre. Cette phase est
importante puisque c’est elle qui va conditionner la qualité des modèles établis
lors de la fouille de données. En effet, ces choix ont pour objectif de faire
émerger l’information contenue au sein de cette masse de données.
Comme nous allons le voir dans ce mémoire, le prétraitement et en particulier la
phase de discrétisation des données est une phase cruciale. En effet, c’est du
choix des points de coupure des variables continues et de la connaissance précise
de la population que va dépendre la mise au point des modèles de prédiction.
L’information nécessaire à la construction d’un bon modèle de prédiction peut
être disponible dans les données, mais un choix inapproprié des points de
discrétisation des variables peut faire échouer l’opération [Atm, 07a].
La discrétisation des variables exogènes continues est généralement nécessaire
pour pouvoir utiliser les méthodes de fouilles de données opérant sur des tables
bidimensionnelles.
Différents types de méthodes de discrétisation existent, à savoir des
méthodes basées sur la notion d’apprentissage supervisé et d’autres basées sur la
notion du non supervisé.
La discrétisation est un domaine très étudié en apprentissage, en effet
elle joue un rôle très important pour construire un modèle performant issu de
l’ECD.
Définition 1: Discrétiser une variable quantitative, c'est mathématiquement,
transformer un vecteur de nombres réels en un vecteur de nombres entiers
nommés "indices de classe". C'est pourquoi effectuer cette transformation se dit
en langage courant "réaliser un découpage en classes". En statistiques, discrétiser
c'est à la fois réaliser cette transformation mathématique, nommer et justifier les
classes. [Gilles Hunault]
Définition 2: Discrétise un attribut numérique consiste à découpe son domaine de
valeur en un nombre fini d’intervalles qui seront identifié par un code.
Mais avant la discrétisation il faut connaitre parfaitement:
1. le but de discrétisation.
2. les caractéristiques de la variable à discrétiser.
Cela peut aider à trouver les limites des groupes qui traduiront au
mieux les caractéristiques d’une variable. Les principes de discrétisation différent
avec la nature de l’information (que l’attribut soit qualitatif ou quantitatif) :
Dr ATMANI Baghdad 1
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
Dr ATMANI Baghdad 2
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
exclusivement pour des attributs prédictifs [MIC 83]. C’est pour ce là, qu’il est
primordial avant de passer a l’étape d’apprentissage, de ré-encoder chaque
attribut prédictif continu en attribut constitué d’un ensemble d’intervalles
disjoints : ce processus est connu sous le terme de discrétisation [DOU 95].
Dr ATMANI Baghdad 3
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
Le graphe des voisins relatifs (GVR) est un graphe connexe dans lequel, si
deux points sont reliés par une arrête, alors ils vérifient la propriété ci-
dessous ou d(u,v) est la distance euclidienne entre deux points u et v dans
.
( , )≤ ( , ), ( , ) ∀ , ≠ ,
Figure 2.2. Les deux amas après coupure des trois arrêtes.
3. Sélection des amas les plus pertinents. il est possible de supprimer les
amas considérés comme trop « petits » parmi les candidats à la
constitution des intervalles. La solution consiste a ne retenir que les amas
dont le nombre d’individus est au moins égal a un nombre fixé a priori,
ou un nombre dépendant de la taille de la population du plus grand des
amas obtenus.
4. Recherche des valeurs minimales et maximales de chacun des amas sur
les variables continues. C'est-à-dire prendre les valeurs des limites des
amas projetées sur les axes.
Dr ATMANI Baghdad 4
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
Complexité algorithmique
Dans le cas ou il y’a des variables prédictives >3 la complexité
algorithmique est en ( ) en raison de la création de graphe.
Hyper Cluster Finder, est une méthode de discrétisation procédant de manière
polythétique et supervisée, ce qui permet en particulier de retrouver des
intervalles adaptés au traitement des problèmes d’apprentissage comprenant des
interactions entre les variables prédictives.
L’algorithme de CONTRAST
1. Initialisation en classant les exemples d’apprentissage par ordre croissant
des valeurs de l’attribut X à discrétiser.
2. Détermination des k points frontière. Les points de discrétisation sont
nécessairement des points frontières.
3. Sélectionner parmi les k points frontière celui qui maximise la quantité
( , , ):
( , , )
( , , )=−
, ( )
Soit
Dr ATMANI Baghdad 5
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
. .( . − .)
( , , )=−
∑ ∑ log
.
Avec
S l’échantillon ou sommet considéré
N l’effectif de l’échantillon S, ( )=
le sous - échantillon composé des exemples tels que = {ω ∈ s ; X(ω) ≤
d}
le sous - échantillon composé des exemples tels que = {ω ∈
s; X (ω) > }
L’effectif du sous - échantillon (i=1,2)
. la moyenne de l’attribut X sur le sous - échantillon (i=1,2)
M le nombre de classes ( = 1, … , )
4. Partitionner les exemples, selon le point de discrétisation, en deux sous -
populations.
Cet algorithme fournit une discrétisation descendante, binaire et dynamique.
Dr ATMANI Baghdad 6
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
64 – 65 – 68 – 69 – 70 – 71 – 72 – 72 – 75 – 75 – 80 – 81 – 83 – 85
Etape 2 : détermination des K points frontières, selon la figure 2.3.
64 65 68 69 70 71 72 72 75 75 80 81 83 85
O N O O O N N O O O N O O N
D1 D2 D3 D4 D5 D6 D7
Pour D2 = 65 :
( ∗ )∗( . . )²
( , , )= = 205.85
∗ ∗ ( ∗ ) ( ∗ )
Pour D3 = 70 :
( ∗ )∗( . . )²
( , , )= = 352.42
∗ ∗ ( ∗ ) ( ∗ )
Pour D4 = 72 :
( ∗ )∗( . . )²
( , , )= = 468.74
∗ ∗ ( ∗ ) ( ∗ )
Pour D5 = 75 :
( ∗ )∗( . . )²
( , , )= = 460.96
∗ ∗ ( ∗ ) ( ∗ )
Pour D6 = 80 :
( ∗ )∗( )²
( , , )= = 361.64
∗ ∗ ( ∗ ) ( ∗ )
Pour D7 = 83 :
( ∗ )∗( . )²
( , , )= = 205.85
∗ ∗ ( ∗ )
On sélectionne le D4 point frontière parce que c’est lui qui maximise le plus la
quantité ( , , ).
Etape 4 : partitionnement des exemples, selon le point de discrétisation D4, en
deux sous-populations. La figure 2.4 nous montre les exemples après partition.
Dr ATMANI Baghdad 7
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
64 65 68 69 70 71 72 72 75 75 80 81 83 85
O N O O O N N O O O N O O N
S1 D4 S2
Ou,
S1 : la première sous-population.
S2 : la deuxième sous-population.
Etape 5 : Refaire l’étape 3 à 5 pour chacune des deux sous-populations obtenues.
La figure 2.5. Nous montre les points de discrétisation obtenus, après avoir
appliqué le même processus à chacune des deux sous populations S1 et S2. Le
processus s’arrête dés qu’aucun point frontière ne peut augmenter la
quantité ( , , ).
64 65 68 69 70 71 72 72 75 75 80 81 83 85
O N O O O N N O O O N O O N
Dr ATMANI Baghdad 8
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
Avec
L’échantillon ou sommet considéré
L’effectif de l’échantillon , ( )=
Le sous - échantillon composé des exemples tels que = {ω ∈ s ; X(ω) ≤ d}
Le sous - échantillon composé des exemples tels que = {ω ∈ s; X (ω) > }
L’effectif du sous - échantillon (i = 1,2)
Le nombre de classes ( = 1, … , )
, , Les m classes d’effectif . sur
Dr ATMANI Baghdad 9
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
. .
( )=− ∗ log
.
, ( )= ∗ − ∗ log
. .
∆( , , ) = log (3 − 2) − ( ( )− ( )− ( ))
A titre complémentaire, il est intéressant de noter que J. R. Quinlan
préconise à l’heure actuelle de discrétiser non plus selon le critère du Ratio de
Gain, mais d’utiliser le Gain et un critère basé sur le principe du MDL [Quinlan
96].
Dr ATMANI Baghdad 10
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
26 – 27 – 28 29 – 30 – 31 – 33 – 35 – 39 – 41 – 42 – 43 44 – 45
N N N O O O O O O O O O N N
28.5 43.5
Dr ATMANI Baghdad 11
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
( − 1) ∆( , , )
+
(14 − 1)
=
14
2 2 9 9 3 3
(3 − 2) − 2 ∗ 0.94 − 2 ∗ + −1∗
5 5 9 9 5 5
+
14
= 0,22.
D2 : 43.5
( − 1) ∆( , , )
+
(14 − 1)
=
14
3 3 9 9 2 2
(3 − 2) − 2 ∗ 0.92 − 2 ∗ + −1∗
5 5 9 9 5 5
+
14
= 0,09.
S1 S2
26 – 27 – 28 29 – 30 – 31 – 33 – 35 – 39 – 41 – 42 – 43 44 – 45
N N N O O O O O O O O O N N
43.5
Etape5: k 2 .
Etape6 : Refaire l’étape 3 à 5, voir figure 2.8.
Dr ATMANI Baghdad 12
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
S3 S1 S2
26 – 27 – 28 29 – 30 – 31 – 33 – 35 – 39 – 41 – 42 – 43 44 – 45
N N N O O O O O O O O O N N
Dr ATMANI Baghdad 13
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
prédire (variable classe) et se fait selon certains critères. Dans ce qui suit nous
allons voir quelques méthodes de discrétisation non supervisées
2.5 Les méthodes de discrétisation non supervisées
Premier calcul:
n
effectif total N
nombre de classes
Données 10 11 12 12 13 14
Version stricte 1 1 1 2 2 2
Version relâchée 1 1 1 1 2 2
Tableau 2.5 table des résultats de la discrétisation par la méthode des quantiles
Dr ATMANI Baghdad 14
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
Etape2 : classer les exemples d’apprentissage par ordre croissant des valeurs de
l’attribut « Température », puis choisir les points de discrétisation selon le
nombre n ici est égal à 2. Comme le montre la figure suivante
64 – 65 – 68 – 69 – 70 – 71 – 72 – 72 – 75 – 75 – 80 – 81 – 83 – 85
Figure 2.9. Classement des exemples par ordre croissant et les points de
discrétisation.
Dr ATMANI Baghdad 15
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
e
Y max Y min
K
Où
e est l'étendue de chaque classe ;
Y max est la valeur maximale de l'effectif ;
Y min est la valeur minimale de l'effectif ;
K est le nombre de classes.
2. Deuxième étape, définition des classes (intervalles) :
- La 1ère classe vaut Y min ;Y min e
Dr ATMANI Baghdad 16
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
Dr ATMANI Baghdad 17
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
2.6 Conclusion
Dr ATMANI Baghdad 18
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
Bibliographie
Dr ATMANI Baghdad 19
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran
Discrétisation des données numériques
Dr ATMANI Baghdad 20
Master IRAD – Module Fouille de données / 2009-2010
Département Informatique – Faculté des Sciences – Université d’Oran