Chapitre 8
Chapitre 8
Chapitre 8
8.1. INTRODUCTION.
il faut choisir les variables qui vont caractériser les individus, ce choix dépend de
l’objectif de l’étude et d’une forte présupposition d’hétérogénéité des individus, pour
ces variables. Plus le nombre de variables à considérer est grand plus l’identification et
l’interprétation des groupes est complexe, d’où la nécessité de choisir les variables qui
sont pertinentes vis-à-vis du problème considéré et, parmi celles-ci, celles à forte
dispersion, c’est à dire celles qui véhiculent la plus grande quantité d'information.
Dans certaines situations, on peut réaliser une analyse en composantes principales sur
l'ensemble des variables afin de remplacer les groupes de variables corrélées par des
facteurs indépendants les uns des autres, on utilise ensuite ces composantes comme
nouvelles variables.
Il s'agit de mesurer le degré de ressemblance entre individus ou objets, pour cela on calcule
une distance séparant deux individus. Le type de distance entre objets dépend directement
du type de données à traiter.
Les données peuvent se présenter sous la forme d’une matrice qui prend différentes formes
suivant la nature de l’étude :
9 Adil ELMARHOUM
Analyse des données.
- matrice d'occurrence, composée de fréquences ou nombre d'occurrences du caractère
étudié. Si les fréquences sont exprimées en pourcentages, la matrice est appelée dans ce cas
une matrice de fréquences relatives.
- matrice métrique, les variables sont métriques et les unités de mesures sont différentes.
Si les unités de mesure sont identiques pour toutes les variables, on a alors une matrice de
contingence.
Pour ce type de matrice de données, on distingue cinq mesures de distance dont la plus
couramment utilisée est la distance euclidienne.
a) La distance euclidienne :
∑(X − X iB ) .
2
dAB = iA
i =1
Comme la distance euclidienne dépend de l'unité de mesure choisie pour les variables, la
pratique la plus courante est de standardiser les variables c’est-à-dire les ramener à une
moyenne nulle et une variance unitaire.
10 Adil ELMARHOUM
Analyse des données.
b) La distance rectangulaire :
p
dAB = ∑
i =1
XiA −XiB ;
c) La distance de Mahalanobis :
Elle tient compte des corrélations entre les variables, c’est une distance appropriée pour des
variables corrélées.
d) La distance de Minkowski :
La distance de Minkowski est définie comme étant la r-ième racine de la somme des
différences absolues à la puissance r :
∑
r
dAB = r X iA − X iB
i =1
e) La distance de khi-deux :
Elle mesure les écarts entre des effectifs observés et des effectifs théoriques, elle est à la
base de l'analyse factorielle des correspondances.
Pour des données se présentant sous forme binaire (1 ou 0), on utilise ce qu’on appelle les
coefficients de coïncidence.
Dans le cas des variables nominales, les données sont souvent des codes numériques
servant d’étiquettes identifiant les différentes modalités d’une variable nominale, pour
mesurer les distances entre individus, on doit transformer cette variable nominale en autant
de variables binaires qu'il y a de modalités pour la variable nominale, et de procéder alors
comme le cas d’une matrice logique.
Pour les matrices mixtes, on utilise un indice appelé coefficient de similitude définie par
Gower 1971. Le principe consiste à taiter chaque type de variable selon son échelle de
mesure. Le coefficient de similitude entre deux individus est la moyenne, pour les p
variables, de la valeur de la similitude pour chaque variable :
p
1
S= ∑s i
p i =1
a) Pour les variables binaires, si = 1 s’il y a coïncidence positive, c’est à dire présence à
la fois chez les deux individus, et si = 0 s’il y a coïncidence négatives, c’est à dire
absence à la fois chez les deux individus, ou s’il y a non-coïncidence.
b) Pour les variables qualitatives, ainsi que les variables ordinales, si = 1 s’il y a
coïncidence) et si = 0 quand il y a non-coïncidence.
c) Pour les variables quantitatives, la similitude entre deux individus A et B est calculée
par :
12 Adil ELMARHOUM
Analyse des données.
monothétiques
non hiérarchiques
Méthodes
polythétiques ascendantes (agglomératives)
hiérarchiques
descendantes (divisives)
Elles partent de l'ensemble des individus à classer et les divisent successivement en sous-
groupes en ne tenant compte que d'une seule variable à la fois, celle qui permet de
différencier le plus les objets en deux groupes.
Les méthodes polythétiques tiennent compte de toutes les variables simultanément. Parmi
ces méthodes, on distingue deux approches possibles : les méthodes hiérarchiques et les
méthodes non hiérarchiques.
Les méthodes hiérarchiques s’appliquent sur de petits échantillons (n < 100), à chaque
étape, les groupes sont fusionnés ou divisés selon qu’il s’agit de méthodes hiérarchiques
ascendantes (agglomératives) ou descendantes (divisives).
A1. Méthode du plus proche voisin (chaînage simple, agrégation suivant le saut
minimum, single linkage method)
La distance entre deux groupes est définie comme étant la distance séparant leurs membres
les plus proches.
A2. Méthode du voisin le plus éloigné (chaînage complet, agrégation suivant le diamètre,
complete linkage method)
La distance entre deux groupes est définie comme étant la distance entre leurs membres les
plus éloignés.
La distance entre deux groupes est définie comme étant la valeur moyenne des distances
entre les éléments des deux groupes. On distingue deux approches : on fait la moyenne des
distances calculées entre des individus provenant de groupes différents (average linkage
between groups method, distance moyenne entre classes), ou bien on fait la moyenne des
distances calculées entre toutes les paires possibles d’individus appartenant aux 2 groupes
(average linkage within groups method, distance moyenne dans classes).
La distance entre deux groupes est égale à la distance séparant leur centroïde (vecteur des
moyennes des variables).
La méthode vise, à chaque étape, de fusionner des groupes de façon à minimiser la variance
du nouveau groupe.
14 Adil ELMARHOUM
Analyse des données.
Un nombre prédéterminé de groupes est fixé à l’avance par l’utilisateur, ces groupes sont
représentés par des individus types choisis à priori, les autres individus sont affectés à ces
groupes de façon à minimiser la variance ou l’inertie à l’intérieur des groupes et maximiser
la variance ou l’inertie entre les groupes.
Les Méthodes de classification non hiérarchiques sont appropriée pour de grands fichiers
(n > 200). On distingue 4 méthodes non hiérarchiques.
Un objet affecté à un groupe donné lors d'une itération peut être réaffecté à un autre groupe
lors d'une étape ultérieure. La démarche comporte 3 étapes :
- allocation des autres individus aux groupes déjà formés selon le critère de distance
minimum.
- réallocation des individus aux différents groupes pour optimiser un certain critère.
Chaque individu est déplacé d'un groupe à un autre s’il améliore le critère choisi, sinon,
l'individu ne bouge pas.
Les groupes sont formés en recherchant les régions contenant des concentrations
relativement importantes de points.
Ici un même individu peut être classé dans plusieurs groupes. Cette analyse considère au
départ la matrice des corrélations entre individus plutôt qu'entre variables. Chaque facteur
correspond à un groupe. Comme un individu peut appartenir à plusieurs facteurs avec des
poids différents, l'interprétation des groupes est très difficile.
15 Adil ELMARHOUM
Analyse des données.
On commence par fixer le nombre de groupes à retenir, c’est à dire décider de la phase à
laquelle l’algorithme de classification hiérarchique doit s’arrêter. Pour cela on utilise le
dendrogramme qui visualise les groupes et le niveau auquel ils ont été formés, on se base le
plus souvent, pour fixer le nombre de groupes sur les sauts dans les distances de fusion.
Le but est de définir le profil des individus composant les différents groupes, pour cela on
utilise les variables de classification pour lesquelles on calcule certaines caractéristiques
telle que la moyenne, la médiane et l’écart type.
Pour vérifier l’acceptabilité de la solution retenue, on peut étudier la stabilité des résultats
obtenus sur les mêmes données en utilisant des méthodes différentes. Si on obtient des
résultats similaires, il y a de fortes chances pour que ces résultats représentent réellement la
structure hiérarchique existant dans les données. Quand les résultats varient d'une méthode
à l'autre, il est difficile de dire si ces différences sont dues aux méthodes ou à l'absence de
structure dans les données. En général on choisira les résultats qui sont le plus facilement
interprétables et le plus cohérents avec les hypothèses que l'on entretenait au départ sur la
structure des données.
16 Adil ELMARHOUM
Analyse des données.
10 salariés d’une entreprise sont caractérisés par deux variables : le niveau d’instruction
mesuré par le nombre d’années passées à l’école et l’expérience mesurée par le nombre de
mois dans l’entreprise.
l’importance des variables dans l’analyse typologique dépend de la forte variabilité des
individus en fonction des critères. On constate que les 10 salariés sont caractérisés par une
forte variabilité de l’expérience passée (écart type = 71,17).
Pour calculer la distance entre les individus, on utilise la distance euclidienne définit
par :
∑(X − X iB ) .
2
dAB = iA
i =1
17 Adil ELMARHOUM
Analyse des données.
1 2 3 4 5 6 7 8 9 10
1
2 4,362
3 3,492 6,646
4 2,135 5,553 ,166
5 5,228 14,087 1,894 2,026
6 9,947 6,798 2,832 3,788 8,592
7 2,432 5,786 ,09554 ,009673 1,964 3,527
8 8,960 7,249 1,951 2,884 6,762 ,119 2,628
9 6,946 4,178 2,036 2,511 7,747 ,348 2,366 ,434
10 8,135 10,653 ,967 1,935 2,944 1,892 1,671 1,066 2,257
Les méthodes hiérarchiques ascendantes ou agglomérat ives sont les plus couramment
utilisées, elles procèdent par agglomération.
Phase 0 :
On démarre avec une situation où chaque individu forme un groupe à lui seul. Ainsi on
a les dix groupes suivants :
[1] ; [2] ; [3] ; [4] ; [5] ; [6] ; [7] ; [8] ; [9] ; [10]
Phase 1 :
Un premier groupe est obtenu en agglomérant les 2 individus les plus proches, c’est à
dire pour lesquels la distance est la plus faible, il s’agit des individus 4 et 7 pour
lesquels on trouve la plus petite distance (0,009673). On a alors les 9 groupes suivants :
Phase 2 :
On calcule la distance moyenne de chaque individu restant avec le groupe [4 ;7]. Par
exemple, la distance entre l’individu 1 et le groupe [4 ;7] est de (2,135+2,432)/2 =
2,2835. la nouvelle matrice des distances est donc :
18 Adil ELMARHOUM
Analyse des données.
1 2 3 4;7 5 6 8 9 10
1
2 4,362
3 3,492 6,646
4;7 2,2835 5,6695 ,13077
5 5,228 14,087 1,894 1,995
6 9,947 6,798 2,832 3,6575 8,592
8 8,960 7,249 1,951 2,756 6,762 ,119
9 6,946 4,178 2,036 2,4385 7,747 ,348 ,434
10 8,135 10,653 ,967 1,803 2,944 1,892 1,066 2,257
Un nouveau groupe est obtenu par fusion des 2 groupes les plus semblables. La plus
petite distance est 0,119 entre l’individu 6 et l’individu 8. On a alors les 8 groupes
suivants :
Phase 3 :
1 2 3 4;7 5 6;8 9 10
1
2 4,362
3 3,492 6,646
4;7 2,2835 5,6695 ,13077
5 5,228 14,087 1,894 1,995
6;8 9,4535 7,0235 2,3915 3,20675 7,677
9 6,946 4,178 2,036 2,4385 7,747 ,391
10 8,135 10,653 ,967 1,803 2,944 1,479 2,257
Un nouveau groupe est obtenu par fusion des 2 groupes les plus semblables. La plus
petite distance est 0,13077 entre l’individu 3 et le groupe [4 ;7]. On a alors les 7 groupes
suivants :
19 Adil ELMARHOUM
Analyse des données.
Phase 4 :
1 2 3;4;7 5 6;8 9 10
1
2 4,362
3;4;7 2,6863 5,995
5 5,228 14,087 1,9613
6;8 9,4535 7,0235 2,935 7,677
9 6,946 4,178 2,3043 7,747 ,391
10 8,135 10,653 1,5243 2,944 1,479 2,257
Un nouveau groupe est obtenu par fusion des 2 groupes les plus semblables. La plus
petite distance est 0,391 entre l’individu 9 et le groupe [6 ;8]. On a alors les 6 groupes
suivants :
Phase 5 :
1 2 3;4;7 5 6;8;9 10
1
2 4,362
3;4;7 2,6863 5,995
5 5,228 14,087 1,9613
6;8;9 8,61767 6,075 2,7248 7,7003
10 8,135 10,653 1,5243 2,944 1,7383
Un nouveau groupe est obtenu par fusion des 2 groupes les plus semblables. La plus
petite distance est 1,5243 entre l’individu 10 et le groupe [3 ;4 ;7]. On a alors les 5
groupes suivants :
20 Adil ELMARHOUM
Analyse des données.
Phase 6 :
1 2 3;4;7;10 5 6;8;9
1
2 4,362
3;4;7;10 4,0485 7,1595
5 5,228 14,087 2,207
6;8;9 8,61767 6,075 2,4782 7,7003
Un nouveau groupe est obtenu par fusion des 2 groupes les plus semblables. La plus
petite distance est 2,207 entre l’individu 5 et le groupe [3 ;4 ;7 ;10]. On a alors les 4
groupes suivants :
Phase 7 :
1 2 3;4;5;7;1 6;8;9
0
1
2 4,362
3;4;5;7;1 4,2844 8,545
0
6;8;9 8,61767 6,075 3,5226
Un nouveau groupe est obtenu par fusion des 2 groupes les plus semblables. La plus
petite distance est 3,5226 entre le groupe[6 ;8 ;9] et le groupe [3 ;4 ;5 ;7 ;10]. On a alors
les 3 groupes suivants :
Phase 8 :
1 2 3;4;5;6;7;8;9;1
0
1
2 4,362
3;4;5;6;7;8;9;1 5,9094 7,61875
0
21 Adil ELMARHOUM
Analyse des données.
Un nouveau groupe est obtenu par fusion des 2 groupes les plus semblables. La plus
petite distance est 4,362 entre l’individu 1 et l’individu 2. On a alors les 2 groupes
suivants :
[1;2] ; [3;4;5;6;7;8;9;10]
Phase 9 :
1;2 3;4;5;6;7;8;9;1
0
1;2
3;4;5;6;7;8;9;1 6,764
0
Un nouveau groupe est obtenu par fusion des 2 groupes restant. On a alors le groupe
suivant :
[1;2;3;4;5;6;7;8;9;10]
On commence par fixer le nombre de groupes à retenir, c’est à dire décider de la phase à
laquelle l’algorithme de classification hiérarchique doit s’arrêter. Pour cela on utilise le
dendrogramme qui visualise les groupes et le niveau auquel ils ont été formés, on se base le
plus souvent, pour fixer le nombre de groupes sur les sauts dans les distances de fusion.
22 Adil ELMARHOUM
Analyse des données.
- Description des groupes.
Le but est de définir le profil des individus composant les différents groupes, pour cela on
utilise les variables de classification pour lesquelles on calcule certaines caractéristiques
telle que la moyenne, la médiane et l’écart type.
Groupe 1 :
Groupe 2 :
Salariés à haut niveau d’instruction et un niveau d’expérience très élevé (salarié 2).
Groupe 3 :
Groupe 4 :
Groupe 5 :
Groupe 6 :
Salariés à moyen niveau d’instruction et très faible niveau d’expérience (salarié 10);
23 Adil ELMARHOUM
Analyse des données.
Les résultats obtenus ci-dessus peuvent être obtenus à l’aide du logiciel SPSS. La
procédure SPSS pour effectuer la classification est la suivante :
- Analyse
Classification
Classification hiérarchique
- Dans Variables, sélectionner les variables de classification.
- Dans Statistiques, cocher chaînes des agrégations et Matrice des distances. Si on connaît le
nombre de groupes, on coche une seule partition et on saisie le nombre de groupes (pour
notre exemple on saisit 6).
- Dans Méthode :
Dans méthode d’agrégation, sélectionner Distance moyenne entre classes.
Dans mesure, sélectionner le type de distance, (dans notre exemple, carré de la
distance euclidienne).
Dans transformer les variables, sélectionner standardiser centrer-réduire
Il s’agit du carré de la distance entre les individus, on utilise la distance euclidienne définit
par :
∑(X − X iB ) .
2
dAB = iA
i =1
24 Adil ELMARHOUM
Analyse des données.
Matrice de proximité
Dans une première étape, un premier groupe est obtenu en agglomérant les 2 individus les
plus proches, c’est à dire pour lesquels la distance est la plus faible, il s’agit des individus 4
et 7 pour lesquels on trouve la plus petite distance (0,009673). On a alors les 9 groupes
suivants :
[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6] ; [8] ; [9] ; [10]
Dans une deuxième étape, un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 0,119 entre l’individu 6 et l’individu 8. On a alors
les 8 groupes suivants :
25 Adil ELMARHOUM
Analyse des données.
Dans une troisième étape, un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 0,131 entre l’individu 3 et le groupe [4 ;7]. On a
alors les 7 groupes suivants :
Dans une quatrième étape, un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 0,391 entre l’individu 9 et le groupe [6 ;8]. On a
alors les 6 groupes suivants :
Dans une cinquième étape, un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 1,524 entre l’individu 10 et le groupe [3 ;4 ;7]. On a
alors les 5 groupes suivants :
Dans une sixième étape, un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 2,207 entre l’individu 5 et le groupe [3 ;4 ;7 ;10]. On
a alors les 4 groupes suivants :
Dans une septième étape, un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 3,523 entre le groupe[6 ;8 ;9] et le groupe
[3 ;4 ;5 ;7 ;10]. On a alors les 3 groupes suivants :
Dans une huitième étape, un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 4,362 entre l’individu 1 et l’individu 2. On a alors
les 2 groupes suivants :
[1;2] ; [3;4;5;6;7;8;9;10]
Dans une neuvième étape, un nouveau groupe est obtenu par fusion des 2 groupes restant.
On a alors le groupe suivant :
[1;2;3;4;5;6;7;8;9;10]
26 Adil ELMARHOUM
Analyse des données.
Les groupes et leur composition.
On a choisit une solution à 6 groupes. Les 6 groupes retenus par la typologie sont donc :
[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] et [10].
Appartenance à la classe
Observation 6 classes
1:Case 1 1
2:Case 2 2
3:Case 3 3
4:Case 4 3
5:Case 5 4
6:Case 6 5
7:Case 7 3
8:Case 8 5
9:Case 9 5
10:Case 10 6
27 Adil ELMARHOUM