Chapitre 8

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 19

Analyse des données.

CHAPITRE 8. ANALYSE TYPOLOGIQUE

8.1. INTRODUCTION.

L'analyse typologique a pour but de décomposer un groupe hétérogène d'individus ou


d’objets, décrits par un ensemble de plusieurs caractéristiques ( X1, X2,..., Xp) en un
certain nombre de sous-groupes homogènes. Il s'agit de regrouper les observations pour
constituer des groupes d'individus similaires de façon à ce que les individus appartenant
à un même groupe se ressemblent le plus possible et les groupes soient les plus
différents possibles les un des autres.

8.2. LES ETAPES D'UNE ANALYSE TYPOLOGIQUE.

La typologie est composée des étapes suivantes :

8.2.1. Choix des critères de classification.

il faut choisir les variables qui vont caractériser les individus, ce choix dépend de
l’objectif de l’étude et d’une forte présupposition d’hétérogénéité des individus, pour
ces variables. Plus le nombre de variables à considérer est grand plus l’identification et
l’interprétation des groupes est complexe, d’où la nécessité de choisir les variables qui
sont pertinentes vis-à-vis du problème considéré et, parmi celles-ci, celles à forte
dispersion, c’est à dire celles qui véhiculent la plus grande quantité d'information.

Dans certaines situations, on peut réaliser une analyse en composantes principales sur
l'ensemble des variables afin de remplacer les groupes de variables corrélées par des
facteurs indépendants les uns des autres, on utilise ensuite ces composantes comme
nouvelles variables.

8.2.2. Mesures de distance.

Il s'agit de mesurer le degré de ressemblance entre individus ou objets, pour cela on calcule
une distance séparant deux individus. Le type de distance entre objets dépend directement
du type de données à traiter.

Les données peuvent se présenter sous la forme d’une matrice qui prend différentes formes
suivant la nature de l’étude :

9 Adil ELMARHOUM
Analyse des données.
- matrice d'occurrence, composée de fréquences ou nombre d'occurrences du caractère
étudié. Si les fréquences sont exprimées en pourcentages, la matrice est appelée dans ce cas
une matrice de fréquences relatives.

- matrice métrique, les variables sont métriques et les unités de mesures sont différentes.
Si les unités de mesure sont identiques pour toutes les variables, on a alors une matrice de
contingence.

- matrice de rangs, formée de variables ordinales, les éléments de la matrice représentent


des rangs.
- matrice logique (binaire ou matrice de présences-absences), composée de variables
binaires ou dichotomiques. Les éléments de la matrice sont des codes 0 et 1 qui indiquent
que l’individu ou l'objet à analyser est caractérisé par la présence ou l'absence d'un attribut.

- matrice nominale, composée de variables nominales.

- matrice mixte, composée de plusieurs types de variables.

Selon le type de la matrice de données, on distingue trois grands groupes de mesures de


distance :

8.2.2.1. Mesures de distance définis sur les matrices d'occurrence, de fréquences


relatives, métriques, de contingence et de rangs.

Pour ce type de matrice de données, on distingue cinq mesures de distance dont la plus
couramment utilisée est la distance euclidienne.

a) La distance euclidienne :

La distance euclidienne entre deux individus A et B décrits par un ensemble de p variables (


X1A, X2A,..., XpA) et ( X1B, X2B,..., XpB), est donné par :

∑(X − X iB ) .
2
dAB = iA
i =1

Comme la distance euclidienne dépend de l'unité de mesure choisie pour les variables, la
pratique la plus courante est de standardiser les variables c’est-à-dire les ramener à une
moyenne nulle et une variance unitaire.

10 Adil ELMARHOUM
Analyse des données.
b) La distance rectangulaire :

Utilisée en recherche opérationnelle, la distance rectangulaire de type Manhattan ou «city-


block» calcule la somme des différences absolues entre les valeurs :

p
dAB = ∑
i =1
XiA −XiB ;

c) La distance de Mahalanobis :

Elle tient compte des corrélations entre les variables, c’est une distance appropriée pour des
variables corrélées.

d) La distance de Minkowski :

La distance de Minkowski est définie comme étant la r-ième racine de la somme des
différences absolues à la puissance r :


r
dAB = r X iA − X iB
i =1

e) La distance de khi-deux :

Elle mesure les écarts entre des effectifs observés et des effectifs théoriques, elle est à la
base de l'analyse factorielle des correspondances.

8.2.2.2. Mesures de distance définis sur les matrices logiques (présence-absence).

Pour des données se présentant sous forme binaire (1 ou 0), on utilise ce qu’on appelle les
coefficients de coïncidence.

La ressemblance entre deux individus A et B est mesurée par le nombre de présences à la


fois chez les deux individus appelé nombre de coïncidences positives, P, par le nombre
d’absences à la fois chez les deux individus appelé nombre de coïncidences négatives, N,
par le nombre de paires de présence chez l'un des individus mais absence chez l'autre appelé
nombre de non-coïncidences, U, ou enfin par toute combinaison de ces 3 quantités.

plusieurs coefficients de coïncidence sont définis, certains coefficients ne tiennent pas


compte des coïncidences négatives N, d’autres donnent des poids différents aux
coïncidences P et N par rapport à ceux accordés aux non-coïncidences U.

- Coefficient de Russel et Rao : P / (P+N+U)

- Coefficient de Jaccard et Sneath : P / (P+U)


11 Adil ELMARHOUM
Analyse des données.
- Coefficient de Dice : 2P / (2P+U)

- Coefficient de Sokal et Sneath : P / (P+2U)

- Coefficient de Sokal et Michener : (P+N) / (P+N+U)

8.2.2.3. Mesures de distance définis sur les matrices nominales.

Dans le cas des variables nominales, les données sont souvent des codes numériques
servant d’étiquettes identifiant les différentes modalités d’une variable nominale, pour
mesurer les distances entre individus, on doit transformer cette variable nominale en autant
de variables binaires qu'il y a de modalités pour la variable nominale, et de procéder alors
comme le cas d’une matrice logique.

8.2.2.4. Mesures de distance définis sur les matrices mixtes.

Pour les matrices mixtes, on utilise un indice appelé coefficient de similitude définie par
Gower 1971. Le principe consiste à taiter chaque type de variable selon son échelle de
mesure. Le coefficient de similitude entre deux individus est la moyenne, pour les p
variables, de la valeur de la similitude pour chaque variable :
p
1
S= ∑s i
p i =1

Les valeurs de similitude par variable sont calculées comme suit :

a) Pour les variables binaires, si = 1 s’il y a coïncidence positive, c’est à dire présence à
la fois chez les deux individus, et si = 0 s’il y a coïncidence négatives, c’est à dire
absence à la fois chez les deux individus, ou s’il y a non-coïncidence.

b) Pour les variables qualitatives, ainsi que les variables ordinales, si = 1 s’il y a
coïncidence) et si = 0 quand il y a non-coïncidence.

c) Pour les variables quantitatives, la similitude entre deux individus A et B est calculée
par :

X iA − X iB avec Ri l'écart maximal que peut prendre cette variable Xi dans


si =1−
Ri
l'échantillon.

12 Adil ELMARHOUM
Analyse des données.

8.2.3. Choix d’un algorithme de classification et constitution des groupes.

Pour la constitution des groupes, on distingue différents algorithmes de classification :

monothétiques
 non hiérarchiques
Méthodes 
polythétiques  ascendantes (agglomératives)
  hiérarchiques 
  descendantes (divisives)

8.2.3.1. Méthodes monothétiques

Elles partent de l'ensemble des individus à classer et les divisent successivement en sous-
groupes en ne tenant compte que d'une seule variable à la fois, celle qui permet de
différencier le plus les objets en deux groupes.

8.2.3.2. Méthodes polythétiques

Les méthodes polythétiques tiennent compte de toutes les variables simultanément. Parmi
ces méthodes, on distingue deux approches possibles : les méthodes hiérarchiques et les
méthodes non hiérarchiques.

a) Les méthodes hiérarchiques :

Les méthodes hiérarchiques s’appliquent sur de petits échantillons (n < 100), à chaque
étape, les groupes sont fusionnés ou divisés selon qu’il s’agit de méthodes hiérarchiques
ascendantes (agglomératives) ou descendantes (divisives).

Les méthodes hiérarchiques ascendantes ou agglomératives sont les plus couramment


utilisées, elles procèdent par agglomération. On démarre avec une situation où chaque
individu forme un groupe à lui seul. Un premier groupe est obtenu en agglomérant les 2
individus les plus proches, c’est à dire pour lesquels la distance est la plus faible, puis, à
chaque étape, un nouveau groupe est obtenu par fusion des 2 groupes les plus semblables.
Le processus de regroupement se termine quand il aboutit à un groupe unique contenant
tous les individus.

Les méthodes hiérarchiques descendantes ou divisives procèdent par décomposition. On


démarre avec une situation où tous les individus forment un seul groupe. On obtient une
hiérarchie de groupes en procédant par divisions successives: à chaque étape, 2 nouveaux
groupes sont obtenus en divisant le groupe le plus hétérogène. Le processus de division se
termine lorsqu’on arrive à une situation où chaque individu forme un groupe à lui seul.
13 Adil ELMARHOUM
Analyse des données.
Quelle que soit la méthode choisie, les diverses étapes du processus peuvent être
représentées graphiquement par un arbre de hiérarchie appelé dendrogramme.

Les méthodes hiérarchiques ascendantes ou agglomératives sont les plus couramment


utilisées, selon la distance utilisée entre un objet et un groupe, ou entre deux groupes on
distingue 5 méthodes hiérarchiques ascendantes.

A1. Méthode du plus proche voisin (chaînage simple, agrégation suivant le saut
minimum, single linkage method)

La distance entre deux groupes est définie comme étant la distance séparant leurs membres
les plus proches.

A2. Méthode du voisin le plus éloigné (chaînage complet, agrégation suivant le diamètre,
complete linkage method)

La distance entre deux groupes est définie comme étant la distance entre leurs membres les
plus éloignés.

A3. Méthode de chaînage moyen (average linkage method)

La distance entre deux groupes est définie comme étant la valeur moyenne des distances
entre les éléments des deux groupes. On distingue deux approches : on fait la moyenne des
distances calculées entre des individus provenant de groupes différents (average linkage
between groups method, distance moyenne entre classes), ou bien on fait la moyenne des
distances calculées entre toutes les paires possibles d’individus appartenant aux 2 groupes
(average linkage within groups method, distance moyenne dans classes).

A4. Méthode de centroïde

La distance entre deux groupes est égale à la distance séparant leur centroïde (vecteur des
moyennes des variables).

A5. Méthode de la variance minimum de Ward

La méthode vise, à chaque étape, de fusionner des groupes de façon à minimiser la variance
du nouveau groupe.

14 Adil ELMARHOUM
Analyse des données.

b) Méthodes de classification non hiérarchiques :

Un nombre prédéterminé de groupes est fixé à l’avance par l’utilisateur, ces groupes sont
représentés par des individus types choisis à priori, les autres individus sont affectés à ces
groupes de façon à minimiser la variance ou l’inertie à l’intérieur des groupes et maximiser
la variance ou l’inertie entre les groupes.

Les Méthodes de classification non hiérarchiques sont appropriée pour de grands fichiers
(n > 200). On distingue 4 méthodes non hiérarchiques.

B1. Méthodes de réallocation (méthodes itératives)

Un objet affecté à un groupe donné lors d'une itération peut être réaffecté à un autre groupe
lors d'une étape ultérieure. La démarche comporte 3 étapes :

- choix d'une configuration initiale d'individus constituant le noyau de k groupes.

- allocation des autres individus aux groupes déjà formés selon le critère de distance
minimum.

- réallocation des individus aux différents groupes pour optimiser un certain critère.
Chaque individu est déplacé d'un groupe à un autre s’il améliore le critère choisi, sinon,
l'individu ne bouge pas.

B2. Méthode de recherche de densité

Les groupes sont formés en recherchant les régions contenant des concentrations
relativement importantes de points.

B3. Méthodes directes

Elles forment simultanément des groupes d'individus et des groupes de variables en


minimisant la variance intra-groupes. Cette méthode n'est applicable que sur des données
de même nature.

B4. Méthodes de recouvrement

Ici un même individu peut être classé dans plusieurs groupes. Cette analyse considère au
départ la matrice des corrélations entre individus plutôt qu'entre variables. Chaque facteur
correspond à un groupe. Comme un individu peut appartenir à plusieurs facteurs avec des
poids différents, l'interprétation des groupes est très difficile.
15 Adil ELMARHOUM
Analyse des données.

8.2.4. Interprétation des groupes.

Il s’agit de décrire la solution obtenue, pour cela on procède en deux étapes :

8.2.4.1. Choix du nombre de groupes.

On commence par fixer le nombre de groupes à retenir, c’est à dire décider de la phase à
laquelle l’algorithme de classification hiérarchique doit s’arrêter. Pour cela on utilise le
dendrogramme qui visualise les groupes et le niveau auquel ils ont été formés, on se base le
plus souvent, pour fixer le nombre de groupes sur les sauts dans les distances de fusion.

8.2.4.2. Description des groupes.

Le but est de définir le profil des individus composant les différents groupes, pour cela on
utilise les variables de classification pour lesquelles on calcule certaines caractéristiques
telle que la moyenne, la médiane et l’écart type.

8.2.5. Validation des groupes.

Pour vérifier l’acceptabilité de la solution retenue, on peut étudier la stabilité des résultats
obtenus sur les mêmes données en utilisant des méthodes différentes. Si on obtient des
résultats similaires, il y a de fortes chances pour que ces résultats représentent réellement la
structure hiérarchique existant dans les données. Quand les résultats varient d'une méthode
à l'autre, il est difficile de dire si ces différences sont dues aux méthodes ou à l'absence de
structure dans les données. En général on choisira les résultats qui sont le plus facilement
interprétables et le plus cohérents avec les hypothèses que l'on entretenait au départ sur la
structure des données.

16 Adil ELMARHOUM
Analyse des données.

8.3. APPLICATION NUMERIQUE.

10 salariés d’une entreprise sont caractérisés par deux variables : le niveau d’instruction
mesuré par le nombre d’années passées à l’école et l’expérience mesurée par le nombre de
mois dans l’entreprise.

Salarié Niveau d’instruction Expérience


1 12 205
2 18 182
3 12 72
4 12 101
5 8 75
6 16 3
7 12 94
8 15 5
9 16 45
10 12 2

- Quelques statistiques descriptives.


Statistiques descriptives

N Intervalle Minimum Maximum Moyenne Ecart type


Niveau d'éducation
(nombre d'années 10 10 8 18 13,30 2,91
passées à l'école)
Expérience passée
10 203 2 205 78,40 71,17
(nombre de mois)
N valide (listwise) 10

l’importance des variables dans l’analyse typologique dépend de la forte variabilité des
individus en fonction des critères. On constate que les 10 salariés sont caractérisés par une
forte variabilité de l’expérience passée (écart type = 71,17).

- Calcul des distances.

Pour calculer la distance entre les individus, on utilise la distance euclidienne définit
par :

∑(X − X iB ) .
2
dAB = iA
i =1

17 Adil ELMARHOUM
Analyse des données.

Matrice de proximité : Carré de la distance Euclidienne (après centrage et réduction des


variables)

1 2 3 4 5 6 7 8 9 10
1
2 4,362
3 3,492 6,646
4 2,135 5,553 ,166
5 5,228 14,087 1,894 2,026
6 9,947 6,798 2,832 3,788 8,592
7 2,432 5,786 ,09554 ,009673 1,964 3,527
8 8,960 7,249 1,951 2,884 6,762 ,119 2,628
9 6,946 4,178 2,036 2,511 7,747 ,348 2,366 ,434
10 8,135 10,653 ,967 1,935 2,944 1,892 1,671 1,066 2,257

- Classification hiérarchique ascendante.

Les méthodes hiérarchiques ascendantes ou agglomérat ives sont les plus couramment
utilisées, elles procèdent par agglomération.

Phase 0 :

On démarre avec une situation où chaque individu forme un groupe à lui seul. Ainsi on
a les dix groupes suivants :

[1] ; [2] ; [3] ; [4] ; [5] ; [6] ; [7] ; [8] ; [9] ; [10]

Phase 1 :

Un premier groupe est obtenu en agglomérant les 2 individus les plus proches, c’est à
dire pour lesquels la distance est la plus faible, il s’agit des individus 4 et 7 pour
lesquels on trouve la plus petite distance (0,009673). On a alors les 9 groupes suivants :

[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6] ; [8] ; [9] ; [10]

Phase 2 :

On calcule la distance moyenne de chaque individu restant avec le groupe [4 ;7]. Par
exemple, la distance entre l’individu 1 et le groupe [4 ;7] est de (2,135+2,432)/2 =
2,2835. la nouvelle matrice des distances est donc :

18 Adil ELMARHOUM
Analyse des données.

1 2 3 4;7 5 6 8 9 10
1
2 4,362
3 3,492 6,646
4;7 2,2835 5,6695 ,13077
5 5,228 14,087 1,894 1,995
6 9,947 6,798 2,832 3,6575 8,592
8 8,960 7,249 1,951 2,756 6,762 ,119
9 6,946 4,178 2,036 2,4385 7,747 ,348 ,434
10 8,135 10,653 ,967 1,803 2,944 1,892 1,066 2,257

Un nouveau groupe est obtenu par fusion des 2 groupes les plus semblables. La plus
petite distance est 0,119 entre l’individu 6 et l’individu 8. On a alors les 8 groupes
suivants :

[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6;8] ; [9] ; [10]

Phase 3 :

On calcule de nouveau la distance moyenne de chaque groupe restant avec le groupe


[6 ;8]. la nouvelle matrice des distances est donc :

1 2 3 4;7 5 6;8 9 10
1
2 4,362
3 3,492 6,646
4;7 2,2835 5,6695 ,13077
5 5,228 14,087 1,894 1,995
6;8 9,4535 7,0235 2,3915 3,20675 7,677
9 6,946 4,178 2,036 2,4385 7,747 ,391
10 8,135 10,653 ,967 1,803 2,944 1,479 2,257

Un nouveau groupe est obtenu par fusion des 2 groupes les plus semblables. La plus
petite distance est 0,13077 entre l’individu 3 et le groupe [4 ;7]. On a alors les 7 groupes
suivants :

[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8] ; [9] ; [10]

19 Adil ELMARHOUM
Analyse des données.
Phase 4 :

On calcule de nouveau la distance moyenne de chaque groupe restant avec le groupe


[3 ;4 ;7]. la nouvelle matrice des distances est donc :

1 2 3;4;7 5 6;8 9 10
1
2 4,362
3;4;7 2,6863 5,995
5 5,228 14,087 1,9613
6;8 9,4535 7,0235 2,935 7,677
9 6,946 4,178 2,3043 7,747 ,391
10 8,135 10,653 1,5243 2,944 1,479 2,257

Un nouveau groupe est obtenu par fusion des 2 groupes les plus semblables. La plus
petite distance est 0,391 entre l’individu 9 et le groupe [6 ;8]. On a alors les 6 groupes
suivants :

[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] ; [10]

Phase 5 :

On calcule de nouveau la distance moyenne de chaque groupe restant avec le groupe


[6 ;8 ;9]. la nouvelle matrice des distances est donc :

1 2 3;4;7 5 6;8;9 10
1
2 4,362
3;4;7 2,6863 5,995
5 5,228 14,087 1,9613
6;8;9 8,61767 6,075 2,7248 7,7003
10 8,135 10,653 1,5243 2,944 1,7383

Un nouveau groupe est obtenu par fusion des 2 groupes les plus semblables. La plus
petite distance est 1,5243 entre l’individu 10 et le groupe [3 ;4 ;7]. On a alors les 5
groupes suivants :

[1] ; [2] ; [3; 4 ;7 ;10] ; [5] ; [6;8;9]

20 Adil ELMARHOUM
Analyse des données.
Phase 6 :

On calcule de nouveau la distance moyenne de chaque groupe restant avec le groupe


[3 ;4 ;7 ;10]. la nouvelle matrice des distances est donc :

1 2 3;4;7;10 5 6;8;9
1
2 4,362
3;4;7;10 4,0485 7,1595
5 5,228 14,087 2,207
6;8;9 8,61767 6,075 2,4782 7,7003

Un nouveau groupe est obtenu par fusion des 2 groupes les plus semblables. La plus
petite distance est 2,207 entre l’individu 5 et le groupe [3 ;4 ;7 ;10]. On a alors les 4
groupes suivants :

[1] ; [2] ; [3; 4 ;5 ;7 ;10] ; [6;8;9]

Phase 7 :

On calcule de nouveau la distance moyenne de chaque groupe restant avec le groupe


[3 ;4 ;5;7 ;10]. la nouvelle matrice des distances est donc :

1 2 3;4;5;7;1 6;8;9
0
1
2 4,362
3;4;5;7;1 4,2844 8,545
0
6;8;9 8,61767 6,075 3,5226

Un nouveau groupe est obtenu par fusion des 2 groupes les plus semblables. La plus
petite distance est 3,5226 entre le groupe[6 ;8 ;9] et le groupe [3 ;4 ;5 ;7 ;10]. On a alors
les 3 groupes suivants :

[1] ; [2] ; [3;4;5;6;7;8;9;10]

Phase 8 :

On calcule de nouveau la distance moyenne de chaque groupe restant avec le groupe


[3;4;5;6;7;8;9;10]. la nouvelle matrice des distances est donc :

1 2 3;4;5;6;7;8;9;1
0
1
2 4,362
3;4;5;6;7;8;9;1 5,9094 7,61875
0

21 Adil ELMARHOUM
Analyse des données.

Un nouveau groupe est obtenu par fusion des 2 groupes les plus semblables. La plus
petite distance est 4,362 entre l’individu 1 et l’individu 2. On a alors les 2 groupes
suivants :

[1;2] ; [3;4;5;6;7;8;9;10]

Phase 9 :

On calcule de nouveau la distance moyenne de chaque groupe restant avec le groupe


[1 ;2]. la nouvelle matrice des distances est donc :

1;2 3;4;5;6;7;8;9;1
0
1;2
3;4;5;6;7;8;9;1 6,764
0
Un nouveau groupe est obtenu par fusion des 2 groupes restant. On a alors le groupe
suivant :

[1;2;3;4;5;6;7;8;9;10]

- Choix du nombre de groupes.

On commence par fixer le nombre de groupes à retenir, c’est à dire décider de la phase à
laquelle l’algorithme de classification hiérarchique doit s’arrêter. Pour cela on utilise le
dendrogramme qui visualise les groupes et le niveau auquel ils ont été formés, on se base le
plus souvent, pour fixer le nombre de groupes sur les sauts dans les distances de fusion.

Le dendrogramme représente les neuf phases de la typologie en indiquant à chaque fois la


distance entre les groupes agglomérés, on obtient :

Phases Agglomération Distance Solution résultante


1 [4] et [7] 0,00967 [1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6] ; [8] ; [9] ;
3 [10]
2 [6] et [8] 0,119 [1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6;8] ; [9] ;
[10]
3 [3] et [4 ;7] 0,131 [1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8] ; [9] ; [10]
4 [9] et [6 ;8] 0,391 [1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] ; [10]
5 [10] et [3 ;4 ;7] 1,5243 [1] ; [2] ; [3; 4 ;7 ;10] ; [5] ; [6;8;9]
6 [5] et [3 ;4 ;7 ;10] 2,207 [1] ; [2] ; [3; 4 ;5 ;7 ;10] ; [6;8;9]
7 [3; 4 ;5 ;7 ;10] et [6;8;9] 3,5226 [1] ; [2] ; [3;4;5;6;7;8;9;10]
8 [1] et [2] 4,362 [1;2] ; [3;4;5;6;7;8;9;10]
9 [1;2] et [3;4;5;6;7;8;9;10] 6,764 [1;2;3;4;5;6;7;8;9;10]

le saut dans les distances de fusion se trouve à la phase 5. la distance d’agglomération


passe de 0,391 à 1,5243. Avec une solution à 6 groupes, les distances d’agglomération
sont relativement homogènes et faibles. Les 6 groupes retenus par la typologie sont
donc : [1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] et [10].

22 Adil ELMARHOUM
Analyse des données.
- Description des groupes.

Le but est de définir le profil des individus composant les différents groupes, pour cela on
utilise les variables de classification pour lesquelles on calcule certaines caractéristiques
telle que la moyenne, la médiane et l’écart type.

Groupes Individus Niveau d’instruction Expérience passée


Moyenne Ecart type Moyenn Ecart
e type
1 1 12 - 205 -
2 2 18 - 182 -
3 3 ;4 ;7 12 0 89 12,3
4 5 8 - 75 -
5 6 ;8 ;9 15,67 0,47 17,67 19,34
6 10 12 - 2 -

On peut définir 6 groupes de salariés :

Groupe 1 :

Salariés à moyen niveau d’instruction et un niveau d’expérience très élevé (salarié 1) ;

Groupe 2 :

Salariés à haut niveau d’instruction et un niveau d’expérience très élevé (salarié 2).

Groupe 3 :

Salariés à moyen niveau d’instruction et un niveau d’expérience moyen (salariés 3 ; 4 et


7) ;

Groupe 4 :

Salariés à faible niveau d’instruction et un niveau d’expérience moyen (salarié 5) ;

Groupe 5 :

Salariés à haut niveau d’instruction et un niveau d’expérience faible (salariés 6 ; 8 et 9) ;

Groupe 6 :

Salariés à moyen niveau d’instruction et très faible niveau d’expérience (salarié 10);

23 Adil ELMARHOUM
Analyse des données.
Les résultats obtenus ci-dessus peuvent être obtenus à l’aide du logiciel SPSS. La
procédure SPSS pour effectuer la classification est la suivante :

- Analyse
Classification
Classification hiérarchique
- Dans Variables, sélectionner les variables de classification.

- Dans Statistiques, cocher chaînes des agrégations et Matrice des distances. Si on connaît le
nombre de groupes, on coche une seule partition et on saisie le nombre de groupes (pour
notre exemple on saisit 6).

- Dans Graphique, cocher arbre hiérarchique.

- Dans Méthode :
Dans méthode d’agrégation, sélectionner Distance moyenne entre classes.
Dans mesure, sélectionner le type de distance, (dans notre exemple, carré de la
distance euclidienne).
Dans transformer les variables, sélectionner standardiser centrer-réduire

- Dans Enregistrer, cocher, si on connaît le nombre de groupes, une seule partition et on


saisie le nombre de groupes (pour notre exemple on saisit 6).

Les résultats de l’analyse sont :

Matrice de proximité : Carré de la distance Euclidienne (après centrage et réduction des


variables)

Il s’agit du carré de la distance entre les individus, on utilise la distance euclidienne définit
par :

∑(X − X iB ) .
2
dAB = iA
i =1

24 Adil ELMARHOUM
Analyse des données.

Matrice de proximité

Carré de la distance Euclidienne


1 2 3 4 5 6 7 8 9 10
1 4,362 3,492 2,135 5,228 9,95 2,432 8,960 6,946 8,135
2 4,362 6,646 5,553 14,087 6,80 5,786 7,249 4,178 10,7
3 3,492 6,646 ,166 1,894 2,83 9,554E-02 1,951 2,036 ,967
4 2,135 5,553 ,166 2,026 3,79 9,673E-03 2,884 2,511 1,935
5 5,228 14,087 1,894 2,026 8,59 1,964 6,762 7,747 2,944
6 9,947 6,798 2,832 3,788 8,592 3,527 ,119 ,348 1,892
7 2,432 5,786 9,554E-02 9,673E-03 1,964 3,53 2,628 2,366 1,671
8 8,960 7,249 1,951 2,884 6,762 ,119 2,628 ,434 1,066
9 6,946 4,178 2,036 2,511 7,747 ,348 2,366 ,434 2,257
10 8,135 10,653 ,967 1,935 2,944 1,89 1,671 1,066 2,257
Ceci est une matrice de dissimilarités

Distance moyenne (entre classes)

Il s’agit de l’algorithme de classification hiérarchique qui visualise les groupes et le niveau


auquel ils ont été formés. Il représente les phases de la typologie en indiquant à chaque fois
la distance entre les groupes agglomérés.
Chaîne des agrégations

Regroupement de Etape d'apparition de


classes la classe Etape
Etape Classe 1 Classe 2 Coefficients Classe 1 Classe 2 suivante
1 4 7 9,673E-03 0 0 3
2 6 8 ,119 0 0 4
3 3 4 ,131 0 1 5
4 6 9 ,391 2 0 7
5 3 10 1,524 3 0 6
6 3 5 2,207 5 0 7
7 3 6 3,523 6 4 9
8 1 2 4,362 0 0 9
9 1 3 6,764 8 7 0

Dans une première étape, un premier groupe est obtenu en agglomérant les 2 individus les
plus proches, c’est à dire pour lesquels la distance est la plus faible, il s’agit des individus 4
et 7 pour lesquels on trouve la plus petite distance (0,009673). On a alors les 9 groupes
suivants :
[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6] ; [8] ; [9] ; [10]

Dans une deuxième étape, un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 0,119 entre l’individu 6 et l’individu 8. On a alors
les 8 groupes suivants :

[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6;8] ; [9] ; [10]

25 Adil ELMARHOUM
Analyse des données.

Dans une troisième étape, un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 0,131 entre l’individu 3 et le groupe [4 ;7]. On a
alors les 7 groupes suivants :

[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8] ; [9] ; [10]

Dans une quatrième étape, un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 0,391 entre l’individu 9 et le groupe [6 ;8]. On a
alors les 6 groupes suivants :

[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] ; [10]

Dans une cinquième étape, un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 1,524 entre l’individu 10 et le groupe [3 ;4 ;7]. On a
alors les 5 groupes suivants :

[1] ; [2] ; [3; 4 ;7 ;10] ; [5] ; [6;8;9]

Dans une sixième étape, un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 2,207 entre l’individu 5 et le groupe [3 ;4 ;7 ;10]. On
a alors les 4 groupes suivants :

[1] ; [2] ; [3; 4 ;5 ;7 ;10] ; [6;8;9]

Dans une septième étape, un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 3,523 entre le groupe[6 ;8 ;9] et le groupe
[3 ;4 ;5 ;7 ;10]. On a alors les 3 groupes suivants :

[1] ; [2] ; [3;4;5;6;7;8;9;10]

Dans une huitième étape, un nouveau groupe est obtenu par fusion des 2 groupes les plus
semblables. La plus petite distance est 4,362 entre l’individu 1 et l’individu 2. On a alors
les 2 groupes suivants :

[1;2] ; [3;4;5;6;7;8;9;10]

Dans une neuvième étape, un nouveau groupe est obtenu par fusion des 2 groupes restant.
On a alors le groupe suivant :

[1;2;3;4;5;6;7;8;9;10]

26 Adil ELMARHOUM
Analyse des données.
Les groupes et leur composition.

On a choisit une solution à 6 groupes. Les 6 groupes retenus par la typologie sont donc :
[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] et [10].

Appartenance à la classe

Observation 6 classes
1:Case 1 1
2:Case 2 2
3:Case 3 3
4:Case 4 3
5:Case 5 4
6:Case 6 5
7:Case 7 3
8:Case 8 5
9:Case 9 5
10:Case 10 6

27 Adil ELMARHOUM

Vous aimerez peut-être aussi