Cours - ACP - Copie

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 7

ANALYSE EN COMPOSANTES PRINCIPALES

Rachid Benslimane

1. BUT
Analyser des tableaux de données quantitatives X de n lignes d’individus en fonction de p
colonnes de variables (critères), ayant la forme suivante :

𝑥11 𝑥12 … .. 𝑥1𝑗 … 𝑥1𝑝


𝑥21 𝑥22 … .. 𝑥2𝑗 … 𝑥2𝑝
....

𝑋= 𝑥𝑖1 𝑥𝑖2 … .. 𝑥𝑖𝑗 … 𝑥𝑖𝑝



..
(𝑥𝑛1 𝑥𝑛2 … .. 𝑥𝑛𝑗 … 𝑥𝑛𝑝 )

2. OBJECTIF GENERAL

Permettre une représentation des individus dans un espace de dimension réduite avec une
préservation des distances entre les individus et assurant un minimum de perte d’information.
C’est ainsi qu’il sera déduit de la matrice initiale X, une matrice finale Y de dimension réduite
(Tableau des composantes principales).

3. OBJECTIFS SPECIFIQUES
- Explorer les ressemblances entre individus.
- Déterminer les variables sur lesquelles sont fondées les ressemblances / dissemblances
- Explorer les liaisons entre variables

4. CONDITIONS PRELIMINAIRES A UNE ANALYSE ACP


4.1. Test sur la matrice de corrélation
L’ACP n’est pas justifiable dans les deux cas extrêmes suivants :

- Cas de parfaites corrélations entre les variables se traduisant par un seul axe factoriel
en cas d’application de l’ACP. Généralement, lorsque det(RX) est inférieur à 0.00001,
on considère qu’il y a de très fortes redondances dans les données.
- Cas où les variables sont deux à deux indépendantes qui se traduit par une matrice de
corrélation RX égale à la matrice unité : det(RX)=1 (toutes les corrélations croisées
sont nulles), L’application de l’ACP aboutira dans ce cas à un nombre d’axes
factoriels égal au nombre de variables.
Le test de sphéricité de Bartlett vise justement à vérifier si l’on s’écarte
significativement de cette situation de référence det(RX) = 1 (hypothèse H0). La
statistique de test s’écrit :

1
2𝑝+5 𝑝(𝑝−1)
𝜒 2 = −(𝑛 − 1 − )ln(det(𝑅𝑋 )) ≡ 𝜒 2 ( )
6 2

Sous H0, elle suit une loi du 2 à [p x (p-1) / 2] degrés de liberté.

On doit donc tenter de rejeter l'hypothèse nulle i.e. que le test doit être significatif (la probabilité
d'obtenir la valeur du test doit être plus petite que .05). Toutefois le test est très sensible au
nombre de cas; il est presque toujours significatif lorsque le nombre de cas est grand.

4.2. Examen individuel des variables


Lorsque nous sommes en présence d’une variable qui n’est en corrélation avec aucune autre
dans la matrice, il est recommandé de retrancher cette variable avant de procéder à une ACP.
La mesure de Kaiser-Meyer-Olkin (KMO) indique la pertinence des variables. Un KMO élevé
indique qu'il existe une solution factorielle statistiquement acceptable qui représente les
relations entre les variables.
Pour être conservée dans une ACP, une variable doit obtenir une mesure KMO dépassant 0.5.

Algorithme de l’ACP

Soient :
n le nombre d’individus,
p le nombre de variables principales
q le nombre de variable de l’espace réduit
X la matrice des données à analyser.

- Description élémentaire des variables par le calcul des


moyennes arithmétiques et des écarts types selon les
formules suivantes :

o 𝑥̅𝑗 = ∑𝑛𝑖=1 𝑥𝑖𝑗 /𝑛


1
o 𝜎𝑗 = √𝑛 ∑𝑛𝑖=1(𝑥𝑖𝑗 − 𝑥̅𝑗 )2
o Calcul de la matrice à diagonaliser S. Elle
correspond à :

2
▪ la matrice de variance-covariance si les
données sont homogènes avec :
1
S=𝑉 = 𝑛 𝑡𝑋̃𝑋̃où 𝑋̃ est la matrice X
centrée de terme général :
𝑥̃𝑖𝑗 = 𝑥𝑖𝑗 − 𝑥̅𝑗

▪ la matrice de corrélation C si les données


sont hétérogènes avec :
1
𝐶 = 𝑡𝑋 ̃𝑟 𝑋
̃𝑟 où 𝑋
̃𝑟 est la matrice X centrée
𝑛
réduite de terme général:
(𝑥𝑖𝑗 − 𝑥̅𝑗 )
𝑥̃𝑟𝑖𝑗 =
𝜎𝑗

- Calcul des vecteurs directeurs des axes principaux


d’inertie (𝑢1 , 𝑢2 , … . . , 𝑢𝑞 ) qui sont les vecteurs propres
normés associés aux q plus grandes valeurs propres 𝜆1 >
𝜆2 >> 𝜆𝑞 de S. Les valeurs propres sont calculées selon
l’équation Det (S -  Id) = 0 avec :
S11- … … S1p
S-  Id = S12 S22- … S2p

Sp1 … … Spp-

Les axes engendrés par les vecteurs (𝑢1 , 𝑢2 , … . . , 𝑢𝑞 ) sont appelés les axes principaux
d’inertie.

Plusieurs critères peuvent nous guider pour le choix du nombre d'axes principaux :
- "méthode du coude" on examine la courbe de décroissance des valeurs propres
pour déterminer les points où la pente diminue de façon brutale ; seuls les axes
qui précèdent ce changement de pente seront retenus.
- Si l'analyse porte sur p variables et n > p individus, la variation totale est
répartie sur p axes. On peut alors choisir de conserver les axes dont la

3
100%
contribution relative est supérieure à . Dans le cas d'une ACP normée,
p
cela revient à conserver les axes correspondants aux valeurs propres
supérieures à 1 (Kaiser 1960).
- Retenir les q premiers axes principaux dont l’inertie expliquée cumulée est
supérieure à 80%. Cette inertie, notée 𝐼𝐸1 ..𝐸𝑞 , est définie par :
100(𝜆1 + ⋯ + 𝜆𝑞 )
𝐼𝐸1 ..𝐸𝑞 = %
𝜆1 + ⋯ + 𝜆𝑞 + . . + 𝜆𝑝

- Calcul de la matrice Y des composantes principales


Y = Y1, Y2,…, Yq , avec :
𝑌𝑘 = 𝑋̃𝑢𝑘 . ou 𝑌𝑘 = 𝑋̃𝑟 𝑢𝐾 .
La composante Yk est le vecteur renfermant les cordonnées des projections des individus sur
l’axe k. Pour obtenir ces coordonnées, on écrit que chaque composante principale est une
combinaison linéaire des variables initiales.
La variance d’une composante principale Yk est égale à l’inertie portée par l’axe principal
défini par λk .
Les composantes principales étant non corrélées deux à deux, les axes associés sont alors
orthogonaux.

6. CALCUL DES AIDES A L’INTERPRETATION


6.1 Description des individus :
6 .1.1 Qualité ponctuelle de la représentation / contribution relative
On représente chacun des individus xi par sa projection sur les plans
factoriels (uk, uk’). Les coordonnées 𝑌𝑖𝑘 de l’individus xi dans chacun
des axes uk sont données par :
𝑌𝑖𝑘 = 𝑡𝑥𝑖 𝑀𝑢𝑘 avec M=Id ou M= 𝐷 1
𝜎2

La qualité ponctuelle de la représentation d’un individu x i sur le plan


(uk, uk’) est mesurée en considérant le cosinus de l’angle α qu’il fait
avec ce plan. La quantité 𝑐𝑜𝑠 2 𝛼 est appelée contribution relative du
2 2
plan (uk,uk’) à l’individu i et est notée 𝜌𝑖 = cosik + cosik′ où les
2
contributions relatives cosik , représentant la qualité de la
représentation de l’individu sur la kème composante, sont données par :

4
2 Y2ik
cosik = avec d2i = d2 (i, G) où G est le centre de gravité des
d2i
individus dans l’espace originel). Si on considère que les
individus xi sont centrés sur le centre de de gravité des
𝑝
individus. 𝑑𝑖2 = ∑𝑗=1 𝑚𝑗 𝑥̃𝑖𝑗
2

Une bonne représentation du ième individu sur le plan (uk, uk’)


correspond à une valeur de 𝜌𝑖 proche de 1.

6.1.2 Contributions des individus à la formation d'un axe :


Contributions absolues
Il s’agit de quantifier la contribution de l’individu dans la
définition de la composante. Cette contribution, notée CTRik,
est définie par :
2
𝑝𝑖 𝑌𝑖𝑘
𝐶𝑇𝑅𝑖𝑘 = ∑𝑛𝑖=1 𝑝𝑖 𝐶𝑇𝑅𝑖𝑘 =1
𝜆𝑘
Plus CTRik est proche de 1 et plus l’individu ‘i’ contribue à la
détermination de l’axe uk.
Il s’agit de relever les individus qui ont la plus forte
contribution à la formation de l'axe. Par exemple, on retient
(pour l'analyse) les individus dont la contribution absolue est
100
supérieure à %. On note également si cette contribution
𝑝
intervient dans la partie positive ou dans la partie négative de
l'axe.

Si un individu a une contribution très forte à la formation d'un axe, on


peut choisir de recommencer l'analyse en retirant cet individu, puis de
l'introduire en tant qu'individu supplémentaire

6 .2 Contributions des variables

5
L'examen du tableau des contributions des variables peut permettre d'identifier des variables
qui ont un rôle dominant dans la formation d'un axe factoriel. Comme précédemment, on
100%
retient (par exemple) les variables dont la contribution relative est supérieure à . On
p
note également si cette contribution intervient dans la partie positive ou dans la partie
négative de l'axe.

6.3 Représentations graphiques des cercles de corrélation


Les « proximités » entre les composantes principales et les
variables initiales sont mesurées par les covariances, et surtout
les corrélations.
La coordonnée de la variable active Xj avec la composante
principale Yk est le coefficient de corrélation entre Xj et Yk ,
noté 𝜌(𝑋𝑗 , 𝑌𝑘 ). On a :
√𝜆𝑘 𝑈𝑗𝑘
𝜌(𝑋𝑗 , 𝑌𝑘 ) =
𝜎𝑗
En notation matricielle, la matrice des coefficients de
corrélation 𝜌(𝑋𝑗 , 𝑌𝑘 ), entre les variables X1, X2, ….,Xp et les
composantes principales Y1, ….. , Yq, notée RXY, est donnée
par :

𝑅𝑋𝑌 = 𝐷1⁄𝜎 𝑈𝐷√𝜆

6.4 Variables illustratives


En illustratives, on utilise des variables introduisant des considérations subjectives (prix,
gamme) ou calculées après coup pour une meilleure interprétation (rapport poids/puissance)

6.4.1 Variables illustratives quantitatives


Il s’agit de calculer les corrélations des variables supplémentaires z avec les composantes
principales
𝟏 𝒏 𝟏 𝒏
∑𝒊=𝟏(𝒛𝒊 − 𝒛̅ )(𝒀𝒊𝒌 − ̅̅̅̅̅
𝒀 𝒌 ) ∑ 𝒀 (𝒛𝒊 − ̅̅̅̅̅𝒛 )
𝒏 𝒏 𝒊=𝟏 𝒊𝒌
𝝆𝒛 (𝒀𝒌 ) = =
𝝈𝒛 . 𝝈𝒀𝒌 𝝈𝒛 √𝝀𝒌
Tester la significativité du lien avec la statistique basée sur la transformation de Fisher :

6
1 1 + 𝜌𝑍 (𝑌𝑘 )
𝑢𝑧 = √(𝑛 − 3). ( 𝑙𝑛 )
2 1 − 𝜌𝑍 (𝑌𝑘 )

Lien significatif à 5% si |uZ | ≥ 2

6.4.2 Variables illustratives qualitatives


Comparer les moyennes des composantes conditionnellement aux groupes définis par les
modalités de la variable illustrative qualitative notée Q.
A cet effet, on utilise la valeur test (Morineau, 1984)

̅̅̅̅
𝜇𝑄,𝑘 −𝑌
𝑉𝑇𝑄,𝑘 = 𝑘
avec 𝑌̅𝑘 = 0
𝑛−𝑛𝑄 𝜆𝑘
√ 𝑛−1 .𝑛
𝑄

Ecart significatif à 5% si 𝑉𝑇𝑄,𝑘 ≥ 2


1
𝜇𝑄,𝑘 = ∑ 𝑌𝑖𝑘
𝑛𝑄
𝑖:𝑌𝑖=𝑚𝑜𝑑

6.5 Individus illustratifs (supplémentaires)


Dans certaines situations, il est souhaitable de situer certains individus jugés particuliers par
rapport aux individus actifs.

Vous aimerez peut-être aussi