Cours - ACP - Copie
Cours - ACP - Copie
Cours - ACP - Copie
Rachid Benslimane
1. BUT
Analyser des tableaux de données quantitatives X de n lignes d’individus en fonction de p
colonnes de variables (critères), ayant la forme suivante :
2. OBJECTIF GENERAL
Permettre une représentation des individus dans un espace de dimension réduite avec une
préservation des distances entre les individus et assurant un minimum de perte d’information.
C’est ainsi qu’il sera déduit de la matrice initiale X, une matrice finale Y de dimension réduite
(Tableau des composantes principales).
3. OBJECTIFS SPECIFIQUES
- Explorer les ressemblances entre individus.
- Déterminer les variables sur lesquelles sont fondées les ressemblances / dissemblances
- Explorer les liaisons entre variables
- Cas de parfaites corrélations entre les variables se traduisant par un seul axe factoriel
en cas d’application de l’ACP. Généralement, lorsque det(RX) est inférieur à 0.00001,
on considère qu’il y a de très fortes redondances dans les données.
- Cas où les variables sont deux à deux indépendantes qui se traduit par une matrice de
corrélation RX égale à la matrice unité : det(RX)=1 (toutes les corrélations croisées
sont nulles), L’application de l’ACP aboutira dans ce cas à un nombre d’axes
factoriels égal au nombre de variables.
Le test de sphéricité de Bartlett vise justement à vérifier si l’on s’écarte
significativement de cette situation de référence det(RX) = 1 (hypothèse H0). La
statistique de test s’écrit :
1
2𝑝+5 𝑝(𝑝−1)
𝜒 2 = −(𝑛 − 1 − )ln(det(𝑅𝑋 )) ≡ 𝜒 2 ( )
6 2
On doit donc tenter de rejeter l'hypothèse nulle i.e. que le test doit être significatif (la probabilité
d'obtenir la valeur du test doit être plus petite que .05). Toutefois le test est très sensible au
nombre de cas; il est presque toujours significatif lorsque le nombre de cas est grand.
Algorithme de l’ACP
Soient :
n le nombre d’individus,
p le nombre de variables principales
q le nombre de variable de l’espace réduit
X la matrice des données à analyser.
2
▪ la matrice de variance-covariance si les
données sont homogènes avec :
1
S=𝑉 = 𝑛 𝑡𝑋̃𝑋̃où 𝑋̃ est la matrice X
centrée de terme général :
𝑥̃𝑖𝑗 = 𝑥𝑖𝑗 − 𝑥̅𝑗
Sp1 … … Spp-
Les axes engendrés par les vecteurs (𝑢1 , 𝑢2 , … . . , 𝑢𝑞 ) sont appelés les axes principaux
d’inertie.
Plusieurs critères peuvent nous guider pour le choix du nombre d'axes principaux :
- "méthode du coude" on examine la courbe de décroissance des valeurs propres
pour déterminer les points où la pente diminue de façon brutale ; seuls les axes
qui précèdent ce changement de pente seront retenus.
- Si l'analyse porte sur p variables et n > p individus, la variation totale est
répartie sur p axes. On peut alors choisir de conserver les axes dont la
3
100%
contribution relative est supérieure à . Dans le cas d'une ACP normée,
p
cela revient à conserver les axes correspondants aux valeurs propres
supérieures à 1 (Kaiser 1960).
- Retenir les q premiers axes principaux dont l’inertie expliquée cumulée est
supérieure à 80%. Cette inertie, notée 𝐼𝐸1 ..𝐸𝑞 , est définie par :
100(𝜆1 + ⋯ + 𝜆𝑞 )
𝐼𝐸1 ..𝐸𝑞 = %
𝜆1 + ⋯ + 𝜆𝑞 + . . + 𝜆𝑝
4
2 Y2ik
cosik = avec d2i = d2 (i, G) où G est le centre de gravité des
d2i
individus dans l’espace originel). Si on considère que les
individus xi sont centrés sur le centre de de gravité des
𝑝
individus. 𝑑𝑖2 = ∑𝑗=1 𝑚𝑗 𝑥̃𝑖𝑗
2
5
L'examen du tableau des contributions des variables peut permettre d'identifier des variables
qui ont un rôle dominant dans la formation d'un axe factoriel. Comme précédemment, on
100%
retient (par exemple) les variables dont la contribution relative est supérieure à . On
p
note également si cette contribution intervient dans la partie positive ou dans la partie
négative de l'axe.
6
1 1 + 𝜌𝑍 (𝑌𝑘 )
𝑢𝑧 = √(𝑛 − 3). ( 𝑙𝑛 )
2 1 − 𝜌𝑍 (𝑌𝑘 )
̅̅̅̅
𝜇𝑄,𝑘 −𝑌
𝑉𝑇𝑄,𝑘 = 𝑘
avec 𝑌̅𝑘 = 0
𝑛−𝑛𝑄 𝜆𝑘
√ 𝑛−1 .𝑛
𝑄