06 Cours

Analyse en composantes
principales
Christine Decaestecker & Marco Saerens
ULB & UCL
LINF 2275 Stat. explor. multidim. 1

A.C.P.: Analyse en Composantes Principales
• Analyse de la structure de la matrice variance-covariance

c-à-d de la variabilité, dispersion des données.
Excepté si l’une des variables peut s’exprimer comme une fonction d’autres, on a
besoin des p variables pour prendre en compte toute la variabilité du système
Objectif de l’ACP: décrire à l’aide de q < p composantes un maximum de
cette variabilité.
• Ce qui permet :
- une réduction des données à q nouveaux descripteurs
- une visualisation des données à 2 ou 3 dimensions (si q = 2 ou 3)
- une interprétation des données : liaisons inter-variables
• Etape intermédiaire souvent utilisée avant d’autres analyses !

• Recherche des composantes principales
Composantes : C1 , C2 ,…, Ck ,…, Cq
Ck = nouvelle variable = combinaison linéaire des variables d’origine X1,…, Xp:
Ck = a1k X1 + a2k X2 + …... + apk Xp coefficients ajk à déterminer
telle que les Ck soient: - 2 à 2 non corrélées,
- de variance maximale,
- d’importance décroissante.
C1 = 1ère composante principale doit être de variance maximale
Géométriquement : C1 détermine une nouvelle direction dans le nuage de points qui
suit l’axe d’allongement (étirement) maximal du nuage.
, … , x ip) ci1 = coordonnée du point i sur l’axe C1
x
, i2
i = (x i1 C1
projection de xi sur C1
p
ci1 ci1 = ∑ a1 j xij

j =1
C1 de variance maximale les projections ci1 sont les plus dispersées possible.
Pour fixer la droite, on impose qu’elle passe par g (centre de gravité) !
(sinon l’ensemble des droites parallèles conviennent)
C1 = droite passant par le centre de gravité réalisant le meilleur ajustement possible du
nuage c-à-d : qui conserve au mieux la distance entre les points (après projection)
=> droite de projection assurant une distorsion minimale.
C2 = 2ème composante, orthogonale à C1 et de variance maximale.
Géométriquement : C2 détermine une droite perpendiculaire à C1 (au point g), suivant un

axe (perpendiculaire au 1er) d’allongement maximum.
=> C1 et C2 déterminent le plan principal : le meilleur plan de projection (de distorsion
minimum). p2
C2
p1
β2 f2
β1 f1
C1
λ1 λ2
C1 est telle que la moyenne des d2 (λi , λi’ ) max.
C2 est ⊥ à C1 et telle que la moyenne des d2 (βi , βi’ ) max.
=> C1 et C2 déterminent le plan tel que d2 (fi , fi’ ) soit maximum.
=> C3 est la droite ⊥ à C1 et C2 (par g) telle que la variance des coord. soit maximum ...

Décomposition de la variance
• La variance se décompose de la manière suivante

Projection sur une droite
• L’opérateur de projection orthogonale, π, sur une droite de vecteur
directeur unitaire v s’écrit
• Avec
• La variance des observations projetées s’écrit alors

Recherche de la projection de variance
maximale
• Nous avons donc

maximale (suite)
• Et donc
• Observons que la matrice Σ est la matrice variance-covariance

• Cette matrice est symétrique définie positive
maximale (suite)
• Nous devons donc maximiser cette variance des observations projetées
• Il s’agit d’un problème d’optimisation sous contrainte

• Nous formons donc la fonction de Lagrange
• Et nous calculons les conditions nécessaires d’optimalité

maximale (suite)
• Nous obtenons ainsi l’équation aux valeurs propres
• Comme la matrice variance-covariance est symétrique définie positive,

les valeures propres sont réelles positives
• Les vecteurs propres peuvent être choisis orthonormés

maximale (suite)
• La variance des observations projetées s’écrit alors
• Et donc la solution est de projeter les données sur le vecteur propre

ayant la valeur propre λ la plus élevée

Recherche des projections de variance
maximale orthogonales au premier axe
• Afin de trouver le second axe de variance maximale, nous recherchons
• Avec v1 étant le premier vecteur propre à valeur propre maximale

• Comme les vecteurs propres de Σ sont naturellement orthonormés, la
solution est de choisir le deuxième vecteur propre de Σ (à deuxième
valeur propre maximale)

Matrice variance-covariance
• Notons que si X est la matrice de données

• Qui contient les vecteurs (xi – g)T en ligne
• La matrice Σ = (n – 1)–1 XTX

Interprétation des valeurs propres
• La somme des valeurs propres correspond à la variance totale
• Chaque valeur propre mesure la part de variance expliquée par l’axe

factoriel correspondant

Approche alternative de la PCA
• Nous présentons une approche alternative de la PCA

• En utilisant cette fois-ci la notion de vecteur aléatoire
– Et donc en ne partant pas des données empiriques comme précédemment
• Soit x = [x1, x2,…, xn] le vecteur aléatoire des n variables aléatoires
(caractéristiques) mesurées sur les individus
• Nous définissons une nouvelle variable y qui est une combinaison
linéaire des variables aléatoires xi
• Nous supposons que v est normalisé

• Nous recherchons la projection du vecteur aléatoire x qui maximise la

variance projetée:
• Calculons d’abord la moyenne de y

• Et ensuite la variance:
• Il faut donc calculer le maximum de cette variance par rapport à v, ce

qui nous ramène au problème d’optimisation suivant (le même que
pour l’approche précédente)

• Avec S étant la matrice variance-covariance (notons que Σ était la
matrice variance-covariance empirique):
• Et S peut être estimé à partir de l’échantillon par
• Nous sommes donc amenés, comme précédemment, à calculer les

valeurs/vecteurs propres de Σ

Résultats:
L’ACP remplace les p variables de départ (variances ≠, corrélation inter-variable)
en q nouvelles composantes (q ≤ p) Ck
• orthogonales 2 à 2 c-à-d cov(Ck , Ck’) = 0 (pour tout k ≠ k’ ), et
• de variances maximales
On peut noter que

• V(C1) ≥ V(C2) … ≥ V(Cq) ™ d’importance décroissante
• le nombre maximum de composantes principales q ≤ p
avec q < p dès que l’une des variables d’origine est une combinaison linéaire
d’autres!
⇒ mise en évidence de relations linéaires dans les données

⇒ les données occupent, en réalité, un sous-espace de dimensions réduites (q < p )
Le nombre maximum de composantes principales = dimension intrinsèque des données

• Choix des r premières composantes principales
r << p réduction de la dimension

objectif : garder un maximum d’information des données initiales.
Mesure de cette information : le % de variance expliquée

r
∑V (C )k
= k =1
Inertie totale
Si les variables originales sont fortement corrélées entre elles, un nombre

réduit de composantes permet d’expliquer 80% à 90% de variance !
Géométriquement : revient à projeter les données dans un sous-espace de

dimension r, centré sur g, reprenant les r premiers axes principaux
d’allongement du nuage ! ⇒ les projections cij sont les plus dispersées possibles
!!

Exemple : données initiales à 3 dimensions distribuées dans un « ballon de rugby »
C1
.
Projection
.
.
. proximité sur le plan C1 , C2 ⇒
C2 ! proximité dans l’espace initial
Plus le nuage est aplati sur C1 , C2 ⇒ moins de variance sur la 3iè dimension.
⇒ % de variance expliquée par C1 , C2
En général :
- Le % de variance expliquée par C1 , C2 , … , Cr = mesure d’aplatissement du nuage
sur le sous-espace des composantes (à r dim.). Plus ce % est grand, meilleure est la
représentation des données dans le sous-espace !
- Les composantes principales sont entièrement déterminées par la matrice V variance-
covariance (vecteurs propres).
=> toute modification de V modification des composantes !!
Remarques :
• Si certaines variables initiales sont très dispersées (σj2), elles vont prendre le
pas sur les autres.
=> les composantes principales tenteront essentiellement d’expliquer la variance due
à ces variables !
=> on peut travailler en données réduites (variables normalisées par sj)
=> toutes les variables auront la même importance (il se peut qu’on perde de l’information)
> données centrées-réduites
=> matrice variance-covariance = R et l’ACP explique la structure de R !

• Autre possibilité : travailler sur les rangs
=> ACP non-paramétrique
=> plus robuste : - pour des données très hétérogènes
- aux dissymétries des distributions
- aux valeurs extrêmes ! (augmente anormalement la variance !)
=> permet d’intégrer des variables qualitatives ordinales !

• Contributions des variables aux composantes
Composante = combinaison linéaire des variables : Ck = a1k X1 + a2k X2 + …. + apk Xp
coeff. ajk = contribution de la variable Xj à la composante Ck
• Interprétation des résultats

1/ Représentation des individus dans le plan principal C2
.
=> peut faire apparaître des groupes d’individus . . .
présentant des similitudes. . . ...
.
. . . . C1
proximités abusives dues aux projections
!
=> la représentation n’est valable que si le % de variance expliquée par C1 et C2 est
suffisamment grand ! (nuage assez aplati sur le plan)
=> vérifier si les proximités se maintiennent dans d’autres plans de projection:

C1 - C3 , C2 - C3 , …
les individus les mieux représentés: points proches du plan (projection peu importante).

2/ Interprétation des composantes principales
corrélations avec les variables initiales C1 C2 C3 K
X1 r11 r12 r13 K
X2 r21 r22 23 K
M M M M K
repérer les variables très corrélées Xp rp1 rp 2 rp 3 K
( r ≈ 1 ou r ≈ -1 )
Interprétation des 2 premières composantes C1 , C2 : cercle des corrélations :

C1 et C2 étant non-corrélées, on a r2 ( c1, xj ) + r2 ( c2, xj ) ≤ 1
=> chaque variable représentée par les coordonnées : (r ( c1 , xj ) , r ( c2 , xj )) est dans
un cercle de rayon 1
C2
⇒ groupes de variables liées ou opposées
.X1
.X5 .X2
.X3
.X4 ! si proches de la circonférence, bien
C1
.X8 représentées par les 2 composantes !
.X6
.X7

3/ Projection de points supplémentaires sur le plan principal après le calcul
des composantes
- individus typiques de groupes d’individus : exemple t1 , t2 , t3 pour 3 groupes ≠
.t2 ⇒ permet de voir si les composantes C1 et C2 sont à même

C2
.t 1 .t 3 de les distinguer
C1 ⇒ idée de ce qui est distinguable (t1 des autres) ou non (t2, t3)!

06 Cours

Transféré par

Droits d'auteur :

Formats disponibles

06 Cours

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

06 Cours

Transféré par

Droits d'auteur :

Formats disponibles

Analyse en composantes

LINF 2275 Stat. explor. multidim. 1

• Analyse de la structure de la matrice variance-covariance

• Etape intermédiaire souvent utilisée avant d’autres analyses !

LINF 2275 Stat. explor. multidim. 2

ci1 ci1 = ∑ a1 j xij

Géométriquement : C2 détermine une droite perpendiculaire à C1 (au point g), suivant un

LINF 2275 Stat. explor. multidim. 4

• La variance se décompose de la manière suivante

LINF 2275 Stat. explor. multidim. 5

• La variance des observations projetées s’écrit alors

LINF 2275 Stat. explor. multidim. 6

LINF 2275 Stat. explor. multidim. 7

• Observons que la matrice Σ est la matrice variance-covariance

• Il s’agit d’un problème d’optimisation sous contrainte

• Et nous calculons les conditions nécessaires d’optimalité

LINF 2275 Stat. explor. multidim. 9

• Comme la matrice variance-covariance est symétrique définie positive,

LINF 2275 Stat. explor. multidim. 10

• Et donc la solution est de projeter les données sur le vecteur propre

LINF 2275 Stat. explor. multidim. 11

• Avec v1 étant le premier vecteur propre à valeur propre maximale

LINF 2275 Stat. explor. multidim. 12

• Notons que si X est la matrice de données

LINF 2275 Stat. explor. multidim. 13

• La somme des valeurs propres correspond à la variance totale

• Chaque valeur propre mesure la part de variance expliquée par l’axe

LINF 2275 Stat. explor. multidim. 14

• Nous présentons une approche alternative de la PCA

• Nous supposons que v est normalisé

LINF 2275 Stat. explor. multidim. 15

• Nous recherchons la projection du vecteur aléatoire x qui maximise la

• Calculons d’abord la moyenne de y

LINF 2275 Stat. explor. multidim. 16

• Il faut donc calculer le maximum de cette variance par rapport à v, ce

LINF 2275 Stat. explor. multidim. 17

• Et S peut être estimé à partir de l’échantillon par

• Nous sommes donc amenés, comme précédemment, à calculer les

LINF 2275 Stat. explor. multidim. 18

On peut noter que

⇒ mise en évidence de relations linéaires dans les données

Le nombre maximum de composantes principales = dimension intrinsèque des données

LINF 2275 Stat. explor. multidim. 19

r << p réduction de la dimension

Mesure de cette information : le % de variance expliquée

Si les variables originales sont fortement corrélées entre elles, un nombre

Géométriquement : revient à projeter les données dans un sous-espace de

LINF 2275 Stat. explor. multidim. 20

=> matrice variance-covariance = R et l’ACP explique la structure de R !

LINF 2275 Stat. explor. multidim. 22

• Interprétation des résultats

=> vérifier si les proximités se maintiennent dans d’autres plans de projection:

LINF 2275 Stat. explor. multidim. 23

Interprétation des 2 premières composantes C1 , C2 : cercle des corrélations :

LINF 2275 Stat. explor. multidim. 24

.t2 ⇒ permet de voir si les composantes C1 et C2 sont à même

LINF 2275 Stat. explor. multidim. 25

Vous aimerez peut-être aussi