06 Cours

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 25

Analyse en composantes

principales
Christine Decaestecker & Marco Saerens
ULB & UCL

LINF 2275 Stat. explor. multidim. 1


A.C.P.: Analyse en Composantes Principales

• Analyse de la structure de la matrice variance-covariance


c-à-d de la variabilité, dispersion des données.
Excepté si l’une des variables peut s’exprimer comme une fonction d’autres, on a
besoin des p variables pour prendre en compte toute la variabilité du système
Objectif de l’ACP: décrire à l’aide de q < p composantes un maximum de
cette variabilité.
• Ce qui permet :
- une réduction des données à q nouveaux descripteurs
- une visualisation des données à 2 ou 3 dimensions (si q = 2 ou 3)
- une interprétation des données : liaisons inter-variables

• Etape intermédiaire souvent utilisée avant d’autres analyses !

LINF 2275 Stat. explor. multidim. 2


• Recherche des composantes principales
Composantes : C1 , C2 ,…, Ck ,…, Cq
Ck = nouvelle variable = combinaison linéaire des variables d’origine X1,…, Xp:
Ck = a1k X1 + a2k X2 + …... + apk Xp coefficients ajk à déterminer
telle que les Ck soient: - 2 à 2 non corrélées,
- de variance maximale,
- d’importance décroissante.
C1 = 1ère composante principale doit être de variance maximale
Géométriquement : C1 détermine une nouvelle direction dans le nuage de points qui
suit l’axe d’allongement (étirement) maximal du nuage.
, … , x ip) ci1 = coordonnée du point i sur l’axe C1
x
, i2
i = (x i1 C1
projection de xi sur C1
p

ci1 ci1 = ∑ a1 j xij


j =1

C1 de variance maximale les projections ci1 sont les plus dispersées possible.
Pour fixer la droite, on impose qu’elle passe par g (centre de gravité) !
(sinon l’ensemble des droites parallèles conviennent)
LINF 2275 Stat. explor. multidim. 3
C1 = droite passant par le centre de gravité réalisant le meilleur ajustement possible du
nuage c-à-d : qui conserve au mieux la distance entre les points (après projection)
=> droite de projection assurant une distorsion minimale.
C2 = 2ème composante, orthogonale à C1 et de variance maximale.

Géométriquement : C2 détermine une droite perpendiculaire à C1 (au point g), suivant un


axe (perpendiculaire au 1er) d’allongement maximum.
=> C1 et C2 déterminent le plan principal : le meilleur plan de projection (de distorsion
minimum). p2
C2
p1
β2 f2

β1 f1
C1
λ1 λ2
C1 est telle que la moyenne des d2 (λi , λi’ ) max.
C2 est ⊥ à C1 et telle que la moyenne des d2 (βi , βi’ ) max.
=> C1 et C2 déterminent le plan tel que d2 (fi , fi’ ) soit maximum.
=> C3 est la droite ⊥ à C1 et C2 (par g) telle que la variance des coord. soit maximum ...

LINF 2275 Stat. explor. multidim. 4


Décomposition de la variance

• La variance se décompose de la manière suivante

LINF 2275 Stat. explor. multidim. 5


Projection sur une droite
• L’opérateur de projection orthogonale, π, sur une droite de vecteur
directeur unitaire v s’écrit

• Avec

• La variance des observations projetées s’écrit alors

LINF 2275 Stat. explor. multidim. 6


Recherche de la projection de variance
maximale
• Nous avons donc

LINF 2275 Stat. explor. multidim. 7


Recherche de la projection de variance
maximale (suite)
• Et donc

• Observons que la matrice Σ est la matrice variance-covariance


• Cette matrice est symétrique définie positive
LINF 2275 Stat. explor. multidim. 8
Recherche de la projection de variance
maximale (suite)
• Nous devons donc maximiser cette variance des observations projetées

• Il s’agit d’un problème d’optimisation sous contrainte


• Nous formons donc la fonction de Lagrange

• Et nous calculons les conditions nécessaires d’optimalité

LINF 2275 Stat. explor. multidim. 9


Recherche de la projection de variance
maximale (suite)
• Nous obtenons ainsi l’équation aux valeurs propres

• Comme la matrice variance-covariance est symétrique définie positive,


les valeures propres sont réelles positives
• Les vecteurs propres peuvent être choisis orthonormés

LINF 2275 Stat. explor. multidim. 10


Recherche de la projection de variance
maximale (suite)
• La variance des observations projetées s’écrit alors

• Et donc la solution est de projeter les données sur le vecteur propre


ayant la valeur propre λ la plus élevée

LINF 2275 Stat. explor. multidim. 11


Recherche des projections de variance
maximale orthogonales au premier axe
• Afin de trouver le second axe de variance maximale, nous recherchons

• Avec v1 étant le premier vecteur propre à valeur propre maximale


• Comme les vecteurs propres de Σ sont naturellement orthonormés, la
solution est de choisir le deuxième vecteur propre de Σ (à deuxième
valeur propre maximale)

LINF 2275 Stat. explor. multidim. 12


Matrice variance-covariance

• Notons que si X est la matrice de données


• Qui contient les vecteurs (xi – g)T en ligne
• La matrice Σ = (n – 1)–1 XTX

LINF 2275 Stat. explor. multidim. 13


Interprétation des valeurs propres

• La somme des valeurs propres correspond à la variance totale

• Chaque valeur propre mesure la part de variance expliquée par l’axe


factoriel correspondant

LINF 2275 Stat. explor. multidim. 14


Approche alternative de la PCA

• Nous présentons une approche alternative de la PCA


• En utilisant cette fois-ci la notion de vecteur aléatoire
– Et donc en ne partant pas des données empiriques comme précédemment
• Soit x = [x1, x2,…, xn] le vecteur aléatoire des n variables aléatoires
(caractéristiques) mesurées sur les individus
• Nous définissons une nouvelle variable y qui est une combinaison
linéaire des variables aléatoires xi

• Nous supposons que v est normalisé

LINF 2275 Stat. explor. multidim. 15


Approche alternative de la PCA

• Nous recherchons la projection du vecteur aléatoire x qui maximise la


variance projetée:

• Calculons d’abord la moyenne de y

LINF 2275 Stat. explor. multidim. 16


Approche alternative de la PCA

• Et ensuite la variance:

• Il faut donc calculer le maximum de cette variance par rapport à v, ce


qui nous ramène au problème d’optimisation suivant (le même que
pour l’approche précédente)

LINF 2275 Stat. explor. multidim. 17


Approche alternative de la PCA
• Avec S étant la matrice variance-covariance (notons que Σ était la
matrice variance-covariance empirique):

• Et S peut être estimé à partir de l’échantillon par

• Nous sommes donc amenés, comme précédemment, à calculer les


valeurs/vecteurs propres de Σ

LINF 2275 Stat. explor. multidim. 18


Résultats:
L’ACP remplace les p variables de départ (variances ≠, corrélation inter-variable)
en q nouvelles composantes (q ≤ p) Ck
• orthogonales 2 à 2 c-à-d cov(Ck , Ck’) = 0 (pour tout k ≠ k’ ), et
• de variances maximales

On peut noter que


• V(C1) ≥ V(C2) … ≥ V(Cq) ™ d’importance décroissante
• le nombre maximum de composantes principales q ≤ p
avec q < p dès que l’une des variables d’origine est une combinaison linéaire
d’autres!

⇒ mise en évidence de relations linéaires dans les données


⇒ les données occupent, en réalité, un sous-espace de dimensions réduites (q < p )

Le nombre maximum de composantes principales = dimension intrinsèque des données

LINF 2275 Stat. explor. multidim. 19


• Choix des r premières composantes principales

r << p réduction de la dimension


objectif : garder un maximum d’information des données initiales.

Mesure de cette information : le % de variance expliquée


r

∑V (C )k
= k =1
Inertie totale

Si les variables originales sont fortement corrélées entre elles, un nombre


réduit de composantes permet d’expliquer 80% à 90% de variance !

Géométriquement : revient à projeter les données dans un sous-espace de


dimension r, centré sur g, reprenant les r premiers axes principaux
d’allongement du nuage ! ⇒ les projections cij sont les plus dispersées possibles
!!

LINF 2275 Stat. explor. multidim. 20


Exemple : données initiales à 3 dimensions distribuées dans un « ballon de rugby »
C1

.
Projection
.
.
. proximité sur le plan C1 , C2 ⇒
C2 ! proximité dans l’espace initial

Plus le nuage est aplati sur C1 , C2 ⇒ moins de variance sur la 3iè dimension.
⇒ % de variance expliquée par C1 , C2

En général :
- Le % de variance expliquée par C1 , C2 , … , Cr = mesure d’aplatissement du nuage
sur le sous-espace des composantes (à r dim.). Plus ce % est grand, meilleure est la
représentation des données dans le sous-espace !
- Les composantes principales sont entièrement déterminées par la matrice V variance-
covariance (vecteurs propres).
=> toute modification de V modification des composantes !!
LINF 2275 Stat. explor. multidim. 21
Remarques :
• Si certaines variables initiales sont très dispersées (σj2), elles vont prendre le
pas sur les autres.
=> les composantes principales tenteront essentiellement d’expliquer la variance due
à ces variables !
=> on peut travailler en données réduites (variables normalisées par sj)
=> toutes les variables auront la même importance (il se peut qu’on perde de l’information)
> données centrées-réduites

=> matrice variance-covariance = R et l’ACP explique la structure de R !


• Autre possibilité : travailler sur les rangs
=> ACP non-paramétrique
=> plus robuste : - pour des données très hétérogènes
- aux dissymétries des distributions
- aux valeurs extrêmes ! (augmente anormalement la variance !)
=> permet d’intégrer des variables qualitatives ordinales !

LINF 2275 Stat. explor. multidim. 22


• Contributions des variables aux composantes
Composante = combinaison linéaire des variables : Ck = a1k X1 + a2k X2 + …. + apk Xp
coeff. ajk = contribution de la variable Xj à la composante Ck

• Interprétation des résultats


1/ Représentation des individus dans le plan principal C2
.
=> peut faire apparaître des groupes d’individus . . .
présentant des similitudes. . . ...
.
. . . . C1
proximités abusives dues aux projections
!
=> la représentation n’est valable que si le % de variance expliquée par C1 et C2 est
suffisamment grand ! (nuage assez aplati sur le plan)

=> vérifier si les proximités se maintiennent dans d’autres plans de projection:


C1 - C3 , C2 - C3 , …

les individus les mieux représentés: points proches du plan (projection peu importante).

LINF 2275 Stat. explor. multidim. 23


2/ Interprétation des composantes principales
corrélations avec les variables initiales C1 C2 C3 K
X1 r11 r12 r13 K
X2 r21 r22 23 K
M M M M K
repérer les variables très corrélées Xp rp1 rp 2 rp 3 K
( r ≈ 1 ou r ≈ -1 )

Interprétation des 2 premières composantes C1 , C2 : cercle des corrélations :


C1 et C2 étant non-corrélées, on a r2 ( c1, xj ) + r2 ( c2, xj ) ≤ 1
=> chaque variable représentée par les coordonnées : (r ( c1 , xj ) , r ( c2 , xj )) est dans
un cercle de rayon 1
C2
⇒ groupes de variables liées ou opposées
.X1
.X5 .X2
.X3
.X4 ! si proches de la circonférence, bien
C1
.X8 représentées par les 2 composantes !
.X6
.X7

LINF 2275 Stat. explor. multidim. 24


3/ Projection de points supplémentaires sur le plan principal après le calcul
des composantes
- individus typiques de groupes d’individus : exemple t1 , t2 , t3 pour 3 groupes ≠

.t2 ⇒ permet de voir si les composantes C1 et C2 sont à même


C2

.t 1 .t 3 de les distinguer
C1 ⇒ idée de ce qui est distinguable (t1 des autres) ou non (t2, t3)!

LINF 2275 Stat. explor. multidim. 25

Vous aimerez peut-être aussi