06 Cours
06 Cours
06 Cours
principales
Christine Decaestecker & Marco Saerens
ULB & UCL
C1 de variance maximale les projections ci1 sont les plus dispersées possible.
Pour fixer la droite, on impose qu’elle passe par g (centre de gravité) !
(sinon l’ensemble des droites parallèles conviennent)
LINF 2275 Stat. explor. multidim. 3
C1 = droite passant par le centre de gravité réalisant le meilleur ajustement possible du
nuage c-à-d : qui conserve au mieux la distance entre les points (après projection)
=> droite de projection assurant une distorsion minimale.
C2 = 2ème composante, orthogonale à C1 et de variance maximale.
β1 f1
C1
λ1 λ2
C1 est telle que la moyenne des d2 (λi , λi’ ) max.
C2 est ⊥ à C1 et telle que la moyenne des d2 (βi , βi’ ) max.
=> C1 et C2 déterminent le plan tel que d2 (fi , fi’ ) soit maximum.
=> C3 est la droite ⊥ à C1 et C2 (par g) telle que la variance des coord. soit maximum ...
• Avec
• Et ensuite la variance:
∑V (C )k
= k =1
Inertie totale
.
Projection
.
.
. proximité sur le plan C1 , C2 ⇒
C2 ! proximité dans l’espace initial
Plus le nuage est aplati sur C1 , C2 ⇒ moins de variance sur la 3iè dimension.
⇒ % de variance expliquée par C1 , C2
En général :
- Le % de variance expliquée par C1 , C2 , … , Cr = mesure d’aplatissement du nuage
sur le sous-espace des composantes (à r dim.). Plus ce % est grand, meilleure est la
représentation des données dans le sous-espace !
- Les composantes principales sont entièrement déterminées par la matrice V variance-
covariance (vecteurs propres).
=> toute modification de V modification des composantes !!
LINF 2275 Stat. explor. multidim. 21
Remarques :
• Si certaines variables initiales sont très dispersées (σj2), elles vont prendre le
pas sur les autres.
=> les composantes principales tenteront essentiellement d’expliquer la variance due
à ces variables !
=> on peut travailler en données réduites (variables normalisées par sj)
=> toutes les variables auront la même importance (il se peut qu’on perde de l’information)
> données centrées-réduites
les individus les mieux représentés: points proches du plan (projection peu importante).
.t 1 .t 3 de les distinguer
C1 ⇒ idée de ce qui est distinguable (t1 des autres) ou non (t2, t3)!