Valpro STA201
Valpro STA201
Valpro STA201
Gilbert Saporta
Conservatoire National des Arts et Métiers,Paris
[email protected]
Introduction
Combien d’axes en ACP, AFC, ACM?
Qu’est-ce qu’une grande contribution?
Comment détecter les « outliers »?
2
Cet exposé:
Un panorama des critères les plus importants
3
1.Composantes principales
Approche « multivariate analysis »: hypothèses
de lois. Intérêt pour les relations entre variables,
individus anonymes et interchangeables.
4
Un exemple: niveaux de vie dans 51 villes, 17
variables économiques
source : Union de Banques Suisses “ Prices and Earnings around the Globe ”, repris dans
A.Morineau, T.Aluja-Banet “ Analyse en Composantes principales ”, Cisia.Ceresta, 1998.
5
6
7
1.1 Valeurs propres
Hypothèses intéressantes
pour données centrées-réduites: λ i ≠ 0 or λ i > 1 ?
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| NUMERO | VALEUR | POURCENT.| POURCENT.| |
| | PROPRE | | CUMULE | |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| 1 | 6.0506 | 35.59 | 35.59 | ******************************************************************************** |
| 2 | 2.9257 | 17.21 | 52.80 | *************************************** |
| 3 | 2.4905 | 14.65 | 67.45 | ********************************* |
| 4 | 1.2691 | 7.47 | 74.92 | ***************** |
| 5 | 0.9784 | 5.76 | 80.67 | ************* |
| 6 | 0.6530 | 3.84 | 84.51 | ********* |
| 7 | 0.6170 | 3.63 | 88.14 | ********* |
| 8 | 0.4878 | 2.87 | 91.01 | ******* |
| 9 | 0.4215 | 2.48 | 93.49 | ****** |
| 10 | 0.3269 | 1.92 | 95.41 | ***** |
| 11 | 0.2257 | 1.33 | 96.74 | *** |
| 12 | 0.1843 | 1.08 | 97.83 | *** |
| 13 | 0.1574 | 0.93 | 98.75 | *** |
| 14 | 0.0955 | 0.56 | 99.31 | ** |
| 15 | 0.0555 | 0.33 | 99.64 | * |
| 16 | 0.0481 | 0.28 | 99.92 | * |
| 17 | 0.0131 | 0.08 | 100.00 | * |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
8
test de sphéricité:
2 p + 11 a
(n − )( p − k ) ln( ) ≈ χ 2( p − k + 2 )( p − k +1)/ 2
6 g
a et g moyennes arithmétiques et géométriques
des dernières p-k valeurs propres
distributions asymptotiques d’Anderson
n − 1( λ i − λ i ) ≈ N (0; λ i 2)
9
La méthode « delta »
⎛ σ (θ ) ⎞
Soit T tel que T → N ⎜θ ; ⎟
⎝ n ⎠
⎛ g '(θ )σ (θ ) ⎞
alors g (T ) → N ⎜ g (θ ); ⎟
⎝ n ⎠
⎛ 2 ⎞
ˆ ( )
ln λi ∼ N ⎜⎜ ln(λi ); ⎟⎟
n −1 ⎠
⎝
10
Intervalles de confiance d’Anderson
2 2
λ i exp( −196
. ) < λ < λ i exp(196
. )
n −1 n −1
INTERVALLES LAPLACIENS D'ANDERSON INTERVALLES AU SEUIL 0.95
+--------+--------------------------------------------------------+
| NUMERO | BORNE INFERIEURE VALEUR PROPRE BORNE SUPERIEURE |
+--------+--------------------------------------------------------+
| 1 | 3.6788 6.0506 8.4224 |
| 2 | 1.7788 2.9257 4.0726 |
| 3 | 1.5142 2.4905 3.4668 |
| 4 | 0.7716 1.2691 1.7667 |
| 5 | 0.5949 0.9784 1.3619 |
+--------+--------------------------------------------------------+
11
Valables seulement pour des matrices de
covariance, non robustes à la non-normalité
Loi d’une matrice de covariance
M (p,p) suit une loi de Wishart Wp(n,Σ) si M=X’X
où X est une matrice de n observations
indépendantes d’une Np (0; Σ)
nV suit alors une Wp(n-1,Σ)
12
Critères empiriques
13
Version analytique du coude: critère de Cattell
14
Le modèle à effets fixes (Besse et al.1988)
Pour chaque observation :
xi = m i + σ ε i
σ2
E ( xi ) = m i V ( xi ) = Γ
pi
λˆ = 1 ∑
i =1
λˆi2 = p + ∑∑
i≠ j
rij2
Pour un couple de variables indépendantes
E(R2)=1/(n-1) p( p − 1)
E (∑ λ i ) = p +
2
n −1
Dispersion espérée des valeurs propres:
1 p p −1
E ( ∑ ( λ i − 1) ) =
2
p i =1 n −1
16
Une borne inférieure:
p −1
λi > 1+ 2
n −1
Dans l’exemple, la borne est 2.13 d’où 3
axes sélectionnés.
17
Mais aussi: avoir des axes interprétables
Peut se formaliser en testant les corrélations avec
des variables supplémentaires
18
1.2 contributions à l’inertie
λk
1 cik2
La contribution sera jugée
n λk
∑ i i.1
λ χ 2
i =1
p
E(D2)=p V(D2)= 2∑ λ 2
i
i =1
20
Les observations avec un D2 plus grand que:
p
p + 2 2∑ λ2i
i =1
21
Exemple villes:
Contribution significative si >7.7%
outliers potentiels si D2>38
COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES INDIVIDUS
+---------------------------------------+-------------------------------+--------------------------+
| INDIVIDUS | COORDONNEES | CONTRIBUTIONS |
|---------------------------------------+-------------------------------+--------------------------+
| IDENTIFICATEUR P.REL DISTO | 1 2 3 4 5 | 1 2 3 4 5 |
+---------------------------------------+-------------------------------+--------------------------+
| AbuDhabi94 1.96 20.94 | -1.68 0.88 -1.41 -1.89 -1.06 | 0.9 0.5 1.6 5.5 2.3 |
| Amsterdam94 1.96 5.90 | -0.66 -1.79 -0.61 0.32 -0.70 | 0.1 2.2 0.3 0.2 1.0 |
| Athenes94 1.96 6.09 | 1.09 -0.43 -0.30 0.66 0.14 | 0.4 0.1 0.1 0.7 0.0 |
| Bangkok94 1.96 27.29 | 0.81 3.50 2.31 1.47 1.46 | 0.2 8.2 4.2 3.4 4.3 |
| Bogota94 1.96 9.02 | 2.42 1.10 0.06 -0.34 0.12 | 1.9 0.8 0.0 0.2 0.0 |
| Bombay94 1.96 27.32 | 4.04 0.71 -1.29 1.17 -2.29 | 5.3 0.3 1.3 2.1 10.5 |
| Bruxelles94 1.96 6.75 | -0.98 -1.86 0.15 0.57 -0.18 | 0.3 2.3 0.0 0.5 0.1 |
| Budapest94 1.96 13.51 | 3.55 -0.07 0.16 -0.34 0.22 | 4.1 0.0 0.0 0.2 0.1 |
| BuenosAires94 1.96 16.71 | -0.95 0.32 2.07 -0.29 0.48 | 0.3 0.1 3.4 0.1 0.5 |
| Caracas94 1.96 38.31 | 4.24 1.07 2.32 -1.43 -0.99 | 5.8 0.8 4.3 3.2 1.9 |
| Chicago94 1.96 13.76 | -2.10 0.77 -1.35 -1.67 1.15 | 1.4 0.4 1.4 4.3 2.7 |
| Copenhague94 1.96 20.96 | -2.57 -2.93 0.57 0.63 1.11 | 2.1 5.7 0.3 0.6 2.5 |
| Dublin94 1.96 6.77 | 0.73 -1.78 -0.69 0.43 1.00 | 0.2 2.1 0.4 0.3 2.0 |
| Dusseldorf94 1.96 8.14 | -1.38 -1.93 -0.55 0.99 -0.37 | 0.6 2.5 0.2 1.5 0.3 |
| Frankfurt94 1.96 7.57 | -0.85 -1.98 -0.43 1.08 -0.57 | 0.2 2.6 0.1 1.8 0.7 |
| Geneve94 1.96 11.27 | -2.41 -1.32 0.58 0.31 -0.48 | 1.9 1.2 0.3 0.1 0.5 |
| Helsinki94 1.96 6.01 | -0.21 -1.98 0.49 0.54 0.30 | 0.0 2.6 0.2 0.4 0.2 |
| Hongkong94 1.96 56.68 | -2.83 5.54 -2.87 1.23 -1.18 | 2.6 20.6 6.5 2.4 2.8 |
|
22
| Houston94 1.96 9.82 | 0.92 -0.11 -0.70 -2.45 1.06 | 0.3 0.0 0.4 9.3 2.2 |
| Jakarta94 1.96 23.85 | -0.58 2.92 -0.89 2.40 -0.34 | 0.1 5.7 0.6 8.9 0.2 |
| Johannesburg94 1.96 10.20 | 2.47 -0.83 -0.30 -0.75 0.59 | 2.0 0.5 0.1 0.9 0.7 |
| Lagos94 1.96 87.24 | -0.70 1.41 8.92 0.15 -1.26 | 0.2 1.3 62.7 0.0 3.2 |
| Lisboa94 1.96 4.38 | 1.59 0.00 -0.70 0.45 0.35 | 0.8 0.0 0.4 0.3 0.2 |
| London94 1.96 10.36 | -1.12 -1.06 -1.05 0.94 -0.58 | 0.4 0.8 0.9 1.4 0.7 |
| LosAngeles94 1.96 9.33 | -1.26 1.13 -1.22 -0.97 0.96 | 0.5 0.9 1.2 1.5 1.8 |
| Luxembourg94 1.96 7.82 | -0.62 -1.44 -0.82 0.54 -0.51 | 0.1 1.4 0.5 0.5 0.5 |
| Madrid94 1.96 6.14 | 1.04 -1.45 -0.57 0.69 -0.82 | 0.4 1.4 0.3 0.7 1.3 |
| Manama94 1.96 6.81 | 1.11 0.19 -0.46 -0.40 -0.74 | 0.4 0.0 0.2 0.2 1.1 |
| Manila94 1.96 15.92 | 2.77 2.38 0.50 -0.21 0.99 | 2.5 3.8 0.2 0.1 2.0 |
| Mexico94 1.96 8.68 | 1.93 1.74 -0.46 -0.97 -0.22 | 1.2 2.0 0.2 1.5 0.1 |
| Milan94 1.96 4.45 | -0.51 -0.89 -0.48 0.17 -0.98 | 0.1 0.5 0.2 0.0 1.9 |
| Montreal94 1.96 5.81 | 1.02 -0.81 -0.45 -1.38 1.00 | 0.3 0.4 0.2 2.9 2.0 |
| Nairobi94 1.96 26.22 | 4.95 -0.22 0.79 0.06 -0.05 | 7.9 0.0 0.5 0.0 0.0 |
| NewYork94 1.96 13.55 | -2.25 1.54 -1.35 -1.49 -0.22 | 1.6 1.6 1.4 3.4 0.1 |
| Nicosia94 1.96 9.03 | 2.14 -0.91 0.27 0.12 0.82 | 1.5 0.6 0.1 0.0 1.3 |
| Oslo94 1.96 15.50 | -2.49 -2.26 1.06 0.17 1.34 | 2.0 3.4 0.9 0.0 3.6 |
| Panama94 1.96 9.13 | 1.49 0.95 -0.77 0.43 -0.90 | 0.7 0.6 0.5 0.3 1.6 |
| Paris94 1.96 8.42 | -2.00 -1.29 0.47 0.41 -1.14 | 1.3 1.1 0.2 0.3 2.6 |
| Prague94 1.96 19.39 | 3.96 -0.11 0.00 -0.67 -0.74 | 5.1 0.0 0.0 0.7 1.1 |
| RiodeJaneiro94 1.96 7.17 | 2.06 0.83 -0.17 0.85 -0.83 | 1.4 0.5 0.0 1.1 1.4 |
| SaoPaulo94 1.96 8.76 | 1.15 0.32 -1.06 1.38 -1.22 | 0.4 0.1 0.9 2.9 3.0 |
| Seoul94 1.96 18.71 | -1.84 2.29 0.30 -2.51 0.25 | 1.1 3.5 0.1 9.7 0.1 |
| Singapore94 1.96 42.43 | -2.81 2.70 -0.20 3.33 3.15 | 2.6 4.9 0.0 17.2 19.9 |
| Stockholm94 1.96 7.47 | -0.86 -1.96 0.49 0.27 0.53 | 0.2 2.6 0.2 0.1 0.6 |
| Sidney94 1.96 6.57 | 0.60 -1.26 -0.81 -0.99 0.21 | 0.1 1.1 0.5 1.5 0.1 |
| Taipei94 1.96 8.49 | -0.34 1.69 -0.62 -0.68 0.82 | 0.0 1.9 0.3 0.7 1.3 |
| Tel-Aviv94 1.96 10.58 | 1.39 -0.41 0.77 0.14 1.90 | 0.6 0.1 0.5 0.0 7.3 |
| Tokyo94 1.96 109.65 | -9.90 1.42 1.05 -1.51 -1.33 | 31.8 1.3 0.9 3.5 3.6 |
| Toronto94 1.96 7.07 | 0.81 -0.68 -0.96 -1.32 0.76 | 0.2 0.3 0.7 2.7 1.2 |
| Vienna94 1.96 7.93 | -1.28 -2.08 -0.10 0.18 -0.55 | 0.5 2.9 0.0 0.1 0.6 |
| Zurich94 1.96 17.16 | -3.10 -1.57 0.32 0.17 -0.46 | 3.1 1.6 0.1 0.0 0.4 |
+---------------------------------------+-------------------------------+--------------------------+ 23
Si les variables sont indépendantes, on utilisera
l ’espérance pour obtenir une borne inférieure
plus simple:
p −1
p + 2 2 p(1 + )
n −1
et si n est grand:
p + 2.8 p
24
1.4 qualité des projections
Les cosinus carrés (CO2) sont peu fiables
Un critère meilleur: le carré de la distance à un
sous-espace.
p
Pour ple premier plan principal:
∑ (c
j =3
i ) = ∑λ jχ
j 2
j =3
2
j .1
∑ i
λ
i =3
+ 2 2 ∑ i
λ2
i =3
25
2. L’analyse des correspondances
N table de contingence avec m1 lignes et m2
colonnes
Les résultats précédents basés sur des
approximations normales pour les distances et
les contributions ne s’appliquent que pour de
grands tableaux.
Sélection des valeurs propres
Hypothèse d’intérêt :λi=0
26
2.1 Distributions des valeurs propres
28
Modèle à effets fixes
Dans le contexte multinomial
nij
xi = (.... .....)
ni.
1 ni.
σ2 = pi =
n n
n. j
Γ = diag ( ) Γ −1 = métrique du chi-deux
n
Critère à minimiser:
p
1 ⎡ k q
λˆ ⎤
fˆk = ∑ λˆi + ⎢ 2k ( p + k + q ) + 4∑ ∑ ⎥
j
j =1 l = k +1 λ j − λl ⎥
n ⎢⎣ ˆ ˆ
k +1
⎦
29
2.2 Le test de Malinvaud
Basé sur la formule de reconstitution
F
= dn n / niG 1 + ∑ a b
r
I
λ J
nij i. . j
H l =1
il jl /
K l
d
n~ij = ni .n. j
F
/ niG 1 + ∑ a b
k
I
λ J
H l =1
il jl / l
K
On les compare aux nij avec un test du chi-deux
30
Au lieu du classique Qk =∑
d nij − n~ij i 2
i, j n~ij
⎛ α i1β j1 ⎞
pij = pi. p. j ⎜1 + ⎟
⎜ λ ⎟
⎝ 1 ⎠
⎛ α i1β j1 α i 2 β j 2 ⎞
Si k=1 rejeté, k=2? pij = pi. p. j ⎜ 1 + + ⎟
⎜ λ λ ⎟
⎝ 1 2 ⎠
Etc.
⎛ r α β ⎞
pij = pi. p. j ⎜1 + ∑ ⎟
im jm
Modèle saturé:
⎜ m =1 λ ⎟
⎝ m ⎠
32
Un exemple: beurres allégés
33
34
Test de Malinvaud
n=21900 p=19 q=13 r=12
Test d’indépendance n(λˆ1 + λˆ2 + ... + λˆ12 ) = 356.28
ddl = 18x12=216 P ( χ 216 > 356) = 0
2
37
Rappel de quelques formules :
q p
1
∑
i =1
λ i = ∑ mi − 1
p i =1
q p
∑ ∑ ∑∑
1 1
λi = 2
ˆ 2
(mi − 1) + 2 ϕ ij2
i =1
p i =1
p i≠ j
38
3.1 Critères usuels
39
3.2 Le cas de l’indépendance deux à deux
q i =1 i p
on a:
=σ
1 11 2
E ( Sλ2 ) = 2 ∑ ∑ (mi − 1)( m j − 1)
p n qi ≠ j
40
On peut considérer que l’intervalle
devrait contenir environ 95% des valeurs propres
quand les variables sont indépendantes On
gardera les valeurs propres qui dépassent la
borne supérieure. S.Ben Ammou, G.Saporta (1998)
41
Pour n=100 σ=0.0403, toutes les valeurs
propres appartiennent à l’intervalle sauf la plus
grande.
0.16902 ********************
0.15126 ******************
0.14483 *****************
0.12939 ****************
0.12245 ***************
0.11691 **************
0.11256 **************
0.11021 *************
0.09771 ************
0.09411 ***********
0.08849 ***********
0.08450 **********
0.07451 *********
0.06908 ********
0.06630 ********
0.06114 *******
0.05762 *******
0.05535 *******
0.05187 ******
0.04927 ******
0.04284 *****
0.04211 *****
0.03724 ****
0.02799 ***
0.02659 ***
42
Pour n=10000, σ= 0.004199, l’intervalle
[0.07527 ; 0.09139] contient toutes les valeurs
propres sauf la dernière
0.08987 **********************
0.08910 *********************
0.08899 *********************
0.08863 *********************
0.08677 *********************
0. 08665 *********************
0.08602 *********************
0.08575 *********************
0.08547 *********************
0.08494 ********************
0.08484 ********************
0.08431 ********************
0.08349 ********************
0.08283 ********************
0.08234 ********************
0.08192 ********************
0.08140 ********************
0.08092 *******************
0.08057 *******************
0.07971 *******************
0.07916 *******************
0.07868 *******************
0.07810 *******************
0.07774 *******************
0.07512 ******************
43
Distribution des valeurs propres.
Les approximations normales ne marchent pas pour
les valeurs propres extrêmes (600 simulations)
44
En guise de conclusion
45
Références
S.Ben Ammou, G.Saporta (1998) Sur la normalité asymptotique des valeurs propres en ACM
sous l’hypothèse d’indépendance des variables. Revue de Statistique Appliquée , Vol. XLVI,
n°3, p.21-35,
Karlis, D., Saporta, G. and Spinakis A. (2003) A Simple Rule for the Selection of Principal
Components, Communications in Statistics, Theory and Applications, 32, 3, 643-666
L.Lebart (1976). The significance of Eigenvalues issued from Correspondence Analysis
COMPSTAT, Physica Verlag, Vienna, p 38-45 .
L.Lebart, A.Morineau, M.Piron (2006). Statistique exploratoire multidimensionnelle. 4ème
édition, Dunod, Paris
E.Malinvaud, (1987) Data analysis in applied socio-economic statistics with special
consideration of correspondence analysis, Marketing Science Conference, Jouy en Josas,
France, 1987
M.E.O’Neill. (1978). Asymptotic distributions of the canonical correlations from contingency
tables. Australian Journal of. Statistics. 20(1) p 75-82.
M.E.O’Neill (1978). Distributional expansion for canonical correlations from contingency
tables . Journal of the Royal. Statistical Society. B. 40, n°3 p 303-312.
G.Saporta, N.Tambrea (1993): About the selection of the number of components in
correspondence analysis in J.Janssen et C.H.Skiadas, eds. Applied Stochastic Models and
Data Analysis, World Scientific, p. 846-856,
G. Saporta (1999) Some simple rules for interpreting outputs of principal components and
correspondence analysis . In ASMDA99, IX International Symposium on Applied Stochastic
Models and Data Analysis, Lisbonne, Portugal, 14-17 Juin 1999
L.Zater (1989). Contribution a l'étude de la variabilité des valeurs propres et du choix de la
dimension en analyse factorielle des correspondances. Thèse de l'Université Paris IX
Dauphine.
46