Afc PDF
Afc PDF
Afc PDF
Tableau de contingence
Analyse des profils - Analyse des Associations
Décomposition orthogonale du ²
Ricco RAKOTOMALALA
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
Croisement de 2 variables – Tableau de contingence
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
Notations – Tableau de contingence
Y/X x1 xl xL
y1
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 80 99 65 58 302
Patron 168 137 208 62 575 yk nkl nk .
Cadre.sup 470 400 876 79 1825
Employé 145 133 135 54 467
Ouvrier 166 193 127 129 615
Total 1029 962 1411 382 3784
yK
n.l n
P(Cadre.Sup) = 1825 / 3784 = 48.2% Proportion des enfants de « Cadre Sup. » parmi les enquêtés
P(Médecine) = 1411 / 3784 = 37.3 % Proportion des enquêtés ayant choisi la filère « Médecine »
P(Médecine & Cadre.Sup) = 876 / 3784 = 23.2% Proportion des personnes « ayant choisi
‘Médecine’ ET qui sont enfants de ‘Cadre.sup’ » (idée de concomitance, association)
P(Médecine / Cadre.Sup) = 876 / 1825 = 48.0% Proportion des personnes « ayant choisi le
‘Médecine’ SACHANT QU’ils sont enfants de ‘Cadre.Sup’ » (idée de causalité)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
PLAN
1. Analyse des profils lignes - Distance entre profils – Distance à l’origine - Inertie
2. Analyse des profils colonnes
3. Analyse des associations lignes / colonnes- KHI-2 d’écart à l’indépendance
4. Décomposition du KHI-2 - Contributions, Résidus
5. Analyse factorielle des correspondances
6. Les logiciels (SPAD, SAS, Tanagra, R)
7. Conclusion
8. Bibliographie
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
Profils lignes – Distance entre profils ( Distance du KHI-2)
nkl P(Sciences) = 962 / 3784 = 25.4%
P( X l / Y k )
nk . P(Sciences / Cadre sup) = 400 / 1825 = 21.9%
2
nL
nkl nk 'l Les écarts entre modalités
Distance entre profils : d ²(k , k ' )
rares sont exacerbés.
l 1 n.l nk . nk '.
d ²(cadre, ouvrier)
1
0.258 0.2702 1 0.219 0.3142 d ²(cadre, patron)
1
0.258 0.2922 1 0.219 0.2382
0.272 0.254 0.272 0.254
1
0.480 0.207 2 1 0.043 0.2102
1
0.480 0.3622 1 0.043 0.1082
0.373 0.101 0.373 0.101
0.5109 0.084611
Les choix de filières des enfants de patrons sont plus proches (similaires) de ceux des
cadres sup. qu’ils ne le sont de ceux des enfants d’ouvriers.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
Distance à l’origine (distance au profil « moyen »)
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 80 99 65 58 302
Patron 168 137 208 62 575
Cadre.sup 470 400 876 79 1825
Employé 145 133 135 54 467 Profil marginal = structure de choix sans
Ouvrier 166 193 127 129 615
Total 1029 962 1411 382 3784
distinction de CSP = Profil moyen c.à-d.
moyenne pondérée des profils lignes
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 0.265 0.328 0.215 0.192 1
Patron 0.292 0.238 0.362 0.108 1 1 302 0.265 575 0.292
Cadre.sup 0.258 0.219 0.480 0.043 1 Ex. 0.272 3784 1825 0.258 467 0.310 615 0.270
Employé 0.310 0.285 0.289 0.116 1
Ouvrier 0.270 0.314 0.207 0.210 1
Total 0.272 0.254 0.373 0.101 1
CSP\Filière DISTO²
Exp.agri 0.1703
Patron 0.0033
Distance à l’origine = Cadre.sup 0.0693
Distance au profil moyen Employé 0.0301
Ouvrier 0.2055
d ²(cadre)
1
0.258 0.2722 1 0.219 0.2542
0.272 0.254
Les enfants d’ouvriers et d’exploitants
1
0.480 0.3732 1 0.043 0.1012
0.373 0.101 agricoles présentent les structures de
0.0693
choix (les profils) les plus « différents »
de l’ensemble des étudiants.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
Distance à l’origine et distance entre profils
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
INERTIE = DISTO x Poids de la modalité
CSP\Filière Droit Sciences Médecine IUT Total CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 80 99 65 58 302 Exp.agri 0.265 0.328 0.215 0.192 1
Patron 168 137 208 62 575 Patron 0.292 0.238 0.362 0.108 1
Cadre.sup 470 400 876 79 1825 Cadre.sup 0.258 0.219 0.480 0.043 1
Employé 145 133 135 54 467 Employé 0.310 0.285 0.289 0.116 1
Ouvrier 166 193 127 129 615 Ouvrier 0.270 0.314 0.207 0.210 1
Total 1029 962 1411 382 3784
Total 0.272 0.254 0.373 0.101 1
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
Profils colonnes – Distance entre profils
nkl
P(Y k / X l )
n.l P(Cadre sup) = 48.2%
P(Cadre sup / Droit) = 45.7%
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 0.078 0.103 0.046 0.152 0.080 P(Cadre sup / IUT) = 20.7%
Patron 0.163 0.142 0.147 0.162 0.152
Cadre.sup 0.457 0.416 0.621 0.207 0.482 Question : Dans les filières, a-t-on les
Employé 0.141 0.138 0.096 0.141 0.123 mêmes structures de CSP ?
Ouvrier 0.161 0.201 0.090 0.338 0.163
Total 1 1 1 1 1
2
K
n n n Les écarts entre modalités
Distance entre profils : d ²(l , l ' ) kl kl '
k 1 nk . n.l n.l ' rares sont exacerbés.
d ²(droit , sciences )
1
0.078 0.1032 1 0.163 0.1422 0.024
0.080 0.152
d ²(droit , médecine )
1
0.078 0.0462 1 0.163 0.1472 0.118
0.080 0.152
CSP\Filière Droit Sciences Médecine IUT Total CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 0.078 0.103 0.046 0.152 0.080 Exp.agri 80 99 65 58 302
Patron 0.163 0.142 0.147 0.162 0.152 Patron 168 137 208 62 575
Cadre.sup 0.457 0.416 0.621 0.207 0.482 Cadre.sup 470 400 876 79 1825
Employé 0.141 0.138 0.096 0.141 0.123 Employé 145 133 135 54 467
Ouvrier 0.161 0.201 0.090 0.338 0.163 Ouvrier 166 193 127 129 615
Total 1 1 1 1 1 Total 1029 962 1411 382 3784
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
Indépendance - KHI-2 d’écart à l’indépendance
Effectifs observés
CSP\Filière Droit Sciences Médecine IUT Total Probabilité conjointe
Exp.agri 80 99 65 58 302
Patron 168 137 208 62 575
Cadre.sup 470 400 876 79 1825
Employé 145 133 135 54 467
Ouvrier 166 193 127 129 615 Les effectifs sont calculés à
Total 1029 962 1411 382 3784
partir des marges.
Effectifs sous H0
nk . n.l
ekl
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 82.1 76.8 112.6 30.5 302
Patron 156.4 146.2 214.4 58.0 575
n
Cadre.sup 496.3 464.0 680.5 184.2 1825
Employé 127.0 118.7 174.1 47.1 467
302 1029
Ouvrier 167.2 156.4 229.3 62.1 615
Ex. 82.1
Total 1029 962 1411 382 3784 3784
Statistique du
2
K L
nkl ekl 2 Sous H0, la statistique suit une loi du KHI-2
KHI-2 de Pearson k 1 l 1 ekl à (K-1)x(L-1) degrés de liberté.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14
Effectifs observés
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 80 99 65 58 302 KHI-2 d’écart à l’indépendance - Exemple
Patron 168 137 208 62 575
Cadre.sup 470 400 876 79 1825
Employé 145 133 135 54 467
Ouvrier 166 193 127 129 615
Total 1029 962 1411 382 3784
Effectifs sous H0
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 82.1 76.8 112.6 30.5 302
Patron 156.4 146.2 214.4 58.0 575 KHI-2 320.3
Cadre.sup 496.3 464.0 680.5 184.2 1825
Employé 127.0 118.7 174.1 47.1 467 ddl 12
Ouvrier 167.2 156.4 229.3 62.1 615 p-value < 0.0001
Total 1029 962 1411 382 3784
2
320.3 0.0846 = Inertie totale. L’information disponible peut être
PHI-2 2
0.0846
n 3784 perçue sous l’angle de l’association entre Y et X.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16
Analyse approfondie des associations Question : quelles sont les associations (de modalités)
Contributions au KHI-2 (à l’inertie totale) qui contribuent le plus à l’information ?
Résidus standardisés et contributions au KHI-2.
Effectifs observés Effectifs sous H0
CSP\Filière Droit Sciences Médecine IUT Total CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 80 99 65 58 302 Exp.agri 82.1 76.8 112.6 30.5 302
Patron 168 137 208 62 575 Patron 156.4 146.2 214.4 58.0 575
Cadre.sup 470 400 876 79 1825 Cadre.sup 496.3 464.0 680.5 184.2 1825
Employé 145 133 135 54 467 Employé 127.0 118.7 174.1 47.1 467
Ouvrier 166 193 127 129 615 Ouvrier 167.2 156.4 229.3 62.1 615
Total 1029 962 1411 382 3784 Total 1029 962 1411 382 3784
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17
Autre prisme : Test du rapport de vraisemblance
Utiliser l’Indice d’attraction et de répulsion pour une analyse approfondie des associations
Statistique du rapport de K L
G 2 nkl ln ikl
vraisemblance. Sous H0 : suit une k 1 l 1
loi du KHI-2 à (K-1)(L-1) ddl.
1 2 3 4
CSP\Filière Droit Sciences Médecine IUT Total
1 Exp.agri 80 99 65 58 302
2 Patron 168 137 208 62 575
3 Cadre.sup 470 400 876 79 1825
4 Employé 145 133 135 54 467
5 Ouvrier 166 193 127 129 615
Total 1029 962 1411 382 3784
1. Quelles sont les CSP qui font les mêmes choix de filières ?
2. Quelles sont les filières qui ont des structures de CSP proches ?
3. Quelle CSP est attirée par quelle filière ? Quelle filière est
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20
Analyse factorielle des correspondances - Analyse des profils
Trouver un premier facteur qui permet de positionner les modalités de la manière la plus
dispersée possible (pour qu’on les distingue le mieux possible les uns des autres)
Cadre.sup Employé
Patron Exp.Agricole
0 Ouvrier
• Fk1 sont les « coordonnées factorielles » sur le 1er facteur
K • La moyenne des points modalités est égale à 0
n
1 k . Fk21 • représente la variance des points modalités
k 1 n
• On cherche à maximiser
1
Indique la crédibilité (la fidélité à la réalité) du facteur
2
0
L
n.l
1 Gl21 • Gl1 sont les coordonnées factorielles sur le 1er facteur
l 1 n • Le calculé ici coïncide avec celui calculé sur le profil ligne
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 21
AFC, analyse des profils - Exemple
2
2
0.0846 Inertie totale
n
Lambda 1 0.0824
d²1(patron) = 0.1521 = (0.41012 - 0.02015)²
Lambda 1 0.0824
Cadre.sup Employé
Patron Exp.Agricole
0 Ouvrier
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23
AFC, analyse des associations – Relations quasi-barycentriques (relation de transition)
On peut obtenir les coordonnées des modalités lignes à partir de l’ensemble des points
colonnes (et inversement) : moyenne pondérée déflatée par la racine de l’inertie.
F51
1
0.2699 0.02799 0.2098 0.64017 0.45148
0.0824
Conclusion :
1. Le rapprochement des coordonnées des modalités lignes / colonnes est licite grâce à
cette relation
2. Mais il ne peut se faire que globalement c.-à-d. une modalité ligne doit être située par
rapport à l’ensemble des modalités colonnes (et inversement)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 24
AFC, analyse des associations – Relations quasi-barycentriques (suite)
0 Ouvrier
Médecine Droit Sciences IUT
0
Ex.A – Les enfants d’ouvriers sont attirés par les IUT ?
Réponse : OUI. Les enfants d’ouvriers sont plus attirés par les IUT que l’ensemble des étudiants.
Ex.B - Les enfants de patrons sont attirés par le droit ?
Réponse : NON. Par rapport à l’ensemble des étudiants, les enfants de patrons ne sont attirés
par aucune filière en particulier (idem pour Employé d’ailleurs).
Résidus standardisés
CSP\Filière Droit Sciences Médecine IUT
Exp.agri -0.23 2.54 -4.49 4.98
C’est aussi l’information fournie par le Patron 0.93 -0.76 -0.44 0.52
Cadre.sup -1.18 -2.97 7.49 -7.75
tableau des résidus standardisés
Employé 1.60 1.31 -2.97 1.00
Ouvrier -0.10 2.93 -6.76 8.49
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 25
AFC, analyse des associations – S’appuyer sur l’indice d’attraction-répulsion
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 26
AFC, analyse des associations – Représentation simultanée dans le plan
AFC
0.7
(2.0%)
0.5
0.3
0.1
Médecine Ouvrier IUT
Cadre.sup Sciences Exp.Agri.
Patron (97.4%)
-0.7 -0.5 -0.3 -0.1 0.1 0.3 0.5 0.7
-0.1 Droit Employé
-0.3
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 27
AFC, analyse des associations – Décomposition du ²
Effectifs observés Effectifs sous H0 (Indépendance)
CSP\Filière Droit Sciences Médecine IUT Total CSP\Filière Droit Sciences Médecine IUT
Exp.agri 80 99 65 58 302 Exp.agri 82.1 76.8 112.6 30.5
Patron
Cadre.sup
168
470
137
400
208
876
62
79
575
1825
Patron
Cadre.sup
156.4
496.3
146.2
464.0
214.4
680.5
58.0
184.2 total
2
320.27
Employé 145 133 135 54 467 Employé 127.0 118.7 174.1 47.1
Ouvrier 166 193 127 129 615 Ouvrier 167.2 156.4 229.3 62.1
Total 1029 962 1411 382 3784
nˆ
CSP\Filière Droit Sciences Médecine IUT 2
(1)
ekl
Exp.agri 85.4 94.4 63.8 58.4
Patron 156.7 147.8 209.8 60.7
2
1
kl
311.7810
k l ekl
Cadre.sup 483.6 395.8 869.3 76.3
Employé 128.8 128.2 148.0 62.1
12
Ouvrier 174.6 195.8 120.0 124.6
1 2
1 0.0824
n
Formule de reconstitution
nˆkl( h )
nk .n.l 1 Fhk Ghl
(h premiers axes) n h
h
nˆ 1
kl nkl Quantifier l’information non restituée sur le 1 er axe
Reste - Ecarts au tableau observé
CSP\Filière
Exp.agri
Droit
-5.4
Sciences
4.6
Médecine
1.2
IUT
-0.4 2
nˆ (1)
kl nkl
2
8.4885
résiduel
Patron 11.3 -10.8 -1.8 1.3 k l ekl
Cadre.sup -13.6 4.2 6.7 2.7
Employé 16.2 4.8 -13.0 -8.1
Ouvrier -8.6 -2.8 7.0 4.4
total
2
12 résiduel
2
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 28
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 29
AFC - Calculs - Décomposition en valeurs singulières de la matrice des résidus standardisés (déflatée)
1
Soit M S où S est la matrice des résidus standardisés
n
U (K x K) contient les K vecteurs singuliers à gauche
L’AFC consiste à calculer la (modalités lignes). U est orthonormée.
décomposition en valeurs singulières de M (K x L) est une matrice dont les éléments situés sur la
diagonale correspondent aux valeurs singulières.
M UV T
V (L x L) contient les L vecteurs singuliers à droite
(modalités colonnes). V est orthonormée.
A quoi correspond cette Une valeur singulière M vh h u h
opération ? h est telle que M T u h h vh
(On perçoit bien l’analyse croisée ligne/colonne ici)
ukh h
Fkh Obtention des coordonnées des modalités lignes à partir
nk . des vecteurs singuliers à gauche.
n
vlh h
Glh Obtention des coordonnées des modalités colonnes à partir
n.l
n des vecteurs singuliers à droite.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 31
AFC - Calculs - Décomposition en valeurs singulières – Calculs détaillés sous R
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 32
AFC - Calculs - Décomposition en valeurs singulières – Calculs détaillés sous R (suite)
#profils marginaux
profil.row <- sum.row/n
profil.col <- sum.col/n
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 34
AFC – Choisir le nombre d’axes Peut être déduite des (L-1)
colonnes et la marge
CSP\Filièr
1. Nombre d’axes maximum e Droit Sciences Médecine IUT Total
Exp.agri 80 99 65 58 302
que l’on peut produire Patron 168 137 208 62 575
Peut être déduite des (K-1)
Cadre.sup 470 400 876 79 1825
Hmax = min(K-1 ; L-1) Employé 145 133 135 54 467 lignes et la marge
Ouvrier 166 193 127 129 615
Total 1029 962 1411 382 3784
0.06
3. Scree plot : Graphique des 0.05
0.04
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 36
AFC – Coordonnées factorielles et qualité de représentation
Modalités lignes
Characterization Coord. COS²
Values Weight Sq. Dist. Inertia coord 1 coord 2 cos 1 cos 2 nk . 2
d h (k )
Exp.agri 0.0798 0.1704 0.0136 0.4101 0.0263 0.99 (0.99) 0.00 (0.99)
n d h2 (k )
Patron 0.1520 0.0033 0.0005 0.0202 -0.0266 0.12 (0.12) 0.21 (0.34) COSh (k )
2
2
nk . 2
Cadre.sup 0.4823 0.0693 0.0334 -0.2627 0.0156 1.00 (1.00) 0.00 (1.00) d (k ) d (k )
Employé 0.1234 0.0301 0.0037 0.1421 -0.0973 0.67 (0.67) 0.31 (0.99) n
Ouvrier 0.1625 0.2055 0.0334 0.4515 0.0396 0.99 (0.99) 0.01 (1.00)
Modalités colonnes
Characterization Coord. COS²
Values Weight Sq. Dist. Inertia coord 1 coord 2 cos 1 cos 2
Droit 0.2719 0.0047 0.0013 0.0280 -0.0607 0.17 (0.17) 0.78 (0.94)
Sciences 0.2542 0.0272 0.0069 0.1605 -0.0027 0.95 (0.95) 0.00 (0.95)
Médecine 0.3729 0.0928 0.0346 -0.3031 0.0297 0.99 (0.99) 0.01 (1.00)
IUT 0.1010 0.4145 0.0418 0.6402 0.0608 0.99 (0.99) 0.01 (1.00)
Attention : compte tenu des CTR et COS², on serait tenté de penser qu’il y a quelque chose
entre « Employé » et « Droit » sur le 2nd axe.
NON, car l’inertie associée à l’axe factoriel est très faible (2.01%)
Cela sera confirmé par le tableau des contributions au KHI-2
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 37
AFC – Contributions au KHI-2
A lire toujours pour confirmer les informations fournies par l’AFC !!!
Contributions au KHI-2 (%)
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 0.02% 2.01% 6.29% 7.75% 16.06%
Patron 0.27% 0.18% 0.06% 0.08% 0.59%
Cadre.sup 0.43% 2.75% 17.53% 18.77% 39.49%
Employé 0.80% 0.54% 2.75% 0.31% 4.39%
Ouvrier 0.00% 2.68% 14.26% 22.52% 39.46%
Total 1.52% 8.16% 40.88% 49.44%
Présentée sous une forme linéaire (et triée) dans Tanagra pour une meilleure lecture
[Seules les contributions supérieures à la moyenne sont affichées c.-à-d. Contrib % > 100 / (K x L) ]
CHI-2 contributions
Id Row Column Value Expected Std.Resid. Contrib. (%) Cumul (%)
1 Ouvrier IUT 129 62.1 8.49 22.52 22.52
2 Cadre.sup IUT 79 184.2 -7.75 18.77 41.29
3 Cadre.sup Médecine 876 680.5 7.49 17.53 58.82
4 Ouvrier Médecine 127 229.3 -6.76 14.26 73.08
5 Exp.agri IUT 58 30.5 4.98 7.75 80.83
6 Exp.agri Médecine 65 112.6 -4.49 6.29 87.12
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 38
AFC – Représentation graphique – L’atout maître de l’analyse factorielle
AFC
0.7
(2.0%)
0.5
0.3
0.1
Médecine Ouvrier IUT
Cadre.sup Sciences Exp.Agri.
Patron (97.4%)
-0.7 -0.5 -0.3 -0.1 0.1 0.3 0.5 0.7
-0.1 Droit Employé
-0.3
-0.5
-0.7
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 39
AFC – Projection des lignes (colonnes) supplémentaires – Détails des calculs
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 40
AFC – Projection des lignes (colonnes) supplémentaires – Représentation graphique
AFC
0.7
0.5
0.3
0.1
Médecine Ouvrier IUT
Cadre.sup Sciences Exp.Agri.
Patron
-0.7 -0.5 -0.3 Bourgeois -0.1 0.1 0.3 0.5 0.7
(-0.1950, 0.0055) Droit Employé
-0.1
-0.3
-0.5
-0.7
Certains logiciels (ex. Tanagra) fournissent les coefficients des fonctions scores qui
s’appliquent directement aux profils
L
nkl Glh
Fkh alh Où alh
l 1 nk . h
Remarque : On peut calculer la qualité de représentation (QLT = COS²) sur les H premiers axes en faisant le
rapport entre le rapport entre la somme du carré des distances à l’origine sur chaque axe et le carré de la
distance par rapport au profil moyen (le profil moyen du tableau originel, sans les lignes supplémentaires)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 42
Quelques commentaires sur l’AFC
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 43
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 44
Association « Médias » - « Professions » - Lebart & al.-Tab 1.3-10 – page 104
Prof/Media Radio Tel. Quot.Nat. Quot.Reg. Press.Mag. Press.TV Total
Agriculteur 96 118 2 71 50 17 354
Petit.Patr. 122 136 11 76 49 41 435
Prof.Cad.Sup 193 184 74 63 103 79 696
Prof.Int. 360 365 63 145 141 184 1258
Employe 511 593 57 217 172 306 1856
Ouvr.Qualif. 385 457 42 174 104 220 1382
Ouvr.Non-Qual. 156 185 8 69 42 85 545
Vont jouer un rôle (trop ?) important
Inactif 1474 1931 181 852 642 782 5862
Total 3297 3969 438 1667 1303 1714 12388
Profils lignes
Prof Radio Tel. Quot.Nat. Quot.Reg. Press.Mag. Press.TV Total Weight Sq. Dist. Inertia %inertia
Agriculteur 0.271 0.333 0.006 0.201 0.141 0.048 1 0.0286 0.1293 0.0037 17%
Petit.Patr. 0.280 0.313 0.025 0.175 0.113 0.094 1 0.0351 0.0304 0.0011 5%
Prof.Cad.Sup 0.277 0.264 0.106 0.091 0.148 0.114 1 0.0562 0.1890 0.0106 48%
Prof.Int. 0.286 0.290 0.050 0.115 0.112 0.146 1 0.1016 0.0142 0.0014 6%
Employe 0.275 0.320 0.031 0.117 0.093 0.165 1 0.1498 0.0098 0.0015 7%
Ouvr.Qualif. 0.279 0.331 0.030 0.126 0.075 0.159 1 0.1116 0.0138 0.0015 7%
Ouvr.Non-Qual. 0.286 0.339 0.015 0.127 0.077 0.156 1 0.0440 0.0250 0.0011 5%
Inactif 0.251 0.329 0.031 0.145 0.110 0.133 1 0.4732 0.0029 0.0014 6%
Total 0.266 0.320 0.035 0.135 0.105 0.138 1 Somme 0.0223
Profils colonnes
Prof Radio Tel. Quot.Nat. Quot.Reg. Press.Mag. Press.TV Total
Agriculteur 0.029 0.030 0.005 0.043 0.038 0.010 0.029
Petit.Patr. 0.037 0.034 0.025 0.046 0.038 0.024 0.035
Prof.Cad.Sup 0.059 0.046 0.169 0.038 0.079 0.046 0.056
Prof.Int. 0.109 0.092 0.144 0.087 0.108 0.107 0.102
Employe 0.155 0.149 0.130 0.130 0.132 0.179 0.150
Ouvr.Qualif. 0.117 0.115 0.096 0.104 0.080 0.128 0.112
Ouvr.Non-Qual. 0.047 0.047 0.018 0.041 0.032 0.050 0.044
Inactif 0.447 0.487 0.413 0.511 0.493 0.456 0.473
Total 1 1 1 1 1 1 1
Weight 0.2661 0.3204 0.0354 0.1346 0.1052 0.1384
Sq. Dist. 0.0029 0.0033 0.2944 0.0243 0.0284 0.0272
Inertia 0.0008 0.0011 0.0104 0.0033 0.0030 0.0038 0.0223
%inertia 3% 5% 47% 15% 13% 17%
Ricco Rakotomalala
Va jouer un rôle (trop ?) important
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 45
Association « Médias » - « Professions » - Valeurs propres – Coordonnées factorielles
Eigen values Scree plot
0.012
SQRT(Matrix trace) = 0.1493
Eigen % %
media.afc$eig[, 1]
Axis
0.008
value explained cumulated
0.004
2 0.007211 32.37% 94.56%
3 0.000825 3.70% 98.27%
4 0.000304 1.36% 99.63%
amplement
0.000
5 0.000083 0.37% 100.00% 1 2 3 4 5 6
Rows analysis
Characterization Coord. Contributions (%) COS
Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
Agriculteur 0.02858 0.12929 0.00369 0.16615 -0.30961 5.7 38.0 0.21 (0.21) 0.74 (0.95)
Petit.Patr. 0.03511 0.03039 0.00107 0.06838 -0.14315 1.2 10.0 0.15 (0.15) 0.67 (0.83)
Prof.Cad.Sup 0.05618 0.189 0.01062 -0.42998 -0.06087 75.0 2.9 0.98 (0.98) 0.02 (1.00)
Prof.Int. 0.10155 0.01417 0.00144 -0.1066 0.0326 8.3 1.5 0.80 (0.80) 0.08 (0.88)
Employe 0.14982 0.00981 0.00147 0.01573 0.09547 0.3 18.9 0.03 (0.03) 0.93 (0.95)
Ouvr.Qualif. 0.11156 0.01382 0.00154 0.04371 0.10138 1.5 15.9 0.14 (0.14) 0.74 (0.88)
Ouvr.Non-Qual. 0.04399 0.02497 0.0011 0.1178 0.09486 4.4 5.5 0.56 (0.56) 0.36 (0.92)
Inactif 0.4732 0.00285 0.00135 0.03258 -0.0334 3.6 7.3 0.37 (0.37) 0.39 (0.76)
Columns analysis
Characterization Coord. Contributions (%) COS
Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
Radio 0.26614 0.0029 0.00077 -0.01494 0.02211 0.43 1.8 0.08 (0.08) 0.17 (0.25)
Tel. 0.32039 0.00334 0.00107 0.05328 0.00208 6.56 0.02 0.85 (0.85) 0.00 (0.85)
Quot.Nat. 0.03536 0.2944 0.01041 -0.54067 -0.00621 74.59 0.02 0.99 (0.99) 0.00 (0.99)
Quot.Reg. 0.13457 0.02434 0.00327 0.10883 -0.10965 11.5 22.44 0.49 (0.49) 0.49 (0.98)
Press.Mag. 0.10518 0.02838 0.00298 -0.09481 -0.1325 6.82 25.61 0.32 (0.32) 0.62 (0.94)
Press.TV 0.13836 0.02724 0.00377 0.00975 0.16161 0.09 50.11 0.00 (0.00) 0.96 (0.96)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 46
Association « Médias » - « Professions » - Graphique et contributions au KHI-2
CHI-2 contributions
Id Row Column Value Expected Std.Resid Contrib. %
1 Prof.Cad.Sup Quot.Nat. 74 24.6 9.96 (+) 99.13 35.92
2 Agriculteur Press.TV 17 49 -4.57 (-) 20.88 7.57
3 Prof.Cad.Sup Press.Mag. 103 73.2 3.48 (+) 12.12 4.39
4 Ouvr.Qualif. Press.Mag. 104 145.4 -3.43 (-) 11.77 4.26
5 Agriculteur Quot.Reg. 71 47.6 3.39 (+) 11.46 4.15
6 Prof.Cad.Sup Quot.Reg. 63 93.7 -3.17 (-) 10.04 3.64
7 Employe Press.TV 306 256.8 3.07 (+) 9.43 3.42
8 Agriculteur Quot.Nat. 2 12.5 -2.97 (-) 8.84 3.20 (32.4%)
Correspondance Analysis
Press.TV
9 Prof.Int. Quot.Nat. 63 44.5
0.16 2.78 (+) 7.71 2.79
10 Prof.Cad.Sup Tel. 184 223
0.14
-2.61 (-) 6.82 2.47
0.12
11 Ouvr.Non-Qual. Quot.Nat. 8 19.3
0.1
-2.57 (-) 6.59 2.39 Ouvr.Qualif.
Employe Ouvr.Non-Qual.
12 Petit.Patr. Press.TV 41 60.2
0.08 -2.47 (-) 6.12 2.22
0.06
0.04 Prof.Int.
Radio
0.02
Tel.
Quot.Nat.
0
-0.02
Inactif
(62.2%)
-0.04
-0.08
« Prof.Cad.Sup » et /ou « Quot.Nat » -0.1
Quot.Reg.
-0.18
le tableau … et masquent les autres -0.2
-0.24
-0.26
-0.28
-0.3
Agriculteur
Ricco Rakotomalala
47
-0.4 -0.2 0
L1 L2
K1
1 1
K2
K1 1 1
K2
K3
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 51
SAS – La PROC CORRESP
proc corresp data = mesdata.media dimens = 2;
var Radio -- Press_TV;
id Prof;
run;
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 52
Tanagra – Axé sur la
facilité d’utilisation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 53
R – Plusieurs packages de très grande facture : « ade4 », « ca », « FactoMineR »,…
Scree plot
0.012
#charger le package
library(FactoMineR)
media.afc$eig[, 1]
0.008
#lancer l'AFC
media.afc <- CA(media,ncp=2,graph=FALSE)
0.004
#liste des objets disponibles
0.000
print(attributes(media.afc))
1 2 3 4 5 6
print(media.afc$call)
CA factor map
#tableau des valeurs propres et Scree plot
print(media.afc$eig)
0.4
plot(media.afc$eig[,1],type="b",main="Scree plot") Agriculteur
0.2
Dim 2 (32.37%)
print(media.afc$row)
Petit.Patr. Press.Mag.
#coordonnées, contributions et cos2 - colonnes Quot.Reg.
Prof.Cad.Sup
print(media.afc$col) Inactif
0.0
Tel. Quot.Nat.
Radio Prof.Int.
#graphique Ouvr.Non-Qual.
Ouvr.Qualif. Employe
plot(media.afc,cex=0.75) -0.2
Press.TV
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 56
Des ouvrages exceptionnels !!!
Escofier B., Pagès J., « Analyses factorielles simples et multiples », Dunod, 2008 ; chapitre 3,
pages 63 à 83.
Lebart L., Morineau A., Piron M., « Statistique exploratoire multidimensionnelle », Dunod, 3ème
édition, 2000 ; Section 1.3, pp. 67 à 107.
Saporta G., « Probabilités, Analyse des Données et Statistique », Tehcnip, 2006 ; chapitre 9,
pp. 201 à 217.
Tenenhaus M., « Statistique : Méthodes pour décrire, expliquer et prévoir », Dunod, 2006 ;
chapitre 7, pages 197 à 249.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 57
Quelques tutoriels (Tanagra, R, SAS, etc.)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 58