Afc PDF

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 58

Analyse Factorielle des Correspondances

Tableau de contingence
Analyse des profils - Analyse des Associations
Décomposition orthogonale du ²

Ricco RAKOTOMALALA

Université Lumière Lyon 2

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
Croisement de 2 variables – Tableau de contingence

CSP\Filière Droit Sciences Médecine IUT


Origine sociale (CSP parents) vs. Exp.agri 80 99 65 58
Choix d’études à l’Université Patron 168 137 208 62
Cadre.sup 470 400 876 79
F.G. Carpentier Employé 145 133 135 54
http://geai.univ-brest.fr/~carpenti/ Ouvrier 166 193 127 129

Pourquoi croiser ? L’une des variables peut emmener de l’information sur


l’autre (Ex. influence de la CSP sur les choix de filières).

Quelques questions simples pour caractériser la relation :


1. Structure des filières choisies selon la CSP (profils lignes)
2. Différences/ressemblances des structures de choix selon les CSP (distance)
3. Idem – Structure des CSP des parents selon les filières (profils colonnes)
4. Associations entre CSP et FILIERES : Qui choisit quoi ? Quoi est choisi par qui ?

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
Notations – Tableau de contingence

Y/X x1 xl xL 
y1
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 80 99 65 58 302 
Patron 168 137 208 62 575 yk  nkl  nk .
Cadre.sup 470 400 876 79 1825
Employé 145 133 135 54 467 
Ouvrier 166 193 127 129 615
Total 1029 962 1411 382 3784
yK
 n.l n

P(Cadre.Sup) = 1825 / 3784 = 48.2%  Proportion des enfants de « Cadre Sup. » parmi les enquêtés

P(Médecine) = 1411 / 3784 = 37.3 %  Proportion des enquêtés ayant choisi la filère « Médecine »

P(Médecine & Cadre.Sup) = 876 / 3784 = 23.2%  Proportion des personnes « ayant choisi
‘Médecine’ ET qui sont enfants de ‘Cadre.sup’ » (idée de concomitance, association)

P(Médecine / Cadre.Sup) = 876 / 1825 = 48.0%  Proportion des personnes « ayant choisi le
‘Médecine’ SACHANT QU’ils sont enfants de ‘Cadre.Sup’ » (idée de causalité)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
PLAN

1. Analyse des profils lignes - Distance entre profils – Distance à l’origine - Inertie
2. Analyse des profils colonnes
3. Analyse des associations lignes / colonnes- KHI-2 d’écart à l’indépendance
4. Décomposition du KHI-2 - Contributions, Résidus
5. Analyse factorielle des correspondances
6. Les logiciels (SPAD, SAS, Tanagra, R)
7. Conclusion
8. Bibliographie

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
Profils lignes – Distance entre profils ( Distance du KHI-2)
nkl P(Sciences) = 962 / 3784 = 25.4%
P( X  l / Y  k ) 
nk . P(Sciences / Cadre sup) = 400 / 1825 = 21.9%

CSP\Filière Droit Sciences Médecine IUT Total


P(Sciences / Ouvrier) = 193 / 615 = 31.4%
Exp.agri 0.265 0.328 0.215 0.192 1 Question : Globalement, les enfants de
Patron 0.292 0.238 0.362 0.108 1
Cadre.sup 0.258 0.219 0.480 0.043 1 « cadre sup. » et « d’ouvrier » font-ils les
Employé 0.310 0.285 0.289 0.116 1
Ouvrier 0.270 0.314 0.207 0.210 1
mêmes choix ? Et les enfants de « patron » et
Total 0.272 0.254 0.373 0.101 1 de « cadre sup. » ?

2
nL
 nkl nk 'l  Les écarts entre modalités
Distance entre profils : d ²(k , k ' )     
rares sont exacerbés.
l 1 n.l  nk . nk '. 

d ²(cadre, ouvrier) 
1
0.258  0.2702  1 0.219  0.3142 d ²(cadre, patron) 
1
0.258  0.2922  1 0.219  0.2382
0.272 0.254 0.272 0.254

1
0.480  0.207 2  1 0.043  0.2102 
1
0.480  0.3622  1 0.043  0.1082
0.373 0.101 0.373 0.101
 0.5109  0.084611

Les choix de filières des enfants de patrons sont plus proches (similaires) de ceux des
cadres sup. qu’ils ne le sont de ceux des enfants d’ouvriers.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
Distance à l’origine (distance au profil « moyen »)
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 80 99 65 58 302
Patron 168 137 208 62 575
Cadre.sup 470 400 876 79 1825
Employé 145 133 135 54 467 Profil marginal = structure de choix sans
Ouvrier 166 193 127 129 615
Total 1029 962 1411 382 3784
distinction de CSP = Profil moyen c.à-d.
moyenne pondérée des profils lignes
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 0.265 0.328 0.215 0.192 1
Patron 0.292 0.238 0.362 0.108 1 1  302  0.265  575  0.292  
Cadre.sup 0.258 0.219 0.480 0.043 1 Ex. 0.272  3784  1825  0.258  467  0.310  615  0.270 
 
Employé 0.310 0.285 0.289 0.116 1
Ouvrier 0.270 0.314 0.207 0.210 1
Total 0.272 0.254 0.373 0.101 1

CSP\Filière DISTO²
Exp.agri 0.1703
Patron 0.0033
Distance à l’origine = Cadre.sup 0.0693
Distance au profil moyen Employé 0.0301
Ouvrier 0.2055
d ²(cadre) 
1
0.258  0.2722  1 0.219  0.2542
0.272 0.254
Les enfants d’ouvriers et d’exploitants

1
0.480  0.3732  1 0.043  0.1012
0.373 0.101 agricoles présentent les structures de
 0.0693
choix (les profils) les plus « différents »
de l’ensemble des étudiants.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
Distance à l’origine et distance entre profils

CSP\Filière DISTO² Analyse globale : positionnement par rapport à la moyenne.


Exp.agri 0.1703
Patron 0.0033
Les enfants d’ouvriers et d’exploitants agricoles présentent
Cadre.sup 0.0693 les structures de choix (les profils) les plus « différents » de
Employé 0.0301 l’ensemble des étudiants.
Ouvrier 0.2055

CSP Exp.agri Patron Cadre.sup Employé Ouvrier


Exp.agri 0 0.1621 0.4538 0.0874 0.0042
Patron 0 0.0846 0.0245 0.1918
Cadre.sup 0 0.1768 0.5109
Employé 0 0.1154
Ouvrier 0

Analyse approfondie : positionnement (distance) deux à deux.


Les enfants d’ouvriers et d’exploitants agricoles présentent des structures de choix très proches.
En revanche, cadre sup se démarque fortement de ces deux CSP.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
INERTIE = DISTO x Poids de la modalité
CSP\Filière Droit Sciences Médecine IUT Total CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 80 99 65 58 302 Exp.agri 0.265 0.328 0.215 0.192 1
Patron 168 137 208 62 575 Patron 0.292 0.238 0.362 0.108 1
Cadre.sup 470 400 876 79 1825 Cadre.sup 0.258 0.219 0.480 0.043 1
Employé 145 133 135 54 467 Employé 0.310 0.285 0.289 0.116 1
Ouvrier 166 193 127 129 615 Ouvrier 0.270 0.314 0.207 0.210 1
Total 1029 962 1411 382 3784
Total 0.272 0.254 0.373 0.101 1

Quantité d’information portée par la modalité


« Cadre » = son poids x son écartement par rapport
Inertie (cadre)  poids (cadre)  d ²(cadre) au profil moyen
1825
  0.0693
3784 Ex. « Exploitant Agricole » est différent, mais
 0.4832  0.0693
concerne peu d’individus  son inertie ne se
 0.0334
démarque pas.
Ex. A contrario, cf. « Cadre.sup ».

CSP\Filière DISTO² Poids INERTIE


Exp.agri 0.1703 0.0798 0.0136
Patron 0.0033 0.1520 0.0005
Cadre.sup 0.0693 0.4823 0.0334
Somme(INERTIE) = Quantité d’information
Employé 0.0301 0.1234 0.0037 disponible dans les données ! C’est un
Ouvrier 0.2055 0.1625 0.0334 indicateur fondamental.
Total 0.0846

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
Profils colonnes – Distance entre profils
nkl
P(Y  k / X  l ) 
n.l P(Cadre sup) = 48.2%
P(Cadre sup / Droit) = 45.7%
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 0.078 0.103 0.046 0.152 0.080 P(Cadre sup / IUT) = 20.7%
Patron 0.163 0.142 0.147 0.162 0.152
Cadre.sup 0.457 0.416 0.621 0.207 0.482 Question : Dans les filières, a-t-on les
Employé 0.141 0.138 0.096 0.141 0.123 mêmes structures de CSP ?
Ouvrier 0.161 0.201 0.090 0.338 0.163
Total 1 1 1 1 1

2
K
n n n  Les écarts entre modalités
Distance entre profils : d ²(l , l ' )    kl  kl ' 
k 1 nk .  n.l n.l '  rares sont exacerbés.

d ²(droit , sciences ) 
1
0.078  0.1032  1 0.163  0.1422    0.024
0.080 0.152

d ²(droit , médecine ) 
1
0.078  0.0462  1 0.163  0.1472    0.118
0.080 0.152

Le profil sociologique des étudiants en « droit » est plus proche de ceux en


« sciences » qu’en « médecine ».
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
Distance à l’origine et inertie

CSP\Filière Droit Sciences Médecine IUT Total CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 0.078 0.103 0.046 0.152 0.080 Exp.agri 80 99 65 58 302
Patron 0.163 0.142 0.147 0.162 0.152 Patron 168 137 208 62 575
Cadre.sup 0.457 0.416 0.621 0.207 0.482 Cadre.sup 470 400 876 79 1825
Employé 0.141 0.138 0.096 0.141 0.123 Employé 145 133 135 54 467
Ouvrier 0.161 0.201 0.090 0.338 0.163 Ouvrier 166 193 127 129 615
Total 1 1 1 1 1 Total 1029 962 1411 382 3784

Le profil sociologique des étudiants en


« IUT » est le plus différent de la globalité.

Filière Droit Sciences Médecine IUT


DISTO² 0.0047 0.0272 0.0928 0.4145
Poids 0.2719 0.2542 0.3729 0.1010 Total
Inertie 0.0013 0.0069 0.0346 0.0418 0.0846 Somme(INERTIE) = Identique
à celle issue de l’étude des
profils lignes. Normal, on
analyse le même tableau, mais
« IUT » et « Médecine » sont les modalités
avec un point de vue différent !
les porteuses d’information.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
Indépendance - KHI-2 d’écart à l’indépendance

H0 : X et Y sont indépendants  P(Y=k & X = l) = P(Y=k) x P(X=l)

Effectifs observés
CSP\Filière Droit Sciences Médecine IUT Total Probabilité conjointe
Exp.agri 80 99 65 58 302
Patron 168 137 208 62 575
Cadre.sup 470 400 876 79 1825
Employé 145 133 135 54 467
Ouvrier 166 193 127 129 615 Les effectifs sont calculés à
Total 1029 962 1411 382 3784
partir des marges.
Effectifs sous H0
nk .  n.l
ekl 
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 82.1 76.8 112.6 30.5 302
Patron 156.4 146.2 214.4 58.0 575
n
Cadre.sup 496.3 464.0 680.5 184.2 1825
Employé 127.0 118.7 174.1 47.1 467
302 1029
Ouvrier 167.2 156.4 229.3 62.1 615
Ex. 82.1 
Total 1029 962 1411 382 3784 3784

Statistique du
  
2
K L
nkl  ekl 2 Sous H0, la statistique suit une loi du KHI-2
KHI-2 de Pearson k 1 l 1 ekl à (K-1)x(L-1) degrés de liberté.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14
Effectifs observés
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 80 99 65 58 302 KHI-2 d’écart à l’indépendance - Exemple
Patron 168 137 208 62 575
Cadre.sup 470 400 876 79 1825
Employé 145 133 135 54 467
Ouvrier 166 193 127 129 615
Total 1029 962 1411 382 3784

Effectifs sous H0
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 82.1 76.8 112.6 30.5 302
Patron 156.4 146.2 214.4 58.0 575 KHI-2 320.3
Cadre.sup 496.3 464.0 680.5 184.2 1825
Employé 127.0 118.7 174.1 47.1 467 ddl 12
Ouvrier 167.2 156.4 229.3 62.1 615 p-value < 0.0001
Total 1029 962 1411 382 3784

Au risque 5%, on rejette l’hypothèse


CSP\Filière Droit Sciences Médecine IUT
nulle d’indépendance entre Y et X.
Exp.agri 0.1 6.4 20.1 24.8
Patron 0.9 0.6 0.2 0.3
Cadre.sup 1.4 8.8 56.2 60.1
Employé 2.6 1.7 8.8 1.0
Ouvrier 0.0 8.6 45.7 72.1

Remarque : Restrictions sur la validité du test.


1. Il faut que 80% des cellules présentent un ekl  5 (il faut surtout noter qu’une faible
valeur de ekl « gonfle » exagérément la valeur du KHI-2)
2. Quand n est élevé, il est toujours significatif (car les ddl ne tiennent pas compte de n).
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15
KHI-2 n’est pas normalisé, ² = 20  on ne
sait pas vraiment ce que ça veut dire
Mesures dérivées du KHI-2
0   2  n  min K  1, L  1

2
320.3 0.0846 = Inertie totale. L’information disponible peut être
PHI-2   2
  0.0846
n 3784 perçue sous l’angle de l’association entre Y et X.

T de Tschuprow : normalisation par


les degrés de liberté. Varie entre 0 t 
2 320.3
  0.1563
et 1 sous certaines conditions. n  ( K  1)( L  1) 3784  (5  1)(4  1)

V de Cramer : autre normalisation. 2 320.3


V   0.1680
Varie entre 0 et 1. n  min( K  1, L  1) 3784  min( 5  1,4  1)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16
Analyse approfondie des associations Question : quelles sont les associations (de modalités)
Contributions au KHI-2 (à l’inertie totale) qui contribuent le plus à l’information ?
Résidus standardisés et contributions au KHI-2.
Effectifs observés Effectifs sous H0
CSP\Filière Droit Sciences Médecine IUT Total CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 80 99 65 58 302 Exp.agri 82.1 76.8 112.6 30.5 302
Patron 168 137 208 62 575 Patron 156.4 146.2 214.4 58.0 575
Cadre.sup 470 400 876 79 1825 Cadre.sup 496.3 464.0 680.5 184.2 1825
Employé 145 133 135 54 467 Employé 127.0 118.7 174.1 47.1 467
Ouvrier 166 193 127 129 615 Ouvrier 167.2 156.4 229.3 62.1 615
Total 1029 962 1411 382 3784 Total 1029 962 1411 382 3784

Résidus standardisés Contributions au KHI-2 (%)


CSP\Filière Droit Sciences Médecine IUT CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri -0.23 2.54 -4.49 4.98 Exp.agri 0.02% 2.01% 6.29% 7.75% 16.06%
Patron 0.93 -0.76 -0.44 0.52 Patron 0.27% 0.18% 0.06% 0.08% 0.59%
Cadre.sup -1.18 -2.97 7.49 -7.75 Cadre.sup 0.43% 2.75% 17.53% 18.77% 39.49%
Employé 1.60 1.31 -2.97 1.00 Employé 0.80% 0.54% 2.75% 0.31% 4.39%
Ouvrier -0.10 2.93 -6.76 8.49 Ouvrier 0.00% 2.68% 14.26% 22.52% 39.46%
(+) attraction ; (-) répulsion Total 1.52% 8.16% 40.88% 49.44%

n e Suit très approximativement une loi Fraction d’information


rkl  kl kl rkl2
normale (0, 1) c.-à-d. au risque ckl  (contribution à l’information)
ekl
5%, |rkl| > 2  significatif. 2
portée par chaque case.

L’AFC résulte d’une décomposition en valeurs singulières de cette matrice !!!


(http://www.mathematica-journal.com/2010/09/an-introduction-to-correspondence-analysis/)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17
Autre prisme : Test du rapport de vraisemblance
Utiliser l’Indice d’attraction et de répulsion pour une analyse approfondie des associations

Indice d’attraction et répulsion P(Y  k & X  l ) okl


ikl  #
(i > 1 : attraction ; i < 1 : répulsion) P(Y  k )  P( X  l ) ekl

Statistique du rapport de K L
G  2 nkl  ln ikl 
vraisemblance. Sous H0 : suit une k 1 l 1
loi du KHI-2 à (K-1)(L-1) ddl.

Indice d'attraction - répulsion


CSP\Filière Droit Sciences Médecine IUT
Exp.agri 0.974 1.289 0.577 1.902 G 321.964
Patron 1.074 0.937 0.970 1.068 ddl 12
Cadre.sup 0.947 0.862 1.287 0.429 p-value < 0.0001
Employé 1.142 1.120 0.775 1.145
Ouvrier 0.993 1.234 0.554 2.078

La statistique de Pearson est une approximation du rapport de


vraisemblance… mais elle est plus connue (et utilisée).
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19
Analyse du tableau – Questions

1 2 3 4
CSP\Filière Droit Sciences Médecine IUT Total
1 Exp.agri 80 99 65 58 302
2 Patron 168 137 208 62 575
3 Cadre.sup 470 400 876 79 1825
4 Employé 145 133 135 54 467
5 Ouvrier 166 193 127 129 615
Total 1029 962 1411 382 3784

1. Quelles sont les CSP qui font les mêmes choix de filières ?

2. Quelles sont les filières qui ont des structures de CSP proches ?

3. Quelle CSP est attirée par quelle filière ? Quelle filière est

attractive pour quelle CSP ?

On souhaite obtenir une vision à la fois globale et synthétique.


Idéalement une (des) représentation(s) graphique(s).

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20
Analyse factorielle des correspondances - Analyse des profils
Trouver un premier facteur qui permet de positionner les modalités de la manière la plus
dispersée possible (pour qu’on les distingue le mieux possible les uns des autres)

Cadre.sup Employé
Patron Exp.Agricole

0 Ouvrier
• Fk1 sont les « coordonnées factorielles » sur le 1er facteur
K • La moyenne des points modalités est égale à 0
n
1   k .  Fk21 •  représente la variance des points modalités
k 1 n
• On cherche à maximiser 

1
Indique la crédibilité (la fidélité à la réalité) du facteur
2

Médecine Droit Sciences IUT

0
L
n.l
1    Gl21 • Gl1 sont les coordonnées factorielles sur le 1er facteur
l 1 n • Le  calculé ici coïncide avec celui calculé sur le profil ligne

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 21
AFC, analyse des profils - Exemple
2
 
2
 0.0846 Inertie totale
n

Values Poids Coord.1


Cadre.sup 0.48229 -0.26272
(0.0824/0.0846) = 97.4% de l’information disponible
Patron 0.15196 0.02015
Employé 0.12341 0.14209 est restituée par ce facteur (axe factoriel).
Exp.agri 0.07981 0.41012
Ouvrier 0.16253 0.45148

Lambda 1 0.0824
d²1(patron) = 0.1521 = (0.41012 - 0.02015)²

Remarque : 100% de l’information = tableau initial des distances entres profils.


Effectivement, le positionnement factoriel propose une image assez fidèle ici.
CSP Exp.agri Patron Cadre.sup Employé Ouvrier CSP Exp.agri Patron Cadre.sup Employé Ouvrier
Exp.agri 0 0.1621 0.4538 0.0874 0.0042 Exp.agri 0 0.1521 0.4527 0.0718 0.0017
Patron 0 0.0846 0.0245 0.1918 Patron 0 0.0800 0.0149 0.1860
Cadre.sup 0 0.1768 0.5109 Cadre.sup 0 0.1639 0.5101
Employé 0 0.1154 Employé 0 0.0957
Ouvrier 0 Ouvrier 0
Distance entre modalités (tableau initial) Distance entre modalités (1er facteur)

L’AFC devient décisive lorsque le nombre de modalité est élevé !!!


Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 22
AFC, analyse des profils – Exemple (suite)
Values Poids Coord.1
Cadre.sup 0.48229 -0.26272
Patron 0.15196 0.02015 1. 1 est bien le même (calculs sur les modalités lignes ou
Employé 0.12341 0.14209 colonnes)
Exp.agri 0.07981 0.41012
Ouvrier 0.16253 0.45148 2. OK pour le positionnement relatif des modalités des
lignes (resp. des colonnes).
Lambda 1 0.0824
3. Mais que peut-on dire en termes d’associations
lignes/colonnes ? Est-ce que leurs proximités sur l’axe
Values Poids Coord.1
est une indication ?
Médecine 0.37289 -0.30313
Droit 0.27193 0.02799
Sciences 0.25423 0.16046 Ex.A – Les enfants d’ouvriers sont attirés par les IUT ?
IUT 0.10095 0.64017 Ex.B - Les enfants de patrons sont attirés par le droit ?

Lambda 1 0.0824

Cadre.sup Employé
Patron Exp.Agricole

0 Ouvrier

Médecine Droit Sciences IUT

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23
AFC, analyse des associations – Relations quasi-barycentriques (relation de transition)

On peut obtenir les coordonnées des modalités lignes à partir de l’ensemble des points
colonnes (et inversement) : moyenne pondérée déflatée par la racine de l’inertie.

Coordonnées des modalités colonnes sur le 1er axe


Values Droit Sciences M édecine IUT
coord 1 0.02799 0.16046 -0.30313 0.64017
L
1 nkl
Fk1  
1 l 1 nk .
 Gl1
Profil ligne des « ouvriers »
Droit Sciences Médecine IUT
Ouvrier 0.2699 0.3138 0.2065 0.2098

Coordonnée de « ouvriers » à partir de la relation

F51 
1
0.2699  0.02799    0.2098  0.64017  0.45148
0.0824

Conclusion :
1. Le rapprochement des coordonnées des modalités lignes / colonnes est licite grâce à
cette relation
2. Mais il ne peut se faire que globalement c.-à-d. une modalité ligne doit être située par
rapport à l’ensemble des modalités colonnes (et inversement)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 24
AFC, analyse des associations – Relations quasi-barycentriques (suite)

Cadre.sup Patron Employé Exp.Agricole

0 Ouvrier
Médecine Droit Sciences IUT

0
Ex.A – Les enfants d’ouvriers sont attirés par les IUT ?
Réponse : OUI. Les enfants d’ouvriers sont plus attirés par les IUT que l’ensemble des étudiants.
Ex.B - Les enfants de patrons sont attirés par le droit ?
Réponse : NON. Par rapport à l’ensemble des étudiants, les enfants de patrons ne sont attirés
par aucune filière en particulier (idem pour Employé d’ailleurs).

Droit Sciences Médecine IUT


C’est bien l’information fournie par Ouvrier 0.270 0.314 0.207 0.210
Patron 0.292 0.238 0.362 0.108
les profils lignes Marge (Total) 0.272 0.254 0.373 0.101

Résidus standardisés
CSP\Filière Droit Sciences Médecine IUT
Exp.agri -0.23 2.54 -4.49 4.98
C’est aussi l’information fournie par le Patron 0.93 -0.76 -0.44 0.52
Cadre.sup -1.18 -2.97 7.49 -7.75
tableau des résidus standardisés
Employé 1.60 1.31 -2.97 1.00
Ouvrier -0.10 2.93 -6.76 8.49
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 25
AFC, analyse des associations – S’appuyer sur l’indice d’attraction-répulsion

Indices reconstitués à partir du 1er axe


CSP\Filière Droit Sciences Médecine IUT Coord.1 Indices reconstitués à
Exp.agri 1.040 1.229 0.567 1.915 0.41012 partir des H premiers axes.
Patron 1.002 1.011 0.979 1.045 0.02015
Cadre.sup 0.974 0.853 1.277 0.414 -0.26272
F  Glh
H
iˆkl  1   kh
Employé 1.014 1.079 0.850 1.317 0.14209
Ouvrier 1.044 1.252 0.523 2.007 0.45148
Coord.1 0.02799 0.16046 -0.30313 0.64017 h 1 h
Lambda.1 0.082394

Estimation des indices A. 2 modalités s’attirent (se repoussent) si leurs coordonnées


à partir du 1er axe sont de même signe (de signe contraire) sur les axes.
B. Le trait est d’autant plus marqué que les valeurs sont
élevées (en valeur absolue).

Indice d'attraction - répulsion


CSP\Filière Droit Sciences Médecine IUT
Exp.agri 0.974 1.289 0.577 1.902
Patron 1.074 0.937 0.970 1.068
Cadre.sup 0.947 0.862 1.287 0.429
Indices calculés sur le
Employé 1.142 1.120 0.775 1.145
tableau initial des données Ouvrier 0.993 1.234 0.554 2.078

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 26
AFC, analyse des associations – Représentation simultanée dans le plan

AFC
0.7
(2.0%)

0.5

0.3

0.1
Médecine Ouvrier IUT
Cadre.sup Sciences Exp.Agri.
Patron (97.4%)
-0.7 -0.5 -0.3 -0.1 0.1 0.3 0.5 0.7
-0.1 Droit Employé

-0.3

Row Column Value Expected Std.Resid. Contrib. -0.5 Cumul (%)


Ouvrier IUT 129 62.1 8.49 22.52 22.52
Cadre.sup IUT 79 184.2 -7.75 18.77 41.29
Cadre.sup Médecine 876 680.5 7.49 17.53 58.82
-0.7
Ouvrier Médecine 127 229.3 -6.76 14.26 73.08
Exp.agri IUT 58 30.5 4.98 7.75 80.83
Exp.agri Médecine 65 112.6 -4.49 6.29 87.12

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 27
AFC, analyse des associations – Décomposition du ²
Effectifs observés Effectifs sous H0 (Indépendance)
CSP\Filière Droit Sciences Médecine IUT Total CSP\Filière Droit Sciences Médecine IUT
Exp.agri 80 99 65 58 302 Exp.agri 82.1 76.8 112.6 30.5
Patron
Cadre.sup
168
470
137
400
208
876
62
79
575
1825
Patron
Cadre.sup
156.4
496.3
146.2
464.0
214.4
680.5
58.0
184.2 total
2
 320.27
Employé 145 133 135 54 467 Employé 127.0 118.7 174.1 47.1
Ouvrier 166 193 127 129 615 Ouvrier 167.2 156.4 229.3 62.1
Total 1029 962 1411 382 3784

Vérifier la qualité de restitution de l’information sur le 1 er axe


Effectifs reconstitués à partir du 1er axe

nˆ 
CSP\Filière Droit Sciences Médecine IUT 2
(1)
 ekl
  
Exp.agri 85.4 94.4 63.8 58.4
Patron 156.7 147.8 209.8 60.7
2
1
kl
 311.7810
k l ekl
Cadre.sup 483.6 395.8 869.3 76.3
Employé 128.8 128.2 148.0 62.1
12
Ouvrier 174.6 195.8 120.0 124.6
1 2
 1  0.0824
  n
Formule de reconstitution
nˆkl( h ) 
nk .n.l 1   Fhk  Ghl 
(h premiers axes) n  h 
 h

nˆ 1
kl  nkl  Quantifier l’information non restituée sur le 1 er axe
Reste - Ecarts au tableau observé
CSP\Filière
Exp.agri
Droit
-5.4
Sciences
4.6
Médecine
1.2
IUT
-0.4  2
 
nˆ (1)
kl  nkl 
2

8.4885
résiduel
Patron 11.3 -10.8 -1.8 1.3 k l ekl
Cadre.sup -13.6 4.2 6.7 2.7
Employé 16.2 4.8 -13.0 -8.1
Ouvrier -8.6 -2.8 7.0 4.4
total
2
 12   résiduel
2

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 28
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 29
AFC - Calculs - Décomposition en valeurs singulières de la matrice des résidus standardisés (déflatée)

1
Soit M S où S est la matrice des résidus standardisés
n
U (K x K) contient les K vecteurs singuliers à gauche
L’AFC consiste à calculer la (modalités lignes). U est orthonormée.
décomposition en valeurs singulières de M  (K x L) est une matrice dont les éléments situés sur la
diagonale correspondent aux valeurs singulières.
M  UV T
V (L x L) contient les L vecteurs singuliers à droite
(modalités colonnes). V est orthonormée.

 
A quoi correspond cette Une valeur singulière M vh   h u h
 
opération ? h est telle que M T u h   h vh
(On perçoit bien l’analyse croisée ligne/colonne ici)

1. On cherche à produire des vecteurs de


projections de manière à ce que la dispersion des
Concrètement ? modalités lignes (colonnes) soit la plus grande
possible sur l’axe.
2. La dispersion doit être la même pour les
modalités lignes et les modalités colonnes.
Ricco Rakotomalala 3. Les facteurs sont orthogonaux deux à deux.
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 30
AFC - Calculs - Décomposition en valeurs singulières (suite)

L’inertie expliquée par l’axe (la valeur propre associée à


h   2
h
l’axe) = carré de la valeur singulière
h ≤ 1 (cf. Lebart et al., pages 85 et 86)

ukh   h
Fkh  Obtention des coordonnées des modalités lignes à partir
nk . des vecteurs singuliers à gauche.
n

vlh   h
Glh  Obtention des coordonnées des modalités colonnes à partir
n.l
n des vecteurs singuliers à droite.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 31
AFC - Calculs - Décomposition en valeurs singulières – Calculs détaillés sous R

#charger le fichier de données


etudiants <- read.table(file="afc_etudiants.txt",row.names=1,header=T,sep="\t")
print(etudiants)
#transformer le data.frame en tableau croisé
etudiants <- as.table(etudiants)
#effectif total
n <- sum(etudiants)
print(n)
#marge ligne
sum.row <- apply(etudiants,1,sum)
sum.row <- matrix(sum.row,nrow=length(sum.row),ncol=1)
#marge colonne
sum.col <- apply(etudiants,2,sum)
sum.col <- matrix(sum.col,nrow=1,ncol=length(sum.col))
#tableau sous indépendance
e <- (sum.row %*% sum.col)/n
print(e)
#résidus standardisés (au facteur 1/racine(n) près)
res.std <- (1.0/sqrt(n))*(etudiants-e)/sqrt(e)
print(res.std)
#nombre d'axes max.
nb.axes <- min(nrow(res.std)-1,ncol(res.std)-1)
#décomposition en valeurs singulières
etu.svd <- svd(res.std,nu=nb.axes,nv=nb.axes)
print(etu.svd)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 32
AFC - Calculs - Décomposition en valeurs singulières – Calculs détaillés sous R (suite)

#vérification orthonormalité des vecteurs de projection


U <- matrix(etu.svd$u,nrow=5,ncol=3)
print(t(U)%*%U)
V <- matrix(etu.svd$v,nrow=4,ncol=3)
print(t(V)%*%V)

#les valeurs propres (inerties des axes)


print(round(etu.svd$d^2,4))

#profils marginaux
profil.row <- sum.row/n
profil.col <- sum.col/n

#coordonnées des modalités lignes - 1er facteur


print(round(etu.svd$d[1]*U[,1]/sqrt(profil.row),5))

#coordonnées des modalités colonnes - 1er facteur


print(round(etu.svd$d[1]*V[,1]/sqrt(profil.col),5))

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 34
AFC – Choisir le nombre d’axes Peut être déduite des (L-1)
colonnes et la marge
CSP\Filièr
1. Nombre d’axes maximum e Droit Sciences Médecine IUT Total
Exp.agri 80 99 65 58 302
que l’on peut produire Patron 168 137 208 62 575
Peut être déduite des (K-1)
Cadre.sup 470 400 876 79 1825
Hmax = min(K-1 ; L-1) Employé 145 133 135 54 467 lignes et la marge
Ouvrier 166 193 127 129 615
Total 1029 962 1411 382 3784

Axis Eigen value % explained


2. ~ Règle de Kaiser : Retenir un axe si le pourcentage 1 0.0824 97.35%

(peu utilisée) d’inertie est supérieur à (1/Hmax) 2 0.0017 2.01%


3 0.0005 0.64%
(1/3) = 33% pour notre exemple Tot. 0.0846 -

Graphique des éboulis


0.09
0.08
0.07
Valeurs propres

0.06
3. Scree plot : Graphique des 0.05
0.04

éboulis et règle du coude 0.03


0.02
0.01
0
0 1 2 3 4
Axes

4. Pragmatique : au moins 2 axes pour obtenir une représentation graphique


Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 35
AFC – Coordonnées factorielles et contributions aux axes nk . 2 nk . 2
d h (k ) d h (k )
CTRh (k )  K n  n
nk . 2 h
k 1 n
d h (k )
Rows analysis Inertie % 97.35% 2.01%
Characterization Coord. Contributions (%) Contribution : influence relative
Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2
de la modalité dans la définition
Exp.agri 0.0798 0.1704 0.0136 0.4101 0.0263 16.29 3.23
Patron 0.1520 0.0033 0.0005 0.0202 -0.0266 0.07 6.30 de l’axe factoriel.
Cadre.sup 0.4823 0.0693 0.0334 -0.2627 0.0156 40.40 6.89 Part d’inertie de la modalité dans
Employé 0.1234 0.0301 0.0037 0.1421 -0.0973 3.02 68.63
l’inertie totale de l’axe.
Ouvrier 0.1625 0.2055 0.0334 0.4515 0.0396 40.21 14.95
Sommek[CTRh(k)] = 100%.

Informations sur les modalités : importants


pour relativiser les résultats de l’AFC

Positionnement dans le plan factoriel

Columns analysis Inertie % 97.35% 2.01%


Characterization Coord. Contributions (%)
Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2
Droit 0.2719 0.0047 0.0013 0.0280 -0.0607 0.26 58.76
Sciences 0.2542 0.0272 0.0069 0.1605 -0.0027 7.94 0.11
Médecine 0.3729 0.0928 0.0346 -0.3031 0.0297 41.58 19.26
IUT 0.1010 0.4145 0.0418 0.6402 0.0608 50.21 21.87

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 36
AFC – Coordonnées factorielles et qualité de représentation
Modalités lignes
Characterization Coord. COS²
Values Weight Sq. Dist. Inertia coord 1 coord 2 cos 1 cos 2 nk . 2
d h (k )
Exp.agri 0.0798 0.1704 0.0136 0.4101 0.0263 0.99 (0.99) 0.00 (0.99)
n d h2 (k )
Patron 0.1520 0.0033 0.0005 0.0202 -0.0266 0.12 (0.12) 0.21 (0.34) COSh (k ) 
2
 2
nk . 2
Cadre.sup 0.4823 0.0693 0.0334 -0.2627 0.0156 1.00 (1.00) 0.00 (1.00) d (k ) d (k )
Employé 0.1234 0.0301 0.0037 0.1421 -0.0973 0.67 (0.67) 0.31 (0.99) n
Ouvrier 0.1625 0.2055 0.0334 0.4515 0.0396 0.99 (0.99) 0.01 (1.00)

Qualité : information de la modalité reproduite par l’axe.


Inertie de la modalité sur l’axe divisée par l’inertie totale de la modalité.
Sommeh[COS²h(k)] = 100%.

Modalités colonnes
Characterization Coord. COS²
Values Weight Sq. Dist. Inertia coord 1 coord 2 cos 1 cos 2
Droit 0.2719 0.0047 0.0013 0.0280 -0.0607 0.17 (0.17) 0.78 (0.94)
Sciences 0.2542 0.0272 0.0069 0.1605 -0.0027 0.95 (0.95) 0.00 (0.95)
Médecine 0.3729 0.0928 0.0346 -0.3031 0.0297 0.99 (0.99) 0.01 (1.00)
IUT 0.1010 0.4145 0.0418 0.6402 0.0608 0.99 (0.99) 0.01 (1.00)

Attention : compte tenu des CTR et COS², on serait tenté de penser qu’il y a quelque chose
entre « Employé » et « Droit » sur le 2nd axe.
 NON, car l’inertie associée à l’axe factoriel est très faible (2.01%)
 Cela sera confirmé par le tableau des contributions au KHI-2
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 37
AFC – Contributions au KHI-2

A lire toujours pour confirmer les informations fournies par l’AFC !!!
Contributions au KHI-2 (%)
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 0.02% 2.01% 6.29% 7.75% 16.06%
Patron 0.27% 0.18% 0.06% 0.08% 0.59%
Cadre.sup 0.43% 2.75% 17.53% 18.77% 39.49%
Employé 0.80% 0.54% 2.75% 0.31% 4.39%
Ouvrier 0.00% 2.68% 14.26% 22.52% 39.46%
Total 1.52% 8.16% 40.88% 49.44%

Présentée sous une forme linéaire (et triée) dans Tanagra pour une meilleure lecture
[Seules les contributions supérieures à la moyenne sont affichées c.-à-d. Contrib % > 100 / (K x L) ]

CHI-2 contributions
Id Row Column Value Expected Std.Resid. Contrib. (%) Cumul (%)
1 Ouvrier IUT 129 62.1 8.49 22.52 22.52
2 Cadre.sup IUT 79 184.2 -7.75 18.77 41.29
3 Cadre.sup Médecine 876 680.5 7.49 17.53 58.82
4 Ouvrier Médecine 127 229.3 -6.76 14.26 73.08
5 Exp.agri IUT 58 30.5 4.98 7.75 80.83
6 Exp.agri Médecine 65 112.6 -4.49 6.29 87.12

Il n’y a rien entre « Employé » et « Droit » !!!

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 38
AFC – Représentation graphique – L’atout maître de l’analyse factorielle

AFC
0.7
(2.0%)

0.5

0.3

0.1
Médecine Ouvrier IUT
Cadre.sup Sciences Exp.Agri.
Patron (97.4%)
-0.7 -0.5 -0.3 -0.1 0.1 0.3 0.5 0.7
-0.1 Droit Employé

-0.3

-0.5

-0.7

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 39
AFC – Projection des lignes (colonnes) supplémentaires – Détails des calculs

CSP\Filière Droit Sciences Médecine IUT Total


Exp.agri 80 99 65 58 302
Patron 168 137 208 62 575
Cadre.sup 470 400 876 79 1825
Employé 145 133 135 54 467 Ligne supplémentaire : les
Ouvrier 166 193 127 129 615
Bourgeois 638 537 1084 141 2400 enfants de « Bourgeois »

Passage aux profils lignes


Coordonnées des « Filières » sur
Profils lignes
le 1er axe , avec 1=0.0824
CSP\Filière Droit Sciences Médecine IUT Total
Exp.agri 0.265 0.328 0.215 0.192 1 Values Coord.1 (G)
Patron 0.292 0.238 0.362 0.108 1 Droit 0.0280
Cadre.sup 0.258 0.219 0.480 0.043 1 Sciences 0.1605
Employé 0.310 0.285 0.289 0.116 1 Médecine -0.3031
Ouvrier 0.270 0.314 0.207 0.210 1 IUT 0.6402
Bourgeois 0.266 0.224 0.452 0.059 1

Positionnement de « bourgeois » sur le premier axe à partir de la relation


L
Fk1 
1

nkl
 G 
1
0.266  0.0280    0.059  0.6402  0.1950
1 l 1 k .
l1
n 0.0824

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 40
AFC – Projection des lignes (colonnes) supplémentaires – Représentation graphique

AFC
0.7

0.5

0.3

0.1
Médecine Ouvrier IUT
Cadre.sup Sciences Exp.Agri.
Patron
-0.7 -0.5 -0.3 Bourgeois -0.1 0.1 0.3 0.5 0.7
(-0.1950, 0.0055) Droit Employé
-0.1

-0.3

-0.5

-0.7

Le profil des enfants de « Bourgeois » se rapproche de celui des enfants de


« Cadre sup. » et, comme eux, ils sont attirés par la « Médecine ».
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 41
AFC – Projection des lignes (colonnes) supplémentaires – Fonctions scores

Certains logiciels (ex. Tanagra) fournissent les coefficients des fonctions scores qui
s’appliquent directement aux profils

L
nkl Glh
Fkh    alh Où alh 
l 1 nk . h

Fonctions scores fournis par les logiciels


Factor score coefficients for supplementary row
From column values (relative frequency)
Column Factor 1 Factor 2 Factor 3
Profil à positionner (« Bourgeois » = 6ème modalité)
Droit 0.097502 -1.469969 0.712131
Sciences 0.559017 -0.066254 -1.617643 Droit Sciences Médecine IUT
M édecine -1.056027 0.718656 0.223806 Bourgeois 0.266 0.224 0.452 0.059
IUT 2.230238 1.471908 1.328652

F61 = 0.266 x 0.097502 + … + 0.059 x 2.230238 = -0.1950


F62 = 0.266 x (-1.469969) + … + 0.059 x 1.471908 = 0.0055
F63 = 0.266 x 0.712131 + … + 0.059 x 1.328652 = 0.0065

Remarque : On peut calculer la qualité de représentation (QLT = COS²) sur les H premiers axes en faisant le
rapport entre le rapport entre la somme du carré des distances à l’origine sur chaque axe et le carré de la
distance par rapport au profil moyen (le profil moyen du tableau originel, sans les lignes supplémentaires)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 42
Quelques commentaires sur l’AFC

1. L’AFC est destinée à l’analyse des grands tableaux croisés

2. C’est une méthode descriptive

3. L’AFC s’applique au-delà des tableaux de contingence

4. Il faut que ce soit un tableau croisé de valeurs positives

5. Et que les notions de marges et de profils soient applicables

6. L’AFC s’intéresse aux structures des relations lignes/colonnes

7. Il peut fournir des résultats même si le ² n’est pas significatif

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 43
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 44
Association « Médias » - « Professions » - Lebart & al.-Tab 1.3-10 – page 104
Prof/Media Radio Tel. Quot.Nat. Quot.Reg. Press.Mag. Press.TV Total
Agriculteur 96 118 2 71 50 17 354
Petit.Patr. 122 136 11 76 49 41 435
Prof.Cad.Sup 193 184 74 63 103 79 696
Prof.Int. 360 365 63 145 141 184 1258
Employe 511 593 57 217 172 306 1856
Ouvr.Qualif. 385 457 42 174 104 220 1382
Ouvr.Non-Qual. 156 185 8 69 42 85 545
Vont jouer un rôle (trop ?) important
Inactif 1474 1931 181 852 642 782 5862
Total 3297 3969 438 1667 1303 1714 12388

Profils lignes
Prof Radio Tel. Quot.Nat. Quot.Reg. Press.Mag. Press.TV Total Weight Sq. Dist. Inertia %inertia
Agriculteur 0.271 0.333 0.006 0.201 0.141 0.048 1 0.0286 0.1293 0.0037 17%
Petit.Patr. 0.280 0.313 0.025 0.175 0.113 0.094 1 0.0351 0.0304 0.0011 5%
Prof.Cad.Sup 0.277 0.264 0.106 0.091 0.148 0.114 1 0.0562 0.1890 0.0106 48%
Prof.Int. 0.286 0.290 0.050 0.115 0.112 0.146 1 0.1016 0.0142 0.0014 6%
Employe 0.275 0.320 0.031 0.117 0.093 0.165 1 0.1498 0.0098 0.0015 7%
Ouvr.Qualif. 0.279 0.331 0.030 0.126 0.075 0.159 1 0.1116 0.0138 0.0015 7%
Ouvr.Non-Qual. 0.286 0.339 0.015 0.127 0.077 0.156 1 0.0440 0.0250 0.0011 5%
Inactif 0.251 0.329 0.031 0.145 0.110 0.133 1 0.4732 0.0029 0.0014 6%
Total 0.266 0.320 0.035 0.135 0.105 0.138 1 Somme 0.0223

Profils colonnes
Prof Radio Tel. Quot.Nat. Quot.Reg. Press.Mag. Press.TV Total
Agriculteur 0.029 0.030 0.005 0.043 0.038 0.010 0.029
Petit.Patr. 0.037 0.034 0.025 0.046 0.038 0.024 0.035
Prof.Cad.Sup 0.059 0.046 0.169 0.038 0.079 0.046 0.056
Prof.Int. 0.109 0.092 0.144 0.087 0.108 0.107 0.102
Employe 0.155 0.149 0.130 0.130 0.132 0.179 0.150
Ouvr.Qualif. 0.117 0.115 0.096 0.104 0.080 0.128 0.112
Ouvr.Non-Qual. 0.047 0.047 0.018 0.041 0.032 0.050 0.044
Inactif 0.447 0.487 0.413 0.511 0.493 0.456 0.473
Total 1 1 1 1 1 1 1
Weight 0.2661 0.3204 0.0354 0.1346 0.1052 0.1384
Sq. Dist. 0.0029 0.0033 0.2944 0.0243 0.0284 0.0272
Inertia 0.0008 0.0011 0.0104 0.0033 0.0030 0.0038 0.0223
%inertia 3% 5% 47% 15% 13% 17%

Ricco Rakotomalala
Va jouer un rôle (trop ?) important
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 45
Association « Médias » - « Professions » - Valeurs propres – Coordonnées factorielles
Eigen values Scree plot

Matrix trace = 0.0223

0.012
SQRT(Matrix trace) = 0.1493
Eigen % %

media.afc$eig[, 1]
Axis

0.008
value explained cumulated

1 0.013857 62.20% 62.20%


2 facteurs suffisent

0.004
2 0.007211 32.37% 94.56%
3 0.000825 3.70% 98.27%
4 0.000304 1.36% 99.63%
amplement

0.000
5 0.000083 0.37% 100.00% 1 2 3 4 5 6

Tot. 0.022279 - - Index

Rows analysis
Characterization Coord. Contributions (%) COS
Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
Agriculteur 0.02858 0.12929 0.00369 0.16615 -0.30961 5.7 38.0 0.21 (0.21) 0.74 (0.95)
Petit.Patr. 0.03511 0.03039 0.00107 0.06838 -0.14315 1.2 10.0 0.15 (0.15) 0.67 (0.83)
Prof.Cad.Sup 0.05618 0.189 0.01062 -0.42998 -0.06087 75.0 2.9 0.98 (0.98) 0.02 (1.00)
Prof.Int. 0.10155 0.01417 0.00144 -0.1066 0.0326 8.3 1.5 0.80 (0.80) 0.08 (0.88)
Employe 0.14982 0.00981 0.00147 0.01573 0.09547 0.3 18.9 0.03 (0.03) 0.93 (0.95)
Ouvr.Qualif. 0.11156 0.01382 0.00154 0.04371 0.10138 1.5 15.9 0.14 (0.14) 0.74 (0.88)
Ouvr.Non-Qual. 0.04399 0.02497 0.0011 0.1178 0.09486 4.4 5.5 0.56 (0.56) 0.36 (0.92)
Inactif 0.4732 0.00285 0.00135 0.03258 -0.0334 3.6 7.3 0.37 (0.37) 0.39 (0.76)

Columns analysis
Characterization Coord. Contributions (%) COS
Values Weight Sq. Dist. Inertia coord 1 coord 2 ctr 1 ctr 2 cos 1 cos 2
Radio 0.26614 0.0029 0.00077 -0.01494 0.02211 0.43 1.8 0.08 (0.08) 0.17 (0.25)
Tel. 0.32039 0.00334 0.00107 0.05328 0.00208 6.56 0.02 0.85 (0.85) 0.00 (0.85)
Quot.Nat. 0.03536 0.2944 0.01041 -0.54067 -0.00621 74.59 0.02 0.99 (0.99) 0.00 (0.99)
Quot.Reg. 0.13457 0.02434 0.00327 0.10883 -0.10965 11.5 22.44 0.49 (0.49) 0.49 (0.98)
Press.Mag. 0.10518 0.02838 0.00298 -0.09481 -0.1325 6.82 25.61 0.32 (0.32) 0.62 (0.94)
Press.TV 0.13836 0.02724 0.00377 0.00975 0.16161 0.09 50.11 0.00 (0.00) 0.96 (0.96)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 46
Association « Médias » - « Professions » - Graphique et contributions au KHI-2
CHI-2 contributions
Id Row Column Value Expected Std.Resid Contrib. %
1 Prof.Cad.Sup Quot.Nat. 74 24.6 9.96 (+) 99.13 35.92
2 Agriculteur Press.TV 17 49 -4.57 (-) 20.88 7.57
3 Prof.Cad.Sup Press.Mag. 103 73.2 3.48 (+) 12.12 4.39
4 Ouvr.Qualif. Press.Mag. 104 145.4 -3.43 (-) 11.77 4.26
5 Agriculteur Quot.Reg. 71 47.6 3.39 (+) 11.46 4.15
6 Prof.Cad.Sup Quot.Reg. 63 93.7 -3.17 (-) 10.04 3.64
7 Employe Press.TV 306 256.8 3.07 (+) 9.43 3.42
8 Agriculteur Quot.Nat. 2 12.5 -2.97 (-) 8.84 3.20 (32.4%)
Correspondance Analysis
Press.TV
9 Prof.Int. Quot.Nat. 63 44.5
0.16 2.78 (+) 7.71 2.79
10 Prof.Cad.Sup Tel. 184 223
0.14
-2.61 (-) 6.82 2.47
0.12
11 Ouvr.Non-Qual. Quot.Nat. 8 19.3
0.1
-2.57 (-) 6.59 2.39 Ouvr.Qualif.
Employe Ouvr.Non-Qual.
12 Petit.Patr. Press.TV 41 60.2
0.08 -2.47 (-) 6.12 2.22
0.06

0.04 Prof.Int.
Radio
0.02
Tel.
Quot.Nat.
0

-0.02
Inactif
(62.2%)
-0.04

Remarque : Il faudrait mettre -0.06 Prof.Cad.Sup

-0.08
« Prof.Cad.Sup » et /ou « Quot.Nat » -0.1
Quot.Reg.

en éléments supplémentaires. Ces -0.12


Press.Mag.
Petit.Patr.
-0.14

modalités « écrasent » complètement -0.16

-0.18
le tableau … et masquent les autres -0.2

informations intéressantes. -0.22

-0.24

-0.26

-0.28

-0.3
Agriculteur
Ricco Rakotomalala
47
-0.4 -0.2 0

Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/


Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 48
Deux blocs distincts dans le tableau (après réorganisation)
 peut être intéressant de réaliser deux analyses distinctes

L1 L2
K1
1  1

K2

Des blocs distincts dans le tableau (après réorganisation)


2  1
 peut être intéressant de réaliser des analyses distinctes
L1 L2 L3

K1 1  1
K2
K3

Diagonale chargée (après réorganisation)


 Souvent le cas lorsqu’il y a un ordonnancement
sous-jacent aux modalités

« Effet Guttman » : redondance de l’information


Relation non linéaire entre les facteurs
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 49
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 50
SPAD – La « Rolls-Royce » de l’analyse de données « à la française »

Des calculs et une présentation


qui font référence !

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 51
SAS – La PROC CORRESP
proc corresp data = mesdata.media dimens = 2;
var Radio -- Press_TV;
id Prof;
run;

Fournit les indicateurs


usuels. Un des rares à
afficher explicitement la
décomposition du ².

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 52
Tanagra – Axé sur la
facilité d’utilisation

Tri des modalités les plus


contributives pour chaque
axe. Utilisation de codes
couleurs pour une
meilleure identification des
similitudes et différences.

Exclusivité : tableau des


contributions au ² avec
les résidus standardisés.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 53
R – Plusieurs packages de très grande facture : « ade4 », « ca », « FactoMineR »,…
Scree plot

0.012
#charger le package
library(FactoMineR)

media.afc$eig[, 1]
0.008
#lancer l'AFC
media.afc <- CA(media,ncp=2,graph=FALSE)

0.004
#liste des objets disponibles

0.000
print(attributes(media.afc))
1 2 3 4 5 6

#quelques statistiques sur le tableau de données Index

print(media.afc$call)
CA factor map
#tableau des valeurs propres et Scree plot
print(media.afc$eig)

0.4
plot(media.afc$eig[,1],type="b",main="Scree plot") Agriculteur

#coordonnées, contributions et cos2 - lignes

0.2
Dim 2 (32.37%)
print(media.afc$row)
Petit.Patr. Press.Mag.
#coordonnées, contributions et cos2 - colonnes Quot.Reg.
Prof.Cad.Sup
print(media.afc$col) Inactif

0.0
Tel. Quot.Nat.
Radio Prof.Int.
#graphique Ouvr.Non-Qual.
Ouvr.Qualif. Employe
plot(media.afc,cex=0.75) -0.2
Press.TV

-0.2 0.0 0.2 0.4 0.6


Dim 1 (62.20%)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 54
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 55
Profusion de supports sur le web

De très nombreux supports de cours d’excellentes factures sont disponibles.


Profusion d’exemples traités.

Y compris sur YouTube !

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 56
Des ouvrages exceptionnels !!!

Escofier B., Pagès J., « Analyses factorielles simples et multiples », Dunod, 2008 ; chapitre 3,
pages 63 à 83.

Lebart L., Morineau A., Piron M., « Statistique exploratoire multidimensionnelle », Dunod, 3ème
édition, 2000 ; Section 1.3, pp. 67 à 107.

Saporta G., « Probabilités, Analyse des Données et Statistique », Tehcnip, 2006 ; chapitre 9,
pp. 201 à 217.

Tenenhaus M., « Statistique : Méthodes pour décrire, expliquer et prévoir », Dunod, 2006 ;
chapitre 7, pages 197 à 249.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 57
Quelques tutoriels (Tanagra, R, SAS, etc.)

• « AFC – Association médias et professions » (Mars 2008)

• « Analyse factorielle des correspondances avec R » (Mai 2009)

• « Analyse des correspondances – Comparaisons » (Déc. 2012)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 58

Vous aimerez peut-être aussi