Afc
Afc
Afc
de la Technologie
ANALYSE DE DONNEES
Chapitre III
Analyse Factorielle
des Correspondances
et Modernisation de l'Entreprise
1 MOME 2019-2020
Chapitre III Analyse de Données
Objectif :
Section I : Généralités
Section II : Principe de l’AFC :
Section III : ACP des deux nuages profils
Section IV : Résumé de l’application de la méthode
2 MOME 2019-2020
Chapitre III Analyse de Données
1- Présentation
L’AFC s’appuie sur la même logique que l’ACP . On s’intéresse aux directions
de « plus grande dispersion » de chacun de ces nuages-points. Elle peut être
présentée comme une analyse en composantes principales avec une métrique
spéciale, la métrique du khi-deux.
Sa démarche est semblable à celle de l’ACP : calcul de la matrice Var-Cov , la
diagonalisation ,le calcul des valeurs et des vecteurs propres pour extraire les
facteurs ou composantes principales .
En AFC, on étudie deux nuages de points : n points dans ℝ𝑝 et p points dans ℝ𝑛 .
Elle consiste alors à réaliser 2 ACP sur chacun des nuages. L’enchainement des
calculs est présenté dans le tableau ci-dessous :
Principe de l’AFC
𝑛𝑖𝑗 V1 Nuages N(J) p*p
𝑛𝑖.
Tableau Transformation Elaboration Extraction des Détermination Représentation
de des tableaux de des valeurs des axes graphique des
contingence contingence Matrices de propres factoriels cartes
en tableaux de variance – Identiques sur communs factorielles
fréquence covariance V les deux aux 2
nuages. ensembles
étudiés
𝑛𝑖𝑗 V2 Nuages N(I) n*n
𝑛.𝑗
3 MOME 2019-2020
Chapitre III Analyse de Données
variables ». Elle est symétrique et nous permet de passer des axes factoriels d’un
nuage à un autre sans difficulté.
En AFC, le pourcentage de variance expliquée correspond au pourcentage de la
relation des deux ensembles traités. Il s’agit d’analyser la forme des liaisons et
non l’intensité de ces liaisons.
L’interprétation est plus facile étant donné qu’on a 3 représentations :
- Représentation du premier nuage .
- Représentation du second nuage .
- Représentation simultanée des 2 nuages N(I) et N(J) .
Les cartes permettent d’observer les proximités entre les modalités montrant des
attirances entre les modalités lignes et les modalités colonnes.
Ces cartes montrent que les modalités les plus proches du centre correspondent à
la moyenne .
1-Tableau de contingence et profils :
Soient 2 variables nominales X et Y comportant p et q modalités. On a observé
les valeurs de ces variables sur une population d’où le tableau de contingence à p
lignes et q colonnes donnant les effectifs conjoints nij .
L’ACP répond aux questions suivantes :
Y a-t-il des lignes ou des colonnes qui se ressemblent ?
Y a-t-il des lignes ou des colonnes qui s’opposent ?
Soient X à r modalités ( L1, ….Lr)
Y à c modalités ( d1, ….dc)
nij : effectif de la cellule (i,j) et n.. effectif total .
ni.= ∑𝑐𝑗;1 𝑛𝑖𝑗 :effectif total de la ligne i.
n.j= ∑𝑟𝑖;1 𝑛𝑖𝑗 : effectif total de la colonne j.
𝑛𝑖1 𝑛𝑖𝑐
Profil ligne Li ( , ….. ) ϵ ℝ𝑐
𝑛𝑖. 𝑛𝑖.
𝑛1𝑗 𝑛𝑟𝑗
Profil colonne Cj ( , ….. ) ϵ ℝ𝑟
𝑛.𝑗 𝑛.𝑗
4 MOME 2019-2020
Chapitre III Analyse de Données
5 MOME 2019-2020
Chapitre III Analyse de Données
𝑛𝑖𝑗 𝑛𝑖.
2- ∑𝑟𝑖:1 𝐿𝑖 (𝑗) = ∑𝑐𝑖:1 = =1
𝑛𝑖. 𝑛𝑖.
Propriétés :
• Le centre de gravité du nuage ℳ𝑐 (profil moyen des colonnes ) a pour
coordonnées :
𝑛1.
𝑛
f1.
gc = ( … ) = ( … ) ϵ ℝ𝑟
𝑛𝑟.
f𝑟.
𝑛
6 MOME 2019-2020
Chapitre III Analyse de Données
𝑛.1 𝑛.𝑐 1
Matrice des poids D( c) = Diag ( , …., ) = Dc
𝑛 𝑛 𝑛
La matrice à diagonaliser
1
Matrice de var-covariance V = V = X’DX – gg’ = Y’DY = N’𝐷𝑟−1 N - 𝑔𝑟 𝑔𝑟′
𝑛
8 MOME 2019-2020
Chapitre III Analyse de Données
1 1 𝑛𝑖.
𝜗𝑘 = Dr Ck ; ∀ i: ϵ {1, … , 𝑟} ; 𝜗𝑘 (i) = Ck (i)
n𝜆𝑘 𝜆𝑘 n
̃𝑘 ) : CP de l’ACP profil-colonnes
Les composantes principales CP (𝐶
𝑛𝑖𝑗
̃𝑘 (𝑗) = 〈𝐶 , 𝑣 〉 2 = n 𝐶 ′ 𝐷 −1 𝑣 = n ∑𝑟
Les coordonnées : 𝐶 𝑣𝑘 (𝑖)
𝑗 𝑘 𝜒 𝑗 𝑟 𝑘 𝑖:1 𝑛.𝑗 𝑛𝑖.
̃𝑘 ) = n 𝑇 ′ 𝐷 −1 𝑣
(𝐶 𝑐 𝑟 𝑘
• Relations de transition :
Les composantes principales de profil-lignes et celles de profil-colonnes sont liées
par des formules .
Les matrices L et C ont les mêmes valeurs propres non nulles 𝜆𝑘 .
Théorème :
p = rang( L) = rang( C) ; ∀ k ,≤ p , il existe une relation de transition entre les
vecteurs propres : uk et vk .
1 1
vk = Tc uk ; uk = 𝑇𝑟′ 𝑣𝑘
𝜆𝑘 𝜆𝑘
Aides à l’ interprétation :
Il existe deux coefficients apportant de l’information nécessaire pour
l’interprétation des plans factoriels :
La contribution relative = la part prise par une modalité de la variable dans
l’inertie expliquée par un facteur : contribution du profil-ligne Li au kiéme facteur
2
𝑓𝑖. (𝐶 𝑘 (𝑖))
(axe) (uk ) : ; contribution du profil-colonne Cj au kiéme facteur vk
𝜆𝑘
9 MOME 2019-2020
Chapitre III Analyse de Données
2
𝑓.𝑗 (𝐶̃𝑘 (𝑗))
𝜆𝑘
Tableau des fréquences lignes : Les fréquences lignes ou les coordonnées des
𝑛𝑖𝑗 𝑓𝑖𝑗 𝐸𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑑𝑒 𝑙𝑎 𝑐𝑒𝑙𝑙𝑢𝑙𝑒 (𝑖,𝑗)
profils lignes sont calculées : flij = = =
𝑛𝑖. 𝑓𝑖. 𝐸𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑑𝑒 𝑙𝑎 𝑙𝑖𝑔𝑛𝑒 𝑖
𝑛.𝑗 𝐸𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑑𝑒 𝑙𝑎 𝑐𝑜𝑙𝑜𝑛𝑛𝑒 𝑗
Profil ligne moyen : f.j = =
𝑛.. 𝐸𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑡𝑜𝑡𝑎𝑙
10 MOME 2019-2020
Chapitre III Analyse de Données
Taux de liaison et Φ2
𝑓𝑖𝑗 −𝑓𝑖. 𝑓.𝑗
Les taux de liaison sont les suivants : 𝜏𝑖𝑗 =
𝑓𝑖. 𝑓.𝑗
Le coefficient 𝑓𝑖. 𝑓.𝑗 est le poids théorique de chaque cellule dans le tableau ; la
somme des coefficients vaut 1.
La moyenne de la série des taux de liaison pondérée par les coefficients 𝑓𝑖. 𝑓.𝑗 est
nulle . la variance de cette série est le coefficient Φ2 :
2 2 (𝑓𝑖𝑗 −𝑓𝑖. 𝑓.𝑗 )2 Χ2
Φ = ∑𝑖,𝑗 𝑓𝑖. 𝑓.𝑗 𝑡𝑖𝑗 = ∑𝑖,𝑗 =
𝑓𝑖. 𝑓.𝑗 𝑛..
11 MOME 2019-2020
Chapitre III Analyse de Données
Le choix du nombre d’axes factoriels se fait de la même manière que dans l’ACP.
La masse : rappelle les fréquences marginales des lignes cad : le profil colonne
moyen ,contrairement à l’ACP normée , les variables ont un poids qui dépend de
l’effectif total du nuage des points ;
La colonne qualité indique la qualité de représentation des individus ligne par
les premiers axes . Les qualités sont calculées ainsi :
-L’inertie absolue d’un individu-ligne est la somme des inerties des cellules de la
ligne.
Pour chacun des axes factoriels, on peut calculer les coordonnées ou les scores
factoriels de l’individu-ligne selon cet axe. Les coordonnées ont les propriétés
suivantes :
12 MOME 2019-2020
Chapitre III Analyse de Données
Ces valeurs sont des contributions relatives (la somme de la colonne est égale à
un) . On les utilise afin de rechercher les individus -lignes ayant une influence
supérieure à la moyenne dans la formation de l’axe factoriel considéré.
La qualité de représentation des individus-lignes par chaque axe factoriel est
mesurée par les cosinus-carrés :
(𝑐𝑜𝑜𝑟𝑑 𝑑𝑒 𝐿𝑖 𝑠𝑒𝑙𝑜𝑛 𝐹𝑘 )2
QLT (Li, Fk) = ∑
𝑖(𝑐𝑜𝑜𝑟𝑑 𝑑𝑒 𝐿𝑖 𝑠𝑒𝑙𝑜𝑛 𝐹𝑘 )2
Dans une AFC, les individus-lignes et les individus-colonnes jouent les rôles
symétriques. Les résultats relatifs aux individus-colonnes s’interprètent de la
même façon que les résultats relatifs aux individus-lignes.
13 MOME 2019-2020
Chapitre III Analyse de Données
Interprétation géométrique :
On peut reconstituer les données à partir des scores factoriels des lignes et des
colonnes .
(𝑠𝑐𝑜𝑟𝑒 𝑓𝑎𝑐𝑡 𝑙𝑖𝑔𝑛𝑒 𝑖 𝑠𝑒𝑙𝑜𝑛 𝑎𝑥𝑒 𝛼)(𝑠𝑐𝑜𝑟𝑒 𝑓𝑎𝑐𝑡 𝑐𝑜𝑙𝑜𝑛𝑛𝑒 𝑗 𝑠𝑒𝑙𝑜𝑛 𝑎𝑥𝑒 𝛼)
tij= ∑𝑎𝑥𝑒𝑠 𝑓𝑎𝑐𝑡𝑜𝑟𝑖𝑒𝑙𝑠
√𝑣𝑎𝑙𝑒𝑢𝑟 𝑝𝑟𝑜𝑝𝑟𝑒 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à 𝑙′ 𝑎𝑥𝑒 𝛼
L’interprétation peut être faite axe par axe, en étudiant d’abord les lignes et les
colonnes séparément. Pour chaque axe, on peut dresser un tableau des individus
qui ont apporté une contribution supérieure à la moyenne à la formation de cet
axe .
14 MOME 2019-2020