Analyse de Données - Chapitre5
Analyse de Données - Chapitre5
Analyse de Données - Chapitre5
[email protected]
Introduction
• L’analyse Factorielle Discriminante est une méthode d’analyse de données
multidimensionnelle permettant d’expliquer un caractère ou variable
qualitative (variable expliquée ou variable endogène, par exemple:
l’appartenance ou non à une catégorie ou groupe d’individus), par
l’intermédiaire de variables quantitatives, dites variables explicatives ou
exogènes décrivant les individus
• L’AFD, bien qu’elle soit une analyse factorielle, est une méthode de
classification dite « supervisée » puisqu’on connait l’affectation des
observations aux groupes prédéfinis et on veut savoir si les groupes se
distinguent clairement les uns des autres ainsi que les critères qui
permettent de les distinguer.
• L’objectif de l'AFD est de discriminer, c'est-a-dire prédire à partir des p
variables quantitatives, l’appartenance d’observations à des groupes
prédéfinis, en construisant une règle de décision.
Principe de l’analyse Factorielle Discriminante
• Il y a toujours deux étapes pour mener à bien une discrimination:
Etape de prédiction: elle consiste à utiliser cette règle, sur un nouvel échantillon dit
échantillon test, pour prédire le groupe d'affectation (avec un éventuellement calcul
des probabilités d'affectation). Une fois ces deux étapes réalisées, on peut, si la
discrimination est jugée bonne, utiliser la règle de décision construite (et validée)
pour prédire la classe d'affectation d'une nouvelle observation (ou plusieurs), quand
on ne connait que la valeur des p variables.
Principe de l’analyse Factorielle Discriminante
Les données: X un tableau de p variables quantitatives mesurées sur n observations
y un vecteur d’affectation des n observations à K groupes
Où
Fik : est la valeur de la ième observation de la kème fonction
xij : est la valeur de la ième observation de la jème variable explicative
ajk : est la valeur du coefficient de la jème variable explicative de la kème fonction
Principe de l’analyse Factorielle Discriminante
Discrimination entre deux groupes uniquement
• Bonne discrimination:
ou
Résoudre ces deux problèmes est un peu près équivalent (problèmes aux valeurs
propres):
- Les optimum, les valeurs a, sont les mêmes, Mais les maximums, les valeurs
propres sont différentes (λ ≠ μ)
- λ Є [0, 1] = pouvoir discriminant
- Le nombre maximal de fonctions discriminantes que l’on peut avoir est égal à k-1
Validation de la qualité de discrimination: Test Q-Press
• Ce test est utilisé afin de tester les deux hypothèses alternatives suivantes:
H0 : le nombre d’individus bien classés est due au hasard (aléatoire) et non aux
fonctions discriminantes
H1 : le nombre d’individus bien classés est due aux fonctions discriminantes
Avec:
n: le nombre des individus
nc : le nombre des individus bien classés
K: le nombre de groupes
Affectation
• Utilisation du modèle construit pour la prédiction:
- Vérifier la robustesse du modèle sur un échantillon indépendant
- Appliquer le modèle dans la réalité
La corrélation canonique
93,9 % du pouvoir discriminant relativement forte (d’environ
des cinq variables explicatives 89%) témoigne la grande
est attribuable à la première utilité de la première fonction
fonction discriminante discriminante
La corrélation canonique
6,1 % du pouvoir discriminant relativement moyenne
des cinq variables explicatives (d’environ 44,5%) témoigne
est attribuable à la deuxième l’utilité moyenne de la
fonction discriminante deuxième fonction
discriminante
Résultats de l’AFD: Exemples de sorties obtenus
Donc nous allons prendre uniquement la première fonction discriminante pour distinguer
entre les trois groupes
Résultats de l’AFD: Exemples de sorties obtenus
D’après les résultats du classement, on remarque qu’il y a 4 individus qui ne sont pas classés
correctement
On compare cette valeur avec la valeur théorique lue sur la table de Khi-
deux avec un risque de 5% et un degré de liberté de 2