Chap 4

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 44

Cours Analyse de Données

Chap2
Simplifier les Données

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Objectif
- Réduire le nombre de variables
jugé trop élevé.
- Agréger les variables pour rendre
l‟information plus synthétique et
facile à lire.
La technique utililisée est l‟analyse
factorielle.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
1. Validité et fiabilité d‟une échelle de mesure

Avant toute analyse, il faut sélectionner les


échelles de mesure (jeux d‟items pour
mesurer un concept), soumettre à l‟analyse
factorielle exploratoire puis au test de
fiabilité.

1.1 Validité d‟une échelle de mesure

La validité d‟une échelle de mesure désigne sa


capacité à appréhender un phénomène.
“Mesure-t-on ce qu’on cherche à mesuer ?”

Il existe plusieurs techniques pour vérifier la


validité.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 La validité faciale ou de contenu

Il s‟agit de savoir si la mesure capture les différents aspects du


phénomène étudié. Par exemple, lors du test du questionnaire, les
experts du domaine, les experts du domaine peuvent émettre un avis sur
la capacité des items à couvrir tous les aspects d‟un concept.

 La validité de trait ou de construit

- Validité convergente: il faut vérifier si les indicateurs censés


mesurer le même phénomène sont suffisamment corrélés.

- Validité discriminante: les indicateurs de mesure d„un


construit sont faiblement corrélés aux indicateurs de mesure
d‟autres construits conceptuellement distincts du premier.

 Validité nomologique ou prédictive


la mesure d‟un concept est établie lorsque, conformément à ce que
prédit la théorie et/ou l‟intuition, la mesure est corrélée à d‟autres
mesures avec lesquelles elle est cesée être corrélée (validité
nomologique) ou qu‟elle est censée prédire (validité prédictive).

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
1.2 Fiabilité d‟une échelle de mesure

La fiabilité ou fidélité est la capacité d‟un instrument à mesurer de


façon constante le construit qu‟il est censé mesurer, c‟est à dire si
l‟on trouve plusieurs fois les mêmes résultats sur les mêmes sujets.

Trois méthodes pour tester la fiabilité d‟une mesure:

 La méthode du “test/retest”: le questionnaire est administré deux


fois à la même population et les résultats obtenus sont comparés.

 La méthode du “Split half”, ou des deux moitiés: le questionnaire est


administré au même moment à des échantillons différents
(l‟échantillon est scindé en deux) et les résulats sont comparés.

 La technique des formes alternatives: il s‟agit d‟introduire dans le


questionnaire plusieurs questions sur le même phénomène mais
formulées différemment. On peut utiliser le coefficient alpha de
Cronbach.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Exemple 1: Estimer la fiabilité avec le coef. Alpha de Cronback
C‟est un coefficient de fiabilité qui varie entre 0 et 1.
Plus il est proche de 1, plus la fiabilité est forte.
On élimine donc les items qui diminuent alpha.

Les valeurs de l‟alpha de Cronback


< 0.6 Insuffisant
Entre 0.6 et 0.65 faible
Entre 0.65 et 0.7 Minimum acceptable
Entre 0.7 et 0.8 Bon
Entre 0.8 et 0.9 Très bon
> 0.9 Considérer la réduction du
nombre d‟items
Remarque:
Au dela de 0.9, l‟alpha risque de traduire davantage une
rédondance inter-items, apauvrissant ainsi le domaine
conceptuel étudié.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
2. L‟analyse factorielle

Définition
C‟est un ensemble de méthodes
statistiques multivariées dont le principal
objectif est de définir la structure des
corrélations entre un grand nombre de
variables (par exemple, les réponses à un
questionnaire). En déterminant un
ensemble de dimensions communes
appelés facteurs.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 Si on travaille avec un tableau de variables numériques,
on utilisera l‟analyse en composante principale,
 Si on travaille avec des variables qualitatives, on utilisera
l‟analyse des correspondance.
 Les liens entre deux groupes de variables peuvent être
traités par l‟analyse canonique.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Exemple:
On utlilise l‟AF pour construire et comprendre la structure
d‟une notion, comme le concept d‟implication envers une
catégorie de produit par exemple décomposée en cinq
facettes (intérêt, plaisir, signe social, importance du risque
et probabilité du mauvais choix).

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Les méthodes factorielles

Les méthodes factorielles regroupent:

 L‟ACP: L‟analyse en composantes principales

 L‟AFC: L‟analyse factorielle des correspondances

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
L‟ACP: L‟analyse en composantes principales

1- Les conditions d‟application

 Disposer d‟au moins cinq variables métriques (échelle


d‟intervalles ou échelle de rapport). Certaines variables
ordinales telles l‟échelle de Likert et les variables
dichotomiques peuvent être utilisées.
 Il est souhaitable que le nombre d‟observations soit au
moins 10 fois le nombre de variables.
 Il faut un nombre suffisant de variables corrélées:
◦ Si r = 1, (correlation parfaite), un seul facteur regroupera toutes
les variables
◦ Si r = 0, chaque variable est un facteur, l‟analyse factorielle ne
servira à rien.
 Travailler avec des variables de dimensions comparables
(des variables standardisées: moyenne nulle et écart type
1).

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 Soit un tableau de données (ou matrice d‟information
X(n,p)) ayant n lignes (individus ; observations) et p
colonnes (variables) où xij la valeur de la variable j pour
l‟individu i:

1 … j … p
1 x11 … x1j … x1p
i xi1 … xij … x1p
n xn1 … xnj … xnp

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 On représente le tableau sous forme d‟une matrice notée
X de type (n,p), puis on calcule (X‟X) de type (p,p)

Point moyen ou centre de gravité


 On appelle le point moyen ou centre de gravité le veteur
Des moyennes arithmétiques de chaque variable:
G=( …,
 Lorsqu‟on analyse des variables centrées, ce point
moyen G sera l‟origine O.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
G=(

Exemple 1 “Sirop de fruit”


Un questionnaire porte sur les habitudes d‟achat et de
consommation d‟un sirop de fruit.
Il est composé de 13 items (sous forme d‟une échelle de
Likert en 7 points).
La marque testée est confrontée aux quatre autres marques
nationales.
L‟objectif est de vérifier si, après essai et sous l‟effet de la
campagne publicitaire, le positionnement voulu pour cette
marque à une réelle valeur concurrentielle.

Le contenu des items est le suivant:


- Degré de concentration et qualité percue du sirop
- Teneur en fruit et diversité de l‟offre en parfums
- Restitution du goût de fruit
- Neutralité
- Niveau de prix
- Taux de sucre et caractère désaltérant

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
G=(

Exemple 2
On souhaite comparer des téléphones portables sur la base
d‟un ensemble de variables objectives telles que :
l‟autonomie de communication et de veille, le volume, le
poids et le prix.
Téléph Prix Volume Poids Auto. Auto.
veille commu
T1 159 85050 92 450 4,0
T2 299 54277 91 348 3,5
T3 399 94529 115 288 3,5
T4 89 80496 91 300 3,0
T5 399 98980 125 300 3,0
T6 399 80370 115 220 3,0
T7 449 75871 115 204 2,8
Moy 313,29 81367,6 106,29 301,41 3,26
E-type 128,05 13431,6 13,36 76,11 0,39
Chokri OUERFELLI, Cours d'analyse de
données, IHEC de Sousse
 Inertie totale du nuage de points:
- On appelle inertie totale du nuage de points et on la note
Ig la moyenne pondérée des carrés des distances des
points au centre de gravité.
- Quand G = O et tous les points ont le même poids, Ig est
la somme des carrés des distances des points au centre
de repère.

Ig = tr(Г)

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
L‟examen de la matrice des corrélations permet de voir le
nombre de corrélations significatives et la manière dont
elles se répartissement entre les variables (> 0,3 en val.
absolue). On dit, dans ce cas que les données sont
factorisables.

2/ Verifier la pertinence d‟une factorisation


- La multicolinéarité restrainte: peut être détectée en
calculant le déterminant de la matrice des corrélations. Il
est conseillé de ne pas effectuer d‟AF si le déterminant est
inférieur à 0,00001.
- Le test de sphéricité de Bartlett: permet de vérifier s‟il
existe des corrélation suffisamment élevée entre un certain
nombre de variables.
L‟hypothèse nulle que la matrice de corrélation est égale à
la matrice identité.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Exemple:
Pour le cas de “Sirop de fruit”, on a le résultat suivant:

Indice KMO 0,848 > 0,70


Test de Khi-deux 4097,846
sphéricité de Ddl 78
Bartlett
Sign. de Bartlett 0,000 < 0,05

L‟indice de Kaiser -Mayer-Olkin (KMO): permet de vérifier


que l‟ensemble des corrélations partielles entre les varibles
est faible puisque l‟extraction des facteurs repose sur la
variance commune aux variables.
La valeur de cet indice doit être supérieur à 0,5.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 On représente le tableau sous forme d‟une matrice notée
X de type (n,p), puis on calcule (X‟X) de type (p,p)

 L‟analyse factorielle consiste à condencer la matrice des


données transformées obtenue à partir de (X‟X) en une
matrice factorielle F(p , f) où chaque facteur est une
combinaison linéaire des variables (f < p). Ce qui peut
correspondre à quatre types de matrice: R, R‟, V, et S et à
chaque type de matrice correspond une catégorie
d‟analyse factorielle:

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Type de matrice Type d‟analyse
: matrice de corrélation ACP normée
‟: mat. de corr. avec communauté Analyse des facteurs
V: matrice de variances-covariances ACP non normée
S: matrice des distances (Khi-deux) AFC

L‟analyse factorielle consiste à décomposer la matrice de


données en ses composantes, selon différentes
méthodes, appelés, facteur, axe, composante principale
ou vecteur propre.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
L‟ACP

 L‟ACP (Hotelling, 1933) a pour objectif de réduire le


nombre de données, souvent très élevé, d‟un tableau de
données représenté, algébriquement comme un nuage
de points.

 L‟ACP consiste en l‟étude des projections des points de


ce nuage sur un axe (axe factoriel ou principal), un plan
ou un hyperplan judicieusement déterminé.

 Mathématiquement, on obtiendrait le meilleur ajustement


du nuage par des sous-espaces vectotiels.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 Algébriquement, il s’agit de chercher les valeurs
propres maximales de la matrice des données et par
conséquents ses vecteurs propres associés quoi
représenteront ces sous-espaces vectoriels (axes
factoriels ou principales).

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 Indicateurs de qualité locale

- Contribution à l‟inertie totale de l‟individu i:

Les individus qui ont un CIT plus grand sont ceux qui sont
les plus éloignés du G.

- Contribution à l‟inertie expliquée de l‟individu i:

En général, elles sont représentés sous la forme d‟un


pourcentage.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Procédure de l’ACP

 On cherche X‟ la transposée de la matrice X.


 On détermine les valeurs propres de matrice symétrique
X‟X.
 Soient 1, 2, …, p ces valeurs propres.
 On les classe 1,> 2 > 3 > 4 > ….
 Alors X‟X = A  A-1 où

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 Indicateurs de qualité globale

- Inertie expliquée: Ie =

- Indicateur de qualité globale:

On a
Si, par exemple, on conçoit clairement que

le nuage de points est presque applati sur un sous-espace


à deux dimensions et qu‟une représentation du nuage
dans le plan des deux premiers axes principaux sera très
satisfaisant.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 Qualité des représentations sur les axes
ou plans principaux:

Le but de l‟ACP étant d‟obtenir une représentation des


individus dans un espace de dimension plus faible que p,
la question se pose d‟apprécier la perte d‟information
subie et de savoir combien de facteurs retenir :
- Indicateurs de qualité globale
- Indicateurs de qualité locale

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Procédure de l’ACP

 D‟après les propriétés de la trace des matrices; ona :

 tr (X‟X) = 1+ 2+ …+ p

 En raison des valeurs numériques décroissantes de 1, 2, …,


la somme des premiers valeurs propres représente, souvent,
une proportion importante de la trace de X‟X.

 Ainsi, dans la pratique on peut se borner à trouver les


premiers valeurs propres 1, 2, …, s avec s assez inférieur à
p.

 L‟information perdue est relativement faible.

 En pratique s = 3 (trois premières valeurs propres les plus


élevées)

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Procédure de l’ACP

 Les valeurs propres trouvées étant simples, les espaces


propres associés aux vecteurs propres seront des droites
vectorielles (on les appelle des axes factoriels ou des
facteurs).

 D‟un point de vue général, l‟ACP nous a permit de traiter


un très grand nombre de données (matrice) pour identifier
un nombre relativement restreint de données (axes
factoriels).

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Procédure de l’ACP

Exemple
On considère la matrice des données X de type (2,3):

1/ Calculer X‟X et s‟assurer que c‟est une matrice carrée et


symétrique.
2/ Chercher les valeurs propres i de X‟X et ses vecteurs
propres ui.
Donner la matrice diagonale  semblable à X‟X et la matrice
de passage A.
3/ Vérifier que tr (X‟X) = tr () = ∑ i
Chokri OUERFELLI, Cours d'analyse de
données, IHEC de Sousse
Géométriquement, on représente le tableau comme
un nuage de points.
IRp L1

L2
Lp

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
L‟ACP Géométriquement
IRp

L1
L2
Lp

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Distance ou métrique utilisée
 On considère le vecteur Y obtenu en centrant les vecteurs colonnes de la
matrice X.
 Le tableau des données centrées Y est:

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
L’ACP normé

 On s’intéresse à étudier la matrice des variances-covariances V au lieu de


la matrice X de départ.
 La matrice V est une matrice de type carrée d’ordre q de terme général

 La matrice V des variances-covariances est telle que

V = 1/n Y’Y
 On peut aussi considérer la matrice Z des données centrées et normée
d’éléments

avec

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 Donc, la matrice des données centrées et normées sera:

 A partir de cette matrice, on définit la matrice  des corrélations entre les


q variables prises deux à deux:

 = 1/n Z’Z

 résume la structure des dépendances linéaires entre les p variables.


Chokri OUERFELLI, Cours d'analyse de
données, IHEC de Sousse
Procédure de l’ACP normée

 On extrait les valeurs propres les plus grandes 1, 2, … de


la matrice V des variances-covariances ou de la matrice 
des corrélations.
 En pratique, on arrête l‟extraction des valeurs propres
lorsque la somme des s valeurs propres que l‟on a
déterminées représente un pourcentage satisfaisant de la
variance.
 On détermine les vecteurs propres associés, ce sont les
axes factoriels;
 Dans la majorité des cas, ne sont prise en considération
que les deux, trois ou quatre premiers axes factoriels.
 Les axes factoriels sont perpendiculaires et ne sont pas
corrélés entre eux.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Analyse du nuage de points individus (espace IR)

 Les coordonnées du ième point du nuage analysé sont définies par :

[xi1,…,xij,…,xip]

Le centre de gravité de ce nuage est confondu avec l’origine.


 Les axes factoriels sont déterminés en recherchant les vecteurs propres
u1,u2… de la matrice de corrélation 
Les valeurs propres étant classées par ordre décroissant (1, 2, …) on
note:
U = (u1,u2… ) la matrice des vecteurs propres
correspondants
rangés en colonnes.
 Les coordonnées factorielles des points individus sont données par le
produit matriciel : Z U,

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 La coordonnée de la projection du point i sur l’axe factoriel  étant:

coord (i , ) = uj, la jème composante du vecteur


colonne u

 La contribution « absolue » (CTA) du point i de l’inertie des projections sur


l’axe factoriel  est:
CTA (i , ) = mi coord2(i , )/ (mi le poids de l‟individu i)
 La contribution relative (CTR) indiquant la qualité de la représentation du
point i sur l’axe  est :

CTR (i , ) = coord2(i , )/d2(i , O) avec

d2(i , O) = (O représente l‟origine des axes)

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Analyse du nuage de points variables (espace IR)

 Les coordonnées du jème point du nuage analysé sont définies par :

Le centre de gravité de ce nuage n’est pas confondu avec l’origine.


Toutes les variables sont situées à une distance unitaire de l’origine du fait
de la réduction des données : d2(j , O) = 1

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 Pour définir directement les vecteurs propres (v1, v2…) portant les axes factoriels
correspondant à ce second nuage il faudrait diagonaliser la matrice ’ . Les relations de
transition permettent d’éviter ce calcul. Elle montrent que les coordonnées factorielles
du point variable j sur l’axe  peut être calculée grâce à la relation:

coord (j , ) = ()1/2 uj

 Par rapport à l’axe , la contribution relative du point j est :

CTR (j , ) = coord2(j , )/d2(j , O) = coord2(i , )

car d2(i , O) = 1 pour tout j quand l’ACP est normée.

 « Relation de transition » entre les coordonnées factorielles:

coord(i , ) = coord(j , )

coord(j , ) = coord(i , )

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
 Taux d’inertie: le taux d’inertie associé à l’axe factoriel  est :

 =   / p

car en ACP normée (avec des poids unitaires) :

Inertie totale = tr  = p

 Représente la somme des carrés des coefficients de corrélations des variables initiales
avec le facteur . Elle représente la part de la variance de l’ensemble des variables
initiales expliquées par le facteur.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Nombre d’axes à retenir
Les critères les plus utilisables sont les suivantes:
 Interprétation des axes
On retient que les axes que l’on peut attribuer une forme d’interprétation
économique, par exemple, soit directement soit en terme des variables
avec lesquelles ils sont très corrélés.
 Critère de Kaiser (variables centrées et réduites)
On ne retient que les axes associés aux valeurs propres supérieures à 1,
c’est-à-dire dont la variance est supérieure à celles des variables
d’origine.
Une autre interprétation est que la moyenne des valeurs propres égale à 1,
on ne garde que celles qui sont supérieures à cette moyenne.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Exemple 1: Résultats de l’ACP « Sirop de fruit »

N° CP Val. propre % Variance % Cumulé


1 4,00973 30,84 30,84
2 3,23922 24,92 55,76
3 2,38693 18,36 74,12
4 1,00208 7,71 81,12
5 0,38571 2,98 84,81
6 0,37769 2,9 87,72
7 0,34780 2,67 90,39
8 0,29581 2,28 92,66
9 0,23707 1,82 94,49
10 0,23084 1,78 96,26
11 0,20506 1,58 97,84
12 0,15599 1,2 99,04
13 0,12453 0,96 100
Total 13 100 Chokri OUERFELLI, Cours d'analyse de
données, IHEC de Sousse
dans cet exemple, selon le critère de Kaiser, les 4 premiers axes sont
retenus (modèle en 4 facteurs), soit 81,83% de la variance totale.
 La corrélation variable-facteur (le coefficient de saturation) permet de
hiérarchiser les variables en fonction de leur contribution à l’émergence d’un
facteur.
En conséquence, un facteur dont la contribution est forte (valeur propre) est
un facteur lié à un nombre important de variables; il doit donc être conservé
dans le model final.
 Un facteur qui rend compte significativement d’une variable importante en
regard des objectifs de l’étude doit être conservé, sauf à décider de sacrifier
cette variable.
Par exemple, le facteur 4 est lié à une seule variable « publicité gaie et
sympathique ».

Interprétation des facteurs


L’interprétation du contenu de chaque facteur résulte de l’identification de toutes
les variables saturée dans un même axe. L’objectif consiste à rechercher le point
commun, le concept ou l’idée transversale, qui rend compte de son contenu.

Chokri OUERFELLI, Cours d'analyse de


données, IHEC de Sousse
Matrice des corrélations item/facteurs (« saturation »)
dans
Item cet exemple, selon leFact
critère
1 de Kaiser,
Fact 2 Factles 34 premier
Fact 4 axes sont
Comm
retenus (modèleFacteur
en 4 facteurs), soit 81,83% de la variance totale. unauté
1 Bon goût de fruit 0,94 -0,1 -0,02 0,02 0,89
2 Naturel 0,87 -0,12 0,0004 -0,005 0,85
3 Variété de parfums 0,16 -0,14 0,01 -0,0001 0,78
4 Riche en fruit 0,02 0,91 -0,13 -0,02 0,87
5 Publicité gaie 0,03 -0,02 0,04 0,998 0,999
6 Pour adulte 0,02 0,12 0,89 -0,03 0,81
7 Avec des amis 0,12 0,9 0,02 0,84
8 Concentration 0,1 0,91 -0,1 0,02 0,85
9 Désaltérant -0,16 -0,83 0,1 -0,01 0,72
10 Economique -0,,86 0,09 0,002 0,03 0,76
11 Niveau du sucre 0,16 0,88 -0,07 0,01 0,80
12 Avec confiance -0,07 -0,16 -0,85 0,04 0,76
13 Haute qualite 0,83 -0,14 -0,04 0,0002 0,71
Chokri OUERFELLI, Cours d'analyse de
Val, propre ou Contrib 4,01 3,24 2,39
données, IHEC de1,0019
Sousse 10,638

Vous aimerez peut-être aussi