Analyse Des Données 2021
Analyse Des Données 2021
Analyse Des Données 2021
SUPPORT DE COURS
Master 2
MIAGE
Programme :
Par :
Dr. Nana Yakam André
Chargé de Cours, Université de Douala
Email : [email protected]
CHAPITRE I
INTRODUCTION
L’analyse de données est un processus d’extraction des connaissances des données (ECD). Elle vise à décrire, à
résumer et à interpréter des phénomènes dont le caractère essentiel est la variabilité. Elle fournit de la
manière la plus rigoureuse possible des éléments d'appréciation utiles à l'explication ou à la prévision de
ces phénomènes. L’analyse des données fournit à toutes les personnes confrontées à l'interprétation de
résultats d'observation ou d'expérimentation, un outil d'interprétation adapté aux conditions particulières de
leur domaine d'activité.
Avant de se lancer dans le processus d’analyse des données, l’analyste doit avoir un problème bien délimité à
résoudre. Il ne se lance pas dans l’analyse sans avoir une idée des objectifs de son opération et des moyens
informationnels et technologiques dont il dispose.
Une fois le problème posé, la première phase vise à cibler, même de façon grossière, l’espace des données qui va
être exploré. L’analyste définit de ce fait des zones de prospection, étant persuadé que certaines régions seront
probablement vite abandonnées si elles ne recèlent aucun ou peu d’intérêt. L’acquisition met en œuvre des
méthodes pour collecter les données potentiellement utiles selon le point de vue de l’analyste.
A l’issue de la phase de collecte des données, il convient de les nettoyer. Par exemple, si l’une des variables
retenues s’avère peu ou mal renseignée, on peut ne pas la prendre en considération. On peut également
explicitement chercher à limiter le nombre d’enregistrements que l’on souhaite traiter. Après cette phase de
prétraitement des données, l’analyste est, a priori, en possession d’un stock de données contenant potentiellement
l’information ou la connaissance recherchée. C’est en ce moment qu’il peut commencer son analyse.
La collecte et le nettoyage des données est la phase la plus déterminante en analyse de données, car toute analyse,
aussi sérieuse soit-elle, qui est faite sur des données de mauvaise qualité ne peut aboutir qu’à des mauvaises
conclusions : "dust can only produce dust ".
Le processus d’ECD n’est pas linéaire car il arrive aussi que l’analyste revienne, après analyse, rechercher de
nouvelles données. Selon que l’analyse porte sur une, deux ou plus de variables et en fonction de la nature de ces
variables, de nombreux outils statistiques sont à la disposition de l’analyste pour résoudre son problème. Le
schéma suivant résume la méthodologie d’analyse des données ainsi que les outils qui seront développés dans ce
cours.
1. ORIGINE
Les données utilisées en statistiques peuvent provenir d’un recensement, d’une enquête statistique, des
données administratives ou des entrepôts de données des organisations.
a) Recensement
Le recensement est une opération statistique d’observation exhaustive de tous les éléments d’une
population. Les données individuelles de tous les éléments de la population sont prises en compte pour le
caractère étudié. C’est le cas par exemple des clients d’une banque, des salariés d’une entreprise, …
b) Enquête statistique
Une enquête statistique est la collecte de données sur une partie ou la totalité des unités d'une population à
l'aide de concepts, de méthodes et de procédures bien définis. Le sondage en est l’une de ces méthodes, qui
permet de construire un échantillon et qui ne prélève qu’une partie des informations existantes.
c) Données administratives
Les organismes et les Etats recueillent des données administratives dans le cadre de leurs activités
quotidiennes, ces données peuvent être utilisées à titre de substitut pour une enquête par sondage ou pour
un recensement.
d) Entrepôt de données
Grâce à l’évolution informatique, avec la fabrication des ordinateurs ayant des grandes capacités de
stockage, les entreprises, les institutions et les organisations conservent de nos jours, des quantités
importantes d’information dans leurs bases de données. Ces entrepôts de données renferment à n’en point
Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 3
douter des informations dont la fouille par les techniques d’analyse de données peut permettre d’apporter
des réponses, même aux questions les complexes que se poses ces organisations.
II. ECHANTILLONNAGE
Dans une étude statistique, il est fréquent que l’on n’observe pas la population toute entière. L’enquête
(statistique) est l’opération consistant à observer (ou mesurer, ou questionner. . .) l’ensemble des individus
d’un échantillon (ou, éventuellement, de la population complète).
Le sondage est une enquête dans laquelle l’échantillon observé est un sous-ensemble strict de la population
(on parle, dans ce cas, d’enquête non exhaustive). La qualité des renseignements que l’on peut tirer d’un
échantillon, dépend d’une part de la définition de l’échantillon c’est à dire des procédures de désignation
des éléments constitutifs de l’échantillon (l’échantillonnage) et d’autre part de la saisie dans l’échantillon
de l’information recherchée.
Un échantillon est un sous-ensemble d’une population ou d’un groupe de sujets faisant partie d’une même
population. L’échantillon est représentatif de la population cible et contient un nombre suffisant de sujets
pour une étude descriptive de cette dernière ou pour l’analyse d’un problème donné.
La population est un groupe de sujets ou d’éléments qui ont des caractéristiques communes précises qui
correspondent aux buts de l’étude à faire.
La population cible est un ensemble de sujets ou d’éléments faisant partie de la population mais qui ont en
commun des caractéristiques plus précises par rapport à une définition des critères établis à l’avance et pour
lesquels le chercheur désire faire des généralisations. Elle représente l’ensemble de sujets ou d’éléments
qui sont accessibles au chercheur.
Lors du processus d’échantillonnage, le chercheur élabore et suit un plan, appelé plan d’échantillonnage.
Le plan d’échantillonnage sert à décrire la stratégie à utiliser pour choisir l’échantillon. Plusieurs étapes
doivent être faites durant le processus d’échantillonnage :
Dans la première catégorie, les ensembles sélectionnés ont une probabilité connue de faire partie de
l’échantillon (le cas le plus important est celui où l’on accorde à chaque élément de la population la même
Dans la deuxième catégorie, les éléments sont inclus dans l’échantillon sans probabilité connue. Une
évaluation de l’exactitude des résultats ne peut pas être faite. Aussi une attention particulière doit être portée
à l’interprétation des résultats lorsque des méthodes d’échantillonnages non probabilistes sont utilisées.
Echantillonnage aléatoire simple : l’échantillon est choisi de telle sorte que chaque unité de la
population ait la même probabilité d’être sélectionnée dans l’échantillon et que chaque échantillon
de même taille ait la même probabilité d’être tiré.
Échantillonnage stratifié : on divise la population en groupes homogènes appelés strates, qui sont
mutuellement exclusifs (comme l'âge, la ville de résidence, le revenu, etc.) puis on sélectionne à
partir de chaque strate des échantillons indépendants. On peut utiliser n'importe quelle des méthodes
d'échantillonnage pour sélectionner l'échantillon à l'intérieur de chaque strate.
Les données issues des entrepôts ou des enquêtes ne sont pas nécessairement toutes exploitables par des
techniques d’analyse de données. Les données acquises peuvent être de types différents pour la même variable,
a) Sélection de ligne/colonne.
Elle s’effectue sur des données qui sont déjà sous forme tabulaire. Il s’agit de définir un filtre qui permet de
sélectionner un sous-ensemble de lignes ou de colonnes. L’objectif étant, soit de réduire le nombre de données
soit de sélectionner les lignes ou colonnes les plus pertinentes par rapport aux préoccupations de l’utilisateur. Les
techniques mises en œuvre dans ce but relèvent des méthodes statistiques d’échantillonnage. Cette sélection peut
également s’effectuer selon des conditions exprimées par l’utilisateur. Par exemple, il peut ne garder que les
attributs dont la moyenne est supérieure à un seuil donné ou ne conserver que les attributs qui ont un lien
statistique significatif avec un attribut particulier.
Certaines données peuvent être absentes ou aberrantes et gêner ainsi l’analyse. Il convient alors de définir des
règles pour gérer ces données manquantes et les valeurs aberrantes ou anormales.
La valeur détectée comme aberrante est ramenée à la limite haute ou basse de cet intervalle de confiance. On peut
également chercher à l’estimer par des méthodes régression.
Il s’agit de transformer un attribut A en une autre variable A’ qui serait, selon les objectifs de l’étude, plus
appropriée. Différentes méthodes sont pratiquées comme la discrétisation qui consiste à transformer des attributs
continus en découpant le domaine de valeurs de ces attributs en intervalles afin d’obtenir des attributs qualitatifs.
On peut également centrer les valeurs des variables continues par rapport à la moyenne et réduire par l’écart type.
Ce traitement leur confère certaines propriétés mathématiques intéressantes lors de la mise en œuvre des méthodes
d’analyse des données multidimensionnelles.
ANALYSE UNI-VARIEE
Introduction
L’analyse univariée porte sur une variable. Elle peut être subdivisée en deux grandes parties : l’analyse
descriptive et les tests d’inférence.
I. ANALYSE DESCRIPTIVE
Elle comprend les étapes suivantes :
- Représentations Graphiques
- l’estimation des paramètres de tendance centrale
- l’estimation des paramètres de dispersion
- l’estimation des paramètres de forme
1. Représentations graphiques
La représentation graphique des données relatives à une variable repose sur la proportionnalité des
longueurs (ou des aires) des graphiques par rapport aux effectifs ou aux fréquences, des différentes
modalités de la variable. A chaque type de variable correspond des types de graphiques. Parmi les graphes
les plus utilisés, nous pouvons citer :
- Diagramme en bâtons
- Histogramme
- Diagramme en secteurs
- Courbes
- Boite à moustache (ou Boxplot en Anglais)
Ce sont principalement : la moyenne, le mode et la médiane. Ils permettent de savoir autour de quelles
valeurs se situent les modalités d'une variable statistique.
3. paramètres de dispersion
Ils permettent d’apprécier comment les valeurs d’une variable sont concentrer autour de la tendance
centrale. Il s’agit principalement de l’étendue, la variance, l’écart type et les quartiles.
Minimum Maximum
1er Quartile Médiane 3e Quartile
Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 7
Le box plot permet d’analyser :
La symétrie de la courbe, (la symétrie du corps et la symétrie par rapport aux moustaches),
L’existence de valeurs extrêmes (aberrantes). Ces valeurs méritent une attention toute
particulière car elles pourraient représenter une erreur de mesure, d’enregistrement des données
ou d’entrée des données. Tout comme il pourrait s’agir d’une valeur légitime qui est tout
simplement (et par hasard) extrême.
NB : la moyenne, l’écart type et la variance sont largement influencés par la présence de valeurs extrêmes.
5. Paramètres de formes
Ils permettent d’apprécier la distribution en comparaison à une loi normale de même moyenne et de
même écart-type. Ce principalement les coefficients d’asymétrie et d’aplatissement.
Le coefficient permet de mesurer l’importance des queues d’une distribution ou son aplatissement.
(X )
Le coefficient le plus utilisé est celui de Fisher : 2 4 4 3 , avec 4 ( X ) : le moment d’ordre 4 de
X
n
1
X, 4 ( X )
n i 1
( x i m) 4
Il est d’autant plus grand que les valeurs de la série statistique sont plus regroupées autour de la moyenne.
Si 2 0 , la distribution a le même aspect qu’une loi normale de même moyenne et de même écart-
type
Nous conduisons une recherche pour déterminer l'acceptabilité d'hypothèses découlant de nos
connaissances (théories). Après avoir sélectionné une hypothèse, qui nous paraît importante, nous
récoltons des données empiriques qui devraient nous apporter des informations directes sur l'acceptabilité
de cette hypothèse. Notre décision concernant la signification des données nous conduit soit à retenir, soit
à réviser ou soit à rejeter l'hypothèse et la théorie qui en est la source.
Pour atteindre une décision objective concernant une hypothèse particulière, nous devons suivre une
procédure objective (méthodes publiques et répétables par d'autres chercheurs) permettant soit d'accepter
soit de rejeter cette hypothèse. Cela consiste à formuler, en termes probabilistes, un jugement sur une
hypothèse relative à une population, à partir des résultats observés sur un échantillon extrait au hasard de
cette population.
1. L'hypothèse nulle
L'hypothèse nulle H0 est généralement une hypothèse de non différence « il n'y a pas de différence
significative entre les échantillons A et B ». Elle est formulée de façon à être rejetée. Dans le cas de son
rejet, l'hypothèse alternative (H1) « il y a une différence significative entre les échantillons A et B » doit
être acceptée. Cette dernière est la prédiction dérivée de la théorie à tester.
On dispose actuellement de nombreux tests statistiques différents qui peuvent être utilisés pour arriver à
une décision concernant une hypothèse. Le choix doit se faire sur des bases rationnelles.
Le plus souvent nous disposons de différents tests pour une recherche (validation d'hypothèse) donnée, il
est alors nécessaire d'employer une méthode rationnelle pour choisir le test le plus approprié. L’un des
Il est clair que moins les exigences imposées par le modèle sont nombreuses et restrictives, plus les
conclusions que l'on tire sont générales. De ce fait, les tests les plus puissants sont ceux qui ont les
hypothèses les plus strictes. Si ces hypothèses sont valides, ces tests sont alors les mieux à même de rejeter
H0 quand elle est fausse et de ne pas rejeter H0 quand elle est vraie.
Dans l'échelle ordinale (de rangement), il existe une certaine relation entre les objets du type plus grand
que, supérieur à, plus difficile que, préférée à....
Un test paramétrique requiert un modèle à fortes contraintes (normalité des distributions, égalité des
variances) pour lequel les mesures doivent avoir été réalisées dans une échelle au moins d'intervalle. Ces
hypothèses sont d'autant plus difficiles à vérifier que les effectifs étudiés sont plus réduits.
Un test non paramétrique est un test dont le modèle ne précise pas les conditions que doivent remplir les
paramètres de la population dont a été extrait l'échantillon. Cependant certaines conditions d'application
doivent être vérifiées. Les échantillons considérées doivent être aléatoires et simples.
1. Leur emploi se justifie lorsque les conditions d'applications des autres méthodes ne sont pas
satisfaites, même après d'éventuelles transformations de variables.
Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 10
2. Les probabilités des résultats de la plupart des tests non paramétriques sont des probabilités exactes
quelle que soit la forme de la distribution de la population dont est tiré l'échantillon.
3. Pour des échantillons de taille très faible jusqu'à N = 6, la seule possibilité est l'utilisation d'un test
non paramétrique, sauf si la nature exacte de la distribution de la population est précisément connue.
Ceci permet une diminution du coût ou du temps nécessaire à la collecte des informations.
4. Il existe des tests non paramétriques permettant de traiter des échantillons composés à partir
d'observations provenant de populations différentes. De telles données ne peuvent être traitées par
les tests paramétriques sans faire des hypothèses irréalistes.
5. Seuls des tests non paramétriques existent qui permettent le traitement de données qualitatives : soit
exprimées en rangs ou en plus ou moins (échelle ordinale), soit nominales.
6. Les tests non paramétriques sont plus faciles à apprendre et à appliquer que les tests paramétriques.
Leur relative simplicité résulte souvent du remplacement des valeurs observées soit par des
variables alternatives, indiquant l'appartenance à l'une ou à l'autre classe d'observation, soit par les
rangs, c'est-à-dire les numéros d'ordre des valeurs observées rangées par ordre croissant. C'est ainsi
que la médiane est généralement préférée à la moyenne, comme paramètre de position.
1. Les tests paramétriques, quand leurs conditions sont remplies, sont les plus puissants que les tests
non paramétriques.
2. Un second inconvénient réside dans la difficulté à trouver la description des tests et de leurs tables
de valeurs significatives, surtout en langue française. Heureusement, les niveaux de significativité
sont donnés directement par les logiciels statistiques courants.
On choisira les tests appropriés en fonction du type de mesure, de la forme de la distribution de fréquences
et du nombre d'échantillons dont on dispose.
L'ensemble des valeurs observées pour lesquelles l'hypothèse nulle est admissible forme la région
d'acceptation ou de non-rejet et les autres valeurs constituent la région de rejet ou domaine de rejet ou
région critique. Mais le hasard de l'échantillonnage peut fausser les conclusions. Quatre situations doivent
être envisagées :
Pratiquement, on se donne une limite supérieure du risque de première espèce, le plus souvent 5%
(significatif), 1% (très significatif) ou l°/00 (hautement significatif). Cette limite constitue aussi le niveau
de signification du test et permet de définir la condition de rejet de l'hypothèse nulle.
Le plus souvent, les logiciels de statistique donnent le niveau de signification réel. On rejette alors
l'hypothèse nulle au niveau de signification nominal choisi (par exemple 0,05) si (et seulement si) le
Dans la pratique, on choisit d’abord la précision (marge d’erreur absolue ou relative) et on en déduit la
𝜎
taille de l’échantillon à tirer pour atteindre cette précision. La marge d’erreur absolue étant 𝑡 𝑛
√
Etant donné un niveau de confiance fixé et une marge d’erreur choisie, et si on suppose N grand on doit
prendre un échantillon de taille n vérifiant
𝑡𝜎 2
𝑛≥( )
𝜀
Une valeur initiale de l’écart type de la population, , doit être définie avant de pouvoir déterminer la taille
de l’échantillon. On peut faire une estimation de l’écart type en utilisant un échantillon ou une étude
antérieure sur les mêmes sujets.
Etant donné un niveau de confiance fixé et une marge d’erreur choisie, sur la proportion à estimer, si N est
suffisamment grand, on doit prendre un échantillon de taille n vérifiant
𝑡 2
𝑛 ≥ 𝑝(1 − 𝑝) ( )
𝜀
Puisque la proportion de la population p est ce que nous cherchons à estimer à partir d’un échantillon, une
valeur initiale de p doit être définie pour pouvoir déterminer n. On peut utiliser les méthodes suivantes :
Les principaux tests de normalité sont : les tests de Jarque-Bera (pour les grands échantillons, n >88) et le
test de Shapiro-Wilk (pour les petits échantillons, n < 50)
Le test JB est fondé sur les coefficients d’asymétrie et d’aplatissement. Sa richesse consiste à ce qu’il permet
de conclure à la fois sur l’asymétrie et l’importance des queues (aplatissement) d’une distribution.
a) Hypothèses à tester
b) Statistique du test
𝑛 2 (𝐾 − 3)2
𝐽𝐵 = [𝑆 + ]
6 4
c) Valeur critique
Sous l’hypothèse de normalité de la série (H0), la statistique du test JB suit asymptotiquement une
distribution du Khi deux à 2 degrés de liberté. Ainsi, Pour un coefficient de risque α fixé, la valeur
critique est lue dans la table du Khi-2 à k=2 degrés de liberté [Vl = 𝜒𝛼2 (2)].
d) Règle de Décision
a) Hypothèses à tester
b) Statistique du test
La statistique de test est calculée comme suit :
𝑛 2
𝐸𝑛𝑡( )
2
[∑𝑖=1 𝑎𝑖 [𝑋(𝑛−𝑖+1) − 𝑋(𝑖) ]]
𝑊= 2
∑𝑛𝑖=1[𝑋(𝑖) − 𝑋̅]
c) Valeur critique
La statistique W est confrontée à une valeur lue dans la table des valeurs limites de W proposée par Shapiro
et Wilk, avec n le nombre d’observations et au seuil α [5% en général].
d) Règle de Décision
Critère de décision : Si W < WTable(n) au seuil α, alors on rejette l’hypothèse H0, et donc, la variable X est
non gaussienne.
3.3. Exemple
Un chercheur désire examiner la relation qui peut exister entre l’habilité en lecture (X) et le nombre d’heures
de lecture par semaine (Y). X est mesurée en laboratoire à l’aide d’un test d’habilité en lecture alors que Y
est estimé par les sujets eux-mêmes. 10 sujets ont été échantillonnés. Les résultats sont :
X 20 5 5 40 30 35 5 5 15 40
Y 5 1 2 7 8 9 3 2 5 8
Testons si la variable X est Gaussienne, sachant que Skweness = 0.23 et Kurtosis = -1.88
Test de Shapiro-Wilk
Puisque 𝑊 < 𝑊𝑇𝑎𝑏𝑙𝑒 , on rejette H0. La variable X n’est donc pas Gaussienne.
Test de Jarque-Bera
𝑛 2 (𝐾 − 3)2 10 (−1,88 − 3)2
𝐽𝐵 = [𝑆 + ]= [0,232 + ] = 10
6 4 6 4
Ce test est applicable aux variables qualitatives nominales, il consiste à analyser un échantillon
d’observation d’une variable afin de tester l’ajustement à la distribution d’une population standard. On
peut chercher par exemple à tester si la fréquence ou la proportion observée dans les classes d’âge des
personnes interrogées lors d’une enquête sont significativement différents de celles observées pour les
mêmes classes d’âges dans la population de référence.
a) Hypothèses à tester
On teste l’hypothèse
Ho : il n’y a pas de différence significative entre les fréquences (ou proportions) observées et les
fréquences (ou proportion) théoriques.
Contre l’hypothèse
H1 : il y’a des différences significatives entre les fréquences observées et les fréquences théoriques
b) Statistique du test
La statistique du test mesure les écarts entre la distribution observée et la distribution théorique. Elle
est donnée par :
k
Oi Ti 2
2
i 1 Ti
Où Ti est la fréquence théorique de la catégorie i,
Oi, la fréquence observée de la catégorie i
et k, le nombre total de catégories
c) Valeur critique
Sous l’hypothèse Ho, la statistique suit une loi de Khi-2 à (k-1) degrés de liberté. Ainsi, Pour un
2
coefficient de risque α fixé, la valeur critique : (k - 1) est lue dans la table du Khi-2 à (k-1) degrés
2
de liberté.
d) Règle de Décision
Si 2 (k - 1) , on rejette Ho
2
Si non on accepte Ho
e) Exemple :
On voudrait savoir si les clients de ce magasin apprécient plus les produits Alimentaires ou non. Or les
clients de ce magasin peuvent acheter, soit uniquement les produits Alimentaires, soit les produits non
alimentaires ou alors les deux. On veut tester si la fréquence d’achat est répartie de façon égale dans
Ici, k = 3, n = 60
(26 20) 2 (18 20) 2 (16 20) 2
2 2,8
20 20 20
Pour 5%, (k - 1) (2) 5,9
2 2
à égale fréquence les produits alimentaires, les produits non alimentaires ou alors les deux. On ne peut
donc conclure qu’ils apprécient plus les produits Alimentaires.
2. Test de Kolmogorov-Smirnov
C’est un test d’ajustement tout comme le test du Khi-2, qui s’applique aux variables qualitatives
ordinales.
a) Hypothèses à tester
Ho : les valeurs observées dans l’échantillon ne sont pas significativement différentes des valeurs
théoriques.
b) Statistique du test
La valeur critique : D , au seuil α, pour un échantillon de taille n (n > 35) est donnée par :
NB. Le Test de Kolmogorov-Smirnov s’applique aussi pour déterminer si les fréquences observées pour
deux échantillons indépendants sont significativement différentes.
a) Exemple :
Dans une enquête, on a interrogé 88 hommes et 91 femmes. Les sujets devaient indiquer leur degré
d'adhésion à une affirmation, sur une échelle en 5 points. Les résultats sont les suivants :
Hommes Femmes
Tout à fait d’accord 14 24
D’accord 15 15
Indifférent 19 21
Opposé 18 17
Tout à fait opposé 22 14
On veut tester s’il existe une différence d'opinion entre les hommes et les femmes.
Résolution :
Prop Cum
Hommes Femmes
Prop H H Prop F Prop cum F diff |diff|
Tout à fait
14 24 0,16 0,16 0,26 0,26 -0,10 0,10
d’accord
D’accord 15 15 0,17 0,33 0,16 0,43 -0,10 0,10
Indifférent 19 21 0,22 0,55 0,23 0,66 -0,11 0,11
Opposé 18 17 0,20 0,75 0,19 0,85 -0,10 0,10
Tout à fait opposé 22 14 0,25 1,00 0,15 1,00 0,00 0,00
D = 0.11
n = 88 + 91 = 179
Pour 𝛼 = 5%, 𝐷𝛼 = 1,36
√𝑛
1,36
= √179 = 0.10
D D , on rejette Ho
Nous pouvons donc conclure qu’il existe une différence d'opinion entre les hommes et les femmes
Les tests de loi normale (Z) ou de Student permettent d’évaluer si la tendance centrale des données
d’un échantillon de taille n est significativement différente d’une norme standard. Ces tests s’appliquent
pour les variables quantitatives.
a) Cas de la moyenne
1% 5% 10%
Z 2 2.576 1.960 1.645
b) Exemple
Résolution
Hypothèses à tester :
L'hypothèse nulle (H0) est l'égalité des moyennes des populations dont sont extraits les échantillons :
H0 : m1 = m2 = m3 =... = mk
L’hypothèse alternative (H1) est l’inégalité d’au moins deux de ces moyennes
H1 : il i, j (i j ) tel que mi m j
Statistique du test :
La détermination de la statistique du test passe par la construction du tableau d’analyse de la variance qui
se présente ainsi qu’il suit :
j 1 i 1 j 1 i 1 j 1
n k n
1 1
x xij x j xij
kn i 1 j 1 n i 1
NB : ST = SF + SR
VF , est la variance inter-groupe et VR, la variance intra-groupe
Manuellement, les calculs intermédiaires à réaliser pour construire le tableau de l’analyse de la variance
sont les suivants :
xij
i 1
T1 Tj Tk G xij
i 1
T2 T12 T j2 Tk2 T 2
n n n n n
SF
T 2
G2 T 2
S R xij2
G2
S T xij
2
n kn n kn
Seuil critique :
Pour un seuil fixé, la valeur critique est donnée par la table de Fisher Snedecor à [(k-1), (kn-k)] ddl.
Flu = F [(k - 1), (kn - k)]
Règle de décision : Si F > Flu, on rejette H0 .Si non on l’accepte
Exemple :
On veut savoir si les intérêts boursiers varient d'une place boursière à l'autre. Pour cela, on prélève les
intérêts mensuels moyens enregistrés lors des 10 premiers mois de l’année (n = 10) dans 3 places boursières
différentes (k = 3). Les données se présentent comme suit :
T2
301022,5 353816,1 291726,4 946565
n
x
i 1
2
ij
368033 435257 311560 1114850
ANALYSE BIVARIEE
Lorsque qu’une étude statistique porte sur deux variables, on parle d’analyse bivariée. Il est généralement
question ici de décrire l’évolution commune des deux variables, de rechercher d’éventuels liens entres elles
ou alors d’expliquer une variable par l’autre. Selon l’objectif de l’étude et de la nature des variables, les
techniques utilisées dans ce cas sont les suivantes :
Analyse de la variance
Description – modélisation - prévision Test de Fisher
Modélisation - Prévision
Comparaison Corrélation
I. THEORIE DE LA CORRELATION
Lorsque deux phénomènes ont une évolution commune, nous disons qu’ils sont corrélés. La corrélation
simple mesure le degré de liaison existant entre ces deux phénomènes. Cette corrélation peut être linéaire
ou non, négative ou positive.
X i X Yi Y
n n n n
n X iYi X i Yi
cov( X , Y )
rXY i 1
i 1 i 1 i 1
XY
X i X Y Y
n n 2 2
2 2 n
n n
n
i n X X i
i
2
n Yi Yi
2
i 1 i 1 i 1 i 1 i 1 i 1
Dans la pratique, ce coefficient est rarement proche de ces trois valeurs, on est alors amené à procéder
à un test pour vérifier la corrélation entre deux variables.
Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 22
1.2.Coefficient de corrélation de rang de Spearman
Le coefficient de corrélation de Spearman, noté 𝜌𝑋𝑌 , est un coefficient non paramétrique qui quantifie,
comme le 𝑟𝑋𝑌 , de Pearson, le degré d’association linéaire entre deux variables quantitatives.
Il est particulièrement approprié lorsqu’au moins une de deux variables X et Y n’est pas normalement
distribuée. Son calcul nécessite que les données soient transformées en rang. Le rang de X est noté par 𝑅𝑖
et celui de Y par 𝑆𝑖 . Le 𝜌𝑋𝑌 , de Spearman n’est rien d’autre que le rapport entre la covariance (𝑅𝑖 , 𝑆𝑖 ) et le
produit non nul de leurs écarts-types. Il est donc un cas particulier du coefficient de corrélation de Pearson.
En tenant compte de certaines propriétés de rang, le 𝜌𝑋𝑌 , de Spearman peut être calculé de manière plus
simple par la formule :
6 ∑𝑛𝑖=1 𝐷𝑖2
𝜌𝑋𝑌 =1−
𝑛(𝑛2 − 1)
Où 𝐷𝑖 = 𝑅𝑖 − 𝑆𝑖 et n : le nombre d’observations.
1.4.Exercice d’application
En utilisant les données de l’exemple 3.3 du premier chapitre, Estimons la corrélation entre X et Y.
Eu égard aux résultats des tests de linéarité et de normalité (X est non gaussienne), le coefficient de
corrélation approprié dans ce cas est le 𝝆𝑿𝒀 de Spearman. Les calculs sont confinés dans le tableau ci-après
:
X Y Rang de X (Ri) Rang de Y (Si) Di = Ri - Si Di²
20 5 6 5,5 0,5 0,25
5 1 2,5 1 1,5 2,25
5 2 2,5 2,5 0 0
40 7 9,5 7 2,5 6,25
30 8 7 8,5 -1,5 2,25
35 9 8 10 -2 4
5 3 2,5 4 -1,5 2,25
5 2 2,5 2,5 0 0
15 5 5 5,5 -0,5 0,25
40 8 9,5 8,5 1 1
Σ = 18,5
𝟔(𝟏𝟖,𝟓)
𝝆𝑿𝒀 = 𝟏 − 𝟏𝟎(𝟏𝟎𝟐 −𝟏 = 𝟎, 𝟖𝟖𝟕𝟗
Ho : rXY 0
H1 : rXY 0
rXY
La statistique du test est donnée par : t
1 rXY2
n2
On démontre que, sous l’hypothèse Ho, t suit une loi de Student, à n-2 degrés de liberté. Pour un
seuil fixé, la valeur critique du test est donnée par :
t0 t (n 2)
2
Ayant détecté une corrélation entre deux variables quantitatives X et Y, on peut matérialiser le lien sous
forme d’une équation mathématique : c’est la modélisation. Un des modèles qui s’adaptent sur la plupart
des données économiques est le modèle de régression simple.
Il est question ici de rechercher un lien entre X et Y sous la forme : Y = aX + b + ε (1)
où a et b sont les coefficients inconnus du modèle, et ε, une perturbation aléatoire, appelée aléa ou résidu.
On peut considérer que le terme aléatoire: rassemble toutes les influences autres que celle de la variable
~,
explicative : X d’incidence secondaire sur la variable à expliquer: Y, et non explicitement prises en compte
dans le modèle.
Ayant supposé X et Y liés par le modèle précédent, c’est à dire chaque couple d’observations dans
une relation : yi = = a.xi + b + εi
où les valeurs de a, b et εi sont à déterminer.
À partir des n couples de données observées: (x1,y), il faut estimer ces différentes quantités, et juger
de la pertinence du modèle.
On montre, par la méthode des moindres canés ordinaires, que les coefficients a et b peuvent être
estimés respectivement par :
n
cov(x, y )
x y
i 1
i i n xy
aˆ n
x
var(x)
n x2
2
i
i 1
bˆ y aˆ.x
On suppose que les aléas: i , suivent la même loi normale: N 0, et sont indépendants.
2
Remarque: L’estimateur des MCO est unique, sans biais et de moindre variance parmi les estimateurs
linéaires.
Après avoir estimé les coefficients a et b, il reste à vérifier s’ils peuvent être considérés comme nuls
ou pas. Pour cela on possède au test de Student.
Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 24
2. Test de Student pour la significativité des coefficients a et b
a) hypothèses
Ayant obtenu le modèle (1) de la régression linéaire précédente, on désire tester les hypothèses
HO : a = 0 (resp. b = 0) contre
H1 : a ≠ 0 (resp. b ≠ 0)
b) Statistique du test
Soient:
1 n 2
ˆ 2 i , une estimation de la variance du résidu , avec
n 2 i 1
𝜀 = 𝑦 − 𝑦̂ et 𝑦̂ = 𝑎̂𝑥 + 𝑏̂
ˆ 2 ̂2
𝜎
ˆ a
2
= , l’estimateur empirique de la variance du coefficient a
∑ 𝑥𝑖2 −𝑛𝑥̅ 2
x x
n
2
i
i 1
2 1 x2 , l’estimateur empirique de la variance du coefficient b
ˆ b 2 ˆ n
n
xi x 2
i 1
aˆ ˆ
La statistique du test est : t * a resp. t * b b
ˆ a ˆ b
c) Valeur critique
aˆ a bˆ b
On démontre que, sous H0 , et suivent une loi de Student à n- 2 degrés de liberté
ˆ a ˆ b
La valeur critique du test est donnée par : t 0 t n 2
2
d) Règle de décision
- Si t n 2 t * a t n 2 , on accepte Ho
2 2
Il en est de même pour b
L’intervalle de confiance de a, au seuil α, est donné par a aˆ ˆ a .t n 2
2
e) Exemple
Test de corrélation
X 112.8 X 2
1336.54 Y 100.5 Y 2
1056.79 XY 1186.74
rxy = 0.969
t = 11.17
Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 25
t n 2 = 2.3 (α = 5% et n = 10)
2
a = 0,828
b = 0,714
Test de Student
n
2
i = 2,82
i 1
̂ 2 = 0,35196501
̂ 2 a = 0,00548608
̂ 2 b = 0,43221304
t * a = 11,1744494
t * b = 1,085886884
Etant donné deux variables qualitatives nominales X et Y, observées sur un échantillon de taille n,
l’on désire savoir si ces deux variables sont indépendantes ou s’il existe une liaison entre elles. Le test de
khi-2 permet de mettre en évidence une éventuelle liaison entre les deux variables.
a) Tableau de contingence
Supposons que la variable X ait k catégories : X1, X2, .,Xk et que Y ait , m catégories : Y1, …, Ym. La première
.
étape du test consiste à construire le tableau de contingence (ou tableau croisé) de la manière suivante :
X
X1 X2 … Xj … Xk Total
Y
Y1 O11 O12 … O1 j … O1k n1
Y2 O21 O22 … O2 j … O2 k n2
… … … … … … … …
Yi Oi 1 Oi 2 … Oij … Oik ni
… … … … … … … …
Ym Om1 … … O mj … Om k nm
b) Construction du test
k Oij Tij 2
m
2
j 1 Tij
i 1
Où, Tij
ni t j
, est l’effectif théorique de la catégorie X j , Yi
n
On démontre que, sous l’hypothèse Ho, la statistique du test suit une loi de Khi-2 à v degrés de liberté.
(Avec v = (k-1)(m-1)).
Pour un coefficient de risque α fixé, la valeur critique du test est donnée par :
02 2 , valeur lue dans la table du Khi2 à v degrés de liberté
c) Exemple
Une enquête a été réalisée auprès de 332 touristes auxquels on a demandé leurs modes d’hébergement
durant le séjours dans un pays. Les données obtenues pour chaque catégorie socio professionnelle (CSP)
des personnes interrogées se présentent ainsi qu’il suit :
CSP
Agriculteur Cadre Ouvrier Profession libérale Autre
Hébergement
Camping 2 17 20 6 22
Famille / amis 6 32 9 24 34
Hôtel 1 12 7 23 31
Location / gîte 2 25 8 26 25
Statistique du test :
2. Test de Kruskal-Wallis
Ce test est applicable, soit aux variables qualitatives ordinales, soit aux variables quantitatives, pour
déterminer si k groupes sont significativement différents aux fluctuations d’échantillonnage près. C’est un
test non paramétrique, comparable à au test d’analyse de la variance à un facteur.
Les hypothèses à tester sont les suivantes :
Ho : les k échantillons indépendants proviennent de la population dont les mesures de tendance centrale
sont identiques
H1 : les k échantillons indépendants proviennent de la population dont les mesures de tendance centrale
ne sont pas identiques
Le processus d’exécution dudit test consiste tout d’abord à ordonner de 1 à n toutes les observations
combinées des k échantillons (en affectant un rang moyen en cas d’égalité), en suite on calcule la somme
des rangs Rj (j = 1,…,k) de chaque échantillons.
3n 1
12
H
j
nn 1 j 1 n j
k
Où nj est la taille de l’échantillon j (j = 1,…,k) et n n
j 1
j
On démontre que, sous Ho, H suit une loi de khi-2 à (k-1) degrés de liberté lorsque nj > 5 j 1,...,k .
Pour un seuil α fixé, si H k 1 alors on rejette Ho. Sinon on l’accepte.
Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 28
Exemple:
Pour évaluer l’efficacité relative des différentes méthodes de promotion d’un produit de nettoyage
(Echantillons gratuit, Rabais de 30%, Annonce à la radio et Emission à la radio) appliquée à 4 groupes de
potentiels consommateurs, ces derniers devraient indiquer, dans chacune des situations de promotion, par
une note allant de 1 à 7 jusqu’à quel point ils croyaient à l’efficacité de ce produit. Les résultats se présentent
ainsi qu’il suit :
Résolution:
Nous avons 4 échantillons et 28 observations au total. Après avoir combiné et ordonné les
observations on obtient :
Echantillon gratuit Rabais de 30% Annonce à la radio Emission à la radio
3.5 3.5 18 18
12 8.5 22.5 26.5
14.5 8.5 14.5 22.5
8.5 12 12 18
18 3.5 18 26.5
3.5 8.5 26.5 22.5
3.5 3.5 22.5 26.5
R1=63.5 R2=48 R3=134 R4=160.5
63.52 482 1342 160.52
H
12
328 1
12
7150.36 87 18.67
2828 1 7 7 7 7 812
H 1% 3 d’où rejet de Ho, en d’autres termes, les observations des 4 échantillons sont significativement
différentes et donc le degré de croyance dans l’efficacité de ce produit de nettoyage n’est pas le même pour
les quatre méthodes de promotion.
Ce test est utilisé lorsqu’on veut comparer deux séries d’une variable ordinale ou quantitatives, chaque
observation d’un échantillon étant liée à une observation homologue de l’autre échantillon. C’est un test
non paramétrique.
Les hypothèses à tester sont les suivantes :
Pour déterminer la statistique du test, on calcule tout d’abord la différence di entre les scores de deux
observations jumelées (si la différence est nulle, on élimine l’observation correspondante), ensuite on
Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 29
indique le rang de toutes les différences di en valeur absolue, de la plus petite à la plus grande et on affecte
à chaque rang le signe de la différence dont il provient (en cas d’égalité des |di|, les rangs sont attribués de
la même façon qu’au test précédent).
La statistique du test : T est la plus petite des deux sommes de rangs positifs ou de rangs négatifs.
Sous l’hypothèse Ho, lorsque n ≥ 8, on démontre que T suit une loi normale N (, 2 )
Exemple:
Une firme étudie l’influence d’une interruption de travail permettant de prendre un café, sur la productivité
de ses ouvriers. Ayant choisi 16 ouvriers au hasard, on mesure leur productivité durant deux jours, le
premier sans interruption, le deuxième avec interruption. Les données se présentent ainsi qu’il suit :
Résolution :
Sans 80 77 88 85 70 95 83 68 87 93 72 80 85 75 87 55
Avec 85 75 90 80 76 100 87 65 88 95 77 83 85 76 92 55
di -5 2 -2 5 -6 -5 -4 3 -1 -2 -5 -3 0 -1 -5 0
|di| 5 2 2 5 6 5 4 3 1 2 5 3 0 1 5 0
rang 11 4 4 11 14 11 8 6,5 1,5 4 11 6,5 - 1,5 11 - Total
R- 11 4 14 11 8 1,5 4 11 6,5 1,5 11 83,5
R+ 4 11 6,5 21,5
Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 30
T= 21,5
𝑛(𝑛+1) 𝑛(𝑛+1)(2𝑛+1) 𝑇−𝜇
𝜇= = 52,5 𝜎=√ = 15,93 𝑍= = −1,95
4 24 𝜎
|Z| < Zlu=2.57, on accepte H0
Prenons l’exemple suivant pour illustrer cette partie du cours : Une entreprise a disposé ses produits
dans des magasins situés dans cinq quartiers de la ville de Douala, dans chaque magasin, les produits sont
disposés sur des étalages à trois niveaux de hauteur (Bas, moyen, haut). A l’issue d’une semaine
d’observation, les ventes dans ces quartiers se répartissent ainsi qu’il suit :
Dans cet exemple, les ventes peuvent être influencées par le niveau d’appréciation du produit en
question dans le quartier ou par la hauteur de l’étalage.
Yij i j ij
Où
est la moyenne générale des ventes
i , l’effet Quartier (i =1, …, n)
j , l’effet de la hauteur de l’étalage (j =1, …, p)
ij , l’erreur ou résidu ( ~ N (0, 2 ) )
1. Hypothèses du test
Le test statistique des différences dans les ventes causées par la hauteur de l’étalage va consister à tester
les hypothèses suivantes :
De même, le test des différences dans les ventes causées par le quartier consistera à tester
2. Statistique du test
La détermination des statistiques des deux tests en question ici passe par la construction du Tableau
d’analyse de la variance suivant :
Résidu (p-1)(n-1) Sr Sr
Ve
p 1n 1
Total np-1 ST
Avec :
S e n Y. j Y
p
2
j 1
S q p Yi. Y
n
2
i 1
S T Yij Y
n p
2
i 1 j 1
S r ST S e S q
1 n p 1 n 1 p
Y Y.. ij
np i 1 j 1
Y ; Y.j ij i. p
n i 1
Y ; Y
j 1
Yij
La statistique du test des différences dans les ventes causées par la hauteur de l’étalage est donnée par Fe .
De même, la statistique du test des différences dans les ventes causées par le quartier est donnée par Fq
3. Seuil critique
Pour un seuil fixé, la valeur critique du test des différences dans les ventes causées par la hauteur de
l’étalage est donnée par F ( 1 , 2 ) , Avec 1 p 1 et 2 (n 1)( p 1)
La valeur critique du test des différences dans les ventes causées par le quartier est donnée par F ( 3 , 2 ) ,
Avec 3 n 1 et 2 (n 1)( p 1)
Si Fe > F ( 1 , 2 ) , On rejette Ho, et donc la hauteur de l’étalage influence significativement les ventes.
Si Fq > F ( 3 , 2 ) , On rejette Ho, et donc le produit est plus vendu dans certains quartiers que dans
d’autres.
Dans le cas contraire, ces on accepte Ho et donc ces effets sont non significatifs.
i
j 1 2 3 Yi. Yi. Y 2
1 18 22 29 23 18.2
2 17 20 26 21 5.14
3 16 17 24 19 0.07
4 15 16 21 17.33 1.96
5 12 14 14 13.33 29.16
Y. j 15.6 17.8 22.8 Y 18.73 Yi. Y
2
54,53
Y . j Y 9.82 0.87 16.54
Y . j Y
2 2
27,23
SV ddl SCE CM F
Effet étalage 2 136.13 68.07 18.65
Effet quartier 4 163.6 40.9 11.21
Résidu 8 29.2 3.65
Total 14 328.93
ANALYSE MULTIVARIEE
INTRODUCTION
L’analyse des données multidimensionnelles recouvre un ensemble de méthodes destinées à synthétiser
l’information issue de plusieurs variables, pour mieux l’expliquer. Ces méthodes peuvent être regroupées
en deux grandes catégories : les méthodes descriptives et les méthodes explicatives.
Les méthodes descriptives visent à structurer et simplifier les données issues de plusieurs variables, sans
privilégier l’une d’entre elles. Les techniques les plus utilisées ici sont : l’analyse en composantes
principales (ACP), l’analyse factorielle des correspondances (AFC), l’analyse des correspondances
multiples (ACM), la typologie et la classification.
Les méthodes explicatives visent à expliquer une variable (variable à expliquer) par plusieurs variables
explicatives. Les principales méthodes utilisées sont : la régression multiple, l’analyse discriminante et la
segmentation.
Ces méthodes d’analyse multivariée permettent de résoudre des problèmes divers et variés. Le choix d’une
méthode dépend de l’objectif de l’étude, des types de variables manipulées et de la forme des résultats
obtenus (qui peuvent être plus ou moins faciles interpréter).Le tableau suivant présente les techniques
utilisées en analyse multivariée en fonction de l’objectif visé.
Le tableau de départ de l’ACP comporte les individus en ligne et les variables en colonne, avec dans chaque
cellule, la valeur observée de l’individu sur la variable correspondante. Les variables ordinales sont
recodifiées.
l’ACP permet de positionner les individus sur un ou plusieurs plans, en fonction de la proximité de leurs
valeurs observées sur les variables sélectionnées. Elle permet également de représenter les variables sur un
Les axes du graphique correspondent généralement à un regroupement optimal de plusieurs variables. Par
exemple, le revenu et le niveau d’étude peuvent participer ensemble à la formation d’un axe si elles sont
fortement corrélées.
L’ACP est très pratique lorsque l’on travaille sur un ensemble limité et identifié d’individus. Par exemple,
si l’on désire analyser des points de ventes en fonction de plusieurs critères tels que la surface, le CA, les
quantités de vente, le personnel, l’ACP permet d’obtenir une cartographie qui regroupe les points de ventes
selon tous les critères retenus, ce qui peut permettre d’identifier les cas hors norme comme une surface et
un personnel important, mais un CA faible.
L’algorithme de l’ACP effectue sur la matrice Individus/variables les opérations telles que le centrage et la
réduction des données, la diagonalisation de la matrice, l’extraction des valeurs propres et vecteurs propres,
en vue de passer du nombre de variable initial à un petit nombre de variables obtenues par combinaison des
premières. Ces nouvelles composantes forment les axes du graphique. La première composante est celle
qui résume le mieux les informations contenues dans le tableau, la deuxième apporte un pourcentage
d’information inférieur, mais complémentaire et ainsi de suite.
Le graphique de l’ACP représente d’abord la première composante (axe horizontal) et la seconde (axe
vertical). La somme des pourcentages d’explication des deux composantes renseigne sur le taux de
déperdition d’information à partir des données initiales. Ainsi, si la première composante résume 60% du
tableau et la seconde 20%, l’information représentée sur le graphique est de 80%. L’information « perdue »
est donc de 20%.
Les points individus sont représentés sont représentés sur le graphique en fonction de leur coordonnées sur
les facteurs. Les points proches correspondent à des individus ayant des profils proches, à priori, quant aux
valeurs observées sur les variables prises en compte dans l’analyse.
Les points variables sont également représentés sur le graphique, mais de façon indépendante des individus.
Leur représentation indique leur corrélation avec les facteurs, à l’intérieur d’un cercle de rayon unité, avec
une échelle arbitraire. Ces points variables renseignent su le sens à donner aux axes : un point proche du
cercle de corrélation et proche d’un axe participe beaucoup à la formation de cet axe. Les angles inter-
variables (en partant de l’origine) renseignent sur les corrélations entre elles. Ainsi, deux variables formant
un petit angle sont fortement corrélés alors qu’un angle droit signifierait qu’elles sont indépendantes.
2. L’AFC
Le tableau de départ de l’AFC simple est un tableau croisé (tableau de contingence). L’AFC s’applique à
deux variables qualitatives nominales. Elle permet de positionner les modalités des deux variables sur un
graphique. Le graphique de l’AFC affiche les points modalités. On peut par exemple positionner une série
de marque d’automobile sur le même plan avec la caractéristique des clients (âges, CSP, Sexe,…), ce qui
permet de repérer les affinités entre chaque marque et les différentes cibles.
En pratique, on utilise l’AFC pour représenter graphiquement et expliquer le croisement de deux variables.
Si le test du khi-2 indique une dépendance entre ces deux variables, l’interprétation du graphique sera plus
aisée.
3. L’ACM
L’ACM est une généralisation de l’AFC à un nombre quelconque de variables. Elle permet de représenter
sur le même graphique, les modalités de plus de deux variables qualitatives. L’ACM part d’un tableau
disjonctif complet (tableau de Burt) qui présente en ligne les individus et en colonne toutes les modalités
Comme l’ACP, les deux premiers axes du graphique de l’ACM fournissent une partie généralement
importante de l’information contenue dans les données. La proximité des points renseigne sur leurs
associations. La disposition des modalités de chaque variable les unes par rapport aux autres aide à donner
un sens à chaque axe.
4. LA TYPOLOGIE
L’analyse typologique s’applique à tous types de variables. Elle permet de répartir la population en un
nombre défini de sous groupes aussi différents que possible les uns des autres et dans lesquels les individus
sont aussi semblables que possible entre eux.
Les différentes méthodes d’analyse typologique partent des individus eux-mêmes et essaient de les classer
progressivement selon la ressemblance de leurs observations sur les variables retenues.
Il existe plusieurs méthodes d’analyse typologique, qui aboutissent toutes au classement des individus dans
le nombre de groupes défini initialement. L’effectif de ces groupes peut être très différent. La visualisation
graphique du résultat de l’analyse typologique est un graphique qui met en évidence les différents groupes.
Certains logiciels d’analyse de données permettent de créer à partir des résultats de la typologie, une
nouvelle variable indiquant, pour chaque individu, son numéro de groupe d’appartenance.
5. LA CLASSIFICATION
Tout comme la typologie, la classification est une méthode qui permet de regrouper les individus selon
leurs ressemblances. La différence ici est que le nombre de groupe n’est fixé d’avance et que le résultat est
représenté sous forme d’un arbre de classification.
L’élaboration de cet arbre peut être ascendante par regroupement successif des individus (méthode
fréquemment utilisé) ou descendante par divisions successives.
Il est également possible d’appliquer une classification pour regrouper des variables. On obtient ainsi des
groupes de variables dont les profils des valeurs/modalités observées se ressemblent.
Elle permet d’expliquer une variable quantitative (Y) par plusieurs autres variables quantitatives
indépendantes (X1, X2, …, Xp). Elle modélise la relation sous la forme : Y a b1X1 b 2 X 2 b p X p
, où a, b1, b2, …, bp sont les coefficients du modèle.
Si le modèle de régression est satisfaisant, On peut ainsi prédire les valeurs de la variable Y en fonction des
valeurs des variables explicatives.
Certains logiciels calculent directement la probabilité que aucune des variables explicatives n’aient d’effet
sur la variable à expliquer. Cette probabilité doit être très faible pour conclure que l’ajustement est valable.
C’est une méthode factorielle qui cherche à expliquer une variable qualitative par plusieurs variables
quantitatives. Comme la régression, elle permet de mettre en équation une variable à expliquer et des
variables explicatives. C’est donc une méthode prédictive dans la mesure où elle permet de déterminer
quelle modalité prendra un individu pour la variable qualitative à expliquer, si on connaît ses valeurs
observées sur les variables quantitatives.
Par exemple, l’analyse discriminante peut être appliquée pour attribuer un score à un client d’une banque
ou d’une compagnie d’assurance, en déterminant automatiquement un niveau de risque en fonction de
différents paramètres connus tels que l’âge, le revenu, l’endettement,…
Les résultats de l’AD peuvent être visualisés sur un graphique similaire à celui de l’ACP où les points
individus sont réunis en fonction de leur appartenance aux groupes.
3. LA SEGMENTATION
Elle partage les mêmes objectifs que l’AD mais s’applique lorsque les variables explicatives sont
qualitatives. Elle consiste à découper une population en sous groupes homogènes, mais uniquement par
rapport à la variable à expliquer.
Le processus de la segmentation est itératif : à chaque étape, l’algorithme choisit la variable explicative la
plus corrélée la variable à expliquer pour réaliser une partition à partir des modalités de la première.
Le résultat de la segmentation est une sorte d’arbre de décision, avec un découpage de chaque groupe en
deux sous-groupes. La première partition permet d’obtenir les deux premiers groupes. Chacun de ces deux
groupes est ensuite divisée en deux à l’aide de la variable permettant la meilleure partition et qui n’est
généralement pas la même pour les deux groupes. Le processus se poursuit ainsi avec des interruptions
lorsque la taille du groupe tombe en dessous d’un seuil ou quand le découpage optimal expliquerait un
faible % de variance.
L'objectif est de réorganiser l'information de manière hiérarchique (avec l'idée que l'on veut réduire le
nombre de dimensions) de sorte à discriminer au mieux les individus (variance décroissante sur les
nouvelles dimensions).
Soient :
X, la matrice initiale des données ;
Xc, la matrice des données centrées ;
Xcs, la matrice des données centrées et standardisée ;
1
𝑆 = (𝑛−1) 𝑋𝑐′ 𝑋𝑐 , la matrice de covariance ;
1
𝑅 = (𝑛−1) 𝑋𝑐𝑠
′
𝑋𝑐𝑠 , la matrice de corrélation
Sjk = Cov(Xj ; Xk) ;
Sjj = Var(Xj) ;
Rjk = Cor(Xj ; Xk) ; et
Rjj = 1.
Les valeurs propres correspondent aux p solutions possibles de l'équation
det(𝑆 − 𝜆𝐼𝑝 ) = 0
Ou bien
det(𝑅 − 𝜆𝐼𝑝 ) = 0
Le vecteur propre associé à la valeur propre 𝜆𝑖 est donné par
𝑆𝑎𝑖 = 𝜆𝑖 𝑎𝑖
Ou bien
𝑅𝑎𝑖 = 𝜆𝑖 𝑎𝑖
Les p couples de valeurs propres (𝜆𝑖 ) et de vecteurs propres (ai) forment la décomposition spectrale de la
matrice S ou R. Par défaut, on travaillera toujours avec la matrice R. L'idée est de ne conserver qu'un petit
nombre de dimensions (généralement 1, 2 ou 3) afin de pouvoir visualiser et analyser les liens entre les
variables. On peut alors tenter de projeter le nuage de points sur un espace en dimension 1 (une droite) ou
bien sur un espace en dimension 2 (un plan). L'analyse en composantes principales permet de déterminer
le meilleur choix comme espace final. Les nouvelles variables :
𝑦 𝑘 = 𝑋𝑐𝑠 𝑎𝑘
forment les composantes principales et les axes ak indiquent les directions. Ces composantes principales
sont hiérarchisées, c'est-à-dire que 𝜆1 ≥ 𝜆2 ≥ 𝜆3 ≥ ⋯ ≥ 𝜆𝑝 ≥ 0, et la variance d'une composante
principale est égale à la valeur propre associée à cette composante. La covariance entre la variable j et la
composante principale k est donnée par :
𝐶𝑜𝑣(𝑥 𝑗 , 𝑦 𝑘 ) = 𝜆𝑘 𝑎𝑗𝑘
et la corrélation entre la variable j et la composante principale k est donnée par :
𝐶𝑜𝑟(𝑥 𝑗 , 𝑦 𝑘 ) = √𝜆𝑘 𝑎𝑗𝑘
Elle permet de détecter les individus à forte influence sur les composantes principales.
Résumé de l’ACP
Données les données représente les valeurs de 𝑝 variables mesurées sur 𝑛 individus ; les individus peuvent
avoir un poids. En générale on travaille sur les donnés centrées réduites Xcs (on retranche la moyenne et on
divise par l’écart type).
Matrice de corrélation c’est la matrice R de variance-covariance des variables centrées réduites. Elle
possède 𝑝 valeur propres 𝜆1 ≥ ⋯ ≥ 𝜆𝑝 ≥ 0
Inertie totale c’est la moitié de moyenne des distances au carré entre les individus : elle mesure l’étendu
du nuage des points. C’est la gradeur qu’on cherche à garder maximale et elle peut s’écrire
𝐼𝑔 = 𝜆1 + 𝜆2 + ⋯ + 𝜆𝑝 = 𝑝
Facteur principaux 𝑢𝑘 ce sont des vecteurs propres orthonormés de R associés aux 𝜆𝑘 : 𝑹𝑢𝑘 = 𝜆𝑘 𝑢𝑘. leur
𝑗 −ième composante (sur 𝑝) est le poids de la variable 𝑗 dans la composante 𝑘.
Composantes principales 𝑦 𝑘 ce sont les vecteurs 𝑋𝑐𝑠 𝑢𝑘 de dimension 𝑛 leur 𝑖 −ième coordonnée est la
valeur de la composante 𝑘 pour l’individu 𝑖. Les 𝑦 𝑘 sont décorrelées et leur variance est 𝑣(𝑦 𝑘 ) = 𝜆𝑘.
Nombre d’axes on se contente en général de garder le nombre des axes interprétables de valeur propre
supérieure à 1.
Cercle de corrélations il permet de visualiser comment les variables sont corrélées (positivent ou
négativement) avec les composantes principales. A partir de là, on peut soit trouver une signification
physique à chaque composante, soit montrer que les composantes séparent les variables en chaque paquets.
Exemple : On étudie les données sur 50 clients d’un hypermarché constituées de l’âge, du revenu, du
montant des achats, du nombre d’enfants.
La taille de ce tableau est insuffisante pour que les interprétations soient intéressantes. Mais elle
permet de donner la totalité des résultats concernant les variables et d’effectuer des calculs sur
quelques unités statistiques à l’aide d’une simple calculatrice.
Nous donnons ci-dessous la représentation graphique des 50 clients sur le plan principal 1x2. Au
groupe (25, 31, 43) détecté par la représentation graphique des couples (âge, revenu) s’ajoute le
client de rang 28. On peut définir un groupe opposé au précédent : (9, 11, 37, 7, 6, 45). Le client de rang 10
est assez particulier.
L’AFC est une méthode faisant apparaitre les cartes de la situation d’indépendance, au niveau des lignes,
des colonnes, ou des cases du tableau de contingence.
Soient
𝑛𝑖. = ∑𝑗 𝑛𝑖𝑗 , 𝑛.𝑗 = ∑𝑖 𝑛𝑖𝑗 , 𝑛.. = ∑𝑖 ∑𝑗 𝑛𝑖𝑗 = 𝑛,
𝑛𝑖𝑗 𝑛𝑖. 𝑛.𝑗
𝑓𝑖𝑗 = , 𝑓𝑖. = , 𝑓.𝑗 =
𝑛 𝑛 𝑛
L'hypothèse nulle d'indépendance entre les lignes et les colonnes du tableau de contingence est donnée
par
𝐻0 : 𝑓𝑖𝑗 = 𝑓𝑖. 𝑓.𝑗 , ∀𝑖, 𝑗
La statistique du test du khi-2 est donnée par :
(𝑛𝑖𝑗 −𝐸𝑖𝑗 )² 𝑛𝑖. 𝑛.𝑗
Χ 2 = ∑𝑖 ∑𝑗 , avec 𝐸𝑖𝑗 =
𝐸𝑖𝑗 𝑛
Soient les matrices 𝑟 (marice des profils ligne), 𝑐 (matrice des profils colonnes) et 𝐺, tel que :
𝑛𝑖𝑗 𝑓𝑖𝑗 𝑛𝑖𝑗 𝑓𝑖𝑗 𝑓𝑖𝑗 −𝑓𝑖. 𝑓.𝑗
𝑟𝑖𝑗 = = , 𝑐𝑖𝑗 = = et 𝐺𝑖𝑗 =
𝑛𝑖. 𝑓𝑖. 𝑛.𝑗 𝑓.𝑗 √𝑓𝑖. 𝑓.𝑗
En analyse des correspondances, les lignes et les colonnes ont un rôle symétrique. On tente, en suivant la
logique de l'analyse en composantes principales, de représenter les lignes (ou profils lignes) et les colonnes
(ou profils colonnes) sur un même graphique. Les poids sont basés sur la notion de relation pseudo-
barycentrique. L'objectif est donc d'obtenir une représentation graphique où toutes les modalités des deux
variables initiales sont représentées, où la proximité (l'éloignement) de deux modalités prend un sens
intrinsèque et où le centre du plan ou de l'axe (le zéro) a également du sens intrinsèque.
On obtient toutes les modalités des deux variables représentées sur un même axe. La projection d'un profil
ligne (resp. colonne) est, à une constante prés, la moyenne pondérée des projections de tous les profils
colonnes (resp. lignes). Par conséquent, la proximité (resp. l'éloignement) d'un profil ligne et d'un profil
colonne indique une association positive (resp. négative) s'ils sont tous deux projetés loin du centre. Le
centre de l'axe correspond à la moyenne pondérée des projections des profils colonnes (resp. lignes)
𝜓̅𝑘 = 𝜙̅𝑘 = 0.
Exercice d’application : Une AFC réalisée sur les données « Touristes » du Chapitre 3 à produit le
graphique suivants. Interpréter ce résultat.
Sous l'hypothèse nulle, cette statistique a une distribution Student avec n - (p + 1) degrés de liberté.
Pour un seuil 𝛼 fixé, la valeur critique est donc donnée par 𝑉𝑐 = 𝑡𝛼⁄2 (𝑛 − (𝑝 + 1))
Si |𝑇| ≥ 𝑉𝑐 , on rejette 𝐻0 et on conclut que le coefficient 𝛽𝑗 est significatif.
Si non le coefficient 𝛽𝑗 n’est pas significatif
Sous l'hypothèse nulle, cette statistique a une distribution Fisher avec p degrés de liberté au numérateur et
n - (p + 1) degrés de liberté au dénominateur.
Exercice d’application :
Une régression linéaire sur les données « cars » a produit le résultat suivant : interpréter.
lm(formula = vit ~ cyl + pui + poi + lon + lar)
Residuals:
Min 1Q Median 3Q Max
-18.4094 -2.5448 0.3233 4.9894 10.7151
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 137.226028 52.913375 2.593 0.018352 *
cyl 0.004224 0.010656 0.396 0.696461
pui 0.735264 0.090108 8.160 1.85e-07 ***
poi -0.093859 0.022917 -4.096 0.000679 ***
lon 0.377893 0.133531 2.830 0.011099 *
lar -0.597165 0.456886 -1.307 0.207653
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.32 on 18 degrees of freedom
Multiple R-squared: 0.9148, Adjusted R-squared: 0.8911
F-statistic: 38.66 on 5 and 18 DF, p-value: 5.175e-09