Cours Stat 1CI Complet
Cours Stat 1CI Complet
Cours Stat 1CI Complet
INTRODUCTION
À L’INFÉRENCE STATISTIQUE
Les méthodes de l'inférence statistique ont pour but de fournir des résultats sur des
populations entières à partir de mesures statistiques réalisées sur des échantillons
convenablement prélevés dans celles-ci. Ceci est d'autant plus intéressant que, dans la
pratique, un travail de recherche se réalise le plus souvent sur des échantillons et son intérêt
est subordonné au caractère plus ou moins général des conclusions auxquelles il permet
d'aboutir.
Certaines conditions d'application dont dépendent les méthodes utilisées doivent être
vérifiées au préalable. De même, les échantillons doivent être prélevés selon des règles bien
précises, car la manière de choisir les échantillons est aussi importante que la manière de les
analyser. A ce propos, il faut se rappeler que la plupart des méthodes de l'inférence statistique
sont directement appliquées lorsque l'échantillonnage se réalise de manière aléatoire et
simple.
Comme nous le verrons, la généralisation des conclusions obtenues à partir des échantillons
aux différentes populations comporte certains risques d'erreurs. Ceux-ci peuvent être évalués
en faisant appel à la théorie des probabilités. Le chercheur ne peut donc pas faire un jugement
certain, mais seulement avec une probabilité assez importante.
D'une manière générale, les méthodes de l'inférence statistique nous permettent de traiter les
problèmes d'estimation de paramètres de populations inconnus et les problèmes de tests
d'hypothèses statistiques. Rappelons que les paramètres qu'on cherche à estimer sont des
caractéristiques numériques d'une population. Il peut s'agir de la moyenne, de la proportion
d'individus ayant une propriété donnée, de la corrélation de deux variables, etc.
1° Les problèmes d'estimation permettent d'obtenir des estimations ponctuelles pour les
paramètres de la population à partir d'échantillons convenablement prélevés et de les entourer
éventuellement d'intervalles de confiance (chapitre 1). C'est ainsi que, par exemple, à partir
de la moyenne calculée à partir des prélèvements de sang réalisés sur un échantillon de
bovins adultes d'une race données et conduits dans les mêmes conditions, on cherche à
estimer la teneur moyenne théorique en protéines sériques totales du sang des bovins adultes
de toute la population de la région, et à évaluer la précision de l'estimation obtenue.
2° Quant aux problèmes des tests d'hypothèses, ils ont pour but de contrôler, à partir de
l'examen d'un ou de plusieurs échantillons, la validité d'hypothèses relatives à une ou
plusieurs populations (chapitre 2). Les hypothèses portent sur les valeurs théoriques, tandis
que les valeurs observées sur les échantillons servent à les tester. C'est le cas, par exemple,
lorsqu'on souhaite comparer les teneurs moyennes en bêta globuline du sang de vaches
adultes d'une race donnée chez les vaches indemnes et les vaches atteintes d'une certaine
maladie. C'est aussi le cas lorsqu'on souhaite testez si l'oxygène total consommé par les
truites saumonées dans des conditions standards varie avec leur poids frais de la même
2
manière dans deux bassins à 10 °C, le premier est soumis à courant d'eau fort et le second à
courant d'eau faible.
Les deux premiers chapitres de ce document constituent la première partie qui donne les
premiers éléments de base de la statistique inductive. Ils seront consacrés à des introductions
respectivement à la théorie de l'estimation et aux tests d'hypothèses. Ils exposeront des
notions de base qu'il faut connaître, le premier sur les qualités des estimateurs, les méthodes
d'estimations et les précisions des estimations obtenues, et le second sur le procédé à suivre
pour tester si une hypothèse est vraie ou fausse afin d'appréhender la réalité que l'on ne
connaît pas. Nous verrons que les chapitres qui vont suivre ne seront que des applications des
méthodes de l'inférence statistique.
3
CHAPITRE 1
1.1. INTRODUCTION
Une population est caractérisée par un certain nombre de paramètres (moyenne, variance,
coefficient de régression, etc.). Dans la plupart des cas, ces paramètres sont inconnus du
chercheur. Les problèmes d'estimation permettent d'obtenir des estimations de ces paramètres
à partir des valeurs obtenues d'échantillons convenablement prélevés dans cette population.
Supposons en effet que l'on s'intéresse à une variable aléatoire dont la distribution de
probabilité connue analytiquement dépend d'un paramètre inconnu numériquement.
Le problème de l’estimation consiste à construire une expression, fonction des réalisations de
la variable dans un échantillon de données, permettant d’estimer le paramètre inconnu. Nous
considérons que le paramètre inconnu est non aléatoire.
Dans ce chapitre, nous considérerons d'abord l'estimation ponctuelle d'un paramètre. Nous
définirons à cette occasion la notion d'estimateur (paragraphe 1.2), les différents critères pour
juger les qualités d'un estimateur (paragraphe 1.3) et les méthodes d’estimation les plus
connues (paragraphe 1.4). Ensuite, nous présenterons l'estimation par intervalle de confiance
pour exprimer la précision de l'estimation obtenue (paragraphe 1.5).
Soit un phénomène modélisé par une variable aléatoire X dont la distribution de probabilité
dépend d'un paramètre inconnu et soit ( X 1 , X 2 , ..., X n ) un échantillon aléatoire de taille n
et ( x1 , x 2 , ..., x n ) les valeurs observées correspondantes. Les variables aléatoires
X 1 , X 2 , ..., X n sont de même loi que X et indépendantes ( i.i.d 1).
1
i.i.d est une abréviation souvent utilisée pour indiquer que des variables aléatoires sont indépendantes et
identiquement distribuées.
4
Remarques :
− l'estimateur est une variable aléatoire ; la valeur estimée, obtenue par l'estimateur, peut donc
varier d'un échantillon de données à un autre ;
− il existe plusieurs estimateurs d'un paramètre d'une population.
Exemple 1.1.
Reprenez l'exemple de la teneur en protéines sériques totales du sang de bovins adultes cité lors de
l'introduction de cette première partie, en considérant que cette variable est distribuée selon une
loi normale de moyenne et de variance inconnues et ². Cherchez une estimation de la teneur
moyenne en protéines sériques totales du sang de la population (), sachant que l'on dispose des
valeurs des teneurs en protéines sériques totales du sang d’un échantillon aléatoire et simple de
dix bovins (tableau 1.1).
Tableau 1.1. Teneurs en protéines sériques totales du sang de 10 bovins adultes (en g/100 g).
N° vache 1 2 3 4 5 6 7 8 9 10
Teneur 7.2 6.8 7.3 8.1 8.5 8.6 8.2 7.5 7.3 6.7
Solution 1.1
La moyenne de la population est ici estimée par la moyenne de l'échantillon, mais nous
pouvons aussi l'estimer par :
− la médiane observée (7.40 g/100 g),
− la première valeur de l'échantillon 7.2 g/100 g ,
− etc.
5
1.2.2. Notations
Pour les besoins des paragraphes et des chapitres suivants, nous aurons besoins de distinguer
entre les paramètres de la population, c'est-à-dire ceux qu'on cherche à estimer, et les
paramètres observés, c'est-à-dire ceux qu'on calcule à partir d'un échantillon. Ces notations
sont reprises au tableau 1.2.
1.3.1. Généralités
En présence de plusieurs estimateurs d'un même paramètre, on est tenté de choisir celui qui
semble être le "meilleur". Dans ce cas, on est amené à examiner différents critères qui
définissent les qualités d'un estimateur (paragraphe 1.3.2 à 1.3.7). Certaines de ces propriétés
s’appliquent aux estimateurs quelle que soit la taille de l’échantillon, d'autres s’appliquant
lorsque la taille de l’échantillon est élevée.
Un estimateur est dit sans biais, ou non-biaisé, s'il ne surestime ou sous-estime pas de
manière systématique le paramètre inconnu En moyenne, on doit retrouver la vraie valeur
du paramètre L'estimateur G( X 1 , X 2 , ..., X n ) de est donc sans biais si :
E (G ) = ,
biais = E (G ) − .
Un biais positif signifie que l'estimation, en moyenne, surestime le paramètre inconnu , alors
qu'un biais négatif le sous-estime.
Figure 1.1. Illustration d'un estimateur U sans biais (a) et d'un estimateur V avec biais (b).
Exemple 1.2.
= E( X i ) − = nE( X i ) − = 0 .
1 n 1
n i = 1 n
Puisque le biais est nul, il en résulte que X est un estimateur sans biais de la moyenne. Dans la
pratique on utilise en effet souvent la moyenne de l'échantillon pour estimer la moyenne de la
population :
̂ = x .
On peut remarquer qu'on peut aussi obtenir un estimateur non biaisé du paramètre en prenant
une valeur de l'échantillon prélevé, puisque E ( X i ) = , où i est le numéro d'observation dans
l'échantillon. Ce dernier estimateur apparaît moins intéressant que la moyenne car cette dernière
contient plus d'information sur la population. Il est donc clair que nous aurons besoin d'autres
critères pour comparer les estimateurs.
7
Exemple 1.3.
( n − 1) 2 − 2
= − 2 = .
n n
Le biais est donc de -²/n. Il en résulte que S² est un estimateur biaisé de la variance de la
population ² : la variance de l'échantillon est en moyenne inférieur à la variance de la
population.
C'est pourquoi on apporte une correction en multipliant la variance de l'échantillon par n/(n-1)
pour obtenir l'estimateur non biaisé suivant :
1
( X i − X )2 .
n
S n2−1 =
n − 1 i =1
Dans la pratique, une estimation sans biais de la variance de la population ² peut donc être
obtenue à partir de l'échantillon en utilisant l'expression suivante :
ns 2 SCE x
ˆ 2 = =
n−1 n−1
1 n SCE x
où s² est la variance de l'échantillon calculée par l'expression s 2 = ( x i − x) 2 = .
n i =1 n
Cela ne veut pas dire que la racine carrée de la variance S n2−1 est un estimateur sans biais de
l'écart-type de la population.
D'autre part, lorsque la moyenne de la population est connue, ce qui est rare, alors la quantité
1 n
S2 =
n
i =1
( X i − X ) 2 est un estimateur sans biais de la variance de la population. Dans ce cas
Var(G ) = E (G − E (G )) 2 .
Un estimateur sans biais mais de variance très grande n'est pas intéressant. Il indique qu'on ne
se trompe pas en moyenne, mais on peut se tromper largement pour certains échantillons.
8
E (G − E (G ))2 E (G * − E (G*))2 ,
où G* est tout autre estimateur.
Exemple 1.4.
L'exemple 1.2 nous a permis de retenir que le i -ème élément de l'échantillon aléatoire Xi et la
moyenne X sont deux estimateurs non-biaisés de la moyenne de la population. Calculez les
variances de ces estimateurs et commentez les résultats obtenus.
Solution 1.4.
a) Méthode : calcul de la variance d'un estimateur.
b) Calcul :
Soit la variable Xi qui représente le i -ème élément de l'échantillon aléatoire. On a :
Var ( X i ) = ²
1 1
n n
var( X) = var Xi = var( X i )
n i =1 n² i =1
1 ²
= n var( X i ) = ,
n² n
dans laquelle les variables Xi sont indépendantes.
Il ressort que var( X) Var ( X i ) , indépendamment de la valeur de . Il est donc plus probable
d'obtenir une estimation de la moyenne proche de en utilisant l'estimateur X qu'en utilisant
l'estimateur Xi. .
Un estimateur efficace est un estimateur sans biais dont la variance est égale à une borne dite
borne de Cramer−Rao et qui vérifie un certain nombre de conditions.
Nous ne souhaitons pas aborder ici en détail cette qualité d'estimateur, mais il y a lieu de
retenir :
− un estimateur efficace est un estimateur sans biais de variance minimum ;
− un estimateur efficace n'existe pas toujours ;
9
EQM = E (G − ) 2 .
Cela veut dire qu'une variance plus petite peut compenser le biais d'un estimateur biaisé.
L'erreur quadratique moyenne constitue donc un critère qui peut être utilisé pour choisir entre
deux estimateurs quelconques (avec ou sans biais). On choisira l'estimateur possédant une
EQM petite.
Si l'estimateur est sans biais, EQM n'est autre que la variance de la distribution
d'échantillonnage.
lim P ( G − ) = 0 0.
n→
Un estimateur convergent s'écarte donc du paramètre avec une faible probabilité, si la taille
de l'échantillon est assez grande. Autrement dit, lorsque l'effectif de l'échantillon devient
suffisamment grand, on est assez sûr que l'estimateur G sera compris dans un intervalle assez
étroit autour du paramètre inconnu .
Il en découle que si :
alors G est un estimateur convergent de . Autrement dit, le biais et la variance tendent l'un et
l'autre vers zéro lorsque la taille de l'échantillon tend vers l'infini.
On peut remarquer que X est un estimateur sans biais et convergent de la moyenne , car :
²
E( X ) = et Var( X ) = →0 .
n
10
Exemple 1.5 :
h(w)
g(v)
f(u)
Autre exemple :
Trois tireurs (A, B et C) visent le point bleu situé au centre du cercle. Commenter la
qualité des tirs ?
Un estimateur est dit asymptotiquement sans biais quand le biais tend vers zéro lorsque la
taille de l'échantillon croit vers l'infini.
11
n
b) G est une fonction linéaire des observations de l'échantillon : G = ui x i
i =1
c) Var( G ) Var( G' ) où G' est n'importe quel autre estimateur non biaisé de et qui
satisfait la condition (b).
Plusieurs méthodes permettant d'obtenir des estimations des paramètres inconnus existent.
Parmi celles-ci, on peut citer la méthode du maximum de vraisemblance, la méthode des
moments et la méthode des moindres carrés. Les deux premières méthodes seront présentées
dans les paragraphes 1.4.1 et 1.4.2 et nous reviendrons à la troisième méthode au chapitre
réservé à la régression.
Exemple 1.6 :
Soient deux fabricants qui produisent des boulons. Le fabricant A avec un taux de défectueux
moyen de 2% et le fabricant B avec un taux de défectueux moyen de 5%. Si l'on contrôle un
échantillon de 200 boulons et que l'on trouve 4 défectueux, de quel fabricant provient
l'échantillon ?
Solution 1.6 :
a) Méthode : Méthode du maximum de vraisemblance.
b) Calcul :
Soit X le nombre de boulons défectueux. X est une variable aléatoire binomiale de paramètres
n=200 et p, où p est égale à 0.02 pour le fabricant A et 0.05 pour le fabricant B.
La loi de probabilité s'écrit :
P ( X = x ) = C 200
x
p x ( 1 − p ) 200− x
En raisonnant en termes de vraisemblance, il est donc plus vraisemblable que les boulons
proviennent du fabricant A.
12
L( X 1 ,..., X n ; *) L( X 1 ,..., X n ; ), .
n
Log e L( x 1 ,..., x n ; ) = Log P ( x i ; )
i =1 e
ou
n
Log e L( x 1 ,..., x n ; ) = Log f ( x i ; )
i =1 e
Log e L( x 1 ,..., x n ; )
= 0.
2 Log e L( x 1 ,..., x n ; )
0,
2
pour autant que cette dérivée existe.
En présence de plus d'un paramètre à estimer, l'équation doit être remplacée par des équations
simultanées de vraisemblance. Dans le cas de deux paramètres inconnus 1 et 2, comme les
paramètres et de la loi normale, on commence par annuler les deux dérivées partielles par
rapport à 1 et 2 (c'est-à-dire par rapport et dans le cas de la loi normale) suivantes :
Log e L( x 1 ,..., x n ; 1 , 2 ) Log e L( x 1 ,..., x n ; 1 , 2 )
et .
1 2
La procédure du maximum de vraisemblance possède plusieurs propriétés intéressantes.
13
Exemple 1.7 :
5 3 1 2 2 0 1 2 3 6
Solution 1.7 :
a) Méthode : estimation du paramètre de la loi de Poisson par la méthode du maximum de
vraisemblance.
b) Calcul :
e− x
La loi de probabilité est donnée par : P( X = x ) = x0
x!
e − xi
n n
La fonction de vraisemblance est : L( x1 ,..., x n ; ) = P( x i ; ) = .
i =1 i =1 x !
i
On cherche le maximum de la quantité :
n
Log e L( x 1 ,..., x n ; ) = ( − + x i Log − Log e x i ! ) .
i =1 e
i =1 x i .
n
Log e L( x1 ,..., x n ; )
= i =1 ( −1 + x i / ) = − n +
n
En annulant la dérivée, on obtient l'estimation ˆ au sens du maximum de
vraisemblance :
i =1 x i
n
Log e L( x1 ,..., x n ; )
= −n + =0
ˆ
xi
n
ˆ = i =1 =x
n
n
On peut vérifier que la dérivée seconde est toujours négative ( − − 2 x i ). La
i =1
Exemple 1.8 :
Soit X une variable aléatoire qui modélise le temps d'attente jusqu'au prochain appel au standard
téléphonique d'une société. La fonction de densité de X s'écrit :
f (x) = e − x pour x ≥ 0.
Déterminez l’estimation de au sens du maximum de vraisemblance en utilisant l'échantillon de
données ci-dessous ?
5.62 1.27 4.89 5.02 0.43 1.88 4.59 3.16 1.74 0.82
Solution 1.8 :
a) Méthode : estimation du paramètre de la loi exponentielle par la méthode du maximum
de vraisemblance.
b) Calcul :
e
n n − xi
La fonction de vraisemblance est : L( x 1 ,..., x n ; ) = f ( xi ; ) =
i =1 i =1
n
et son logarithme : Log e L( x 1 ,..., x n ; ) = ( Log − x i ) .
i =1 e
n
n / ˆ − xi = 0
i =1
ˆ = 1 / x .
On peut vérifier que la dérivée seconde est toujours négative (-n/²). La valeur ̂ est bien
un maximum. L'estimateur du maximum de vraisemblance de est G = 1 / X .
En utilisant l'échantillon de données, on obtient l'estimation :
ˆ = 1 / x =0.340 (min-1).
Soit X une variable aléatoire ayant une distribution donnée, continue ou discrète, dépendant
de k paramètres inconnus 1 , 2 , ..., k , et soit ( X 1 , X 2 , ..., X n ) un échantillon aléatoire de
taille n et ( x1 , x 2 , ..., x n ) les valeurs observées correspondantes.
La méthode des moments consiste à estimer les paramètres inconnus 1 , 2 , ..., k , en posant
l'égalité entre les k premiers moments observés (connus) de l'échantillon et les k premiers
moments (inconnus) correspondants de la population. Cette égalité se justifie par la loi des
15
grands nombres qui implique que plus l'échantillon est grand, plus on peut accorder de
confiance en estimant les moments théoriques par les moments observés.
Exemple 1.9 :
Soit X une variable aléatoire dont la fonction de densité de probabilité dépend du paramètre :
Déterminez l’estimation de par la méthode des moments sachant que les 12 observations
suivantes proviennent de la population concernée : 15 18 15 12 11 17 22 11 14 23 20 14
16 ?
Solution 1.9 :
a) Méthode : estimation du paramètre inconnu par la méthode des moments.
b) Calcul :
1
E( X) = xf ( x)dx =
0
0
xdx =
2
ˆ / 2 = x ˆ = 2x .
ˆ = 32 .
En utilisant les données de l'échantillon, on obtient :
1.5.1. Introduction
Dans les paragraphes précédents, nous avons vu comment obtenir des estimations
ponctuelles qui puissent être utilisées à la place du paramètre inconnu de la population.
Mais, dans la pratique, les chercheurs souhaitent aussi obtenir une estimation de la précision
de ce paramètre, car l'estimation ponctuelle peut être plus ou moins éloignée de la valeur de
. Cette précision peut être exprimée par un intervalle, appelé intervalle de confiance, qui
contiendrait le paramètre inconnu avec une très forte probabilité. Les limites G1 et G2 de
cet intervalle s'appellent les limites de confiance.
P (G 1 G 2 ) = 1 − .
où le paramètre est, comme nous le verrons au chapitre 2, un réel positif inférieur à 1 appelé
niveau de signification.
Dans ce cas, on dit qu’il y a (1-) % de chances que les limites G1 et G2 de l’intervalle
encadrent le vrai paramètre inconnu . Il sera incorrect de dire qu’il y a (1-) % de chances
16
que le vrai paramètre se trouve encadré par les limites de confiance G1 et G2, car le paramètre
inconnu est fixe et ce sont les limites de confiances qui sont des variables aléatoires.
Une estimation par intervalle de confiance sera d'autant meilleure que l'intervalle de confiance
sera petit.
Outre les données d’un échantillon de la population, le point de départ de la détermination de
l’intervalle de confiance sera la connaissance de la loi de probabilité de l’estimateur G du
paramètre à estimer .
Soit X une variable aléatoire normale de moyenne inconnue et de variance connue ² et soit
X un estimateur du paramètre inconnu . L’objectif est de déterminer les limites de
confiance X 1 et X 2 de l’intervalle qui a une probabilité importante de contenir le paramètre
.
Pour obtenir cet intervalle, on se fixe un degré de confiance 1- assez proche de 1,
généralement de 0.90, 0.95 ou 0.99. On peut donc écrire :
P (X1 X 2 ) = 1 − .
P( X − 1 ) = P( X + 2 ) = / 2
D’autre part, on sait que la variable X suit une loi normale de moyenne et de variance ², alors
la variable X suit elle aussi une loi normale de moyenne et de variance ²/n. Il en résulte :
1 X − 2 −X
P = P = / 2
/ n / n / n / n
1 2
P U 1 = P U 2 = / 2
/ n / n
17
1 2
P U 1 = P U 2 = 1 − / 2
/ n / n
1 2
= U 1− / 2 et = U 1 − / 2
/ n / n
On obtient :
1 = 2 = u 1 − / 2
n
x 1 = x − u 1 − / 2 et x 2 = x + u1− / 2
n n
L’intervalle de confiance de niveau de confiance 1− pour , lorsque ² est connue, s'écrit
donc :
x − u1− / 2 , x + u1− / 2
n n
Exemple 1.10 :
On s’intéresse au poids des œufs des poules pondeuses d’une race donnée. Sur un échantillon
aléatoire et simple de 12 œufs appartenant à des poules différentes, on a relevé les poids suivants
(en grammes) :
64.6 66.5 61.4 65.5 62.3 66.6 62.4 64.8 64.7 63.2 63.9 61.3
Déterminez l’estimation du poids moyen des œufs des poules de la race en question et son intervalle
de confiance au niveau de confiance 0.95, en supposant que la variance des poids dans la population
est de 3 g² ?
Solution 1.10 :
a) Méthode : détermination de l’intervalle de confiance de la moyenne lorsque l’écart-type est
connu (attention l’écart-type de la population est rarement connu dans la pratique (voir
chapitre 3)).
b) Conditions d’application :
ˆ = x = 63.93g
- les limites de confiance sont obtenues par :
On retient qu’il y a 95% de chances que les valeurs 62.95 et 64.91 g encadrent le vrai poids moyen
des œufs de la race étudiée.
u1− / 2 / n
u2 2
1− / 2
n
2
.
Souvent, la valeur de s’exprime en pour-cent de la moyenne. Autrement dit, si on parle de
de 10% de la moyenne, cela veut dire que = 0.10 .
19
Exemple 1.11 :
Reprenez l’exemple 1.10 où l’on s’intéresse à l’estimation du poids des œufs des poules pondeuses
d’une race donnée. Quelle est la taille minimale de l’échantillon d’œufs qu’il faut observer si l’on
veut estimer le poids moyen avec un intervalle de confiance dont la longueur est inférieure à 1.5 g ?
(prendre =0.05)
Solution 1.11 :
a) Méthode : détermination de l’effectif minimum de l’échantillon pour obtenir un intervalle de
confiance d’une longueur donnée.
b) Conditions d’application
- la population des poids des œufs est normale
- l’échantillonnage est aléatoire et simple
c) Calcul :
L
2u1− / 2 / n 1.5 c’est-à-dire n (2)(1.96)( 3 )/(1.5) .
1.6. CONCLUSION
Nous avons vu que les problèmes d'estimation ont pour but d'obtenir des estimations des
paramètres inconnus d'une population. Nous avons souligné l'existence de différentes
méthodes d’estimation tout en illustrant les méthodes du maximum de vraisemblance et des
moments par des exemples. La méthode des moindres carrés sera utilisée pour l'estimation de
paramètres pour des problèmes de régression (chapitre 9).
D’autre part, on est assez souvent confronté au choix du bon estimateur. A ce propos, il faut
signaler qu'on a généralement tendance à préférer l'estimateur non biaisé par rapport à
l'estimateur biaisé, alors qu'il existe, comme nous l'avons vu, plusieurs autres critères pour
caractériser un estimateur, notamment l’efficacité et la convergence.
Enfin, nous avons vu comment calculer, à partir d'un échantillon, les bornes d'un intervalle,
dit intervalle de confiance, dont on a une forte chance qu'elles encadrent le paramètre inconnu
de la population. Cette notion a été illustrée par l’intervalle de confiance de la moyenne
lorsque la variance de la population est connue. Les intervalles de confiance de bien d'autres
paramètres seront présentés en détail au fur et à mesure que nous avançons dans ce cours.
CHAPITRE 2
2.1. INTRODUCTION
Un test d'hypothèse est une démarche de l’inférence statistique dont le but est de contrôler la
validité d'une hypothèse relative à une ou plusieurs populations, dite hypothèse nulle,
considérée a priori comme vraie, et à admettre, lorsque les faits observés l'infirment, une autre
hypothèse, dite hypothèse alternative. L'hypothèse porte sur les valeurs vraies mais inconnues
des populations et les valeurs observées portent sur le (les) échantillon(s) servant à la tester.
Les expérimentateurs sont, en effet, souvent amenés à réaliser des tests d'hypothèses, en
souhaitant tester, à partir de l’observation d’un ou de plusieurs échantillons, la validité d’une
hypothèse relative à une ou plusieurs populations. Dans le cas, par exemple, de la comparaison
des teneurs moyennes théoriques en protéines sériques totales du sang chez des vaches adultes
indemnes et des vaches adultes malades, ces expérimentateurs peuvent déterminer, avec une
probabilité calculée par des méthodes de l’inférence statistique, si les différences de résultats
obtenues au niveau des échantillons sont suffisamment grandes pour annoncer que ces
échantillons proviennent de deux populations vraisemblablement différentes ou si elles ne sont
dues qu’au hasard. Ils ont avec précision la probabilité d'avoir rejeté à tort l'hypothèse nulle au
profit de l'hypothèse alternative.
Les tests d’hypothèses sont généralement réalisés pour rejeter une hypothèse donnée que pour
la démonter, mais cela ne veut pas dire que l’expérimentateur souhaite toujours la rejeter.
L'application de ces tests fait généralement appel à un certain nombre de conditions
d'application concernant la nature des populations dont proviennent les échantillons étudiés et
la méthode de prélèvement de ces échantillons. Selon le degré de non respect des conditions
d'application, la validité des résultats se trouve plus ou moins affectée. On définit alors ce qu'on
appelle la robustesse d'un test pour exprimer sa tolérance vis à vis du respect de ces conditions
d'application. Parmi les tests que nous présenterons dans les chapitres suivants, plusieurs
exigent la normalité des populations et le caractère aléatoire et simple des échantillons prélevés.
Dans ce chapitre, nous commencerons par définir le principe de réalisation d'un test
d'hypothèse. Nous verrons que cette réalisation se déroule pratiquement toujours selon les
mêmes étapes (paragraphe 2.2). Nous parlerons ensuite des principaux types de tests
d'hypothèses rencontrés dans la pratique par les chercheurs. Ceux-ci varient principalement
selon le problème posé, la nature des variables et les conditions de leur application (paragraphe
2.3). Enfin, pour illustrer la démarche d'un test d'hypothèse, nous considérerons comme
exemple la comparaison des moyennes de deux populations (paragraphe 2.4), sachant que nous
reviendrons plus en détail sur ce test fort intéressant au chapitre 3.
21
Il existe une suite logique d’étapes afin de réaliser un test d’hypothèse. Certaines de ces étapes
doivent être précisées avant même la collecte et la manipulation des données expérimentales
(étapes 1 à 3), les autres ne peuvent être réalisées qu’après le recueil des données. Avant d'entrer
dans les détails et l'explication des nouveaux termes dans les paragraphes qui suivent, voici, de
manière résumée, les différentes étapes qu'il est conseillé de suivre :
1- Formulez correctement, en relation avec la question posée, l’hypothèse nulle, notée H0,
que vous souhaitez tester. Précisez à ce niveau si le test est unilatéral ou bilatéral, en
définissant l’hypothèse alternative, notée H1 ;
4- Calculez, en utilisant les valeurs des échantillons, la valeur Sobs prise par la statistique S.
Cette quantité est appelée la valeur observée de S ;
5- Rejetez ou non l’hypothèse nulle après avoir comparé la valeur observée Sobs à la valeur
critique Scritique de la statistique S. Si l'hypothèse nulle est rejetée, vous déterminez ce
qu'on appelle le degré de signification ou la probabilité d'erreur ;
6- Faites une interprétation des résultats en relation avec le problème que vous avez posé
initialement (interprétations biologique, socio-économique, psychologique, etc.).
Les paragraphes suivants expliquent les nouveaux termes utilisés dans ces six étapes.
Un test d’hypothèse commence par une assertion ou une théorie qu’on souhaite tester.
Cela s’exprime par la formulation d’une hypothèse nulle et d’une hypothèse alternative.
La formulation de ces hypothèses nécessite une compréhension et une simplification du
problème posé.
Les données nous permettront de prendre une décision sur l’hypothèse nulle par référence à
l’hypothèse alternative. On dit qu’on teste l’hypothèse nulle contre l’hypothèse alternative. Ces
deux hypothèses jouent des rôles dissymétriques :
22
− L’hypothèse nulle, notée H0, est celle qu’on veut tester. Elle joue un rôle privilégié dans
le test. Elle est choisie par l’expérimentateur et sa formulation dépend du problème
posé ;
− L’hypothèse alternative, notée H1, est celle qui est admise lorsque l’hypothèse nulle est
rejetée. Elle change avec l’objet du test.
La formulation de l'hypothèse nulle est en effet souvent une interprétation de la question posée.
De plus, on est amené à formuler H0 de telle sorte que son rejet lorsqu’elle est correcte soit plus
grave que son acceptation lorsqu’elle est fausse.
Si l’on considère les deux hypothèses suivantes :
H 0 : Innocence d’un accusé et H 0' : Culpabilité d’un accusé
Quelle est l’hypothèse nulle qu’il serait plus grave de rejeter à tort. Autrement dit, est-il plus
grave de condamner un innocent ou d’acquitter un coupable ? Vous direz qu’il serait plus grave
de condamner un innocent.
De même, si l'on considère le risque de l’étudiant et le risque de l’enseignant, on peut se poser
la question : est-il plus grave de voir redoubler un étudiant qui mérite passer à la classe
supérieure ou de voir passer un étudiant qui doit refaire l'année ?
Exemple 2.1 :
On souhaite étudier le lien entre l'état de santé de vaches adultes (vaches saines et vaches atteintes
d'une maladie donnée) et la teneur en protéines sériques totales du sang. Comment formuler
l’hypothèse nulle ?
Solution 2.1 :
Dans cet exercice, on souhaite tester l'effet de l'état de santé des vaches sur la teneur en protéines
sériques totales du sang.
On a deux populations, l'une des vaches indemnes et l'autre des vaches atteintes. La variable est la
teneur en protéines sériques totales du sang (en g/l).
On pose l’hypothèse nulle :
Nous avons vu que l'hypothèse alternative H1 est une nouvelle hypothèse pour décrire la réalité
si l'hypothèse nulle H0 est fausse. La nature du problème posé détermine la façon de formuler
H1 et, par conséquence, la nature unilatérale ou bilatérale du test.
23
a) Test bilatéral
Un test est dit bilatéral lorsqu'on ne peut spécifier de direction particulière pour l'hypothèse
alternative. Dans ce cas, l'hypothèse nulle correspond le plus souvent à une égalité et
l'hypothèse alternative à une inégalité. On ne se préoccupe pas du signe ou du sens de la
différence.
Si l’on souhaite savoir si l’on peut affirmer par exemple que la production laitière moyenne
d’une race bovine est égale à 7500 kg par vache et par an, on peut écrire les deux hypothèses :
Hypothèse nulle H0 : A = 7500
Hypothèse alternative H1 : A
Ce test tel qu'il est formulé est dit bilatéral, car le plus important est que la production moyenne
diffère de la valeur 7500 kg, tout en étant plus grande ou plus petite.
Nous verrons plus loin que la zone de rejet de l'hypothèse nulle se fait de part et d'autre de la
distribution de probabilité de référence.
b) Test unilatéral
L’hypothèse alternative peut changer avec l’objet du test et elle peut ne pas correspondre à une
inégalité. On peut en effet spécifier une direction particulière pour l’hypothèse alternative et on
parle dans ce cas de test unilatéral.
Supposons que l’on s’intéresse toujours à la comparaison de la production laitière moyenne
d’une race bovine à la valeur de 7500 kg par vache et par an. On se pose la question si l’on peut
affirmer que la moyenne de la production laitière est supérieure à 7500 kg. Dans ce cas, les
deux hypothèses, nulle et alternative, s’écrivent :
Hypothèse nulle, H0 : A = 7500 ;
Hypothèse alternative, H1 : A .
Ce test est unilatéral, car le rejet de l’hypothèse nulle permet de conclure que la production
laitière moyenne de la race est supérieure à 7500 kg.
Nous verrons plus loin que la zone de rejet de l'hypothèse nulle est située d'un seul côté de la
distribution de probabilité de référence.
On choisit un test unilatéral lorsqu'on est sûr que le contraire est impossible.
Nous avons vu qu’un test d’hypothèse consiste à « trancher », au vu des résultats du ou des
échantillon(s), entre l’hypothèse nulle H0, considérée comme vraie a priori, et l’hypothèse
alternative H1. Le tableau 2.1 montre qu'il y a quatre situations à envisager :
− l'acceptation de l'hypothèse nulle alors qu'elle est vraie,
− le rejet de l'hypothèse nulle alors qu'elle est vraie,
− l'acceptation de l'hypothèse nulle alors qu'elle est fausse, et
− le rejet de l'hypothèse nulle alors qu'elle est fausse.
24
On constate alors que le hasard de l'échantillonnage peut fausser les conclusions dans deux de
ces situations :
− la première consiste à rejeter l’hypothèse nulle alors qu’elle est vraie ; c’est l’erreur de
première espèce ou l’erreur I ;
− la seconde est l’acceptation de l’hypothèse nulle alors que celle-ci est fausse ; c'est l’erreur
de deuxième espèce ou l’erreur II.
La probabilité qui correspond à l'erreur de première espèce est le risque de première espèce.
On la symbolise par (alpha) :
= P ( rejeter H 0 / H 0 vraie) ,
et la probabilité qui correspond à l'erreur de deuxième espèce est le risque de deuxième espèce.
On la symbolise par (bêta) :
= P (accepter H 0 / H 0 fausse) .
On retient donc que les tests statistiques répondent aux lois de probabilités et ils sont entachés
de risques d’erreur (prendre une décision, c’est "accepter les risques"). Si ces risques sont
connus, ils permettront d'apprécier la validité des conclusions.
a) La valeur de est fixée a priori par l’expérimentateur avant même la collecte des données.
Elle mesure l’importance de la preuve, plus est petit plus la preuve est forte et inversement.
Si on suppose que l’on effectue l’expérience un très grand nombre de fois, en admettant
comme risque de première espèce, on conclut à tort dans (*100) % des cas (c’est-à-dire dans
5% des cas si on considère un risque de 0.05).
Lorsque l’expérimentateur fixe la valeur de , il localise la région du rejet de l'hypothèse nulle.
La principale crainte de l’expérimentateur est en effet de conclure à tort à la validité de
l’hypothèse alternative. Le niveau de risque constitue le seuil de signification du test
d’hypothèse et permet de définir la condition de rejet de l’hypothèse nulle.
La valeur arbitraire de 5% (=0,05) est la plus communément admise par les expérimentateurs
comme seuil de signification pour tester l’hypothèse nulle. D’autres valeurs de sont
également d’usage courant : =0,10 (ou 10%), =0,01 (ou 1%) et =0,001 (ou 0,1%). On
doit garder à l’esprit que plus les conséquences du rejet à tort de l’hypothèse nulle sont graves,
plus la valeur de doit être petite. Mais, il ne faut pas perdre de vue que la diminution de la
valeur de entraîne l'augmentation de . Nous reviendrons sur ce sujet plus bas dans ce
paragraphe.
25
Lorsqu’on rejette l’hypothèse nulle au seuil , on dit que le test est significatif à (100) % (à
5% par exemple). Dans ce cas, il faut essayer de voir si on peut toujours rejeter l’hypothèse
nulle en prenant des valeurs de plus petites (comme =0,01 ou =0,001).
b) Nous devons, autant que possible, essayer de déterminer le risque d’accepter l’hypothèse
nulle lorsqu’elle est fausse, c'est-à-dire le risque de deuxième espèce (). La valeur de nous
permettra de calculer, comme nous le verrons au paragraphe suivant, la valeur de la puissance.
Généralement, le risque d’accepter l’hypothèse nulle lorsqu’elle est fausse () est plus grand
que le risque de la rejeter lorsqu’elle est en fait vraie ().
c) Pour un échantillon d'effectif donné, la valeur de est inversement reliée avec la valeur de
. Il n’est donc pas possible de vouloir déterminer les régions de rejet et d’acceptation pour
minimiser simultanément et . Plus petit sera le risque de commettre une erreur de première
espèce, plus grand sera le risque de commettre une erreur de seconde espèce. Généralement, les
expérimentateurs choisissent de maîtriser le risque , quitte à ignorer le risque
Pour réduire simultanément les deux risques d'erreur, on augmentera les effectifs des
échantillons. Nous reviendrons sur ce point précis dans les chapitres qui suivent.
Cette probabilité, qui reflète par exemple la capacité de détecter une différence réelle, s'appelle
la puissance du test. Il s’agit de la probabilité de rejeter H0 en ayant raison :
1 − = P ( rejeter H 0 / H 0 fausse)
On retient aussi que la puissance d’un test augmente avec la taille de l’échantillon.
Le calcul de la puissance d’un test est souvent une opération complexe, ce qui fait que
l'utilisateur se trouve fréquemment dans une situation de ne pas pouvoir calculer cette
puissance. La difficulté résulte essentiellement de l’hypothèse alternative qui est vague.
Pour comprendre les deux sortes de risques d’erreur et la puissance, considérons les hypothèses
nulle et alternative suivantes :
2.2.3.3. Exemple
1) Dans le cas d’un test bilatéral, les hypothèses nulle et alternative s’écrivent :
H 0 : M = S contre H 1 : M S .
Supposons que la teneur en protéines chez des vaches malades suit une distribution normale de
moyenne (M) et que la teneur en protéines chez les vaches saines suit une distribution normale
de moyenne (S) et que les deux distributions sont indépendantes et ont la même variance (²).
Supposons aussi que les teneurs en protéines moyennes chez les vaches malades et saines sont
égales, c'est-à-dire que l'hypothèse nulle H0 est vraie.
Dans ce cas, si l’on réalise une première expérience en prélevant un échantillon aléatoire et
simple de vaches malades et un autre échantillon aléatoire et simple de vaches saines, on peut
calculer la différence d1 entre les moyennes observées x M et x S des deux échantillons. Si on
réalise cette expérience un très grand nombre de fois, les différences observées d1, d2, … vont
se distribuer selon une loi normale de moyenne nulle. La distribution normale peut être réduite
en divisant les différences par leur écart-type.
On peut constater, d'après la figure 2.1, que certaines différences di peuvent être grandes en
valeur absolue. La probabilité d’apparition de ces différences est très faible puisqu’on a supposé
que les teneurs moyennes en protéines chez les vaches saines et les vaches malades sont égales.
Dans ces cas extrêmes, on rejette à tort l’hypothèse nulle. Le seuil de probabilité , dit aussi
risque de première espèce, est le risque de conclure faussement que les teneurs moyennes en
protéines chez les vaches saines et les vaches malades sont différentes, alors que l’existence de
cette différence n’est que le fait du hasard.
/2
/2
C1 C2
0
Figure 2.1. Distribution des différences des moyennes dans le cas de la comparaison de
deux moyennes et surface de rejet de H0 (en hachuré) : cas du test bilatéral.
27
Le test étant bilatéral, il y a eu donc deux surfaces de rejet situées, comme le montre la figure
2.1, aux deux extrémités de la distribution et chacune a une aire de /2. C1 et C2 représentent
les valeurs critiques des différences qui spécifient les limites des zones de rejet de l'hypothèse
nulle.
Si l'on fixe à 5% et si l'hypothèse nulle est vraie, on retient qu'une différence di entre les deux
moyennes se situe dans la zone critique (zone de rejet) dans 5% des cas.
2) Si l'on prévoit que la teneur moyenne en protéines sériques est plus élevée chez les vaches
malades, les hypothèses nulle et alternative s’écrivent :
H 0 : M = S contre H1 : M S .
Dans ce cas, le test est unilatéral et le risque ne se trouve qu’à une seule extrémité de la
distribution. Il y a une seule surface de rejet dont l’aire est égale à et représentée en hachuré
à la figure 2.2.
0 C
Figure 2.2. Distribution des différences des moyennes dans le cas de la comparaison de deux
moyennes et surface de rejet de H0 (en hachuré) : cas du test unilatéral.
3) Dans les deux cas, si la différence observée entre les deux moyennes n’appartient pas à la
zone du rejet, c’est-à-dire sa probabilité de réalisation est supérieure à , on ne rejette pas
l’hypothèse nulle et on dit que le test n’est pas significatif. Dans le cas contraire, c'est-à-dire si
la différence observée entre les deux moyennes appartient à la zone du rejet, on dit que le test
est significatif.
Supposons maintenant que l’hypothèse nulle est fausse, c’est-à-dire que la différence théorique
M-S est égale à la valeur qui est différente de zéro.
Dans les conditions de la normalité et de l'indépendance des deux populations et si l'on répète
l'expérience un nombre élevé de fois, les différences obtenues des différentes expériences vont
se distribuer cette fois selon une loi normale de moyenne . La distribution normale peut être
réduite en divisant les différences par leur écart-type. Cette situation est illustrée à la figure 2.3
par la distribution H1, tout en gardant la distribution sous H0 de la figure 2.2 où l'on a considéré
que le test est unilatéral.
28
Nous ne connaissons pas la distribution sous H1, car nous ne connaissons pas . Nous l'avons
placée à droite de la distribution sous H0, car nous avons estimé que les vaches malades ont une
teneur plus élevée en protéines sériques.
H0 H1
1-
1-
0 C1
Zone de non rejet de H0 Zone de rejet de H0
Zone de rejet de H1 Zone de non rejet de H1
Figure 2.3. Distributions des différences des moyennes dans le cas où les deux moyennes
sont égales (H0) et dans le cas où elles sont différentes (H1).
On voit qu’il y a un risque d’accepter l’hypothèse nulle alors qu’elle est fausse (aire en
pointillée) : c’est le risque de deuxième espèce. Il s’agit de la probabilité de ne pas déceler
une différence qui, en réalité, existe. C'est le cas lorsque les deux moyennes sont différentes
mais la valeur de la différence di n'était pas suffisamment grande pour rejeter l'hypothèse nulle.
On peut aussi voir sur la même figure qu'une diminution du risque de première espèce
s'accompagne d'une augmentation du risque de seconde espèce et donc d'une diminution de
la puissance du test.
Pour réaliser un test statistique, on utilise une statistique S pour contrôler l’hypothèse nulle.
C’est une fonction des variables aléatoire représentant l’échantillon dont on connaît la loi de
probabilité quand l’hypothèse nulle est vraie et qui permettra de prendre une décision à propos
de l’hypothèse nulle. La statistique S peut être une variable aléatoire normale, de Student (t),
Khi carrée ( 2 ), F de Snedecor, etc.
Le choix de la statistique S dépend, entre autres, du type de l’hypothèse à tester, de la nature
des données (quantitatives, semi-quantitatives, qualitatives) et parfois aussi de l’importance des
effectifs des échantillons et de la vérification ou non de certaines conditions relatives aux
populations étudiées (normalité, égalités des variances, etc.). Nous reviendrons longuement sur
ce sujet dans les prochains chapitres de ce document.
29
Les observations obtenues des échantillons apportent ou non la preuve que l’hypothèse nulle
doit être rejetée. On rejette ou non l’hypothèse nulle après avoir comparé les valeurs observée
(Sobs) et critique (Scritique) de la statistique S :
En effet, l’acceptation de l’hypothèse nulle permet de dire que les observations recueillies ne
montrent pas que H0 est fausse. Autrement dit, rien ne s’est produit qui permette de la mettre
en doute. Il ne faut pas en déduire automatiquement que H0 est vraie, sans avoir pris
connaissance du risque de deuxième espèce () ou de la puissance (1-). Si la valeur de est
égale à 0,52 par exemple, cela veut dire qu’on a 52% de chance de se tromper en déclarant que
l’hypothèse nulle est vraie, la puissance n’étant que de 48% dans le cas de cet exemple.
Selon le problème posé, on peut distinguer différents types de tests. On peut citer les tests de
conformité, les tests d’égalité, les tests d’ajustement, les tests d’indépendance, etc. L'objectif
de ce paragraphe est de donner une idée générale des plus connus d'entre eux, sachant qu'ils
seront vus en détail dans les autres chapitres.
Le but de ce test est de vérifier si une population possède une valeur spécifiée d’un paramètre
statistique. Ce paramètre peut être la moyenne, la variance, le coefficient de régression, etc.
Exemple :
a) H 0 : = 7500 kg contre H 1 : 7500 .
L'hypothèse nulle H 0 signifie par exemple que la production laitière théorique de la population
est de 7500 kg par vache et par an et l'hypothèse nulle H '0 signifie par exemple que la
concentration en un élément chimique donné augmente théoriquement de 4.5 milligrammes par
heure.
Le but est de comparer deux ou plusieurs populations vis-à-vis d’un paramètre statistique.
Ce paramètre peut être la moyenne, la variance, le coefficient de régression, etc.
Exemple :
a) H 0 : 1 = 2 = 3 contre H 1 : au moins une moyenne est différente des autres
b) H '0 : y .x = 'y .x contre H 1' : y .x 'y .x
L'hypothèse nulle H 0 signifie que les moyennes théoriques des trois populations sont égales
(exemple : productions laitières de trois races bovines) et l'hypothèse nulle H '0 signifie que les
coefficients de régressions théorique des deux populations sont égaux (le pourcentage de
germination par jour d’une espèce végétale augmente de la même manière dans deux localités
différentes).
Le but est de vérifier si un échantillon peut être considéré comme extrait d’une population ayant
une distribution donnée.
Exemple :
a) H0 : la population est normale contre H1 : la population n’est pas normale
b) H'0 : la population est binomiale contre H'1 : la population n’est pas binomiale
Dans le cas de H0, on peut considérer l’exemple d’une machine qui remplit les caisses de farines
en se posant la question si le remplissage se fasse selon une loi de Gausse de moyenne 50 kg.
31
b) H'0 : il y a indépendance entre la filière de formation suivie par les étudiants et la catégorie
socioprofessionnelle de leurs pères
H'1 : il n’y a pas d’indépendance entre ces deux critères.
2.4.1. Enoncé
Les teneurs du sang en bêta globulines de 10 bovins non gestantes et de 10 bovins au huitième
mois de gestation sont données dans le tableau 2.2 (en g/l). Les deux échantillons sont
indépendants et prélevés de manière aléatoire et simple parmi les bovins adultes de la même
race. Toutes les données concernent des vaches différentes. Peut-on affirmer, au seuil =0,05,
que la gestation influence les teneurs en bêta globulines ?
Tableau 2.1. Teneurs en bêta globulines obtenues pour l’échantillon de vaches gestantes et
l’échantillon de vaches non gestantes.
Vaches non gestantes 7.6 7.7 6.7 9.5 8.4 9.8 7.9 7.3 9.4 7.8
Vaches gestantes 10.2 8.6 8.8 8.0 7.4 9.7 9.8 8.7 9.1 6.7
Pour simplifier, nous considérons que les variances des deux populations sont égales et
connues (²=1 (g/l)²), ce qui est rarement le cas dans la pratique. Au chapitre suivant, nous
traiterons le même type de problèmes sans cette hypothèse contraignante.
2.4.2. Solution
Dans cet exercice, on souhaite savoir si l'on peut affirmer que les teneurs du sang en bêta
globulines sont les mêmes chez les vaches non gestantes et les vaches au huitième mois de
gestation. Pour ce faire, on va utiliser des données de deux échantillons de vaches pour tester
l’hypothèse sur les deux populations. On a utilisé deux échantillons de dix observations chacun.
b) Conditions d’application :
- Pour chaque population, on suppose que la teneur du sang en bêta globulines suit une
distribution normale ;
32
- Chaque échantillon de 10 vaches est prélevé de manière aléatoire et simple dans chaque
population ;
- Les deux échantillons sont indépendants (pas de relation entre vaches gestantes et vaches
non gestantes) ;
- Les deux populations ont la même variance 2 .
c) Hypothèses nulle et alternatives :
H0 : n = g contre H1 : n g
d) Raisonnement :
Soient :
xn : la moyenne de l’échantillon des 10 vaches non gestantes
xg : la moyenne de l’échantillon des 10 vaches gestantes
On pense que si n et g sont égales il y a une forte probabilité que x n et x g soient proches.
D’autre part :
− x n est associée à la variable X n , cette variable suit une distribution normale de moyenne
n et d’écart-type / n ;
− x g est associée à la variable X g , cette variable suit une distribution normale de moyenne
g et d’écart-type / n .
2 2 / n
suit une distribution normale centrée et réduite.
P Xn − X g x n − x g
Or, on a :
33
P Xn − Xg xn − x g = P U x −2 xn n g
xn − xg
= 2P U
2n
x n − x g
= 21 −
2 n
ce qui donne :
xn − xg
1−
2n 2
ou encore :
xn − xg
U 1− .
2n 2
La quantité :
xn − xg
U obs =
2n
est appelée la valeur observée de la statistique U. On vient donc de démontrer que l’hypothèse
nulle est rejetée, au niveau de signification , lorsque :
U obs U 1− .
2
Reprenons l’exemple précédent sachant que l’écart-type vaut 1 g/l. En comparant les valeurs
observée et théorique de la statistique U, on a, pour =0.05 :
x1 − x 2 8.700 − 8.210
U obs = = = 1.096
2n 2 / 10
et U0,975 = 1,96 . On est donc amené à ne pas rejeter l’hypothèse nulle, car la valeur observée
U obs est inférieure à la valeur théorique U1− / 2 .
On peut passer par le calcul de la probabilité d’observer une différence qui est au moins égale
à x n − x g = 8.700 − 8.210 = 0.49 g/l. On a :
P X n − X g 0.49 = P U
0.49
= 21 − (1.096)
2 10
= 2(1-0.8634) = 0,273 ou 27%.
Il ressort qu’on a 27 chances sur 100 d’obtenir, par le simple fait du hasard, une différence au
moins aussi importante entre les deux moyennes observées. On n'a pas pu mettre en évidence
34
des différences significatives, mais n'oublions pas que l'effectif est petit. Il se peut qu'il ne soit
pas suffisant pour montrer que l'hypothèse nulle est fausse.
2.4.3. Remarque
H0 : 1 = 2 contre H1 : 1 2 .
P X 1 − X 2 x1 − x 2 .
On a :
x − x2 x − x2
P X 1 − X 2 x 1 − x 2 = P U 1 = 1 − 1
2n
,
2 n
ce qui donne :
x1 − x 2
1−
2n
ou encore :
x1 − x 2
U 1− .
2n
H0 : 1 = 2 contre H1 : 1 2 .
H 0 : 1 = 2
x1 − x 2
Calculer la valeur observée : U obs =
2n
a) Si H 1 : 1 2 , rejeter H 0 lorsque : U obs U 1−
2
b) Si H 1 : 1 2 , rejeter H 0 lorsque : U obs U 1−
c) Si H 1 : 1 2 , rejeter H 0 lorsque : U obs − U 1−
35
Attention : en plus des conditions d’application classiques, ce test est appliqué lorsque la
variance 2 est connue. Sinon, les effectifs doivent être suffisamment grands.
Remarque : le chapitre 3 traitera le cas où la variance ² n’est pas connue.
2.5. CONCLUSION
Nous avons vu qu'un test statistique est un procédé de l’inférence statistique dont le but est de
tester si une hypothèse est vraie ou fausse afin d’appréhender la réalité que l’on ne connaît pas.
La formulation de l'hypothèse nulle est souvent une interprétation de la question posée.
Cette hypothèse est privilégiée par rapport à l'hypothèse alternative. Le test se réalise, comme
nous l'avons vu, en suivant une succession d'étapes bien définies et il exige parfois la
vérification au préalable d'un certain nombre de conditions d'application. A ce propos, nous
avons mentionné la robustesse d'un test en disant qu'un test est plus ou moins robuste en
fonction de sa tolérance vis à vis du respect de ces conditions
Nous avons aussi souligné que le raisonnement est statistique, on ne peut donc jamais être
certain que notre décision d'accepter ou de rejeter l'hypothèse nulle reflète correctement la
réalité. Ceci est dû à deux types d'erreurs, l'un dit de première espèce et l'autre de seconde
espèce. Nous avons vu au travers de l'exemple de la comparaison de deux moyennes que le
premier consiste à conclure faussement à l'existence d'une différence et le second à ne pas
déceler une différence existante. Nous avons vu que les deux types de risques sont liés. Il y a
donc lieu de tenir compte de l'importance relative de chaque type d'erreur pour l'étude menée.
Dans la pratique cependant, bon nombre de chercheurs s'attachent à contrôler le risque de
première espèce en le fixant le plus souvent à 5% ou 1% et ont donc souvent tendance à ignorer
le risque, pourtant important, de commettre une erreur de seconde espèce. Cette attitude est
compréhensible pour les problèmes relativement compliqués, mais, pour d'autres problèmes,
des approches et des logiciels statistiques sont disponibles dans la littérature statistique et le
commerce pour le calcul du risque de seconde espèce.
Enfin nous avons défini la puissance comme étant la probabilité de rejeter l'hypothèse nulle
lorsqu'elle est fausse. Nous avons souligné que le non rejet de l'hypothèse nulle peut être due
au fait que cette hypothèse est vraie ou que la puissance du test n'est pas suffisante. Ainsi, il est
souvent question de vouloir calculer un effectif nécessaire pour obtenir une puissance donnée.
CHAPITRE 3
3.1. INTRODUCTION
Les méthodes relatives aux moyennes se comptent parmi les plus simples et les plus utilisées
par les expérimentateurs pour analyser des données quantitatives. La plupart du temps, il s'agit
d'obtenir des intervalles de confiance et de réaliser des tests d'hypothèses sur les moyennes de
populations.
Nous avons déjà entamé cette inférence lorsqu'on a calculé l'intervalle de confiance et comparé
deux moyennes en considérant que les écarts-types des populations sont connus (cf.
paragraphes 1.5 et 2.4). Mais, souvent dans la pratique, l'expérimentateur ne connaît pas les
écarts-types des populations et il est amené à les estimer à partir des données expérimentales.
Ce chapitre est d'abord consacré à l'étude de l'inférence relative à une moyenne lorsque l'écart-
type est inconnu. Nous verrons comment obtenir une estimation de la moyenne théorique de la
population et l'entourer de limites de confiances. C'est le cas par exemple lorsqu'on souhaite
estimer la teneur en protéines sériques chez des vaches gestantes de huit mois en observant un
échantillon aléatoire et simple de vaches sélectionnées dans la population étudiée et chercher
les limites de confiance dont on a de fortes chances de croire qu'elles encadrent la vraie teneur
moyenne. Nous verrons aussi comment tester si une moyenne théorique est inférieure, égale
ou supérieure à une valeur de référence donnée. C'est le cas par exemple lorsqu'on désire tester
si le gain de poids de taurillons recevant une alimentation spécifiée est au moins égal à une
valeur de référence donnée (paragraphe 3.2).
Il s'intéresse ensuite à évaluer les différences entre les effets de deux traitements (groupes). Ce
problème est très fréquent en recherches scientifiques, notamment en sciences agronomiques,
en médecines humaine et vétérinaire et en industrie agro-alimentaire. Les deux groupes
peuvent être formés naturellement ou expérimentalement. Nous verrons qu'il est primordial de
distinguer entre deux classes de tests selon que les deux échantillons sont indépendants ou
associés par paires. C'est le cas par exemple lorsqu'on désire tester si deux méthodes de dosage
de la teneur en albumine sérique de bovins donnent les mêmes résultats, en dosant un certain
nombre de prélèvements par les deux méthodes. L'objectif étant de voir si la différence entre
les moyennes observées est due à une vraie différence des effets des deux méthodes. Ce genre
de problèmes sera étudié au paragraphe 3.3.
Ce chapitre se termine par la présentation des principales méthodes non paramétriques qui
peuvent être utilisées lorsque certaines conditions d'application des tests paramétriques sont
loin d'être vérifiées (paragraphe 3.4).
38
Tableau 3.1. Gains de poids (en grammes) d'un échantillon de 12 dindons recevant une alimentation
standard avec un additif A.
Numéro 1 2 3 4 5 6 7 8 9 10 11 12
Poids 2740 3110 2770 3250 3160 3020 2990 3170 3150 2990 2760 3150
Nous savons qu'on peut utiliser la variable X pour avoir de l'information sur la moyenne
inconnue de la population et nous savons aussi que lorsqu'un échantillon de taille n est
prélevé de manière aléatoire et simple dans une population distribuée selon une loi normale de
moyenne et de variance ², la statistique X est distribuée selon une loi normale de moyenne
et de variance ²/n.
La variable X a une plus grande chance d'être proche de la moyenne de la population qu'il
ne l'est une observation quelconque de l'échantillon, et plus la taille de l'échantillon est grande
plus on a tendance à cerner la moyenne
ˆ = x (3.1)
Pour obtenir ces limites X 1 et X 2 , il faut se rappeler que dans les conditions de la normalité de
la population et de l'indépendance des observations, la quantité :
X−
U= (3.2)
/ n
est une variable aléatoire normale centrée et réduite, c’est-à-dire de moyenne 0 et de variance 1.
Toutefois, cette expression que nous avons utilisée au paragraphe 2.4 suppose que l'on connaisse
la variance de la population, ce qui est assez rare dans la pratique. C'est pourquoi, on cherche
plutôt à estimer la variance de la population en utilisant la variance de l’échantillon s² selon la
relation suivante :
ns 2 SCE
ˆ 2 = = . (3.3)
n−1 n−1
On s’attend à ce que l’intervalle de confiance de soit plus large par rapport au cas où la
variance de la population est connue et, ce, à cause de l’erreur qui peut être déduite de
l’estimation de ². Dans ce cas, si la population est normale, un échantillon aléatoire et simple
permet de formuler la quantité :
X −
t= (3.4)
ˆ / n
qui suit une distribution t de Student à k=n-1 degrés de liberté. Les limites de confiance peuvent
être déterminées, en se fixant un degré de confiance 1- assez proche de 1 :
P (X 1 X 2 ) = 1 − .
On peut donc utiliser la table statistique pour calculer la valeur t 1− / 2 de telle sorte qu’il y ait
une probabilité 1- qu’une valeur t tirée au hasard se situe entre − t 1− / 2 et + t 1− / 2 .
Autrement dit, il y a (1-) de chance que :
X −
− t1− / 2 t1− / 2 .
ˆ / n
Si l'on dispose d'un échantillon aléatoire et simple de n valeurs, on obtient par un simple calcul :
x1 = x − t 1− / 2ˆ / n
(3.5)
x 2 = x + t 1− / 2ˆ / n
Lorsque l'effectif de l'échantillon est grand, on peut utiliser la même expression 3.5 en
remplaçant la distribution t de Student par la distribution normale réduite. Cette approximation
est généralement utilisée lorsque l'effectif de l'échantillon atteint une trentaine d'observations
(n30).
Exemple 3.1
Reprenez les données du tableau 3.1 et cherchez une estimation du gain moyen de poids de la population
des dindons recevant l'alimentation en question et son intervalle de confiance (prendre un degré de
certitude de 95%) ?
Solution 3.1
a) Méthode : estimation et intervalle de confiance d'une moyenne, la variance est inconnue
b) Conditions d'application :
- L'échantillon des douze dindons est prélevé de manière aléatoire et simple dans la population des
dindons ayant les mêmes caractéristiques ;
- La distribution de la population des gains de poids est normale : Nous verrons le test de la normalité
sur un petit échantillon dans le chapitre « Tests d’ajustement ».
c) Calcul
La moyenne de la population est estimée par :
Il y a 95% de chance que les valeurs 2909 et 3135 g encadrent le gain de poids moyen théorique .
Remarque
Souvent, on est amené à estimer la taille de l’échantillon minimum n pour estimer la moyenne
de la population avec une précision donnée. Cette précision peut être exprimée, entre autres,
en termes d'intervalle de confiance. On peut par exemple chercher à estimer la moyenne avec
une marge d'erreur d fixée par l'expérimentateur.
xd.
A. Hamouda (IAV Hassan II) 41
où l'estimation de la variabilité dans la population ̂ 2 peut être tirée d'une étude préliminaire
sur une population similaire ou d'un échantillonnage pilote, même d’un effectif très réduit.
Souvent le chercheur prend la valeur 4 pour t12− / 2 .
t 12− / 2 cv 2
n (3.8)
d r2
Exemple 3.2
On désire obtenir une estimation du gain de poids moyen de la population de dindons nourris par une
alimentation standard avec l'additif A (cf. paragraphe 3.2), en lui donnant un intervalle de confiance. On
se demande quelle est la taille minimum de l'échantillon si l'on souhaite que la demi-longueur de cet
intervalle soit ≤ 70 g.
Solution 3.2
a) Méthode : détermination de l'effectif de l'échantillon pour estimer la moyenne avec une précision
donnée.
b) Conditions d'application :
- la distribution de la population des gains de poids est normale
- l'échantillon prévu est aléatoire et simple
c) Calcul
Pour pouvoir estimer l'effectif minimum, on doit disposer d'une estimation de la variance ou de l'écart-type
des gains de poids. On peut utiliser l'estimation de l'écart-type obtenue à partir de l'échantillon de données
du tableau 3.1, soit ˆ = 178 g .
L'objectif de ce test est de vérifier si la moyenne théorique d'une population est égale à une
moyenne hypothétique 0 (une constante). L'hypothèse nulle s'écrit :
H 0 : = 0 (3.9)
a) H 1 : 0
b) H 1' : 0
c) H 1" : 0 .
En disposant d'un échantillon aléatoire et simple tiré dans la population, le test consiste, sous la
condition de la normalité, à calculer la valeur observée de la variable t de Student :
x − 0
t obs = (3.10)
ˆ / n
et, pour un niveau de signification on est amené à :
a) rejeter H 0 en faveur de H 1 si t obs t 1−
b) rejeter H 0 en faveur de H 1' si t obs − t 1−
c) rejeter H 0 en faveur de H 1" si t obs t 1− / 2
Exemple 3.3
Reprenez l'exemple de l'élevage des dindons. Dans le passé, les dindons recevant une alimentation
standard montraient pour une même période et dans les mêmes conditions un gain moyen de poids de
2900 grammes. En utilisant les données du tableau 3.1, peut-on affirmer que le gain moyen de poids
théorique des dindons recevant cette alimentation avec l'additif A est supérieur à 2900 grammes.
Solution 3.3
a) Méthode : test de conformité d'une moyenne
b) Conditions d'application :
- la distribution de la population des gains de poids des dindons est normale
- l'échantillon des 12 dindons est prélevé de manière aléatoire et simple
c) Hypothèses
H 0 : = 2900 g contre H 1' : 2900 g
A. Hamouda (IAV Hassan II) 43
d) Calcul
3021.67 − 2900
t obs = = 2.372 ou 2.37.
177.65 / 12
Pour un risque de 5%, cette valeur est supérieure à la valeur de t de Student à 11 degrés de liberté
(𝒕𝟏−𝜶 = 𝟏. 𝟕𝟗𝟔), ce qui conduit au rejet de l'hypothèse nulle. Voyons si on peut rejeter Ho au niveau
de signification 1% : on a 𝒕𝟏−𝜶 = 𝟐. 𝟕𝟏𝟖, ce qui conduit au non rejet de Ho. On conclut donc que le
test est significatif.
Remarque : les logiciels statistiques nous fournissent le degré de signification désigné souvent par p-
value (cf. paragraphe 2.2.7) Nous avons signalé que plus p-value est petit, plus confortable est la
conclusion de rejeter l'hypothèse nulle. La valeur de p-value, qui est ici égale à 0.019, est inférieure à
=0.05, mais supérieure à 0.01. H0 est donc rejetée au niveau 0.05 et pas au niveau 0.1.
Cette probabilité p-value peut être aussi obtenue par le tableur Excel en utilisant la fonction Loi.Student
(2.372 ; 11 ; 1), où 11 représente le nombre de degrés de liberté et 1 indique que le test est unilatéral
(on peut aussi utiliser Loi.Student.Droite (2.372 ; 11)).
Conclusion : En prenant un risque de 5%, on peut conclure que le gain moyen de poids des dindons
recevant la nourriture en question avec l'additif A est supérieur à 2.9 kg.
3.3.1. Généralités
On s'intéresse dans ce paragraphe aux moyennes de deux populations, ce qui est souvent plus
intéressant puisque l'expérimentateur cherche généralement à évaluer les différences entre les
effets de deux traitements. L'hypothèse à tester est que la différence entre les moyennes des
deux traitements est égale à une constante. Dans la plupart des applications, cette constante est
égale à zéro, ce qui permet de tester si les deux moyennes théoriques sont égales.
Pour tester l'hypothèse d'égalité de deux moyennes, nous distinguerons deux situations que
nous exposerons en détail dans les paragraphes 3.3.2 et 3.3.3 :
1. La première situation concerne deux échantillons prélevés indépendamment l'un de l'autre,
chacun étant prélevé dans une population. Autrement dit, une observation quelconque
relative à un échantillon n'est en aucune manière liée à une autre observation de l'autre
échantillon (paragraphe 3.3.2) ;
2. La deuxième situation concerne deux échantillons dépendants (dits aussi associés par paires
ou par couples). Dans ce cas, chaque observation du premier échantillon est liée à une
observation du second échantillon. Il s'agit le plus souvent d'observations obtenues sur les
mêmes unités, mais nous verrons que ce n'est toujours pas le cas (paragraphe 3.3.3).
La confusion entre ces deux situations est une erreur, car le test statistique à utiliser dans le cas
de chacune d'elles est différent de l'autre. Chacun de ces deux tests exige la normalité.
Considérerons deux populations dont les moyennes sont 1 et 2 , et plaçons-nous dans les
conditions de la normalité et de l'échantillonnage aléatoire et simple. La variable X 1 − X 2 suit,
en vertu des propriétés de la distribution normale, une distribution normale de moyenne
1 - 2 et de variance 2X − X .
1 2
44
Le plus souvent, on ne connaît pas la variance de la différence entre les deux moyennes
2X − X . On est en effet amené à utiliser une estimation ˆ 2X − X .
1 2 1 2
Pour tester l'hypothèse d'égalité des moyennes des deux populations, on utilise un critère de la
forme :
(𝐗̄ 𝟏 −𝐗̄ 𝟐 )−(𝛍𝟏 −𝛍𝟐 )
𝐓= (3.11)
𝛔
̂𝐗̄ −𝐗̄
𝟏 𝟐
Reprenons l'exemple des gains de poids de dindons du paragraphe 3.2. L'expérience avait pour
objet, en effet, de comparer deux alimentations : une alimentation standard en y ajoutant un
additif A et la même alimentation standard en y ajoutant un additif B.
Le tableau 3.2 reprend les données du tableau 3.1 en présentant également les valeurs obtenues
pour un échantillon de 10 dindons nourris avec l'alimentation standard à laquelle on a ajouté
l'additif B. Les 22 dindons sont élevés dans les mêmes autres conditions et ils avaient, au début
de l'expérience, à peu près le même poids.
Ici, on souhaite savoir si l'on peut dire qu'il existe une relation entre la croissance des dindons
et les deux alimentations (deux traitements/deux groupes). Si cette relation existe, cela veut dire
qu'une alimentation entraîne une croissance plus importante que l'autre ou encore qu'il y a un
effet alimentation.
Tableau 3.2. Gains de poids (en grammes) de deux échantillons de dindons recevant deux
alimentations différentes (Alim + additif A et Alim + additif B).
Alim + additif A 2740 3110 2770 3250 3160 3020 2990 3170 3150 2990 2760 3150
Alim + additif B 2710 2910 2640 2900 2960 2990 2840 2920 2610 2790
Considérerons deux populations normales dont les moyennes sont 1 et 2 et les variances
sont 12 et 22 . De chacune de ces populations, on suppose disposer d'un échantillon aléatoire
et simple, les effectifs des deux échantillons étant n 1 et n 2 .
Lorsque les variances des deux populations sont égales ( 12 = 22 ) , on peut obtenir différentes
estimations de la variance commune des deux populations. La plus utilisée de ces estimations
est l'estimation de la variance combinée1 ou conjointe qui est donnée par la relation :
1
En anglais : pooled variance.
A. Hamouda (IAV Hassan II) 45
1 1 SCE 1 + SCE 2 1 1
ˆ 2X = ˆ p2 + = + . (3.13)
1 − X2
n1 n 2 n1 + n 2 − 2 n1 n 2
Dans ces conditions, la quantité T de l'expression (3.11) suit, lorsque l’hypothèse d'égalité des
deux moyennes théoriques est vraie, une distribution t de Student à n 1 + n 2 -2 degrés de liberté.
SCE 1 + SCE 2 1 1
( x1 − x 2 ) t 1− / 2 + (3.14)
n1 + n 2 − 2 n1 n 2
Si les effectifs des deux échantillons sont égaux ( n 1 = n 2 =n), l'expression (3.14) se
simplifie pour donner :
SCE 1 + SCE 2
( x1 − x 2 ) t 1− / 2 (3.15)
n(n − 1)
L'objectif est, d'une manière générale, de tester si la différence entre les moyennes de deux
traitements est égale à une certaine constante. L'hypothèse nulle s'écrit :
H 0 : 1 - 2 = d 0 (3.16)
où la constante d0 est le plus souvent égale à zéro. L'hypothèse nulle est testée contre l'une ou
l'autre des trois hypothèses alternatives usuelles suivantes :
a) H 1 : 1 − 2 d 0
b) H 1' : 1 − 2 d 2
c) H 1" : 1 − 2 d 0
46
Lorsque l'hypothèse nulle est vraie, le critère T de l'expression 3.11 suit une distribution t de
Student pour des échantillons prélevés de populations normales de variances inconnues mais
égales. Le test consiste à calculer la valeur observée de la variable t de Student :
x1 − x 2 − d 0
t obs = (3.17)
SCE 1 + SCE 2 1 1
+
n1 + n 2 − 2 n1 n 2
Ce test est appelé test t de Student ou de Student-Fisher1. On constate que la décision du test
dépend de l’hypothèse alternative. Si on opte pour un test unilatéral, il ne sera pas possible
d'identifier de différence significative dans le sens opposé à celui qui a été prédit.
Exemple 3.4
Reprenez les données des deux échantillons de dindons (tableau 3.2) et testez si l'on peut admettre qu'il
existe un effet alimentation significatif en prenant un risque de 5%.
Solution 3.4
a) Méthode : comparaison de deux moyennes théoriques, cas de deux échantillons indépendants
b) Conditions d'application
- Les deux échantillons de dindons sont aléatoires, simples et indépendants (aucun lien entre les
dindons des deux échantillons) ;
- Les distributions des deux populations sont normales et possèdent la même variance 2
(nous verrons comment tester l’égalité des variances au chapitre 4).
c) Hypothèses
H 0 : 1 − 2 = 0 (absence d'effet alimentation)
Puisque la valeur absolue de cette valeur observée dépasse la valeur critique à 20 degrés de liberté
( t 0.975 = 2.086 ), l'hypothèse nulle doit être rejetée. La p-value qui peut être obtenue par un logiciel
statistique (p= 0.010) est inférieure à =0.05.
Conclusion : En prenant un risque de 5%, on conclut à des différences significatives entre les deux gains
moyens de poids. Le gain de poids avec l'alimentation standard en y ajoutant l'additif A est plus important.
1
En anglais : two- sample t-test
A. Hamouda (IAV Hassan II) 47
Lorsque les effectifs des deux échantillons sont égaux, l'expression (3.17) se simplifie :
x1 − x 2 − d 0
t obs = . (3.18)
SCE 1 + SCE 2
n(n − 1)
3.3.2.2.1. Généralités
L'estimation conjointe des variances n'est en effet pas valide et les degrés de liberté sont trop
importants, ce qui a pour conséquences de donner des résultats « trop » significatifs. Le test t
de Student est d'autant plus vulnérable à l'hétéroscédasticité (inégalité des variances) que les
effectifs des deux échantillons sont différents et que l'effectif le plus petit est associé à la
variance la plus grande.
Dans la pratique, si les deux effectifs sont égaux et si la variance d'une population n'est pas
plus de trois fois la variance de l'autre population, le test t de Student est assez robuste et les
résultats restent relativement fiables [Ott, 1988]. Si ces conditions ne sont pas rencontrées, on
peut :
ˆ 12 ˆ 22
ˆ X1 − X2 = + (3.19)
n1 n 2
x1 − x 2 − d 0 x1 − x 2 − d 0 .
t'obs = = (3.20)
ˆ 12 ˆ 22 SCE 1
+
SCE 2
+
n1 n2 n 1 (n 1 − 1) n 2 (n 2 − 1)
La statistique t' n'est pas à proprement parlé distribuée selon une loi t de Student.
C'est pourquoi on utilise l'approximation de Satterthwaite pour corriger les nombres de degrés
de liberté ou celle de Cochran-Cox pour obtenir les valeurs critiques.
48
'
1) Selon l'approximation de Satterthwaite, on calcule la valeur observée t obs selon l'expression
(3.20) et, pour un niveau de signification donné on est amené à :
'
a) rejeter H 0 en faveur de H 1 si t obs t 1−
b) rejeter H 0 en faveur de H 1' si t obs
'
− t 1−
c) rejeter H 0 en faveur de H 1" si t obs
'
t
1− / 2
où la variable t de Student possède k degrés de liberté. Ce nombre k est calculé selon la formule
donnée par Satterthwaite [1946] :
(w 1 + w 2 ) 2
k= . (3.21)
w 12 w 22
+
n1 − 1 n 2 − 1
SCE 1 SCE 2
avec w 1 = et w 2 = .
n 1 (n 1 − 1) n 2 (n 2 − 1)
Si le nombre k n'est pas entier, on l'arrondit à l'entier le plus proche. Toutefois, certains auteurs
proposent la prudente décision de tronquer la partie décimale, tandis que certains logiciels
statistiques réalisent les calculs sur la loi de Student dont le nombre de degrés de liberté n’est
pas entier. Le degré de liberté k est inférieure ou égale à n1 + n2 − 2 et il d'autant plus petit que
les deux variances sont différentes. Cette diminution du nombre de degrés de liberté entraîne
une augmentation des valeurs critiques auxquelles on compare la valeur observée de la
statistique du test, ce qui fait que le test utilisé est plus conservatif.
Le test de Satterthwaite a à peu près la même propriété de robustesse que le test t ordinaire
lorsque les variances sont égales.
'
2) Selon l'approximation de Cochran-Cox [1957], on calcule la statistique t obs selon
l'expression (3.20) et, pour un niveau de signification donné on est amené à :
'
a) rejeter H 0 en faveur de H 1 si t obs t 1' −
b) rejeter H 0 en faveur de H 1' si t obs
'
− t 1' −
c) rejeter H 0 en faveur de H 1" si t obs
'
−t1' − / 2 ou t obs
'
t1' − / 2
Bien d'autres approximations permettant de réaliser le test d'égalité de deux moyennes lorsque
les variances des deux populations sont différentes existent. On peut citer en particulier celle
de Howe [1974].
A. Hamouda (IAV Hassan II) 49
Exemple 3.5
La longueur de l’aile droite d'une espèce d'insectes est mesurée sur deux échantillons dans deux régions.
Les résultats ont permis d’obtenir les paramètres statistiques du tableau 3.3. Peut-on conclure à des
différences significatives entre les longueurs des ailes dans les deux régions (=5%).
Tableau 3.3. Paramètres statistiques obtenus pour deux échantillons d'insectes prélevés
dans deux régions.
Échantillon Effectif Moyenne (mm) Ecart-type estimé (mm)
Région 1 10 9.1845 0.0895
Région 2 15 9.2930 0.1970
Solution 3.5
a) Méthode : comparaison de deux moyennes, cas de deux échantillons indépendants
b) Conditions d'application
- les deux échantillons sont indépendants et sont prélevés de manière aléatoire et simple
- les deux populations sont normales
c) Hypothèses
H 0 : 1 = 2 (les longueurs moyennes sont les mêmes dans les deux régions)
contre H1' : 1 2 (il y a différences entre les longueurs des deux régions)
d) Calcul
Puisque les deux variances ne sont pas égales (le test d'égalité de variances sera étudié au chapitre 4),
'
on calcule la statistique t obs approximative :
9.1845 − 9.293
t ' obs = = −1.86.
0.0721686 0.545886
+
10(10 − 1) 15(15 − 1)
Selon l'approximation de Satterthwaite, cette valeur doit être comparée à la valeur de t à k=20.9 degrés
de liberté, ou à k=21 degrés de liberté après l'arrondi.
Puisque la valeur absolue de la valeur observée est inférieure à la valeur critique t0.975=2.080,
l'hypothèse nulle ne peut être rejetée (si on calcule la probabilité de signification, on trouve
p- value=0.077, qui est supérieure à la valeur nominale 0.05, cette probabilité est donnée par les
logiciels statistiques ou par certains tableurs comme Excel).
Conclusion : en prenant un risque de 5%, il n'y a pas suffisamment de preuve pour conclure à des
différences significatives entre les longueurs d'ailles de l'insecte en question dans les deux régions.
Remarque : Dans les mêmes conditions, si on avait opté pour l'approximation de Cochran-Cox, on
aurait trouvé :
En tenant compte des règles de décisions, on aboutit à la même conclusion que précédemment.
50
3.3.3.1. Généralités
Il s'agit ici d'un appariement des unités. Cet appariement peut être réalisé de deux façons
différentes :
1) Soit que les unités sont regroupées en couples de telle sorte que les deux unités de chaque
couple soient similaires. L'une des deux unités du couple reçoit alors un traitement et l’autre
unité reçoit l'autre traitement. Dans ce cas, on peut citer les deux exemples suivants :
− il peut s'agir aussi de la comparaison de deux enseignants du point de vue sévérité dans la
notation des copies d'examens. On peut constituer un échantillon de n couples de copies de
telle sorte que les deux copies d'un même couple appartiennent à deux étudiants jugés de
niveaux similaires.
2) Soit qu'il s'agit du même individu qui subit les deux traitements (auto-appariement). Dans
ce cas, on peut citer les deux exemples suivants :
− il peut s'agir de la comparaison des poids moyens avant et après un régime amaigrissant
chez des hommes. Dans ce cas, on peut utiliser un échantillon de n individus, en mesurant
le poids de chacun d'eux avant puis après régime ;
− il peut s'agir aussi de la comparaison des effets de deux traitements (la benzédrine et un
placebo) sur la fréquence cardiaque des chiens. Pour chacun des chiens de l'expérience, on
peut administrer l'un des traitements et enregistrer le nombre de battements par minutes
après deux heures. Après deux semaines, on commute les régimes, les chiens sous la
benzédrine reçoivent le placebo et inversement.
Dans les deux cas de figure, on remarque que chaque unité de l'une des populations est mise
en relation avec une unité de l'autre population. C'est pourquoi on parle d'échantillons associés
par paires ou par couples ou encore d'échantillons appariés.
Pour chaque couple, la différence entre les mesures faites sur les deux observations est une
estimation de la différence entre les effets des deux traitements. Pour tenir compte des
variabilités des unités, on doit disposer de mesures sur plusieurs couples.
Pour comparer les effets moyens des deux traitements, supposons que les n couples d'individus
sont tirés de manière aléatoire et simple et que les différences Di (i=1, …, n) entre les valeurs
des couples sont distribuées autour de la moyenne D qui représente la différence moyenne des
effets des deux traitements.
Lorsque l’hypothèse nulle d'égalité des deux moyennes est vraie et que les différences Di sont
indépendantes et distribuées selon une loi normale de moyenne D et de variance 2D , la
différence moyenne D est alors distribuée selon une loi normale de moyenne D et de variance
2D / n . Il en découle que la quantité :
̄ − 𝝁𝑫
𝑫
𝑻=
𝑺𝑫
√𝒏
où la variable aléatoire SD est l'écart-type des différences, suit une distribution t de Student à
n-1degrés de liberté.
La quantité D2 , qui désigne la variance théorique des différences entre les valeurs des couples,
n'est généralement pas connue, elle est estimée à partir des résultats de l’expérience.
Les données observées des n couples ainsi que les différences observées di peuvent être
consignées dans un tableau semblable au tableau 3.4. On peut ainsi obtenir une estimation de
2D par la relation :
2
d i2 − d /n
n n
SCE d i =1 i =1 i
ˆ 2D = = .
n−1 n−1
Tableau 3.4. Forme de présentation des données de deux échantillons associés par paires.
Couple Observation 1 du couple Observation 2 du couple Différence (di)
1 x11 x21 x11-x21
2 x12 x22 x12-x22
3 x13 x23 x13-x23
. . . .
. . . .
n x1n x2n x1n-x2n
Moyenne x1 x2 𝑑̄ = 𝑥̄ 1 − 𝑥̄ 2
52
d t 1− / 2
ˆD
ou encore :
SCE d
( x 1 − x 2 ) t 1− / 2
n(n − 1)
où, comme nous l'avons vu, la variable t de Student possède n-1degrés de liberté.
L'hypothèse nulle dans le cas du test de comparaison de deux moyennes lorsque les échantillons
sont appariés1 s'écrit :
H0 : D = d0
Cette l’hypothèse nulle est testée contre l'une ou l'autre des trois hypothèses alternatives
usuelles suivantes :
a) H 1 : D d 0
b) H1' : D d 0
c) H "1 : D d 0 .
D'après les relations des paragraphes précédents, le test statistique consiste à calculer la valeur
observée de la variable t de Student :
d − d0 x1 − x 2 − d 0
t obs = =
ˆ D / n SCE d
n(n − 1)
Exemple 3.7
On souhaite tester si deux méthodes A et B de dosage d'une protéine sérique de bovins donnent des
résultats différents. Pour ce faire, on a prélevé du sang sur 10 vaches adultes saines. Pour chaque
prélèvement, la teneur en cette protéine est déterminée par les deux méthodes. En fonction des résultats
obtenus (tableau 3.5), quelle conclusion peut-on faire (=0.05) ?
Tableau 3.5. Taux d'une protéine sérique obtenus par deux méthodes sur 10 vaches.
N° de la vache 1 2 3 4 5 6 7 8 9 10
Méthode A 4.02 3.95 4.11 4.24 3.41 4.87 3.87 2.89 4.04 4.17
Méthode B 3.80 4.04 3.78 4.01 3.88 4.38 3.46 3.02 3.72 3.95
Solution 3.7
a) Méthode : comparaison de deux moyennes, échantillons associés par paires
b) Conditions d'application :
- l'échantillon des dix bovins est prélevé de manière aléatoire et simple dans la population,
- la population des différences Di est distribuée selon une loi normale.
c) Hypothèses
H 0 : 1 − 2 = 0 (les deux méthodes donnent en moyenne les mêmes teneurs)
contre H 1' : 1 − 2 0 (les deux méthodes ne donnent pas en moyenne les mêmes teneurs)
d) Calcul
La valeur observée de t de Student est :
0.1530
t obs = = 1.64
0.7810
10(10 − 1)
Puisque la valeur absolue de cette valeur observée de t est inférieure à la valeur critique t 0.975 = 2.262 ,
l'hypothèse nulle ne peut être rejetée (on peut vérifier par un logiciel statistique que p-value est supérieure
à ( p-valeur =0.135 et =0.05)).
Conclusion : En prenant un risque de 5%, il n'y a pas suffisamment de preuve pour conclure à des
différences significatives entre les résultats obtenus par les deux méthodes.
3.4. CONCLUSION
Dans le cas où l'inférence concerne une seule moyenne, nous avons vu d'une part comment
obtenir une estimation non biaisée de la moyenne de la population et l'entourer d'un intervalle
de confiance en fixant un risque de première espèce et, d'autre part, comment tester l'égalité de
la moyenne de la population, bien sûr inconnue, à une valeur de référence donnée.
Dans le cas où l'inférence concerne deux moyennes, nous avons vu qu'on s'intéresse
généralement à tester leur égalité. Nous avons souligné à ce propos qu'il est primordial de
distinguer entre la situation où les échantillons sont indépendants de la situation où ceux-ci
sont associés par paires. Une confusion entre les deux tests est une erreur.
Nous avons également discuté les conditions d'application du test t de Student. Le non respect
de ces conditions peut, dans certains cas, entraîner des résultats incorrects ou trompeurs.
54
Dans le cas d'échantillons indépendants, nous avons insisté sur l'examen des deux variances.
Si les effectifs des deux échantillons sont égaux, le test t ordinaire reste applicable jusqu'à
même si la variance d'une population est trois fois la variance de l'autre population, surtout si
l'effectif est grand. Par contre, si les effectifs sont différents, plus particulièrement lorsqu'ils
sont petits et la plus grande variance est associé au plus petit échantillon, un test d'égalité des
variances s'impose. Nous avons, à cette occasion, présenté les approximations de Satterthwaite
et de Cochran-Cox comme alternatives.
Si les conditions de l'égalité des variances et de la normalité ne sont pas vérifiées en même
temps, nous pensons qu'il est préférable de commencer par essayer des transformations de
variables pour essayer de stabiliser les variances et de s'approcher de la condition de la
normalité des populations. Nous reviendrons sur ce sujet en détail au chapitre 8.
CHAPITRE 4
4.1. INTRODUCTION
Dans le chapitre précédent, nous avons vu comment réaliser le test de comparaison de deux
moyennes théoriques à partir d'échantillons indépendants lorsque les variances ne sont pas
connues et nous avons souligné l'intérêt de tester au préalable l'égalité des deux variances
théoriques surtout lorsque le test sur les moyennes ne se révèle pas robuste.
Ce chapitre est d'autant plus important que nous reviendrons aux chapitres 5 et 6 sur les tests
de comparaison de plusieurs moyennes et nous serons amené de nouveau à poser l'égalité des
variances des populations comme condition d'application.
Il est vrai aussi que l’expérimentateur est souvent intéressé par les moyennes, mais il peut aussi
être, dans plusieurs cas, préoccupé par la variabilité du matériel étudié. Il peut ainsi être
intéressé, par exemple, par la comparaison des variances de la taille des pièces produites par
deux ou plusieurs machines et, d’une manière générale, savoir si la variabilité d’un paramètre
présente la même dispersion dans plusieurs populations différentes.
Plusieurs méthodes relatives aux variances seront brièvement passées en revue dans ce chapitre.
Dans un premier temps, nous présenterons un tableau de données qui nous servira à illustrer les
calculs des différentes méthodes (paragraphe 4.2). Nous verrons ensuite comment obtenir
l’intervalle de confiance d’une variance (paragraphe 4.3). Nous aborderons enfin les principaux
autres problèmes de tests d’hypothèses, à savoir le test de conformité (paragraphe 4.4), le test
d’égalité de deux variances (paragraphe 4.5) et le test d’égalité de plusieurs variances
(paragraphe 4.6).
Le tableau 4.1 présente les poids de fruits de trois variétés de dattes marocaines : Ahardane,
Bouijjou et Jihel. Chaque valeur est une moyenne calculée à partir de vingt fruits. Pour chaque
variété, les mesures ont été obtenues pour huit prélèvements [Harrak et al., 2003].
Ces données nous serviront d’exemple pour illustrer les méthodes qui seront exposées le long
de ce chapitre.
Tableau 4.1. Poids moyens, en grammes, des fruits
de trois variétés de dattes obtenues pour huit prélèvements.
Variétés de dattes
Ahardane Bouijjou Jihel
8.07 9.47 8.10
9.10 11.14 7.36
7.68 9.34 8.57
6.94 10.56 10.12
7.78 8.52 8.91
9.10 9.69 8.55
8.21 8.71 7.57
6.37 9.88 9.79
56
P ( 2 S12 ) = / 2 et P ( 2 S 22 ) = / 2 .
Les quantités 2 / 2 et 12− / 2 sont respectivement les et − quantiles de la loi khi-deux
à (n-1) degrés de liberté.
Il ressort que, pour une valeur donnée s² de S² d'un échantillon aléatoire et simple, on obtient
l’intervalle de confiance de la variance ² de la population au niveau de confiance (1-) par la
relation suivante :
ns ² ns ² SCE SCE
2 2 ou encore par : 2 2 ,
1− / 2
2
/ 2 1− / 2
2
/ 2
Ces limites ne sont pas symétriques par rapport à la valeur estimée ̂ ² et elles ne peuvent être
calculées que sous l’hypothèse de la normalité de la distribution sous-jacente. Si celle-ci reste
proche de la normale, la procédure est suffisamment robuste et donne généralement de bons
résultats.
SCE SCE
.
12− / 2 2 / 2
Exercice 4.1
Reprenez les données du tableau 4.1 et cherchez l’intervalle de confiance de l’écart-type des poids
des dattes pour la variété Ahardane en utilisant un degré de confiance de 95% ?
Solution 4.1
a) Méthode : intervalle de confiance d’une variance
b) Conditions d’application :
- le poids des dattes pour la variété Ahardane suit une loi normale
- l’échantillon prélevé est aléatoire et simple
b) Calcul :
SCE 6.33
- l’écart-type de la population est estimé par : ˆ = = = 0.95 g.
n−1 7
- l’intervalle de confiance de l’écart-type est obtenu par :
6.33 6.33
.
16.01 1.69
c) Conclusion : les limites 0.63 et 1.94 grammes encadrent la vraie valeur de l’écart-type avec
un degré de confiance de 95%.
58
L'objet est de tester si la variance théorique 2 de la population est égale à une valeur spécifiée
02 . L’hypothèse nulle s'écrit :
H o : 12 = 02
1) Sous l'hypothèse alternative (a), la variance S² a tendance à prendre des valeurs plus élevées
que lorsque Ho est vraie. Autrement dit, les valeurs élevées de Z poussent à rejeter Ho.
On construit donc un test unilatéral dont le domaine de rejet est situé à droite de la distribution
2 ;
2) Sous l'hypothèse alternative (b), la variance S² a tendance à prendre des valeurs plus faibles
que lorsque Ho est vraie. Autrement dit, les valeurs faibles de Z conduisent au rejet de Ho.
On construit donc un test unilatéral dont le domaine de rejet est situé à gauche de la distribution
2 ;
3) Sous l'hypothèse alternative (c), on construit un test bilatéral dont les domaines de rejet sont
situés à gauche et à droite de la distribution 2 , car, dans ce cas la variance S 2 a tendance à
prendre des valeurs faibles ou élevées.
ns 2 SCE
obs
2
= =
02 02
Remarques :
• Dans le cas du test bilatéral (c), on peut remarquer que l’hypothèse nulle est rejetée lorsque
02 n'appartient pas à l’intervalle de confiance de 2 ;
• Quand le nombre de degrés de liberté est assez grand (k>30), on peut utiliser un test basé
sur la normale réduite. Dans le cas du test bilatéral, par exemple, on calcule :
uobs = 2 SCE / 02 − 2n − 3
Exercice 4.2
Un marchand de dattes de la variété Jihel assure que la variabilité des poids de ces dattes est au plus
de 0.5 g². A partir des données de l’échantillon du tableau 4.1, dites si l’on peut accepter ce
qu'avance le marchand au niveau de probabilité =0.05 ?
Solution 4.2
a) Méthode : test de conformité d’une variance (test khi-deux)
b) Conditions d’application :
- la distribution des poids des dattes de la variété Jihel est normale
- l’échantillon est prélevé de manière aléatoire et simple
c) Hypothèse nulle :
H o : 2 = 0.5
contre H "1 : 2 0.5 (la variabilité garantie est dépassée)
6.671
obs
2
= = 13.34
0.5
est inférieure à la valeur critique 1− = 14.07 à k=7 degrés de liberté. La p-value étant de 0.064.
2
Le but est de tester si les variances 12 et 22 de deux populations ayant des distributions
normales sont identiques. On suppose que l'on dispose des valeurs de deux échantillons
d'effectifs n1 et n2 prélevés de manière aléatoire et simple et indépendamment l’un de l’autre
dans les deux populations.
H o : 12 = 22
n 1S 12
(n 1 − 1) 12
F=
n 2 S 22
(n 2 − 1) 22
2) Sous l'hypothèse alternative (b), les valeurs relatives à la population 2 auront tendance à être
'
plus dispersées que sous Ho. Autrement dit, on est amené à rejeter Ho lorsque Fobs a tendance
à prendre des valeurs faibles. Le domaine de rejet est donc situé à gauche de la distribution F,
'
c’est-à-dire lorsque Fobs F où la variable F possède toujours n1 − 1 et n2 − 1 degrés de
liberté ;
A. HAMOUDA (IAV Hassan II) 61
3) Sous l'hypothèse alternative (c), il ressort que l’on rejette l’hypothèse nulle lorsque la valeur
'
de Fobs est assez différente de l’unité (de 1), c’est-à-dire lorsque Fobs '
F / 2 ou
'
Fobs F1− / 2 où la variable F possède n1 − 1 et n2 − 1 degrés de liberté (figure 4.2).
Dans le cas du test bilatéral, la règle de décision peut être simplifiée en calculant la quantité
observée de F en mettant au numérateur la plus grande des deux variances estimées :
ˆ max
2
Fobs =
ˆ min
2
f(F )
−
/2
/2
On retient que le test de Fisher, pour un niveau de signification , permet de prendre les
décisions suivantes :
(a) sous H 1 : 12 22 , on calcule Fobs
'
= ˆ 12 / ˆ 22 et on rejette H 0 si Fobs
'
F1−
où la variable F possède k 1 = n 1 − 1 et k 2 = n 2 − 1 degrés de liberté
Exercice 4.3
Reprenez les données du tableau 4.1 et comparez au niveau de probabilité =5%, les variances des
poids des dattes des variétés Ahardane et Bouijjou ?
Solution 4.3
a) Méthode : comparaison de deux variances par le test de Fischer
b) Conditions d’application :
- les deux distributions des poids des dattes sont normales
- les deux échantillons prélevés sont aléatoires, simples et indépendants
c) Hypothèse nulle :
H o : 12 = 22 contre l’alternative bilatérale H 1" : 12 22
d) Calcul : La valeur observée de F :
ˆ max
2
0.904 ou 1.174
Fobs = =
ˆ min
2 0.770
est inférieure à la valeur critique F1− / 2 = 4.99 à k1=7 et k2=7 degrés de liberté. On ne peut
donc pas rejeter Ho. La probabilité de signification est de 0.838.
e) Conclusion : il n’y a suffisamment pas de preuve pour rejeter l’hypothèse d’égalité des variances
des poids des dattes des variétés Ahardane et Bouijjou.
Remarques :
1) Si les deux échantillons ne sont pas indépendants, on utilise des tests qui tiennent compte de
la corrélation, tels que le test de Pitman [1939]. On peut citer l’exemple de dosage de la -
globuline chez des bovins. Pour chacune des n vaches de l’expérience, un échantillon de sang
est dosé par deux méthodes. On souhaite savoir si les valeurs obtenues par une méthode sont
plus dispersées que celles qu’on obtient par l’autre méthode.
n 1S 12 /((n 1 − 1) 12 )
P a 1 a
2 =1−
n S
2 2
2
/((n 2 − 1) 2
2 )
ˆ 12 1 12 ˆ 12 '
F1− / 2 .
ˆ 22 F1− / 2 22 ˆ 22
Exercice 4.4
Supposons que l'on ne dispose pas de la première observation de la variété de dattes Ahardane
(tableau 4.1). Cherchez l'intervalle de confiance du rapport des variances des poids des fruits des
variétés Ahardane et Bouijjou au niveau de probabilité =5% ?
Solution 4.4
a) Méthode : intervalle de confiance du rapport de deux variances
b) Conditions d’application :
- les deux distributions des poids des dattes sont normales
- les deux échantillons prélevés sont aléatoires, simples et indépendants
c) Calcul :
1.0499 1 12 1.0499
(5.695)
0.7700 5.119 22 0.7700
d) Conclusion : l’intervalle [0.27, 7.77] encadre le vrai rapport des variances 12 / 22 avec un
degré de confiance de 95%.
Le test de Fisher de la comparaison de deux variances n'est pas robuste, il est sensible à la non
normalité des populations.
Plusieurs procédures ont été développées pour tester l'hypothèse d'égalité de plusieurs
variances. Nous présentons dans ce paragraphe ce que nous estimons les plus connues d’entre
elles, à savoir les procédures de Bartlett (1937), de Hartley (1940,1950), de Levene (1960), de
Brown-forsythe (1974) et d'O'Brien (1979).
L'hypothèse H 1 signifie que deux au moins des variances sont différentes. Dans tous les cas,
nous supposons que l'on dispose pour toute population i d'un échantillon aléatoire et simple
d'effectif ni et que les p échantillons sont indépendants.
Ce test, proposé par Bartlett (1937), est le plus communément utilisé pour tester l'égalité de
plusieurs variances.
64
𝑆𝐶𝐸
𝜎̂ 2 =
𝑛. −𝑝
où 𝑛. = ∑𝑝𝑖=1 𝑛𝑖 et 𝑆𝐶𝐸 = ∑𝑝𝑖=1 𝑆𝐶𝐸𝑖 désignent l’effectif total et la somme des carrés des écarts
globale, constitue une estimation non biaisée de la variance commune 2 . Le test consiste à
calculer la quantité :
Lorsque les effectifs des échantillons sont égaux ( n 1 = n 2 = ... = n p = n ), on peut obtenir la
valeur observée de la distribution 𝜒 2 par la relation simplifiée suivante :
𝑆𝐶𝐸
(𝑛 − 1) (𝑝 𝑙𝑛 ∑𝑝
2 𝑝 − 𝑖=1 𝑙𝑛 𝑆𝐶𝐸𝑖 )
𝜒𝑜𝑏𝑠 =
𝑝+1
1+
3𝑝(𝑛 − 1)
Lorsque la condition de la normalité des populations est vérifiée, le test de Bartlett contrôle le
risque de première espèce et il est puissant. Il est très sensible à la non-normalité des populations
(Box, 1953, Zar, 1999), et il ne peut donc être recommandé lorsque cette condition n'est pas
vérifiée. Des études ont montré que ce test est à éviter lorsque les effectifs des échantillons sont
petits (inférieurs à 4 ou 5) et lorsque le nombre de populations p est élevé par rapport aux
effectifs des échantillons.
Exercice 4.5
Reprenez les données du tableau 4.1 et comparez, au niveau de probabilité =5%, les variances
des poids des fruits des trois variétés de dattes par la méthode de Bartlett ?
Solution 4.5
a) Méthode : comparaison de plusieurs variances par la procédure de Bartlett
b) Conditions d’application :
- les trois distributions des poids des dattes sont normales
- les trois échantillons prélevés sont aléatoires, simples et indépendants
- les effectifs des échantillons ne sont pas très limitants (n>4) et le nombre de populations
n’est pas élevé
c) Hypothèse nulle :
H 0: 12 = 22 = 23
H "1 : deux au moins des variances sont différentes
A. HAMOUDA (IAV Hassan II) 65
18.391
(8 − 1)( 3)ln − 5.4276
3
obs
2
= = 0.080
1 + (4) / 63
est inférieure à la valeur critique 02.95 = 5.99 à k=2 degrés de liberté. On ne peut donc pas rejeter
Ho. La p-value est de 0.961.
e) Conclusion : il n’y a suffisamment pas de preuve pour considérer les variances des poids des
fruits des trois variétés comme significativement différentes.
Le test de Hartley est une extension du test de Fisher que nous avons utilisé pour comparer deux
variances au cas de plusieurs variances (Hartley, 1940, 1950). Il nécessite l'égalité des effectifs
des échantillons ( n1 = n2 = ... = n p = n ), mais peut être utilisé comme un test approché pour
autant que les effectifs ne soient pas trop différents.
et à rejeter l’hypothèse nulle lorsque 𝐻𝑜𝑏𝑠 ≥ 𝐻1−𝛼 , où les valeurs critiques 𝐻1−𝛼 sont
consignées dans des tables statistiques en fonction du niveau de signification , du nombre de
populations p et du nombre de degrés de liberté k=n-1 (n est l’effectif de chaque échantillon,
ou la moyenne des effectifs des échantillons si ceux-ci sont légèrement différents).
Le test de Hartley est très peu utilisé par les praticiens. Il ne tient compte que des deux variances
estimées extrêmes ( ̂ max
2
et ̂ min
2
) et il est très sensible à la non normalité des populations.
Exercice 4.6
Reprenez les données du tableau 4.1 et comparez, au niveau de probabilité =5%, les variances
des poids des fruits des trois variétés de dattes par la méthode de Hartley ?
Solution 4.6
a) Méthode : comparaison de plusieurs variances par la procédure de Hartley
b) Conditions d’application :
- les trois distributions des poids des fruits sont normales
- les trois échantillons prélevés sont aléatoires, simples et indépendants
- les effectifs des échantillons sont égaux
c) Hypothèse nulle :
H 0: 12 = 22 = 23
H "1 : deux au moins des variances sont différentes
66
Lorsque les populations ne sont pas normales ou elles ne sont pas au moins très proches de
populations normales, le test de Levene (Levene, 1960) et ses variantes constituent une
alternative robuste au test de Bartlett.
La réalisation de ces tests consiste à transformer la variable étudiée X en une nouvelle variable
Z indiquant une dispersion et à calculer la quantité :
n i − p
p p
n i ( z i . − z .. ) 2
i =1 i =1
Fobs = .
(p − 1)
p ni
( z ij −z i . ) 2
i =1 j= 1
Fobs F1−
où 𝑭𝟏−𝜶 est la valeur de la variable F de Snedecor à 𝒌𝟏 = 𝒑 − 𝟏 et k2 = n.- p degrés de liberté.
a) Levene (1960) obtient les valeurs de la variable transformée par le calcul de la distance, en
valeur absolue, de chaque observation x ij à la moyenne de l'échantillon x i :
𝑧𝑖𝑗 = |𝑥𝑖𝑗 − 𝑥̄ 𝑖 |
′ 2
𝑧𝑖𝑗 = (𝑥𝑖𝑗 − 𝑥̄ 𝑖 ) .
A. HAMOUDA (IAV Hassan II) 67
z ij = x ij − x i' .
La moyenne tronquée est la moyenne des données après avoir retiré par exemple 5% des valeurs
les plus petites et 5% des valeurs les plus élevées. L'objectif est de retirer les valeurs extrêmes.
Le test utilisant la médiane au lieu de la moyenne est plus efficace pour des échantillons de
petites tailles et la procédure est indépendante de la distribution au niveau asymptotique.
"
(𝑤 + 𝑛𝑖 − 2)𝑛𝑖 (𝑥𝑖𝑗 − 𝑥̄ 𝑖 )2 − 𝑤(𝑛𝑖 − 1)𝜎̂𝑖2
𝑧𝑖𝑗 =
(𝑛𝑖 − 1)(𝑛𝑖 − 2)
Exercice 4.7
Reprenez les données du tableau 4.1 et comparez au niveau de probabilité =5%, les variances
des poids des fruits des trois variétés de dattes par la méthode de Brown et Forsythe (en utilisant
les écarts des observations à la médiane en valeur absolus) ?
Solution 4.7
a) Méthode : comparaison de plusieurs variances par la procédure de Brown-Forsythe (écarts des
observations aux médianes des échantillons en valeur absolue) :
b) Conditions d’application :
- les trois échantillons prélevés sont aléatoires, simples et indépendants
c) Hypothèse nulle :
H 0: 12 = 22 = 23
H "1 : deux au moins des variances sont différentes
d) Calcul : La valeur observée de F :
( 24 − 3)(0.0240)
Fobs = = 0.037
( 3 − 1)(6.7659)
est inférieure à la valeur critique F1-α =3.47 à k1=2 et k2=21 degrés de liberté. On ne peut
donc pas rejeter Ho. La probabilité de signification est de 0.964.
e) Conclusion : voir la conclusion de l’exercice 4.5.
68
Exercice 4.8
Reprenez l'exercice 4.7 et vérifiez si vous obtenez les mêmes résultats avec les méthodes de
Levene et de O'Brien ?
Solution 4.8
a) Procédure de Levene (écarts des observations aux moyennes des échantillons en valeur
absolue) :
(24−3)(0.0307)
𝐹𝑜𝑏𝑠 = = 0.049 est inférieure à 𝐹1−𝛼 = 3.47 (p-valeur= 0.952)
(3−1)(6.5267)
b) Procédure de Levene (écarts des observations aux moyennes des échantillons élevés au carré):
(24−3)(0.109987)
𝐹𝑜𝑏𝑠 = (3−1)(15.004)
= 0.077 est inférieure à 𝐹1−𝛼 = 3.47 (p-valeur= 0.952)
Conclusion : pour cet exemple, les différents tests utilisés aboutissent à la même conclusion.
Tous ces résultats peuvent être obtenus par des logiciels statistiques. Pour le logiciel SAS, on peut
utiliser la procédure GLM suivante :
Proc GLM;
class Varietes;
model Poids = Varietes;
means Varietes / hovtest=levene hovtest=BF hovtest=obrien;
run;
Proc GLM;
class Varietes;
model Poids = Varietes;
means Varietes / hovtest=levene (type=ABS);
run;
4.7. CONCLUSION
Dans la littérature, on trouve plusieurs procédures qui ont été proposées pour tester l'égalité des
variances de plus de deux populations. Plusieurs études ont essayé de les comparer pour opérer
le bon choix.
D'une manière générale, si l'on a de bonnes raisons de croire que les populations sont normales
ou au moins approximativement normales, le test de Bartlett a une plus grande performance.
Dans ces conditions, il est l’un des plus utilisés, pour autant que les effectifs des échantillons
A. HAMOUDA (IAV Hassan II) 69
ne soient pas trop petits (<5) et que le nombre de populations ne soit pas très élevé par rapport
aux effectifs des échantillons.
Si l'hypothèse de la normalité des distributions n'est pas vérifiée, le test de Levene et ses
variantes offrent une alternative robuste à la procédure de Bartlett. Ils n'ont pas tendance à
rejeter l'hypothèse d'égalité des variances seulement parce que les distributions des populations
ne sont pas normales. Le test de Brown-Forsythe, qui utilise la médiane, semble être le plus
recommandé car il a une bonne robustesse contre différentes formes de non-normalité des
distributions tout en gardant une bonne puissance. Mais, si l'on connaît les formes des
distributions des données, il est possible que l'une des autres variantes du test de Levene soit
plus intéressante.
D'autre part, il faut dire que les tests cités dans ce chapitre peuvent être réalisés par différents
logiciels statistiques. Il faut tout de même faire attention à l'appellation de certaines variantes
du test de Levene. Pour certains logiciels, ce qui est appelé test de Levene est en effet sa variante
de Brown-Forsythe. Un coup d'œil rapide sur l'aide du logiciel que vous utilisez permet d'éviter
cette confusion.
A. Hamouda (IAV Hassan II)
Utilisée pour la première fois par Sir R. A. Fisher [1925, 1935], pour analyser des données
issues d’expériences agricoles, l’analyse de la variance ou ANOVA1 reste l’une des méthodes
statistiques les plus connues et les plus employées de nos jours par de nombreux chercheurs
dans différentes disciplines : agriculture, médecines humaine et vétérinaire, industrie agro-
alimentaire, etc.
Le but de l’ajustement d’un modèle d’ANOVA à des mesures subdivisées en groupes formés
expérimentalement ou naturellement et dépendant de plusieurs effets qui interviennent
simultanément, est de connaître les sources de variation les plus importantes et d’obtenir les
meilleures estimations des moyennes, si les effets sont fixes, ou des variances, si les effets sont
aléatoires. Il s'agit d'un ensemble de techniques de tests d'hypothèses et d'estimation de
paramètres.
Il semble que plusieurs lecteurs trouvent l'appellation "analyse de la variance" un peu curieuse
dans la mesure où l'objectif principal est de comparer des moyennes de populations. Nous
verrons, en effet, qu'il faudra effectivement analyser les variances pour tester si les moyennes
sont égales.
D'une manière générale, il s'agit d'étudier un modèle dans lequel une variable dépendante
quantitative est expliquée par une ou plusieurs variables qualitatives (ou quantitatives, mais
traitées comme qualitatives) appelées facteurs. Chaque facteur peut avoir deux ou plusieurs
niveaux (ou modalités). Ainsi, l'objectif peut être, par exemple, la comparaison des teneurs en
sucres réducteurs de trois variétés de dattes : Mejhoul, Boufegous et Jihel. Dans le cas de cet
exemple, les "variétés" constituent le facteur étudié avec trois modalités et la teneur en sucres
réducteurs représente la variable dépendante. La technique de l'ANOVA consiste à répartir la
variation totale des réponses obtenues entre les différentes sources de variation auxquelles elle
peut être attribuée.
On doit distinguer les modèles fixes, où les effets sont considérés comme des paramètres fixes,
et les modèles aléatoires, où les effets sont traités comme des variables aléatoires. Lorsque ces
deux types d’effets sont présents dans le même modèle, on parlera de modèles mixtes. De
même, on parlera d’un modèle d’ANOVA à un ou plusieurs critères de classification selon que
le modèle fait intervenir un ou plusieurs facteurs. Dans ce dernier cas, il est conseillé de limiter
le nombre de facteurs pour ne pas compliquer l'interprétation des résultats.
Du point de vue pratique, l’ANOVA reste généralement une méthode facile à mettre en œuvre
par le biologiste, grâce notamment aux nombreux logiciels statistiques. Cependant, il y a lieu
d’être attentif quant à l’écriture du modèle mathématique et à l'interprétation des résultats
fournis par le logiciel statistique lorsque le modèle n’a pas une structure équilibrée, c’est-à-dire
lorsque les fréquences des combinaisons des niveaux des différents facteurs ne sont pas égales.
Dans ce dernier cas, nous pensons qu'il serait peut-être utile de faire appel à l'aide d'un
statisticien.
1
En anglais : Analysis of variance.
56
D'autre part, nous voulons aussi signaler que certains termes spécifiques aux techniques
d'échantillonnage et d'expérimentation seront cités dans quelques passages. Le modèle de
l'ANOVA est en effet lié au dispositif expérimental mis en place et/ou au mode de prélèvement
des données.
Dans ce qui suit, nous présenterons séparément l’analyse de la variance à un critère de
classification (chapitre 5) et l’analyse de la variance à deux critères de classification (chapitre 6)
selon qu'un ou deux facteurs sont étudiés. Nous exposerons, pour chacune des deux méthodes,
les tests de signification et les méthodes d'estimation de paramètres, en s'appuyant sur des
exemples. Nous présenterons en détail les formules de calcul bien que nous sachions que
l'ordinateur s'en charge.
L'extension à l'analyse de la variance à trois ou plus de trois critères de classification se fait
selon les mêmes principes qui régissent l'analyse de la variance à deux critères de classification,
mais l'interprétation de ce qu’on appelle des interactions des modèles croisés ou partiellement
croisés devient souvent moins évidente.
A. Hamouda (IAV Hassan II) 57
CHAPITRE 5
5.1. INTRODUCTION
Nous avons vu, au chapitre 3, comment comparer les moyennes de deux populations normales,
en sélectionnant indépendamment un échantillon aléatoire et simple dans chacune d’elles. Or,
il se peut que l’on soit confronté dans la pratique à la comparaison du comportement moyen de
plusieurs populations définies par ce qu'on appelle un critère de classification. Il s'agit ici de
"généraliser" le test t de Student que nous avons utilisé pour comparer deux moyennes
théoriques.
On parle généralement de traitements pour désigner les différents niveaux du facteur de
variabilité dont on souhaite étudier l'influence sur une variable dépendante quantitative. C’est
le cas lorsqu’on souhaite comparer, par exemple, les rendements, supposés suivre des
distributions normales, de quatre variétés de tomates en observant pour chacune d’elles
quelques parcelles. Nous avons ici un seul facteur, appelé "variétés", possédant quatre
modalités représentant les quatre variétés.
Dans ce cas, il n'est pas approprié de vouloir réaliser six tests t de Student pour comparer deux
à deux les moyennes théoriques des quatre variétés. En effet, en fixant un risque de première
espèce pour chacun des six tests, le risque global de première espèce, c’est-à-dire la
probabilité de considérer à tort au moins un test significatif, est bien plus grand que . Dans ces
conditions, l’analyse de la variance à un critère de classification, en abrégé "ANOVA1", est
appropriée car c’est une procédure qui nous permettra de vérifier, en un seul test, s’il existe au
moins une moyenne significativement différente des autres en fixant le risque de première
espèce à
Tableau 5.1. Acidité, en grammes par litre de jus, obtenues pour trois classes d'hybrides de Mandarines.
Classes d'hybrides Moyennes
Classe 1 8.28 11.92 8.62 11.21 11.24 11.33 11.87 10.59 10.35 10.86 10.627
Classe 2 14.97 14.20 12.14 12.74 13.80 14.04 13.27 14.06 13.34 13.27 13.583
Classe 3 11.31 10.55 12.76 12.94 12.54 11.30 12.96 11.33 12.12 12.46 12.027
Moyenne des trois échantillons 12.079
La probabilité de rejeter à tort l’hypothèse nulle au moins une fois au cours des trois
comparaisons est alors obtenue par 1-(1-)3. Autrement dit, pour =0.05, on a 14 chances sur
100 de rejeter à tort l’hypothèse nulle au moins une fois au cours des trois comparaisons. Cette
probabilité serait encore plus grande si le nombre de populations était plus important.
2° D'une manière générale, on considère p populations (on parle aussi de p traitements ou d'une
population divisée en p sous-populations). Dans chacune de celles-ci, on prélève un échantillon
d'individus et, pour chacun de ces individus, on doit disposer de la valeur de la variable
dépendante. Les notations que seront adoptées sont les suivantes :
En reprenant les données des trois classes d'hybrides de mandarines, la question que l'on se pose
est la suivante :
"Est-ce que les résultats, bien qu’ils soient obtenus de 10 répétitions seulement, permettent de
conclure à des différents significatives entre les acidités moyennes des trois classes en
question ? ".
On cherche en effet à tester l’hypothèse nulle qui concerne l'égalité des acidités moyennes
théoriques 1 , 2 et 3 des trois classes d'hybrides de mandarines. Les valeurs de ces
moyennes sont inconnues et on se basera sur les moyennes observées ( y 1 , y 2 et y 3 ) et les
variances estimées ( ̂ 12 , ̂ 22 et ̂ 32 ) pour pouvoir répondre à la question.
Dans l'exemple que nous traitons (tableau 5.1), il apparaît, sans faire de calcul, que la variation
entre les moyennes des échantillons ( y 1 , y 2 et y 3 ) est assez grande en comparaison avec la
variation à l’intérieur des échantillons. En d'autres termes, il est logique de penser, en s'appuyant
également sur la figure 5.1 (a), que les moyennes observées des trois échantillons ne constituent
pas une bonne estimation d'une moyenne générale théorique . On a donc tendance à conclure
à des différences entre les acidités moyennes théoriques des trois classes d'hybrides de
mandarines. Il reste à prouver ce qu’on vient d’avancer et c’est l’objet de l'ANOVA. Celle-ci
permet de démontrer que ces différences sont statistiquement significatives, c’est-à-dire qu'elles
ne résultent pas de l’effet du hasard.
2° Supposons maintenant qu’à avec les mêmes moyennes observées (𝑦̄ 1 , 𝑦̄ 2 et 𝑦̄ 3 ) des trois
classes, on avait obtenu les résultats du tableau 5.2 (données simulées). Il ressort que la variation
entre les moyennes des échantillons est moins importante en comparaison avec la variation dans
les échantillons. La figure 5.1 (b) montre, en effet, un recouvrement important des valeurs des
trois échantillons. Dans ce cas, il est peu vraisemblance de conclure à des différences
significatives entre les moyennes des trois populations. Si l’ANOVA confirme l'absence de
différences, on pourra combiner les valeurs des trois échantillons pour obtenir une estimation
de la moyenne générale théorique .
Tableau 5.2. Acidité, en grammes par litre de jus, de trois classes d'hybrides de mandarines
(données fictives).
Classes d'hybrides Moyennes
Classe 1 13.67 12.36 7.58 10.68 9.05 6.22 6.84 15.03 10.72 14.12 10.627
Classe 2 10.89 12.02 14.27 13.34 11.88 16.05 17.51 9.88 15.46 14.53 13.583
Classe 3 16.14 10.81 11.14 8.02 16.82 7.28 9.86 11.88 15.04 13.28 12.027
60
Classe 2 Classe 2
Classe 1 Classe 1
6 8 10 12 14 16 18 6 8 10 12 14 16 18
Acidité Acidité
Figure 5.1. Superpositions des valeurs de l'acidité des échantillons des trois classes d'hybrides de mandarines
((a) pour les valeurs du tableau 5.1; (b) pour les valeurs du tableau 5.2).
3° Tout indique donc que l'on doit comparer la variabilité entre les moyennes observées à la
variabilité des valeurs autour de ces moyennes.
- La variable dépendante pour la population i suit une distribution normale (de Gauss) de
moyenne i et de variance i2 . Cette hypothèse, requise pour réaliser les tests de
signification et entourer certains paramètres d'intervalles de confiance, peut être vérifiée en
utilisant un test d'ajustement à une distribution normale (cf. chapitre 8).
- Les variances théoriques des p populations sont égales, c’est-à-dire que la variabilité des
observations autour de la moyenne d'une population est la même pour toutes les
populations. Cette hypothèse peut être testée en utilisant un test d'égalité de plusieurs
variances (cf. chapitre 4). La variance commune théoriques des populations sera notée 2 .
Si certaines de ces conditions d'application sont loin d'être vérifiées, on peut, en premier lieu,
essayer des transformations de variables dans le but de s'approcher des distributions normales
et/ou de stabiliser les variances. Si les résultats de telles transformations ne sont pas
satisfaisants, on peut utiliser des méthodes non paramétriques.
5.4.1. Généralités
Le facteur étudié peut être fixe ou aléatoire. On parlera de facteur fixe lorsque ses niveaux sont
contrôlés et reproductibles d'une expérience à l'autre. On peut citer, comme exemples, le facteur
"sexe" lorsqu'on souhaite étudier son effet sur le pourcentage de carcasse après abattage des
bovins d'une même race, ou encore le facteur "aliments" lorsqu'on souhaite comparer l'ingestion
de trois aliments spécifiés chez des moutons adultes de même poids.
On parlera de facteur aléatoire lorsque ses niveaux étudiés sont eux-mêmes tirés aléatoirement
d'un ensemble plus grand de niveaux. Les niveaux sélectionnés ne sont pas reproductibles d'une
expérience à l'autre, puisque, à chaque fois, ce sont des niveaux différents qui sont tirés.
A. Hamouda (IAV Hassan II) 61
Supposons que l'on souhaite tester si la taille moyenne d'une espèce de poisson ne diffère pas
selon les différentes rivières du bassin atlantique. Si l'on choisit aléatoirement trois rivières et
que l'on mesure dans chacune d'elles les tailles d'une dizaine de poissons, on dira que le facteur
"Rivières" est bien un critère aléatoire.
Selon que le facteur est fixe ou aléatoire, on parlera du modèle fixe ou du modèle aléatoire de
l'ANOVA 1. Le modèle fixe s'appelle aussi modèle I et le modèle aléatoire s'appelle aussi
modèle II. Nous verrons dans ce paragraphe comment étudier chacun des deux modèles.
5.4.2.1. Définition
Dans le cas du modèle fixe, tous les niveaux du facteur étudié sont considérés dans
"l’expérience". On considère que leur nombre est p.
L'hypothèse nulle concerne l'égalité des moyennes théoriques des p populations. Elle s'écrit :
H 0 : 1 = 2 = ... = p .
(5.1)
contre l’alternative :
H 1 : i j pour au moins deux populations.
L'hypothèse alternative signifie, dans le cas de notre exemple, qu'il y a un effet des classes des
hybrides de mandarines sur l'acidité.
On se basera sur les valeurs obtenues pour les p échantillons pour rejeter ou ne pas rejeter
l’hypothèse nulle :
− s’il y a des différences importantes entre les moyennes des populations, on s'attend à ce qu'il
en soit de même pour les moyennes des échantillons ;
− le degré de fausseté de H0 dépend, comme nous l'avons vu, de la grandeur de la variation
entre les échantillons, que nous appellerons variation factorielle, par rapport à la variation à
l’intérieur des échantillons, que nous appellerons variation résiduelle ;
− l’hypothèse nulle est rejetée si deux au moins des moyennes sont différentes. Pour savoir à
quel niveau se situent les différences entre les moyennes lorsqu'on rejette H0, on utilisera les
méthodes de comparaisons multiples de moyennes (Cf. chapitre 7).
a) Modèle observé
Il apparaît que l'écart entre toute observation k issue de l'échantillon i et la moyenne des trois
échantillons est donné par la relation suivante :
( y ik − y ) = ( y i − y ) + ( y ik − y i ) (5.2)
Ces écarts apparaissent mieux si l'on représente, sur un axe horizontal, toutes les valeurs
individuelles ( y11 , y12 , …) ainsi que les moyennes ( y 1 , y 2 , …, y p ) et la moyenne générale
y . La figure 5.2 présente ces écarts pour les échantillons des deux premières classes d’hybrides
de mandarines (cf. tableau 5.1). On voit comment l’écart entre la première observation y11 et la
moyenne générale y est décomposé en deux écarts.
y1 y y2
8 12 16
Acidité
Figure 5.2. Représentation des écarts rentre les valeurs individuelles et les moyennes dans le cas
des deux premières classes d’hybrides de mandarines.
( y ik − y ) 2 = i =1 k =1 ( y i − y ) 2 + i =1 k =1 ( y ik − y i ) 2
p ni p ni p ni
i =1 k =1 . (5.3)
= i =1 ni ( y i − y ) 2 + i =1 k =1 ( y ik − y i ) 2
p p ni
Cela rappelle les formules des sommes des carrés des écarts. Dans ces conditions, l'expression
5.3 peut s'écrire sous la forme :
b) Modèle théorique
Pour faire de l'inférence statistique, on doit aussi écrire le modèle théorique. On considère que
chaque observation 𝑦𝑖𝑘 est la valeur d'une variable aléatoire 𝑌𝑖𝑘 et que celle-ci suit une
distribution normale de moyenne 𝜇𝑖 et de variance 𝜎 2 . Les variables aléatoires 𝑌𝑖𝑘 sont supposées
être indépendantes et de mêmes variances. Le modèle théorique s'écrit :
Yik = + a i + ik (5.5)
ou de façon équivalente :
Yik = i + ik .
A. Hamouda (IAV Hassan II) 63
Pour comprendre l'idée du modèle de l'expression (5.5), supposons que l'acidité moyenne des trois
classes d'hybrides de mandarines est de 12.08 g/l et que celle de la classe 1 est inférieure de 1.45
g/l par rapport à la moyenne générale. Dans ce cas, le modèle qui explique l'acidité de la première
observation de la classe d'hybride 1 qui est de 8.28 (tableau 5.1) s'écrit :
8.28 = 12.08 – 1.45 – 2.35.
Les quantités ik sont aussi appelées erreurs ou variables résiduelles, et les quantités a i sont aussi
appelées effets principaux. Ces derniers paramètres sont tels que :
p
ni a i = 0 .
i =1
Il en découle que l’hypothèse nulle signifie l'absence d'effets du facteur étudié, et elle peut donc
aussi s'écrire :
H 0 : a1 = a 2 = ... = a p = 0 .
Les hypothèses sur les variables résiduelles sont équivalentes aux mêmes hypothèses sur la
variable Y (cf. paragraphe 5.3). L'interprétation des résultats de l'ANOVA n'est en effet valide
que lorsque ces hypothèses sont réunies. On doit veiller à ce que les variables ik soient :
− distribuées selon des lois normales de moyenne nulle ;
− indépendantes les unes des autres ;
− de variance constance 2 .
5.4.3.1. Définition
On parle d'un facteur aléatoire car seul un sous-ensemble de p niveaux fait l'objet des
observations alors que le chercheur s’intéresse à tous les niveaux. En pratique, comme facteurs
à effets aléatoires, on trouve des animaux, des variétés d’une espèce végétale, des personnes,
etc. On peut citer les deux exemples suivants :
− Pour contrôler si le pH du sol est le même dans un champ, on peut choisir au hasard dix
emplacements et, dans chacun de ceux-ci, on creuse quelques trous pour lesquels on
64
L’hypothèse nulle concerne l’infinité des niveaux du facteur et non seulement les p niveaux (ou
populations) sélectionnés. Or, si les valeurs d’une distribution sont toutes égales entre elles
alors l’écart-type est nul. Donc, l’hypothèse nulle peut être exprimée par la nullité de l'écart-
type des effets principaux :
Le modèle observé est le même que dans le cas du modèle fixe. Le modèle théorique s'écrit
également de la même manière sauf que les moyennes des populations i (i=1, 2, ..., p) sont
ici des variables aléatoires puisqu’elles résultent d’un tirage aléatoire. La moyenne générale
(), quant à elle, est fixe :
Yik = + i + ik . (5.7)
En plus des effets des variables résiduelles qui sont toujours aléatoires, les effets principaux
𝜜𝒊 = 𝜧𝒊 − 𝝁 sont également aléatoires. Les variables 𝜺𝒊𝒌 sont normales et indépendantes de
moyenne 0 et de variances ² et les variables 𝐴𝑖 sont normales et indépendantes des 𝜀𝑖𝑘 de
moyenne 0 et de variances A2 .
a) La variance due aux erreurs (ou intra-groupe) qui est donnée par la quantité :
SCE r
CM r = . (5.8)
n. − p
Elle exprime une estimation de la variabilité des observations à l'intérieur des p populations.
C'est la variance non expliquée par le modèle ;
A. Hamouda (IAV Hassan II) 65
b) La variance entre les groupes (ou inter-groupe) qui est donnée par la quantité :
SCE a
CM a = . (5.9)
p−1
Elle exprime une estimation de la variabilité entre les moyennes échantillonnées. C'est la
variance expliquée par le facteur étudié.
Lorsque l’hypothèse nulle est vraie et que les conditions d'application sont supposées vérifiées,
le test de l’hypothèse nulle se base sur le calcul de la statistique :
SCE a /( p − 1 ) CM a
Fobs = = (5.10)
SCE r /( n . − 1 ) CM r
qui une valeur observée de la variable F de Snedecor à k1=p-1 et k2=n.-p degrés de liberté.
Il s'agit en effet du rapport de valeurs observées de deux variables khi-deux divisée chacune par
son nombre de degrés de liberté.
On rejette l’hypothèse nulle, donnée par les expressions (5.1) et (5.6) selon le type de modèle,
au niveau de signification , lorsque :
Fobs F1− ,
c’est-à-dire lorsque le carré moyen CM a est suffisamment grand par rapport au carré moyen
CM r .
Si l'hypothèse nulle est rejetée, on évalue le degré de signification (appelé aussi probabilité
d'erreur et noté p-value) qui est, dans ces conditions, inférieur à où est le risque de première
espèce (figure 5.3).
Plus la valeur de p-value est petite, plus confortable est la conclusion de rejeter l'hypothèse
nulle. La plupart des logiciels statistiques donnent cette probabilité à la fin de chaque test :
p − valeur = P ( F Fobs ) .
66
f(x)
Ne pas rejeter Ho Rejeter Ho
1-
0
0 F1- x
En utilisant les notations des paragraphes précédents, notamment celles du paragraphe 5.2.1,
on peut écrire les formules de calculs de l'ANOVA 1 suivantes :
− l'effectif total des observations est : 𝑛. = ∑𝑝𝑖=1 𝑛𝑖
𝑛𝑖
− la somme des observations de l'échantillon tiré de la population i est : 𝑦𝑖. = ∑𝑘=1 𝑦𝑖𝑘
𝑝
− la somme totale de toutes les observations est : 𝑦.. = ∑𝑖=1 𝑦𝑖.
𝑛𝑖
− la somme des carrés générale est : 𝑇 = ∑𝑝𝑖=1 ∑𝑘=1 2
𝑦𝑖𝑘
2
𝑦
− le facteur de correction est : 𝐶 = .. ⁄𝑛.
− la somme des carrés des écarts des observations de l'échantillon tiré de la population i :
𝑛𝑖 2 𝑛𝑖 2
1
𝑆𝐶𝐸𝑖 = ∑ 𝑦 − (∑ 𝑦𝑖𝑘 )
𝑛𝑖
𝑘=1 𝑖𝑘 𝑘=1
− la somme des carrés des écarts résiduelle est donnée par la somme des carrés des écarts
par échantillon : 𝑆𝐶𝐸𝑟 = ∑𝑝𝑖=1 𝑆𝐶𝐸𝑖
− la somme des carrés des écarts totale est : 𝑆𝐶𝐸𝑡 = 𝑇 − 𝐶
− la somme des carrés des écarts factorielle se calcule par différence :
𝑆𝐶𝐸𝑎 = 𝑆𝐶𝐸𝑡 − 𝑆𝐶𝐸𝑟
𝑦2
ou par la formule d'une somme des carrés des écarts : 𝑆𝐶𝐸𝑎 = ∑𝑝𝑖=1 𝑛𝑖. − 𝐶
𝑖
A. Hamouda (IAV Hassan II) 67
Rappelons qu’on rejette l’hypothèse H 0 lorsque 𝑭𝒐𝒃𝒔 𝑭𝟏−𝜶 à (p-1) et (n.-p) degrés de liberté.
La valeur de p-valeur est, dans ce cas, inférieure ou égale au seuil de signification . Si on
rejette 𝑯𝟎 on dit que le test est significatif et on conclut qu'il y a au moins deux moyennes qui
sont différentes.
Exemple 5.1
Reprenez les données du tableau 5.1 et testez s'il existe des différences significatives entres les
acidités des trois classes d'hybrides de mandarines ?
Solution 5.1
a) Méthode : ANOVA 1, modèle fixe (ou modèle à effets fixes)
b) Conditions d'application :
- les trois échantillons sont aléatoires, simples et indépendants entre eux,
- les distributions des trois populations sont normales,
2
- les variances des trois populations sont égales : Le test de Bartlett donne 𝜒𝑜𝑏𝑠 = 2.143 et p-
valeur=0.343 (>0.05), ce qui conduit au non rejet de l’hypothèse d’égalité des variances.
68
c) Hypothèse nulle : H 0 : 1 = 2 = 3
Hypothèse alternative : H0 : i j pour au moins deux hybrides
d) Calcul :
• Nombre de populations : p=3
• Effectifs des échantillons : n1=n2=n3=10 observations
• Effectif total : n.=30 observations
• Total par échantillon : Y1.= 106.27 ; Y2.=135.83 ; Y3. =120.27
• Total général : Y.. =106.27+135.83+120.27=362.37
• Terme de correction : C= (362.37/30) = 4377.07
• Somme des carrés : T= 8.28² + 11.92² + … + 12.46² = 4447.14
• Somme des carrés des écarts par échantillon :
SCE1 = (8.28² + … + 10.86²)-106.27²/10=14.096 ; SCE2= 5.836 et SCE3= 6.411
• Somme des carrés des écarts résiduelle : SCEr = 14.096 + 5.8358 + 6.41106 = 26.342
• Somme des carrés des écarts totale : SCEt = T-C = 4447.14 - 4377.07 = 70.072
• Somme des carrés des écarts factorielle : SCEa = SCEt - SCEr = 70.072 - 26.342 = 43.730
ou SCEa = (106.27²/10 + 135.83²/10 + 120.27²/10) - 4377.07 = 43.730
Le tableau d'analyse de la variance :
Source de variation d.l SCE CM Fobs p-value
Classes d'hybrides 2 43.7302 21.865 22.41 1.86 10-6
Variations résiduelles 27 26.3420 0.9756 - -
Total 29 70.072 - - -
Nous avons vu qu’un test F significatif indique l’existence de différences significatives entre
les moyennes. Or, il est aussi important de donner une mesure qui reflète la taille de l’effet du
facteur étudié.
Plusieurs paramètres ont été proposés dans la littérature pour estimer cette taille de l’effet d’un
facteur. Parmi les plus connus, on peut citer le êta-carré (²) et le oméga-carré (²).
1) Le êta-carré correspond au rapport :
𝑆𝐶𝐸𝑎
𝜂2 =
𝑆𝐶𝐸𝑡
A. Hamouda (IAV Hassan II) 69
Exemple 5.2
Reprenez l'exemple 5.1 et représentez graphiquement les résultats de l'analyse de la variance.
Donnez également une mesure de la taille de l'effet du facteur "classes d'hybrides de mandarines".
Solution 5.2
a) On peut utiliser un diagramme en bâtonnets pour représenter les moyennes des 3 traitements
en les accompagnant de la représentation de la variabilité sous forme d'écart-type :
16
14
12
10
Acidité (g/l)
8
6
4
2
0
Classe 1 Classe 2 Classe 3
Classes d'hybrides
Figure 5.4. Acidités moyennes des trois classes d'hybrides ( les écarts-types).
Remarques :
- Si la variable indépendante (facteur) est métrique ou ordinale (doses, températures, etc.), on
utilisera de préférence une représentation sous forme de points reliés entre eux par des lignes
brisées ;
- La variabilité pourra être aussi représentée par l'erreur-standard (écart-type de la moyenne)
au lieu des écarts-types.
Puisque le test est significatif (rejet de H0), on peut calculer la valeur de Oméga-carré :
43.73 − ( 3 − 1 )0.9756
2 = = 0.59 .
70.072 + 0.9756
Il s'avère que 59% de la variabilité de l'acidité est attribuée aux classes d'hybrides de mandarines.
70
Plus qu'un test d'hypothèse, l'analyse de la variance peut avoir aussi comme objet l'estimation
de paramètres.
1) Dans le cas du modèle fixe, on est souvent amené à estimer la variance commune des
populations (²), les moyennes des différentes populations (i), la moyenne générale si
l'hypothèse nulle n'est pas rejetée () et les effets des différents niveaux du facteur étudié (ai).
On peut montrer, par le calcul des espérances mathématiques, que le carré moyen résiduel est
une estimation sans biais de la variance commune des populations :
𝜎̑ ² = 𝐶𝑀𝑟 .
L'intervalle de confiance de cette variance au niveau de confiance (1-)100% peut être obtenu par
:
𝑆𝐶𝐸𝑟 𝑆𝐶𝐸𝑟
2 < 𝜎2 < 2
𝜒1−𝛼/2 𝜒𝛼/2
𝐶𝑀𝑟
𝜇̂ 𝑖 = 𝑦̄ 𝑖 ± 𝑡1−𝛼⁄2 √
𝑛𝑖
𝐶𝑀𝑟
𝜇̂ = 𝑦̄ ± 𝑡1−𝛼⁄2 √ ,
𝑛.
où la variable t de Student possède n.-p degrés de liberté. On peut également obtenir une
estimation de la différence entre les moyennes de deux populations i et i'.
1 1
(𝑦̄ 𝑖 − 𝑦̄ 𝑖′ ) ± 𝑡1−𝛼⁄2 √𝐶𝑀𝑟 (𝑛 + 𝑛 ).
𝑖 𝑖′
2) Dans le cas du modèle aléatoire, on est souvent amené à estimer les deux composantes de la
variance 2 et A2 , la composante additionnelle A2 est la variance des variables aléatoires Ai
.
Pour autant que 𝐶𝑀𝑎 ≥ 𝐶𝑀𝑟 , on obtient les estimations non biaisées suivantes :
(𝑝−1)(𝐶𝑀𝑎 −𝐶𝑀𝑟 )
𝜎̑ 2 = 𝐶𝑀𝑟 et 𝜎̑𝐴2 = 𝑏
1
où 𝑏 = 𝑛. − 𝑛. ∑𝑝𝑖=1 𝑛𝑖2 .
Si les échantillons ont le même effectif n, la formule donnant 𝜎̂𝐴2 se simplifie :
(𝐶𝑀𝑎 − 𝐶𝑀𝑟 )
𝜎̑𝐴2 =
𝑛
et l'intervalle de confiance de la moyenne générale s'obtient par la relation :
A. Hamouda (IAV Hassan II) 71
𝐶𝑀
𝜇̂ = 𝑦̄ ± 𝑡1−𝛼⁄2 √ 𝑛𝑝𝑎
Exemple 5.3
Reprenez l'exemple 5.1 et estimez les moyennes des trois classes de mandarines, la moyenne
générale, les effets du facteur étudié et la variance commune des trois classes.
Cherchez également les intervalles de confiances de ces moyennes et de la variance commune ?
Solution 5.3
Sachant que le modèle est fixe et en supposant que les conditions d'application de l'ANOVA sont
vérifiées, les moyennes des trois populations et leurs limites de confiance au niveau 95% sont
données par :
ˆ i = yˆ i 2,052 0.9756 / 10
ou encore :
1 = 10.63g / l avec comme limites de confiance 9.99 et 11.27 g/l ;
2 = 13.58g / l avec comme limites de confiance 12.94 et 14.22 g/l ;
3 = 12.03g / l avec comme limites de confiance 11.39 et 12.67 g/l.
D'autre part, calculer une estimation de la moyenne générale alors que les moyennes théoriques des
trois classes ne sont pas égales ne présente pas d'intérêt.
Quant aux effets des trois traitements, ils sont estimés par :
â1 = 10.63 − 12.08 = −1.45 , â 2 = 1.50 et â 3 = −0.05 .
La variance commune des populations est estimée par : ² = 0.98 et les limites de confiance sont
données par :
26.342 26.342
2
43.195 14.573
5.7. CONCLUSION
L'ANOVA 1 reste une méthode simple à réaliser et ses résultats sont faciles à interpréter car
elle ne fait intervenir qu'une seule variable indépendante (un seul facteur). Il est utile de
distinguer entre le modèle fixe et le modèle aléatoire bien que la statistique du test se calcule
de la même manière. Il est à rappeler que dans le cas d’un modèle à effets aléatoires, le
chercheur s’intéresse à un nombre très élevés de niveaux mais tire au hasard un sous-ensemble
de p niveaux.
Nous avons souligné que certaines conditions d'application doivent au préalable être vérifiées,
sachant toutefois que l'ANOVA est une méthode robuste dans la mesure où de légères violations
de ces conditions d'application n'entraînent que des effets mineurs. Ceci est surtout vrai pour
l'hypothèse de la normalité, plus particulièrement lorsque les effectifs des échantillons sont
raisonnablement grands. Si les distributions des populations sont en cloche et si le rapport de la
plus grande à la plus petite variance ne dépasse pas trois ou quatre, l'ANOVA reste
généralement valable. La répercussion d’une assez grande hétérogénéité des variances est
72
surtout importante lorsque les effectifs des échantillons sont assez différents. Nous reviendrons
sur les solutions à adopter lorsque ces conditions d'application sont loin d'être respectées.
D'autre part, lorsque l'ANOVA 1 ne montre pas de différences significatives entre les
moyennes, il est souvent intéressant de calculer la puissance (1-) du test (cf. chapitre 2). Ce
problème sera étudié dans le cours de biométrie (2ème année du cycle ingénieur de l’IAV).
CHAPITRE 6
6.1. INTRODUCTION
6.2.1. Définitions
En présence de deux critères de classification, on est amené à préciser non seulement la nature
de chacun des deux facteurs, c’est-à-dire si le facteur est fixe ou aléatoire (cf. ANOVA1), mais
aussi le type de leur relation, c’est-à-dire si les deux facteurs sont croisés ou hiérarchisés.
On parle de facteurs croisés lorsqu’aucun d'eux n'est subordonné à l'autre. Il s'agit d'une sorte
de disposition factorielle des deux facteurs : chaque niveau de l'un des facteurs apparaît avec
chacun des niveaux de l'autre facteur.
Par contre, on dit que les deux facteurs sont hiérarchisés lorsque l'un deux est subordonné à
l'autre. Si le facteur b est hiérarchisé au facteur a, alors chaque niveau du facteur a est associé
à différents niveaux du facteur b.
Profils
Horizons
P1 P2 P3 P4
O y111 y112 y121 y122 y131 y132 y141 y142
A y211 y212 y221 y222 y231 y232 y241 y242
On constate d'abord qu'il y a bien deux critères de classification, l'horizon qui est un facteur
fixe avec deux niveaux et le profil qui est un facteur aléatoire avec quatre niveaux, car chaque
valeur du pH est classée en fonction d'un horizon pédologique et d'un profil. On remarque
ensuite que le pH des deux horizons est mesuré chaque fois dans le même profil et chacun des
horizons a la même signification pour tous les profils. On ne peut donc pas intervertir les
données des profils pour un horizon et pas pour l'autre. Dans ces conditions, on dit que les
critères "horizons" et "profils" sont croisés.
Il y a toujours les deux mêmes critères de classification, le facteur "horizons" avec deux niveaux
et le facteur "profils" avec quatre niveaux. Le profil P1 où l'on a mesuré le pH de l'horizon O
et le profil P1 où l'on a mesuré le pH de l'horizon A sont différents : il n'y a aucune
correspondance entre eux. On peut donc intervertir sans problème les données des profils pour
un même horizon. Le facteur "profils" est donc dit hiérarchisé au facteur "horizons".
A. Hamouda (IAV Hassan II) 75
6.2.2. Remarques
Deux facteurs croisés ont un rôle interchangeable. Les niveaux des deux facteurs sont croisés
et une ou plusieurs observations pour chacune des combinaisons sont obtenues. Le tableau 6.1
donne la forme générale que prend un tableau de données pour deux facteurs a et b de nombres
de niveaux respectifs p et q, lorsqu'on dispose de n observations par échantillon (c'est-à-dire par
combinaison). La notation 𝑦𝑖𝑗𝑘 désigne la k-ième observation de l'échantillon prélevé dans la
population relative à la combinaison du i-ième niveau du premier facteur avec le j-ième niveau
du second facteur.
Tableau 6.1. Forme générale du tableau de données qu'on traite par le modèle croisé d'ANOVA 2.
Facteur b
Niveaux b1 b2 … bq
y111 y121 … y1q1
a1 y112 y122 … y1q2
… … … …
y11n y12n … y1qn
y211 y221 … y2q1
a2 y212 y222 … y2q2
Facteur a
… … … …
y21n y22n … y2qn
... … … … …
yp11 yp21 … ypq1
ap yp12 yp22 … ypq2
… … … …
yp1n yp2n … ypqn
Les observations par combinaison des niveaux des deux facteurs sont prélevées de manière
aléatoire et simple, et leur ordre peut être modifié dans la même combinaison.
D'autre part, nous allons devoir distinguer trois modèles (paragraphes 6.3.3 à 6.3.5) :
− un modèle I, appelé aussi fixe, lorsque les deux facteurs sont fixes (paragraphes 6.3.3);
− un modèle II, appelé aussi aléatoire, lorsque les deux facteurs sont aléatoires (paragraphes
6.3.4) ;
− un modèle III, appelé aussi mixte, lorsque l'un des deux facteurs est fixe, l'autre est
aléatoire (paragraphes 6.3.5).
Dans tous les cas, nous ne considérons ici que le cas où le plan est complet et équilibré, c'est-
à-dire qu’aucune combinaison de facteurs ne manque et que l'effectif des observations de
chaque combinaison des niveaux des deux facteur (échantillon) est constant et égal à n.
76 A. Hamouda (IAV Hassan II)
Une expérience a été mise en place pour étudier les effets de trois niveaux de température et de
trois niveaux de pH sur la croissance d'une bactérie dans une culture. Trois répétitions ont été
retenues par combinaison. La croissance est mesurée par la densité optique (tableau 6.2).
Tableau 6.2. Densités optiques mesurant la croissance d'une bactérie dans une culture
à trois pH et trois températures.
Températures
pH 20 °C 30 °C 40 °C
5 12.6 10.1 14.5 10.4 15.8 13.2 20.9 17.5 22.4
6 18.8 22.0 19.9 28.0 22.0 27.8 30.0 35.0 30.6
7 40.0 39.4 37.4 43.4 43.1 46.4 54.9 58.0 54.6
On considère deux facteurs contrôlés (fixes) indépendants l'un de l'autre, le premier, noté a à p
niveaux et le second, noté b à q niveaux. Dans chacune des pxq populations qui correspondent
aux combinaisons des niveaux des deux facteurs, on prélève un échantillon aléatoire et simple
de n observations.
a) Modèle observé
Comme dans le cas de l'ANOVA 1, l'écart entre une observation et la moyenne générale peut
être scindé en plusieurs composantes :
On constate que l’interaction, donnée par la quantité (3) de l'expression 6.1, est nulle lorsque :
En d'autres termes, il y a absence de l'interaction si l'effet d'un facteur sur la variable dépendante
demeure le même pour les différents niveaux du second facteur. L'interaction est une mesure de
la non-additivité des effets des deux facteurs.
Examinons, en effet, les graphes de la figure 6.1 où l'on suppose étudier deux facteurs a et b croisés
dont les niveaux du premier sont désignés par a1 et a2 et ceux du second par b1 et b2 :
− Sur la figure 6.1 (a), on constate qu'il y a absence des effets principaux des facteurs a et b et
il n'y a pas d'interaction ;
− Sur la figure 6.1 (b), on constate qu'il n'y a pas d'effet du facteur a et il n'y a pas d'interaction,
mais il y a effet principal du facteur b. L'absence de l'interaction s'explique par la différence
de moyennes entre les deux niveaux du facteur b qui reste la même lorsqu'on passe du niveau
a1 au niveau a2 du facteur a ;
− Sur la figure 6.1 (c), il y a effets principaux des facteurs a et b et il n'y a pas d'interaction ;
− Sur la figure 6.1 (d), il y a effets principaux des facteurs a et b et il y a interaction. L'interaction
s'explique par la différence de moyennes entre les deux niveaux du facteur b qui s'amenuise
lorsqu'on passe du niveau a1 au niveau a2 du facteur a ;
− Sur la figure 6.1 (e), on constate qu'il y a effet du facteur a et de l'interaction, mais il n'y a pas
effet du facteur b ;
− Sur la figure 6.1 (f), on constate qu'il n'y a pas d'effets ni du facteur a ni du facteur b, mais il
y a interaction. Il y a lieu de réaliser deux ANOVA 1 (une pour comparer les moyennes du
facteur b pour le niveau a1 du premier facteur et l’autre pour comparer les moyennes du
facteur b pour le niveau a2 du premier facteur).
78 A. Hamouda (IAV Hassan II)
a Moyennes b Moyennes c
Moyennes b1
b1
b1
b2 b2 b1
a1 a2 a1 a2 a1 a2
Facteur a Facteur a Facteur a
b1 b2
b2
a1 a2 a1 a2 a1 a2
Facteur a Facteur a Facteur a
Lorsque l'interaction est significative, une attention particulière doit donc être accordée à
l'interprétation des effets des facteurs d'intérêt. En effet, si l'interaction est significative :
− Un effet significatif du facteur b ne signifie pas forcement l'existence de différences entre
les niveaux de ce facteur pour chacun des niveaux du facteur a. Cela peut être
éventuellement le cas de la figure 6.1 (d) ;
− Un effet non significatif du facteur b peut toutefois avoir de l'effet pour certains niveaux
du facteur a. Cela peut être éventuellement le cas de la figure 6.1 (f).
p q n p q
On constate que les sommes des doubles produits ne sont pas considérées puisqu'elles sont
nulles dans un tel modèle équilibré, ce qui facilitera l'interprétation ultérieure. Ici, on retrouve
en effet les formules des sommes des carrés des écarts. Ces quantités peuvent, avec leurs
nombres de degrés de liberté, s'écrire :
où :
− SCE t représente la somme des carrés des écarts totale (variabilité totale) ;
− SCE a et SCE b représentent les sommes factorielles des carrées des écarts relatives à chacun
des deux facteurs (variabilités dues au facteur a et au facteur b) ;
− SCE ab représente la somme des carrées des écarts relative à l'interaction des deux facteurs
(variabilité due à l'interaction) ;
− SCE r représente la somme des carrées des écarts résiduelle (variabilité résiduelle, c'est-à-
dire à l'intérieur des échantillons).
Comme en ANOVA 1, on peut calculer les différents carrés moyens en divisant les sommes
des carrées des écarts par leurs nombres de degrés de liberté :
b) Modèle théorique
On peut donc dire que toute valeur observée Y ijk (densité optique de la répétition k
correspondant au pH i et à la température j) est la somme de cinq termes :
− une moyenne générale : ..
− un effet principal du facteur a au i-ième niveau : a i = i . − ..
− un effet principal du facteur b au j-ième niveau : b j = . j − ..
− un effet de l'interaction entre les niveaux ai de a et bJ de b : ( ab )ij = ij − i . − . j + ..
− un terme d'erreur aléatoire : ijk = Y ijk − ij
Les variables résiduelles ijk sont supposées être normales indépendantes de moyenne nulle et
de même variance ². On peut aussi vérifier que :
p q p q
ai = 0 , b j = 0 et ( ab )ij = ( ab )ij = 0 .
i =1 j=1 i =1 j=1
2) Dans le cas où il y a présence d’effet de l’un ou des deux facteurs et/ou de l’interaction, on
est souvent amené à fournir une mesure globale de cet effet :
p
- pour le facteur a, cet effet est mesuré par : a2 = 1
p-1 a
i =1
2
i
;
q-1
- pour le facteur b, cet effet est mesuré par : b2 = 1 b 2
j
;
j =1
1 p q
- pour l’interaction, cet effet est mesuré par : ab2 = ( ab )ij2 .
(p - 1)(q - 1) i =1 j=1
H 0 : a2 = 0 ou 1. = 2. = ... = p.
H '0 : b2 = 0 ou .1 = .2 = ... = .q
H "0 : ab
2
=0
3) La réalisation des tests de signification se base sur le calcul des espérances mathématiques et
la connaissance des distributions des sommes des carrées des écarts ou des carrés moyens.
Lorsque les conditions d'application du modèle sont vérifiées, on obtient les valeurs attendues
des carrés moyens suivantes :
- E(CM a ) = 2 + qn a2 ;
- E(CM b ) = 2 + pn b2 ;
- E(CM ab ) = 2 + n ab
2
;
- E(CM r ) = 2 (pour n>1) ;
et les distributions des différentes sommes des carrés des écarts suivantes :
SCE a /( p − 1) CM a
Fa = =
SCE r /( pq( n − 1)) CM r
qui est, sous 𝐻0 , une valeur observée d'une variable F de Fisher-Snedecor à k1=p-1 et
k2=pq(n-1) degrés de liberté. On rejette H 0 lorsque 𝐹𝑎 ≥ 𝐹1−𝛼 , où 𝐹1−𝛼 est lue sur la table
statistique avec k1=p-1 et k2=pq(n-1) degrés de liberté (ou que p-value est inférieure au risque
de première espèce (p-value < )) ;
- Lorsque H 0' est vraie, 𝐸(𝐶𝑀𝑏 ) = 𝐸(𝐶𝑀𝑟 ) ; le test de signification de l'effet principal du
facteur b se fait donc en calculant la quantité :
CM b
Fb =
CM r
et en rejetant 𝐻0' lorsque 𝐹𝑏 ≥ 𝐹1−𝛼 , où 𝐹1−𝛼 est lue sur la table statistique avec k1=q-1 et
k2=pq(n-1) degrés de liberté (p-value < ) ;
- Lorsque 𝐻0" est vraie, 𝐸(𝐶𝑀𝑎𝑏 ) = 𝐸(𝐶𝑀𝑟 ) ; le test d'absence d'interaction se fait donc en
calculant la quantité :
CM ab
Fab =
CM r
et en rejetant 𝐻0" lorsque 𝐹𝑎𝑏 ≥ 𝐹1−𝛼 , où 𝐹1−𝛼 est lue sur la table statistique avec
k1=(p-1)(q-1) et k2=pq(n-1) degrés de liberté (p-value < ).
Les deux facteurs sont ici aléatoires, c’est-à-dire qu'on a une infinité de niveaux aussi bien pour
le facteur a que pour le facteur b. Un échantillonnage à deux degrés est effectué. On prélève
d'abord un échantillon au hasard constitué de pq populations puis, au sein de chacune de celles-
ci et toujours au hasard, un échantillon de n individus est sélectionné.
L'écriture du modèle théorique tient compte du caractère aléatoire des moyennes des différents
niveaux des deux critères de classification (Μ𝑖. et Μ.𝑗 ) et de la moyenne de chaque combinaison
des niveaux des deux facteurs (𝑀𝑖𝑗 ). Le modèle théorique s'écrit donc :
On suppose que les quantités i , j , ( ) ij et ijk sont des variables aléatoires normales
indépendantes de moyenne nulle et de variances respectives 2 , 2 ,
2
et 2 . Ces variables
sont également indépendantes entre elles.
1) Comme dans le cas du modèle fixe, on peut tester les effets principaux des facteurs a et b et
l’interaction. L’importance de chacune de ces trois sources de variation sur la variable
dépendante est mesurée par la variance correspondante.
2) De même, la réalisation des tests de signification tient compte des formules des espérances
mathématiques des sommes des carrées des écarts, ou des carrés moyens, et de la connaissance
de leurs distributions. Lorsque les conditions d'application du modèle sont vérifiées, on obtient
les espérances mathématiques des carrés moyens suivantes :
- E ( CM a ) = ² + n
2
+ qn 2 ;
- E ( CM b ) = ² + n
2
+ pn 2 ;
- E ( CM ab ) = ² + n
2
;
- E (CM r ) = ² (n>1) ;
- SCE a
suit une distribution 2 à p-1 degrés de liberté ;
E (CM a )
SCE b
- suit une distribution 2 à q-1 degrés de liberté ;
E (CM b )
- SCE ab suit une distribution 2 à (p-1)(q-1) degrés de liberté ;
E (CM ab )
SCE r
- suit une distribution 2 à pq(n-1) degrés de liberté (n>1).
E (CM r )
CM a
Fa =
CM ab
qui est, sous 𝐻0 , une valeur observée d'une variable F de Fisher-Snedecor, et à rejeter 𝐻0 lorsque
𝐅𝐚 ≥ 𝐅𝟏−𝛂 , où 𝐹1−𝛼 est lue sur la table statistique avec k1=p-1 et k2=(p-1)(q-1) degrés de liberté
(c'est-à-dire lorsque p-value < );
A. Hamouda (IAV Hassan II) 83
- Lorsque 𝐻0' est vraie, 𝐸(𝐶𝑀𝑏 ) = 𝐸(𝐶𝑀𝑎𝑏 ). Le test consiste donc à calculer la quantité :
CM b
Fb =
CM ab
et à rejeter 𝐻0' lorsque 𝐅𝐛 ≥ 𝐅𝟏−𝛂 , où 𝐹1−𝛼 est lue sur la table statistique avec k1=q-1 et
k2= (p-1)(q-1) degrés de liberté (p-value < ) ;
- Lorsque 𝐻0" est vraie, 𝐸(𝐶𝑀𝑎𝑏 ) = 𝐸(𝐶𝑀𝑟 ). Le test consiste donc à calculer la quantité :
CM ab
Fab =
CM r
et à rejeter 𝐻0" lorsque 𝐅𝐚𝐛 ≥ 𝐅𝟏−𝛂 , où 𝐹1−𝛼 est lue sur la table statistique avec
k1=(p-1)(q-1) et k2=pq(n-1) degrés de liberté (p-value < ).
Dans ce cas, l’un des deux facteurs est fixe, l’autre est aléatoire. Si l'on suppose que c'est le
facteur a qui est fixe, cela revient à considérer un nombre p fini de niveaux pour ce facteur et
un nombre infini de niveaux pour le facteur b. Un échantillonnage à deux degrés est effectué.
Le choix des unités du premier degré concerne le facteur aléatoire, en prélevant au hasard q
niveaux par exemple. Un échantillon aléatoire et simple d’effectif n est ensuite prélevé dans
chacune des pq populations.
dans lequel les effets du facteur fixe (𝑎𝑖 ) sont des constantes alors que les effets du facteur aléatoire (Β𝑗 ) et
de l'interaction ((𝑎Β)𝑖𝑗 ) sont des variables aléatoires. En effet, les moyennes des différents niveaux du
facteur aléatoire (Μ.𝑗 ) ainsi que les moyennes des différentes populations (Μ𝑖𝑗 ) sont des variables
aléatoires. L’interaction est aléatoire puisque l’un des facteurs qui intervient dans son
expression est aléatoire.
Dans ces conditions, on a :
p
a i = i . − .. avec a i = 0 , j = . j − .. et ( a )ij = ij − i . − . j + .. .
i =1
On suppose que les variables Β𝑗 et (𝑎Β)𝑖𝑗 sont normales indépendantes de moyenne nulle et de
variance respectives 𝜎Β2 et 𝜎𝑎Β
2
, avec ∑𝑝𝑖=1(𝑎Β)𝑖𝑗 = 0 pour tout j, et indépendantes entre elles.
De même, on suppose que les variables 𝜀𝑖𝑗𝑘 sont normales indépendantes de moyenne nulle et de
variance 𝜎 2 et indépendantes des variables Β𝑗 et (𝑎Β)𝑖𝑗 .
84 A. Hamouda (IAV Hassan II)
2) La réalisation de ces tests de signification repose sur le calcul des espérances mathématiques
des sommes des carrées des écarts ou des carrés moyens et sur la connaissance de leurs
distributions théoriques. Lorsque les conditions d'application du modèle sont vérifiées et que
l'effectif n est supérieur à un, on obtient les espérances mathématiques des carrés moyens
suivantes :
- E ( CM a ) = ² + n a2 + qn a2
- E ( CM b ) = ² + pn 2
- E ( CM ab ) = ² + n a2
- E( CM r ) = ²
et les distributions des sommes des carrées des écarts suivantes :
- sous H0 ,
SCE a suit une distribution 2 à p-1 degrés de liberté
+
2
n 2
- SCE b suit une distribution 2 à q-1 degrés de liberté
E (CM b )
- SCE ab suit une distribution 2 à (p-1)(q-1) degrés de liberté
E (CM ab )
SCE r
- suit une distribution 2 à pq(n-1) degrés de liberté.
E (CM r )
En raisonnant de la même manière que dans le cas des modèles fixes et aléatoire, il ressort
d'après les espérances mathématiques et les distributions théoriques obtenues que :
CM a
Fa = .
CM ab
𝐻0 doit être rejetée lorsque 𝐅𝐚 ≥ 𝐅𝟏−𝛂 où 𝑭𝟏−𝜶 est lue sur la table statistique avec k1=p-1 et
k2=(p-1)(q-1) degrés de liberté (ou lorsque p-value <) ;
- Le test de l'hypothèse 𝐻0' repose sur le calcul de la quantité :
CM b
Fb = .
CM r
𝐻0 doit être rejetée lorsque 𝐹𝑏 ≥ 𝐹1−𝛼 où 𝐹1−𝛼 est obtenue sur la table statistique avec
k1=q-1 et k2= pq(n-1) degrés de liberté (ou lorsque p-value <) ;
A. Hamouda (IAV Hassan II) 85
CM ab
Fab = .
CM r
𝐻0 doit être rejetée lorsque 𝐅𝐚𝐛 ≥ 𝐅𝟏−𝛂 où 𝐅𝟏−𝛂 est obtenue sur la table statistique avec
k1=(p- 1)(q-1) et k2=pq(n-1) degrés de liberté (ou lorsque p-value <).
1) Les différentes sommes et le facteur de correction sont calculés par les formules suivantes :
SCE ij = k =1 y ijk
n
− somme des carrées des écarts par échantillon : 2
− Yij2. / n
1
p
− somme des carrées des écarts liée au facteur a : SCE a = Y2 −C
i =1 i ..
qn
1
q
− somme des carrées des écarts liée au facteur b : SCE b = Y. 2j . − C
pn j =1
SCE r = i =1 j =1 SCE ij
p q
− somme des carrées des écarts résiduelle :
− somme des carrées des écarts totale: SCE t = T − C
− somme des carrés des écarts de l'interaction : SCE ab = SCE t − SCE a − SCE b − SCE r
SCE ab = ni =1 j =1 ( y ij . − y i .. − y . j . + y ... ) 2
p q
qui peut être aussi calculée par :
Sources Degrés de
SCE CM Fobs Fobs Fobs
de variation liberté
Facteur a p-1 SCEa CMa
Facteur b q-1 SCEb CMb
Interaction (p-1)(q-1) SCEab CMab
Variation résiduelle pq(n-1) SCEr CMr
Variation totale pqn-1 SCEt (1) (2) (3)
6.3.6.3. Remarques
1) Si l’interaction n’est pas significative, les modèles d’ANOVA sont dits additifs. Dans ce cas,
on peut tester les effets principaux des facteurs par rapport à la quantité :
SCE ab + SCE r
CM com = .
( p − 1)(q − 1) + pq( n − 1)
CM a CM b
Fa = et Fb =
CM com CM com
Chacune de ces deux valeurs observées est comparée à la valeur théorique 𝐹1−𝛼 . Celle-ci
possède k1=p-1 et k2= (p-1)(q-1)+pq(n-1) degrés de liberté lorsqu'on teste 𝐻0 et k1=q-1 et k2=
(p-1)(q-1)+pq(n-1) degrés de liberté lorsqu'on teste 𝐻0' .
2) Lorsque l'interaction est significative, il est de coutume pour les modèles fixes de tester les
effets simples pour étudier l'effet d'un facteur à chaque niveau de l'autre facteur. Il s'agit de
séparer les données par niveau de l'un des facteurs et de réaliser plusieurs ANOVA 1 pour tester
chaque fois l'effet de l'autre facteur. Cette approche a cependant l'inconvénient de considérer
les données comme si elles concernaient des études séparées.
Dans ce cas, il convient cependant de noter que certains auteurs adoptent quelques
modifications pour améliorer les tests de signification des effets par les ANOVA 1 :
− Le carré moyen utilisé pour calculer les valeurs observées de la variable F de Fisher-
Snedecor des différentes ANOVA 1 est celui de l'ANOVA 2 et non pas celui qui provient
des ANOVA 1. Cette façon de procéder permet d'utiliser un carré moyen basé sur un plus
grand nombre de degrés de liberté ;
− Si l'on souhaite obtenir un risque d'erreur de première espèce de l'ordre de pour l'ensemble
des tests, il est souvent recommandé de considérer, pour chaque test, un risque d'erreur de
première espèce égal à '=/k, où k est le nombre de tests à réaliser (cf. exemple 6.1).
3) Lorsqu'on dispose d'une seule observation par combinaison des niveaux des deux critères de
classification, c’est-à-dire lorsque n est égal à 1, il n'y a pas de résidus. L'équation de l'analyse
de la variance devient :
A. Hamouda (IAV Hassan II) 87
Les degrés de liberté qui correspondent à ces sommes des carrées des écarts sont alors liés par
la relation :
pq − 1 = ( p − 1 ) + ( q − 1 ) + ( p − 1 )( q − 1 ) .
Il devient donc impossible, d'après le tableau d'analyse de la variance (tableau 6.3), de pouvoir
faire certaines comparaisons. Ce problème se pose pour les deux facteurs du modèle fixe et
pour le facteur aléatoire du modèle mixte.
Dans ce cas, on peut commencer par tester l'interaction en utilisant le test d'additivité de Tukey
(Tukey, 1949). Si celle-ci n'est pas significative, on peut tester les effets principaux des facteurs
fixes par rapport à cette interaction.
Le test de Tukey revient à calculer d'abord (Snedecor et Cochran, 1968; Dagnelie, 1980):
2
p
i =1 j =1 y ij ( y i . − y .. )( y . j − y .. )
q
SCE add =
i =1 ( y i . − y .. ) 2 j =1 ( y . j − y .. ) 2
p q
4) En ANOVA 2, on peut être intéressé par des estimations des paramètres. Les effets
principaux peuvent être estimés par les formules qui ont été données tout au long de ce chapitre.
De même, lorsque le modèle est aléatoire, on peut obtenir des estimations non biaisées des
variances des effets principaux :
ˆ 2 = (CM a − CM ab ) / qn
ˆ 2 = (CM b − CM ab ) / pn
ˆ
2
= (CM ab − CM r ) / n si n>1
̂ = CM r
2
si n>1.
5) Les tailles des effets associées à chacun des facteurs et à l'interaction peuvent être évaluées
en utilisant, comme on l'avait fait pour l'ANOVA 1, différents paramètres. Parmi ceux-ci, on
peut citer le êta-carré (²) qui correspond au rapport de la somme des carrées des écarts de la
source de variation en question à la somme des carrées des écarts totale :
Toutefois, si l'on perd une ou quelques observations au cours d'une expérience pour laquelle on
a prévu des échantillons d'une même taille, on pourrait obtenir des estimations pour ces données
manquantes pour faciliter les calculs. Deux situations peuvent se présenter :
1) Si l'on dispose de plusieurs observations par échantillons (n>1), la valeur manquante peut
être estimée par la moyenne de cet échantillon. Si l'on estime k valeurs, on devra diminuer
les nombres de degrés de liberté de la variation résiduelle et du total de k unités.
Exemple : Reprenons les données des densités optiques mesurant la croissance d'une bactérie
dans une culture à trois pH et trois températures et supposons que le tube à essai correspondant
à la deuxième répétition concernant le pH 7 et la température 30 °C a été mal manipulé et n’a
pas permis de mesurer la densité optique.
Températures
pH 20 °C 30 °C 40 °C
5 12.6 10.1 14.5 10.4 15.8 13.2 20.9 17.5 22.4
6 18.8 22.0 19.9 28.0 22.0 27.8 30.0 35.0 30.6
7 40.0 39.4 37.4 43.4 46.4 54.9 58.0 54.6
Puisqu’il s’agit du même échantillon, on peut remplacer la donnée manquante par la moyenne de
l’échantillon, soit 44.9. Il s’agit d’une donnée fictive qui a été calculée pour faciliter les calculs.
Le tableau d’ANOVA 2 prendra les degrés de liberté suivants :
Sources Degrés de
SCE CM Fobs
de variation liberté
pH 2 SCEa CMa
Température 2 SCEb CMb
pH x Température 4 SCEab CMab
Variation résiduelle 17 SCEr CMr
Variation totale 25 SCEt
2) Si l'on dispose d'une seule observation par échantillon (n=1), on peut utiliser l'une des
nombreuses méthodes disponibles dans la littérature tenant compte notamment du plan
expérimental adopté.
L'une des plus connues et qu'on a l'habitude d'utiliser dans le cas des expériences en blocs
aléatoires complets, consiste à minimiser le carré moyen de l'interaction. Elle fournit comme
estimation de la valeur manquante x ij (Cochran et Cox, 1955; Dagnelie, 1980) :
pY'i. +qY'.j-Y'..
ŷ ij = ,
(p-1)(q-1)
où 𝑌𝑖.' 𝑒𝑡 𝑌.𝑗' sont les sommes marginales sans valeurs estimées et 𝑌..' est la somme totale.
S'il y a plus d'une valeur manquante, la formule peut être utilisée de manière itérative. Dans le
cas de deux valeurs manquantes par exemple, on commence par donner une valeur arbitraire à
la première valeur manquante, puis on estime la seconde par la formule. Ensuite, on utilise cette
nouvelle estimation pour obtenir une nouvelle estimation de la première valeur manquante. On
poursuit le calcul jusqu'à ce que des estimations successives donnent des valeurs très proches
pour la même valeur manquante.
Si l'on estime k valeurs, on ne devra oublier de diminuer les nombres de degrés de liberté de
l'interaction et du total de k unités.
A. Hamouda (IAV Hassan II) 89
Exemple : Une expérimentation avait pour but de comparer l'ingestion de quatre aliments de
compositions différentes par des moutons. L’expérimentateur dispose de 12 animaux qu’il
répartit en trois classes selon leurs poids et a attribué les quatre aliments au hasard aux différents
moutons, à l'intérieur de chacun des trois lots. Les résultats sont exprimés en grammes
d'aliments ingérés par kilogramme de poids vif. La donnée y4.2 du lot des poids moyens recevant
l’aliment 4 n’a pas pu être récupérée.
La répartition en lots permet de contrôler l’hétérogénéité. Les animaux d’un lot sont les plus
« homogènes » possibles et les lots sont les plus différents possibles les uns des autres, tout en
souhaitant éviter des différences trop importantes pouvant conduire à une interaction entre lots
et alimentations. Ici, les lots jouent le rôle de Blocs qui constitue un facteur aléatoire (cf. cours
de biométrie de l’IAV Hassan II).
La valeur manquante est estimée à 57.2 grammes et le tableau d’ANOVA 2 prendra les degrés de
liberté suivants :
Sources Degrés de
SCE CM Fobs
de variation liberté
Alimentations 3 SCEa CMa
Lots 2 SCEb CMb
Alimentations x Lots 5 SCEab CMab
Variation totale 10 SCEt
Exemple 6.1
Reprenez les données du tableau 6.2 et analysez aussi complètement que possible les résultats obtenus ?
Solution 6.1
a) Méthode : ANOVA 2, modèle croisé fixe
- ANOVA 2 : il y a un facteur "température" et un facteur "pH" (p=3, q=3 et n=3)
- Modèle fixe : les deux facteurs sont fixes
- Modèle théorique : Yijk = .. + ai + b j + ( ab )ij + ijk
b) Conditions d'application :
- Les 9 (=3x3) échantillons sont aléatoires, simples et indépendants
- Les distributions des 9 populations sont normales et possèdent la même variance 2 .
c) Hypothèses nulles :
"
𝐻0" : : absence d'interaction température-pH contre H 1 : présence d'interaction
𝐻0 : 𝜇1. = 𝜇2. = 𝜇3. contre 𝐻1 : 𝜇𝑘. ≠ 𝜇𝑙. pour au moins 2 niveaux de températures
𝐻0' : 𝜇.1 = 𝜇.2 = 𝜇.3 contre 𝐻1' : 𝜇.𝑘 ≠ 𝜇.𝑙 pour au moins 2 niveaux de pH
d) Calcul :
Y.. =788.70 ; C= (788.70²/27) = 23038.80 ; T= (12.6²+…+54.6²)=28387.95
SCEt = T-C =5349.15
SCE1 =9.74; SCE2=14.59; …; SCE9=7.09 et SCEr = SCE1 + SCE2 + …+SCE9= 97.81
SCEtempératures= (214.7²+250.1²+323.9²)/9-23038.80=689.79
SCEpH = (137.4²+234.1²+417.2²)/9-23038.80=4487.58
SCEpH.Température = SCEt + SCEtempérature –SCEpH- SCEr=73.98
90 A. Hamouda (IAV Hassan II)
Commençons par tester l'interaction : on constate que celle-ci est significative au niveau =0.05 car
F0.95=2.928 (p-value = 0.031). Cela veut dire que les différences des densités moyennes obtenues avec
les trois températures ne sont pas les mêmes aux trois niveaux du pH. L'effet de la température est donc,
comme le montre la figure suivante, fonction du niveau choisi pour le pH.
Si nous testons les effets principaux des deux facteurs, nous constatons qu'ils sont très hautement
significatifs. Cela veut dire que les densités optiques moyennes ne sont pas toutes égales pour les trois
températures, et elles ne sont pas toutes égales pour les trois pH.
60 T =40
50 T =30
densité optique
40
T =20
30
20
10
0
4 5 6 pH 7 8
Puisque l'interaction est significative, le chercheur peut juger utile de réaliser trois ANOVA 1, une pour
chaque niveau du pH, pour comparer les effets simples du facteur "températures". On obtient les
résultats suivants :
ce qui conduit, pour chaque pH, au rejet de l'hypothèse d'égalité des densités moyennes obtenues avec
les trois températures.
A. Hamouda (IAV Hassan II) 91
Exemple 6.2
Reprenez l'Exemple 6.1 et donnez une mesure de la taille de l'effet associé à chaque facteur et à
l'interaction ?
Solution 6.2
689.79 ; 2 4487.58 et 2 73.98 .
temp
2
= pH = temp− ph =
5349.15 5349.15 5349.15
Il s'avère que 13% de la variabilité totale de la croissance des bactéries sont expliqués par la
température, 84% par le pH et 1.4% par l'interaction entre la température et le pH.
6.4.1. Introduction
Comme nous l'avons vu au paragraphe 6.2, on dit qu'un modèle d'analyse de la variance à deux
critères de classification est hiérarchisé lorsque l’un des deux facteurs est subordonné, au lieu
d'être croisé, à l’autre facteur. C'est le cas par exemple lorsqu'un aviculteur souhaite comparer
les poids des œufs pendus par trois races de poules pondeuses en choisissant, de manière
aléatoire et simple, six poules pondeuses par race et pour chacune d'elles il pèse quatre œufs
qu'il choisit également au hasard. Dans ce cas, il n'y a pas de correspondances entre les
différentes poules des deux races. On dit que le facteur "poules" est subordonné au facteur
"races".
D'une manière générale, on considère q niveaux du facteur subordonné (facteur b) à l’intérieur
de chacun des p niveaux du facteur principal (facteur a). Puis n observations à l'intérieur de
chacun des q niveaux du facteur subordonné. L'extension à plus de deux facteurs reste facile.
Dans le cas de trois facteurs par exemple, on peut considérer un troisième facteur c qui est
hiérarchisé dans les niveaux du facteur b et que ce dernier est à son tour hiérarchisé dans les
niveaux du facteur a. Le problème devient toutefois moins facile, en présence de plusieurs
facteurs, lorsque certains d'entre eux sont hiérarchisés et d'autres sont croisés. On parle dans ce
dernier cas de modèles partiellement hiérarchisés.
Dans un modèle d'ANOVA 2 hiérarchisé, le critère subordonné est généralement aléatoire et le
critère principal peut être fixe (contrôlé) ou aléatoire. On parle donc généralement de modèles
hiérarchisés mixte (paragraphe 6.4.3) ou aléatoire (paragraphe 6.4.4) selon que le facteur
principal est fixe ou aléatoire. Dans tous les cas, nous verrons qu’il est impossible d'évaluer
l'effet de l'interaction des deux facteurs.
L'écriture des modèles observé et théorique et la réalisation des calculs du modèle hiérarchisé
ne peuvent présenter de difficultés majeures pour le lecteur qui a assimilé la théorie des modèles
croisés.
On souhaite étudier l'effet de trois régions données sur la pousse moyenne des bourgeons de
pommiers d'une variété donnée au cours d'une année. Dans chaque région, quatre pommiers ont
été choisis au hasard et sur chacun d'entre eux quatre pousses, choisies aussi au hasard, ont été
mesurées. Les données obtenues en centimètres sont présentées au tableau 6.4.
Il s'agit ici d'un modèle hiérarchisé, car il apparaît qu'il n'y a aucune correspondance entre les
différents pommiers des différentes régions. Par exemple, la désignation pommier 1 de la région
1 n'a pas le même sens que la désignation pommier 1 de la région 2 ou celle de la région 3. On
dit que le facteur "pommiers" est subordonné au facteur "régions". Ce dernier est dit facteur
principal.
Lorsque le modèle est mixte, c’est-à-dire lorsque le facteur principal est fixe et le facteur
subordonné est aléatoire, l'échantillonnage à réaliser doit être à deux degrés. C'est le cas de
l'exemple des pommiers où l'on a d'abord sélectionné aléatoirement quatre pommiers dans
chaque région, et sur chacun d'entre eux, quatre pousses ont été également choisies au hasard.
Le modèle observé s'écrit donc :
( y ijk − y ... ) = ( y i .. − y ... ) + ( y ij . − y i .. ) + ( y ijk − y ij . ) , (6.3)
(y
i =1 j =1 k =1
ijk − y ... ) = qn ( y i .. − y ... ) + n ( y ij . − y i ... ) + ( y ijk − y ij . ) 2
2
i =1
2
i =1 j =1
2
i =1 j =1 k =1
Ces quantités, qui rappellent les formules des sommes des carrées des écarts, s'écrivent avec
leurs nombres de degrés de liberté comme suit :
SCE t = SCE a + SCE b / a + SCE r
pqn − 1 = ( p − 1 ) + p( q − 1 ) + pq( n − 1
où la quantité 𝑺𝑪𝑬𝒃/𝒂, qui peut aussi être écrite 𝑺𝑪𝑬𝒃(𝒂) , représente la variabilité due au facteur
subordonné (b) à l'intérieur du facteur principal (a). Les autres termes ont le même sens que
dans le cas du modèle croisé.
Les différents carrés moyens s'obtiennent en divisant les sommes des carrées des écarts par
leurs nombres de degrés de liberté :
Yijk = .. + a i + ij + ijk .
où 𝜝𝒊𝒋 représente une contribution aléatoire associée au jème niveau du facteur subordonné
correspondant au ième niveau du facteur principal. On suppose que les quantités Β𝑖𝑗 et 𝜀𝑖𝑗𝑘 sont des
variables aléatoires normales indépendantes de moyenne nulle et de variances respectives 𝝈𝟐𝜝 et
𝝈𝟐 , et qu'elles sont indépendantes entre elles. Les quantités a i sont les effets du facteur contrôlé,
ce sont des constantes telles que :
p
a i = i . − .. avec ai = 0 .
i =1
Dans le cas où il y a présence d’effet du facteur a, on est souvent amené à fournir une mesure
de cet effet par la quantité :
p
a
1
a2 = 2
i
.
p-1 i =1
2) La réalisation de ces tests repose sur le calcul des espérances mathématiques et la connaissance
des distributions théoriques des sommes des carrées des écarts ou des carrés moyens. Lorsque
les conditions d'application du modèle sont vérifiées et que l'effectif n est supérieur à 1, on
obtient les espérances mathématiques des carrés moyens suivantes :
- E(CMa ) = 2 + n B
2
+ qn a2 (cf. paragraphe 6.3.3.2)
- E(CM b/a ) = 2 + n B2
- E (CM r ) = 2
CM a
Fa =
CM b / a
94 A. Hamouda (IAV Hassan II)
et le rejet de cette hypothèse lorsque 𝑭𝒂 ≥ 𝑭𝟏−𝜶 , où la valeur de 𝑭𝟏−𝜶 est lue sur la table
statistique avec k1=p-1 et k2=p(q-1)degrés de liberté (p-value < ) ;
CM b / a
Fb / a =
CM r
et le rejet de cette hypothèse lorsque 𝑭𝒃/𝒂 ≥ 𝑭𝟏−𝜶 , où la valeur de 𝑭𝟏−𝜶 est lue sur la table
statistique avec k1=p(q-1) et k2= pq(n-1) degrés de liberté (p-value < ) ;
Dans le cas du modèle aléatoire, l'échantillonnage à réaliser est à trois degrés. Dans l'exemple
des pommiers, si le facteur "régions" avait été aléatoire, on aurait réalisé un échantillonnage à
trois degrés car les trois régions seraient elles-mêmes choisies au hasard au premier degré.
Le modèle observé est le même que dans le cas du modèle mixte, mais le modèle théorique doit
tenir compte du caractère aléatoire des moyennes i . :
Yijk = .. + i + ij + ijk ;
où i = i . − .. .
On suppose que les quantités 𝜜𝒊 , 𝜝𝒊𝒋 et 𝜺𝒊𝒋𝒌 sont des variables aléatoires normales indépendantes
de moyenne nulle et de variances respectives 𝜎Α2 , 𝜎Β2 et 𝜎 2 , ces variables sont également
supposées indépendantes entre elles.
H0 :
2
=0 contre H 1 : 2 0
2) Lorsque les conditions d'application du modèle sont vérifiées, on obtient les espérances
mathématiques des carrés moyens suivantes :
- E(CM a ) = 2 + n B2 + qn A
2
- E(CM b/a ) = 2 + n B2
- E ( CMr ) = 2
A. Hamouda (IAV Hassan II) 95
- sous H0 ,
SCE a
suit une distribution 2 à p-1 degrés de liberté et
2
+ n 2
SCE b / a
suit une distribution 2 à p(q-1) degrés de liberté ;
+ 2
n 2
SCE b / a
- sous H '0 , suit une distribution 2 à p(q-1) degrés de liberté et
2
SCE r
suit une distribution 2 à pq(n-1) degrés de liberté.
2
Les espérances mathématiques et les distributions théoriques des sommes des carrés des écarts
obtenues montrent donc que les tests se réalisent de la même manière que dans le cas du modèle
mixte (cf. paragraphe 6.4.3).
Autrement dit, SCE b / a regroupera les quantités SCE b et SCE ab du modèle croisé.
2) On peut aussi réaliser p ANOVA 1, une pour chaque niveau du facteur principal, comme si
l'on veut "comparer" chaque fois les q niveaux du facteur hiérarchisé, et de regrouper ensuite
les résultats. On obtient :
où 𝑆𝐶𝐸𝑟𝑖 et 𝑆𝐶𝐸𝑏𝑖 sont les sommes des carrées des écarts résiduelle et factorielle de la ième
ANOVA 1.
La somme des carrées des écarts du facteur principal se calcule par la relation :
1
p
SCE a = Y2 −C
i =1 i ..
qn
si les effectifs des échantillons et les nombre des niveaux du facteur hiérarchisé par niveau du
facteur principal sont constants ou par :
Yi 2.. Y...2
SCE a = i =1
p
−
ni . n..
si les effectifs des échantillons et/ou les nombre des niveaux du facteur hiérarchisé par niveau
du facteur principal sont différents. Les symboles ni . et n .. désignent respectivement le nombre
d'observations pour le niveau i du facteur principal et le nombre total d'observations.
96 A. Hamouda (IAV Hassan II)
Exemple 6.3
Reprenez les données du tableau 6.4 et testez s'il existe des différences significatives entres les
longueurs des pousses des bourgeons dans les trois régions ?
Solution 6.3
a) Méthode : ANOVA 2, modèle hiérarchisé mixte
- ANOVA 2 : il y a un facteur "régions" et un facteur "pommiers" (p=3, q=4 et n=4)
- Modèle mixte : le facteur "régions" est fixe et le facteur "pommiers" est aléatoire
b) Conditions d'application :
- voir les conditions d'application du modèle au paragraphe 6.4.3.
c) Hypothèse nulle :
En prenant un risque de 5%, on peut conclure à des différences significatives entre les longueurs
moyennes des pousses obtenues dans les trois régions (c'est-à-dire un effet région significatif).
A. Hamouda (IAV Hassan II) 97
Exemple 6.4
Une expérience clinique a été réalisée dans le but de comparer trois traitements améliorant la
récupération de la pression artérielle des patients après un type d'opérations. Chaque traitement a été
reçu par un certain nombre de patients choisis au hasard. Les pressions ont été mesurées trois fois pour
chaque patient à des moments différents de la journée. Analysez aussi complètement que possible les
résultats du tableau ci-dessous ?
Traitements Patients
1 113 85 119
1 2 127 103 105
3 115 96 105
1 142 97 96
2 2 109 125 112
3 103 130 111
4 132 98 104
1 110 92 111
3 2 97 94 86
3 103 114 91
Solution 6.4
a) Méthode : ANOVA 2, modèle hiérarchisé mixte (les 10 patients sont différents)
- ANOVA 2 : car il y a un facteur "traitements" et un facteur "patients" (p=3, q est variable et n=3)
- Modèle mixte : le facteur "traitements" est fixe et le facteur "patients" est aléatoire
b) Conditions d'application :
- voir les conditions du modèle au paragraphe 6.4.3.
c) Hypothèse nulle :
𝑯𝟎 : 𝝁𝟏. = 𝝁𝟐. = 𝝁𝟑. contre 𝑯𝟏 : 𝝁𝒊. ≠ 𝝁𝒋. pour au moins 2 traitements.
d) Calcul :
Sommes par traitement : Y1.. = 968 , Y2.. = 1359 , Y3.. = 898 et total général Y... = 3225 .
Les trois ANOVA 1, une par traitement, permettent d'obtenir SCE r et SCE b pour i=1, 2, 3 :
i i
La statistique observée dépasse la valeur théorique F0.95 = 4.737 sous l'hypothèse nulle. On rejette
alors l'hypothèse nulle avec un risque de première espèce qui est exactement égal à la valeur de la p-
value qui est de 0.012.
En prenant un risque de 5%, on peut conclure à des différences significatives entre les pressions
artérielles obtenues avec les trois traitements.
98 A. Hamouda (IAV Hassan II)
6.5 CONCLUSION
Nous avons vu que l'ANOVA2 permet d'étudier les effets de deux facteurs à la fois sur une
variable dépendante. Nous avons souligné qu'il faut distinguer entre le modèle croisé lorsque
les deux facteurs ont un rôle symétrique et le modèle hiérarchisé lorsque l'un des facteurs est
subordonné à l'autre.
L'ANOVA 2 présente plusieurs avantages par rapport à la réalisation de plusieurs ANOVA 1
par niveau de l'un des deux facteurs. Elle permet d'étudier, dans le cas du modèle croisé,
l'interaction des deux facteurs qui est parfois parmi les résultats recherchés d'une étude. Ensuite,
on peut vérifier qu'on gagne en puissance.
Nous avons donné un exemple de modèles à effets fixes où nous avons testé l'interaction avant
les effets principaux des deux facteurs. La présence d'une interaction signifie qu'un facteur
exerce des effets différents selon le niveau de l'autre facteur, et, par conséquent, le biologiste
est amené à être attentif quant à l'information apportée par l'analyse des effets principaux sur le
phénomène étudié. Des tests concernant les effets simples, c'est-à-dire l'effet d'un facteur à
chaque niveau de l'autre facteur, ou des analyses par des contrastes peuvent aider à interpréter
les résultats.
L'ANOVA 2 est une méthode robuste. Elle peut être utilisée en présence de légères déviations
par rapport aux conditions de normalité et d'égalité des variances.
Comme toute analyse de la variance, l'ANOVA 2 peut être complétée par des méthodes de
comparaisons multiples de moyennes lorsque l'effet de l'un ou des deux facteurs ou de
l'interaction s'avère significatif, pour autant que ces sources de variation soient fixes.
Ces méthodes, qui feront l'objet du chapitre 7, permettent de déceler les moyennes qui diffèrent
significativement entre elles.
CHAPITRE 7
7.1. INTRODUCTION
Lorsqu'on teste l'égalité des moyennes de plus de deux populations, l'analyse de la variance
nous permet de dire, lorsque le test est significatif, qu'il y a au moins deux moyennes qui
diffèrent significativement. Autrement dit, on ne peut savoir quelles moyennes diffèrent de
quelles autres parmi toutes les moyennes testées. Or il se peut que les expériences mises en
place par le chercheur aient pour but des tests d'hypothèses beaucoup plus spécifiques sur les
moyennes. Cette question peut être traitée par les méthodes de comparaisons multiples de
moyennes1 .
Les méthodes de comparaisons multiples de moyennes n'ont du sens qu'avec des facteurs de
nature fixe. Elles nous renseignent, après un certain nombre de tests, sur les éventuels groupes
homogènes de moyennes, c’est-à-dire sur les groupes dont les moyennes ne diffèrent pas
significativement entre elles.
On distingue ce qu'on appelle les tests de comparaisons a priori et les tests de comparaisons
a posteriori (post-hoc) selon que les tests de comparaison sont planifiés avant ou après la
collecte des données. Dans le premier cas, les comparaisons, déterminées préalablement par
l'expérimentateur, sont dirigées par la théorie, et, par conséquent, leur nombre est petit. Tandis
que les comparaisons a posteriori sont formulées lorsque les données sont collectées et les
moyennes sont examinées et rangées par l'expérimentateur, et, par conséquent, les
comparaisons entre toutes les paires de moyennes sont justifiées dans ce cas. On retient que si
les comparaisons sont planifiées à l’avance la probabilité de commettre au moins une erreur de
type I est plus petite que si les comparaisons n’interviennent qu’à posteriori, sauf si l’on planifie
toutes les comparaisons possibles à l’avance. Généralement, on réalise les comparaisons
planifiées à l’avance au moyen d'une analyse par contraste.
Mais, peut-on dire que l'on ne peut utiliser les tests de comparaisons multiples de moyennes
que si le test F d'ANOVA est significatif ? Cette condition n'est en effet requise que pour
quelques tests de comparaisons multiples. Ce sujet controversé de la nécessité ou non d'un test
F global significatif au préalable a été d'ailleurs repris par plusieurs auteurs, notamment par
Wlicox (1987) et Howell (2007). Certains d'entre eux estiment que la persistance de l'examen
du test F de l'ANOVA avant la réalisation des tests de comparaisons multiples de moyennes
relève de la tradition. Il peut arriver dans des cas très limites que l’ANOVA ne montre pas de
différences significatives entre les moyennes, alors que les résultats des comparaisons
multiples indiquent que certaines moyennes sont différentes.
Par ailleurs, l'expérimentateur non familier peut rencontrer des problèmes lorsqu'il souhaite
utiliser ces méthodes. D'abord, il doit opérer un choix devant une panoplie de procédures
proposées par les logiciels statistiques. Ensuite, il doit être attentif quant à l'interprétation des
résultats lorsqu'il y a des chevauchements entre des groupes homogènes de moyennes.
1
Les contrastes seront traités au cours de la deuxième année du cycle ingénieur.
100
L'objectif de ce chapitre sera d'abord d'exposer, après la présentation d'un exemple introductif
qui nous servira à illustrer les calculs (paragraphe 7.2), la problématique du contrôle du risque
d'erreur de première espèce lorsqu'on utilise des méthodes de comparaisons multiples de
moyennes (paragraphe 7.3). Ce sont d’ailleurs les différentes approches adoptées pour
contrôler ce risque d’erreur sans trop sacrifier de puissance qui ont fait que les méthodes de
comparaison proposées dans la littérature sont nombreuses. Le paragraphe 7.4 nous permettra
de distinguer les comparaisons a priori et les comparaisons a posteriori. L'objectif sera ensuite
de présenter quelques-unes de ces méthodes, en les classant en méthodes de comparaisons des
moyennes deux à deux (paragraphe 7.5) et en méthodes de comparaisons des moyennes par
groupes (paragraphe 7.6). Nous exposerons enfin la comparaison des moyennes d'un certain
nombre de traitements à la moyenne d'un traitement témoin (paragraphe 7.7).
Dans tous les cas, nous supposerons que les conditions de base de l'analyse de variance sont
toujours vérifiées tant en ce qui concerne le caractère aléatoire et simple des échantillons que
la normalité et l'égalité des variances des populations parents. Nous supposerons aussi, sauf
mention particulière, que les échantillons prélevés sont tous de même effectif.
Un chercheur souhaite tester l'effet de la race sur le rendement à l’abattage des bovins mâles.
Il dispose des valeurs du tableau 7.1, exprimant le rendement poids mort/poids vif en pour-cent,
en considérant un échantillon aléatoire et simple par race de quatre animaux ayant pratiquement le
même âge. Il souhaite procéder aux comparaisons multiples de moyennes.
Ces données nous serviront à illustrer les calculs des différentes méthodes de comparaisons
multiples de moyennes qui seront traitées au fil des paragraphes de ce chapitre.
7.3.1. Généralité
En effet, lorsqu'on évoque les comparaisons multiples de moyennes, on est amené à distinguer
ce qu'on appelle le risque d'erreur par comparaison que nous noterons (paragraphe 7.3.2) et
le risque global d'erreur que nous noterons g (paragraphe 7.3.3), ce dernier peut être aussi
appelé aussi taux d'erreur de l'ensemble.
A. Hamouda (IAV Hassan II) 101
Le risque d'erreur par comparaison1 est la probabilité de commettre une erreur de première
espèce dans une comparaison donnée. Si l'on réalise, par exemple, une seule comparaison entre
deux moyennes, en testant l'hypothèse élémentaire :
ij
H0 : i = j où i j (7.1)
par le test t de Student au niveau =, le risque d'erreur pour cette comparaison sera égal à
. Autrement dit, au maximum dans 5% des cas, on rejettera l’hypothèse nulle à tort.
Considérons l'une des approches des comparaisons multiples des moyennes qui consiste à
tester chacune des hypothèses élémentaires avec un risque d'erreur par comparaison . Dans
ce cas, le risque global d'erreur de première espèce (g) est la probabilité de déclarer au moins
une hypothèse élémentaire comme fausse lorsque l'hypothèse globale est vraie.
Ce risque global d'erreur (g) est plus grand que le risque d'erreur par comparaison () et les
deux risques sont égaux dans le cas où l'expérience ne comporte qu'une seule comparaison.
Lorsque les comparaisons deux à deux sont indépendantes les unes des autres, le risque global
d'erreur est donné par (cf. paragraphe 5.2.1) :
g = 1 − (1 − ) c (7.2)
où c représente le nombre de comparaisons à réaliser. Le tableau 7.2 montre que les valeurs du
risque global d'erreur augmentent considérablement avec l'augmentation du nombre de
comparaisons. En particulier, si l'expérimentateur réalise 10 comparaisons, il y a 40% de
chance de commettre au moins une erreur de première espèce, c’est-à-dire de trouver une
différence qui en réalité n'existe pas.
Dans les comparaisons multiples de moyennes, les différentes comparaisons ne sont pas dans
la réalité tout à fait indépendantes. On retient que lorsqu’on réalise c comparaisons ayant
chacune une probabilité α d’erreur de type I, la probabilité de commettre au moins une erreur
de type I ne peut jamais dépasser c*α. On peut donc noter que les limites du αg sont :
g c . . (7.3)
Dans la plupart des situations, cependant, la quantité g, calculée selon l'expression 7.2,
représente une approximation raisonnable de g.
1
En anglais : comparisonwise error rate.
2
En anglais : overall error rate.
102
7.4.1. Généralités
Les comparaisons a posteriori1 ne sont pas planifiées, car le chercheur n'a pas d'idées claires
quant aux différences qu'il compte observer. Les comparaisons sont donc effectuées après avoir
collecté les données et examiné les moyennes. On comprend donc que les comparaisons entre
les moyennes de n'importe quel groupe sont justifiées.
Ces comparaisons sont souvent moins puissantes par rapport aux comparaisons a priori, mais
elles permettent de déceler toutes les différences significatives entre les moyennes.
Dans ce cas, les hypothèses à tester sont énoncées avant la collecte des données en se basant
sur l'expérience de l'expérimentateur ou sur des considérations théoriques. Ces tests permettent
éventuellement d'obtenir des confirmations empiriques de certaines hypothèses théoriques en
se servant des données réelles.
Comme ces comparaisons sont planifiées à l'avance, leur nombre est souvent réduit par rapport
au nombre total de comparaisons possibles. De ce fait, le risque global d'erreur à contrôler ne
concerne que les comparaisons planifiées. Elles présentent aussi l'avantage d'avoir une
puissance élevée. Leur inconvénient est qu'elles sont sélectives dans la mesure où certains
groupes de moyennes ne sont pas comparés bien que cela puisse être intéressent.
1
En anglais : post-hoc tests.
A. Hamouda (IAV Hassan II) 103
Si le nombre de comparaisons à réaliser est assez élevé, les méthodes a priori n'ont plus
l'avantage de puissance et, dans ce cas, certains auteurs conseillent même d'effectuer les
comparaisons par les méthodes a posteriori.
7.5.1. Introduction
Les méthodes de comparaisons des moyennes deux à deux consistent à réaliser les
comparaisons de toutes les moyennes prises deux à deux. Pour p moyennes, cela revient à tester
la signification des p(p-1)/2 hypothèses suivantes :
H 0 : i = j
ij
où 1 i j p . (7.4)
d o = yi − y j
( p , )
v c = ( ) 2CM e n
dans laquelle :
− est une valeur théorique relative à la distribution d'échantillonnage de la méthode utilisée.
Sa valeur est donnée dans des tables en fonction du nombre de degrés de liberté du CMe,
du niveau de signification et parfois, aussi, du nombre de moyennes p ;
− CMe est le carré moyen résiduel issu de l'ANOVA 1 à degrés de liberté. Dans le cas, d'une
analyse de la variance à deux ou plusieurs critères de classification, on le remplace par le
carré moyen qui a servi à la comparaison des moyennes du facteur fixe, c'est-à-dire par le
carré moyen résiduel si le modèle est fixe ou par le carré moyen de l’interaction si le modèle
est mixte ;
− n est le nombre total d'observations à partir duquel est calculée chacune des p moyennes.
D'un point de vue pratique, on ne réalise pas toutes les comparaisons des moyennes prises deux
à deux. On commence par ordonner les p moyennes observées par ordre croissant puis on
applique la méthode de comparaison des moyennes d'une manière séquentielle. Autrement dit,
on teste chaque fois l'hypothèse qui fait intervenir les deux moyennes les plus éloignées
possibles, et si cette hypothèse n'est pas rejetée, il est inutile de tester les hypothèses qui la
composent.
Dans la littérature, on trouve plusieurs méthodes de comparaisons des moyennes deux à deux.
Quatre d'entre-elles seront exposées. Il s'agit des méthodes de la plus petite différence
significative (PPDS), de Tukey, de Bonferroni et Dunn-Sidak (paragraphes 7.5.2 à 7.5.5).
104
Connue beaucoup plus par la procédure LSD1 de Fisher [Fisher, 1935] ou PPDS, cette méthode
fut l'une des plus anciennes à être utilisée pour localiser les différences entre les moyennes.
Elle consiste à comparer les moyennes deux à deux par des tests t de Student, chacun avec un
niveau de signification .
La valeur critique est appelée la plus petite différence significative. Elle fait intervenir la valeur
t de la distribution de Student à degrés de liberté. Elle est donnée par :
( ) 2CM e
vc = t 1 − / 2
n
( ) 1 1
v c = t 1− / 2 CM e +
ni n j
Le test PPDS est très puissant, mais le risque global d'erreur est contrôlé en imposant
simplement un test F de l'ANOVA significatif, ce qui fait que l'application pour un ensemble
de moyennes entraîne un risque global d'erreur g bien supérieur au niveau relatif à chacun
des tests (les comparaisons ne sont pas en effet indépendantes et le nombre de comparaisons
est important). Cet inconvénient, confirmé par plusieurs études basées sur des simulations
[Bernhardson, 1975; Carmer et Swanson, 1973], incite à interpréter les résultats de cette
méthode avec prudence et fait que de nombreux statisticiens la déconseillent sauf dans le cas
de trois moyennes avec un test F de l'ANOVA significatif.
On retient donc qu'il s'agit d'un test qui requiert un F d'ANOVA significatif, qu'il est puissant
mais très libéral.
Exemple 7.1
Reprenez les données du tableau 7.1 et réalisez les comparaisons multiples de moyennes en
utilisant la méthode de la plus petite différence significative (=0.05) ?
Solution 7.1
a) Méthode : comparaisons multiples de moyennes par la procédure PPDS
- Nous avons cinq races (p=5), quatre observations par échantillon (n=4)
- L'ANOVA 1 donne un carré moyen résiduel CMe=1.726 auquel correspond v=15 degrés de
liberté.
b) Conditions d'application :
- les cinq échantillons sont aléatoires, simples et indépendants
- les distributions des cinq populations sont normales
- les cinq variances théoriques sont égales : le test de Bartlett donne p-valeur=0.810 (le test
d'égalité des cinq variances ne peut être rejetée au niveau =0.05)
1
En anglais : least significant difference.
A. Hamouda (IAV Hassan II) 105
c) Calculs :
- La valeur critique est :
( 2)(1.72633)
v c = 2.1314 = 1.980 ou 1.98
4
- Les moyennes sont rangées par ordre croissant et toute différence entre deux moyennes
dépassant 1.98 doit être déclarée comme significative. On a :
x1 − x 5 = 4.325 1.98 → groupe non homogène ;
x1 − x 3 = 2.225 1.98 → groupe non homogène ;
x 1 − x 4 = 2.125 1.98 → groupe non homogène ;
x 1 − x 2 = 0.100 1.98 → groupe homogène ;
x 2 − x 5 = 4.225 1.98 → groupe non homogène ;
x 2 − x 3 = 2.0125 1.98 → groupe non homogène ;
etc.
On obtient, si l'on relie les moyennes non significativement différentes par un trait continu :
Race5 Race3 Race4 Race2 Race1
80.300 82.400 82.500 84.525 84.625
______________ _______________
Il y a donc formation de trois groupes homogènes de moyennes : [Race1, Race2], [Race3, Race4]
et [Race5]. Le rendement est significativement plus élevé chez les races 1 et 2 que chez les races
3 et 4, et il est significativement plus élevé chez les races 3 et 4 que chez la race 5.
Plusieurs logiciels présentent les résultats en marquant les moyennes non significativement
différentes par la même lettre :
Race5 Race3 Race4 Race2 Race1
80.300 82.400 82.500 84.525 84.625
a
b b
c c
Cette méthode, due à Tukey [1951, 1953] et connue aussi par la méthode de la différence
franchement significative1, compare les moyennes deux à deux et elle est n'est applicable que
pour des échantillons de mêmes effectif n. Le test de Tukey utilise la loi des écarts studentisés
et considère deux moyennes comme différentes si leur différence, en valeur absolue, égale ou
dépasse la quantité :
( p , ) CM e
v c = Q1−
n
où la valeur de Q peut être consultée dans des tables en fonction du niveau , du nombre de
moyennes considérées dans l'étude (p) et du nombre de degrés de liberté (v) du CMe.
La quantité c est appelée la plus petite amplitude significative, elle est la même pour toutes
les comparaisons.
1
En anglais : honestly significant difference (HSD).
106
La procédure de Tukey compare tous les appariements de groupes possibles et indique ceux
qui présentent des différences statistiquement significatives. Comme pour la méthode de la
plus petite différence significative (PPDS), on commence par ranger les moyennes par ordre
croissant ou décroissant et on relie par une ligne les moyennes qui ne diffèrent pas.
Le test de Tukey permet de bien contrôler le risque global d'erreur au niveau pour l’ensemble
des comparaisons deux à deux. Nous pouvons être sûrs que l'ensemble de toutes les
comparaisons a collectivement un taux d'erreur de (le risque global d'erreur g est égale à
(à 5% par exemple)). Il permet aussi le calcul d'intervalles de confiance pour les différences
entre les moyennes. Il est préféré par de nombreux utilisateurs en raison du contrôle qu'il exerce
sur .
Le test de Tukey est conservateur. Si une différence entre deux moyennes s’avère significative
par ce test, elle sera surement significative par la méthode PPDS. Ce conservatisme n'est pas
excessif en comparaison avec d'autres méthodes contrôlant le risque global d'erreur.
Le contrôle du risque global d'erreur s'associe à une perte de puissance, c’est-à-dire à une
incapacité de mettre en évidence les vraies différences entre les moyennes, surtout lorsque le
nombre de comparaisons est élevé.
Lorsque les échantillons ne sont pas de mêmes effectifs, on peut utiliser la méthode de Tukey-
Kramer, qui est une extension approximative de la méthode de Tukey. On utilise en effet une
valeur critique légèrement modifiée :
( p , ) CM e 1 1
v ij = Q 1− +
2 ni n j
pour tester si deux moyennes sont différentes. Certains auteurs proposent de prendre la
moyenne harmonique des effectifs comme l’effectif de chaque échantillon.
Exemple 7.2
Reprenez les données du tableau 7.1 et réalisez les comparaisons multiples de moyennes en
utilisant la méthode de Tukey (=0.05).
Solution 7.2
a) Méthode : comparaisons multiples de moyennes par la procédure de Tukey
b) Conditions d'application : (cf. exemple 7.1)
c) Calculs :
La plus petite amplitude significative est :
1.72633
v c = 4.367 = 2.8689 ou 2.87
4
Après avoir rangé les moyennes par ordre croissant et déclaré toute différence entre deux
moyennes dépassant 2.869 comme significative, on obtient :
g c . ,
c’est-à-dire que le risque global d'erreur est au plus égal à c . . Dans ces conditions, si chacune
des hypothèses 7.1 est testée au niveau '=/c, alors le risque global d'erreur, c’est-à-dire le
risque de commettre au moins une erreur de première espèce, ne peut dépasser le niveau .
Une différence entre deux moyennes est donc déclarée comme significative, selon cette
méthode, si elle égale ou dépasse la valeur critique suivante :
2CM e
v c = t ( )
1− n
2c
si les effectifs qui ont permis de calculer les deux moyennes sont égaux, ou encore :
( )
1 1
vc = t CM e +
1−
ni n j
2c
si ces effectifs ne sont pas égaux. On constate que l'utilisation de la méthode de Bonferroni
nécessite la consultation de tables très détaillées de la distribution t de Student.
Si on planifie, par exemple, quatre comparaisons et que l'on souhaite que le risque global
d'erreur ne dépasse pas 5%, on utilisera un risque d'erreur par comparaison de 0.05/4=0.0125.
Cela veut dire que si on réalise 4 comparaisons, chacune avec une probabilité de l’erreur de
type I de =0.0125, la probabilité d’avoir au moins une erreur de type I ne peut jamais dépasser
4*0.0125=0.05.
D'autre part, il faut dire que la méthode de Bonferroni est très conservatrice dans la mesure où
le risque global d'erreur réel g est beaucoup plus petit que le niveau fixé . Ce contrôle très
sévère du risque global d'erreur s'associe à une perte de puissance, c’est-à-dire à une incapacité
de mettre en évidence les vraies différences entre les moyennes, surtout lorsque le nombre de
comparaisons est élevé.
Le test s’applique aux deux types de comparaisons (planifiées et post-hoc), mais recommandé
pour des comparaisons planifiées où le nombre de comparaisons à effectuer est petit.
Plusieurs variantes du test de Bonferroni ont été proposés dans le but d'améliorer la puissance.
On peut citer, à titre d'exemples, les tests de Dunn-Sidak et de Bonferroni-Holm. Ce dernier
test est moins conservateur et plus puissant puisque, après chaque comparaison, le seuil est
ajusté au nombre de comparaisons restantes
108
Exemple 7.3
Reprenez les données du tableau 7.1 et réalisez, à titre d'exemple, les comparaisons multiples de
moyennes en utilisant la méthode de Bonferroni (=0.05) (On se rappelle que ce test n'est pas
recommandé pour un grand nombre de comparaisons).
Solution 7.3
a) Méthode : comparaisons multiples de moyennes par la procédure de Bonferroni
b) Conditions d'application : (cf. exemple 7.1)
b) Calculs :
Risque d'erreur par comparaison : ’=0.05/10=0.005 et t1-0.05/(2*10)=3.286.
( 2)(1.72633)
La valeur critique est : v c = 3.286 = 3.053 .
4
Après avoir rangé les moyennes par ordre décroissant et déclaré toute différence entre deux
moyennes dépassant 3.053 comme significative, nous obtenons :
Il s'agit d'une légère variante du test de Bonferroni proposée par Sidak (1967). Elle a le même
principe, mais utilise l'inégalité :
g 1 − (1 − ) c
où c désigne toujours le nombre de comparaisons. Elle permet un très léger gain de puissance
statistique, c'est-à-dire une légère augmentation de la capacité à déclarer un test significatif
lorsque l'hypothèse nulle est fausse.
Pour se protéger, la méthode consiste à tester chacune des hypothèses élémentaires au niveau
de signification 𝛂′ = 𝟏 − (𝟏 − 𝛂)𝟏/𝐜. Autrement dit, pour un ensemble de six comparaisons
élémentaires et =0.05, elle utilise un risque de '=0.0085.
Une différence entre deux moyennes est donc déclarée significative si elle égale ou dépasse la
valeur critique suivante :
2CM e
v c = t 1(−) '/ 2 ,
n
qui utilise la distribution t de Student.
Ce test est très conservateur dans la mesure où le risque global d'erreur réel g est plus petit
que le niveau fixé, mais il est relativement moins conservateur que le test de Bonferroni.
A. Hamouda (IAV Hassan II) 109
Exemple 7.4
Reprenez les données du tableau 7.1 et réalisez les comparaisons multiples de moyennes en
utilisant la méthode de Dunn-Sidak ?
Solution 7.4
7.6.1. Introduction
Les méthodes de comparaisons des moyennes par groupes, ou méthodes séquentielles, ont pour
but de comparer des sous-ensembles des p moyennes en utilisant les hypothèses de formes :
H 0s : i = j = ... = s avec 2 s p
où s est le nombre de moyennes du groupe, appelé aussi nombre d'échelons entre les moyennes
à comparer, p étant comme toujours le nombre total de moyennes.
Les moyennes sont toujours rangées préalablement par ordre croissant. Si deux moyennes sont
adjacentes, on dit qu'elles sont séparées par deux échelons, et si deux moyennes sont séparées
par une troisième, on dit qu'elles sont séparées par trois échelons et ainsi de suite.
( p , ) CM e
Ac =
s n
dans laquelle la valeur de la distribution utilisée est donnée dans des tables statistiques en
fonction du nombre d'échelons (s), du nombre de degrés de liberté (v) et aussi du niveau de
signification s qui peut dépendre à son tour de s pour certaines méthodes. On constate donc
que, contrairement aux méthodes de comparaisons deux à deux (cf. paragraphe 7.5), la valeur
de l'amplitude critique dépend ici du nombre s de moyennes du groupe.
Pour éviter des conclusions aberrantes, les comparaisons se réalisent de manière séquentielle,
en adoptant la procédure suivante :
− On range les p moyennes par ordre croissant ;
− On commence par comparer les moyennes du groupe limité par la plus grande moyenne et
la plus petite moyenne ;
− Si l'hypothèse précédente est rejetée, on passe au test des deux hypothèses dont chacune
concerne les s-1 moyennes les plus extrêmes ;
110
− Si un, au moins, des tests des hypothèses précédentes est significatif, on continue les tests
en adoptant les règles suivantes :
• si une hypothèse concernant un groupe de moyennes est rejetée, on teste les hypothèses
qui la composent en commençant toujours par les hypothèses qui font intervenir le plus
grand nombre de moyennes ;
• si une hypothèse concernant un groupe de moyennes est acceptée, on considérer ce
groupe comme homogène et on n'effectue pas d'autres tests sur les hypothèses qui la
composent.
La manière de calculer la valeur critique donne lieu à plusieurs méthodes de comparaison par
groupes. Nous verrons dans les paragraphes 7.6.2 et 7.6.3 deux d'entre-elles, la méthode de
Newman-Keuls et la méthode de Duncan.
Selon cette méthode, une hypothèse concernant l'homogénéité d'un groupe de moyennes
séparées par s échelons est rejetée, au niveau de signification , si l'amplitude observée de ce
groupe (la différence entre la plus grande moyenne et la plus petite moyenne du groupe
|𝑦̄ 𝑖 − 𝑦̄𝑗 |) égale ou dépasse l’amplitude suivante :
CM e
v c = q1( s−, ) .
n
Cette valeur est aussi connue par la plus petite amplitude significative, elle doit être calculée
pour chacune des valeurs du nombre d'échelons s et du nombre de degrés de liberté de CMe.
Lorsqu'on teste l'hypothèse globale qui fait intervenir toutes les moyennes, c’est-à-dire lorsque
s=p, les méthodes de Newman-Keuls et de Tukey sont équivalentes. Mais, comme la valeur
critique diminue avec la diminution du nombre d'échelons, le test de Newman-Keuls est moins
conservateur en déclarant plus de différences, mais plus puissant que la méthode de Tukey.
Le test de Tukey a l’avantage de maintenir le niveau de l'erreur de type I égal au niveau
choisi et permet le calcul d'intervalles de confiance pour les différences entre les moyennes, ce
qui n’est pas le cas pour le test de Newman-Keuls.
Bien que la procédure de Newman-Keuls ait en effet été conçue pour contrôler le risque global
d'erreur, elle ne le contrôle pas complètement et, sous certaines conditions, le taux d'erreur peut
être assez élevé. Elle est parfois qualifiée de méthode libérale ou de modérément libérale, mais
moins libérale que celles de Duncan et de la PPDS. D’autres auteurs soulignent qu'elle assure
un certain équilibre entre les deux risques d'erreur, mais elle reste tout de même une méthode
très controversée.
Une version légèrement modifiée de l’amplitude pour être utilisée afin de tenir compte de la
non égalité des effectifs des échantillons est donnée par :
A. Hamouda (IAV Hassan II) 111
( s , ) CM e 1 1
v c = q1− + .
2 ni n j
Exemple 7.5
Reprenez les données du tableau 7.1 et réalisez les comparaisons multiples de moyennes en
utilisant la procédure de Newman-Keuls (SNK).
Solution 7.5
a) Méthode : comparaisons multiples de moyennes par la procédure de Newman-Keuls
b) Conditions d'application : (cf. exemple 7.1)
c) Calculs :
On calcule la valeur critique (vc) en fonction du nombre de moyennes du groupe (s) (tableau 7.3).
Tableau 7.3. Valeurs théoriques et critiques de la méthode de SNK en
fonction du nombre de moyennes du groupe.
s 2 3 4 5
( s, )
q1 − 3.01 3.67 4.08 4.37
Remarquons que nous retrouvons la valeur critique de la PPDS pour les groupes de deux
moyennes et celle de Tukey pour les groupes de cinq moyennes.
On examine successivement les différents groupes après avoir rangé les moyennes par ordre
croissant.
Puisque cette dernière hypothèse n'est pas significative, nous n'allons pas tester les hypothèses
qui la composent.
Groupes de 3 moyennes :
x 4 − x 5 = 2.2 2.41 → ne pas rejeter H 03 : 5 = 3 = 4
Il en résulte ce qui suit :
Race5 Race3 Race4 Race2 Race1
80.300 82.400 82.500 84.525 84.625
___________________________________
Pour cet exemple, le résultat des comparaisons multiples est le même que celui qui est trouvé en
utilisant les méthodes de Tukey et de Bonferroni.
112
Duncan [1955] a développé une méthode similaire à celle de Newman-Keuls d'un point de vue
application. Si deux moyennes sont séparées par s échelons, Duncan définit le niveau de
protection comme étant (1 − 𝛼)𝑠−1. Il en découle que la probabilité de rejeter erronément
l'égalité de deux moyennes séparées par s échelons est donnée par 𝛼𝑠 = 1 − (1 − 𝛼)𝑠−1 .
Selon la méthode de Duncan, l'hypothèse d'homogénéité d'un groupe de s moyennes est rejetée
si la différence entre ses moyennes extrêmes égale ou dépasse la valeur critique :
( s , ) CM e
v c = q 1− ,
n
D'autre part, il faut retenir que des études basées sur des simulations ont montré que la méthode
de Duncan, bien que libérale, reste toutefois, dans l'ensemble, moins libérale que la méthode
PPDS. De même, il faut noter que ce test est assez populaire auprès des expérimentateurs en
raison de sa grande puissance : il y a une grande probabilité de déclarer une différence lorsqu’il
y a réellement une différence entre les moyennes.
Exemple 7.6
Reprenez les données du tableau 7.1 et réalisez les comparaisons multiples de moyennes en
utilisant la procédure de Duncan.
Solution 7.6
a) Méthode : comparaisons multiples de moyennes par la procédure de Duncan
b) Conditions d'application : (cf. exemple 7.1)
c) Calculs :
On commence par calculer les valeurs critiques (vc) en fonction du nombre de moyennes à
comparer du groupe (tableau 7.4).
On commence par ordonner les moyennes par ordre croissant et on examine successivement les
différents groupes de moyennes :
A. Hamouda (IAV Hassan II) 113
Groupes de 3 moyennes :
Groupes de 2 moyennes :
La conclusion est la même que celle qui découle en utilisant la méthode de la PPDS.
Le test de Dunnett s'utilise lorsqu'il s'agit de comparer un traitement, souvent appelé traitement
témoin ou contrôle, à un ensemble de traitements. Ces derniers ne sont pas comparés entre eux.
Le traitement témoin peut être une variété végétale utilisée dans la région, une race animale
locale, un placebo, etc.
H 0 : i = témoin où i = 1, 2, ..., p − 1 .
contre les hypothèses H 1 : i témoin, dans lesquelles le témoin est le p-ième traitement.
114
Ao = y i − y témoin
et à considérer le test comme significatif chaque fois que cette différence égale ou dépasse la
valeur critique suivante :
( p −1, ) 2CM e
v c = d 1− / 2
n
dans laquelle les valeurs de d1(−p−1/ ,2 ) sont lues dans des tables en fonction du nombre de degrés
de liberté , du niveau de signification et du nombre de comparaisons (p-1). Ces valeurs sont
calculées de telle sorte que le risque global d'erreur soit maintenu au niveau pour les p-1
tests. Le terme n désigne l'effectif de chacun des échantillons.
Exemple 7.7
Reprenez les données du tableau 7.1 en supposant que la race 5 constitue un témoin, quelles sont
les races qui diffèrent significativement de ce témoin ?
Solution 7.7
a) Méthode : comparer quatre moyennes à un témoin par la méthode de Dunnett
b) Conditions d'application : (cf. exemple 7.1)
c) Calculs :
( 2)(1.72633)
La valeur critique est : v c = 2.73 ou 2.536
4
7.8. CONCLUSION
Si un facteur fixe s’avère avoir un effet significatif suite à l’utilisation de l’ANOVA, on peut
conclure qu’au moins les moyennes de deux modalités de ce facteur ne sont pas égales.
On n’est pas renseigné sur les comparaisons possibles entre les moyennes de deux ou plusieurs
modalités de ce facteur. Pour y arriver, il faut un recours aux méthodes de comparaisons
multiples de moyennes. Toutefois, le choix de la méthode de comparaisons multiples
convenant à une situation donnée ne devrait pas être chose facile.
Il faut se rappeler que lorsqu'on réalise un ensemble de comparaisons entre plusieurs moyennes,
le risque global d'erreur de première espèce, qui est la probabilité de commettre au moins une
erreur de première espèce parmi toutes les comparaisons en question, augmente
considérablement avec l'augmentation du nombre de comparaisons. Ce sont d’ailleurs les
A. Hamouda (IAV Hassan II) 115
différentes approches adoptées pour contrôler ce risque d’erreur qui ont fait que les méthodes
de comparaisons proposées dans la littérature sont nombreuses. On ne peut en effet se contenter
de calculer le risque d'erreur d'une comparaison individuelle comme si elle était seule, il faut
minimiser le risque d'erreur de l'ensemble des comparaisons.
1° Si on a des hypothèses sur les moyennes qui ont été formulées préalablement à la collecte
des données sur la base de considérations théoriques ou d'expériences précédentes,
l'expérimentateur s'intéresse souvent à quelques comparaisons dites a priori qui correspondent
à des questions précises portant sur les moyennes. Généralement, on réalise les comparaisons
planifiées au moyen d'une analyse par contraste : il s’agit de poser quelques questions portant
sur des combinaisons linéaires particulières des moyennes théoriques des modalités d’un
facteur fixe (sujet non traité dans ce chapitre). Dans ce premier cas, où le nombre de
comparaisons est habituellement bien plus petit que le nombre de comparaisons possibles, la
probabilité de commettre au moins une erreur de type I est plus petite que si les comparaisons
n’interviennent qu’a posteriori. Selon les cas, les hypothèses sont testées en utilisant le test t de
Student, le test F de Fisher, le test de Dunn-Bonferroni, le test de Bonferroni-Holm qui est
moins conservatif et plus puissant puisque le seuil est ajusté au nombre de comparaisons
restantes après chaque comparaison ou par le test de Dunnett.
L'inconvénient des méthodes a priori réside dans le risque de ne pas tester des éventuelles
différences intéressantes survenues à des endroits non prévues, mais les comparaisons
présentent l'avantage de la puissance.
2° Par contre, si les hypothèses à tester ne sont claires qu'à l'issue de la collecte et l'examen des
données et que l'on compte réaliser un grand nombre de comparaisons, on opte pour des tests
post-hoc. Pour des comparaisons qui ne sont pas par paires de moyennes, on peut utiliser le
test de Scheffe (1953), mais habituellement il s'agit de procéder à toutes les comparaisons
possibles deux à deux des moyennes.
Les chercheurs ont l’habitude de recourir à l’un de ces tests post-hoc après avoir rejeté
l’hypothèse nulle d’égalité des moyennes en utilisant l'ANOVA. Toutefois, le test F de
l’ANOVA et les tests post-hoc utilisent différentes méthodes pour déterminer la signification
et ils peuvent conduire à des conclusions différentes. Ces différences se produisent
généralement dans des situations particulières et, dans ces cas, il est possible de signaler les
résultats post-hoc significatifs.
Les tests post-hoc sont nombreux et il n'y a pas de consensus universel sur le meilleur à utiliser.
Les méthodes les plus efficaces sont celles qui tentent d’assurer le meilleur équilibre entre le
risque global d'erreur et la puissance. C’est-à-dire celles qui minimisent le risque de commettre
une erreur de première espèce tout en gardant une probabilité raisonnable de déceler une vraie
différence. Certains de ces tests sont assez conservateurs dans la mesure où ils ont tendance à
rejeter les hypothèses nulles d’égalité des moyennes plus difficilement que prévu
théoriquement. Ce conservatisme s’accompagne de la perte de puissance, c'est-à-dire que ces
tests sont moins susceptibles de détecter une différence entre les moyennes des groupes qui
existe réellement.
Pour obtenir un risque d'erreur global de première espèce spécifié, les procédures post-hoc
abaissent le niveau de signification de toutes les comparaisons individuelles. Par exemple, pour
aboutir à un risque d'erreur global de première espèce de 5% pour un ensemble de
comparaisons, la procédure utilise un niveau de signification individuelle beaucoup plus faible.
Dans le cas où l’on opte pour la réalisation de toutes les comparaisons par paires, qui compare
toutes les associations de groupes possibles, on a souvent tendance à conseiller le test de Tukey
116
Dans tous les cas, si on a à utiliser un test post-hoc, il est recommandé de définir la méthode
de comparaisons multiples de moyennes dès le départ, car il est déconseillé d’essayer
différentes méthodes et choisir celle qui produit les résultats voulus.
Par ailleurs, il faut dire que le chercheur n’a pas toujours besoin de toutes les comparaisons par
paires de moyennes, mais d’un sous-ensemble. Cette réduction permet à la procédure d'utiliser
un risque d'erreur par comparaison plus élevé pour atteindre le risque d'erreur global spécifié,
ce qui augmente la puissance statistique. Ainsi, il se peut que l’expérience soit planifiée pour
comparer un groupe de contrôle à p-1 autres groupes. Dans ce cas, on utilise le test de Dunnett
qui ne nécessite que p-1 comparaisons, car on n’a pas besoin de comparer les groupes les uns
aux autres. De même, si l'objectif de l’étude est d'identifier le ou les groupes les meilleurs, on
n’aura peut-être pas besoin aussi dans ce cas de comparer tous les groupes possibles et on peut
recourir à des méthodes telles que la méthode de Gupta.
L'expérimentateur utilisant ces méthodes doit être aussi attentif quant à l'interprétation des
résultats lorsqu'il y a des chevauchements entre les groupes homogènes de moyennes.
CHAPITRE 8
8.1. INTRODUCTION
Lorsqu'on dispose d'un échantillon aléatoire et simple d'unités classées ou non en plusieurs
modalités en fonction d'une variable donnée, il est assez souvent question de savoir si une loi
théorique de probabilité peut représenter au mieux cette distribution de fréquences ou cette
série de valeurs prises par cette variable. Le type de lois, dont il question ici, est en général
suggéré par la nature du phénomène étudié.
Il s'agit en effet, dans ce cas, de problèmes de tests d'ajustement qui permettent de tester
l'adéquation entre une distribution expérimentale, qui est obtenue à partir de l'échantillon, et la
distribution de la loi de probabilité servant de modèle théorique.
Nous nous souvenons en particulier que nous étions amenés, à maintes reprises, notamment
lorsque nous avons cherché à tester l'homogénéité des variances ou l'égalité des moyennes,
à supposer la normalité des populations, ou des résidus, sans procéder à des tests.
C'est pourquoi, on trouve, en particulier, dans la littérature statistique de nombreux tests
consacrés à la normalité d'une distribution.
Nous présenterons, dans ce chapitre, certains des tests d'ajustement des plus connus par les
expérimentateurs. Nous exposerons d'abord le test khi-deux de Pearson qui s'applique aux
distributions discrètes et continues. Nous distinguerons entre le cas de lois complètement
définies où le test s'applique sans estimation de paramètres statistiques de la distribution de la
population, et le cas de lois incomplètement définies où l'on est amené à estimer des paramètres
statistiques dont dépend la distribution de la population à partir de l'échantillon (paragraphe
8.2). Ce test est construit à partir du regroupement des observations dans des classes.
Au paragraphe 8.4, nous exposerons deux tests particuliers assez utilisés par les biologistes.
Le premier est le test de l'indice de dispersion pour la distribution de Poisson, le second est le
test de Shapiro-Wilk pour la distribution normale.
D'une manière générale, soit une population pratiquement infinie dont les individus sont classés
en p modalités a1, a2, …, ap d'un caractère A qualitatif. Il peut aussi s'agir d'un caractère
quantitatif à partir duquel on a établi des modalités. A chaque modalité ai du caractère A
correspond une probabilité Pi . On souhaite tester l'hypothèse nulle suivante :
2) Les écarts entre les effectifs observés et les effectifs théoriques sont :
237 - 221.5 = 15.5 pour les fleurs rouges
465 – 443.0 = 22.0 pour les fleurs roses
184 - 221.5 = -37.5 pour les fleurs blanches
3) Pour avoir une idée sur l'importance des écarts, on ne somme pas directement les écarts
puisque cette somme est nulle, mais on calcule d'abord le carré de chaque écart :
( ni − nPi ) 2
puis on le pondère par l'effectif théorique pour obtenir son importance relative (c’est-à-dire pour
maintenir les écarts en proportion). Enfin, on somme les contributions des différentes modalités.
On obtient la statistique suivante :
p
( ni − nPi ) 2 p n i2
obs
2
= ou obs
2
= nPi − n ,
i =1
nPi
i =1
qui suit approximativement, lorsque l'effectif n est suffisamment grand, une distribution khi-
deux à k=p-1 degrés de liberté.
L'approximation n'est généralement considérée comme satisfaisante que lorsque les effectifs
théoriques nPi sont supérieurs ou égaux à 5. Certains auteurs estiment qu'on peut tolérer une
classe de A avec un effectif théorique inférieur à 5 mais supérieur à 1. Il est aussi possible de
regrouper certaines classes contiguës pour obtenir des quantités nPi supérieures ou égales à 5.
4) Plus la quantité obs
2
est grande et plus il y a désaccord entre les fréquences observées et
celles attendues selon l'hypothèse nulle. L'hypothèse nulle est rejetée lorsque :
obs
2
12−
avec k=p-1 degrés de liberté où p est le nombre de classes après un éventuel regroupement.
A. Hamouda (IAV Hassan II) 119
Exemple 8.1
Reprenez l'exemple des couleurs des fleurs de pois et testez si l'hypothèse de Mendel peut être rejetée
au niveau de signification 5% .
Solution 8.1
a) Méthode : Test khi-carré d'ajustement à une loi complètement définie
b) Conditions d'application
- La population est infinie ;
- L'échantillon des 886 fleurs est prélevé de manière aléatoire et simple dans la population ;
- Les effectifs attendus sont supérieurs ou égaux à 5 (à vérifier).
c) Hypothèses
H 0 : l'hypothèse de Mendel est vérifiée
contre H1 : l'hypothèse de Mendel n'est pas vérifiée
d) Calcul
Le tableau 8.1 donne les principaux paramètres pour obtenir la valeur observée du khi-carré.
Tableau 8.1. Principaux paramètres pour obtenir la valeur observée du khi-carré.
On a χ2obs =8.53 et χ20.95 =5.99 avec 2 degrés de liberté. Puisque la valeur observée est supérieure à la
valeur critique, l'hypothèse nulle doit être rejetée au niveau =0.05.
En prenant un risque de 5%, on peut dire que l'hypothèse de Mendel n'est pas vérifiée.
2) Le second exemple concerne les données d'un échantillon de 429 caisses de farine remplies
par une machine en bon état de fonctionnement (données IAV Hassan II). En fonction des
données regroupées dans la distribution de fréquences présentée par le tableau 8.3, on souhaite
savoir si l'on peut dire que le remplissage se fait selon une loi normale (=0.05).
Tableau 8.3. Répartition de 429 caisses de farine en fonction de leur poids (en kg).
Classes de poids (kg) Effectifs
48.5-48.8 1
48.9-49.2 12
49.3-49.6 26
49.7-50.0 64
50.1-50.4 83
50.5-50.8 96
50.9-51.2 62
51.3-51.6 55
51.7-52.0 21
52.1-52.4 8
52.5-52.8 1
Total 429
La "distance" du khi-deux s'exprime toujours sous forme d'une moyenne pondérée des d'écarts
quadratiques entre les fréquences observées (ni) et les fréquences théoriques estimées nP̂i :
p
( ni − nP̂i ) 2 p n i2
obs
2
= ou obs
2
= −n
i =1 nP̂i i = 1 nP̂i
qui suit approximativement, lorsque l'effectif n est suffisamment grand, une distribution khi-
deux à k=p-1-r degrés de liberté, où p est le nombre de classes après un éventuel regroupement
et r est le nombre de paramètres estimés.
i =1 ni x i i =1 ni ( x i − x ) 2
1 p 1 p
m̂ = et ̂ 2 =
n n
A. Hamouda (IAV Hassan II) 121
Exemple 8.2
Reprenez les données du tableau 8.2 et réalisez un test d'ajustement à la distribution de Poisson ?
Solution 8.2
a) Méthode : Test khi-carré d'ajustement à une distribution de Poisson
b) Conditions d'application
- La population est pratiquement infinie ;
- L'échantillon des 70 taureaux est prélevé de manière aléatoire et simple dans la population ;
- Les effectifs attendus sont supérieurs ou égaux à 5 (à vérifier).
c) Hypothèses
H 0 : la population du nombre de taches est distribuée selon une loi de Poisson
contre H1 : la population du nombre de taches n'est pas distribuée selon une loi de Poisson
d) Calcul
- Rappelons que la loi de probabilité de Poisson dépend d'un seul paramètre qui est la moyenne :
e − i
Pi = ( i 0)
i!
On commence par estimer le paramètre inconnu :
1 7
̂ = x = ni x i = 2.614 taches/ taureau;
n i =1
- On obtient ensuite les probabilités estimées et on complète le tableau 8.4 pour obtenir la
valeur observée du khi-deux
Tableau 8.4. Principaux paramètres permettant le calcul du khi-deux observé dans le cas
d’ajustement à une loi de Poisson.
- Nous avons toléré une classe avec une fréquence attendue inférieure à 5 ;
- Puisqu'on a estimé un seul paramètre, qui est la moyenne, la valeur théorique du khi-deux est calculée
avec 5 degrés de liberté (il s'agit de 7-1-1=5, car il y a 7 classes après regroupement). On a :
obs
2
= 70.833 − 70 = 0.833 et 02.95 = 11.1 .
En prenant un risque de 5%, il n'y a pas suffisamment de preuve pour rejeter l'hypothèse nulle.
Ce résultat est attendu dès le calcul des fréquences attendues, car celles-ci sont très proches des
fréquences observées.
122
Exemple 8.3
Reprenez les données du tableau 8.3 et dites si l'on peut dire que le remplissage des caisses se fait selon
une loi normale (=0.05) ?
Solution 8.3
a) Méthode : test khi-carré d'ajustement à une distribution de Gauss
b) Conditions d'application
- La population est pratiquement infinie ;
- L'échantillon des 429 caisses est prélevé de manière aléatoire et simple dans la population ;
- Les effectifs attendus sont supérieurs ou égaux à 5 (à vérifier).
c) Hypothèses
H 0 : le poids des casses est distribuée selon une loi de Gauss
contre H1 : le poids des casses n'est pas distribuée selon une loi de Gauss
d) Calcul
- La loi de probabilité de la distribution normale dépend de deux paramètres : la moyenne et l'écart-
type. Ils sont obtenus, pour le cas de cette distribution, par :
1 11
x= ni x i = 50.585 kg/caisse
429 i =1
1 2
ni x i2 − ni x i = 0.723 kg/caisse
11 1 11
et s=
n i =1 n i =1
où x i' est la limite supérieure de la classe i. Pour la deuxième classe, par exemple, on obtient :
u2 = (49.25 − 50.585) / 0.723 = −1.8465.
Le tableau 8.5 donne le détail des calculs et la figure ci-dessous représente la distribution normale
ajustée.
Tableau 8.5. Principaux paramètres permettant le calcul du khi-deux observé pour
l’ajustement à la distribution normale.
120
100
Fréquences
80
60
40
20
0
1 2 3 4 5 6 7 8 9 10 11
Poids (kg)
Pour satisfaire la condition de fréquences attendues d'au moins 5, nous avons regroupé les fréquences des
deux premières classes et des trois dernières et nous avons toléré une classe de fréquence inférieure à 5.
La valeur observée du khi-deux est:
1² 12² 9²
obs
2
= + + ... + − 429 = 7.58 .
3.519 10.385 9.167
Puisqu'on a estimé deux paramètres, la valeur théorique du khi-deux est calculée avec 7 (=10-1-2) degrés
de liberté. On obtient la valeur 02.95 = 14.1 qui est supérieure à la valeur observée.
Conclusion : En prenant un risque de 5%, on accepte l'hypothèse de la normalité de la population.
Ce test d'ajustement est une approche non paramétrique permettant de tester si un échantillon
peut être considéré comme extrait d'une population qui a une distribution théorique continue
spécifiée. Il est basé sur la comparaison de la fonction cumulative de fréquences de l'échantillon
N' (fonction de répartition observée) avec la fonction de répartition théorique F (cf. cours de la
2ème année du cycle préparatoire de l’IAV).
Si l’hypothèse nulle est vraie, les deux fonctions, empirique et théorique, sont proches.
L’adéquation de la fonction 𝑁′ à la fonction F est mesurée au moyen de la distance de
Kolmogorov-Smirnov.
𝒊−𝟏 𝒊
𝑫𝒐𝒃𝒔 = 𝒎𝒂𝒙(𝐢=𝟏,…,𝐧) |𝑵′ (𝒙𝒊 ) − 𝑭(𝒙𝒊 )| = 𝒎𝒂𝒙(𝐢=𝟏,…,𝐧) (|𝑭(𝒙𝒊 ) − | ; | − 𝑭(𝒙𝒊 )|)
𝒏 𝒏
qui suit une loi de « Kolmogorov-Smirnov » de paramètre n. L’hypothèse nulle qui stipule que
la variable suit la loi que l’on a fixée est rejetée lorsque :
Dobs ≥ D1-α .
Les valeurs critiques sont fournies par des tables en fonction de n et le risque de se tromper.
Ces tables sont données en annexes pour des valeurs de n et pour un test bilatéral.
124
1) En plus de l’adéquation à une loi de distribution fixée, ce test peut également être utilisé
pour comparer deux distributions, en vérifiant si leurs fonctions de répartition sont
similaires ;
2) L’ajustement à une distribution de Gauss, de Poisson, uniforme ou exponentielle par le
test de Kolmogorov-Smirnov est disponible par certains logiciels statistiques (SPSS ou
autres) ;
3) Dans le cas d’un test de la normalité d’une distribution, lorsque la moyenne et l'écart-
type de cette distribution normale présumée ne sont pas connus mais estimés à partir de
l’échantillon, le test statistique de Lilliefors peut être utilisé pour estimer la p-value.
Plusieurs logiciels statistiques utilisent cette correction de signification en la signalant.
Exemple 8.4
On dispose des poids de 15 caisses de farine prélevées de manière aléatoire et simple dans le stock d’une
minoterie. En utilisant les valeurs obtenues ci-dessous, vérifiez, en utilisant le test de Kolmogorov-
Smirnov au seuil de 5%, pour décider si la distribution de l’échantillon est en adéquation avec la loi
normale de moyenne 50 kg et d’écart-type 2.5 kg.
Remarque : Si on n’avait pas défini la moyenne et l’écart-type, ces deux paramètres seraient estimés par
50.028 et 2.645 respectivement et l’écart maximum serait de 0.131 avec une p-value de 0.200. Dans ce
cas, la p-value a subi une correction de signification de Lilliefors (utilisez un logiciel statistique pour
vérifier ces résultats).
Tableau 8.6. Principaux paramètres permettant le calcul de l'écart maximum pour la réalisation
du test de Kolmogorov-Smirnov.
𝒊 𝒊−𝟏
Poids i N’(i) N’(i-1) u(xi) F(xi) | − 𝑭(𝒙𝒊 )| |𝑭(𝒙𝒊 ) − |
𝒏 𝒏
45,72 1 0,067 0,000 -1,7120 0,0434 0,0232 0,0434
45,91 2 0,133 0,067 -1,6360 0,0509 0,0824 0,0157
46,58 3 0,200 0,133 -1,3680 0,0857 0,1143 0,0477
47,76 4 0,267 0,200 -0,8960 0,1851 0,0815 0,0149
48,90 5 0,333 0,267 -0,4400 0,3300 0,0034 0,0633
49,32 6 0,400 0,333 -0,2720 0,3928 0,0072 0,0595
49,79 7 0,467 0,400 -0,0840 0,4665 0,0001 0,0665
50,15 8 0,533 0,467 0,0600 0,5239 0,0094 0,0573
50,39 9 0,600 0,533 0,1560 0,5620 0,0380 0,0287
51,66 10 0,667 0,600 0,6640 0,7467 0,0800 0,1467
52,09 11 0,733 0,667 0,8360 0,7984 0,0651 0,1318
52,78 12 0,800 0,733 1,1120 0,8669 0,0669 0,1336
52,80 13 0,867 0,800 1,1200 0,8686 0,0020 0,0686
53,26 14 0,933 0,867 1,3040 0,9039 0,0295 0,0372
53,31 15 1,000 0,933 1,3240 0,9072 0,0928 0,0261
Outre le test d'ajustement khi-deux du paragraphe 8.3, on trouve dans la littérature plusieurs
autres tests efficaces pour tester l'ajustement à une distribution de Poisson. Parmi ceux-ci, on
peut citer le test de l'indice de dispersion1.
En effet, dans le domaine écologique, on peut avoir trois types de distributions spatiales des
individus dans un espace géographique (figure 8.1) :
1
En anglais : index of dispersion test.
126
− Sur la figure 8.1 (a), la répartition spatiale des individus est purement aléatoire (distribution
aléatoire ou de Poisson) ;
− Sur la figure 8.1 (b), les individus ont tendance à se regrouper. On parle de sur-dispersion
ou de distribution agrégée. Il y a des valeurs extrêmes ;
− Sur la figure 8.1 (c), les individus ont tendance à se repousser mutuellement. On parle de
sous-dispersion ou de contagion négative (distribution régulière).
Pour la distribution de Poisson, l'indice théorique I = 2 / auquel correspond l'indice
estimé :
̂ 2
Ie =
x
est égal à l'unité. On peut donc utiliser cette valeur estimée pour avoir une idée sur la dispersion
de la distribution par rapport à la distribution de Poisson.
Si la population est sous-dispersée, la variance sera beaucoup plus petite que la moyenne et
donc l'indice de dispersion estimé sera plus proche de 0. Si la population est sur-dispersée, la
variance sera beaucoup plus grande que la moyenne et donc l'indice de dispersion estimé sera
beaucoup plus grand que 1.
Exemple 8.5
Reprenez les données du tableau 8.2 et réalisez un test ajustement à une distribution de Poisson, en utilisant
le test basé sur l'indice de dispersion (=0.05) ?
Solution 8.5
a) Méthode : ajustement à une distribution de Poisson par le test de l'indice de dispersion
b) Conditions d'application :
- La population est pratiquement infinie
- L'échantillon des 70 taureaux est tiré de manière aléatoire et simple
- La moyenne est supérieure à 2
c) Hypothèses : cf. exemple 8.2.
d) Calcul
2.501
La valeur observée de la variable khi-deux est : obs
2
= (70 − 1) = 66.02 .
2.614
A. Hamouda (IAV Hassan II) 127
On a :
02.025 66.02 12− / 2 avec 02.025 = 47.92 et 12− / 2 = 93.86 ,
y1 y 2 ... y n−1 y n
n / 2 2
T2 = i =1 a n ( i )d i
où les coefficients a n (i ) sont les scores normaux (tableau 8.7) et n / 2 correspond à la partie
entière de n/2. Si n est pair, il y a n/2 différences et si n est impair, il y a également [n/2]
différences, c’est-à-dire que l'observation médiane n'intervient pas ;
T2
W obs =
T1
W obs W
Exemple 8.6
L'échantillon des douze valeurs suivantes peut-il être considéré comme extrait d'une population
normale (=0.01) ?
9.1 3.2 45.2 23.9 21.9 20.2 11.9 86.1 32.7 18.7 11.6 28.4
Solution 8.6
a) Méthode : ajustement à une normale par la méthode de Shapiro-Wilk
b) Conditions d'application :
- L'échantillon des douze observations est prélevé de manière aléatoire et simple
d) Calcul
On ordonne les valeurs par ordre croissant et on obtient les différences di :
d 1 = y12 − y1 = 86.1 − 3.2 = 82.9 ;
d 2 = y11 − y 2 = 45.2 − 9.1 = 36.1 ;
d 3 = 32.7 − 11.6 = 21.1 ;
d 4 = 28.4 − 11.9 = 16.5 ;
d 5 = 23.9 − 18.7 = 5.2 ; et
d 6 = 21.9 − 20.2 = 1.7 .
T1 = SCE y = 5351.003
T2 = [(82.9)(0.5475) + (36.1)(0.3325) + (21.1)(0.2347) + (16.5)(0.1586) + (5.2)(0.0922)
+ (1.7(0.0303)]2 = 65.491
2
T2 (65.491) 2
W obs = = = 0.80
T1 5351.003
Comme la valeur critique vaut 0.859, on est amené à rejeter l’hypothèse nulle puisque Wobs W0.05 .
La p-value obtenue par les logiciels statistiques est de 0.0075.
Conclusion : En prenant un risque de 1%, on ne peut pas accepter l'hypothèse de la normalité de la
population-parent.
Exercice 8.7
n 5 6 7 8 9 10 11 12 13 14 15
i
1 0.6646 0.6431 0.6233 0.6052 0.5888 0.5739 0.5601 0.5475 0.5359 0.5251 0.5150
2 0.2413 0.2806 0.3031 0.3164 0.3244 0.3291 0.3315 0.3325 0.3325 0.3318 0.3306
3 0.0000 0.0875 0.1401 0.1743 0.1976 0.2141 0.2260 0.2347 0.2412 0.2460 0.2495
4 0.0000 0.0561 0.0947 0.1224 0.1429 0.1586 0.1707 0.1802 0.1878
5 0.0000 0.0399 0.0695 0.0922 0.1099 0.1240 0.1353
6 0.0000 0.0303 0.0539 0.0727 0.0880
7 0.0000 0.0240 0.0433
8 0.0000
n 16 17 18 19 20 21 22 23 24 25 26 27
i
1 0.5056 0.4968 0.4886 0.4808 0.4734 0.4643 0.4590 0.4542 0.4493 0.4450 0.4407 0.4366
2 0.3290 0.3273 0.3253 0.3232 0.3211 0.3185 0.3156 0.3126 0.3098 0.3069 0.3043 0.3018
3 0.2521 0.2540 0.2553 0.2561 0.2565 0.2578 0.2571 0.2563 0.2554 0.2543 0.2533 0.2522
4 0.1939 0.1988 0.2027 0.2059 0.2085 0.2119 0.2131 0.2139 0.2145 0.2148 0.2151 0.2152
5 0.1447 0.1524 0.1587 0.1641 0.1686 0.1736 0.1764 0.1787 0.1807 0.1822 0.1836 0.1848
6 0.1005 0.1109 0.1197 0.1271 0.1334 0.1399 0.1443 0.1480 0.1512 0.1539 0.1563 0.1584
7 0.0593 0.0725 0.0837 0.0932 0.1013 0.1092 0.1150 0.1201 0.1245 0.1283 0.1316 0.1346
8 0.0196 0.0359 0.0496 0.0612 0.0711 0.0804 0.0878 0.0941 0.0997 0.1046 0.1089 0.1128
9 0.0000 0.0163 0.0303 0.0422 0.0530 0.0618 0.0696 0.0764 0.0823 0.0876 0.0923
10 0.0000 0.0140 0.0263 0.0368 0.0459 0.0539 0.0610 0.0672 0.0728
11 0.0000 0.0122 0.0228 0.0321 0.0403 0.0476 0.0540
12 0.0000 0.0107 0.0200 0.0284 0.0358
13 0.0000 0.0094 0.0178
14 0.0000
n 28 29 30 31 32 33 34 35 36 37 38
i
1 0.4328 0.4291 0.4254 0.4220 0.4188 0.4156 0.4127 0.4096 0.4068 0.4040 0.4015
2 0.2992 0.2968 0.2944 0.2921 0.2898 0.2876 0.2854 0.2834 0.2813 0.2794 0.2774
3 0.2510 0.2499 0.2487 0.2475 0.2463 0.2451 0.2439 0.2427 0.2415 0.2403 0.2391
4 0.2151 0.2150 0.2148 0.2145 0.2141 0.2137 0.2132 0.2127 0.2121 0.2116 0.2110
5 0.1857 0.1864 0.1870 0.1874 0.1878 0.1880 0.1882 0.1883 0.1883 0.1883 0.1881
6 0.1601 0.1616 0.1630 0.1641 0.1651 0.1660 0.1667 0.1673 0.1678 0.1683 0.1686
7 0.1372 0.1395 0.1415 0.1433 0.1449 0.1463 0.1475 0.1487 0.1496 0.1505 0.1513
8 0.1162 0.1192 0.1219 0.1243 0.1265 0.1284 0.1301 0.1317 0.1331 0.1344 0.1356
9 0.0965 0.1002 0.1036 0.1066 0.1093 0.1118 0.1140 0.1160 0.1179 0.1196 0.1211
10 0.0778 0.0822 0.0862 0.0899 0.0931 0.0961 0.0988 0.1013 0.1036 0.1056 0.1075
11 0.0598 0.0650 0.0697 0.0739 0.0777 0.0812 0.0844 0.0873 0.0900 0.0924 0.0947
12 0.0424 0.0483 0.0537 0.0585 0.0629 0.0669 0.0706 0.0739 0.0770 0.0798 0.0824
13 0.0253 0.0320 0.0381 0.0435 0.0485 0.0530 0.0572 0.0610 0.0645 0.0677 0.0706
14 0.0084 0.0159 0.0227 0.0289 0.0344 0.0395 0.0441 0.0484 0.0523 0.0559 0.0592
15 0.0000 0.0076 0.0144 0.0206 0.0262 0.0314 0.0361 0.0404 0.0444 0.0481
16 0.0000 0.0068 0.0131 0.0187 0.0239 0.0287 0.0331 0.0372
17 0.0000 0.0062 0.0119 0.0172 0.0220 0.0264
18 0.0000 0.0057 0.0110 0.0158
19 0.0000 0.0153
130
Risque 5% Risque 1%
n W 0,05 W 0,01
5 0,7 62 0.686
6 0.988 0.713
7 0.803 0.730
8 0.818 0.749
9 0.829 0.764
10 0.842 0.781
11 0.850 0.792
12 0.859 0.805
13 0.866 0.814
14 0.874 0.825
15 0.881 0.835
16 0.887 0.844
17 0.892 0.851
18 0.897 0.858
19 0.901 0.863
20 0.905 0.868
21 0.908 0.873
22 0.911 0.878
23 0.914 0.881
24 0.916 0.884
25 0.918 0.888
26 0.920 0.891
27 0.923 0.894
28 0.924 0.896
29 0.926 0.898
30 0.927 0.900
31 0.929 0.902
32 0.930 0.904
33 0.931 0.906
34 0.933 0.908
35 0.934 0.910
36 0.935 0.912
37 0.936 0.914
38 0.938 0.916
39 0.939 0.917
40 0.940 0.919
41 0.941 0.920
42 0.942 0.922
43 0.943 0.923
44 0.944 0.924
45 0.945 0.926
46 0.945 0.927
47 0.946 0.928
48 0.947 0.929
49 0.947 0.929
50 0.947 0.930
CHAPITRE 9
9.1. INTRODUCTION
Les tests d'indépendance permettent de tester la vraisemblance d'une absence de liaison entre
deux variables qualitatives dans la population à partir d'un échantillon aléatoire et simple
prélevé dans celle-ci.
Les données sont des fréquences réparties en classes croisant les modalités des deux variables
qualitatives et consignées dans un tableau de contingence. On peut facilement voir, si la
dimension du tableau n'est pas grande, comment une variable dépend de l'autre, mais
la signification de cette dépendance reste à vérifier par un test d'indépendance.
Trois tests d'indépendance seront présentés dans le paragraphe 9.2 de ce chapitre, il s'agit du
test khi-deux de Pearson, du test khi-deux du rapport de vraisemblance et du test exact de
Fisher. Nous utiliserons aussi la statistique de Mantel-Haenszel pour tester la présence ou non
d'une relation linéaire, mais cette statistique ne convient que pour les variables qualitatives
ordinales.
Les tests d'indépendance que nous utilisons habituellement nous ne donnent pas d'information
sur l'intensité de la relation entre les deux variables. Celle-ci peut être renseignée par le calcul
de coefficients de mesures d'association (paragraphe 9.3).
Si les deux variables sont mesurées selon une échelle ordinale, on peut aussi utiliser des
coefficients qui renseignent à la fois sur l'intensité et le sens de la relation linéaire entre les
deux variables. Parmi ces coefficients, nous présenterons le coefficient gamma de Goodman et
Kruskal (paragraphe 9.4).
9.2.1. Introduction
Soient X et Y deux variables qualitatives à p et q modalités respectivement, et soit une
population pratiquement infinie dont les individus sont classés en pq classes en fonction de ces
deux variables. Supposons que l'on dispose d'un échantillon aléatoire et simple tiré de cette
population et que les résultats du dénombrement sont consignés dans une distribution de
fréquences à deux dimensions, en adoptant les notations suivantes :
nij : fréquence observée pour la classe croisant la i-ième modalité de la variable i avec
la j-ième modalité de la variable j ;
ni . : fréquence de la modalité i de la première variable ;
n. j : fréquence de la modalité j de la deuxième variable ;
n : effectif total de l'échantillon.
Les tests d'indépendance ont pour but de vérifier si les deux variables qualitatives (appelées
aussi critères ou caractères) sont indépendantes ou bien s'influencent entre elles. Quatre de ces
tests seront exposés après la présentation des données d'un exemple qui nous servira à illustrer
les calculs.
132
Des informations ont été collectées sur un échantillon aléatoire et simple de 225 exploitants
agricoles selon qu'ils sont bénéficiaires ou non-bénéficiaires d'un projet de développement
donné et selon le degré de demande de conseils techniques à d'autres exploitants agricoles.
Les données étaient d’abord collectées et enregistrées dans un tableau semblable au tableau 9.1
avant d’être regroupées dans un tableau de contingence croisant les deux caractères (tableau
9.2).
Peut-on dire que les bénéficiaires du projet s'insèrent davantage que les non-
bénéficiaires dans une démarche collective d'échanges de conseils techniques avec
d'autres agriculteurs ? Autrement dit, y a-t-il un lien entre la catégorie d'exploitants
et le degré de demande de conseils techniques ?
Tableau 9.1. Catégorie et degré de demande de conseils techniques de 225 exploitants agricoles
Agriculteur Catégorie Conseil
1 Bénéficiaire Souvent
2 Non bénéficiaire Parfois
3 Bénéficiaire Souvent
. . .
20 Non bénéficiaire Parfois
21 Bénéficiaire Souvent
22 Bénéficiaire Parfois
. . .
72 Non bénéficiaire Jamais
73 Bénéficiaire Jamais
74 Bénéficiaire Jamais
. . .
225 Non bénéficiaire Parfois
où Pi. et P.j sont les probabilités marginales et Pij est la probabilité à deux dimensions. Nous
verrons que ces quantités peuvent être estimées respectivement par n'i. , n'.j et n'ij .
A. Hamouda (IAV Hassan II) 133
D'une manière générale, si les fréquences marginales sont égales ou presque égales, la présence
ou l'absence d'association entre les deux variables peuvent être examinées en analysant les
distributions des différentes modalités en regardant en lignes (ou en colonnes) le tableau de
fréquences. On essaie ainsi de comprendre la structure du tableau en cherchant à localiser les
endroits où existent d'éventuels points d'attraction et/ou de répulsion entre les modalités.
Mais lorsque les fréquences marginales sont inégales, la comparaison entre deux modalités de
la même variable sur la base des fréquences absolues n’a pas de sens. Par exemple, si l'on
souhaite savoir qui a tendance à demander souvent des conseils auprès des autres exploitants
(les bénéficiaires ou les non- bénéficiaires), on ne compare pas les fréquences 19 et 18, mais
bien 19 sur 98 et 18 sur 127.
En effet, si l'on souhaite comparer deux modalités en lignes, il est plus commode de faire cette
comparaison en se basant sur des fréquences conditionnelles, c'est-à-dire sur la répartition en
pourcentages à l’intérieur de chaque ligne. On obtient ce qu’on appelle des profils associés aux
lignes (tableau 9.3). Ce tableau permet de remarquer que les profils associés à la catégorie des
exploitants sont différents. On a par exemple 45.7% des non–bénéficiaires qui déclarent ne
jamais demander des conseils techniques à d'autres exploitants agricoles contre seulement
27.6% chez les bénéficiaires.
On peut également faire une analyse semblable en calculant les profils associés aux colonnes.
L'analyse des tableaux des profils laisse penser à une non-indépendance entre la catégorie
d'exploitants et le degré de demande de conseils techniques. Cela reste à confirmer par un test
d'indépendance.
Tableau 9.3. Profils associés aux lignes obtenus à partir du tableau 9.2.
Degré de demande de conseils techniques
Catégorie d'exploitants Total
Souvent Parfois Jamais
Bénéficiaires 19.4 53.1 27.6 100
Non-bénéficiaires 14.2 40.2 45.7 100
Dans l'expression (1), la quantité 𝑷 ̂ 𝒊𝒋 est une estimation de la probabilité d'obtenir une
observation possédant la modalité i du premier caractère et la modalité j du second caractère
lorsqu'il y a indépendance, c'est-à-dire lorsque l'hypothèse nulle est vraie. On peut en déduire
l'effectif attendu :
n i . n. j
nPˆij = nn i' . n.' j = . (3)
n
La valeur 𝝌𝟐𝒐𝒃𝒔 prend des valeurs positives, elle est nulle sous l'hypothèse nulle, et sa valeur, en
cas d'association "parfaite" entre les deux variables dépend de l'effectif de l'échantillon et du
nombre de modalités.
Comme nous l'avons signalé, le test n'est qu'approché. L'approximation n'est satisfaisante que
lorsque l’effectif global est grand et que les fréquences attendues des différentes classes
(cellules du tableau) sont toutes supérieures ou égales à 5. Si cette règle, qui fait à peu près
l'unanimité des statisticiens, n'est pas vérifiée, il y a lieu de procéder à des regroupements de
modalités d'un caractère, si cela un sens, pour obtenir des fréquences attendues au moins égales
à 5 ou passer par le test exact.
D'après certains auteurs, on peut tolérer la présence d'une fréquence attendue comprise entre 1
et 5 lorsqu'il y a 6 à 10 classes et 2 fréquences comprises entre 1 et 5 lorsqu'il y a plus de 10
classes. D’après d’autres auteurs, l'utilisation des tests du Khi-deux peut être considérée
inappropriée si une fréquence attendue est inférieure à 1 ou si la fréquence attendue est
inférieure à 5 dans plus de 20% des cas.
Yates a suggéré une correction de continuité consistant à soustraire 0,5 des écarts positifs et à
ajouter 0,5 aux écarts négatifs dans le calcul de la différence entre les fréquences, et ce, avant
d’élever au carré dans la formule de la statistique du khi-deux :
𝟐
p q ̂ ij | -0.5)
(|nij -nP
ij
χ2obs = ∑ ∑ .
̂ ij
nP
i=1 j=1
On constate que cette correction réduit la valeur du Khi-deux et augmente la value du p-value
et, dans certains cas, la correction s'ajuste trop fort ce qui rend son utilisation limitée.
Certains utilisateurs recourent à cette correction lorsqu’il y a présence de fréquences attendues
inférieures à 5, tout en étant supérieures à 3. Mais, généralement, on ne devrait probablement
l’utiliser que pour des tests faisant intervenir deux variables à deux modalités chacune (2x2) où
l’on considère acceptables les fréquences attendues inférieures à 5 si la correction de Yates est
appliquée.
D'autre part, il faut faire attention à l'interprétation des résultats d'un test d'indépendance :
- Le rejet de l'hypothèse nulle, c'est-à-dire l'acceptation de l'existence d'une dépendance,
n'implique pas nécessairement l'existence d'une relation directe de cause à effet entre les
deux critères considérés ;
- Une valeur élevée du khi-deux permet de rejeter l'hypothèse d'indépendance avec une
grande sécurité sans toutefois prouver que l'intensité de l'association entre les deux critères
est très forte. Lorsqu'il existe une liaison entre les deux critères, la valeur du khi-deux
augmente notamment avec l'augmentation de l'effectif de l'échantillon.
A. Hamouda (IAV Hassan II) 135
Exemple 9.1
Reprenez les données du tableau 9.2 et vérifiez si l'on peut dire que la catégorie d'exploitants et le degré
de demande de conseils techniques sont liés (=0.05) ?
Solution 9.1
a) Méthode : test khi-carré d'indépendance
b) Conditions d'application
- la population est pratiquement infinie
- l'échantillon des 225 exploitants est prélevé de manière aléatoire et simple
- les effectifs attendus sont égaux ou supérieurs à 5 (hypothèse vérifiée)
c) Hypothèses
H0 : la catégorie d'exploitants et le degré de demande de conseils sont indépendants
contre H1 : les deux critères ne sont pas indépendants
d) Calcul
Le tableau 9.4 reprend les effectifs observés n ij et attendus nPˆij (en gras) des différentes classes.
Tableau 9.4. Fréquences observées et attendues (en gras) obtenues pour les
différentes classes.
Degré de demande de conseils
Catégorie d'exploitants Total
Souvent Parfois Jamais
19 52 27
Bénéficiaires
16.12 44.86 37.02 98
18 51 58
Non-bénéficiaires
20.88 58.14 47.98 127
Total 37 103 85 225
L'hypothèse d'indépendance est rejetée lorsque cette valeur observée dépasse la valeur
théorique 𝝌𝟐𝟏−𝜶 à (p-1)(q-1) degrés de liberté. L'approximation par la distribution khi-deux est
valide lorsque l'effectif de l'échantillon est assez grand.
Le test du rapport de vraisemblance est moins fiable que le test khi-deux lorsqu'on a des effectifs
qui ne sont assez grands. Les valeurs de 𝝌𝟐𝑴𝑳 et de 𝝌𝟐𝒐𝒃𝒔 sont proches si l'effectif est assez grand
ou si l'on est "proche" de l'indépendance.
1
En anglais: likelihood ratio chi-square.
136
Exemple 9.2
Reprenez les données du tableau 9.2 et vérifiez si l'on peut dire que la catégorie d'exploitants et le degré
de demande de conseils techniques sont liés en utilisant le test khi-deux du rapport de vraisemblance
(=0.05) ?
Solution 9.1
a) Méthode : test khi-carré du rapport de vraisemblance
b) Conditions d'application : voir exemple 9.1
c) Hypothèses : voir exemple 9.1
d) Calcul
La valeur du khi-deux du rapport de vraisemblance :
ML
2
= 2(( 19 )( 0.1647 ) + ... + ( 58 )( 0.1897 )) = 7.86
est supérieure à la valeur critique 02.95 = 5.99 à 2 degrés de liberté (p-valeur=0.020). L'hypothèse nulle
doit donc être rejetée au niveau =0.05.
e) Conclusion : voir exercice 9.1.
Les tests d'indépendance présentés aux paragraphes 9.2.4 et 9.2.5 se basent sur le théorème
central limite. Ils sont valides lorsque les effectifs sont assez grands. Pour des effectifs petits
ou lorsqu’une ou plusieurs cases du tableau ont une fréquence attendue inférieure à 5, on peut
utiliser le test exact de Fisher pour tester l'indépendance. Il s'agit d'un test à marges fixées.
Lorsque le tableau de contingence est de dimensions 2 x 2, c'est-à-dire que chaque variable a
deux modalités, le test exact de Fisher reste relativement simple à réaliser. Pour des tableaux
de dimensions supérieures à 2 x 2, on peut appliquer le test exact de Fisher généralisé (test de
Fisher-Freeman-Halton). Ce test exige un calcul long et compliqué. Il se peut aussi que ce test
ne puisse être calculé pour certains tableaux. Dans ce dernier cas, on peut essayer une méthode
hybride basée sur les règles de Cochrane (Mehta et Patel, 1986).
Les valeurs des statistiques du test chi-deux de Pearson et du test du rapport de vraisemblance
ne changent pas si on permute les lignes ou les colonnes du tableau de contingence. Ces tests
supposent l'absence d'ordre dans les valeurs des deux variables.
Lorsque les deux variables sont mesurées selon des échelles ordinales, on peut utiliser le test
de Mantel-Haesnszel pour l'association linéaire. Ce test permet de tester si l'on peut affirmer
que l'association entre les variables est linéaire. Il se calcule selon la relation suivante :
MH
2
= (n − 1)r 2 (5)
dans laquelle r est le coefficient de corrélation de Pearson entre les deux variables en
numérotant les modalités de la première variables par 1, 2, …, p et celles de la seconde variable
par 1, 2, …, q.
On conclut à l'existence d'une relation linéaire significative entre les deux variables si :
MH
2
12−
9.2.8. Remarque
Dans le cas du test d'indépendance, nous avons vu que l'on choisit un échantillon aléatoire et
simple de n individus et que l'on répartit ensuite ces individus en fonctions des deux critères
de classification. Or il se peut, pour certains problèmes, que les effectifs marginaux de l'une
des deux variables soient fixés au préalable. Ce genre de répartition se rencontre souvent
lorsque les individus sont soumis à certains traitements.
Pour ce type d'échantillonnage, on est souvent amené à tester si la distribution des valeurs de
l'une des variables (Y par exemple) est homogène dans chacune des populations de l'autre
variable (X par exemple).
L'hypothèse en question est en effet une hypothèse d'homogénéité de distributions. Le test se
réalise mathématiquement de la même manière que le test d'indépendance.
Exemple 9.3
Cinq usines fabriquent des boîtes de ton. Les boites peuvent être examinées pour vérifier s'ils répondent à
certaines exigences de qualités. Des échantillons aléatoires de 80, 100, 70, 90 et 120 boîtes provenant
respectivement des usines A, B, C, D et E ont permis de repérer des boites de qualités insuffisantes,
respectivement au nombre de 7, 8, 6, 8 et 11. Pouvez-vous conclure que les cinq fabrications sont de
qualités différentes (=0.05) ?
Solution 9.3
a) Méthode : test d'homogénéité de populations
b) Conditions d'application
- les effectifs marginaux des cinq échantillons sont fixés et prélevés dans populations pratiquement
infinies
- chaque échantillon est prélevé de manière aléatoire et simple
- les effectifs attendus sont supérieurs à 5 (condition vérifiée)
c) Hypothèses
𝑯𝟎 : les cinq fabrications sont de la même qualité
contre 𝑯𝟏 : les cinq fabrications ne sont pas de la même qualité
d) Calcul
Le tableau 9.5. reprend les effectifs observés n ij et attendus nPˆij des différentes classes.
1) On a 𝝌𝟐𝒐𝒃𝒔 =0.10 et 𝝌𝟐𝟎.𝟗𝟓 =9.49 avec k=4 degrés de liberté (p-valeur=0.999). L'hypothèse nulle ne
peut être rejetée au niveau =0.05 (on constate que les effectifs observés et théoriques sont très
proches).
138
2) En prenant un risque de 5%, on peut dire qu'il n'y a pas de différence de qualité entre les boîtes de
ton produites par les cinq fabrications.
obs
2
= (6)
n
dans laquelle 𝝌 𝟐𝒐𝒃𝒔 est la valeur observée du khi-carré de Pearson du test d'indépendance (cf.
paragraphe 9.2.4) et n est l'effectif total de l'échantillon. La valeur minimale de phi est zéro,
elle indique l'absence de lien entre les deux variables, tandis que la valeur maximale dépend
de la dimension du tableau de contingence.
Le coefficient phi () est surtout utilisé dans le cas où les deux variables sont dichotomiques,
c'est-à-dire lorsque chacune des deux variables ne prend que deux modalités (tableaux de
dimensions 2 x 2). Dans ce cas, il représente le coefficient de corrélation lorsqu'on attribue la
valeur 0 à l'une des modalités de chaque variable et la valeur 1 à l'autre modalité. La valeur du
coefficient varie dans ce cas sur une échelle allant de 0 à 1. Une valeur de 1 signifie un lien
presque parfait et une valeur nulle indique l'absence de lien entre les deux variables. En général,
plus la valeur de est proche de 1, plus le lien est fort, et plus sa valeur est proche de 0, plus
le lien est faible.
Pour ceux qui utilisent le logiciel statistique SAS, ils peuvent constater que le phi est donné
avec un signe. Celui-ci est négatif si l'association se trouve suivant l'anti-diagonale.
obs
2
C= (7)
obs
2
+n
dans laquelle 𝝌𝟐𝒐𝒃𝒔 est la valeur observée du khi-carré de Pearson du test d'indépendance (cf.
paragraphe 9.2.4) et n est l'effectif total de l'échantillon. La valeur de ce coefficient est nulle
2
En anglais: contingency coefficient.
A. Hamouda (IAV Hassan II) 139
lorsqu'il y a indépendance et, dans le cas d'un lien parfait, la valeur de C dépend de la dimension
du tableau de contingence. Elle n'approche la valeur 1 que dans le cas de tableaux de grandes
dimensions (p et q grands). Certains auteurs ne recommandent ce coefficient que pour les
tableaux de dimensions d'au moins 5x5. Pour des tableaux de petites dimensions, le coefficient
C tend à surestimer le niveau d'association.
Certains chercheurs utilisent ce qu'on appelle le coefficient de contingence corrigé qui a
l'avantage de varier entre 0 et 1. Celui-ci est donné par la relation :
C corrigé = C / Cmax
dans laquelle Cmax peut être lue dans la table donnée par Champion [1970].
obs
2
c = (8)
n( k − 1)
dans laquelle k est la plus petite valeur entre le nombre de lignes et de colonnes (k=min(p,q)).
Les autres paramètres gardent la même signification que dans le cas de la statistique phi.
Lorsque k est égal à deux, le phi de Cramer est le même que le phi classique.
Exemple 9.4
Reprenez les données du tableau 9.2 et mesurez l'intensité de la relation entre la catégorie d'exploitants
et le degré de demande de conseils techniques ?
Solution 9.4
a) Méthode : calcul de coefficients de mesures d'association
b) Calcul :
on obtient :
7.733
Coefficient Phi : = = 0.185 avec une p-value approximative de 0.021
225
7.733
Coefficient de contingence : C = = 0.182 avec une p-value approximative de 0.021
7.733 + 225
7.733
Coefficient phi de Cramer c = = 0.185 avec une p-value approximative de 0.021
225( 2 − 1)
Ces valeurs permettent de qualifier la relation entre la catégorie d'exploitants et le degré de demande
de conseils techniques de faible.
140
9.4.1. Introduction
Différentes mesures statistiques permettent de décrire le sens de la relation entre deux variables
qualitatives lorsqu'il existe un ordre dans les modalités de chacune d'elles. Parmi ces mesures,
nous présentons le coefficient gamma.
nC
1
C= ij ij
. (10)
2 i j
De même, le nombre d'observations Dij en discordance avec celles d'une cellule ij s'obtient en
sommant les fréquences de toutes les cellules du coin supérieur droit et du coin inférieur gauche
du tableau de fréquences par rapport à cette cellule :
Dij =
s i t j
n st + s i t j
n st (11)
n
1
D= ij D ij
. (12)
2 i j
Exemple 9.5
Un sondage a été réalisé auprès d'un échantillon de 244 agriculteurs choisis de manière aléatoire et simple
pour connaître leur degré de satisfaction quant aux services offerts par le crédit agricole. En outre, ces
agriculteurs ont été répartis en trois classes selon leur dotation en facteurs fixes (SAU, matériel agricole,
etc.) en petits, moyens et grands agriculteurs.
En fonction des résultats obtenus (tableau 9.6), peut-on conclure à un lien entre le degré de satisfaction
des exploitants et la taille de leur exploitation ? Si oui, indiquez l'importance et le sens de ce lien ?
c) Hypothèse nulle :
d) Calcul :
1) La valeur du khi-deux de Pearson : 𝝌𝟐𝒐𝒃𝒔 = 40.205 (p-value= 0.000). On conclut à un lien très
hautement significatif entre le degré de satisfaction des exploitants et la taille de leur exploitation.
2) La statistique du khi-deux de Mantel-Haenszel est donnée par :
χ2MH =(244-1)(0.3327)2 =26.90
et la p-valeur est de 0.000. Il y a donc présence d'une relation linéaire significative entre les deux
variables.
3) Le coefficient gamma est donné par :
9658 − 3757
= = 0.44 avec p-value approximative de 0.000.
9658 + 3757
Cette valeur traduit que la relation linéaire est modérée et positive. Les exploitants des plus grandes
exploitations expriment une satisfaction élevée alors que ceux des petites exploitations expriment
une satisfaction faible.
9.5. CONCLUSION
Nous avons passé en revue différentes statistiques permettant de vérifier s'il y a indépendance
ou non entre deux variables qualitatives. Le test du rapport de vraisemblance est moins fiable
que le test khi-deux lorsqu'on a des nombres qui ne sont pas assez grands. Le test khi-deux est
généralement utilisé lorsque le test exact de Fisher ne peut être calculé.
142
L'analyse des tableaux de profils permettent une certaine description de la relation entre les
deux variables, mais, pour des tableaux avec des variables comportant plusieurs modalités, une
analyse exploratoire plus intéressante pourra être obtenue en utilisant une méthode statistique
multidimensionnelle appelée analyse factorielle des correspondances ou AFC (cf. cours
d'analyse des données dispensé en 2ième année du cycle ingénieur de IAV Hassan II).
D'autre part, nous avons souligné que l'intensité de la relation entre deux variables qualitatives
peut être évaluée par l'un des coefficients de mesures d'association. Une variable est en effet
plus ou moins fortement influencée par une autre. Trois de ces mesures ont été présentées.
Enfin, nous avons vu que, si les deux variables sont mesurées selon des échelles ordinales, on
peut utiliser certaines mesures pour obtenir de l'information sur l’intensité et le sens de la
relation linéaires entre les deux variables. Parmi ces mesures, nous avons présenté le coefficient
gamma.
Il reste à signaler que les logiciels statistiques permettent, selon leurs richesses fonctionnelles,
d'obtenir tous ou une partie des tests et des mesures d'association présentés dans ce chapitre.
Les données à traiter peuvent être fournies aux logiciels statistiques sous formes d'un tableau
de fréquences (lignes x colonnes) ou sous formes de données brutes résultant d'une enquête
(individus x variables). Dans ce dernier cas, le logiciel permet d'obtenir à la fois le tableau de
contingence, les tests statistiques et les mesures d'association souhaités.