Section 4

Chapitre 04 : Analyse de la variance
I-ANALYSE DE LA VARIANCE A UN CRITERE DE CLASSIFICATION
 Les aspects descriptifs
 Principes généraux
Les notions de modèle observé et de tableau d’analyse de la variance

(ANOVA), et la réalisation pratique de l’analyse. Il nous paraît en effet
important, tant pour la compréhension que pour l’utilisation de l’analyse de
la variance, de conserver une certaine aptitude au calcul «manuel », en
particulier en ce qui concerne la détermination des sommes des carres
des écarts (SCE).
La décomposition de la variation totale
1◦ Nous supposerons qu’on dispose au départ de p échantillons ou séries

d’observations, d’effectifs ni (i = 1, . . ., p), et nous désignerons l’effectif
total par n. :
2◦ Nous désignerons aussi les différentes observations par le symbole (i = 1 , .

.,p) et (k
= 1 , . . . , ni), la valeur étant donc la observation du
échantillon. On peut
3◦ En fonction de ces différents éléments, il est possible de subdiviser les

écarts entre les observations individuelles et la moyenne générale en deux
composantes additives :
La composante globale est appelée variation totale et les deux composantes
partielles sont appelées, d’une part, variation factorielle ou liée au facteur
contrôlé, ou encore entre échantillons, et d’autre part, variation résiduelle ou
dans les échantillons.
4◦ En élevant au carré les deux membres de la relation précédente, et en sommant

pour toute les valeurs observées, on obtient l’équation d’analyse de la variance:
On constate ainsi que la somme des carrés des écarts par rapport à la
moyenne générale, est appelée somme des carres des écarts totale : SCEt,
peut elle aussi être divisée en deux composantes additives : une somme des
carrés des écarts factorielle : SCEa ou entre échantillons, et une somme
des carrées des écarts résiduelle SCEr, on peut résumer l’équation
d’analyse de la variance sous la forme :
5◦ Des nombres de degrés de liberté : ddl peuvent être associés aux

différentes sommes des carrés des écarts. Ces nombres de degrés de liberté
sont aussi additifs et se présentent de la manière suivante :
6◦ En divisant les sommes des carrés des écarts par leurs nombres de degrés
de liberté respectifs, on définit des quantités appelées carré moyen total :
CMt, un carré moyen factoriel : CMa ou entre échantillons, et un carré
moyen résiduel : CMr ou dans les échantillons:
Ces carrés moyens sont aussi appelés variances et ils possèdent d’ailleurs
certaines des propriétés des variances, notamment en ce qui concerne leurs
distributions d’échantillonnage.
7◦ Tableau d’analyse de la variance (ANOVA) : un critère de

classification ou à un seul Facteur
8◦ Le rapport des sommes des carrés des écarts factorielle sur la somme
carrés des écarts totale permet de définir facilement le rapport de corrélation,
aussi appelé coefficient de corrélation non linéaire :
D’une manière générale, ce paramètre joue, dans le cas d’une relation

liant les différents échantillons et les différentes observations. Le rapport de
corrélation est toujours compris
entre 0 et 1. Il est égal à 0 quand toutes les moyennes sont ´égales
entre elles, et il est égal à 1 quand les variances des différents échantillons
sont toutes nulles.
Certains logiciels associent systématiquement le carré du rapport de
corrélation à toutes les analyses de la variance, en utilisant la notation r² ou
R², et non pas η² ou tout autre symbole particulier. S’il s’agit bien là d’un
paramètre jouant un rôle comparable à celui du coefficient de
détermination, il y a lieu toutefois d’être attentif au fait qu’il ne s’agit
nullement, d’une façon générale, du carré d’un coefficient de corrélation
classique.
Application
Dans cet exemple, nous allons vérifier s’il existe ou non, en moyenne, des
différences significatives de hauteurs entre les trois types de forêts, et chiffrer
éventuellement ces différences. Les hauteurs en mètre de 37 arbres sont
mentionnées dans le tableau 1 suivant :
Tableau1.
Comparaison des hauteurs des arbres de trois types de
hêtraies : hauteurs Observées, en mètres et rangs.
Les moyennes correspondantes sont :
¯x1 = 25,97 (23,4+24,4+…….+27,7)/13

¯x2 = 25,39 (22,5+22,9+ ....... +28,5)/14 ,
¯x3 = 23,14 (18,9+21,1+ ....... +26,7)/10 et la moyenne générale
¯x = 24,98 m. (25,97x 13+(25,39x14)+(23,14x10)/37
Prenant la première observation du premier échantillon (x11 = 23,4), le

modèle observé d’analyse de la variance s’écrit :
SCEt =165,5198
L’écart négatif de 1,58 m entre cette observation particulière et la moyenne

générale provient, à la fois, du fait que l’endroit considère appartient à un
type de forêts dont la moyenne est supérieure de 0,99 m, par rapport à la
moyenne générale, et que cet endroit présente une hauteur inferieure de
2,57 m, par rapport à la moyenne de toutes les observations relatives à ce
type de forêts.
Un calcul similaire pourrait être réalise pour chacune des 36 autres valeurs.
En sommant les carrés des écarts ainsi obtenus, on aboutirait aux trois
sommes des carrés des écarts définies précédemment : pour cela on obtient
les sommes des carrés de la manière suivante :
SCEt = (−1,58)² +(−1,58)² +(–0,58)² + (– 0,38)² +… ....................................... +

(1,82)²=165,53
SCEa = (0,99)²*13 +(0,41)²* 14+(1,84)²*10= 48,88
SCEr = (−2,57)²+(−1,57)²+(−1,37)²+(−1,07)²+…
.............................................................................................................. +(+3,56)²=1
16,53
Cette façon de procéder est pour bien saisir le mécanisme de l’analyse de la

variance.
Le tableau ci-dessous présente les sommes des carrés des écarts qui sont ainsi
obtenues, les nombres de degrés de liberté et les carrés moyens.
On applique ces 3 formules on obtient les carrés moyens respectifs dont n=37 arbres
et p=3

Tableau d’analyse de la variance de la comparaison des hauteurs
moyennes des arbres de trois types de hêtraies
Ce carré moyen total (ou cette variance totale), auquel correspond un écart
type égal à 2,14 m (c’est la racine carrée du CMt), mesure globalement
l’hétérogénéité des hauteurs, sans tenir compte de la subdivision en trois
types de forêts. Le carré moyen résiduel (ou la variance résiduelle), auquel est
associé un écart-type égal à 1,85 m (racine carrée du CMr), mesure, toujours
globalement, l’hétérogénéité des hauteurs à l’intérieure des trois types de
forêts. Il faut rappeler que
En outre, on peut compléter l’analyse par le calcul du rapport de

corrélation ou de son carre :
η² = 48,88/165,53 = 0,30.
Ce paramètre mesure le degré de dépendance de la variable quantitative «

hauteur des arbres » en fonction de la caractéristique nominale « type de
hêtraies ». Comme un coefficient de détermination, il indique que 30 % de la
variation totale peut être expliquée par les différences entre types de forets.
La réalisation de l’analyse de la variance
1◦ Nous donnons à titre indicatif, quelques informations relatives à la

réalisation de l’analyse de la variance en. Cette réalisation consiste
essentiellement en une suite de déterminations de sommes de carrés
d’écarts (SCE), semblables à celle qui peut être effectuée pour toute série
d’observations
2◦ En ce qui concerne la somme des carrés des écarts résiduelle, on peut

calculer séparément les sommes des carrés des écarts relatives aux différents
échantillons ou séries d’observations, et sommer ensuite les résultats ainsi
obtenus. Si on désigne par Xi. et SCEi , respectivement, les sommes et les
sommes des carrés des écarts relatives aux différentes séries d’observations,
on a :
En réalité, la détermination des sommes des carrés des écarts individuelles

SCEi n’est pas indispensable, en vue de calculer la somme des carrés des
écarts résiduelle, mais cette détermination permet d’obtenir facilement les
variances des différentes séries d’observations et donc de comparer ces
variances, préalablement à toute inférence statistique.
3◦ Quant à la somme des carrés des écarts totale (SCEt), on a, toujours par
analogie avec le cas d’une seule série d’observations :
Le symbole X.., désignant la somme de l’ensemble des n. observations :
On remarquera que le premier terme qui intervient dans la relation relative à

la somme des carrés des écarts totale SCEt n’est autre que la somme des
premiers termes qui se présentent dans l’expression relative aux sommes des
carrés des écarts individuelles SCEi .
4◦ Enfin, la somme des carrés des écarts factorielle (SCEa) peut être
obtenue soit par différence :
Soit par la relation :
Application : Dans l’exemple du tableau 1 comparaison des hauteurs des

arbres de 3 types de hêtraies : réalisation de l’analyse de la variance.
On calcul les SCE individuelles séparément selon la formule :
SCE1 = (23,4²+24,4²+……….+27,7²) - (23,4+24,4+………+27,7)²= 8.789,36 −

337,62²/13 = 22,15 SCE2 = (22,5²+22,9²+……….+29,5²) - (22,5+22,9+…
..................................................................................... +29,5)²=9.062,96 −
355,42²/14 = 40,88
SCE3 = (18,9²+21,1²+……….+26,7²) - (18,9+21,1+……….+26,7)²= 5.408,22 −231,42²/10
= 53,62
SCEr = 22,15 + 40,88 + 53,62 = 116,65 ,
SCEt=(23,4−24,98)²+(24,4−24,98)²+(24,6−24,98)²+…
..................................................................................................... +(27,7−24,98)²+(22,5
−24,98)²
+(22,9−24,98)²+(23,7−24,98)²+………..…………….…+(28,5-24,98)²+(18,9−24,98)²+(21,1−
24,98)²
+ (21,2− 24,98)²+……….…..+ (26,7− 24,98)²= (23.260,54 − 924,42²/37 =
165,53 SCEt=165,53 et
5° Le test de l’hypothèse nulle émise nécessite le calcul de la

quantité :
Le rejet de l’hypothèse, au niveau de probabilité α , intervient quand

cette quantité est trop élevée, c’est-à-dire quand :
avec p − 1 et n. − p degrés de liberté. Le caractère unilatéral du test résulte de
ce que, dans tous les cas ou l’hypothèse nulle est fausse, les valeurs Fobs
dépassent en moyenne les valeurs que donnent normalement les
distributions F de Fisher-Snedecor.
Le rejet de l’hypothèse nulle, relative à un ensemble de p moyennes,

soulève la question de savoir quelles sont les moyennes qui différent
significativement les unes des autres
En outre, on peut calculer comme suit des limites de confiance, pour les
moyennes mi et pour les différences de moyennes mi –mi’ :
La variable t de Student étant une variable à n − p degrés de liberté. Ces

formules sont semblables à celles qui concernent une ou deux populations, la
seule différence étant que les estimations antérieures de la variance σ² sont
remplacées ici par CMr.
Des limites de confiance relatives à la variance σ² et à l’écart-type σ peuvent

également être obtenues selon les procédures habituelles, à partir de la
somme des carrés des écarts ou du carré moyen résiduel, et grâce à la
distribution χ² à n – p degrés de liberté.
Application : l’exemple du tableau1 : comparaison des hauteurs

des arbres de 3 types hêtraies suite de l’analyse de la variance :
Nous pouvons maintenant clôturer l’analyse de la variance que nous
avons entamée ` A partir du tableau 1, on obtient selon la formule de la
Fobs :
CMa= carré moyen factoriel=

48,88/3-1=24,44 CMr= carré
moyen résiduel=116,65/37-
3=3,43 Fobs=24,44/3,43=7,12 et
P(F ≥ 7,12) = 0,0026
Les limites de confiance des différences sont, pour un degré de confiance

égal à 0,95 et pour les deux premiers types de forets :
pour le premier et le troisième type de forêts :
et pour
les deux derniers types de forêts :
Le fait que le premier intervalle de confiance englobe la valeur zéro indique qu’il n’y
a pas de différence significative entre les deux premiers types de hêtraies, ce qui
était déjà la
con
clusion de l’exemple. On peut en conséquence calculer éventuellement une
moyenne globale pour l’ensemble de ces deux types :
et déterminer des limites de confiance relatives à la différence entre cette
nouvelle moyenne et la moyenne du troisième type de forets :
En vue de tenir compte du fait qu’on procède en réalité à trois

comparaisons, dans la détermination des trois intervalles de confiance
initiaux, on aurait pu remplacer la valeur t classique , par
une valeur t définie au sens de Bonferroni: .
Cette façon de faire aurait conduit à étendre assez sensiblement les différents
intervalles de confiance, sans modifier, dans le cas présent, les conclusions finales.
-RESUME DE L’ANOVA A UN CRITERE DE CLASSIFICATION
 ANOVA à un facteur - Introduction

 Analyse de la variance :
L'analyse de la variance a pour but la comparaison des moyennes de k

populations, à partir d'échantillons aléatoires et indépendants prélevés
dans chacune d'elles.
Ces populations sont en général des variantes (ou niveaux k) d'un ou plusieurs
facteurs contrôlés de variation (facteurs A, B, ...).
 Conditions d'applications de l'ANOVA
 Les populations étudiées suivent une distribution normale

 Les variances des populations sont toutes égales (HOMOSCEDASTICITE)
 Les échantillons Ei de tailles ni sont prélevés aléatoirement et indépendamment dans les
populations.
 Procédure de calcul d'une ANOVA
 Déterminer si les échantillons varient de la même manière.

 Si nous démontrons l'homogénéité des variances, alors nous
pouvons comparer les moyennes de ces échantillons.
 Problèmes liés à l'égalité des variances

Test de l'homogénéité des variances
: Les variances sont homogènes

: Au moins une des variances est différente des autres
✓
Utilisation d'un test de comparaison de plusieurs variances
 Conclusion
: Est rejetée : il est théoriquement impossible de comparer des
échantillons qui ne varient pas de la même manière.
: N’est pas rejetée : par conséquent, il est possible de comparer les
moyennes de tels échantillons
 Expérience avec k échantillons - Données initiales

 Soit une Expérience faisant intervenir k échantillons de ni individus.
 Le nombre total d'individus est
 On calcule la moyenne générale des mesures de l'expérience (G).
Variabilité totale
 Variabilité totale au sein de l'expérience (quel que soit l'échantillon) :

reflète les écarts de tous les individus par rapport à la moyenne
générale (G) de l'expérience.
 Calcul de la Somme des Carrés des Écarts à la moyenne totale SCEr
 Degrés de liberté (DDL) associés : N-1.
Variabilité factorielle
 Variabilité factorielle : reflète les écarts des moyennes des échantillons
(supposées influencées par le facteur étudié) par rapport à la moyenne
générale (G) de l'expérience.
 Calcul de la Somme des Carrés des Écarts à la moyenne factorielle (SCEF)
 DDL associés : k-1
Variabilité résiduelle
 Variabilité résiduelle (liée à l'individu) : reflète l'importance des variations

individuelles dans chaque échantillon.
 Calcul de la Somme des Carrés des Écarts à la moyenne résiduelle SCER
 DDL associés : N-k.
Bilan
Pour résumer :
 SCET=SCEF+SCER
 DDL associés : N-1 = k-1 + N-k.
 On comparera les variabilités factorielles s²F=SCEF/k-1 et résiduelle s²R=SCER/N-K
Comparaison des moyennes - Hypothèses

Ho : toutes les moyennes sont identiques
H1 : au moins une des moyennes est différente des autres
Variances totale, factorielle, résiduelle

ANOVA à un facteur - Conclusion
Tableau d'analyse de la variance :
SCET=SCEF+SCER
 F suit une loi de Snédécor à

 (test unilatéral : le rapport n’est pas obligatoirement supérieur à 1)
Choix du risque
 Risque de première espèce (erreur commise lorsqu’on rejette à tort)
Décision
Si => rejet de au risque :
La variance factorielle est significativement supérieure à la variance

résiduelle : les moyennes diffèrent significativement entre-elles. → on a ribue une
influence significative au facteur étudié.
Recherche du degré de signification p (recherche du risque le plus
petit possible pour conclure au rejet de
Sinon rien ne permet de dire que les moyennes des populations ne sont pas égales
=> n’est pas rejetée.
II-ANALYSE DE LA VARIANCE A DEUX CRITERES DE CLASSIFICATION
L’analyse de la variance à deux critères de classification
 Introduction
1◦ L’analyse de la variance à deux critères de classification
Les deux facteurs envisagés peuvent être soit placés sur pied d’égalité dans
ce cas les modèles d’analyse de la variance sont dits croisés, soit au contraire
subordonnés l’un à l’autre les modèles sont dits hiérarchisés. Le cas hiérarchique
est parfois qualifié aussi de multi-niveaux.
.
Dans les différents cas, on doit également faire la distinction entre les modèles fixes, les
modèles
aléatoires et les modèles mixtes.
2◦ Nous considérerons tout d’abord les aspects descriptifs, puis les aspects
inferentiels de l’analyse à deux critères, en nous limitant dans un premier temps aux
modèles croisés à effectifs égaux. Nous envisagerons ensuite les modèles croisés à
effectifs inégaux et les modèles hiérarchisés.
3◦Les conditions d’application sont: populations normales et de même variance,

et échantillons aleatoires, simples et indépendants.
 Les modèles croisés à effectifs égaux : Aspects descriptifs
- La décomposition de la variation totale
Considérons p q échantillons ou séries d’observations de même effectif n, et

désignons les observations individuelles par , les indices i, j et k étant relatifs
respectivement aux différentes modalités du premier critère de classification (i = 1 , .
. . , p), aux différentes modalités du deuxième critère de classification (j = 1 , . . . , q),
et aux différentes observations d’un même échantillon ou d’une même série (k = 1 , .
. . , n).
A partir de telles données, on peut calculer différentes

moyennes, à savoir une moyenne pour chacun des échantillons ou séries
d’observations (i = 1 , . . . , p et j = 1 , . . . , q) :
Une moyenne pour chacune des modalités de chacun des deux critères de classification (i =
1,...,p
d’un
e part, et j = 1 , . . . , q d’autre part) :
et une moyenne générale :

subdivision des écarts par rapport à la moyenne générale : en deux, puis
en quatre composantes :
La première décomposition est identique à celle qui a été réalisée en analyse de la

variance à un critère de classification. La seconde décomposition, qui constitue le
modèle observé de l’analyse de la variance à deux critères de classification, fait
apparaitre deux termes de variation factorielle, relatifs à l’un et l’autre des deux
facteurs, un terme dit d’interaction, et un terme de variation résiduelle.
 Par élévation au carré et sommation pour les n p q observations, on obtient ensuite

l’équation d’analyse de la variance :
Les deux premières composantes sont des sommes de carrés d’écarts factorielles,
la troisième est une somme de carré d’écarts liée à l’interaction, et la quatrième
est une somme de carrés d’écarts résiduelle.
En affectant les lettres a et b ,

respectivement, à chacun des deux critères de classification, et en désignant les
différents termes par SCEt , SCEa , SCEb , SCEab et SCEr , on peut écrire aussi, de
façon simplifiée :
 Aux différentes sommes des carrés des écarts, peuvent être associés des
nombres de degrés de liberté, qui sont liés par la relation :
p q n−1 degrés de liberté pour la somme totale, puisqu’elle fait intervenir globalement les p
qn
observations individuelles,
p−1 et q−1 degrés de liberté pour les deux sommes factorielles, puisqu’elles sont
calculées respectivement à partir de p et de q moyennes,
p q (n−1) degrés de liberté pour la somme résiduelle, puisqu’elle fait intervenir p q
échantillons de n
observations, et
(p − 1) (q − 1) degrés de liberté pour la somme des carrés des écarts de l’interaction.
 Enfin, en divisant les différentes sommes des carrés des écarts par leurs
nombres de degrés de liberté, on obtient les carrés moyens CMt , CMa , CMb ,
CMab et CMr . L’ensemble des résultats peut alors être présent sous la forme d’un
tableau d’analyse de la variance ou ANOVA
Tab
leau 3. Analyse de variance (ANOVA) à deux critères de classification :
modèles croisés à Effectifs égaux
Application : Comparaison de trois types de sondes dans deux types de

sols : analyse de la variance.
Au cours d’une étude relative aux problèmes d’échantillonnage du sol, on a

comparé, dans plusieurs types de sols, différents types de sondes destinées à
prélever des échantillons de terre, en effectuant chaque fois diverses analyses
chimiques. On s’intéresse principalement aux différences qui pourraient exister
d’un type de sondes à l’autre et aux interférences éventuelles des types de sondes
avec les types de sols.
Le tableau suivant est relatif à deux types de sols, à trois types de sondes, et aux
teneurs en P2O5 , mg par 100 g de terre sèche, chacune des combinaisons sol-sonde
ayant été l’objet de quatre prélèvements indépendants les uns des autres.
Ce tableau présente à la fois les données initiales xijk , et les moyennes par type de
sols et type de sondes ¯xij. , par type de sols ¯xi.. , par type de sondes ¯x.j. , et
générale ¯x... , toutes les moyennes étant volontairement calculées avec une
précision quelque peu abusive.
Tableau. Teneurs en P2O5 ,

en mg par 100 g de terre sèche, et moyennes observées, pour deux
types de sols et trois types de sondes.
= Moy. sonde1 pour le

sol1=46,75= (43+45+46+53)/4
Moy. sonde1 pour le
sol2=40,75= (40+40+40+43)/4
Moy. sonde2 pour le sol1=42,50=

(41+42+43+44)/4 Moy. sonde2
pour le sol2=38,00=
(35+37+40+40)/4 Moy. sonde3
pour le sol1=45,00=
(42+44+46+48)/4 Moy. sonde3
pour le sol2=39,00=
(37+39+40+40)/4
=43,75= (46,75+40,75)/2 sonde1 pour les 2 sols
=44,75= (46,75+42,50+45,00)/3
=39,25= (40,75+38,00+39,00)/3
=42,00= (44,75+39,25)/2
Tableau.
Comparaison de trois types de sondes dans deux types de sols : tableau partiel
d’analyse de la variance (aspects descriptifs).
NB : Appliquer les formules et vérifier les valeurs des SCE et les CM
La réalisation de l’analyse de la variance
1◦ Nous désignerons par , respectivement, les sommes et les

sommes des carrés des écarts relatives aux différentes séries d’observations, et aussi
par Xi.. , X.j. et X..., les sommes relatives aux différentes modalités des deux critères
de classification et la somme générale de toutes les observations.
2◦ Les différentes sommes des carrés des écarts peuvent alors être obtenues à l’aide des relations suivantes :
Application. Comparaison de trois types de sondes dans deux types de sols :

réalisation de l’analyse de la variance.
Les différentes sommes sont :
X11. =(43+45+46+53)= 187, X12. = 163 , X13. = 180 ,

X21. = 170 , X22. = 152 ,
X23. = 156 ,
X1.. = 537, X2.. = 471 , X.1. = 350 , X.2. = 322 , X.3. = 336 , X... = 1.008 .
Calculées selon les principes habituels, les sommes des carrés des écarts relatives aux six
séries d’observations sont aussi :
SCE11 = (43²+45²+46²+53²)-
(43+45+46+53)²/4=56,8 SCE12 =
(40²+40²+40²+43²)-
(40+40+40+43)²/4= 6,8 SCE13 =
(42²+44²+46²+48²)-
(42+44+46+48)²/4= 20,0 SCE21 =
(41²+42²+43²+44²)-
(41+42+43+44)²/4= 5 SCE22 =
(35²+37²+40²+40²)-
(35+37+40+40)²/4=18,0 SCE23 =
(37²+39²+40²+40²)-
(37+39+40+40)²/4= 6,0
SCEt = (43-42)²+(45-42)²+(46-42)²+(53-42²+(40-42) ²+(40-42) ²+(40-42) ²+(43-42) ²+(42-42)

²+ (44-42)
²+(46-42) ²+(48-42)²+(41-42) ²+(42-42) ²+(43-42) ²+(44-42) ²+(35-42) ²+(37-42)
²+(40-42) ²+(40-42) ²+(37-42) ²+(39-42) ²+(40-42) ²+(40-42) ²=346
SCEr= SCE11+ SCE12+ SCE13+ SCE21 +SCE22 +SCE23= 56,8 +6,8 + 20,0 +5 +18,0+ 6,0= 112,6
Comparaison de trois types de sondes dans deux types de sols : tableau

complet d’analyse de la variance.
On constate tout d’abord que l’interaction est non significative. Le test confirme
donc la conclusion intuitive que les différences entre types de sondes ne
dépendent pas des types de sols et vice versa Par contre, les différences observées
sont très hautement significatives en ce qui concerne les types de sols, et juste
significatives en ce qui concerne les types de sondes.
La comparaison, plus intéressante, des trois types de sondes est un problème qui
peut être traité notamment par la méthode de Newman et Keuls. Cette méthode
permet de montrer que les résultats obtenus à l’aide du premier type de sondes sont
significativement supérieurs aux résultats fournis par le deuxième type de sondes, le
troisième type conduisant à des résultats intermédiaires, qui ne sont pas
significativement différents des deux autres.
les valeurs suivantes des variables F de Fisher-Snedecor : Fa = 1,69 ,

Fb = 0,66 et Fab = 2,96 les probabilités correspondantes sont
respectivement égales à 0,21 , 0,53 et 0,077
-RESUME DE L’ANOVA A DEUX CRITERES DE
CLASSIFICATION
 ANOVA à deux facteurs - Introduction

 Définition
 Étude simultanée d’un facteur A à p modalités et d’un facteur B à q modalités.

 Pour chaque couple de modalités (A, B) :
 On a un échantillon
 Tous les Eij sont de mêmes tailles n.
 Conditions d'applications de l'ANOVA
 Procédure de calcul d'une ANOVA
 Déterminer si les échantillons varient de la même manière.

 Si nous démontrons l'homogénéité des variances, alors nous
pouvons comparer les moyennes de ces échantillons.
 Problèmes liés à l'égalité des variances

Test de l'homogénéité des variances :
 les variances sont homogènes

 Au moins une des variances est différente des autres
→ U lisa on d'un test de comparaison de plusieurs variances
 Conclusion
 Si est rejetée : il est théoriquement impossible de comparer des

échantillons qui ne varient pas de la même manière.
 Si n’est pas rejetée : par conséquent, il est possible de comparer les
moyennes de tels échantillons
 Application : Tests possibles
 Influence du facteur A seul

 Influence du facteur B seul
 Interaction des deux facteurs:
✓
Hypothèses
Si influence d'un facteur sur la moyenne des populations est différente en l'absence ou en la
présence de l'autre facteur
: Le facteur A n’a pas d’influence sur la moyenne des populations.

: Le facteur B n’a pas d’influence sur la moyenne des populations.
: Il n’y a pas d’interaction entre les facteurs A et B.
: Au moins une des moyennes est différentes des autres.
Variances totale, factorielle, résiduelle

Décomposition de la variance factorielle
Conclusion
Tableau d'analyse de la variance :
Décision
Analyse De La Variance A Trois Critères De
Classification
L’analyse de la variance à trois critères de classification :
Modèles croisés à effectifs égaux
Principes généraux
Nous présenterons successivement les aspects descriptifs et les aspects inférentiels

de l’analyse à trois critères, en nous limitant, dans un premier temps, aux
échantillons de plusieurs observations. Nous envisagerons ensuite le cas particulier
des échantillons d’une seule observation.
- Les aspects descriptifs : échantillons de plusieurs observations
1◦ Pour trois critères de classification et dans le cas des effectifs égaux, on peut
considérer qu’on a p q r échantillons ou séries d’observations d’effectif n, et
designer les observations individuelles par (i = 1 , . . . , p , j = 1 , . . . , q ,k = 1 ,
. . . , r , et l = 1 , . . . , n). A partir de ces observations, on peut calculer les différentes
moyennes suivantes :
Ces moyennes sont relatives, respectivement, aux différentes combinaisons des

modalités des trois facteurs considérés simultanément (p q r moyennes ), aux
différentes combinaisons des modalités des trois facteurs considérés deux à deux (p
q moyennes , p r moyennes , et
q r moyennes ), aux différentes modalités des trois facteurs considérés
individuellement (p moyennes ), q moyennes et r moyennes
) et à l’ensemble des p q r n observations (moyenne générale ).
Dans ces conditions, le modèle observé s’écrit :
Le deuxième membre de ce modèle contient : trois termes de variation factorielle
liés individuellement aux trois critères de classification, trois termes d’interaction
des différents facteurs considérés deux à deux, un terme d’interaction des trois
facteurs considérés simultanément, et un terme de variation résiduelle.
Les interactions des différents facteurs considérés deux à deux se présentent et

doivent être interprétées comme en analyse de la variance à deux critères de
classification. Ces interactions simples sont appelées interactions de deux facteurs
ou interactions du premier ordre.
L’équation d’analyse de la variance relative à ce modèle observé est :
Aux différentes sommes des carrés des écarts, correspondent des nombres de
degrés de liberté liés par la relation :
La division des sommes des carrés des écarts par les nombres de degrés de liberté
permet de définir les carrés moyens, et l’ensemble des résultats peut être présente
sous la forme d’un tableau d’analyse de la variance.
Application. Étude de la résistance de panneaux de particules à l’arrachage des

clous : réalisation de l’analyse de la variance
Au cours d’un essai préliminaire, destin à préciser les conditions de mesure de cette
propriété, on à étudié simultanément l’influence de trois facteurs : la grosseur des
clous, le diamètre des anneaux sur lesquels sont déposées les éprouvettes soumises
aux essais, et la vitesse d’arrachage. Les essais ont été effectues sur des éprouvettes
carrées de 50 mm de coté, les modalités des trois facteurs étant : 6,5 et 8 mm de
diamètre en ce qui concerne les tètes des clous (i = 1 et 2), 22 et 30 mm de diamètre
en ce qui concerne les diamètres des anneaux servant de supports (j = 1 et 2), 22 , 45
et 90
mm par minute en ce qui concerne les vitesses d’arrachage (k = 1 , 2 et 3). En outre,
cinq éprouvettes ont été utilisées pour chacune des 12 combinaisons des modalités
des trois facteurs (l = 1 , . . . , 5).
Tableau .Resistance de panneaux de particules à l’arrachage des clous (xijkl), en kg,
pour deux grosseurs de clous (i), deux diamètres d’anneaux (j), trois vitesses
d’arrachage (k), et dans chaque cas cinq éprouvettes (l).
Resistance de panneaux de particules à l’arrachage des clous (xijkl), en kg, pour

deux grosseurs de clous (i), deux diamètres d’anneaux (j), deux vitesses d’arrachage
(k), et dans chaque cas cinq éprouvettes.
Ce tableau permet de calculer facilement les sommes de produits suivantes :

Tableau . Etude de la résistance de panneaux de particules à l’arrachage des clous
: tableau d’analyse de la variance

Section 4

Transféré par

Droits d'auteur :

Formats disponibles

Section 4

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Section 4

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 04 : Analyse de la variance

I-ANALYSE DE LA VARIANCE A UN CRITERE DE CLASSIFICATION

 Les aspects descriptifs

Les notions de modèle observé et de tableau d’analyse de la variance

La décomposition de la variation totale

1◦ Nous supposerons qu’on dispose au départ de p échantillons ou séries

2◦ Nous désignerons aussi les différentes observations par le symbole (i = 1 , .

3◦ En fonction de ces différents éléments, il est possible de subdiviser les

4◦ En élevant au carré les deux membres de la relation précédente, et en sommant

5◦ Des nombres de degrés de liberté : ddl peuvent être associés aux

7◦ Tableau d’analyse de la variance (ANOVA) : un critère de

D’une manière générale, ce paramètre joue, dans le cas d’une relation

Les moyennes correspondantes sont :

¯x1 = 25,97 (23,4+24,4+…….+27,7)/13

Prenant la première observation du premier échantillon (x11 = 23,4), le

L’écart négatif de 1,58 m entre cette observation particulière et la moyenne

SCEt = (−1,58)² +(−1,58)² +(–0,58)² + (– 0,38)² +… ....................................... +

Cette façon de procéder est pour bien saisir le mécanisme de l’analyse de la

En outre, on peut compléter l’analyse par le calcul du rapport de

Ce paramètre mesure le degré de dépendance de la variable quantitative «

La réalisation de l’analyse de la variance

1◦ Nous donnons à titre indicatif, quelques informations relatives à la

2◦ En ce qui concerne la somme des carrés des écarts résiduelle, on peut

En réalité, la détermination des sommes des carrés des écarts individuelles

Le symbole X.., désignant la somme de l’ensemble des n. observations :

On remarquera que le premier terme qui intervient dans la relation relative à

Application : Dans l’exemple du tableau 1 comparaison des hauteurs des

SCE1 = (23,4²+24,4²+……….+27,7²) - (23,4+24,4+………+27,7)²= 8.789,36 −

SCEr = 22,15 + 40,88 + 53,62 = 116,65 ,

5° Le test de l’hypothèse nulle émise nécessite le calcul de la

Le rejet de l’hypothèse, au niveau de probabilité α , intervient quand

Le rejet de l’hypothèse nulle, relative à un ensemble de p moyennes,

La variable t de Student étant une variable à n − p degrés de liberté. Ces

Des limites de confiance relatives à la variance σ² et à l’écart-type σ peuvent

Application : l’exemple du tableau1 : comparaison des hauteurs

CMa= carré moyen factoriel=

Les limites de confiance des différences sont, pour un degré de confiance

pour le premier et le troisième type de forêts :

En vue de tenir compte du fait qu’on procède en réalité `a trois

 ANOVA à un facteur - Introduction

L'analyse de la variance a pour but la comparaison des moyennes de k

 Conditions d'applications de l'ANOVA

 Les populations étudiées suivent une distribution normale

 Procédure de calcul d'une ANOVA

 Déterminer si les échantillons varient de la même manière.

 Problèmes liés à l'égalité des variances

: Les variances sont homogènes

 Expérience avec k échantillons - Données initiales

 Variabilité totale au sein de l'expérience (quel que soit l'échantillon) :

 Variabilité résiduelle (liée à l'individu) : reflète l'importance des variations

Comparaison des moyennes - Hypothèses

Variances totale, factorielle, résiduelle

Tableau d'analyse de la variance :

 F suit une loi de Snédécor à

Si => rejet de au risque :

La variance factorielle est significativement supérieure à la variance

L’analyse de la variance à deux critères de classification

1◦ L’analyse de la variance à deux critères de classification