Modèles Linéaires 1

Modèles linéaires 1
Faculté des sciences Agronomiques (FSA)

Centre de Biostatistique et d’Informatique Générale (CBIG)
Master
Prof. Fonton N.
Dr Atindogbé G.
: MODÈLES LINÉAIRES
TITRE DU COURS
PARAMÉTRIQUES
UE : Mathématiques appliquées

ECU : Modèles linéaires 1
Grade: Master
Semestre: S1
Nombre de crédits : 2 crédits
Masse horaire :
Total : 50 h
Cours magistral : 25h
Travaux dirigés : 25h
ACTIVITÉS D’APPRENTISSAGE ET MÉTHODE
D’ENSEIGNEMENT : Cours magistraux
Exercices

MODE D’ENSEIGNEMENT : Présentiel

OBJECTIF :
acquérir les connaissances générales sur les modèles linéaires
gaussiens, étudier les techniques plus avancées permettant
d'exprimer une variable en fonction d'une ou de plusieurs autres
variables.

OBJECTIFS D’APPRENTISSAGE DU COURS :
A l'issue du cours, l'étudiant doit être capable de :
 définir un modèle et le modéliser en fonction de la nature de la
variable expliquée et de la ou des variables explicatives ;
 procéder à une analyse critique des résultats obtenus ;
 comparer des modèles établis pour deux ou plusieurs populations.

CONTENU DU COURS :
1. Modèles linéaires: Généralités
2. Hypothèses et concepts en analyse de la variance
3. Analyse de la variance à un critère
4. Analyse de la variance à plus d’un critère
5. Analyse de la covariance
6. Structuration des moyennes
7. Contraste de moyennes et polygones orthogonaux
PRÉREQUIS :
Statistique mathématique
Inférences statistiques

LECTURES RECOMMANDÉES :
DAGNELIE P. (2007). Statistique théorique et appliquée. Tomes 1 et 2:
Bruxelles, De Boeck.
FARAWAY J.J. (2009): Linear Models with R, Chapman & Hall/CRC texts in
statistical science series, 255 p.
HOCKING R.R.(1996). Methods and applications of linear models : Regression
and analysis of variance. John Wiley & sons INC. New York,731p.
SCHERRER B (2007). Biostatistique. Volumes 1 et 2, 2è édition, Chenelière
Education, Montréal, Canada
MODALITÉS D’ÉVALUATION :
Examen écrit : 60%
Travaux personnels : 40%

CONTENU DU COURS :
1. Généralités
Les modèles linéaire permettent d’expliquer une variable à
l’aide d’une ou de plusieurs autres variables.
Les données sont de la structure (n x k+1)
1. Généralités
• La différence entre modèle linéaire simple ou
multiple et modèle linéaire factoriel réside dans la
nature de la variable (des variables) explicative (s)
qui est (sont) factorielle (exemples : variétés de
maïs, doses d’engrais, niveaux d’attaques, etc.).
• On parle alors de l’analyse de la variance ou de la
covariance,
• De manière intuitive, il s’agit de comparaison des
moyennes des différents niveaux ou modalités de
facteur.
CONTENU DU COURS :
2. Hypothèses et concepts
en analyse de la variance
La vérification d’une hypothèse est précédée par la position de celle-
ci. En analyse de la variance (ANOVA), l’hypothèse posée dépend de
la nature du facteur.
ANOVA
Facteur aléatoire Facteur fixe
RHo
Estimation de σ Comparaisons multiples

des moyennes
Facteur Facteur
qualitatif quantitatif
Nous distinguons deux types d’hypothèses en analyse de la variance.
Le premier concerne le facteur fixe ou modèle fixe. On parle aussi de critère de

classification fixe. Pour p modalités ou variantes du facteur, l’hypothèse nulle, Ho,
s’écrit :
Le test d’égalité des moyennes peut s’étendre à un nombre illimité de populations.

Dans ce cas, on procède à un échantillonnage à deux degrés. Au premier degré, on
prend p modalités et au second degré, on choisit au hasard un échantillon de
données dans chacune des p modalités. On parle alors de modèle aléatoire d’analyse
de la variance.
La comparaison d’homogénéité des populations se transforme en comparaison de la
variabilité des écarts par rapport à la moyenne générale, exprimée en écart-type
L’hypothèse nulle ne s’écrit :
Il est évident que la différence entre ces deux hypothèses réside dans
la conclusion du test.
Pour le modèle fixe, la conclusion du test se limite aux p modalités du

facteur, tandis que pour le modèle aléatoire, les résultats obtenus
sont généralisés à une infinité de modalités.
Toutefois, quel que soit le modèle, la vérification de l’hypothèse est la

même.
La statistique utilisée est le paramètre de FISHER-SNÉDECOR
Il est le rapport du carré moyen des écarts entre modalités sur le

carré moyen résiduel ou le carré moyen servant de base de
comparaison.
Rappelons que les bases de comparaison dépendent du dispositif

expérimental, de la structure des critères et aussi du nombre de
critères de classification.
Si la vérification de l’hypothèse est indépendante de l’hypothèse

elle-même, la formulation de celle-ci prend toute son importance
lorsqu’il y a rejet de l’hypothèse nulle.
Pour le facteur aléatoire, le rejet signifie tout simplement que la

variabilité des moyennes des populations n’est pas nulle et la
question subsidiaire est l’estimation de
Par contre, le rejet de l’hypothèse pour le facteur fixe signifie que les
moyennes considérées ne sont pas toutes égales.
Il suffit qu’une seule moyenne soit différente des autres pour que
soit rejetée.
Ce rejet soulève la question de savoir quelles sont les moyennes qui

diffèrent les unes des autres.
Pour situer ces différences, on recourt aux méthodes de

comparaison multiple de moyennes ou procédure de comparaison
multiple.
Critères de classification
Le critère de classification est le facteur. On parle d’analyse de
variance à un critère, lorsqu’il s’agit d’un seul facteur. Pour deux
facteurs, on parle de l’analyse de la variance à deux critères, ainsi de
suite jusqu’à n facteurs.
Les facteurs sont d’une part,
• fixes,
• aléatoires ;
et, d’autre part,

• qualitatifs : provenances, variétés de maïs, etc.
• quantitatifs : doses d’engrais, etc.
Comme sources de variation, on a :

• facteur étudié,
• facteur de contrôle (externe à l’expérience),
• résidus,
• autres (interactions).
Conditions d’application
L’ANOVA étant un modèle linéaire Gaussien, donc un test statistique
paramétrique pour lesquelles certaines conditions doivent êtres
remplies. Il s’agit :
• normalité des populations ;

• variances égales ;
• échantillons aléatoires et simples.
Des outils statistiques existent pour vérifier au préalable ces

différentes conditions.
CONDITIONS D’APPLICATION
Tests de normalité
Plusieurs tests de normalités existent. Les plus courants sont:
- Test de Anderson-Darling
- Ryan-Joiner
- Shapiro-Wilk
- Kolmogorov-Smirnov
- QQ-plot (Graphiques)
CONDITIONS D’APPLICATION
Les conditions requises pour l’application des méthodes relatives
aux variances sont :
- populations normales
- et échantillons aléatoires et simples.
Les méthodes de comparaison de variances sont très sensibles à la

non-normalité des populations-parents.
Dans le cas des comparaisons de deux ou plusieurs variances, il

faut supposer que les échantillons sont indépendants les uns des
autres. .
Test d’égalité de deux variances
Hypothèse nulle est :
Les deux populations sont de variances inégales, test

bilatéral
La variance de la population 1 est supérieure à celle de la

population 2 ; test unilatéral supérieur ;
La variance de la population 1 est inférieure à celle de la

population 2 ; test unilatéral inférieur.
Test d’égalité de deux variances
Quelle que soit l’hypothèse alternative, la statistique calculée est :
(la variance supérieure)
(la variance inférieure)
RHO si
D’autre part, lorsque les effectifs des échantillons des deux populations sont
égaux, la statistique est calculée sous la forme suivante :
Test d’égalité de plusieurs variances
Plusieurs méthodes sont utilisées pour tester, l’égalité des variances de
plusieurs populations. Les plus courantes sont:
Le test de BARTLETT
Le test de HARTLEY
Le test de Levene
Le test de Brown et Forsythe

Le test de BARTLETT
Pour p échantillons aléatoires, simples et indépendants, d’effectifs n1, …, np,
l’hypothèse nulle est:
on utilise généralement les logarithmes décimaux et la quantité
devient :
L’hypothèse nulle est rejetée lorsque :

Le test de HARTLEY
Effectifs des échantillons sont constants et égaux à n
L’hypothèse nulle doit être rejetée lorsque :

Les valeurs de étant données en fonction du nombre
d’échantillons et du nombre de
Test de Levene
La méthode de Levene a pour principe de calculer, séparément pour les
différents échantillons, les écarts par rapport aux moyennes, et de soumettre
les valeurs absolues de ces écarts à l’analyse de la variance à un critère de
classification.
L’hypothèse d’égalité des moyennes des valeurs absolues des écarts, qui est
testée par l’analyse de la variance, est alors considérée comme équivalent à
l’hypothèse d’égalité des variances
Test de Brown et Forsythe

Le test de Brown et Forsythe est une variante de la méthode de Levene, dans
laquelle les écarts par rapport aux moyennes sont remplacées par les écarts
par rapport aux médianes
Vérification des conditions d’application avec R
Données
Test de normalité
Test d’égalité des variance

CONTENU DU COURS :
3. Analyse de la variance à un critère de
classification
Pour un facteur à p niveaux ou modalités répétés chacun z fois, les
observations obtenues
s’écrire sous la forme du modèle suivant :

Analyse de la variance à un critère de
classification
classification
Décomposition de la variance totale
   
p z p p z
Y  Y    zi Yi  Y   Yij  Yi
2 2 2
ik
i 1 k 1 i i 1 k 1
SCE totale  SCE factorielle  SCE résiduelle

classification
classification
Application 1
Dans quatre types de végétations, on a prélevé chaque fois
quatre échantillons de terre. En fonction des résultats
Suivants relatifs au rapport carbone /azote, doit-on conclure
qu’il existe une différence significative entre les différents
Types de végétations ?
Type de végétation
V1 V2 V3 V4
10 11 14 16
11 09 17 15
11 08 19 15
7 14 13 14
classification
Application 2
Dans quatre types de végétations, on a prélevé chaque fois
quatre échantillons de terre. En fonction des résultats
Suivants relatifs au rapport carbone /azote, doit-on conclure
qu’il existe une différence significative entre les différents
Types de végétations ?
Type de végétation
SA SH FD FC
10 11 14 16
11 09 17 15
11 08 19 15
7 13 14
17
classification
Application (Logiciel R)
Analyse de la variance à deux critères de
classification
Avec deux critères, les sources de variation sont les deux facteurs, leur
interaction et la variation résiduelle en cas de répétitions.
Modèle Fixe
Hypothèses
Il y a maintenant trois hypothèses principales à tester:
H0: le facteur A n'a aucun effet sur les résultats, c'est-à-dire
H0: le facteur B n'a aucun effet sur les résultats, c'est-à-dire
H0: les facteurs A et B n'interagissent pas sur les résultats.

classification
Modèle Fixe
Hypothèses contraires:
H1: le facteur A a un effet sur les résultats, c'est-à-dire qu'au moins
une des moyennes μi.. n'est pas égale aux autres;
H1: le facteur B a un effet sur les résultats, c'est-à-dire qu'au moins
une des moyennes μ.j. n'est pas égale aux autres.
H1: les facteurs A et B interagissent sur les résultats. Autrement dit,
l'état du facteur A influence la réponse face au facteur B, et
réciproquement.
classification
Modèle mixte
Il y a trois hypothèses principales à tester. Cependant, l'hypothèse relative au
facteur aléatoire est formulée différemment de celle du facteur contrôlé.
En effet, dans le cas d'un facteur aléatoire, les niveaux ont été choisis
aléatoirement parmi de nombreuses possibilités.
Ce n'est donc pas l'écart à la moyenne produit par un ou des niveaux précis
du facteur qui intéresse l'expérimentateur, mais plutôt l'existence (ou non)
d'une variabilité dans les résultats, induite par le facteur dans son ensemble.
classification
Modèle mixte
H0: le facteur A n'a aucun effet sur les résultats, c'est-à-dire
H0: il n'y a pas de variabilité des résultats en fonction des niveaux

du facteur B, c'est-à-dire
H0: les facteurs A et B n'interagissent pas sur les résultats.

classification
Modèle mixte
Hypothèses contraires:
H1: le facteur A a un effet sur les résultats, c'est-à-dire qu'au moins
une des moyennes μi.. n'est pas égale aux autres;
H1: le facteur B a un effet sur les résultats, c'est-à-dire qu'il y a de

la variabilité en fonction des niveaux du facteur B. Au moins
une des moyennes μ.j. n'est pas égale aux autres;
H1: les facteurs A et B interagissent sur les résultats. Autrement dit,

l'état du facteur A influence la réponse face au facteur B, et
réciproquement.
classification
4.4.2.4. Analyse de la variance à deux critères
Avec deux critères, les sources de variation sont les deux facteurs, leur
interaction et la variation résiduelle en cas de répétitions. Si le premier facteur
(Facteur A) a p niveaux ou variantes et le second (Facteur B) a q niveaux et un
nombre de répétitions égal à z les observations
suivent le modèle théorique qui s’écrit :
Ai= l’effet factoriel du facteur A

Bj = l’effet factoriel du facteur B
Abij= l’effet de l’interaction des deux facteurs A et B
Eij=le résidu
classification
𝑝𝑞𝑧 − 1
classification
Décomposition de la variance totale
   
p q z p q
 Y  Y...   qn Yi..  Y...  pn Y. j .  Y... 

2 2 2
ijk
i 1 j 1 k 1 i 1 j 1
 
p q p q z
n Yij .  Yi..  Y. j .  Y...   Yijk  Yij . 
2 2
i 1 j 1 i 1 j 1 k 1
SCEtotale  SCE A  SCEB  SCE AB  SCEr

Analyse de la variance à deux critères de classification
Dans le cas d’une analyse de la variance à deux critères sans

répétition, la source de variation résiduelle disparaît, donc pas de CMr.
La base de comparaison dans un modèle fixe est le carré moyen

résiduel (CMr). Dans un modèle mixte, l’interaction (CMAB) est la base
de comparaison du facteur fixe.
Par contre la base de comparaison pour le facteur aléatoire et

l'interaction, est CMr.
classification
classification
Tests des effets
- Effet de l’interaction :
* graphiquement
* test de Tukey
- Lorsque l’interaction n’a pas d’influence significative :

* tests sur A et B
- Lorsque l’interaction a un effet significatif :

* pas de test sur A et B
classification
Test de Tukey
Le principe de ce test est de subdiviser la somme des carrés des écarts de
l’interaction en une composante de non-additivité, à un degré de liberté, et une
variation résiduelle à pq-p-q degrés de liberté, et de tester ensuite la première
par rapport à la deuxième
La composante de non additivité est définie de la manière suivante:
2
 p q 
 
  y ij  y i.  y.. y. j  y..  
 
SCEadd   i 1 j 1 
 p 2  2
q
  y i.  y..    y. j  y..  

 i 1   j 1 
classification
Modèle Hiérarchisé
L'analyse de variance hiérarchique (nested ANOVA en anglais ou plan

pyramidal
Elle est une extension de l'anova à un critère de classification,

destinée à traiter les cas où chaque niveau du critère de classification
est subdivisé
aléatoirement en deux ou plusieurs sous-groupes.
classification
Modèle Hiérarchisé
L'analyse de variance hiérarchique (nested

ANOVA
Comparaison multiple des moyennes
Définition des risques d’erreur
En comparant la valeur de F observée à celle des tables élaborées à
cet effet, un risque d’erreur est pris en compte.
  PRHo / H o 
Généralement on lui donne, de manière standard, la valeur de 5%. Elle peut aussi
prendre des valeurs de 1% ou de 0,1%. Ce risque, appelé risque de première espèce
Le risque de deuxième espèce est l’erreur que l’on commet en

acceptant une hypothèse nulle alors qu’elle est fausse. Il s’écrit :
  PAH o / H 
Quant au risque de troisième espèce, il apparaît lorsque les

moyennes significativement différentes, sont mal ordonnées
- Pour les populations de même variance et d’effectifs égaux, les

méthodes de TUKEY, de WALLER-DUNCAN, de BONFERONI ;
- pour les populations de même variance et d’effectifs inégaux, la

méthode de FISHER connue sous le nom de la plus petite différence
significative, et celles de DUNNET, de HOCHBERG, de GABRIEL,
de SCHEFFE ;
- pour les populations de variances inégales et d’effectifs égaux, les

méthodes de BROWN et FORSTHIE, de GAMES et HOWELL.
En ce qui concerne la comparaison spécifique par l’amplitude
de groupes de moyennes, les méthodes élaborées à cet effet
sont aussi appelées méthodes de groupe.
Ce sont pour les populations de même variance et d’effectifs
égaux, les méthodes de NEWMAN et KEULS, de RYAN, de
DUNCAN, etc.
Pour des méthodes appartenant au même groupe, la

différence entre elles réside dans le risque global d’erreur qui
les caractérise. Pour illustrer les différences de conclusion
entre les méthodes, nous prenons les plus connues à savoir la
plus petite différence significative, NEWMAN et KEULS
- Méthodes de la Plus Petite Différence Significative : PPDS
L’utilisation du test t de STUDENT dans la comparaison de deux
populations où la valeur de t observée
PPDS=
- Méthode de NEWMAN et KEULS
La méthode de NEWMAN et KEULS est une méthode de comparaison par
groupe de moyennes.
Elle est utilisée dans le cas où les effectifs sont égaux.
Le paramètre calculé est la Plus Petite Amplitude Significative (PPAS)

pour des groupes de 2,3 jusqu’à p moyennes.
La différence entre les moyennes d’un groupe donné est considérée

comme significative quand la PPAS est inférieure à l’amplitude du groupe.
La valeur de la PPAS est :

Tests paramétriques et alternatives
non-paramétrique
Les méthodes statistiques inférentielles peuvent être

paramétriques aussi bien que non-paramétriques.
 Les méthodes paramétriques sont celles qui sont élaborées
en émettant certaines hypothèses particulières en ce qui
concerne les caractéristiques des populations d’étude. Ces
hypothèses sont souvent liées à la distribution et à la
variabilité (variance) des données.
 Par contre, les méthodes non-paramétriques n’émettent

aucune hypothèse sur les populations d’étude. Toutefois,
elles sont moins précises que les méthodes paramétriques.
non-paramétrique
Test But du test Hypothèses Conditions Test de Alternative
d’application vérification des non-
testées du test conditions paramétrique
Test t de Comparer la moyenne  H0 :  = m0 contre Normalité Test de Ryan- Test de Wilcoxon

conformité d’une variable dans une H1 :  ≠ m0 Joiner ou test de à 1 échantillon
d’une moyenne population à une valeur Shapiro-Wilks
m0 connue
Test t à 2 Comparer la moyenne H0 : mA = mB Normalité Test de Ryan- Test de Mann-

échantillons mAd’un caractère dans contre Joiner ou test de Whitney, test de
indépendants une population A à sa H1 : mA ≠ mB Shapiro-Wilks Mood
moyenne mBdans une ou test de
autre population B. homogénéité test de Bartlett Kruskal-Wallis
des variances ou test de
Levene
Test t par paires Comparer la moyenne H0 : d=d0 contre Normalité Test de Ryan- Test de Wilcoxon
Test t à 2 Comparer la moyennenon-paramétrique
H :m =m0 A Test de Mann-
B
échantillons mAd’un caractère dans contre Whitney, test de
indépendants une population A à sa H1 : mA ≠ mB Mood
Alternative
Test But du test Hypothèses Conditions Test de
moyenne mBdans une d’application vérification des ou test non-
de
autre population B.
testées du test Kruskal-Wallis
homogénéité testconditions
de Bartlett paramétrique
Levene
Test t par paires Comparer la moyenne H0 : d=d0 contre Normalité Test de Ryan- Test de Wilcoxon
(échantillons de la différence d entre H1 : d≠d0 Joiner ou de à deux
appariés) 2 mesures observées sur Shapiro-Wilks échantillons
test de Bartlett
les mêmes individus à
une valeur d0 donnée
Homogénéité test de Levene
(souvent zéro). des variances pour
l’homogénéité
des variances
Analyse de la Comparaison de 2 ou H0 : m1 = Normalité Test de Ryan- Test de Kruskal-
variance plusieurs moyennes m2=…=mp contre Joiner ou de Wallis
(ANOVA) H1 : au moins une Shapiro-Wilks
des moyennes est
différente des
autres Homogénéité test de Bartlett
Levene

Modèles Linéaires 1

Transféré par

Droits d'auteur :

Formats disponibles

Modèles Linéaires 1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Modèles Linéaires 1

Transféré par

Droits d'auteur :

Formats disponibles

Modèles linéaires 1

Faculté des sciences Agronomiques (FSA)

UE : Mathématiques appliquées

Facteur aléatoire Facteur fixe

Estimation de σ Comparaisons multiples

Le premier concerne le facteur fixe ou modèle fixe. On parle aussi de critère de

Le test d’égalité des moyennes peut s’étendre à un nombre illimité de populations.

Pour le modèle fixe, la conclusion du test se limite aux p modalités du

Toutefois, quel que soit le modèle, la vérification de l’hypothèse est la

Il est le rapport du carré moyen des écarts entre modalités sur le

Rappelons que les bases de comparaison dépendent du dispositif

Si la vérification de l’hypothèse est indépendante de l’hypothèse

Pour le facteur aléatoire, le rejet signifie tout simplement que la

Ce rejet soulève la question de savoir quelles sont les moyennes qui

Pour situer ces différences, on recourt aux méthodes de

et, d’autre part,

Comme sources de variation, on a :

• normalité des populations ;

Des outils statistiques existent pour vérifier au préalable ces

Les méthodes de comparaison de variances sont très sensibles à la

Dans le cas des comparaisons de deux ou plusieurs variances, il

Hypothèse nulle est :

Les deux populations sont de variances inégales, test

La variance de la population 1 est supérieure à celle de la

La variance de la population 1 est inférieure à celle de la

(la variance supérieure)

(la variance inférieure)

Le test de Brown et Forsythe

L’hypothèse nulle est rejetée lorsque :

L’hypothèse nulle doit être rejetée lorsque :

Test de Brown et Forsythe

Test d’égalité des variance

s’écrire sous la forme du modèle suivant :

SCE totale  SCE factorielle  SCE résiduelle

H0: le facteur B n'a aucun effet sur les résultats, c'est-à-dire

H0: les facteurs A et B n'interagissent pas sur les résultats.

H0: il n'y a pas de variabilité des résultats en fonction des niveaux

H0: les facteurs A et B n'interagissent pas sur les résultats.

H1: le facteur B a un effet sur les résultats, c'est-à-dire qu'il y a de

H1: les facteurs A et B interagissent sur les résultats. Autrement dit,

suivent le modèle théorique qui s’écrit :

Ai= l’effet factoriel du facteur A

 Y  Y...   qn Yi..  Y...  pn Y. j .  Y... 

SCEtotale  SCE A  SCEB  SCE AB  SCEr

Dans le cas d’une analyse de la variance à deux critères sans

La base de comparaison dans un modèle fixe est le carré moyen

Par contre la base de comparaison pour le facteur aléatoire et

- Lorsque l’interaction n’a pas d’influence significative :

- Lorsque l’interaction a un effet significatif :

La composante de non additivité est définie de la manière suivante:

  y i.  y..    y. j  y..  

L'analyse de variance hiérarchique (nested ANOVA en anglais ou plan

Elle est une extension de l'anova à un critère de classification,

L'analyse de variance hiérarchique (nested

Le risque de deuxième espèce est l’erreur que l’on commet en

Quant au risque de troisième espèce, il apparaît lorsque les

- Pour les populations de même variance et d’effectifs égaux, les

- pour les populations de même variance et d’effectifs inégaux, la

- pour les populations de variances inégales et d’effectifs égaux, les