Chapitre MLRS Présentation - 230222 - 094016
Chapitre MLRS Présentation - 230222 - 094016
Chapitre MLRS Présentation - 230222 - 094016
1
I- Introduction
Le modèle linéaire de régression simple est un modèle à une seule
variable explicative il est représenté linéairement comme suit :
y=ax+b+u
Où :
y : variable endogène (qu’on cherche à expliquer) ;
x : variable exogène (explicative) ;
u : le résidu ou le terme d’erreur
2
II- La régression linéaire simple
II.1. Présentation du problème
Supposons qu’on a un tableau à double entrée (tableau de
contingence) avec des observations connues individuellement.
3
Exemple : le niveau de la consommation des ménages en fonction du revenu disponible
Consommation
42 51 60 62 74 70 88 91 95 99 ∑
Revenu
70 1 1
75 1 1
77 1 1
80 1 1
86 1 1
93 1 1
98 1 1
99 1 1
101 1
102 1 1
∑ 1 1 1 1 1 1 1 1 1 1 10
4
On peut aussi présenter ce tableau sous un autre format plus
simple :
Consommation Revenu
42 70
51 75
60 77
62 80
74 86
70 93
88 98
91 99
95 101
99 102
5
Représentons graphiquement les données du tableau ci-dessus.
6
Nous obtenons un ensemble de points (nuage statistique) que l’on
cherche à résumer par une fonction simple : une fonction linéaire
telle que l’on puisse écrire : y = ax + b avec a et b des paramètres
inconnus.
Cette droite est appelée droite de régression de y en x que l’on
note Dy(x). a est appelé coefficient de régression.
7
II.2. Détermination des paramètres a et b : Méthode des
moindres carrés ordinaires
II.2.1. Notion des moindres carrés ordinaires
Soit un nuage statistique simple :
8
Consom
Revenu
9
Soit y = ax + b, la droite qui résume le mieux ce nuage statistique
(on dit qu’elle ajuste le mieux ce nuage de points).
Pout tout xi correspond une valeur yi qui est une valeur réellement
̂i qui est une valeur
observée et pour tout xi correspond une valeur 𝒚
estimée sur la droite de régression.
̂i = 𝒂
𝒚 ̂.
̂xi + 𝒃
Pour tout xi il existe une différence entre la valeur observée et la
valeur estimée.
10
La droite d’ajustement idéale est celle pour laquelle les écarts entre
yi et ŷi soient les plus faibles possibles.
ˆ
yˆi aˆxi b
11
Les valeurs ajustées sont les « prédictions » des yi réalisées au
moyen de la variable x et de la droite de régression de y en x.
Les résidus sont les différences entre les valeurs observées et les
valeurs ajustées de la variable dépendante :
ui yi yˆi
Les résidus représentent la partie inexpliquée des yi par la droite de
n
12
En d’autres termes, la somme des erreurs d’estimation doit être
minime yi yˆi min . Pour ne tenir compte des valeurs absolues,
nous elevons au carré et cette condition des moindres carrés s’écrit
y ˆ
y
alors : i i min .
2
13
Les résidus peuvent être expliqués par :
Des erreurs d’observation ;
Des variables explicatives qui ne sont pas inclus dans le
modèle ;
Des erreurs qui viennent de ce que la vraie relation n’est pas
en fait linéaire.
Dans ces deux derniers cas, on dit que le modèle a été mal spécifié.
14
II.2.3. Calcul des paramètres
y ˆ
y
Partons de la condition des moindres carrés i i min et
2
Z (a, b) ˆ
yi aˆxi b2
̂.
̂ est connue et dérivons par rapport à 𝒃
Supposons que 𝒂
15
Z
bˆ
2 yi aˆxi bˆ 0
yi aˆxi bˆ 0
yi aˆ xi nbˆ 0
y aˆ x bˆ 0 y aˆx bˆ 0
i i
n n
Donc bˆ y aˆ x
16
̂
2- Calcul de 𝒂
On sait que la droite de régression passe par le point moyen
M (x, y) .
Faisons un changement de variable et prenons comme nouvelle
origine de notre système de référence le point M.
17
Y
y
𝑌̂ = âx
Yi
yi x
̂
𝑌𝑖
y'i
y
M Xi X
0 x xi x
18
Pour tout Xi nous allons avoir une valeur réellement observée Yi et
une valeur estimée sur la droite 𝑌̂𝑖 . Donc pour tout Xi, nous avons
une erreur d’estimation. La droite de régression est celle qui ajuste
au mieux un nuage de points au sens des moindres carrés telle
que :
Y Ŷ Y âX
i i i i min
Y âX min
2
i i
19
̂, on obtient :
Dérivons par rapport à 𝒂
2 Yi aˆX i ( X i ) 0
Y aˆX ( X ) 0
i i i
Y X aˆ X 0
i i i
2
Donc : aˆ
XY i i
X i
2
X i xi x
Avec, Yi yi y
20
Démonstration algébrique :
𝜕𝑧
= 0 ⇔ −2 ∑ 𝑥𝑖 (𝑦𝑖 − 𝑎̂𝑥𝑖 − 𝑏̂) = 0
𝜕𝑎̂
2
⇔ 𝑥𝑖 𝑦𝑖 − 𝑎̂ 𝑥𝑖 − (𝑦̅ − 𝑎̂𝑥̅ ) ∑ 𝑥𝑖 = 0
∑ ∑
2
⇔ ∑ 𝑥𝑖 𝑦𝑖 − 𝑎̂ ∑ 𝑥𝑖 − 𝑦̅𝑛𝑥̅ − 𝑎̂𝑛𝑥̅ 2 = 0
2
⇔ 𝑥𝑖 𝑦𝑖 − 𝑛𝑦̅𝑥̅ − 𝑎̂( 𝑥𝑖 − 𝑛𝑥̅ 2 ) = 0
∑ ∑
21
⇔ 𝑛𝑐𝑜𝑣 (𝑥 , 𝑦) − 𝑎̂(𝑛 𝑣𝑎𝑟(𝑥) = 0
Illustrations :
∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝐶𝑜𝑣 (𝑥, 𝑦) =
𝑛
= ∑ 𝑥𝑖 𝑦𝑖 − 𝑛𝑥̅ 𝑦̅
22
∑(𝑥𝑖 −𝑥̅ )2
𝑉𝑎𝑟 (𝑥) = ⇔ 𝑛 𝑉𝑎𝑟(𝑥) = ∑(𝑥𝑖 − 𝑥̅ )2
𝑛
= ∑(𝑥𝑖2 − 2𝑥̅ 𝑥𝑖 + 𝑥̅ 2 )
= ∑ 𝑥𝑖2 − 2𝑥̅ ∑ 𝑥𝑖 + 𝑛𝑥̅ 2
= ∑ 𝑥𝑖2 − 2𝑛𝑥̅ 2 + 𝑛𝑥̅ 2
= ∑ 𝑥𝑖2 − 𝑛𝑥̅ 2
23
3- Equation de la droite de régression
𝑦̂ = 𝑎̂𝑥 + 𝑏̂
bˆ y aˆx
x x y y
aˆ
i i
x x
2
i
𝐶𝑜𝑣(𝑥,𝑦)
𝑎̂ = 𝑉𝑎𝑟 (𝑥)
24
II.2.4. Application
On souhaite étudier les ventes trimestrielles d’un restaurant
universitaire (en millier de DH) en fonction de l’effectif des
étudiants (en centaine d’individus) :
25
x y
2 58
6 105
8 88
8 118
12 117
16 137
20 157
20 169
22 149
26 202
26
x = 14 et y = 130
x y Xi Yi Xi*Yi Xi2 ̂
𝒚
2 58 -12 -72 864 144 70
6 105 -8 -25 200 64 90
8 88 -6 -42 252 36 100
8 118 -6 -12 72 36 100
12 117 -2 -13 26 4 120
16 137 2 7 14 4 140
20 157 6 27 162 36 160
20 169 6 39 234 36 160
22 149 8 19 152 64 170
26 202 12 72 864 144 190
140 1300 0 0 2840 568 1300
27
x x y y X Y
aˆ
i i i i
x x
i
2
X i
2
2840
aˆ 5
568
et 𝑏̂ = 130 – (5 x 14) = 60
̂ = 5x + 60
Donc : 𝒚
Significations :
28
III- Hypothèses du modèle linéaire de régression simple
H1 : Spécification correcte du modèle
La variable exogène est supposée être la meilleure sans omission
d’autres variables potentielles.
H5 : Normalité
Les erreurs (ui) sont distribuées selon une loi normale.
30
H6 : Elle concerne la variable exogène
La moyenne des observations de la variable exogène ne doit pas changer
de manière significative si l’on ajoute de nouvelles observations.
31
IV- La corrélation linéaire
IV.1. Coefficient de détermination
Dans quelle mesure l’équation estimée de la régression s’ajuste-t-
elle aux données ?
Nous allons montrer que le coefficient de détermination fournit
une mesure du degré d’adéquation de l’équation estimée.
Ce coefficient mesure la part de la variation de la variable y
expliquée par la variable x.
32
Somme des carrés des résidus (SCR)
La SCR correspond à la quantité minimisée par la méthode des
MCO. Cette quantité est égale à :
𝑛 𝑛
33
Son nombre de degré de liberté est égal à (n – 2), car les n termes
d’erreur 𝑢𝑖 sont liés entre eux par les deux équations suivantes :
𝑛
∑ 𝑥𝑖 𝑢𝑖 = 0
𝑖=1
𝑛
∑ 𝑢𝑖 = 0
𝑖=1
34
Somme des carrés totale (SCT)
La SCT fournit une mesure de l’erreur commise en utilisant 𝑦̅ pour
estimer les valeurs de la variable dépendante.
𝑛
∑(𝑦𝑖 − 𝑦̅) = 0
𝑖=1
35
Somme des carrés de la régression (SCReg)
Pour déterminer dans quelle mesure les valeurs estimées 𝑦̂
s’éloignent de 𝑦̅.
𝑛
36
𝑛 𝑛
Son degré de liberté est égal à 1 car il n’y a qu’une seule variable
explicative.
37
Relation entre SCR, SCT et SCReg
38
Coefficient de détermination R2
∑ 𝑛 ( ) 2
2
𝑦
̂
𝑛=1 𝑖 – 𝑦̅
𝑅 = 𝑛
∑𝑛=1(𝑦𝑖 – 𝑦̅)2
2
𝑆𝐶𝑅𝑒𝑔
𝑅 =
𝑆𝐶𝑇
39
IV.2. Coefficient de corrélation
Pour mesurer la qualité de l’approximation d’un nuage de points
par sa droite des moindres carrées, on calcule son coefficient de
corrélation linéaire défini par :
Covxy
rxy
x y
41
Aussi, on considère que l’approximation d’un nuage par sa droite
des moindres carrés est de bonne qualité lorsque r est proche de 1
xy
est proche de 0.
42
IV. Application :
Consommation
Revenu (x)
(y)
60 40
69 46
72 58
75 66
79 70
80 74
86 78
90 80
94 82
98 84
43
a- Déterminer la droite de régression de cette distribution.
b- Calculer la valeur de la consommation si le revenu augmente
à 110.
c- Déterminer et Calculer le coefficient de détermination et
interpréter le.
44
R
C (y) X Y X*Y X2 Y2
(x)
60 40 -20,30 -27,80 564,34 412,09 772,84
69 46 -11,30 -21,80 246,34 127,69 475,24
72 58 -8,30 -9,80 81,34 68,89 96,04
75 66 -5,30 -1,80 9,54 28,09 3,24
79 70 -1,30 2,20 -2,86 1,69 4,84
80 74 -0,30 6,20 -1,86 0,09 38,44
86 78 5,70 10,20 58,14 32,49 104,04
90 80 9,70 12,20 118,34 94,09 148,84
94 82 13,70 14,20 194,54 187,69 201,64
98 84 17,70 16,20 286,74 313,29 262,44
803 678 1555 1266 2108
45
𝑎̂ = 1555/1266 = 1,23
46
̂
𝒚 ̂− 𝒚
𝒚 ̅ ̂−𝒚
(𝒚 ̅ )𝟐 𝒚 − 𝒚̅ (𝒚 − 𝒚̅ )𝟐
42,83 -24,97 623,5009 -27,8 772,84
53,9 -13,90 193,21 -21,8 475,24
57,59 -10,21 104,2441 -9,8 96,04
61,28 -6,52 42,5104 -1,8 3,24
66,2 -1,60 2,56 2,2 4,84
67,43 -0,37 0,1369 6,2 38,44
74,81 7,01 49,1401 10,2 104,04
79,73 11,93 142,3249 12,2 148,84
84,65 16,85 283,9225 14,2 201,64
89,57 21,77 473,9329 16,2 262,44
678,0 0,0 1915,5 0,0 2107,6
47
2 ∑𝑛 ̂ 𝑖 –𝑦̅)2
𝑛=1(𝑦 1915,5
𝑅 = ∑𝑛
= = 0,9088
̅ )2
𝑛=1(𝑦𝑖 –𝑦 2107,6
48
V- Tests de validation
Dans la régression linéaire sur données individuelles l’espérance
mathématique de y est une fonction linéaire de x : 𝐸 (𝑦) = 𝑎𝑥 + 𝑏
Si a = 0, E(y) = b, alors les variables x et y ne sont pas liées,
Si a ≠ 0, E(y) = 𝑎𝑥 + 𝑏, alors x et y sont étroitement liés.
Pour tester si la relation est pertinente, on devrait effectuer un test
d’hypothèses pour vérifier si a ≠ 0.
49
V.1. Estimation de σ2
A partir des hypothèses de base, on peut conclure que σ2
représente la variance de u et aussi la variance de y tout au long de
la droite de régression.
La moyenne des carrées des résidus (MCR) fournit une estimation
de σ2.
𝑆𝐶𝑅
𝑀𝐶𝑅 = = 𝑠2
𝑛−2
50
Et donc l’erreur type de l’estimation :
𝑆𝐶𝑅
𝑠=√
𝑛−2
51
V.2. Test de Student
Le test d’hypothèse :
𝐻0 : 𝑎 = 0
𝐻1 : 𝑎 ≠ 0
Ce test permet de décider avec une faible marge d’erreur si les
deux variables sont en relation linéaire statistiquement
significative.
52
Le test de Student est basé sur le fait que la statistique de test :
𝑎̂ − 𝑎
𝑡𝑎̂ =
𝑠𝑎̂
Suit une loi de Student à (n – 2) ddl.
53
V.3. Test de Durbin-Watson
Le test de Durbin-Watson est utilisé pour détecter l’auto-
corrélation des résidus d’une régression linéaire.
Dans la pratique, les termes d’erreurs sont souvent auto-corrélés,
ce qui peut entraîner une mauvaise estimation des paramètres.
D’après les hypothèses du MLRS, on suppose que les résidus sont
stationnaires et distribués selon une loi normale de moyenne nulle.
Les hypothèses (nulle et alternative) du test de Durbin-Watson
sont les suivantes :
54
𝐻0 : 𝐿𝑒𝑠 𝑟é𝑠𝑖𝑑𝑢𝑠 𝑛𝑒 𝑠𝑜𝑛𝑡 𝑝𝑎𝑠 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟é𝑙é𝑠
{
𝐻1 : 𝐿𝑒𝑠 𝑟é𝑠𝑖𝑑𝑢𝑠 𝑠𝑜𝑛𝑡 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟é𝑙é𝑠
55
L’interprétation du test de Durbin et Watson est alors la suivante :
1. Si la valeur calculée de la statistique DW est inférieure à la
valeur tabulée d1 alors il existe une auto-corrélation positive.
2. Si la valeur calculée de la statistique DW est comprise entre d2
et 4-d2, il n’est pas possible de rejeter l’hypothèse nulle
d’absence d’auto-corrélation des résidus.
3. Si la valeur calculée de la statistique DW est supérieure à la
valeur tabulée 4-d1, alors il existe une auto-corrélation
négative.
56
Les autres situations correspondent à des zones d’indétermination.
La figure qui suit résume l’interprétation du test de Durbin et
Watson.
0 d1 d2 2 4 – d2 4 - d1 4
Autocorrélation indéterminati Absence indétermination Autocorrélation
positive on d’autocorrélation négative
57
V.4. Test de Normalité des résidus
V.4.1. Le coefficient d’asymétrie (skewness)
Ce coefficient mesure le degré d’asymétrie d’une distribution. Il se
définit comme suit :
+∞
𝑬[𝒈(𝑿)] = ∫ 𝒈(𝒙) ∙ 𝒇(𝒙) 𝒅𝒙
−∞
59
V.4.1. Le coefficient d’aplatissement (Kurtosis)
Comme son nom l’indique, le coefficient d’aplatissement d’une
distribution mesure son degré d’aplatissement. Il est associé à
l’épaisseur des queues (tails) de la distribution. On le définit
comme suit :
𝜇4 𝐸[(𝑋 − 𝜇)4 ] 𝐸[(𝑋 − 𝜇)4 ]
4
= 2
=
𝜎 (𝑉 (𝑋 )) (𝜎 2 )2
60
𝑛 4
∑ (𝑥
𝑖=1 𝑖 − 𝑥̅ )
𝐸 [(𝑋 − 𝜇)4 ] ≅ = 𝜇̂ 4
𝑛
𝝁
̂𝟒
Si = 𝟑, on dit alors que la distribution est mésocurtique
𝝈𝟒
comme c’est le cas pour la distribution normale qui sert de
point de référence.
𝝁
̂𝟒
Si > 3, on est confronté au cas d’une distribution
𝝈𝟒
leptocurtique. Plus communément, on dit qu’une telle
distribution présente des queues épaisses, toujours en rapport
avec les extrémités d’une distribution normale
𝝁
̂𝟒
Si < 3, on parle alors de distribution platicurtique. Plus
𝝈𝟒
communément, on dit qu’une telle distribution présente des
61
queues minces (thin tails), toujours en rapport avec les
extrémités d’une distribution normale.
Musocurtique
leptocurtique
(normale)
62
Musocurtique
(normale)
platicurtique
63
V.4.1. Test de Jarque et Bera
La représentation graphique ne suffit pas à mesurer les déviations
de ces coefficients par rapport à la normale.
Comme à l’accoutumée, il faut développer un test pour juger du
caractère significatif de ces déviations. Le test de Jarque et Bera
(1984) est conçu à cette fin. Ce test est défini sur la somme des
coefficients d’asymétrie et d’aplatissement élevés au carré.
Plus précisément, le test de Jarque et Bera est basé sur la
statistique suivante :
64
𝑛 − 𝑝 2 (𝐾 − 3)2
𝐽𝐵 = (𝑆 )
6 4
Où S est le coefficient d’asymétrie et K, le coefficient de kurtosis.
Le test d’hypothèses est le suivant. L’hypothèse nulle H0 est que la
distribution est normale alors que l’hypothèse alternative H1 est
que la distribution n’est pas normale. La règle consiste à rejeter H0
si JB est plus grand que 𝝌 𝟐 à deux degrés de liberté au seuil de
signification habituel de 5 % ou bien, si la p-value associée à la
statistique JB est inférieure à 0,051.
1
N.B. Le test de Jarque et Bera ne devient réellement intéressant que lorsque la taille de l’échantillon est élevée.
65
Remarque : Dans la pratique, Si les coefficients estimés
d’asymétrie et d’aplatissement sont respectivement près de 0 et de
3 pour une distribution donnée, on pourrait conclure qu’on est en
présence d’une distribution gaussienne (normale).
66
V.5. Test de Fisher
On peut aussi utiliser la statistique de Fisher pour tester
l’hypothèse nulle.
Cette statistique permet de comparer la somme des carrés
expliquée ∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 à la variance résiduelle (MCRes).
∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2
𝐹= 𝑛
∑𝑖=1(𝑦𝑖 − 𝑦̂)2
𝑛−2
𝑀𝐶𝑅
𝐹=
𝑀𝐶𝑅𝑒𝑠
67
On rejette H0 au risque α lorsque :
𝑭 ≥ 𝑭𝜶 (𝟏, 𝒏 − 𝟐)
68