T4 Regression
T4 Regression
T4 Regression
6 Exercices 25
Exercice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Exercice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Exercice 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Exercice 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Exercice 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Institut Mines-Télécom 1
Statistique pour ingénieur Thème 4 : Régression linéaire
1 Introduction générale
Un modèle est une représentation simplifiée, mais la plus exhaustive possible, d’une
entité donné, de nature biologique, industrielle, économique, médicale, etc. Sous sa forme
la plus courante, il est présenté comme un système d’équations, le plus souvent linéaires,
équations reliant entre elles deux types de variables que l’on appelle :
— variables expliquées (ou : endogènes) ;
— variables explicatives (ou : exogènes).
Un modèle s’écrit différemment selon la manière dont sont observées les variables du
modèle :
— lorsque les observations s’effectuent au cours du temps, les variables sont des séries
temporelles et le modèle porte le nom de modèle en séries temporelles ;
— lorsque les observations sont réalisées sur des échantillons d’individus, à un instant
donné, le modèle porte le nom de modèle en coupe instantanée ;
— lorsque les observations portent sur des échantillons au cours du temps, on parle de
modèle de panels.
Dans ce qui suit, nous considérons que la variable explicative X possède une forme
déterministe, ainsi X = x. Le Modèle Linéaire Général Simple (MLGS) à plusieurs variables
explicatives s’écrit :
2 Institut Mines-Télécom
Thème 4 : Régression linéaire Statistique pour ingénieur
telle sorte que cet élément puisse être assimilé à une variable aléatoire obéissant à une loi
de probabilité définie sur un domaine.
Le modèle de régression linéaire simple rassemble plusieurs formes non linéaires que
l’on transforme linéairement par anamorphose.
— Le modèle semi-logarithmique :
Yi = β0 + β1 log xi ,
s’étudie sur les couples (zi = log xi ,Yi ), avec xi > 0 pour tout i ∈ {1, . . . ,n}.
— Le modèle doublement logarithmique :
log Yi = log β0 + β1 log xi ⇐⇒ zi = β0′ + β1 vi ,
s’étudie sur les couples (vi = log xi ,zi = log Yi ), avec xi > 0 et Yi > 0. Ce modèle a
pour paramètre de pente β1 , le coefficient d’élasticité instantanée entre Yi et xi qui
mesure la réponse, en pourcentage, de la variable Yi suite à une modification de 1%
de la variable explicative xi .
— Le modèle logistique :
K
Yi =
1 + exp(−axi + b)
s’écrit,
K
ln − 1 = Axi + b,
Yi
avec A= −a. Il s’étudie avec les couples :
K
vi = ln − 1 ,xi .
Yi
Ce modèle est souvent utilisé pour modéliser la pénétration des produits nouveaux
sur un marché ou encore pour calculer la part de marché K d’un produit. Il existe
par ailleurs d’autres formes de modèles non linéaires transformables linéairement
par anamorphose.
Le problème que nous devons résoudre dans le cadre de ce cours est celui du calcul
des paramètres inconnus β0 et β1 à partir des couples (xi ,Yi ) : il s’agit de l’estimation du
modèle. L’analyse et la pertinence du choix de ce modèle seront aussi analysées.
Si on appelle βb0 et βb1 les valeurs calculées du modèle à partir des Yi et xi pour tout
i ∈ {1, . . . ,n}, on peut alors obtenir une série de valeurs notées Ybi calculées à partir de la
relation :
Ybi = βb0 + βb1 xi .
Il existe une différence entre Yi et Ybi ; cet écart noté εbi est appelée résidu de la valeur Yi .
Il s’écrit :
εbi = Yi − Ybi ⇐⇒ Yi = εbi + Ybi ,
ou bien à partir des réalisations yi de la variable aléatoire Yi ,
εbi = yi − ybi ⇐⇒ yi = εbi + ybi .
Or,
Ybi = βb0 + βb1 xi ⇐⇒ Yi = βb0 + βb1 xi + εbi .
Il existe donc deux écritures du modèle :
Institut Mines-Télécom 3
Statistique pour ingénieur Thème 4 : Régression linéaire
— le modèle théorique :
Y i = β 0 + β 1 xi + εi ;
Remarque 1
Il ne faut pas confondre εbi et εi . Le résidu εbi est connu, alors que l’erreur εi est inconnue.
Les informations dont on dispose concernant l’aléa εi sont dans εbi et le fait que εi suive
une loi normale.
Exemple 1
Le jeu de données représente la croissance des chenilles et la quantité de tanin contenue
dans leurs aliments.
x tanin 0 1 2 3 4 5 6 7 8
y croissance 12 10 8 11 6 7 2 3 3
12 •
•
10 •
croissance
8 •
•
6 •
4
• •
2 •
0 2 4 6 8
tanin
4 Institut Mines-Télécom
Thème 4 : Régression linéaire Statistique pour ingénieur
εi ∼ N (0,σ 2 ).
Par conséquent,
h i h i
E (εi ) = 0 et V (εi ) = E (εi − E (εi ))2 = E ε2i = σ 2 , ∀i ∈ {1, . . . ,n}
(il s’agit de l’hypothèse d’homoscédasticité : cela implique que la variance des εi est
constante quel que soit le sous-échantillon tiré dans l’ensemble {1, . . . ,n}).
Cov (εi ,εi′ ) = E ([εi − E (εi )] [εi′ − E (εi′ )]) = E [εi εi′ ] = 0, ∀i,i′ ∈ {1, . . . ,n} avec i ̸= i′
yi − ybi = εbi .
Institut Mines-Télécom 5
Statistique pour ingénieur Thème 4 : Régression linéaire
yi = β
b b0 +βb1 xi
yk
b
yk
y
Nuage de points
β
b0
x xk x
Il s’agit de la minimisation d’une fonction ϕ de deux variables βb0 et βb1 . La solution, si elle
existe, est donnée par le système d’équations normales suivant :
∂ϕ
=0
∂ βb
0
∂ϕ
= 0.
∂β
b
1
On obtient :
n
∂ϕ X
= 0 ⇐⇒ −2 y i − b − βb x = 0
β0 1 i
∂ βb0 i=1
La droite passe donc par le centre de gravité (c’est-à-dire le point moyen G(x̄,ȳ)) du
nuage de points. De même :
n
∂ϕ X
= 0 ⇐⇒ −2 y i − b − βb x x = 0
β 0 1 i i
∂ βb1 i=1
n
X
⇐⇒ yi − (ȳ − x̄βb1 ) − βb1 xi xi = 0
i=1
n
yi xi − ȳxi + βb1 x̄xi − βb1 x2i = 0
X
⇐⇒
i=1
n n
yi xi − nȳx̄ + nβb1 x̄2 − βb1 x2i = 0
X X
⇐⇒
i=1 i=1
6 Institut Mines-Télécom
Thème 4 : Régression linéaire Statistique pour ingénieur
n n
!
x2i 2
X X
⇐⇒ yi xi − nȳx̄ − βb1 − nx̄ =0
i=1 i=1
n n
X 1X
yi xi − nȳx̄ yi xi − ȳx̄
n i=1 Cov (x,y)
⇐⇒ βb1 = i=1
n = n = ,
1X s2x
x2i − nx̄2 x2i − x̄2
X
i=1 n i=1
avec s2x la variance empirique de x. Ces valeurs constituent un point critique de la fonction
ϕ. On vérifie que c’est un minimum en utilisant les dérivées partielles secondes. En utilisant
les notations de Monge :
n n
∂ 2ϕ ∂ 2ϕ ∂ 2ϕ
x2i .
X X
r= = 2n s= = 2 xi t= = 2
∂ βb02 ∂ βb0 ∂ βb1 i=1 ∂ βb12 i=1
Alors
!2 !2
n n n n
1X 1X
rt − s2 = 2n × 2 x2i − 2 = 4n2 x2i − = 4n2 s2x > 0.
X X
xi xi
i=1 i=1 n i=1 n i=1
La hessienne est bien définie positive, donc le point critique (βb0 ,βb1 ) déterminé précédemment
par les dérivées partielles premières est bien un minimum. Les résultats finaux sont donc :
Cov (x,y)
βb0 = ȳ − x̄βb1 et βb1 = .
s2x
Exemple 2
En appliquant les formules précédentes au jeu de données de l’exemple 1, on obtient :
x̄ = 4 , ȳ ≈ 6,89
s2x ≈ 6,67 , Cov (x,y) ≈ −8,11
βb1 = Cov(x,y) ≈ −1,22 , βb0 = ȳ − x̄βb1 ≈ 11,75
s2 x
x 0 1 2 3 4 5 6 7 8
y 12 10 8 11 6 7 2 3 3
yb 11,76 10,54 9,32 8,11 6,89 5,67 4,46 3,24 2,02
La régression ainsi réalisée est représentée à la figure 3.
Il est aussi possible d’exprimer la relation entre y et x à l’aide des données centrées :
(
xci = xi − x̄ , ybic = ybi − ȳ
yic = yi − ȳ , εbi = yic − ybc .
On peut calculer βb0 et βb1 en fonction des données centrées par une démonstration analogue
à la précédente. La méthode des MCO s’écrit alors, a priori :
Institut Mines-Télécom 7
Statistique pour ingénieur Thème 4 : Régression linéaire
12 •
•
10 • équation de la droite de régression :
y = 11,75 − 1,22x
croissance
8 •
•
6 •
4
• •
2 •
0 2 4 6 8
tanin
et on veut minimiser n n
εb2i = (yic − ybic )2 .
X X
i=1 i=1
c c
Puisque x̄ = ȳ = 0, alors :
βb0c= ȳ c − βb1 x̄c = 0
n n
1X
xci yic
X
(xi − x̄)(yi − ȳ)
c i=1 n i=1 Cov (x,y)
β1 = X
b
n = n = 2 = βb1 .
1 s
(xci )2 (xi − x̄)2
X
x
n
i=1 i=1
8 Institut Mines-Télécom
Thème 4 : Régression linéaire Statistique pour ingénieur
Par ailleurs le lien entre les deux estimateurs est donné par :
2
σ x̄
Cov βb0 ,βb1 = − 2 .
nsx
Les estimateurs des moindres carrés βb0 et βb1 sont parmi tous les estimateurs linéaires
sans biais les meilleurs au sens de la variance minimale (Théorème de Gauss-Markov). Ils
sont dits estimateurs BLUE (Best Linear Unbiased Estimator).
Exemple 3
Application au jeu de données : σb ∗2 ≈ 2,87.
x 0 1 2 3 4 5 6 7 8
y 12 10 8 11 6 7 2 3 3
yb 11,76 10,54 9,32 8,11 6,89 5,67 4,46 3,24 2,02
εb 0,24 −0,54 −1,32 2,89 −0,89 1,33 −2,46 −0,24 0,98
Remarque 2
Les estimateurs βb0 et βb1 correspondent à ceux obtenus par la méthode du maximum
de vraisemblance. Par ailleurs, cette méthode fournit pour σ 2 un estimateur moins
performant car biaisé. On se contentera donc, en pratique, des estimateurs des MCO
précédemment explicités.
Ces lois contiennent l’écart type σ de l’erreur. Or, puisque ce paramètre est inconnu, les
deux lois précédentes ne sont pas empiriquement utilisables. On a donc besoin d’une loi
Institut Mines-Télécom 9
Statistique pour ingénieur Thème 4 : Régression linéaire
σb ∗2
Z ≡ (n − 2) 2 ∼ χ2 (n − 2) .
σ
À partir de ce résultat nous pourrons construire, avec la loi de Student, des intervalles de
confiance de β0 , β1 et σ 2 avant de réaliser des tests d’hypothèses sur ces paramètres.
1 − α = P (A ⩽ β1 ⩽ B) .
U
T ≡ q ∼ T (d) .
Z
d
Finalement : q
(βb1 − β1 ) ns2x
Tβb1 = ∼ T (n − 2) .
σb ∗
Afin de comprendre la construction des intervalles de confiance, commençons par représenter
la loi de probabilité de la variable aléatoire Tβb1 suivant cette loi de Student. Si la variable
aléatoire Tβb1 est comprise entre deux valeurs, les fractiles symétriques −tα/2 et tα/2 (voir
la figure ci-dessous), alors l’intervalle de probabilité bilatéral symétrique de Tβb1 s’écrit :
q
(βb1 − β1 ) ns2x
1 − α = P −tα/2 ⩽ Tβb1 ⩽ tα/2 = P −tα/2 ⩽ ⩽ tα/2 .
σb ∗
10 Institut Mines-Télécom
Thème 4 : Régression linéaire Statistique pour ingénieur
1−α
−tα/2 tα/2 t
On en déduit alors :
σb ∗ σb ∗
1 − α = P −tα/2 · q ⩽ βb1 − β1 ⩽ tα/2 · q
ns2x ns2x
σb ∗ σb ∗
= P βb1 − tα/2 · q ⩽ β1 ⩽ βb1 + tα/2 · q .
ns2x ns2x
Exemple 4
Application au jeu de données : construction d’un intervalle de confiance pour β1 , pour
un niveau de confiance de 1 − α = 95% (c’est-à-dire un risque d’erreur de α = 5%).
1 − α = P (A ⩽ β0 ⩽ B) .
Institut Mines-Télécom 11
Statistique pour ingénieur Thème 4 : Régression linéaire
Proposition 4
Soit tα/2 le fractile d’ordre 1 − α2 de la loi T (n − 2). Alors l’intervalle de confiance
bilatéral symétrique de β0 s’écrit :
v v
∗t 1 x̄2 u1 x̄2
u u
+ 2 , βb0 + tα/2 · σb ∗ t + 2
u
Ic1−α (β0 ) = βb0 − tα/2 · σb
n nsx n nsx
v
∗t 1 x̄2
u
u
= βb0 ± tα/2 · σb + 2.
n nsx
Exemple 5
Application au jeu de données : construction d’un intervalle de confiance pour β0 , pour
un niveau de confiance de 1 − α = 95% (c’est-à-dire un risque d’erreur de α = 5%).
Tβb0 ∼ T (7) , tα/2 = t0,025 ≈ 2,36
q
b∗ 1 x̄2
σ ≈ 1,69 , n
+ ns2x
≈ 0,61
Ic0,95 (β0 ) = [11,75 − 2,36 × 1,69 × 0,61 ; 11,75 + 2,36 × 1,69 × 0,61] ≈ [9,32 ; 14,18] .
12 Institut Mines-Télécom
Thème 4 : Régression linéaire Statistique pour ingénieur
α/2 α/2
1−α
χ21 χ22
Exemple 6
Application au jeu de données : intervalle de confiance pour σ 2 , pour un niveau de
confiance de 1 − α = 95% (c’est à dire un risque d’erreur de α = 5%).
(
Z ∼ χ2 (7) , σb ∗2 ≈ 2,86
χ21 ≈ 1,69 , χ22 ≈ 16,01
" #
2 7 × 2,86 7 × 2,86
Ic0,95 (σ ) = ; ≈ [1,25; 11,85] .
16,01 1,69
Institut Mines-Télécom 13
Statistique pour ingénieur Thème 4 : Régression linéaire
Règle de décision
— L’hypothèse H0 est acceptée au risque de première espèce α si :
σb ∗
βb1 ∈ β10 ± tα/2 · q ou Tβb1 ⩽ tα/2 .
ns2x
L’hypothèse H0 doit être rejetée, au risque α, afin de conserver une relation linéaire
entre les variables y et x.
Proposition 6
On peut tester β1 en passant par la p-valeur (pval ) basée sur la région critique. En
notant tβb1 la valeur calculée de la variable aléatoire Tβb1 :
pval = PH0 Tβb1 > tβb1 .
Remarque 3
La notation PH0 représente la probabilité calculée sous l’hypothèse H0 .
Exemple 7
Application au jeu de données : test de validité du modèle (test sur β1 ), pour un risque
de première espèce α = 5%.
H0 : β1 = 0
H1 : β1 ̸= 0.
Tβb1 ∼ T (7) , tα/2 = t0,025 ≈ 2,36
q
b∗
σ ≈ 1,69 , ns2x ≈ 7,75
h i
L’intervalle d’acceptation est ±2,36 × 1,697,75
= [−0,51 ; 0,51] . Comme βb1 = −1,22
n’appartient pas à l’intervalle d’acceptation, l’hypothèse H0 doit être rejetée, au risque
α = 5%.
De manière alternative, en calculant la p-valeur, on obtient pval = PH0
Tβb1 > tβb1 =
PH0 Tβb1 > |−5,6| ≈ 0,0008 (la valeur de tβb1 étant calculée, sous H0 , selon la formule
14 Institut Mines-Télécom
Thème 4 : Régression linéaire Statistique pour ingénieur
q
tβb1 = βb1 ns2x /σb ∗ ). Comme 0,0008 < 5%, on rejette l’hypothèse H0 au risque α = 5%.
L’intervalle d’acceptation est [±2,36 × 1,69 · 0,61] = [−2,43 ; 2,43] . Comme βb0 = 11,75
n’appartient pas à l’intervalle d’acceptation, l’hypothèse H0 doit être rejetée, au risque
α = 5%.
Exemple 9
Application au jeu de données : test pour une valeur particulière de la variance de
l’aléa, pour un risque de première espèce α = 5%. Prenons σ02 = 3, par exemple.
H0 : σ 2 = 3
H1 : σ 2 ̸= 3.
(
Z ∼ χ2 (7) , σb ∗2 ≈ 2,86
χ21 ≈ 1,69 , χ22 ≈ 16,01
h i
L’intervalle d’acceptation est 3×1,697
; 3×16,01
7
= [0,72 ; 6,86] . Comme σb ∗2 = 2,86
appartient à l’intervalle d’acceptation, l’hypothèse H0 ne peut pas être rejetée, au risque
α = 5%.
Institut Mines-Télécom 15
Statistique pour ingénieur Thème 4 : Régression linéaire
conjointement :
n
1X
yi xi − ȳx̄
Cov (x,y) n i=1
ry/x = =v v .
sy sx u1 X
u n u1 X
u n
t y 2 − ȳ 2 t x2 − x̄2
n i=1 i n i=1 i
4.1 Propriétés
(1) ry/x ∈ [−1; 1] :
,→ plus ry/x se rapproche de 1 (ou −1), plus l’intensité de la covariation linéaire est
forte ;
,→ plus ry/x s’éloigne de 1 (ou −1), plus l’intensité de la covariation linéaire est faible.
(2) ry/x est sans dimension.
(3) ry/x est symétrique : ry/x = rx/y .
(4) ry/x n’est pas affecté par un changement de variable :
,→ ry/x = ryc /xc ;
,→ ∀k,k ′ ∈ R \ {0}, rky/k′ x = ry/x .
alors :
ns2 ( n y c xc ) ns2x
P
sx
ry/x = ryc /xc = x2 qi=1 i i = βb1 q q = βb1 .
nsx ns2x ns2y ns2x ns2y sy
Exemple 10
Application au jeu de données : calcul de ry/x .
sx 2,58
sx = 2,58 , sy = 3,48 , ry/x = βb1 = −1,22 × ≈ −0,9.
sy 3,48
16 Institut Mines-Télécom
Thème 4 : Régression linéaire Statistique pour ingénieur
Or :
n n
εbi ybic = (yic − ybic ) ybic
X X
i=1 i=1
n
(yic − ybic ) βb1 xci
X
=
i=1
n
!
yic c
xci
X
= βb 1 − βb 1 xi
i=1
n
!
yic xci 2
X
= βb 1 − βb 1 nsx .
i=1
Aussi, Pn n n
i=1 xci yic c c b ns2 = 0 =⇒ εbi ybic = 0.
X X
βb1 = =⇒ x y
i i − β1 x
ns2x i=1 i=1
Donc : n n n
(yic )2 (ybic )2 εb2i .
X X X
= + (ANOVA)
i=1 i=1 i=1
avec SCT la somme des carrés totaux, SCE la somme des carrés expliqués (par la droite
de régression), et SCR la somme des carrés résiduels. On écrit l’analyse de la variance :
Institut Mines-Télécom 17
Statistique pour ingénieur Thème 4 : Régression linéaire
Exemple 11
Application au jeu de données : calcul du coefficient de détermination R2 .
18 Institut Mines-Télécom
Thème 4 : Régression linéaire Statistique pour ingénieur
Exemple 12
Application au jeu de données : tableau ANOVA.
Variations Somme des carrés des écarts Degré(s) de liberté Variance ou carrés moyens
SCE
Expliquée SCE = 88,81 1 1 = 88,81
Résiduelle SCR = 20,07 7 SCR
7 =
b ∗2 = 2,86
σ
Totale SCT = 108,88 8 ×
D’où :
2 n bic )2
nsx (n − 2) R2
P
i=1 (y
βb12 P n = (n − 2) = n (n − 2) ∼ F (1; n − 2) .
b2i 1 − R2 b2i
P
i=1 ε i=1 ε
R2
F = (n − 2) ∼ F (1; n − 2) .
1 − R2
H0 : β1 = 0
H1 : β1 ̸= 0.
1 − α = P (F ⩽ f1−α ) .
Règle de décision
— L’hypothèse H0 est acceptée au risque de première espèce α (modèle non valide)
si :
R2
(n − 2) = F ⩽ f1−α .
1 − R2
— L’hypothèse H0 est rejetée au risque de première espèce α (modèle valide) si :
R2
(n − 2) = F > f1−α .
1 − R2
Institut Mines-Télécom 19
Statistique pour ingénieur Thème 4 : Régression linéaire
1−α
f1−α
Proposition 7
En notant f la valeur calculée de la variable aléatoire F , l’hypothèse H0 est rejetée au
risque α lorsque pval ⩽ α, avec :
Exemple 13
Application au jeu de données : test du coefficient de détermination, pour un risque de
première espèce α = 5%
H0 : β1 = 0
H1 : β1 ̸= 0.
(
F ∼ F (1; 7) , f1−α = f0,95 ≈ 5,59
R2 = 0,81
R2 0,81
Calculons 1−R 2 (n − 2) = 1−0,81 × 7 = 29,84. Cette valeur étant supérieure au fractile
20 Institut Mines-Télécom
Thème 4 : Régression linéaire Statistique pour ingénieur
Y0 = β0 + β1 x0 + ε0 .
E [Y0 |x0 ] = β0 + β1 x0 .
La statistique Yb0 est l’estimateur linéaire sans biais de E [Y0 |x0 ] (cf. démonstration ci-
dessous). Comme βb0 et βb1 suivent une loi normale, alors Yb0 suit une loi normale :
h i h i
Yb0 ∼ N E Yb0 ; V Yb0 .
On montre que :
1 (x0 − x̄)2
!
h i h i
2
E Yb 0 = β 0 + β 1 x0 et V Yb 0 =σ + .
n ns2x
Preuve.
h i h i
E Yb0 = E βb0 + βb1 x0 = β0 + β1 x0 = E [Y0 |x0 ] .
h i h i h i
V Yb0 = V βb0 + βb1 x0 = V βb0 + x20 V [β1 ] + 2x0 Cov βb0 ,βb1 .
Or, on a vu que
Pn !
h i σ2 h i
2 i=1 xi
2
2 1 x̄2
V βb 1 = 2 et V βb
0 =σ =σ + 2 .
nsx n2 s2x n nsx
D’où : Pn
i=1 x2i ns2x + nx̄2 1 x̄2
= = + .
nns2x nns2x n ns2x
Par ailleurs,
−x̄
Cov βb0 ,βb1 = 2 σ 2
nsx
Institut Mines-Télécom 21
Statistique pour ingénieur Thème 4 : Régression linéaire
d’où :
! !
h i
2 1 x̄2 σ2 x̄ 2 1 x̄2 + x20 − 2x0 x̄
V Yb0 = σ + 2 + x20 − 2x 0 σ = σ 2
+
n nsx ns2x ns2x n ns2x
1 (x0 − x̄)2
!
2
=σ + .
n ns2x
Par conséquent :
1 (x0 − x̄)2
!!
2
Yb0 ∼ N β0 + β1 x0 ; σ + .
n ns2x
□
On peut également démontrer que l’estimateur trouvé est un estimateur sans biais
et de variance minimale. L’intervalle de confiance de la valeur moyenne de Y |x peut se
construire en posant le problème suivant. On cherche les réels a et b tels que, pour un
risque donné α :
1 − α = P (a ⩽ E [Y0 |x0 ] ⩽ b) = P (a ⩽ β0 + β1 x0 ⩽ b) .
Proposition 8
L’intervalle de confiance bilatéral symétrique de E[Y0 |x0 ] est :
v
u 2
∗t 1
u (x0 − x̄)
Ic1−α (E [Y0 |x0 ]) = Yb0 ± tα/2 σ + .
b
n ns2x
Exemple 14
Application au jeu de données : construction de l’intervalle de confiance de la valeur
moyenne de Y en sachant une valeur de x, disons x0 = 4,5, pour un niveau de confiance
de 1 − α = 95%.
(
yb0 = 11,75 − 1,22 ∗ 4,5 = 6,26 , tα/2 = t0,025 ≈ 2,36
σb ∗ = 1,69
22 Institut Mines-Télécom
Thème 4 : Régression linéaire Statistique pour ingénieur
14
droite de régression
12 • bande de confiance 95%
•
10 •
croissance
8 •
•
6 •
4
• •
2 •
0
0 2 4 6 8
tanin
Institut Mines-Télécom 23
Statistique pour ingénieur Thème 4 : Régression linéaire
Proposition 9
L’intervalle de prévision de y0 pour une valeur donnée de x0 au niveau de confiance
1 − α est v
1 (x − x)2
u
0
Ic1−α (y0 ) = yb0 ± tα/2 σb ∗ t1 + +
u
n n s2x
Exemple 15
Application au jeu de données : construction de l’intervalle de prévision d’une nouvelle
valeur de Y pour une valeur de x, disons x0 = 4,5, pour un niveau de confiance de
1 − α = 95%.
(
yb0 = 11,75 − 1,22 · 4,5 = 6,26 , tα/2 = t0,025 ≈ 2,36
σb ∗ = 1,69
v
1 (x0 − x̄)2
u
u
∗t
yb0 ± tα/2
Ic0,95 (y0 ) = σb 1 + + = [6,26 ± 4,21] = [2,05 ; 10,47] .
n ns2x
En faisant le même calcul pour toutes les valeurs x0 appartenant à l’intervalle [0 ; 8], on
obtient une bande de prévision autour de la droite de régression, bande qui se rajoute à
celle de confiance. Les deux bandes, ainsi que la droite de régression sont représentées à
la figure 8.
15 droite de régression
bande de confiance 95%
intervalle de prévision 95%
•
•
10 •
croissance
•
•
•
5
• •
•
0 2 4 6 8
tanin
Le sujet de la régression linéaire en statistique est vaste et n’a été qu’introduit dans ce
poly. Notamment, ce modèle est basé sur des hypothèses admises concernant les erreurs
(normalité, indépendance, homoscédasticité) qu’il est bon de vérifier sur des exemples.
Ceci est abordé dans la dernière vidéo disponible dans le cadre de ce MOOC, consacrée à
24 Institut Mines-Télécom
Thème 4 : Régression linéaire Statistique pour ingénieur
6 Exercices
Exercice 1
Quand des anthropologues étudient des ossements humains, l’un des points importants
est de déterminer la taille des individus. Comme les squelettes sont souvent incomplets,
on estime cette taille à partir de mesures sur des petits os. Dans un article intitulé The
Estimation of Adult Stature from Metacarpal Bone Length, une équipe de chercheurs a
ainsi présenté une méthode permettant d’estimer la taille d’un individu en fonction de la
longueur des métacarpes, les os de la paume de main, validée sur les données suivantes où
x est la longueur de l’os metacarpal du pouce et y la taille de l’individu.
x (mm) 45 51 39 41 52 48 49 46 43 47
y (cm) 171 178 157 163 183 172 183 172 175 173
185 −
• •
180 −
•
175 − •
• • •
170 −
•
165 −
•
160 −
•
155 −
| | | | |
35 40 45 50 55
1. Calculer les coefficients de la droite des moindres carrés. Vérifiez avec le graphique.
2. Pour quel risque minimal peut-on considérer que la relation entre x et y est significative ?
3. Donner l’intervalle de confiance à 95% de la hauteur moyenne des individus dont l’os
métacarpal du pouce serait long de 50mm.
4. Des éléments anthropologiques complémentaires ont permis d’estimer à 1m90 la taille
d’un individu dont l’os metacarpal du pouce est de 50mm. Que penser de cet individu ?
5. Tracer les résidus. Qu’est-ce qu’il faut faire pour vérifier s’il s’agit de réalisations de
variables aléatoires normales ?
Institut Mines-Télécom 25
Statistique pour ingénieur Thème 4 : Régression linéaire
Exercice 2
La figure 10 suivante indique, pour les 21 régions françaises de province et de métropole
N°4
nuage de points, de forme allongée, suggère l’existence d’une relation linéaire (figurée par
ets déposés placent LES EMPLOIS DANS
la droite des moindres LES ACTIVITÉS DE HAUTE TECHNOLOGIE, VECTEUR DE LA CROISSANCE ÉCONOMIQUE
carrées) entre ces deux variables.
mie, la fabrication Nombre d’emplois dans la haute technologie et PIB en valeur par région de province
s médicochirurgicaux Millions d'euros
trie pharmaceutique 160 000
es avantages considérables 0 10 000 20 000 30 000 40 000 50 000 60 000 70 000 80 000 90 000
Nombre de salariés
ffrir à l’extrême une position
ue, par le dépôt de brevets, Source : Insee - Comptes nationaux 2000, Unedic 2000
Exercice 4
Le tableau ci-après donne les résultats d’un certain nombre de déterminations de la
distance nécessaire (y en mètres) à l’arrêt par freinage d’une automobile lancée à différentes
vitesses (x en km/h). Une étude graphique montre que la courbe représentant y en fonction
de x est manifestement concave vers les y positifs, mais que si l’on utilise x2 au lieu de
x, la liaison apparaît sensiblement linéaire. Peut-on justifier ce fait par une loi physique ?
Admettant la validité de ce type de liaison entre y et x2 , on suppose de plus que la vitesse
x peut être déterminée avec une grande précision et que les écarts constatés sont dus à des
fluctuations aléatoires de y autour d’une vraie valeur correspondant à une liaison linéaire
représentée par l’équation y = β1 x2 + β0 .
Vitesse (x) 33 49 65 33 79 49 93
Distance (y) 5,3 14,45 20,26 6,5 38,45 11,23 50,42
x2 1 089 2 401 4 225 1 089 6 241 2 401 8 649
x2i = 26,095
X X
yi = 146,61
yi2 = 4 836,3019 x4i = 145 507 351 x2i yi = 836 155,41
X X X
Institut Mines-Télécom 27
Statistique pour ingénieur Thème 4 : Régression linéaire
Exercice 5
Il y a des situations où la droite de régression passe par l’origine. Le modèle devient
alors Yi = β1 xi + εi .
1. En utilisant la méthode des moindres carrés, donner les expressions de :
(a) βb1 ,
(b) E βb1 , V βb1 , V Ybi .
2. Montrer algébriquement que εbi ̸= 0.
P
28 Institut Mines-Télécom