Multiples
Multiples
Multiples
Marie Chavent
Un exemple
y = β0 + β1 x1 + β2 x2 + β3 x3
bwt
modele$coefficients
250
gestation
150
0.4 0.8
parity
0.0
15 25 35 45
height
140
80
weight
40
0.8
smoke
0.0 0.4
1500 3500 0.0 0.4 0.8 140 170 0.0 0.4 0.8
1. Le modèle
où :
- y est la variable à expliquer (à valeurs dans R) ;
- x1 , . . . , xp sont les variables explicatives (à valeurs dans R) ;
- ε est le terme d’erreur aléatoire du modèle ;
- β0 , β1 , . . . , βp sont les paramètres à estimer.
Commentaires :
- La désignation “multiple” fait référence au fait qu’il y a plusieurs variables
explicatives xj pour expliquer y .
- La désignation “linéaire” correspond au fait que le modèle (1) est linéaire.
Commentaire sur l’hypothèse (A1) : elle indique que les erreurs sont centrées
(A2) V(εi ) = σ 2 , ∀i = 1, . . . , n,
ou de manière équivalente :
V(yi ) = σ 2 , ∀i = 1, . . . , n.
Commentaires sur l’hypothèse (A2) :
- On parle d’hypothèse d’homoscédasticité (' homogénéité des variances).
- Cette variance σ 2 est un paramètre du modèle qu’il faudra estimer.
(A3) Cov(εi , εi 0 ) = 0, ∀i 6= i 0
ou de manière équivalente :
Cov(yi , yi 0 ) = 0, ∀i 6= i 0 .
Y = Xβ + (3)
où
y1 1 x11 ... x1p β0 ε1
y 1 x21 ... x2p β ε
2 1 2
. ,
Y = X =
.
,
. ,
β= et . .
=
. . .. .. . .
. . . . . .
yn 1 xn,1 ... xnp βp εn
(A1’) E() = 0n
ou de manière équivalente :
E(Y ) = X β ∈ Rn .
(A2’) V() = σ 2 In
ou de manière équivalente :
V(Y ) = σ 2 In .
n > (p + 1) et rang(X ) = p + 1
β0 , β1 , . . . , βp et σ 2 .
Vocabulaire :
- ŷi = βb0 + p
P
j=1 βbj xij est appelé la valeur prédite.
- ε̂i = yi − ŷi est appelé le résidu.
ŷi = xiT β.
b
min F (β),
β∈Rp+1
avec
n p
X X
F (β) = [yi − (β0 + βj xij )]2
i=1 j=1
= (Y − X β)T (Y − X β)
= Y T Y − 2Y T X β + β T X T X β
∂aT x ∂x T a ∂x T Ax
= =a et = 2Ax si A est symétrique,.
∂x ∂x ∂x
βb = (X T X )−1 X T Y , (5)
sous réserve que X T X soit inversible.
Commentaires
Pn
- Le minimum de F est égal à i=1 ε̂2i . Ce minimum est appelé la somme
des carrés des résidus (SCR).
Pp
- La valeur prédite ybi estime E[yi ] = β0 + j=1 βj xij et non pas yi . Une
meilleure notation serait E[y
di ].
Propriétés de βb
- E[β]
b = β,
b = σ 2 (X T X )−1
- V(β)
Commentaires
- L’estimateur βb est sans biais.
- Il est aussi de variance minimale parmi tous les estimateurs linéaires par
rapport à Y ) sans biais (propriété dite de Gauss-Markov).
n Pn
2 1 X 2 εi )2
i=1 (b SCR
s = (yi − ŷi ) = = .
n − (p + 1) i=1 n−p−1 n−p−1
Commentaires
summary(modele)
##
## Call:
## lm(formula = bwt ~ age + weight + smoke, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1961 -308 11 309 1487
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3050.562 108.861 28.02 < 2e-16 ***
## age -0.918 2.535 -0.36 0.72
## weight 7.903 1.568 5.04 5.4e-07 ***
## smoke -254.254 29.939 -8.49 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 499 on 1170 degrees of freedom
## Multiple R-squared: 0.081,Adjusted R-squared: 0.0786
## F-statistic: 34.4 on 3 and 1170 DF, p-value: <2e-16
Pour faire ces tests, il est nécessaire de faire une hypothèse supplémentaire :
(A3)’ ∼ N (0n , σ 2 In )
ou de manière équivalente
Y ∼ N (X β, σ 2 In ).
Fn ≥ f1−α (p, n − p − 1)
− ȳn )2 − ȳn )2
Pn 1 Pn SCE /p
régression (expliquée) SCE = i=1 (b
yi p p i=1 (b
yi SCR/(n−p−1)
− ybi )2 1 − ybi )2
Pn Pn
Résiduelle SCR = i=1 (yi n-(p+1) n−p−1 i=1 (yi
− ȳn )2 1 − ȳn )2
Pn Pn
Totale SCT = i=1 (yi n-1 n−1 i=1 (yi
Remarques :
- On retrouve la statistique dite de Fisher Fn qui permet de tester
l’ajustement du modèle.
- On retrouve la propriété fondamentale SCT = SCE + SCT qui permet de
mesurer l’ajustement du modèle par le coefficient de détermination
SCE SCR
R2 = =1− .
SCT SCT
Un rappel de probabilité
U
Si U ∼ N (0, 1), V ∼ χ2 (ν) et U est indépendant de V , alors q ∼ T (ν).
V
ν
βbj − βj
p
σ 2 cjj βbj − βj
s = √ ∼ T (n − p − 1).
(n−p−1)s 2 s cjj
σ2
n−p−1
βbj − βj
Tn = √ ,
s cjj
Test de H0 contre H1
βbj
Tn = √ ∼ T (n − p − 1). (6)
s cjj
On rejette H0 si p-valeur ≤ α.
Rejeter H0 signifie :
summary(modele)$coefficients
confint(modele)
## 2.5 % 97.5 %
## (Intercept) 2836.9775 3264.1473
## age -5.8922 4.0562
## weight 4.8271 10.9782
## smoke -312.9940 -195.5145
L’erreur de prédiction est définie par yb0 − y0 et on peut montrer que sous les
hypothèses du modèle (incluant l’hypothèse de normalité), on a :
2 T T −1
yb0 − y0 ∼ N 0, σ 1 + x0 (X X ) x0 . (8)
On en déduit que :
y0 − ŷ0
p ∼ N (0, 1).
σ 1 + x0T (X T X )−1 x0
On peut montrer que :
y0 − ŷ0
p ∼ T (n − p − 1).
s 1 + x0T (X T X )−1 x0
P(A ≤ y0 ≤ B) = 1 − α.
E[y0 ] = x0T β,
qui est cette fois un paramètre. On va donc chercher l’intervalle aléatoire [A, B]
tel que
P(A ≤ E[y0 ] ≤ B) = 1 − α.
predict(modele,data.frame(age=30,weight=50,smoke=1),interval="confidence")
#Graphique predictions-residus
plot(val.predites ,residus, xlab="val.predites", ylab="Residus")
abline(h=c(-2,0,2), lty=c(2,1,2),col=c(1,2,1))
3
2
1
0
Residus
−1
−2
−3
−4
val.predites
##
## Shapiro-Wilk normality test
##
## data: residus
## W = 0.993, p-value = 0.000022
hist(residus)
Histogram of residus
250
200
150
Frequency
100
50
0
−4 −3 −2 −1 0 1 2 3
residus
Il faut donc :
- un critère de qualité d’un modèle afin de comparer deux modèles n’ayant
pas nécessairement le même nombre de variables explicatives.
- une procédure qui permet de choisir parmi tous les modèles, le meilleur
au sens de ce critère. On parle de procédure de choix de modèle.
Un problème de complexité :
p
X
- Le nombre de modèles à considérer est Cpq = 2p − 1. Ce nombre croît
q=1
exponentiellement avec p. Par exemple, si p = 30, on devrait considérer
230 = 109 modèles...
- En pratique, on utilise donc des heuristiques dont les plus simples sont les
procédures pas à pas ascendante ou descendante.
- Le coefficient R 2 = 1 − SCR
SCT
En régression multiple :
- il y a q + 2 paramètres β0 , β1 , . . . , βq , σ et une equation donc k = q + 1
paramètres libres.
- la vraisemblance est définie comme la densité conjointe des yi et son
expression est
2 1 1 T
L(β, σ ) = exp − 2 (Y − X β) (Y − X β)
(2πσ 2 )n/2 2σ
−2ln(L) = n(ln(2πσ̃ 2 ) + 1)
Ces critères doivent être minimisés dans une procédure de choix de modèle.
## Start: AIC=14379
## bwt ~ gestation + age + weight + smoke
##
## Df Sum of Sq RSS AIC
## - age 1 60465 242763748 14377
## <none> 242703282 14379
## - weight 1 5352463 248055745 14402
## - smoke 1 14379595 257082877 14444
## - gestation 1 48352346 291055628 14590
##
## Step: AIC=14377
## bwt ~ gestation + weight + smoke
##
## Df Sum of Sq RSS AIC
## <none> 242763748 14377
## - weight 1 5637978 248401726 14402
## - smoke 1 14556053 257319800 14443
## - gestation 1 48324498 291088245 14588
formula(back)
## Start: AIC=14683
## bwt ~ 1
##
## Df Sum of Sq RSS AIC
## + gestation 1 52601391 264100599 14472
## + smoke 1 19290318 297411671 14611
## + weight 1 7699680 309002310 14656
## <none> 316701990 14683
## + age 1 230584 316471406 14684
##
## Step: AIC=14472
## bwt ~ gestation
##
## Df Sum of Sq RSS AIC
## + smoke 1 15698873 248401726 14402
## + weight 1 6780798 257319800 14443
## + age 1 754996 263345603 14471
## <none> 264100599 14472
##
## Step: AIC=14402
## bwt ~ gestation + smoke
##
## Df Sum of Sq RSS AIC
## + weight 1 5637978 242763748 14377
## <none> 248401726 14402
## + age 1 345981 248055745 14402
##
## Step: AIC=14377
## bwt ~ gestation + smoke + weight
##
## Df Sum of Sq RSS AIC
## <none> 242763748 14377
## + age 1 60465 242703282 14379
formula(forw)
##
## Call:
## lm(formula = forw, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1471.9 -305.0 -7.9 276.2 1455.9
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -499.702 246.393 -2.03 0.043 *
## gestation 12.703 0.832 15.26 < 2e-16 ***
## smoke -229.004 27.341 -8.38 < 2e-16 ***
## weight 7.386 1.417 5.21 2.2e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 456 on 1170 degrees of freedom
## Multiple R-squared: 0.233,Adjusted R-squared: 0.231
## F-statistic: 119 on 3 and 1170 DF, p-value: <2e-16