Solu Non Param
Solu Non Param
Solu Non Param
Feuille d’exercices
h2 00
Biais{fˆh (x)} = f (x)µ2 (K) + o(h2 ), h → 0,
2
R
où µ2 (K) = u2 K(u)du.
c) Montrez que pour K ∈ L2 , on a pour tout x ∈ R
Z
ˆ 1 2 1
Var{fh (x)} = f (x) K(u) du + o , nh → ∞.
nh nh
Solution 1. a)
n
1 X Xi − x
fˆh (x) = K , K noyau.
nh i=1 h
1
De plus comme V ar(Y ) = E(Y 2 ) − E(Y )2 , il nous reste à calculer le premier terme (le 2ème
étant déjà fait). C’est parti pour le deuxième !
( 2 ) 2
− u−x
Z
−1 −2 X x −1 −2
n h E K =n h K f (u)du
h h
Z
−1 −1
=n h K(u)2 f (x + hu)du
Z
−1 −1 2
=n h K(u) f (x)du + o(1)
Z
1 2 1
= f (x) K(u) du + o .
nh nh
e) Reste plus qu’à dériver par rapport à h et résoudre (on néglige les petits o).
Z Z
3 2 00 1
h µ2 (K) {f (x)} dx − 2 K(u)2 du = 0
2
nh
Z Z
5 2 00 2 1
⇐⇒h µ2 (K) {f (x)} dx − K(u)2 du = 0
n
R
K(u)2 du
⇐⇒h5 = R
nµ2 (K)2 {f 00 (x)}2 dx
R 1/5
K(u)2 du
PPP
⇐⇒h = R .
nµ2 (K)2 {f 00 (x)}2 dx
Astuce : on utilisera le fait que pour Y ∼ N (µ, σ 2 ), E{(X − µ)2k } = (2k)!σ 2k /(2k k!).
2
b) En déduire que le choix par défaut de la fenêtre selon Silverman est donné par
v
5 1/5 u n
4σ̂ u 1 X
hSilverman = , σ̂ = t (Xi − X̄)2
3n n − 1 i=1
de sorte que
2
(x − µ)2
Z Z
00 2 1
f (x) dx = − 2 f (x)2 dx
σ4 σ
(X − µ)4 (X − µ)2 σ2
1 1 2
= √ E + 4 − 2E , X∼N 0,
2 πσ 2 σ8 σ σ σ4 2
4!(σ/2)4 σ 2 /2
1 1
= √ + 4 −2 6
2 πσ 2 22 2!σ 8 σ σ
3
= 5√ .
8σ π
Nous avons utilisé pour l’avant dernière égalité le fait que
4! 4
E{(Y − µ)4 } = σ , Y ∼ N (µ, σ 2 ).
22 2!
b) D’après nos calculs précédents on sait déjà que (ϕ ∼ N (0, 1))
Z
1
ϕ(x)2 dx = √ .
2 π
De plus comme Z
µ2 (ϕ) := x2 ϕ(x)dx = 1,
3
c) Il suffit d’utiliser un estimateur robuste de la variance pour le cas Gaussien. Soit X ∼ N (µ, σ 2 ).
Alors puisque pour une loi N (0, 1) l’intervale inter-quartile vérifie
X[3n/4] − µ X[n/4] − µ
− ≈ 1.349
σ σ
X[3n/4] − X[n/4]
⇐⇒ ≈ 1.349,
σ
soit l’estimateur suivant
X[3n/4] − X[n/4]
σ̃ = .
1.349
d) Vous savez que l’estimateur de l’écart-type σ
v
u n n
u 1 X 1X
σ̂ = t (Xi − X̄)2 , X̄ = Xi ,
n − 1 i=1 n i=1
est très sensible aux valeurs extrêmes présentes dans l’échantillon. Comment feriez vous pour
palier à ce problème ?
e) On remarque que h∗ correspond à la règle empirique de Silverman pour laquelle on estime
l’écart-type comme le minimum entre l’estimateur classique et sa version robuste. C’est une
manière de combiner les deux approches précédentes en prenant la fenêtre la plus petite des
PPP
deux afin de ne pas obtenir une densité trop lissée.
4
b) Faisons les calculs séparément. D’une part on a
Z Z n o
E fˆh (x) dx = E fˆh (x)2 dx
2
Z n o2
= E fˆh (x) − f (x) + f (x) dx
Z Z Z n o
= M SE{fˆh (x)}dx + f (x) dx − 2 E fˆh (x) − f (x) f (x)dx
2
Z Z n o Z
ˆ ˆ
= M ISE(fh ) + f (x) dx + 2 E fh (x) f (x)dx − 2 f (x)2 dx
2
Z h n oi
ˆ 2 ˆ
= M ISE(fh ) − f (x) dx + 2EX E fh (X)
−
Z
2 X 1 X
= M ISE(fˆh ) − f (x) dx + EX E K
2
h h
D’autre part on a
n X n
2 X X j − Xi 2 X2 − X1
E K = E K .
n(n − 1)h h h h
i=1 j=1
j6=i
PPP
dépend pas de h.
data(faithful)
5
PPP
Exercice 5 (Mélange de gaussiennes).
Soit la fonction
0.7 x−1
f (x) = 0.3ϕ(x) + ϕ , x ∈ R,
0.3 0.3
où ϕ(·) correspond à la densité d’une N (0, 1).
a) Montrez que f est une densité de probabilité.
b) Ecrivez une fonction R qui génère un n–échantillon (iid) selon cette loi.
c) Simulez un n–échantillon (n choisi par vos soins) et obtenez une estimation de la densité. Vosu
choisirez une fenêtre optimale à l’oeil .
d) Sur un même graphqiue, comparer cette estimation à la densité théorique.
R
Solution 4. a) Clairement f est positive. Reste à montrer que f (x)dx = 1. On a
Z Z
0.7
f (x)dx = 0.3 + ϕ(u)0.3du, u = (x − 1)/0.3
0.3
= 0.3 + 0.7 = 1,
R
où nous avons utilisé que ϕ = 1.
PPP
b) C’est juste du R.
Exercice 6 (Nadaraya–Watson).
Dans cet exercice, nous allons retrouver la forme de l’estimateur de Nadaraya–Watson pour la
régression non paramétrique.
a) Soit K1 et K2 deux noyaux sur R montrez que le noyau (x, y) 7→ K1 (x)K2 (y) est un noyau sur
R2 .
b) Considérons l’estimateur de la densité bivariée f (x, y) suivant
n
1 X Xi − x Yi − y
fˆh1 ,h2 (x, y) = Kh1 Kh2 .
nh1 h2 i=1 h1 h2
Montrez que
n
Xi − x
Z
1X
y fˆh1 ,h2 (x, y)dy = Kh1 Yi .
n i=1 h1
e) Jouez un peu avec l’argument bandwidth pour faire le lien avec le cours.
f) Ecrivez un bout de code R permettant de choisir une fenêtre adaptée par leave-one-out.
6
Solution 5. a) Il s’agit de vérifier la positivité, l’intégrabilité à 1 et la symétrie. C’est trivial.
b) On a
n
− −
Z Z
1 X X i x Y i y
y fˆh1 ,h2 (x, y)dy = y Kh1 Kh2 dy
nh1 h2 i=1 h1 h2
n Z
1 X Xi − x
= Kh1 (Yi − h2 ỹ)Kh2 (ỹ)(−h2 dỹ), ỹ = (Yi − y)/h2
nh1 h2 i=1 h1
n
1 X Xi − x
= Kh1 Yi , symétrie du noyau et intégrale à 1.
nh1 i=1 h1
c) On utilise simplement la relation f (y | x) = f (x, y)/f (x). On estime alors le numérateur via
la question précédente et le dénominateur par l’estimateur de Parzen–Rosenblatt. On trouve
alors
n−1 ni=1 Kh1 {(Xi − x)/h1 }Yi
P
r̂(x) = −1 Pn ,
n i=1 Kh1 {(Xi − x)/h1 }
qui est bien l’expression donnée en cours.
d) Bon là c’est à vous de faire le travail.
e) L’argument bandwidth correspond à la fenêtre h du cours.
f) Voici mon implémentation du leave-one-out
bandwidths <- seq(0.1, 2, length = 100)
mse <- rep(NA, length(bandwidths))
n.obs <- nrow(faithful)
attach(faithful)
for (i in 1:length(bandwidths)){
h <- bandwidths[i]
7
36
35
mse
34
33
bandwidths
## Fenetre optimale
hopt <- bandwidths[which.min(mse)]
plot(eruptions, waiting)
lines(ksmooth(eruptions, waiting, kernel = "normal", bandwidth = hopt),
col = "seagreen3", lwd = 2)
8
●
●
● ●
●
●
90
● ●● ●●●
● ● ●
● ● ● ● ●●
● ●
● ●● ● ●
● ● ● ●●●
●● ●● ●●● ●● ●
● ● ● ● ● ●●● ● ●
● ● ●●●●
● ●● ● ● ●
● ● ● ●● ● ● ● ● ●● ●
80
● ● ● ● ●● ●
● ● ● ● ●● ● ● ●●
● ●
● ● ● ●● ● ● ●● ●● ●●
●● ●● ● ● ● ● ● ●
●● ●● ● ● ● ● ●
● ● ●
● ● ●
●●
● ● ● ● ●●
● ● ● ●● ●
●
waiting
● ● ● ● ●
70
● ● ●●
● ●
●
●
● ●
● ● ●
● ● ● ●
● ● ●
● ● ● ●
60
● ● ● ●● ●
● ●● ● ● ●●
● ●● ●
● ●
●● ●
● ●● ● ● ●
●
●●●●● ● ●
●● ●● ● ●
● ● ● ● ●
●●●● ● ●
50
● ● ● ●
●●● ● ●
● ● ●
● ● ●
●●
● ●
●● ●
●
eruptions
PPP