Poly Stat Inf
Poly Stat Inf
Poly Stat Inf
Cours - TD
2005/2006
Introduction
La théorie des probabilités procède selon une méthode qui s’apparente à la démarche dé-
ductive. Connaissant la loi d’une variable ou d’un vecteur aléatoire, on sait calculer les valeurs
exactes des paramètres qui la caractérisent, comme l’espérance ou la variance, et déterminer
les lois de nouvelles variables ou vecteurs aléatoires fonction de la variable ou des vecteurs
aléatoires donnés ainsi que les limites de suites de variables et de vecteurs aléatoires.
La théorie statistique procède selon une démarche radicalement différente qui s’apparente
à l’induction et qui consiste à exploiter des données d’une ou plusieurs variables décrivant
plusieurs populations qui ont une existence réelle dans les domaines économiques, industriel,
médical ou autre, dans le but de prendre des décisions du type : choix d’une hypothèse parmi
plusieurs possibles, comparaison de paramètres, etc.
Par exemple, étant données plusieurs populations décrites par des variables aléatoires nu-
mériques dont les paramètres (espérance, variance,. . . ) sont inconnus, il pourra s’agir d’estimer
d’abord ces paramètres à l’aide des seules informations contenus dans de petits échantillons
extraits de ces populations, puis de tester les hypothèses d’égalité ou d’inégalité de ces para-
mètres.
1
Table des matières
1 Estimation statistique 4
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Estimation ponctuelle d’un paramètre . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1 Modèle statistique inférentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Qualités d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Méthodes d’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1 Résultats généraux pour un échantillon . . . . . . . . . . . . . . . . . 9
2.3.2 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . 9
2.4 Notion de statistique exhaustive . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Estimation d’une moyenne théorique . . . . . . . . . . . . . . . . . . . . . . 14
3.2.1 Construction de l’intervalle de confiance de la moyenne inconnue m
d’une population gaussienne N (m, σ 2) où σ 2 est connue . . . . . . . . 14
3.2.2 Construction de l’intervalle de confiance d’une moyenne m d’une po-
pulation gaussienne N (m, σ 2 ) où σ 2 est inconnue . . . . . . . . . . . 16
3.2.3 Cas de grands échantillons (n > 30) . . . . . . . . . . . . . . . . . . . 18
3.3 Estimation d’une proportion p . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3.1 Cas d’un échantillon de grande taille (n > 30) . . . . . . . . . . . . . 18
3.3.2 Cas d’un échantillon de petite taille n . . . . . . . . . . . . . . . . . . 19
3.4 Estimation d’un paramètre d’une population quelconque, dans le cas de
grands échantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4.1 Intervalle de confiance obtenu par convergence en loi de l’E.M.V. . . . 20
3.4.2 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Tests d’hypothèse 22
1 Principes généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.1 Exemple introductif : le "test binomial" . . . . . . . . . . . . . . . . . . . . . 22
1.2 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3 Test d’une hypothèse simple contre une hypothèse simple . . . . . . . . . . . 26
1.4 Test d’une hypothèse simple contre une hypothèse composite . . . . . . . . . 30
1.5 Test d’une hypothèse composite contre une hypothèse composite . . . . . . . 34
2 Tests pour échantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1 Tests de comparaison d’un seul paramètre à une valeur ou un ensemble de
valeurs données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2 Tests de comparaison de deux paramètres issus de populations distinctes . . 40
2
2.3 Test du chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3 Tests d’analyse de variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1 Cas d’un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2 Cas de deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3
Chapitre 1
Estimation statistique
1 Introduction
La procédure d’estimation s’articule selon le schéma suivant :
L’indépendance n’est rigoureusement acquise que s’il y a tirage avec remise ; toutefois si
la population est très grande (plusieurs milliers au moins) on peut faire l’économie de cette
hypothèse.
T (X1 , .., Xn ) est une v.a. fonction de l’échantillon (X1 , .., Xn ), dite statistique, construite pour
représenter de façon optimale l’information sur un paramètre inconnu, contenue dans l’échan-
tillon.
Définition 1 Construire un modèle statistique revient à définir sur l’espace probabilisé IRn ,
muni de la tribu des boréliens B(IRn ) une probabilité Pθ , où θ est un paramètre ou un vecteur
de paramètres inconnu.
4
La probabilité P sera définie, selon l’un des deux cas, par :
la loi conjointe Pθ (X1 = x1 , . . . , Xn = xn ) dans le cas de v.a. discrètes,
ou
la densité conjointe fX;θ (x1 , . . . , xn ) dans le cas de v.a. continues.
Définition 2 Une statistique T est une application de l’espace (IR, B(IR), Pθ )n à valeurs
dans IR.
T : IRn −→ IR
(x1 , x2 , . . . , xn ) 7−→ T (x1 , x2 , . . . , xn ) = t .
2 1
Pn 2
La statistique Sn−1 = n−1 i=1 Xi − X est un estimateur sans biais de σ 2 =
Var (Xi ).
5
2
Solution : Calculons l’espérance de Sn−1 . On a :
!
1 X 2
Xn n
2
1 2
IE Sn−1 = IE Xi − X = IE Xi − X
n − 1 i=1 n − 1 i=1
1 X 2
n
= IE (Xi − m) + m − X
n − 1 i=1
1 X
n
2
= IE (Xi − m)2 + m − X + 2 (Xi − m) m − X
n − 1 i=1
1 Xh 2 i
n
2
= IE (Xi − m) + IE m − X + 2 IE (Xi − m) m − X
n − 1 i=1
n
1 X
= Var (Xi − m) + Var m − X − 2 IE (Xi − m) X − m
n − 1 i=1
n
" n
#
1 X 1X
= Var (Xi ) + Var X − 2 IE ((Xi − m) (Xj − m))
n − 1 i=1 n j=1
n
2
1 X 2 σ2 1 2
IE Sn−1 = σ + − 2 IE (Xi − m)
n − 1 i=1 n n
n n
1 X 2 σ2 2 2 1 X n−1 2
= σ + − σ = σ = σ2 .
n − 1 i=1 n n n − 1 i=1 n
2
On démontre que : V (Sn−1 ) = n1 (µ4 − n−3 4
n−1
σ ) où µ4 est le moment centré d’ordre quatre de X
(µ4 = E((X − X̄)4 ).
Définition 7 Soient deux estimateurs T1 et T2 sans biais de θ. On dit que T1 est meilleur
que T2 si on a : Var (T1 ) < Var (T2 ).
Théorème 1 Tout estimateur sans biais ou asymptotiquement sans biais tel que
limn→+∞ Var (T ) = 0 est convergent en probabilité vers θ.
6
Théorème 2 Sous les hypothèses de régularité suivantes :
H1 : Le support de la densité D = {x / f (x; θ) > 0} est indépendant de θ ;
H2 : θ varie dans un intervalle ouvert I ;
∂ ∂2
H3 : ∀ θ ∈ I, ∀ x ∈ D, f (x; θ) et 2 f (x; θ) existent et sont intégrables par rapport à x ;
∂θ ∂θ Z
H4 : pour tout θ ∈ I, pour tout A ∈ B(IR), f (x; θ) dx est deux fois dérivable par
A
rapport à θ ;
∂
H5 : ln f (X; θ) est une v.a. de carré intégrable d’un estimateur sans biais.
∂θ
HS : On détermine la borne de Cramer-Rao, Vn (θ), définie par :
1
Vn (θ) = 2
∂ log f (X1 , . . . , Xn ; θ)
− IE
∂θ2
∂ 2 log f (X1 , . . . , Xn ; θ)
où − IE est l’information de Fisher
∂θ2
et dans le cas particulier d’un échantillon X1 , . . . , Xn de v.a indépendantes de même loi :
1
Vn (θ) = 2
∂ log f (X; θ)
−n IE
∂θ2
Définition 9 Un estimateur Tn sans biais de θ est dit efficace si sa variance atteint la borne
de Cramer-Rao.
Remarque 1 : De plusieurs estimateurs sans biais, le meilleur est celui qui a la plus petite
variance. Attention ! Il est possible qu’il n’existe pas d’estimateur efficace.
7
1) Représenter le graphe de la densité de la loi U[0; θ] et préciser ses paramètres de moyenne
et de variance.
P
2) Soit la statistique T = n1 ni=1 Ti . Calculer IE T et Var T .
Montrer que la statistique θb1 = 2T est un estimateur sans biais de θ et convergent en
probabilité.
3) Soit la statistique Yn = sup Ti .
i
a) En utilisant l’équivalence des événements (Yn < y) et (∀i = 1, . . . , n Ti < y), calculer
la fonction de répartition de Yn . En déduire sa densité, calculer IE (Yn ), Var (Yn ) et
tracer le graphe de la densité pour n = 3, puis pour n = 30. Comparer les graphes
et interpréter les.
b) Montrer que la statistique θb2 = n+1n
Yn est un estimateur sans biais de θ et convergent
en probabilité.
b
4) Comparer les variances Var θ1 et Var θb2 . Lequel des deux estimateurs θb1 et θb2 choisiriez-
vous pour estimer θ ? Calculer la borne de Cramer-Rao et conclure.
Application : pour n = 10, on a (t1 , . . . , t10 ) = (28; 33; 42; 15; 20; 27; 18; 40; 16; 25). Quelle
est l’estimation de la durée du feu rouge ?
2 y2
y 7−→ g (y) = √ e− 2σ2 1lIR+ (y) .
2πσ
r
2
En déduire que IE(Yi ) = σ .
π
Remarquons que IE (|Xi − m|) est un indice de dispersion qui joue un rôle analogue mais
non équivalent à la variance.
Pn
b=
2) On cherche un estimateur sans biais de σ de la forme σ ai Yi . En calculant l’espérance
i=1
b, trouver une contrainte linéaire sur les ai .
de σ
Pn
3) Sous cette contrainte, montrer que a2i est minimale si et seulement si les ai sont tous
i=1
égaux.
cn l’estimateur de σ associé à ce dernier cas : les ai sont tous égaux. Calculer
4) On note alors σ
V(c
σn ) .
5) Calculer la borne inférieure de Cramer-Rao pour un estimateur sans biais de σ. L’estimateur
cn est-il efficace ?
σ
8
2.3 Méthodes d’estimation
Il existe plusieurs méthodes pour construire un estimateur : la méthode des moindres carrés
(théorie de la régression), la méthode des moments et la méthode du maximum de vraisem-
blance, qui est la méthode de référence présentée ci-dessous.
Théorème 4 Si l’échantillon (X1 , . . . , Xn ) est formé de v.a. de même loi normale, les esti-
2
mateurs X et Sn−1 sont indépendantes.
9
la fonction l telle que :
f (x; θ) densité conjointe de X1 , . . . , Xn ,
dans le cas à densité
l : IRn × Θ −→ IR+
(x, θ) 7−→ l(x; θ) = ou
P (X = x1 , . . . , Xn = xn ),
θ 1
dans le cas de v.a. discrètes.
où x = (x1 , x2 , ...xn ).
Exemple 3 Soit l’échantillon (X1 , . . . , Xn ) où chaque Xi est de loi normale N (µ, σ 2). La
fonction de vraisemblance s’écrit alors :
n
Y (i)
∀ (x1 , . . . , xn ) , l(x; θ) = fθ (xi )
i=1
n
( 2 )
Y 1 1 xi − θ
= √ exp −
i=1
2πσ 2 σ
n Y n
( n 2 )
1 1 X xi − θ
= √ ( σ −1 ) exp − .
2π i=1
2 i=1 σ
On a alors :
l(x1 , . . . , xn ; θb (x1 , . . . , xn )) = max l(x1 , . . . , xn ; θ).
θ∈Θ
En pratique, il sera plus facile de maximiser la fonction log l(x1 , . . . , xn ; θ), dite "log de vrai-
semblance".
10
Application Dans l’exemple précédent, déterminons l’estimateur du maximum de vraisem-
blance du paramètre µ, sous l’hypothèse que σ est connu. Pour cela, calculons log l(x1 , . . . , xn ; µ)
et cherchons la solution qui maximise cette quantité, obtenue par la résolution de l’équation :
∂ log l(x1 , . . . , xn ; µ)
=0,
∂µ
qui définit les valeurs stationnaires de log l(x1 , . . . , xn ; µ). On s’assurera alors que la dérivée
seconde en ce point est négative, ce qui garantit que le point critique est bien un maximum.
Théorème 5 Quand la taille n de l’échantillon est suffisamment «grande» (dès que n > 30),
l’e.m.v. θb possède les trois propriétés suivantes :
11
1) Déterminer l’estimateur du maximum de vraisemblance T de m. Déterminer ses propriétés.
2) La connaissance a priori de σ 2 modifie-t-elle le résultat ?
3) Supposons maintenant m connu. Déterminer l’estimateur du maximum de vraisemblance
c2 de σ 2 et étudier ses propriétés.
σn
cn de σ. A-t-il un biais ? Calculer sa borne de Cramer-Rao.
4) En déduire un estimateur σ
2
5) Supposons que m est inconnu. Déterminer un estimateur Sn−1 sans biais de σ 2 et calculer
sa variance.
P 2
T ′ où T ′ = n1 ni=1 Xi − X et nT
′
2 n
On montrera que Sn−1 est égal à n−1 σ2
n
est un chi-deux
à (n − 1) d.d.l.
Solution Montrons que la loi de (X1 , . . . , Xn ) conditionnée par T est indépendante du pa-
ramètre p à estimer ; on en conclura alors que les valeurs individuelles (X1 = x1 , . . . , Xn = xn )
n’apportent pas plus d’information sur p que la seule valeur T = t. On a :
P (X1 = x1 , . . . , Xn = xn , T = t)
P (X1 = x1 , . . . , Xn = xn / T = t) =
P (T = t)
P
P (X1 = x1 , . . . , Xn = t − ni=1 xi )
=
P (T = t)
Rappelons que P (Xi = xi ) = pxi · (1 − p)1−xi , où xi ∈ {0; 1} et que T suit une loi binomiale
B(n, p). L’équation précédente s’écrit :
pt · (1 − p)n−t
P (X1 = x1 , . . . , Xn = xn / T = t) =
n t
p · (1 − p)n−t
t
1
= indépendant de p.
n
t
12
n
X
La statistique Xi est donc exhaustive.
i=1
n
On pourrait avoir l’intuition de ce résultat, sachant que est le nombre de choix de t
t
indices i vérifiant xi = 1.
Théorème 6 (Neyman-Fisher) Soit X une v.a. de densité f (x; θ). Une statistique
T (X1 , . . . , Xn ) est exhaustive s’il existe des applications g et h, positives et mesurables telles
que la vraisemblance s’écrit selon une factorisation non nécessairement unique :
Remarque 3 De nombreuses lois appartenant à une famille de lois dite exponentielle, que
nous ne définirons pas ici, admettent toutes des statistiques exhaustives.
Pn Il en est ainsi de la
1
statistique définissant l’estimateur classique de la moyenne X = n i=1 Xi , pour la loi bino-
miale, pour la loi de Poisson ou pour la loi gaussienne. Par contre, ni la loi de Cauchy de
1
densité π(1+x 2 ) , ni la loi uniforme sur un segment, n’admettent de statistique exhaustive.
En pratique, on recherche des statistiques exhaustives conduisant à des estimateurs sans biais
et de variance minimale.
– les intervalles de confiance bilatéraux symétrique [θ1 , θ2 ] désormais unique puisque P(θ <
θ1 ) = P(θ > θ2 ) = α/2 ; ces intervalles standard conviennent parfaitement au cas où la
loi de l’estimateur θb est symétrique (Normale, Student,...), mais ils conviennent aussi de
façon générale.
13
– les intervalles unilatéraux à gauche ] − ∞, θ1 ], ou à droite [θ2 , +∞[ qui conviennent à
des situations spécifiques ; par exemple, s’il s’agit d’estimer la proportion p de pièces
défectueuses d’un lot, on cherche à borner supérieurement p, donc p 6 p1 : dans ce cas
P(p 6 p1 ) = 1 − α.
2
En outre X ∼ N (m, σn ) et donc que X−m
√
σ/ n
∼ N (0, 1).
Si U suit une loi N (0, 1), alors pour tout α, 0 < α < 1, il existe un réel positif, noté u1−α/2 , tel
que :
P −u1−α/2 6 U 6 u1−α/2 = 1 − α . (1.1)
X−m
La v.a. √
σ/ n
étant une v.a. N (0; 1), (1.1) s’écrit :
X−m σ σ
P −u1−α/2 6 √ 6 u1−α/2 = P m − u1−α/2 √ 6 X 6 m + u1−α/2 √
σ/ n n n
σ σ
= P X − u1−α/2 √ 6 m 6 X + u1−α/2 √ .
n n
Définition 13 On appelle fractile ou quantile d’ordre q (q∈ [0, 1]) de la v.a. X la valeur xq
telle que P(X 6 xq ) = q. On désignera par uq le fractile d’ordre q de la v.a. N (0, 1)
14
Définition 14 On appelle intervalle de confiance de la moyenne m d’une population gaus-
sienne N (m, σ 2), où σ est connu, l’intervalle :
n
σ σ 1X
Iα = x − u1−α/2 √ ; x + u1−α/2 √ où x = xi .
n n n i=1
Théorème 7 α1 > α2 =⇒ Iα1 ⊂ Iα2 , donc plus la confiance exigée est grande, plus l’inter-
valle de confiance est grand.
Si l’on veut réduire l’amplitude de l’intervalle de confiance Iα dans un rapport k, il faut multi-
plier la taille de l’échantillon par k 2 .
Illustration numérique : σ 2 = 4, α = 5, x = 8. On a :
Rappels :
(A) La loi
P du chi-deux à p degrés de liberté, noté χ2p , est la loi de la somme
p
χ2p = i=1 Ui2 , où les Ui sont iid N (0; 1).
IE(χ2p ) = p, Var χ2p = 2p.
χ2p −p p √
La densité du χ2p est celle de la loi Γ( p2 ; 21 ) ; les v.a. √
2p
et 2χ2p − 2p − 1 convergent
en loi vers N (0; 1), quand p tend vers +∞.
P
Théorème 8 Soit l’échantillon (X1 , . . . , Xn ) de loi N (m; σ 2), X = n1 ni=1 Xi la moyenne
2 1
Pn 2
empirique et Sn−1 = n−1 i=1 (Xi − X) la variance empirique de l’échantillon :
2
(a) X et Sn−1 sont indépendantes.
2
(b) X ∼ N (m, σn ).
2
(n−1)Sn−1
(c) σ2
∼ χ2n−1 .
15
Théorème 9 Soient deux échantillons indépendants (Ui )i=1,...,p et (Vj )j=1,...,q de loi N (0; 1)
p q
X X
2
2
et χp = 2
Ui , χq = Vj2 .
i=1 j=1
Théorème 10 Quand p tend vers +∞, Tp converge en loi vers N (0; 1).
16
Preuve La construction de l’I.C. est analogue
√ X−m au cas précédent : cette fois on utilise la loi de
probabilité de la variable aléatoire T = n( sn−1 ) qui suit une loi de Student lorsque les v.a. Xi
sont indépendantes et de loi normale.
17
3.2.3 Cas de grands échantillons (n > 30)
Théorème 12 L’intervalle de confiance symétrique Iα est défini, quelle que soit la den-
sité de la v.a. X, par :
sn−1 sn−1
Iα = x − u1−α/2 √ ; x + u1−α/2 √
n n
√ L
Preuve On utilise le théorème central limite n X−m
sn−1
−→ N (0; 1).
n→+∞
R
On sait que R suit une loi binomiale B(n; p) et que n
est un estimateur sans biais du pa-
ramètre p.
18
r r
2. Méthode par approximation : on approche p (1 − p) par n
1− n
et on obtient l’ICα :
q
r r(n−r)
p ∈ ICα = ± u1−α/2 n3
n
L’intervalle fourni par cette méthode est évidemment, moins précis que le précédent, mais
converge vers celui-ci quand n → +∞. Cette méthode n’est valide que si : 0.1 < nr < 0.9.
On peut construire des intervalles de confiance unilatéraux obtenus par la même d’approxi-
mation gaussienne : q
- intervalle unilatéral à droite : [ n − uα r(n−r)
r
n3
; 1]
q
- intervalle unilatéral à gauche : [0; n + uα r(n−r)
r
n3
]
On pourra utiliser la table de la loi binomiale (en fin d’ouvrage) de paramètre p correspondant.
Le risque de se tromper, en affirmant que l’intervalle [p1 ; p2 ] contient la vraie valeur p, est
alors au plus égal à α. D’où l’intervalle de confiance :
p ∈ ICα = [p1 ; p2 ]
19
Exercice 11 : Intervalle de confiance unilatéral
A la sortie d’une chaîne de montage, 20 véhicules automobiles tirés au sort sont testés
de façon approfondie. Sachant que deux d’entre eux présentent des défauts graves et doivent
repasser dans la chaîne, construire un intervalle de confiance unilatéral de la forme p < C de
niveau 0,95 pour la proportion p de véhicules défectueux, par la méthode par approximation.
Exercice 12
Afin d’établir le profil statistique de certains malades d’un hôpital, on prélève au hasard et
avec remise 100 dossiers médicaux. Malheureusement, on constate qu’une proportion p d’entre
eux sont incomplets et donc inexploitables. Si on considère qu’il faut pouvoir exploiter au moins
1000 dossiers, combien faudra-t-il en prélever pour que cette condition soit réalisée avec une
probabilité égale à 0,95 ?
θbn − θ L
De plus, on sait que p −→ N (0; 1) quand n → +∞. Ceci nous permet de construire
Vn (θ) n→+∞
un intervalle de confiance asymptotique de niveau de signification égal à α, à partir de :
p p
ICα = [θbn − uα/2 Vn (θ); θbn + uα/2 Vn (θ)]
3.4.2 Application
Il s’agit d’estimer le paramètre a d’une loi exponentielle décalé par translation de deux
unités.
20
n
1 1 1X
On trouve que l’E.M.V. est abn = n = où T = Ti . Construisons l’ICα du
X Ti − 2 T −2 n i=1
i=1
n
paramètre a de niveau de confiance 1 − α.
1
−a √
abn − a T − 2 n √
p = a = − n,
Vn (a) √ a T −2
n
d’où : " √ √ #
n n
ICα = √ ; √ .
t−2 u1−α/2 + n t − 2 −u1−α/2 + n
Exercice 13
Un atelier produit des composants électroniques dont la durée de vie est décrite par la
x2
variable aléatoire X, de densité de Weibull f (x) = θ2 xe− θ pour tout x > 0, où θ est un
paramètre inconnu, strictement positif.
1) Déterminer l’estimateur du maximum de vraisemblance θbn de θ, associé à l’échantillon
(X1 , . . . , Xn ).
2) Démontrer qu’il est sans biais et convergent.
3) Supposons que n est grand (supérieur à 50), démontrer que la v.a θbn est de loi normale, de
2
moyenne θ et de variance θn .
4) En déduire un intervalle de confiance de θ, au niveau de confiance fixé à 95%. Application
numérique : n = 1000, θb1000 = 3.
21
Chapitre 2
Tests d’hypothèse
1 Principes généraux
1.1 Exemple introductif : le "test binomial"
Problème posé lors d’un contrôle de fabrication : une machine fabrique des pièces de telle
sorte que chaque pièce peut être défectueuse avec la probabilité p, indépendamment de la qua-
lité des autres. Le paramètre p est inconnu et peut varier car la machine peut se dérégler au
cours du temps. On souhaite donc intervenir assez rapidement quand la machine se dérègle. On
admet que la machine fonctionne de façon satisfaisante tant que p ≤ p0 (où p0 est une valeur
fixée par des normes techniques), mais doit être révisée si p > p0 .
Le paramètre p étant inconnu, au moment où l’on veut contrôler la machine, il faut donc à
partir d’un échantillon de taille n définir une règle de décision qui nous permette de choisir H0
ou H1 . On prélève au hasard n pièces et on définit la v.a. Xi par :
1 si la ième pièce est défectueuse avec la probabilité P(Xi =1) = p ;
Xi =
0 si la ième pièce est bonne avec avec la probabilité P(Xi =0) = q = 1 − p
Règle de décision Tester l’hypothèse H0 contre l’hypothèse H1 , c’est adopter une règle de
décision qui tienne compte des résultats fournis par l’échantillon. Dans notre cas, on décidera
de rejeter H0 si le nombre observé r de pièces défectueuses est trop grand.
De manière plus précise, "on décide de rejeter H0 si R ≥ r0 ", où r0 est un nombre à dé-
terminer.
22
Dans le cas contraire, si R < r0 , on ne rejette pas l’hypothèse H0 et aucun réglage ne sera fait
sur la machine.
- Le risque de rejeter H0 alors qu’elle est vraie ; il s’agit du risque de trouver dans un échantillon
de taille n un nombre r de pièces défectueuses supérieur à r0 alors que la machine fonctionne
correctement (c’est-à-dire : p ≤ p0 ).
Ce risque est appelé risque de première espèce.
- Le risque de ne pas rejeter H0 alors que H1 est vraie ; il s’agit du risque de trouver dans
un échantillon de taille n un nombre r de pièces défectueuses inférieur à r0 alors que la machine
est déréglée (p > p0 ).
Ce risque est appelé risque de deuxième espèce et correspond au risque de ne pas régler la
machine alors qu’elle est déréglée, ce qui n’est pas sans gravité.
∀p > p0 , P(ne pas rejeter H0 alors que H1 est vraie) = 1 − α(p), désigné aussi par β(p).
- n = 20 et r0 = 2
- n = 20 et r0 = 3
- n = 40 et r0 = 2
23
Les calculs sont donnés dans le tableau numérique suivant et on peut faire quelques re-
marques :
- on diminue un risque d’erreur pour augmenter l’autre quand on fait varier r0 (n égal à 20)
- on augmente la puissance (α(p) pour p > p0 ) si on augmente n (r0 étant égal à 3).
Exemple 4 Soit un échantillon (X1 , ..., Xn ) dont on ignore la loi commune ; dans ce cas, P
sera l’ensemble de toutes les lois possibles.
En pratique, on est confronté à des hypothèses moins générales, portant seulement sur les
paramètres inconnus de lois connues.
Définition 16 On dit qu’une hypothèse est paramétrique si la loi de (X1 , ..., Xn ) est connue,
mais dépend d’un paramètre θ inconnu, scalaire ou vectoriel.
Exemple 5 Soit un échantillon (X1 , ..., Xn ) de loi commune gaussienne, Xi ∼ N(µ, σ 2 = 3).
La famille P de lois de probabilités de (X1 , ..., Xn ) est donc connue au paramètre µ près.
Les hypothèses paramétriques sont décrites par des égalités ou des inégalités.
24
Définition 17 Une hypothèse paramétrique est dite simple si une seule valeur de θ est testée,
par exemple µ = 1. Dans le cas contraire, elle est dite composite ou multiple.
Test d’hypothèses :
Réalité
H0 vraie H1 vraie
Décision H0 vraie 1−α β = P(accepter H0 à tort)
retenue H1 vraie α = P(rejeter H0 à tort) 1−β = η
Lorsqu’on est en présence d’un tel test, on cherche à minimiser les risques de première et seconde
espèces. Auparavant, il faut construire une règle de décision qui va nous permettre de choisir
entre H0 et H1 . Cette règle de décision est très importante puisqu’elle va induire la forme du
calcul de α et de β. Pour minimiser ces deux valeurs, il faut donc jouer sur cette règle de
décision. Nous verrons plus loin qu’il n’est pas possible de diminuer simultanément les risques
de première espèce et de deuxième espèce, qui varient en sens inverse.
Définition 20 On appelle statistique du test une statistique φ(X1 , ..., Xn ) dont la valeur
observée φ(x1 , ..., xn ) permettra de décider ou non le rejet de H0 .
Définition 21 On appelle région critique du test l’ensemble W des observations (x1 , ..., xn )
conduisant au rejet de H0 :
25
Remarque 4 Si on rejette H0 , c’est qu’au vu des observations il est improbable que H0 soit
vraie ; mais si on décide d’accepter H0 , cela ne signifie pas que H0 soit vraie. Généralement, H0
est une hypothèse solidement étayée, qui est vraisemblable. La valeur de α sera prise d’autant
plus petite que la gravité conséquente au risque de première espèce est grande.
Soit X une v.a de densité f (., θ), où θ ∈ R est le paramètre inconnu. On note L(x, θ) (où :
x = (x1 , ..., xn )) la vraisemblance de l’échantillon (X1 , ..., Xn ).
α = P(rejeter H0 / θ = θ0 ) ;
β = P(ne pas rejeter H0 / θ = θ1 ).
L(x, θ1 )
on rejette H0 si > λα
L(x, θ0 )
où L(x, θi ) est la vraisemblance da la variable aléatoire X sous θi et λα une constante qui
dépend du niveau α du test.
Ce test est plus puissant que tout autre test, pour un seuil donné. Il est dit uniformément
le plus puissant (U.M.P).
Pour mettre en pratique ce théorème, l’idée est de procéder par équivalences successives : on
fait passer dans le membre de droite de l’inégalité tout ce qui dépend de θ0 et de θ1 ; il ne
reste alors plus à gauche qu’une fonction des observations seules : g(x). La v.a g(X) est appelée
statistique de test.
1. L’ensemble des résultats qui vont suivre sont aussi valables dans le cas où la règle de décision
nous fournit l’inégalité dans l’autre sens.
26
2. La loi de Tn = g(X) dépend du paramètre θ. Soit h(x; θ) la densité de Tn . "Sous H0 "
veut alors dire que nous prenons comme densité pour Tn , la densité h(x; θ0 ).
– Soit nous connaissons la loi de Tn = g(X1 , ..., Xn ) sous H0 et la forme explicite de l’inverse
de sa fonction de répartition FTn . L’équation (2.1) s’écrit alors :
FTn (πα ) = α ⇒ πα = FT−1 n
(α) .
– Soit nous connaissons la loi de Tn = g(X1 , ..., Xn ) sous H0 et nous possédons la table de
cette loi : on se reporte alors à la fiche technique sur les tables de lois pour voir comment
calculer la valeur de πα en fonction de α ;
– Soit nous ne connaissons pas la loi de Tn = g(X1, ..., Xn ) : dans ce cas, nous allons utiliser,
quand ce sera possible, l’approximation de la loi normale qui découle du théorème de la
limite centrale. Pour cela, il faut que la statistique Tn s’écrive sous la forme d’une somme
de v.a indépendantes de même loi et de variance finie.
Nous savons d’après le tableau de départ des risques de première et de seconde espèces que :
Supposons que la règle de décision de Neyman et Pearson nous ait fourni l’équivalence suivante :
On a l’égalité suivante :
Soit une population gaussienne dont on connaît la variance σ 2 = 16, mais dont la moyenne
m est inconnue. Supposons que l’on ait de très bonnes raisons de penser que la moyenne m
est égale à 20, mais qu’il n’est pas impossible qu’elle soit égale à 22. On fait alors les deux
hypothèses suivantes :
Hypothèse H0 : m = m0 =20 ;
Hypothèse H1 : m = m1 =22
27
H0 et H1 sont données par :
25
Y
L0 ((x) sachant que m = m0 = 20) = f (xi ; 20)
i=1
25
Y
L1 ((x) sachant que m = m1 = 22) = f (xi ; 22)
i=1
⇐⇒ Pn (xi −20)2
> λα
1
(2π)n/2 σn
e− i=1 2σ 2
σ2 m0 + m1
⇐⇒ x> log λα + ≡ πα .
n(m1 − m0 ) 2
déf
Risque de première espèce : α = P(choisirH1 /H0 vraie)
= P(X > πα /Xde loi N(20; 16/25));
déf
Risque de deuxième espèce : β = P(choisirH0 /H1 vraie)
= P(X ≤ πα /Xde loi N(22; 16/25)).
28
Pour déterminer la région critique, donnons à α une valeur, par exemple 5%. On a donc :
X − 20 π5% − 20
5% = P (X > π5% /m = 20) = P >
0, 8 0, 8
Nous pouvons maintenant faire le choix de l’hypothèse H0 ou H1 avec notre règle de déci-
sion. Comme x̄ = 20,7 est inférieur à π5% , on décide d’accepter H0 : m = 20.
Pour conclure l’étude de cet exemple, il reste à calculer le risque de deuxième espèce β. Nous
avons par définition :
X − 22 21, 32 − 22
β = P (X ≤ π5% /m = 22) = P ≤
0, 8 0, 8
= P (N(0; 1) ≤ −0, 85) = 1 − P (N(0; 1) > −0, 85)
= 0, 197.
En conclusion, le risque d’avoir choisi H0 alors que H1 est vraie est égal à 19,7%. La puissance
η du test (η = 1 − β) est donc de l’ordre de 80 %.
29
Calculer la taille d’échantillon minimum n0 pour que la puissance soit supérieure à 0,90.
Quelle est alors sa région critique ?
Exercice 15
Soit X la variable aléatoire associée à la durée de fonctionnement d’un composant électro-
nique ; X est une variable de Weibull :
- de densité f (x; θ, λ) = (λ/θ).xλ−1 exp{(−1/θ) xλ }, ∀x ≥ 0
- de fonction de répartition F (x; θ, λ) = 1 − exp{(−1/θ) xλ }
Que peut-on dire de l’erreur de deuxième expèce β ? Elle dépend de la valeur réelle de m :
30
On conçoit aisément que plus la valeur de m est grande, moins on a de chances de décider H0
et plus β est petit.
Généralement, soit X une v.a de densité f (x, θ) où θ ∈ R est inconnu. On veut tester :
H0 : θ = θ0 ;
H1 : θ ∈ Θ1 , sous ensemble de R, qui ne contient évidemment pas θ0 .
Définition 22 On appelle :
– 1er cas : le test obtenu ne dépend pas de la valeur θ1 choisie dans Θ1 : il est alors U.M.P.
– 2ème cas : le test dépend du choix de θ1 : il n’existe pas de test optimal et le choix du
test fera une large place à l’intuition.
Exercice 16
(suite du test présenté comme exemple au début du chapitre 2.1.4)
Déterminer les valeurs de β dans le cas des diverses valeurs de m (22, 24, 26, 28), et tra-
cer le graphe de la fonction m → β(m).
31
Poursuivons l’étude de l’exemple précédent dans le cas où H1 : m 6= 20, avec un risque α = 4%.
] − ∞; 18, 36]
On accepte H0 si 18, 36 < x̄ < 21, 64 avec un risque α = 4%. La région d’acceptation de H0
est donc égale à l’intersection des régions d’acceptation de chacun des deux tests. Le risque de
seconde espèce β dépend de la valeur de m : le test n’est donc pas U.M.P. (voir Exercice 16).
Un des problèmes constants du traitement du signal est d’identifier la présence d’un signal
dans du bruit. Pour cela, on utilise une statistique de test appelée détecteur. On suppose ici
que les observations suivent le modèle :
Xj = θsj + Zj , j = 1, . . . , n
où θ ≥ 0, les sj sont des réels connus et les Zj sont des v.a indépendantes de même loi centrée
de variance σ 2 connue et de densité f positive et dérivable sur R.
On veut tester l’hypothèse H0 : θ = 0 (absence de signal) contre H1 : θ > 0 (présence de signal).
On note L(x1 , . . . , xn ; θ) la vraisemblance calculée sous l’hypothèse H1 et
L0 (x1 , . . . , xn ) celle calculée sous H0 . On appelle détecteur localement optimal le détecteur
caractérisé par la règle suivante faisant intervenir la dérivée logarithmique de L(x; θ) :
∂L(x1 ,...,xn ;θ)
∂θ
|θ=0
on rejette H0 si > πα
L0 (x1 , . . . , xn )
où Cα dépend de la probabilité de fausse alarme α.
1. Caractériser le détecteur localement optimal en fonction des V.A.R.
f ′ (Xj )
− , j = 1, . . . , n. Pour cela, on remarquera que les Xi sont
f (Xj )
indépendantes et que leur densité est la fonction x → f (x − θsj ).
2. Préciser ce détecteur dans le cas où les Zj sont gaussiennes N(0; σ 2 ).
3. A l’aide du théorème de Neyman et Pearson, caractériser le détecteur le plus puissant du
test H0 : θ = 0 contre H1′ : θ = θ1 > 0 dans le cas gaussien ci-dessus. En déduire l’expres-
sion du test uniformément le plus puissant pour tester H0 contre H1 . Que constate-t-on ?
32
Exercice 18
(cf : ouvrage précédemment cité)
En traitement du signal (modèles sismiques, radars, . . .), on constate un intérêt croissant pour
les modèles multiplicatifs du type
Xj = (1 + θsj )Yj , j = 1, . . . , n
où les Xj sont les observations, (sj )j≥1 est une suite de réels connus, θ ≥ 0 est un paramètre
positif inconnu, pour tout j, 1 + θsj > 0 et Yj représente un bruit, qualifié ici de multiplicatif.
On suppose que les Yj sont des V.A.R. indépendantes et de même loi de densité f , dérivable
sur R.
On veut tester l’hypothèse :
H0 : θ = 0 contre H1 : θ > 0
33
Exercice 19 : Problème d’extinction d’une population ; capture et recapture
(extrait de l’ouvrage précédemment cité)
On souhaite estimer le nombre N de poissons d’une espèce donnée vivant dans un lac. Pour
cela, on effectue une première capture de n poissons que l’on bague et que l’on remet dans
l’étang.
Une semaine plus tard, on capture à nouveau n poissons. On note K la V.A.R. qui repré-
sente le nombre de poissons bagués recapturés. On suppose que ces recaptures sont effectuées
avec remise (autrement dit que la proportion de poissons bagués reste constante pendant la
recapture).
1. Quelle est la loi de la v.a K ?
2. en déduire que K/n est une estimateur de n/N. En déduire un estimateur Tn de 1/N.
Calculer son espérance et sa variance. Proposer enfin un estimateur de N. On supposera
que N est suffisamment grand pour que K n’ait aucune chance d’être nul.
3. On décide de n’ouvrir la pêche à cet endroit qu’en étant à peu près sûr que le nombre de
poissons présents est au moins égal à 1000.
Pour cela, on souhaite effectuer un test de niveau α = 5% (risque de première espèce)
permettant de tester les hypothèses :
Ecrire un problème équivalent portant sur 1/N. Montrer que Tn peut être utilisée comme
statistique de test avec comme règle de décision :
on rejette H0 si Tn > uα
où P(Tn > uα ) = 5%. Utiliser une approximation normale de la loi binomiale pour calculer
la valeur critique uα .
4. Montrer que :
(N − n)1/2 1
uα = t0,95 + , N = 1000
nN N
où t0,95 est le quartile d’ordre 0,95 de la loi normale N(0; 1).
34
α(θ) = P(rejeter H0 / θ ∈ Θ0 ) erreur de 1ère espèce ,
β(θ) = P(ne pas rejeter H0 / θ ∈ Θ1 ) erreur de 2ème espèce.
Il est difficile dans le cas général de déterminer le test optimal. Dans la plupart des cas usuels,
on testera une hypothèse simple (H0 ) contre une hypothèse simple ou multiple (H1 ).
Le lecteur se reportera aux rappels (du paragraphe 3.2.1 du chapitre précédent) sur les proprié-
tés des v.a X, S 2 , omniprésentes dans ce qui suit.
35
On construit donc les tests suivants, appelés tests de Student, dans chacun des cas suivants
(au seuil α) :
er H0 : µ = µ 0
1 cas : le test unilatéral pour tester est défini par la règle de décision sui-
H> : µ > µ 0
vante :
√
n (X − µ0 )
on rejette H0 ssi > tn−1; α
S
H0 : µ 6 µ 0
Ce test est également utilisé pour tester
H> : µ > µ 0
ème H0 : µ = µ 0
2 cas : le test unilatéral pour tester est défini par la règle de décision
H< : µ < µ 0
suivante :
√
n (X − µ0 )
on rejette H0 ssi < −tn−1; α
S
H0 : µ > µ 0
Ce test est également utilisé pour tester
H< : µ < µ 0
ème H0 : µ = µ 0
3 cas : le test bilatéral pour tester est défini par la règle de décision suivante :
H6= : µ 6= µ0
√
n X − µ0
on rejette H0 ssi > tn−1; α
S 2
Remarque 7 Les tests de Student restent encore "valables" quand n est au moins
de l’ordre de la trentaine , même si l’hypothèse de normalité n’est pas vérifiée.
36
1. On résout ce problème de test par la méthode de Neyman-Pearson. On dispose donc de
l’estimateur de la moyenne X. Déterminer la région critique.
2. Dans le cas où n = 100 et α = 0, 05 , calculer la puissance de ce test. Qu’en concluez-vous ?
3. Quelle doit être la taille d’échantillon minimum n0 pour que la puissance soit égale à
0,95 ?
Tester cette hypothèse sur la base d’un échantillon de 100 bobines de fil fournissant comme
résultats une moyenne empirique x = 305 et un écart-type empirique s100 = 22.
2.2.1.2 Comparaison de la variance σ 2 à une valeur donnée σ0 2
37
n
1 X
on rejette H0 ssi (Xi − X)2 > χ2n−1; α
σ0 2 i=1
ème H0 : σ = σ0
– 2 cas : le test unilatéral pour tester est défini par la règle de décision
Hσ< : σ < σ0
suivante :
n
1 X
on rejette H0 ssi (Xi − X)2 < χ2n−1; 1−α
σ0 2 i=1
ème H0 : σ = σ0
– 3 cas : le test bilatéral pour tester est défini par la règle de décision
Hσ6= : σ 6= σ0
suivante :
n n
1 X 1 X
on rejette H0 ssi (Xi −X)2 < χ2n−1; 1− α ou (Xi −X)2 > χ2n−1; α
σ0 2 i=1 2 σ0 2 i=1 2
où χn−1;α , χn−1;1−α , χn−1;α/2 et χn−1;1−α/2 représentent les fractiles de la loi du chi-deux à (n−1)
d.d.l. d’ordre 1 − α, α, 1 − α/2 et α/2.
38
Exercice 24
Une boisson gazeuse, mise en vente au public depuis plusieurs mois, a procuré par quinzaine
un chiffre d’affaires de loi normale d’espérance 157 000 euros et d’écart-type 19 000 euros. Une
campagne publicitaire est alors décidée.
La moyenne des ventes des huit quinzaines suivant la fin de la promotion est 165 000 euros. On
admet que l’écart-type reste constant.
La campagne publicitaire a-t-elle permis d’accroître le niveau moyen des ventes de 10 % ?
2.2.1.3 Tests sur les proportions
Il s’agit de tester la valeur inconnue de la probabilité p d’un événement A, contre une va-
leur p0 . Pour ce faire, on dispose d’un échantillon de longueur n ayant donné k réalisations de
A : k/n est donc l’estimation de p. Considérons les trois tests asymptotiques :
( )
k − np0
H0 : p 6 p0 contre H1 : p > p0 ; Wα = p > uα
np0 (1 − p0 )
( )
k − np0
H0 : p > p0 contre H1 : p < p0 ; Wα = p < −uα
np0 (1 − p0 )
( )
k − np0
H0 : p = p0 contre H1 : p 6= p0 ; Wα = p > uα/2
np0 (1 − p0 )
Exercice 25
Un généticien veut comparer les proportions p de naissances masculines et 1 − p de nais-
sances féminines à l’aide d’un échantillon de n = 900 naissances où on a observé 470 garçons.
Il considère donc
le test suivant :
H0 : p = 0, 5
H1 : p = 0, 48
1. Quelle est la conclusion sur cet échantillon et pourquoi le généticien est-il peu satisfait de
ce test ? (on choisit α = 10%)
2. Il décide alors
d’effectuer le test :
H0 : p = 0, 5
H1 : p 6= 0, 5
Quelle est alors sa conclusion ?
39
2.2 Tests de comparaison de deux paramètres issus de populations
distinctes
On considère deux échantillons extraits de deux populations normales distinctes :
(X1 , . . . , Xn ) un échantillon de taille n1 de v.a de loi N(µ1 ; σ12 )
(Y1 , . . . , Yn ) un échantillon de taille n2 de v.a de loi N(µ2 ; σ22 )
Notations
On pose :
n1 n1
1 X 2 1 X
X= Xi ; S X = (Xi − X)2 , et
n1 i=1 n1 − 1 i=1
n2 n2
1 X 2 1 X
Y = Y i ; SY = (Yi − Y )2
n2 i=1 n2 − 1 i=1
Compte tenu des hypothèses précédentes, on sait que la loi de :
2
SX /σ12
est une loi de Fisher à (n1 − 1) et (n2 − 1) d.d.l.
SY2 /σ22
(X − µ1 ) − (Y − µ2 )
q 2 est une loi normale centrée réduite N(0; 1).
σ1 σ22
n1
+ n2
On souhaite tester l’hypothèse H0 : σ12 = σ22 contre une hypothèse alternative H1 , de type
inégalité.
2
Quand H0 est vraie, la statistique (SX 2
/σ12 )/(SY2 /σ22 ) = SX /SY2 suit une loi de Fisher à (n1 − 1)
40
et (n2 − 1) d.d.l.
2
SX
on rejette H0 ssi > fn1 −1;n2 −1; α
SY2
ème H0 : σ12 = σ22
– 2 cas : le test unilatéral pour tester est défini par la règle de décision
H2,1 : σ12 < σ22
suivante :
SY2
on rejette H0 ssi 2
> fn2 −1;n1 −1; α
SX
ème H0 : σ12 = σ22
– 3 cas : le test bilatéral pour tester est défini par la règle de décision
H6= : σ12 6= σ22
suivante :
2
SX SY2
on rejette H0 ssi > fn −1;n −1; α ou > fn2 −1;n1 −1; α2
SY2 1 2 2 2
SX
où fk;l;α, fn1 −1;n2 −1;α/2 représentent les fractiles de la loi de Fisher-Snedecor à k et l d.d.l. d’ordre
1 − α et 1 − α/2.
41
qui suit une loi de Student à (n1 + n2 − 2) d.d.l. quand H0 est vraie (voir rappels du paragraphe
3.2.1)
X −Y
on rejette H0 ssi q > tn1 +n2 −2; α
S0 n11 + 1
n2
H0 : µ 1 = µ 2
– 2ème cas : le test unilatéral pour tester
H< : µ 1 < µ 2
est défini par la règle de décision suivante :
X −Y
on rejette H0 ssi q < −tn1 +n2 −2; α
S0 n11 + 1
n2
ème H0 : µ 1 = µ 2
– 3 cas : le test bilatéral pour tester
H6= : µ1 6= µ2
est défini par la règle de décision suivante :
|X − Y |
on rejette H0 ssi q > tn1 +n2 −2; α/2
S0 n11 + n12
où tn1 +n2 −2;α et tn+1+n2 −2;α/2 représentent les fractiles de la loi de Student à (n1 + n2 − 2) d.d.l.
d’ordre 1 − α et 1 − α/2.
Dans le cas où le test de comparaison de variances conclut à l’inégalité des variances, la loi
de probabilité de la statistique de test dépend alors des paramètres σ1 et σ2 inconnus, ce qui
ne permet pas de déterminer un test de seuil α.
Seul le cas de "grands" échantillons (n > 30) nous permet de donner une réponse à ce problème.
On construit les tests suivants, de seuil asymptotiquement égal à α en utilisant la convergence
en loi de :
X − Y − (µ1 − µ2 )
q 2 vers la loi N(0; 1).
SX SY2
n1
+ n2
42
H0 : µ 1 = µ 2
Par exemple, le test unilatéral pour tester
H1 : µ 1 > µ 2
est défini par la règle de décision suivante :
X −Y
on rejette H0 ssi q 2 > zα
SX SY2
n1
+ n2
H0 : µ 1 = µ 2
Le test bilatéral pour tester
H1 : µ1 6= µ2
est défini par la règle de décision suivante :
|X − Y |
on rejette H0 ssi q 2 > zα/2
SX SY2
n1
+ n2
Exercice 26
Le propriétaire d’un magasin d’alimentation constate que son chiffre d’affaires, supposé
suivre une loi normale, baisse depuis l’installation à proximité, d’un hypermarché. Pour savoir
si cette baisse est significative, il a relevé le montant hebdomadaire de ses ventes xi durant les
vingt semaines précédant l’ouverture de cet hypermarché (1 6 i 6 20) et yi pendant les trente-
deux semaines après l’ouverture
P (1 6 j 6 32). Que
P32peut-on conclure à partir des observations
2 2
x = 33, 8 ; y = 30, 9 ; i=120 (xi − x) = 763 et j=1 (yi − y) = 875 ?
Exercice 27
Une usine élabore une pâte de verre dont la température de ramollissement X est supposée
suivre une loi normale.
1. A six mois d’intervalle, deux séries d’observations sont réalisées et les moyennes et écart-
types empiriques sont les suivants :
n1 = 41; x1 = 785; s1 = 1, 68; n2 = 61; x2 = 788; s2 = 1, 40
Les productions sont-elles identiques ? On comparera les variances, puis les moyennes au
risque α = 5%.
2. Même question avec :
n1 = 9; x1 = 2510; s1 = 15, 9; n2 = 21; x2 = 2492; s2 = 24, 5
Exercice 28
Soient deux populations d’individus dont certaines présentent une caractéristique donnée
(par exemple : pièce défectueuse) dans les proportions p1 et p2 inconnues. On prélève n1 in-
dividus dans la population (1) et n2 dans la population (2) ; soient Xi (i = 1, 2) les nombres
aléatoires d’individus présentant la caractéristique.
43
1. Déterminer la loi exacte de Xi .
2. Sous l’hypothèse qui garantit l’approximation gaussienne (i = 1, 2 : ni pi > 5 et ni (1 −
pi ) > 5, démontrer que si H0 : p1 = p2 = p est vraie, la v.a (X1 /n1 − X2 /n2 ) est
N(0, σ 2 = p (1 − p)(1/n1 + 1/n2 )).
3. Approcher p inconnu par une estimation p̂ satisfaisante.
4. Construire la région de confiance du test : H0 : p1 = p2 = p contre H1 : p1 6= p2 .
5. Construire la région de confiance du test : H0 : p1 6 p2 contre H1 : p1 > p2 .
6. Application : n1 = 30, n2 = 40, X1 = 5, X2 = 8.
Le test du chi-deux appartient à la classe des tests qui ne concernent pas la valeur d’un para-
mètre inconnu, appelés tests non-paramétriques. Le test du chi-deux est un test d’ajustement
qui permet de déterminer si les observations d’une population donnée vérifient une loi postulée
(normale, exponentielle, ...).
Xk Xk
(xi − npi )2 (Xi − npi )2
kn = , qui est l′ observation de la v.a Kn =
i=1
npi i=1
npi
La v.a Kn ne suit pas une loi de probabilité usuelle, par contre on connaît sa loi asympto-
tique, lorsque n atteint de grandes valeurs.
44
Théorème 14 Quand (X1 , . . . , Xk ) suit une loi multinomiale (n; p1 , . . . , pk ), la loi de Kn
tend vers une loi du χ2 à (k − 1) d.d.l. quand n → ∞.
Remarque 8 En pratique, il faudra toujours s’assurer que pour tout i, les valeurs de chaque
npi dépassent 5, pour pouvoir approcher la loi de Kn par la loi χ2 (k − 1).
Xk
(Xi − npi )2
on rejette H0 ssi Kn = > χ2k−1; α
i=1
np i
Intuitivement, cette règle de décision revient donc à rejeter H0 si l’écart (ou distance) entre la
valeur observée xi et la valeur espérée npi lorsque H0 est vraie, est trop "grand".
Remarque 9 1. Il est important de souligner que, dans les exemples étudiés, on cherchera
à ne pas rejeter H0 . Ce raisonnement inhabituel nécessite un test de puissance forte et
donc une probabilité du risque de 2ème espèce, P(ne pas rejeter H0 /H1 vraie), faible.
Toutefois, il est difficile de calculer la puissance qui dépend de la loi de Kn , inconnue
quand H1 est vraie.
45
2. Dans un certain nombre de situations, l’hypothèse H0 sera composée, par exemple :
H0 : (X1 , . . . , Xn ) v.a multinomiale (n; p1 (θ), . . . , pn (θ)),
H1 : non H0 ,
où θ est un paramètre inconnu de dimension l : θ = (θ1 , . . . , θl ). Dans ce cas, on estime,
par exemple, θ à l’aide de l’E.M.V. θ̂ = (θˆ1 , . . . , θ̂l ) et on a le résultat suivant :
3. Lorsque le nombre ν de d.d.l. d’une loi de χ2 (ν) est grand, on peut approcher la loi de
χ2 (ν) par une loi normale N(ν, 2ν).
Exemple 7 On jette 100 fois un dé et on observe y1 , . . . , y100 les 100 numéros relevés sur la
face du dé, regroupés dans le tableau suivant :
face du dé observée 1 2 3 4 5 6
fréquence observée xi 15 18 15 17 16 19
Le dé est-il parfait ?
Soit
pi la probabilité d’observer la face i
H : p = 1/6, . . . , p = 1/6 ´(equiprobabilité des résultats : le dé est parfait).
0 1 6
H : non H
1 0
On cherche donc l’ "écart" kn entre les fréquences observées xi et les effectifs théoriques espérés
si H0 est vraie. On a :
k
X 6
X 100 2
(xi − npi )2 (xi − 6
)
kn = = 100 = 0, 81
i=1
npi i=1 6
Si on cherche à conclure au risque α = 5%, on lit sur la table : χ25; 5% = 11, 07. Comme
kn < χ25; 5% , on ne rejette pas l’hypothèse H0 , c’est-à-dire que l’on considère que le dé est par-
fait.
On ne peut pas calculer la puissance du test du chi-deuxcar l’hypothèse H1 n’est pas expli-
citée. Néanmoins, on peut remarquer que la valeur kn est très petite par rapport à la valeur du
χ25; 5% . On admet donc que le dé est parfait.
46
Cas général
Soit un échantillon (Y1 , . . . , Yn ) et L une loi de probabilité donnée sur R, de fonction de répar-
tition F , entièrement déterminée (sans paramètre inconnu). On veut soumettre au test du χ2
les hypothèses
:
H0 : la loi L est la loi commune aux v.a Yi ,
H1 : non H0 .
On se ramène aux résultats du paragraphe précédent en découpant R en k classes :
]−∞; a1 ], ]a1 ; a2 ], . . . , ]aj−1 ; aj ], . . . , ]ak−1;+∞ ]
Quand H0 est vraie, la probabilité qu’une observation yi appartienne à la j ème classe ]aj−1 ; aj ]
est :
pj = P(Yi ∈]aj−1 ; aj ]) = P(aj−1 < Y 6 aj ) = F (aj ) − F (aj−1 ).
Si on note Xj la v.a associée au nombre d’observations qui se trouvent dans la j ème classe
(j = 1, . . . , k), la règle de décision est :
Xk
(Xi − npi )2
on rejette H0 ssi Kn = > χk−1; α , où pi = F (ai ) − F (ai−1 )
i=1
np i
k
X (xi − npi (θ̂))2
on rejette H0 ssi > χk−l−1; α
i=1 npi (θ̂)
2. Il faut noter que la convergence en loi de la v.a Kn vers une loi de χ2 n’est valable que
si les quantités npi ne sont pas trop petites. En pratique, on constituera donc des classes
(et éventuellement on en regroupera certaines) de façon que l’effectif théorique npi soit
supérieur à 5.
Nombres xi de voitures 0 1 2 3 4 5 6 7 8 9 10 11
Fréquences observées ni 4 9 24 25 22 18 6 5 3 2 1 1
47
Tester l’adéquation de la loi empirique à une loi théorique simple pour un risque α = 0, 10 ,
par exemple la loi de Poisson si x ≃ s2x .
Exercice 30
A la sortie d’une chaîne de fabrication, on prélève toutes les trente minutes un lot de 20
pièces mécaniques et on contrôle le nombre de pièces défectueuses du lot. Sur 200 échantillons
indépendants, on a obtenu les résultats suivants :
Table de contingence
Dans la population étudiée, on prélève au hasard n individus et on note xij le nombre d’ob-
servations de la cellule (Ci ; Lj ), c’est-à-dire le nombre d’individus possèdant la ième modalité
de C et la j ème modalité de L, avec 1 6 i 6 c et 1 6 j 6 l. On dispose alors d’une table de
contingence dans laquelle chacun des n individus doit se retrouver dans une seule des l ×c cases.
effectifs observés
C1 ... Cj ... Cc Total
par couple de facteurs
L1 x11 ... x1j ... x1c x1•
.. .. .. .. ..
. . . . .
Li xi1 ... xij ... xic xi•
.. .. .. .. ..
. . . . .
Ll xl1 ... xlj ... xlc xl•
Total x•1 ... x•j ... x•c n
c
X l
X
On calcule les effectifs marginaux par : xi• = xij ; x•j = xij .
j=1 i=1
l X
X c l
X c
X
De plus, on a : xij = xi• = x•j = n .
i=1 j=1 i=1 j=1
Règle de décision
48
Les hypothèses du test sont :
H0 : les deux caractères sont indépendants,
H1 : non H0
On se retrouve dans le cas de la loi multinomiale à l × c catégories et on note pij la pro-
babilité pour un individu d’appartenir à la cellule (Ci ; Lj ) pour i = 1, . . . , l et j = 1, . . . , c.
On en déduit les probabilités marginales p1• , . . . , pi• , . . . , pc• pour le caractère C et p•1 , . . . , p•j , . . . , p•l
pour le caractère L. On a alors le tableau ci-dessous :
Probabilités Probabilité
C1 ... Cj ... Cc
inconnues ց marginale de L
L1 p11 ... p1j ... p1c p1•
.. .. .. .. ..
. . . . .
Li pi1 ... pij ... pic pi•
.. .. .. .. ..
. . . . .
Ll pl1 ... plj ... plc pl•
Probabilité
p•1 ... p•j ... p•c 1
marginale de C
Tableau des probabilités inconnues
On sait que L et C sont indépendantes en probabilité si pij = pi• p•j pour tout (i, j). Lorsque
H0 est vraie, on a bien l’indépendance entre L et C.
P estimer (l + c − 2) paramètres. En effet, pl• et p•c se déterminent par les relations
Il faut alors
P
pi• = p•j = 1.
On admet que pi• et p•j sont estimés respectivement par xi• /n et x•j /n. Quand H0 est vraie,
on peut donc estimer pij par xi• x•j /n2 .
l
X c
X xi• x•j 2
(xij − n
)
on rejette H0 ssi xi• x•j > χ(l−1)(c−1); α
i=1 j=1 n
En effet, le degré de liberté de la loi limite est égal au nombre de paramètres estimés :
lc − (l + c − 2) − 1 = (l − 1)(c − 1)
49
Exercice 31 : Test d’indépendance
Un examen est ouvert à des étudiants d’origines différentes : économie, informatique et
mathématiques. Le responsable de l’examen désire savoir si la formation initiale d’un étudiant
influe sur sa réussite. A cette fin, il construit le tableau ci-dessous à partir des résultats obtenus
par les 286 candidats, les origines étant précisées en colonne :
50
3 Tests d’analyse de variance
L’analyse de variance permet d’évaluer et de comparer les effets d’un ou plusieurs facteurs
contrôlés sur une population donnée. Sous l’hypothèse de normalité de la population, l’analyse
de variance se réduit à un test de comparaison globale des moyennes d’un ensemble de sous-
populations associées aux divers niveaux des facteurs.
La variable Xij , associée au j ème tirage de la variable Xi , se décompose ainsi en une somme
d’effets :
Xij = µ + αi + εji
Notations :
k n ni
1 XX i
1 X
X= Xj , Xi = Xj ,
n i=1 j=1 i ni j=1 i
k k n k n
1X 1 XX i
1 XX i
Commentaires : SA2 est la variance inter-modalités (moyenne des écarts quadratiques entre
X et X i ) ; S 2 est la variance totale (moyenne des écarts quadratiques entre X et tous les
Xij ) ; SR2 est la variance résiduelle (moyenne des dispersions autour des X i ).
Preuve :
∀ i, j Xij − X = Xij − X i + X i − X
51
k ni k ni k
1 XX j 2 1 XX j 2 1X
(Xi − X) = (Xi − X i ) + ni (Xi − X)2
n i=1 j=1 n i=1 j=1 n i=1
S 2 = SA2 + SR2 .
Preuve :
De même : 2 2
X k Xk
n SA2 Xi − X Xi − X
= ni = √
σ2 i=1
σ i=1
σ/ ni
qui est un χ2 à (k − 1) d.d.l.
On remarque que le théorème 17 est une conséquence du théorème 18, puisque χ2n−1 = χ2n−k +
χ2k−1 .
SA2 /(k − 1 )
Ainsi , si H0 est vraie, la v .a suit une loi de Fisher − Snedecor
SR2 /(n − k )
à (n − 1; n − k) d.d.l., que l’on notera F (k − 1; n − k).
On vérifie que si la variance inter-modalités SA2 est faible par rapport à la variance
résiduelle SR2 , alors la variable de Fisher-Snedecor prend une petite valeur : cette
constatation est à la base du test.
A un risque de première espèce α fixé, on conclura au rejet ou à l’acceptation de H0 .
Exemple 8 Trois machines sont normalement réglées pour produire des pièces identiques dont
la caractéristique est de loi N(m; σ). On veut s’assurer qu’elles ne sont pas déréglées. On prélève
donc un échantillon produit par chaque machine :
52
– machine 1 : n1 = 5, x1 = 8 ,
– machine 2 : n2 = 5, x2 = 10,
– machine 3 : n3 = 5, x3 = 15.
Les calculs donnent :
3
X X
ni (xi − x)2 = 130 ; (xji − xi )2 = 104
i=1 i,j
et donc X j
(xi − x)2 = 234.
i,j
La quantité ns2R /(n − k) est une estimation de σ 2 quel que soit l’effet du facteur.
Si H0 est vraie, alors ns2A /(k − 1) est une estimation de σ 2 , indépendante de la précédente.
s2A /(k − 1) 65
Donc : 2 est une v.a de Fisher − Snedecor, égale à = 7, 5 , que
sR /(n − k) 8, 67
Comme 7, 5 > 3, 89 , on rejette H0 avec un risque de 5%. Dans cet exemple, on peut même être
plus exigeant, puisque au risque de 1%, on a F0,99 (2; 12) = 6, 93 qui est toujours inférieur à 7, 5
(le rejet de H0 est donc toujours garanti).
Attention ! Le rejet de H0 ne signifie pas que toutes les moyennes mi sont significativement
différentes entre elles, mais que deux d’entr’elles, au moins, le sont. En toute rigueur, il faudrait
tester ensuite (mi − mj = 0) contre (mi − mj 6= 0) pour les couples (mi ; mj ) les plus distincts,
afin de déterminer lesquels sont significativement différents à un niveau de confiance donné
(méthode de Scheffé).
53
ni,j de la v.a descriptive X.
Le modèle statistique correspondant est dit équilibré si : ∀ i, j, ni,j = r ; c’est l’hypothèse dans
laquelle nous nous placerons. Donc, à tout couple de modalités (i, j), on associe l’échantillon
(Xi,j,1 = xi,j,1 , Xi,j,2 = xi,j,2 , . . . , Xi,j,r = xi,j,r ). La v.a Xi,j est supposée de loi N(mi,j ; σ). On
peut alors décomposer la moyenne mi,j de la sous-population P (i, j) de la façon suivante :
Notations p q r r
1 XXX 1X
X= Xi,j,k Xi,j,• = Xi,j,k
pqr i=1 j=1 k=1 r k=1
q r p r
1 XX 1 XX
Xi,•,• = Xi,j,k X•,j,• = Xi,j,k
qr j=1 pr i=1
k=1 k=1
Après calcul, on retrouve une formule d’analyse de variance analogue à la précédente, qui prend
en compte les variances des facteurs et de leur interaction.
X X
Posons : SA2 = qr (xi,•,• − x)2 , SB2 = qr (x•,j,• − x)2 ,
i j
XX XXX
2
SAB =r (xi,j,• − xi,•,• − x•,j,• + x)2 , SR2 = (xi,j,k − xi,j,• )2 ,
i j i j k
XXX
S2 = (xi,j,k − x)2 .
i j k
54
Exemple 9 Des ampoules électriques sont fabriquées en utilisant :
– 4 types de filament (facteur A à 4 modalités),
– 4 types de gaz (facteur B à 4 modalités).
Facteur B
B1 B2 B3 B4
A1 44 22 36 34
Facteur A2 47 43 41 53
A A2 0 9 10 17
A2 36 14 1 34
Conclusion : On admet que seul le facteur A a une influence au risque de première espèce
5%.
55
Chapitre 3
Y = f (x; θ) + ε
où :
– f est une fonction connue dépendante de paramètres θ1 , θ2 , ..., θp inconnus ;
– x est soit une variable contrôlée, soit une variable aléatoire variant dans un intervalle
I ⊂ R;
– ε est une variable aléatoire, qui est associée à l’écart aléatoire entre le modèle et la variable
expliquée Y ; on l’appelle résidu ou erreur.
Objectif de la théorie :
Etant donné un ensemble de n couples (xi , yi) associé à n mesures expérimentales, il s’agira :
1. d’en déduire la meilleure estimation possible des paramètres (θbk )k=1,...p ;
2. d’évaluer l’adéquation du modèle ainsi obtenu ;
3. d’effectuer des tests de comparaison sur les paramètres et d’utiliser éventuellement le
modèle à des fins prévisionnelles.
1 Régression linéaire
Lorsque la variable explicative est une variable aléatoire X, le modèle explicatif de Y en
fonction de X s’écrit sous la forme :
E(Y |X = x) = β0 + β1 x
Toutefois, dans le cadre de cet exposé, nous nous placerons dans le cas où la
variable x est contrôlée.
56
1.1 Modèle linéaire standard
A tout xi est associé Y (xi ) = Yi selon le modèle :
notée
∀i, Yi = β0 + β1 xi + εi (3.1)
Les v.a résiduelles ou résidus εi sont supposées vérifier les trois hypothèses suivantes :
R1 . ∀i, IE (εi ) = 0,
R2 . ∀i, Var (εi ) = σ 2 , inconnu,
R3 . ∀(i, j), tel que i 6= j, Cov(εi, εj ) = 0.
Notations
n n
Pn Pn 1 X 1 X
x= 1
n i=1 xi ; y = 1
n i=1 yi ; s2x = (xi − x)2 ; s2y = (yi − y)2 ;
n − 1 i=1 n − 1 i=1
n
1 X
sxy = (xi − x) (yi − y) qui est l’estimateur de la covariance de (X, Y ) dans le cas où
n − 1 i=1
la variable explicative est aléatoire.
On notera (βb0 , βb1 ) la solution du problème de minimisation ; βb0 est l’estimateur de β0 et βb1
celui de β1 .
57
Théorème 19 Propriétés des estimateurs βb0 etβb1
(a) Les estimateurs des moindres carrés, notés βb0 et βb1 , sont définis par :
sxy
βb0 = y − βb1 · x, βb1 = 2 .
sx
(b) Ces estimateurs sont sans biais et efficaces (i.e : de tous les estimateurs linéaires
et sans biais de β0 et de β1 , ils sont ceux qui ont la variance minimum : théorème de
Gauss-Markov).
X n
(yi − (βb0 + βb1 · xi ))2
(c) σb2 = s2 = i=1 est un estimateur sans biais de σ 2 , mais non
notée n−2
efficace.
σ2 σ2
(d) Var β1 =b b
et Var β0 = + x Var βb1 .
2
(n − 1)s2x n
Exercice 33
Démonstration des propositions (a), (b), (d).
Supposons que la variable explicative varie dans l’intervalle borné [a, b] ; pour n fixé, où
aura-t-on intérêt à choisir les valeurs (xi )i=1,...,n ?
Remarque 13 Les variances de βb0 et de βb1 (voir le théorème 19) qui mesurent la qualité
de l’estimation de β0 et β1 , sont toutes deux fonctions inverses de s2x . En conséquence, si
l’on est sûr du caractère linéaire du modèle, on aura intérêt à répartir les valeurs xi de la
variable
P indépendante x, de façon équitable, aux deux extrémités du domaine afin de maximiser
2 b b
i (xi − x) et afin de minimiser les variances de β0 et β1 .
58
n
X
On constate que : Maximiser L(x; β0 , β1 ) ⇐⇒ Minimiser (yi − (β0 + β1 · xi ))2 . D’où le
β0 ,β1 β0 ,β1
i=1
résultat attendu.
L’estimateur du maximum de vraisemblance permet de calculer explicitement un estimateur de
σ2 :
n
n 2 1 X
ln L(x; β0 , β1 ) = Cte − ln(σ ) − 2 (yi − (β0 + β1 · xi ))2
2 2σ i=1
n
∂ n 1 X
=⇒ ln L(x; β0 , β1 ) = − + (yi − (β0 + β1 · xi ))2
∂σ 2 2σ 2 2(σ 2 )2 i=1
D’où n n
∂ X X
ln L(x; β0 , β1 ) = 0 =⇒ b2 = 1
σ (y i − ( b0 + βb1 · xi ))2 = 1
β εb2
∂σ 2 n i=1 n i=1 i
Aux propriétés des estimateurs des moindres carrés de β0 , β1 et σ 2 rassemblées dans le théo-
rème 19, on adjoint celles provenant du caractère gaussien centré des résidus, résumées dans le
théorème suivant.
Théorème 21
x2 1
(a) βb0 ∼ N (β0 ; σβ0 ) avec σβ20 = σ 2 P 2
+
i (xi − x) n
σ2
(b) βb1 ∼ N (β1 ; σβ1 ) avec σβ21 = P 2
i (xi − x)
σb2
(c) (n − 2) ∼ χ2 à (n − 2) ddl.
σ2
(d) βb0 et βb1 sont indépendants des résidus estimés εbi .
βb1 − β1 βb0 − β0
∼ Student(n − 2) ; ∼ Student(n − 2) .
σc
β1 σc
β0
59
On peut donc facilement construire les intervalles de confiance, bilatéraux à un niveau de
confiance (1 − α) donné, de chacun des paramètres :
h i
Iα (β0 ) = βb0 − t1− α2 ;n−2 σc b
β0 ; β0 + t1− α
2
;n−2 c
σβ 0
h i
Iα (β1 ) = βb1 − t1− α2 ;n−2 σc
β1 ; b
β1 + t α c
σ
1− 2 ;n−2 β1
Nous allons maintenant construire un critère permettant d’évaluer la qualité d’ajustement des
données (xi , yi)i=1,...,n par le modèle linéaire y = βb0 + βb1 x. Cherchons tout d’abord à décomposer
la variance des yi (autour de leur moyenne y) en une somme de deux autres variances.
1X
La quantité (ybi − y)2 est la variance des valeurs ajustées par le modèle.
n i
1X
La quantité (yi − ybi)2 est la variance des résidus estimés εbi dite aussi variance
n i
résiduelle.
Notation
60
Exercice 34
Un chimiste relève la concentration d’un produit en fonction de la quantité d’eau qu’il
apporte au mélange. Il s’agit pour lui de dire si oui ou non la concentration dépend de la
quantité d’eau, connaissant les relevés suivants :
x (quantité d’eau) 0 2 4 6 8 10 12 14 16 18 20 22 24
y (concentration) 0 0.1 0.2 0.4 0.1 0.6 0.7 0.1 1.1 0.8 0.6 1.6 0.7
x (quantité d’eau) 26 28 30 32 34 36 38 40
y (concentration) 1.2 1.9 0.3 1.9 2 0.3 2.6 1.9
1) Déterminer βb0 , βb1 et σb2 et les intervalles de confiance au niveau de confiance 95% de β0 et
β1 . Représenter le nuage de points et la droite de régression. Quelles hypothèses peut-on
envisager ? Calculer le coefficient de détermination R2 (cf Définition ci-dessous).
2) Le chimiste modifie la dose et la composition de la concentration X sur la quantité d’eau
et refait les mêmes expériences. Il obtient le tableau suivant :
x (quantité d’eau) 0 2 4 6 8 10 12 14 16 18 20 22 24
y (concentration) 5 5.9 4.3 4.8 6.2 4.7 4.7 6.3 5 4.6 6.3 5.4 4.6
x (quantité d’eau) 26 28 30 32 34 36 38 40
y (concentration) 6.3 5.8 4.6 6.2 6.2 4.7 6 6.6
Interprétation :
1. Plus la variance résiduelle est proche de 0, plus R2 est proche de 1 : R2 est donc un
indicateur de qualité de l’ajustement.
sxy
2. Il est facile d’établir que R2 est égal au carré du coefficient de corrélation ρ = sx sy
.
61
1.3 Tests sur les paramètres β0 et β1
Il répond à la question : «La variable explicative x a-t-elle une effet significatif sur Y ?» autre-
ment dit : «Peut-on considérer β1 significativement différent de 0 ?»
H :β =0
0 1
Définissons les hypothèses du test : .
H : β 6= 0
1 1
Ces régressions sont par exemple, effectuées sur des échantillons issus de deux populations
distinctes : désignons par βb1′ et β
c′′ , les estimations respectives des pentes β ′ et β ′′ . D’après
1 1 1
le théorème 23, on teste la significativité de la différence des deux v.a normales βb1′ et β c′′ par
1
rapport à 0.
62
H : β ′ = β ′′
0 1 1
Posons :
H : β ′ 6= β ′′
1 1 1
b′ c′′
β1 − β1
Si v 6 t1− α2 (n1 + n2 − 4), alors on accepte H0 , au
u
u
u
u 2 X 1 1
us +X
t ′ ′ 2 ′′ ¯′′ 2
(xi − x̄ ) (xj − x )
i j
niveau de confiance (1 − α).
2ème cas : Le test dee comparaison des variances conclut à leur inégalité : on utilise alors les
tests d’Aspin-Welch (qu’il n’est pas nécessaire de développer ici).
Les tests de significativité ou de comparaison portant sur l’ordonnée à l’origine β0 , sont stric-
tement analogues aux précédents.
Exercice 35
1. Définir le test de comparaison de β0 à une valeur fixée à l’avance b0 .
2. Suite de l’exercice 34 : tester les hypothèses β0 = 0 et β1 = 0. Déterminer R2 dans chacun
des cas.
1.4 Prédiction
Etant donnée une valeur x = x∗ différente des xi , y(x [ b0 + βb1 · x∗ est l’estimation de
∗) = β
y(x∗ ) noté y ∗. Quelle est la précision de cette estimation ? A une confiance (1 − α) donnée, on
définit l’intervalle de confiance de y ∗ :
Remarque 16 La précision de l’estimation mesurée par s∗ , est fonction de (x∗ − x)2 : c’est
donc au voisinage de x que les prédictions sont les meilleures, ce qui est visible sur le graphe
ci-dessus. En pratique, les prédictions ne sont valides qu’à l’intérieur du domaine d’observation
délimité par [min(xi ); max(xi )] : on évitera donc les extrapolations hors de ce domaine.
i i
Exercice 36
Soit le tableau de données
63
x 0 10 20 30 40 50 60 70 80
y 1,76 1,69 1,61 1,54 1,46 1,4 1,32 1,25 1,2
2 Régression non-linéaire
2.1 Modèle général
La variable aléatoire réelle Y est cette fois dépendante de la variable contrôlée x selon le
modèle général :
Y = f (x; θ) + ε, x ∈ D ⊆ IRk
Hypothèses : Les variables résiduelles εi sont décorrélées de loi normale N (0; σ 2 · v(xi ; θ)) où
v est une fonction connue, différentiable par rapport à θ.
Remarque 17 La fonction f (x; θ) est intrinséquement non linéaire par rapport à θ, si elle
résiste à toute transformation de linéarisation.
Pp
Par exemple, une fonction de la forme f (x; θ) = j=1 θj fj (x) où les fj (•) sont des fonc-
tions connues ne dépendant pas des θj , est une fonction linéaire par rapport à θ = (θ1 , ..., θp ).
Les fonctions :
θ1 x
f1 (x; θ) = θ1 eθ2 x et f2 (x; θ) =
1 + θ2 eθ3 x
ne sont pas intrinséquement non linéaires par rapport à θ, car elles sont linéarisables par les
transformations respectives :
f2 (x; θ)
g1 = log (f1 (x; θ)) et g2 = log .
1 − f2 (x; θ)
64
Par contre, la fonction f3 (x; θ) = θ1 + θ2 eθ3 x est intrinséquement non linéaire. On pourra
résoudre un problème de régression intrinséquement non linéaire en le transformant en un
modèle linéaire, mais il est préférable de le traiter dans le cadre de la théorie de la régression
non linéaire.
SCR(θ)
Théorème 23 L’estimateur σb2 de la variance σ 2 est défini par : .
n−p
(a) Expériences répétées : pour toute valeur xi de x, on fait m mesures yi,j de la réponse
Yi ; dans ce cas, n = m · k. Les erreurs εij sont supposées indépendantes, de même loi
d’espérance nulle et de variance égale à σ 2 .
Théorème 24 Sous les hypothèses précédentes (a), les propositions suivantes sont vraies :
que t Df (•; θ) · Df (•; θ), la limite étant une matrice définie positive kΓ(θ∗ ) ; alors θbn
√
est asymptotiquement gaussien et n(θbn − θ∗ ) converge en loi vers une loi gaussienne
N (0; σ 2Γ−1 (θ∗ )).
65
Les méthodes classiques de Gauss-Newton ou de Newton-Raphson donnent la plupart du temps
de bons résultats (cette dernière est toutefois sensible au choix initial).
x 0 1 2 3 4 5 6 7 8 9 10
y 1,85 2,3 2,61 2,65 3,25 3,35 3,44 4,2 4,7 5 5,2
Méthode de la linéarisation du problème : soit z = log (y) alors z = β1′ −β2 x := log (β1 ) −β2 x.
(b) Cas d’expériences non répétées : Sous des hypothèses dont certaines sont analogues
à celles du théorème précédent, on obtient les résultats :
√
θbn est fortement consistant, asymptotiquement gaussien et sans biais. De plus, n(θbn −
θ∗ ) ∼ N (0; σ 2Γ−1 (θ∗ )), où Γ(θ∗ ) est la limite uniforme de n1 t Df (•; θ) · Df (•; θ).
Exercice 37
Démontrer ces résultats.
66
2.3 Détermination des intervalles de confiance sous les hypothèses de
normalité et d’équivariance résiduelle (dite aussi homoscédasti-
cité)
2.3.1 Méthode d’approximation linéaire
Cette méthode convient d’autant plus que l’échantillon est grand et le modèle f (•; θ) quasi-
b
linéaire en θ, au voisinage de l’estimation θ.
Elle est basée sur l’approximation de f (•, θ) au premier ordre du développement de Taylor :
b + Df (•; θ)
f (•; θ) ≃ f (•; θ) b · θ − θb .
où L θ; σb2 est le logarithme de la vraisemblance.
67
2.4 Tests d’hypothèses
2.4.1 Test du rapport de vraisemblance
Applicable à des cas plus généraux (Var (εi) = vi (θ) · σ 2 ).
H :θ =a
0 i
Soit à trancher pour l’une des deux hypothèses : où a est fixé.
H : θ 6= a
1 i
Remarque 19 L’optimisation des vraisemblances, qui sont des fonctions en général fortement
non linéaires, nécessitent l’utilisation d’algorithmes, tels que celui de Marquardt, qui peuvent
converger difficilement ou même ne pas converger du tout. En conséquence, dans les cas (fré-
quents) où la variance résiduelle est indépendante des paramètres θi , on pourra avoir recours
au test de Fisher-Snedecor, en n’oubliant pas que sa validité sera d’autant plus contestable que
l’approximation linéaire du modèle l’est.
68