Stat2008 2
Stat2008 2
Stat2008 2
loi théorique
∗
1 Introduction
Le problème que nous allons examiner dans ce chapitre est d’une grande importance
pratique : Etant donné un échantillon observé x1 , x2 , . . . , xn constitué d’une suite numérique
de mesures indépendantes d’un phénomène aléatoire dont la loi de probabilité n’est pas
connue précisément, on veut tester si cet échantillon provient d’une loi F donnée par exemple
de la loi N (0, 1). Les méthodes qu’on va utiliser s’appellent méthodes d’ajustement de
l’échantillon observé à la loi théorique F . Le principe de ces méthodes est le suivant :
On fait l’hypothèse H0 que l’échantillon observé est issu de la loi F . La méthode consiste à
transformer les valeurs observé d’une certaine façon (soit en un nombre pour l’ajustement
du χ2 , soit en une fonction pour l’ajustement de Kolmogorov-Smirnov) de sorte que suivant
le résultat obtenu, on puisse décider avec un niveau de confiance 1 − α ∈]0, 1[ donné, :
soit de rejeter l’hypothèse H0 , soit de l’accepter
Le nombre α généralement petit (0, 05 ou 0, 01) est la probabilité d’accepter l’hypothèse
alors qu’elle est fausse ; c’est le risque d’erreur (de première espèce) dont nous reparlerons
plus en détail ci-dessous mais il est important de comprendre que c’est l’expérimentateur qui
fixe le risque α qu’il accepte de prendre, la méthode tient compte de ce risque et donne un
résultat qui se traduit par la décision d’accepter ou de rejetter l’hypothèse.
2 Le test du Chi2
2.1 La loi du χ2
Définition 2.1 : Soient X1 , . . . , Xn des variables aléatoires indépendantes de même loi nor-
male N (0, 1). On appelle loi du χ2 à n degrés de liberté, la loi de la variable aléatoire
n
X
χ2n = Xi2 .
i=1
1
Proposition 2.2 : La loi du χ2n a une densité de probabilité de la forme
1
fn (x) = x(n/2)−1 e−x/2 1[0,+∞[ (x),
2n/2 Γ(n/2)
et une espérance et une variance égales à :
(1) p = (p1 , . . . , pk ).
2
En effet, pour tout i = 1, . . . , k (fixé), les variables aléatoires (1[Xj =i] )1≤j≤n sont i.i.d. et
d’après la loi forte des grands nombres, on a
n
Ni 1X p.s.
= 1[Xj =i] → E(1[Xj =i] ) = P(Xj = i) = pi .
n n j=1
N1 − np1 Nk − npk
(7) √ ,..., √
np1 npk
Pour la somme des carrés de ses composantes, on a le résultat fondamental suivant
Théorème 2.4 :
k
X (npi − Ni )2 L
(8) → χ2k−1 (n → ∞).
i=1
npi
La démonstration de ce résultat sera vue ultérieurement. Notons que nous avons utilisé
le terme quasi-réduit pour le vecteur aléatoire (7) car la véritable variable centrée réduite
fi = √Ni −npi . Notons aussi que le théorème limite central implique que
associée à Ni est N
npi (1−pi )
la i-ième composante du vecteur centré et quasi-réduit, converge en loi vers une variable
aléatoire normale N (0, 1 − pi ) quand n → +∞. Le fait qu’on trouve une loi du χ2k−1 comme
limite dans le théorème, est lié à ce fait et à la non-indépendance des composantes (car
N1 + · · · + Nn = n).
On prendra garde à la terminologie1 car χ2 (p, q) n’est pas le carré d’une vraie distance2 et
que les termes (pi − qi )2 ont plus d’importance dans la somme (9) lorsque la valeur de pi est
faible. Si l’on prend pour q la répartition empirique p̄n définie en (4) d’un n-échantillon de
la loi p, on mesure plutôt l’écart entre p et p̄n de la manière suivante :
Définition 2.5 : Le χ2 d’ajustement entre la loi p et la loi empirique p̄n est la variable
aléatoire
k
X (npi − Ni )2
(10) χ2n (p, p̄n ) = nχ2 (p, p̄n ) = ,
i=1
npi
1
on verra que le terme χ2 est utilisé en statistiques pour désigner des quantités diverses ayant un lien
avec la loi du χ2 .
2
noter que χ2 (p, q) 6= χ2 (q, p)
3
qu’on écrit plus traditionellement sous la forme
k
X (Ni − ei )2
(11) χ2n (p, p̄n ) = ,
i=1
ei
Observation fondamentale : La convergence en loi de χ2n (p, p̄n ) vers χ2 (k − 1) est très
sensible au fait que p̄n est la loi empirique de p. En effet supposons qu’on se soit trompé et
que p̄n soit en réalité la loi empirique d’une loi q 6= p. Alors d’après la loi forte des grands
nombres, Nni → qi p.s. et donc
kX (pi − Ni /n)2
1 2
(12) χn (p, p̄n ) = χ2 (p, p̄n ) = → χ2 (p, q) > 0 p.s.
n i=1
p i
Il en résulte que χ2n (p, p̄n ) → +∞ p.s. Ainsi si n est grand, les valeurs observées de
χ2n (p, p̄n ) seront très grandes. Cette observation est à la base du test suivant :
4
Exemple : On veut tester si un dé n’est pas truqué au risque α = 0, 05. Pour cela on lance
le dé 60 fois et on obtient les résultats suivants
face 1 2 3 4 5 6
Ni 15 7 4 11 6 17
ei 10 10 10 10 10 10
Prenons un n-échantillon (X1 , Y1 ), . . . , (Xn , Yn ) de la loi p et pour toute valeur (i, j) consi-
dérons la variable aléatoire
n
X
(15) Nij = 1[(Xm ,Ym )=(i,j)] ,
m=1
qui compte le nombre de fois que la valeur (i, j) apparait dans l’échantillon. La variable
aléatoire
Nij
(16) p̄n (i, j) = ,
n
3
voir le cours de probabilités
5
est l’estimateur empirique de la probabilité pij et la loi empirique du n-échantillon est la
matrice (aléatoire) p̄n à k lignes et l colonnes donnée par
et on peut alors pratiquer le test d’ajustement du χ2 à une loi p comme on l’a expliqué au
paragraphe 4.2. Mais si l’on ne veut pas faire d’hypothèse sur la loi p et qu’on veut seulement
savoir si la loi p est une loi produit (i.e. si les composantes du couple sont indépendantes),
on considére les estimateurs empiriques p̂n (i, .) (resp p̂n (., j)) des lois marginales pi. (resp p.j )
définis par
Ni. N.j
(20) p̂n (i, .) = (resp p̂n (., j) = ),
n n
où n n
X X
Ni. = 1[Xm =i] , (resp N.j = 1[Ym =j] )
m=1 m=1
est le nombre de fois que la valeur i (resp. la valeur j) apparait en première coordonnée (resp.
en deuxième coordonnée) dans l’échantillon. On définit la loi empirique produit (tensoriel)
des deux lois empiriques marginales comme étant la matrice p̂n donnée par
Ni. N.j
(21) p̂n = (p̂n (i, j)) = .
n2
Si on remplace dans (18) p par p̂n , on peut espérer mesurer l’indépendance des composantes
Xm et Ym de l’échantillon. Précisément
Théorème 2.7 :
L
(23) χ2n (p̂n , p̄n ) → χ2 ((k − 1)(l − 1)) (n → ∞).
6
Le test du χ2 d’indépendance : On déduit du résultat précédant que pour tester l’hypo-
thèse
Remarque : Sous l’hypothèse H0 et si les lois marginales pi. et p.j étaient connues, on
a vu en (18) que la variable aléatoire
X (pi. p.j − Nij /n)2
n ,
i,j
p i. p .j
suivrait approximativement la loi χ2 (kl − 1). Mais on estime les pi. (resp. les p.j ) qui sont
au nombre de k − 1 (resp. l − 1). On constate que la règle suivante est satisfaite : on doit
diminuer le nombre de degrés de liberté a priori (i.e. kl−1) par le nombre total de paramètres
estimés (soit (k − 1) + (l − 1)). En effet, on a bien
kl − 1 − (k − 1) − (l − 1) = (k − 1)(l − 1).
Cette règle s’applique dans d’autres situations qui ne sont pas au programme de ce cours.
Exemple : Un échantillon de 1000 personnes ont été interrogées sur leur opinion à propos
d’une question qui sera posée à un référendum. On a demandé à ces personnes de préciser
leur appartenance politique. Les résultats sont donnés par le tableau suivant4 :
Appartenance Réponse
Favorable Défavorable Indécis
Gauche 210 194 91
Droite 292 151 62
On veut savoir la réponse au référendum est indépendante de l’opinion politique. Pour cela
associons les indices de ligne i = 1 et 2 à gauche et droite respectivementet les indices de
colonne j = 1, 2, 3 aux réponses favorable, défavorable et indécis respectivement. On calcule
N N N
alors les valeurs nij (ici n = 1000.) qu’on dispose dans un tableau ainsi que les valeurs i.n2 .j
(dans le même tableau entre parenthèses), ce qui donne
i j
1 2 3
1 0,21(0,248) 0,194(0,170) 0,091(0,076)
2 0,292(0,254) 0,151(0,174) 0,062(0,077)
4
appelé souvent tableau de contingence dans la littérature.
7
X ( Ni. N2 .j − Nij 2
)
n n
La quantité χ2n (p̂n , p̄n ) =n Ni. N.j
est alors égale à :
i,j n2
(0, 248 − 0, 210)2 (0, 170 − 0, 194)2 (0, 076 − 0, 091)2 (0, 254 − 0, 292)2
1000 + + +
0, 248 0, 170 0, 076 0, 254
2 2
(0, 174 − 0, 151) (0, 077 − 0, 062)
+ + = 23, 82.
0, 174 0, 077
3 Le test de Kolmogorov-Smirnov
On examine maintenant l’ajustement d’un échantillon observé x1 , . . . , xn à une loi conti-
nue F . La méthode est complètement différente de celle étudiée dans le premier paragraphe.
Elle est basée sur la construction d’une fonction étagée appelée fonction de répartition
empirique de l’échantillon observé.
n
1X
(25) dFnω = δX (ω) ,
n i=1 i
8
Fnω (x)
6
1 q
3 q
n
2 q
n
q 1
n
-
x(1) 0 x(2) x(3) x(n) x
Lorsque les valeurs x(i) ne sont pas toutes distinctes, par exemple s’il y a k fois la valeur
x(i) dans l’échantillon, le saut de Fnω au point x(i) est égal à nk .
L’intérêt de la loi empirique Fn est d’approcher la loi F lorsque la taille n de l’échantillon
est suffisamment grande.
entre Fn et F . Bien entendu, Dn est une variable aléatoire puisqu’elle dépend de chaque
réalisation du n-échantillon. A priori la loi de Dn semble dépendre de F mais, (et c’est
particulièrement remarquable), ce n’est pas le cas si on se restreint à des lois F continues.
Mais d’après le 2) de la Proposition 2.4, δF (Xi (ω)) (] − ∞, t]) = δXi (ω) (] − ∞, F −1 t]) où F −1 est
l’inverse généralisée de F . Il résulte alors de (27) que Unω (t) = Fnω (F −1 (t)). Ainsi, en notant
U (t) la fonction de répartition de la loi uniforme, on a
sup |Unω (t) − U (t)| = sup |Unω (t) − t|
t∈R t∈]0,1[
9
ce qui prouve que Dn (ω) a la même valeur que pour la loi uniforme. Q.E.D.
c’est à dire P(supx∈R |Fn (x) − F (x)| ≤ dαn ) = 1 − α, ce qui revient encore à dire que
L’encadrement
est donc vrai pour tout x ∈ R, avec la probabilité 1 − α. La quantité 1 − α est appelée
le niveau de confiance de l’encadrement (30) et α est appelée le risque d’erreur de
première espèce7 car c’est la probabilité que (30) ne soit pas vraie.
10
est appelée la bande de confiance de la fonction de répartition F au niveau de confiance
1 − α.
Estimer une fonction de répartition c’est par définition la donnée d’un niveau de confiance
et de la bande de confiance correspondante qu’on obtient de la façon décrite ci-dessus.
Pour chaque réalisation (X1 (ω), . . . , Xn (ω) du n-échantillon, la fonction de répartition em-
pirique prend la valeur Fnω et la bande de confiance observée est égale à
(x, y) ∈ R2 ; Fnω (x) − dαn ≤ y ≤ Fnω (x) + dαn
(32)
Remarque : La bande de confiance est évidemment sensible à la valeur de n choisie au
départ. En effet, à un niveau de confiance donné 1 − α, la largeur de la bande est déterminée
par la valeur dαn qui décroit lorsque n augmente comme le montrent les tables. Ainsi si l’on
veut de la précision sur l’estimation de F il faudra que la bande de confiance soit étroite
donc que n soit grand. Pour avoir une bande de largeur donnée, on déterminera la taille n
que devra avoir l’échantillon à partir des tables de la loi de Dn .
Remarque 1(et exercice) : En fait Dn (ω) = supx∈R |Fnω (x) − F (x)|, = max1≤i≤n ∆i , avec
∆i = max{|Fnω (x− ω ω −
(i) ) − F (x(i) )|, |Fn (x(i) ) − F (x(i) )|}, où Fn (x(i) ) est la limite à gauche de la
fonction Fnω au point x = x(i) . On n’a donc pas besoin de la bande de confiance pour faire
le test de Kolmogorov-Smirnov : il suffit de calculer la quantité max1≤i≤n ∆i et de tester si
elle dépasse la borne dαn pour rejeter H0 .
Remarque 2 : Le problème que nous venons de traiter concerne l’ajustement d’une distri-
bution inconnue à une distribution théorique. Il existe un autre test beaucoup plus utilisé :
le test du χ2 vu au paragraphe 1 qui traite de la même question pour les lois discrètes et
qui est également utilisé pour les lois continues mais il faut alors utiliser un procédé de
discrétisation (assez arbitraire) de la loi continue. Ce test a le défaut d’être approximatif
et tout à fait inadapté lorsqu’on utilise des petits échantillons. Par contre la méthode de
Kolmogorov-Smirnov est exacte et elle est particulièrement bien adaptée aux petits échan-
tillons. Il conviendrait donc de mieux faire connaitre ce test aux utilisateurs qui font des
11
études de produits sur des échantillons de petite ou moyenne taille (médecins, laboratoires
industriels, etc. . .).
4.3 Annexe
Démonstration du théorème fondamental de la Statistique
On aura besoin du lemme suivant
Lemme 4.2 : Pour tout x ∈ R fixé, limn→∞ Fnω (x) = F (x) (resp8 . limn→∞ Fnω (x− ) =
F (x− )) pour P-presque tout ω.
démonstration du lemme : Pour P-presque tout ω, on a
n
1X
Fnω (x) = δX (ω) (] − ∞, x])
n i=1 i
n
1X
= 1]−∞,x] (Xi (ω))
n i=1
n
1 X
= 1]−∞,x] (Xi ) (ω) → E 1]−∞,x] (X1 ) = F (x), (n → ∞)
n i=1
d’après la loi forte des grands nombres appliquée à la suite des variables aléatoires i.i.d.
1]−∞,x] (Xi ). De même on montre que Fnω (x− ) → F (x− ) (n → ∞) en remplaçant l’intervalle
] − ∞, x] par ] − ∞, x[ dans le calcul précédent.
Mais F (xj,N ) ≥ j
N
≥ F (x− 1 −
j,N ), donc F (xj,N )+ N ≥ F (xj+1,N ) et les inégalités (33) impliquent
qu’on a
1 1
(34) Fnω (xj,N ) − F (xj,N ) − ≤ Fnω (x) − F (x) ≤ Fnω (x− −
j+1,N ) − F (xj+1,N ) + .
N N
D’où
1
(35) sup |Fnω (x) − F (x)| ≤ + |Fnω (xj,N ) − F (xj,N )| + |Fnω (x− −
j+1,N ) − F (xj+1,N )|
x∈[xj,N ,xj+1,N [ N
pour j = 1, . . . , N − 1 mais cette inégalité est vraie aussi pour j = 0 (resp. j = N ) avec la
convention x0,N = −∞ (resp. xN +1,N = +∞). En passant au Max en j dans les inégalités
(35), on obtient
Dn (ω) = sup |Fnω (x) − F (x)|
x∈R
1
+ max |Fnω (xj,N ) − F (xj,N )| + |Fnω (x− −
(36) ≤ j+1,N ) − F (xj+1,N )|
N 0≤j≤N
8
Si G est une fonction de répartition, G(x− ) désigne la limite à gauche de G au point x.
12
En passant à la limsup quand n → ∞ dans les deux membres de (36), on déduit immédia-
tement du Lemme 4.3 que pour P-presque tout ω, on a :
1
lim sup Dn (ω) ≤ .
n→∞ N
13