Statistiques Cours Chapitre 4 Tests Statistiques (2)

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 11

CHAPITRE 4

TESTS STATISTIQUES

I Généralités

 Dans le chapitre précédent, on a cherché à obtenir des estimations d'un ou de plusieurs


paramètres inconnus dont dépend une loi de probabilité. On va maintenant chercher à définir une
distribution de probabilité à partir de valeurs numériques observées lors d'un ensemble de
réalisations de l'expérience étudiée. Plus concrètement, on va étudier des méthodes permettant de
décider si un échantillon empirique {𝑥 , 𝑥 , ⋯ , 𝑥 } est compatible avec une hypothèse donnée,
relative au type d'une loi de probabilité.
Dans ces conditions, la construction d'intervalles de confiance comprenant toutes les lois de
probabilité a priori compatibles avec les données expérimentales n'est pas réalisable.
On procédera donc au moyen de tests statistiques ou tests d'hypothèses.

 Principe d'un test d'hypothèses :


La nature d'une expérience aléatoire ou certains résultats déjà obtenus permettent souvent
d'émettre une hypothèse relative à l'expérience considérée.
Par exemple, on admet couramment :
- qu'un dé est équilibré,
- que la durée de vie de composants électriques suit une loi exponentielle,
- qu'un nombre d'articles défectueux dans un lot ne dépasse pas une valeur donnée,
- etc...

Ces hypothèses statistiques seront acceptées ou rejetées selon les résultats numériques obtenus
lors de la réalisation de 𝑛 expériences indépendantes.

Un test est donc un procédé permettant de décider si une hypothèse donnée, notée en général 𝐻 ,
peut être considérée comme vraie ou fausse.

On va dans les paragraphes suivants étudier les tests d'ajustement, permettant de décider si une
distribution empirique est en accord avec une distribution théorique donnée, puis les tests
paramétriques, permettant de vérifier des hypothèses relatives à un paramètre d'une loi de
probabilité.

II Lois utilisées dans les problèmes d'estimation et de tests

1) Loi gamma

On appelle fonction gamma, ou intégrale eulérienne de seconde espèce, la fonction définie par :

Γ(𝑢) = exp(−𝑥) ∗ 𝑥 𝑑𝑥

où 𝑢 est un réel strictement positif.


Propriétés :

 On montre par I.P.P. la formule suivante : Γ(𝑢 + 1) = 𝑢 ∗ Γ(𝑢)


 Si 𝑢 = 𝑛, entier, on en déduit que Γ(𝑛) = (𝑛 − 1)!
 Valeurs particulières : Γ(1) = 1 et Γ = √𝜋.

Définition :

La loi gamma, notée Γ(𝜆, 𝑢) est définie par la densité de probabilité

𝑓(𝑥) = 𝜆 ∗ (𝜆𝑥) ∗ 𝑒𝑥𝑝 (−𝜆𝑥)⁄𝛤(𝑢) 𝑠𝑖 𝑥 ≥ 0


𝑓(𝑥) = 0 𝑠𝑖 𝑥 < 0

Pour des valeurs entières de 𝑢, elle est appelée loi d'Erlang.


Cas particulier : 𝑢 = 1, on retrouve la loi exponentielle.

Théorèmes :
(1) Soient 𝑋 , 𝑋 , ⋯ , 𝑋 des variables indépendantes suivant toutes la loi exponentielle de
paramètre 𝜆. Alors 𝑋 = 𝑋 + 𝑋 + ⋯ + 𝑋 suit la loi gamma de paramètres 𝜆 et 𝑛.
(2) Si une variable 𝑋 suit la loi Γ(𝜆, 𝑢), alors 𝐸(𝑋) = et 𝑉(𝑋) = .
(3) Additivité : Si 𝑋 ↝ Γ(𝜆, 𝑢 ) et 𝑋 ↝ Γ(𝜆, 𝑢 ), avec 𝑋 et 𝑋 indépendantes, alors
𝑋 = 𝑋 + 𝑋 ↝ Γ(𝜆, 𝑢 + 𝑢 ).

2) Loi du khi-deux

Définition

On considère une loi gamma de paramètres 𝜆 = et 𝑢. Soit 𝑑 = 2𝑢. Alors la fonction 𝑓 telle que

𝑥
𝑥 ∗ exp − 2
𝑓(𝑥) = , pour 𝑥 ≥ 0
𝑑
Γ 2 ∗2

est la fonction densité de probabilité de la loi du khi-deux à 𝑑 degrés de liberté, notée 𝜒 (𝑑).
D'où :
1 𝑑
𝜒 (𝑑) = Γ ,
2 2

Propriétés :

 𝐸(𝑋) = 𝑑 et 𝑉(𝑋) = 2𝑑
 Voir ci-dessous quelques courbes représentatives des fonctions densités pour différentes
valeurs de 𝑑.
d=1
d=2
d=3
d=4
d=5

Les lois du 𝜒 sont très utilisées en statistiques, ce qui s'explique par les théorèmes suivants :

Théorèmes :
(1) Soient 𝑋 , 𝑋 , ⋯ , 𝑋 des variables indépendantes suivant toutes la loi normale centrée
réduite. Alors la variable 𝑈 = 𝑋 + 𝑋 + ⋯ + 𝑋 suit une loi du 𝜒 à 𝑛 degrés de liberté.
(2) Soit un échantillon aléatoire {𝑋 , 𝑋 , ⋯ , 𝑋 } de variables suivant toutes une loi normale
𝒩(𝜇, 𝜎) et soit 𝑆 la variance de l'échantillon. Alors la statistique (𝑛 − 1) suit une loi du
khi-deux à 𝑛 − 1 degrés de liberté.
(3) Soit 𝑋 une variable aléatoire suivant une loi du khi-deux à 𝑛 degrés de liberté. Si 𝑛 est assez
( )
grand, les deux statistiques et √2𝑋 − √2𝑛 − 1 suivent la loi normale réduite.

3) Loi de Student

Définition :

La loi de Student est la loi de probabilité continue, symétrique par rapport à l'axe des ordonnées,
définie par la densité 𝑓 telle que

( )
𝑥
𝑓(𝑥) = 𝑐 ∗ 1 +
𝑛

où la constante 𝑐 est telle que ∫ℝ 𝑓(𝑥)𝑑𝑥 = 1 et où 𝑛 ∈ ℕ∗ est le nombre de degrés de liberté.

Pour 𝑛 = 1, on retrouve la loi de Cauchy.


Propriétés :

 𝐸(𝑋) = 0 si 𝑛 ≥ 2
 𝑉(𝑋) = si 𝑛 ≥ 3

Comme les lois du khi-deux, cette loi est très utilisée en statistiques du fait des théorèmes
suivants :

Théorèmes :
(1) Si 𝑋 et 𝑌 sont deux variables indépendantes telles que 𝑋 ↝ 𝒩(0,1) et 𝑌 ↝ 𝜒 (𝑛), alors la
variable 𝑇 = 𝑋⁄ 𝑌⁄𝑛 suit une loi de Student à 𝑛 degrés de liberté.
(2) Soit un échantillon aléatoire {𝑋 , 𝑋 , ⋯ , 𝑋 } de variables suivant toutes une loi normale
𝒩(𝜇, 𝜎) et soit 𝑆 la variance de l'échantillon. Alors la statistique 𝑇 = (𝑋 − µ) 𝑆√𝑛 suit
une loi de Student à 𝑛 − 1 degrés de liberté.

III Tests d'ajustement

1) Généralités

L'analyse graphique de données numériques présentées sous forme d'histogramme, ou encore des
raisonnements théoriques sur la nature de certaines expériences aléatoires permettent souvent de
formuler une hypothèse relative au type d'une loi de probabilité. On dispose de plusieurs
méthodes pour tester si un échantillon empirique est en accord avec une distribution théorique ou
si au contraire l'écart entre les deux distributions est trop grand.
La plus classique de ces méthodes est le test du khi-deux.

Exemple :
Pour tester l'hypothèse dite 𝐻 qu'un dé est symétrique, on le lance 60 fois de suite. On note 𝑛 le
nombre d'apparitions de la face 𝑖, pour 𝑖 ∈ ⟦1,6⟧, et on compare ces valeurs observées à celles
prédites théoriquement 𝑡 grâce à l'hypothèse d'équiprobabilité 𝐻 :

𝑖 1 2 3 4 5 6
𝑛 5 7 12 13 16 7
𝑡 10 10 10 10 10 10

On crée à partir de ces données une "distance" entre les deux séries de valeurs (observées et
théoriques), qui s'écrit
(𝑛 − 𝑡 )
𝑢=
𝑡

Si cette valeur est jugée trop grande on rejettera l'hypothèse de symétrie du dé, dans le cas
contraire, on conclura que l'on n'a pas de raison de mettre en doute la symétrie du dé.
2) Test du khi-deux

De façon générale, on veut tester si une variable aléatoire 𝑋 suit une distribution donnée,
hypothèse qui sera notée 𝐻 .

On suppose dans ce paragraphe que cette distribution ne comporte pas de paramètres inconnus.

L'ensemble des valeurs prises par 𝑋 est divisé en 𝑘 intervalles disjoints 𝐼 , 𝐼 , ⋯ , 𝐼 , pas
nécessairement de même amplitude. On note 𝑝 = 𝑃(𝑋 ∈ 𝐼 ) la probabilité associée à l'intervalle
𝐼 sous l'hypothèse 𝐻 :
 𝑝 = ∑ ∈ 𝑃 𝑋 = 𝑥 si 𝑋 est discrète,
 𝑝 = ∫ 𝑓 (𝑥) 𝑑𝑥 si 𝑋 est continue,
où 𝑓 (𝑥) est la densité de la distribution associée à 𝐻 .

On considère ensuite un échantillon aléatoire de taille 𝑛 : 𝑋 , 𝑋 , ⋯ , 𝑋 et on note 𝑁 le nombre


de variables 𝑋 prenant leur valeur dans 𝐼 . Alors 𝑁 suit la loi binomiale ℬ(𝑛, 𝑝 ) et donc
𝐸(𝑁 ) = 𝑛 ∗ 𝑝 .
La statistique 𝑈 = ∑ (𝑁 − 𝑛𝑝 ) ⁄(𝑛𝑝 ) constitue une mesure de la distance entre les effectifs
aléatoires et les effectifs théoriques.

On montre, en utilisant les théorèmes cités dans le I, que 𝑈 suit une distribution du khi-deux à
𝑘 − 1 degrés de liberté, pourvu que 𝑛 soit assez grand. En effet les 𝑘 variables aléatoires
𝑁 ne sont pas indépendantes car elles vérifient la relation 𝑁 + 𝑁 ⋯ + 𝑁 = 𝑛.

Définitions :
 On appelle probabilité d'erreur de première espèce 𝛼 la probabilité de rejeter à tort
l'hypothèse 𝐻 . C'est aussi le niveau de signification ou seuil de signification du test.
Les valeurs les plus utilisées de 𝛼 sont 0.05 et 0.01 : par consultation de la table de la loi du
khi-deux, on retient une valeur critique 𝑢 telle que 𝑃(𝑈 > 𝑢 ) = 𝛼.
 La région de retrait 𝑅 de l'hypothèse 𝐻 est alors définie par 𝑈 > 𝑢 .

Exemple du 1) : on trouve 𝑢 = 9.2. Au seuil 0.05, avec 5 degrés de liberté, on constate qu'il n'y a
pas de raison de douter de la symétrie du dé.

Remarques

 En pratique, on peut admettre que 𝑈 suit approximativement une loi du khi-deux si la taille
de l'échantillon 𝑛 est assez grande pour que chacun des effectifs théoriques 𝑛𝑝 soit au
moins égal à 4 (ou 5 selon les auteurs). Si cette condition n'est pas réalisée, il faut regrouper
certains intervalles.

 Le fait qu'une hypothèse 𝐻 ne soit pas rejetée à un niveau donné 𝛼 ne signifie pas que la
variable aléatoire suit effectivement la loi considérée. Il se peut qu'une distribution
empirique soit compatible avec plusieurs lois théoriques.
3) Ajustement à des lois de probabilité connues

On suppose maintenant que la distribution à laquelle on teste la variable aléatoire 𝑋 peut


comporter des paramètres inconnus.

a) Loi binomiale ℬ(𝑛, 𝑝)

𝑛
Distribution théorique : 𝑝 = 𝑝 (1 − 𝑝) .
𝑖
 Si 𝑝 est connu, il y a une seule contrainte entre les 𝑁 : 𝑁 + 𝑁 + ⋯ + 𝑁 = 𝑛, donc il
y a 𝑘 − 1 degrés de liberté.
 Si 𝑝 est inconnu, on l'estime à partir de l'échantillon (estimation ponctuelle) par :
𝑥̅ 1 ∑ 𝑛 𝑥
𝑝̂ = = , 𝑠𝑜𝑖𝑡 𝑁 𝑥 = 𝑛 ∗ 𝑝̂
𝑛 𝑛 𝑛
d'où 2 contraintes entre les 𝑁 , ce qui donne 𝑘 − 2 degrés de liberté.

b) Loi de Poisson 𝒫(𝜆)

Distribution théorique : 𝑝 = exp(−𝜆) ! .


 Si 𝜆 est connu, il y a une seule contrainte entre les 𝑁 : 𝑁 + 𝑁 + ⋯ + 𝑁 = 𝑛, donc il
y a 𝑘 − 1 degrés de liberté.
 Si 𝜆 est inconnu, on l'estime à partir de l'échantillon par :
∑ 𝑛𝑥
𝜆 = 𝑥̅ = , soit 𝑁𝑥 =𝑛∗𝜆
𝑛
d'où 2 contraintes entre les 𝑁 , ce qui donne 𝑘 − 2 degrés de liberté.

c) Loi normale 𝒩(𝜇, 𝜎)

Distribution théorique : 𝑝 = 𝑃(𝑋 ∈ 𝐼 ) = Π −Π , où 𝐼 = [𝑎 , 𝑏 ]


 Si 𝜇 et 𝜎 sont connus, il y a une seule contrainte entre les 𝑁 : 𝑁 + 𝑁 + ⋯ + 𝑁 = 𝑛,
donc il y a 𝑘 − 1 degrés de liberté.
 Si 𝜇 est inconnu et 𝜎 connu, on estime 𝜇 à partir de l'échantillon (estimation ponctuelle)
par :
∑ 𝑛𝑥
𝜇̂ = 𝑥̅ = , soit 𝑁𝑥 =𝑛∗𝜆
𝑛
d'où 2 contraintes entre les 𝑁 , ce qui donne 𝑘 − 2 degrés de liberté (même principe si 𝜇
est connu et 𝜎 inconnu.
 Si 𝜇 et 𝜎 sont inconnus, on les estime à partir de l'échantillon par :
𝑛
𝜇̂ = 𝑥̅ 𝑒𝑡 𝜎 = 𝑠
𝑛−1
d'où 3 contraintes reliant les 𝑁 , ce qui donne 𝑘 − 3 degrés de liberté.
IV Tests paramétriques

1) Introduction

On considère maintenant des lois de probabilité données qui dépendent d'un paramètre 𝜃
inconnu.
Les tests paramétriques ont pour but la vérification d'hypothèses relatives aux valeurs prises par
𝜃 : elles se présentent en général sous la forme 𝜃 = 𝜃 ou 𝜃 ≤ 𝜃 ou 𝜃 ≥ 𝜃 .

Exemples :
 le test de l'équilibre d'une pièce de monnaie par une série de lancers,
 le test de la qualité d'un nouveau procédé de fabrication d'un type d'objet, à l'aide d'une série
d'expériences.

Tester une hypothèse 𝐻 relative à un paramètre inconnu revient à définir une règle de décision
permettant de se prononcer sur la validité de 𝐻 au vu des valeurs prises pour un échantillon
empirique. Cette hypothèse 𝐻 est en général confrontée à une hypothèse 𝐻 qui dépend du
problème considéré. Le rejet de 𝐻 est alors équivalent à l'acceptation de 𝐻 , hypothèse dite
contraire ou alternative.

2) Comparaison d'une moyenne à un standard

On considère une variable aléatoire réelle 𝑋 suivant une loi normale de moyenne 𝜇 inconnue et
d'écart-type connu 𝜎.
On suppose que l'on a des raisons de s'attendre à ce que 𝜇 soit égale à une valeur donnée 𝜇 . On
se propose donc de tester l'hypothèse 𝐻 ∶ 𝜇 = 𝜇 contre l'hypothèse 𝐻 ∶ 𝜇 ≠ 𝜇 .

Si 𝐻 est vraie, la statistique 𝑋 est un estimateur sans biais de 𝜇 et suit la loi 𝒩 𝜇 , . On



l'appelle quelquefois fonction discriminante. C'est à partir de la valeur prise par 𝑋 que l'on pourra
décider ou non de la validité de 𝐻 .

La construction d'un test relatif à 𝐻 va entraîner le partage de l'ensemble ℝ des valeurs


possibles pour 𝜇 en deux ensembles disjoints 𝑅 et 𝑅 , où 𝑅 est la région critique ou de rejet et son
complément 𝑅 la région d'acceptation, avec ℝ = 𝑅 ∪ 𝑅 .

La règle d'acceptation sera donc définie par :


 si 𝑋 ∈ 𝑅, on rejette 𝐻 ,
 si 𝑋 ∈ 𝑅, on accepte 𝐻 .

Toute décision statistique peut être fausse : dans le contexte de ce test, il y a deux erreurs
possibles :
 on peut rejeter à tort 𝐻 alors qu'elle est vraie, c'est l'erreur de première espèce,
 on peut accepter à tort 𝐻 alors qu'elle est fausse : c'est l'erreur de seconde espèce.
Il existe donc deux probabilités d'erreur :
 la probabilité d'erreur de première espèce 𝛼 = 𝑃 (𝑋 ∈ 𝑅), appelée seuil de signification du
test ; sa valeur est en général fixée d'avance,
 la probabilité d'erreur de seconde espèce, 𝛽 = 𝑃 (𝑋 ∈ 𝑅 ). Sa valeur dépend de 𝛼 mais ne
peut être calculée que si 𝐻 donne une valeur particulière de 𝜇. La quantité 1 − 𝛽 est
appelée puissance du test.

Méthode pratique : 𝛼 étant fixé d'avance, on cherche l'ensemble 𝑅 tel que 𝑃 (𝑋 ∈ 𝑅) = 𝛼.

Exemple :
Une machine produit des pièces métalliques dont la longueur nominale est de 8.30 cm. Les
fluctuations dues au procédé de fabrication correspondent à un écart-type de 0.6 cm. Sur la base
d'un échantillon aléatoire de taille 𝑛 = 100, on veut construire un test pour vérifier si le réglage
de la machine est toujours correct. Quelle sera la décision prise si la moyenne de l'échantillon est
égale à 8.40 cm et si le seuil de signification retenu est égal à 0.05 ?

3) Généralités sur les tests paramétriques

Etapes à suivre pour les tests paramétriques :


 Choisir l'hypothèse 𝐻 et l'hypothèse "contraire" 𝐻 ,
 Fixer le seuil 𝛼 et la taille 𝑛 de l'échantillon adaptés au problème étudié,
 A l'aide d'une statistique 𝑇 dont on connaît la distribution si l'hypothèse 𝐻 est vérifiée,
déterminer la région critique 𝑅 telle que 𝑃 (𝑇 ∈ 𝑅) = 𝛼. Alors 𝑅 regroupe les valeurs
prises par 𝑇 qui vérifient la propriété ci-dessus tout en étant en accord avec 𝐻 ,
 Calculer, si c'est possible, la puissance 1 − 𝛽 du test,
 Effectuer une série de 𝑛 expériences, et accepter ou rejeter 𝐻 en fonction de la valeur prise
par la statistique considérée.

Remarques :
 Pour tester la validité d'une hypothèse 𝐻 , il est possible de construire différentes règles de
décision, c'est-à-dire différentes régions critiques 𝑅. On essaie souvent de choisir 𝑅 telle que
𝛽 soit minimale.
 Dans le cas de la loi normale, qui dépend de deux paramètres 𝜇 et 𝜎, il est possible de tester
une hypothèse relative à l'un des paramètres sans que l'autre soit connu.
 Dans le cas d'une variable discrète, il n'est pas toujours possible de définir 𝑅 telle que la
probabilité d'erreur de première espèce soit exactement égale à la valeur donnée 𝛼.

Exemple :
Soit 𝑋 une variable aléatoire suivant une loi de Poisson.
a) On veut tester l'hypothèse 𝐻 ∶ 𝜆 = 0.5 contre l'hypothèse 𝐻 ∶ 𝜆 = 1. Calculer la région
critique 𝑅 pour 𝛼 ≤ 0.10 et 𝑛 = 2. Déterminer la valeur correspondante de 𝛽.
b) Reprendre la question pour 𝛼 = 0.05 et 𝑛 = 32.
4) Tests unilatéraux

Dans le paragraphe 2), le test était bilatéral. Dans certains cas, il peut arriver qu'il importe peu
que la valeur de 𝜇 soit supérieure à un standard 𝜇 . On cherche surtout à éviter que 𝜇 soit trop
petite. On effectue alors un test unilatéral.

Exemple :
Un fabricant affirme que la durée de vie moyenne d'un équipement technique est égale à 400
heures. Avant de passer une commande importante on désire tester cette affirmation en étudiant
un échantillon de 𝑛 = 25 équipements. Quelle sera la décision prise au niveau de signification
𝛼 = 0.05 si la moyenne de l'échantillon est égale à 378.1 heures et si on peut admettre que
l'écart-type est 𝜎 = 60 heures ? Comparer au résultat d'un test bilatéral dans lequel l'hypothèse
𝐻 serait 𝜇 ≠ 400 heures.

5) Tests paramétriques et estimation par intervalle

 Si l'on reprend le cas d'une loi normale d'espérance mathématique inconnue 𝜇 et d'écart-type
donné 𝜎, étudié dans le chapitre précédent, on a vu qu'un intervalle de confiance pour 𝜇 au
niveau de confiance (1 − 𝛼) s'écrit :
𝜎 𝜎
𝐼 = 𝑋−𝑧 ∗ ,𝑋 +𝑧 ∗ , avec Π 𝑧 = 1 − 𝛼.
√𝑛 √𝑛
Cela signifie qu'une valeur donnée 𝜇 est considérée comme en accord avec la moyenne de
l'échantillon 𝑋 si et seulement si elle est dans l'intervalle de confiance, c'est-à-dire si :
𝜎
|𝑋 − 𝜇 | ≤ 𝑧 ∗
√𝑛

 Si l'on teste l'hypothèse 𝐻 ∶ 𝜇 = 𝜇 contre l'hypothèse 𝐻 ∶ 𝜇 ≠ 𝜇 , une région


d'acceptation 𝑅 au seuil de signification 𝛼 est définie, d'après le 2), par :
𝜎 𝜎 𝜎
𝜇 −𝑧 ∗ ≤𝑋 ≤𝜇 +𝑧 ∗ soit encore par |𝑋 − 𝜇 | ≤ 𝑧 ∗
√𝑛 √𝑛 √𝑛

On constate alors que l'hypothèse 𝜇 = 𝜇 est simultanément acceptée ou rejetée par ces deux
méthodes, le niveau de confiance de l'intervalle d'estimation et le seuil de signification du test
étant compléments à 1 l'un de l'autre. Elles sont donc équivalentes en ce qui concerne la décision
prise.

V Tests d’indépendance

1) Indépendance de deux caractères

Dans de nombreux problèmes de probabilité, on admet explicitement ou implicitement que deux


événements ou deux variables aléatoires relatifs à la même expérience stochastique sont
indépendants.
En réalité, la distribution du khi-deux permet de tester une hypothèse d’indépendance dans le cas
de deux événements. Cette utilisation du test du khi-deux est présentée dans l’exemple ci-
dessous :
Exemple :
On considère deux machines et on va tester l’hypothèse 𝐻 affirmant qu’elles fonctionnent
indépendamment l’une de l’autre. Les résultats de 100 contrôles effectués de manière aléatoire
sont donnés dans le tableau suivant ; ils constituent les fréquences observées de l’expérience
considérée.

B B
A 50 10 60
A 20 20 40
70 30 100

A (respectivement B) signifie que la première (respectivement deuxième) machine est en état de


fonctionnement lors du contrôle. On constate par exemple que lors de 20 contrôles les deux
machines étaient défaillantes.
En termes de probabilités, on constate que : 𝑃(𝐴) = 0.60, 𝑃(𝐵) = 0.70 et 𝑃(𝐴 ∩ 𝐵) = 0.50.
La différence observée entre 𝑃(𝐴 ∩ 𝐵) et 𝑃(𝐴) × 𝑃(𝐵) (égal à 0.42) est-elle suffisamment
grande pour rejeter l’hypothèse 𝐻 ?

On crée donc le tableau contenant les fréquences théoriques :

B B
A 42 18 60
A 28 12 40
70 30 100

On doit donc comparer la distribution empirique et la distribution théorique en utilisant le test du


khi-deux :
 On calcule 𝑢 :
(50 − 42) (10 − 18) (20 − 28) (20 − 12)
𝑢= + + + = 12.70
42 18 28 12
 On détermine le nombre de degrés de liberté : un seul degré de liberté,
 On détermine la valeur 𝑢 associée à 𝛼 = 0.005 : 𝑢 = 7.88.

On rejette donc l’hypothèse 𝐻 .

De manière générale, soient 𝑁 , 𝑁 , 𝑁 et 𝑁 les nombres de réalisations des événements


𝐴 ∩ 𝐵, 𝐴 ∩ 𝐵 , 𝐴̅ ∩ 𝐵 et 𝐴̅ ∩ 𝐵 lorsqu’on effectue un échantillon de taille 𝑛.
Les fréquences théoriques se calculent alors par :
𝑇 = 𝑁 . 𝑁. /𝑛, où 𝑁 . = 𝑁 + 𝑁 , 𝑁. = 𝑁 + 𝑁 sont les fréquences marginales.
𝑁 −𝑇
La statistique 𝑈 = est alors asymptotiquement distribuée selon une loi du
𝑇
,
khi-deux à 1 degré de liberté.
2) Indépendance de deux caractères

On étudie fréquemment deux caractères d’individus choisis au hasard dans une population.
Lorsque ces caractères sont quantitatifs, il est généralement intéressant de savoir si ces caractères
sont indépendants entre eux ou non.

Si chacun de ces caractères ne prend que deux valeurs, on peut procéder comme dans le
paragraphe précédent.
Dans le cas contraire, la transposition se fait facilement : si les deux caractères prennent
respectivement 𝑟 et 𝑠 modalités, on se trouve en présence d’une loi du khi-deux à (𝑟 − 1)(𝑠 − 1)
degrés de liberté.

3) Indépendance de deux variables binormales

On se place maintenant dans la situation où deux variables 𝑋 et 𝑌 obéissent à une loi de type
binormal.
On sait que le coefficient de corrélation 𝜌(𝑋, 𝑌) permet de déterminer le degré de dépendance
linéaire de deux variables.
Le plus souvent, on ne connaît pas effectivement la loi à laquelle obéissent ces variables, et on ne
dispose que d’un échantillon aléatoire (𝑋 , 𝑌 ), (𝑋 , 𝑌 ), … , (𝑋 , 𝑌 ) relatif au couple (𝑋, 𝑌).
Dans ce cas, on peut montrer que la covariance de l’échantillon :
∑ (𝑋 − 𝑋)(𝑌 − 𝑌) ∑ (𝑋 𝑌 − 𝑛𝑋𝑌)
𝑆 = =
(𝑛 − 1) (𝑛 − 1)
est un estimateur sans biais de la covariance de 𝑋 et 𝑌, par analogie au calcul des variances.

On utilise ensuite la statistique 𝑅 = 𝑆 ⁄ 𝑆 𝑆 , qui est un estimateur de la corrélation de 𝑋


et 𝑌, même s’il n’est plus sans biais dans le cas général.

En admettant que les variables 𝑋 et 𝑌 suivent une loi normale bidimensionnelle, on sait que la
non-corrélation de 𝑋 et 𝑌 entraine leur indépendance.
On peut donc définir l’hypothèse d’indépendance par : 𝐻 ∶ 𝜌(𝑋, 𝑌) = 0.
Si 𝐻 est correcte, on peut montrer que la statistique :

𝑇=𝑅 √𝑛 − 2 1−𝑅
suit une loi de Student à 𝑛 − 2 degrés de liberté.

On détermine alors 𝑡 ⁄ tel que 𝑃 𝑇 > 𝑡 ⁄ = 𝛼 ⁄2.


La relation |𝑇| > 𝑡 ⁄ définit alors une région critique (ou région de rejet) relative à l’hypothèse
𝐻 , permettant de vérifier l’indépendance de 𝑋 et 𝑌 sur la base d’un échantillon empirique.

Exemple :
La valeur d’un coefficient de corrélation 𝜌(𝑋, 𝑌), calculée à partir d’un échantillon de taille
𝑛 = 11, est égale à 0.287. Peut-on conclure, au seuil de 0.10, que les variables aléatoires
binormales 𝑋 et 𝑌 sont indépendantes ?

Vous aimerez peut-être aussi