Statistique Cours New

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 28

Université Abdelmalek Essaâdi

Ecole Nationale des Sciences Appliquées


Tanger

Statistique Inférentielle
Pole Technologie de l’information

Ahmed DRISSI
[email protected]

Ahmed DRISSI ENSA Tanger Page 1


Préambule

Ces notes de cours sont destinées aux étudiants de la première année du cycle des ingénieurs,
des filières du pole technologie de l’information (Génie Informatique, Génie des Systèmes et
Réseaux… ) de l’Ecole Nationale des Sciences Appliquées, Tanger. Elles ont été rédigées,
conformément au programme accrédité en 2024, dans le but d’aider les étudiants à consolider
leurs acquis en statistiques et probabilités et à maitriser les nouvelles notions introduites dans
ce cours. Les démonstrations de certains résultats de ce polycopié, ainsi que plusieurs
exemples et exercices seront données au tableau pendant les séances de cours. Il est donc
indispensable que l’étudiant assiste au cours et prend des notes, pour qu’il puisse bien
assimiler ce cours de statistiques inférentielle. Je serai reconnaissant à tout lecteur qui aura
l’amabilité de me signaler des erreurs que peut comporter ce manuscrit ou de me suggérer
une idée pour le parfaire.

Ahmed DRISSI

Syllabus
I- Echantillonnage
II- L’estimation
Les estimateurs, estimation ponctuelle, estimation par intervalle de confiance
III- Les tests statistiques
Tests de conformité, tests de comparaison, test de Khi-deux (d’adéquation à une
loi théorique, d’indépendance, d’homogénéité…)
IV- Projets pratiques et études de cas en utilisant l’un des logiciels : R, Python,
Matlab, SPSS ou autres

Pré-requis

1. La statistique descriptive (programmé à l’AP1)


2. Les probabilités (programmé à l’AP2)

Ouvrages Conseillés

1. Les fondements probabilistes des méthodes statistiques. Composé par Economica. Paris. France
janvier 1989. Europe Media Duplication SA.
2. FOUNDATIONS OF DESCRIPTIVE AND INFERENTIAL STATISTICS. HENK VAN ELST
August 30, 2019
3. An Introduction to Statistical Inference and Data Analysis. Michael W. Trosset1 April 3, 2001

Ahmed DRISSI ENSA Tanger Page 2


Contenu
Préambule ......................................................................................................................................... 2
Syllabus ............................................................................................................................................ 2
Pré-requis .......................................................................................................................................... 2
Ouvrages Conseillés .......................................................................................................................... 2
Introduction....................................................................................................................................... 4
Chapitre 1 : L’Échantillonnage .......................................................................................................... 5
I- Introduction ........................................................................................................................... 5
II- Étude de la moyenne/écart type d'un échantillon ................................................................. 6
III- Étude d'une proportion dans un échantillon ......................................................................... 8
Chapitre 2 : L’Estimation ................................................................................................................ 10
I- Généralités sur les estimateurs ............................................................................................. 10
II- Estimation de la moyenne/écart type d’une population...................................................... 10
1- Estimation ponctuelle ....................................................................................................... 10
2- Estimation par intervalle de confiance .............................................................................. 13
III- Estimation d’une proportion ............................................................................................. 15
1- Estimation ponctuelle ....................................................................................................... 15
2- Estimation par intervalle de confiance .............................................................................. 16
Chapitre 3 : Les tests statistiques ..................................................................................................... 18
I- Généralités ........................................................................................................................... 18
II- Test de conformité ........................................................................................................... 21
A- Test de conformité de la moyenne ................................................................................ 21
B- Test de conformité de la variance ................................................................................. 22
C- Test de conformité de la proportion .............................................................................. 22
III- Test de comparaison ......................................................................................................... 23
A- Comparaison de deux moyennes ................................................................................... 23
B- Comparaisons de deux variances .................................................................................. 23
C- Comparaisons de deux proportions ............................................................................... 24
IV- Test de khi-deux ............................................................................................................... 24
A- Test du χ2 d’adéquation à une loi théorique ................................................................. 24
B- Test du χ2 d’indépendance .......................................................................................... 26
C- Test du χ2 d’homogénéité ........................................................................................... 27

Ahmed DRISSI ENSA Tanger Page 3


Introduction
L'objectif de ce cours est de fournir aux futurs ingénieurs en différentes spécialités de
Technologie de l’information une compréhension solide des outils et des concepts de la
statistique inférentielle, afin qu'ils puissent les appliquer efficacement dans leurs domaines
d'expertise. À travers des exemples concrets et des exercices pratiques, ils seront en mesure
de développer des compétences analytiques avancées, cruciales pour résoudre les défis
complexes rencontrés dans leurs carrières.
Contrairement à la statistique descriptive, qui se concentre sur le résumé et l'analyse des
données observées, la statistique inférentielle permet de tirer des conclusions sur une
population à partir d'un échantillon de données. Dans un monde de plus en plus axé sur les
données, la capacité à faire des inférences précises et justifiées est cruciale, en particulier
dans des domaines comme l'informatique et la cybersécurité, où les décisions doivent souvent
être prises sur la base de données partielles ou incertaines.
L'objectif principal de la statistique inférentielle est de fournir des outils et des méthodes pour
estimer des paramètres inconnus, tester des hypothèses, et évaluer la fiabilité des conclusions
tirées. Ces compétences sont particulièrement pertinentes pour les ingénieurs en
informatique, cybersécurité et les réseaux informatiques, où l'analyse des données peut
révéler des tendances, détecter des anomalies, ou encore prévoir des événements futurs tels
que des cyberattaques. Ce cours est structuré autour de trois chapitres clés :
Échantillonnage : Ce chapitre introduit les concepts de base liés à la sélection d'un
échantillon représentatif d'une population.
Estimation : Nous examinerons les méthodes d'estimation des paramètres inconnus d'une
population à partir d'un échantillon. Nous aborderons les concepts d'estimation ponctuelle,
d'estimation par intervalle de confiance, et les propriétés des estimateurs, tels que la biais et
l'efficacité.
Tests Statistiques : Nous apprenons la conception des tests statistiques, comment formuler
des hypothèses nulles et alternatives, choisir le test approprié, et interpréter les résultats.

Ahmed DRISSI ENSA Tanger Page 4


Chapitre 1 : L’Échantillonnage
I- Introduction
L’échantillonnage consiste à sélectionner un sous-ensemble représentatif d'une population
pour en tirer des conclusions sur l'ensemble de cette population. Cette méthode est
particulièrement pertinente lorsqu'il est impossible ou impraticable de recueillir des données
sur l'ensemble d'une population en raison de contraintes de temps, de coût, ou de faisabilité.
Par exemple, si on veut évaluer la sécurité d'un réseau informatique, il serait irréaliste de
tester chaque interaction possible. Au lieu de cela, on peut utiliser des techniques
d'échantillonnage pour estimer la sécurité globale du réseau à partir d'un échantillon
représentatif d'interactions.
A- Échantillonnage Non Probabiliste
Les éléments ne sont pas sélectionnés sur la base d'une probabilité, ce qui peut introduire des
biais. Ces méthodes sont souvent utilisées lorsque l'échantillonnage probabiliste est
impraticable.
Échantillonnage de Commodité : Les échantillons sont choisis en fonction de leur
disponibilité ou de leur facilité d'accès, souvent utilisé dans les études préliminaires ou
exploratoires, mais il a pour inconvénient : Fort risque de biais, les resultats sont faiblement
généralisable.
Exemple : Interroger les passants dans un centre commercial.
Échantillonnage par Quotas : On détermine un quota pour chaque sous-groupe de la
population, et les participants sont sélectionnés jusqu'à ce que les quotas soient remplis.
Rapide et moins coûteux, utile pour garantir la représentativité de certains sous-groupes. Mais
Sujet à des biais de sélection, car les éléments ne sont pas choisis de manière aléatoire.
Exemple : Choisir un nombre fixe d'hommes et de femmes pour répondre à une enquête.
Échantillonnage Raisonné (Jugemental) : Les participants sont choisis en fonction du
jugement de l'enquêteur, en se basant sur des critères spécifiques. Par exemple, Sélectionner
des entreprises ayant récemment adopté une nouvelle technologie pour une étude d'impact.
Échantillonnage par Boule de Neige : Les participants initiaux recrutent d'autres membres
de la population, qui recrutent à leur tour d'autres participants. Par exemple, Études sur des
groupes difficiles à atteindre, comme les utilisateurs de logiciels open-source.
Utile pour les études sur des populations spécifiques ou cachées (ex : études sur des réseaux
sociaux, des groupes illégaux ou marginalisés). Avec comme inconvénients biais potentiels
dus à la non-randomisation et la dépendance aux relations sociales des participants.
B- Échantillonnage Probabiliste
Chaque élément de la population a une chance connue et non nulle d'être sélectionné. Ces
méthodes sont souvent préférées pour leur capacité à produire des échantillons représentatifs
et à permettre l'inférence statistique.
Échantillonnage Aléatoire Simple : Chaque membre de la population a une chance égale
d'être sélectionné. On utilise souvent des méthodes comme le tirage au sort ou des
générateurs de nombres aléatoires. Facile à comprendre et à mettre en œuvre. Les résultats
peuvent être généralisés à l'ensemble de la population avec une marge d'erreur calculable,
,mais il peut nécessiter une liste complète de la population, ce qui n'est pas toujours possible.
Exemple : Tirer au sort des étudiants dans une liste pour répondre à une enquête.
Échantillonnage Stratifié : La population est divisée en sous-groupes homogènes (strates)
selon une ou plusieurs caractéristiques (par exemple, âge, genre). Un échantillon aléatoire
simple est ensuite tiré de chaque strate. Ce qui améliore la précision des estimations en

Ahmed DRISSI ENSA Tanger Page 5


assurant que chaque sous-groupe important est représenté dans l'échantillon. Mais plus
complexe à mettre en œuvre et nécessite une connaissance préalable des strates
Exemple : Séparer les étudiants par année d'étude, puis tirer un échantillon de chaque groupe.
Échantillonnage Systématique : Après avoir ordonné les éléments de la population (par
exemple, par ordre alphabétique), on sélectionne chaque k-ème élément, où k est fixe et
choisi à l'avance.
Simple à mettre en œuvre, surtout pour de grandes populations, et ne nécessite pas une liste
exhaustive des membres de la population. avec un risque de biais si les éléments de la
population sont ordonnés de manière cyclique ou si l'intervalle choisi correspond à un cycle
de variation. Exemple : Choisir chaque 10ème email dans une liste de diffusion pour une
analyse de satisfaction.
Échantillonnage en Grappes (Cluster Sampling) : La population est divisée en grappes ou
groupes (clusters), souvent basés sur des critères géographiques ou organisationnels. Un
échantillon aléatoire de grappes est sélectionné, puis tous les membres de ces grappes sont
inclus dans l'échantillon. Par exemple : Sélectionner aléatoirement des entreprises, puis
analyser tous les employés de ces entreprises. Ce qui réduit les coûts et les efforts,
particulièrement pour des populations géographiquement dispersées. Moins précis que
l'échantillonnage aléatoire simple ou stratifié, car les membres d'une même grappe peuvent
être similaires.

Le choix entre échantillonnage probabiliste et non probabiliste dépend des objectifs de


l'étude, de la nature de la population, et des ressources disponibles. Les méthodes non
probabilistes sont souvent utilisées dans les études exploratoires ou lorsqu'un échantillonnage
aléatoire est difficile à mettre en œuvre, tandis que les méthodes probabilistes sont préférées
lorsqu'il est crucial de généraliser les résultats à l'ensemble de la population ce qui est l’objet
de ce chapitre
Problématique
Considérons une population de taille 𝑁 assez importante, dans laquelle on s’interesse à
étudier deux caracteres : l’un quantitatif 𝑋 de moyenne 𝜇 et de variance 𝜎 2 , l’autre qualitatif
𝑌 de paramètre 𝑝. L'objectif de ce chapitre est de répondre à la problématique suivante :
comment, à partir d'informations (couple moyenne-écart-type ou proportion…) connues sur
une population, peut-on prévoir celles d'un échantillon ?
L’échantillonnage aléatoire simple sans remise est sans doute plus naturel, mais
L’échantillonnage avec remise offre des propriétés plus intéressantes et surtout plus
commodes mathématiquement. Considérons 𝑋1 et 𝑋2 les variables aléatoires pour deux
tirages. Dans un échantillonnage sans remise, la valeur que prendra 𝑋2 dépend de la valeur
qui aura été prise par 𝑋1 par contre pour l’échantillonnage avec remise, 𝑋1 et 𝑋2 sont
indépendantes et ont la même loi que la loi du caractère étudié 𝑋. Si la population était de
taille infinie (en pratique si la population est très grande), tirer au hasard avec ou sans remise
revient à toute fin pratique au même. Dans la suite de cours on se restreint a l’échantillonnage
avec remise. Dans ce qui suit on suppose un 𝑛-echantillon (𝑋1 , 𝑋2 … 𝑋𝑛 ) aléatoire simple
avec remise c’est à dire 𝑋1 , 𝑋2 … 𝑋𝑛 sont des variables aléatoires indépendantes identiquement
distribuées (suivent la même loi de 𝑋)

II- Étude de la moyenne/écart type d'un échantillon


On considère une population sur laquelle est définie une variable aléatoire X, dont on connaît
l'espérance (ou la moyenne) 𝜇 et l'écart-type 𝜎 .On s'intéresse aux échantillons de taille n.

Ahmed DRISSI ENSA Tanger Page 6


Auront - ils toute la même moyenne ? Non, certains peuvent être constitués d'éléments
atypiques et avoir une moyenne très différente de celle de la population (surtout si
l'échantillon est de petite taille). Notons 𝑋̅ la variable aléatoire qui, à chaque échantillon de
taille n, associe sa moyenne (𝑋̅ s'appelle encore la distribution des moyennes des
échantillons). Que peut-on dire de cette variable aléatoire 𝑋̅ ?
Théorème Central Limite (Version faible)
Soit une variable aléatoire 𝑋 qui suit une loi normale sur la population 𝑋 ∼ 𝑁(𝜇, 𝜎). On
prélève, au hasard, un échantillon (tirage avec remise) de taille n de moyenne 𝑋̅. Alors la
𝜎
variable aléatoire 𝑋̅ suit également une loi normale 𝑋̅ ∼ 𝑁 (𝜇, 𝑛).

Démonstration
Notons 𝐸 = {𝑥1 , … 𝑥𝑛 } un échantilloa de n éléments prélevés au hasard dans la population.
Pour tout i compris entre 1 et n, notons 𝑋𝑖 , la variable aléatoire correspondant à la valeur du i-
éme élément 𝑥𝑖 , de l'échantillon. Nous savons, par hypothèse, que: 𝐸 (𝑋𝑖 ) = 𝜇 et 𝜎 (𝑋𝑖 ) = 𝜎.
𝑋 +⋯+𝑋
La moyenne 𝑋̅ des n valeurs de l'échantillon est: 𝑋̅ = 1 𝑛 𝑛 . D'après les propriétés de la
loi normale, nous savons qu'une combinaison linéaire de variables aléatoire qui suivent la loi
normale est encore une variable aléatoire qui suit la loi normale. Comme chaque variable
aléatoire 𝑋𝑖 ∼ 𝑁(𝜇, 𝜎) ; la variable aléatoire moyenne 𝑋̅ suit donc également une loi normale.
Calculons ses paramètres.
𝐸(𝑋 )+⋯+𝐸(𝑋𝑛 ) 𝑛𝜇
D'après la propriété de linéarité de l'espérance :𝐸 (𝑋̅) = 1 𝑛 = 𝑛 =𝜇
𝑉(𝑋1 )+⋯+𝑉(𝑋𝑛 ) 𝑛𝜎 2 𝜎 2 𝜎
D'après la propriété de variance, 𝑉 (𝑋̅) = = 𝑛2 = 𝑛 𝑑’où 𝜎 (𝑋̅) = 𝑛.
𝑛2 √
Théorème Central Limite (Version forte)
Soit une variable aléatoire 𝑋 qui suit une loi quelconque sur la population avec 𝐸 (𝑋) = μ et
σ(X) = σ. On prélève, au hasard, un échantillon (tirage avec remise) de taille n assez grande,
de moyenne 𝑋̅. Alors la variable aléatoire 𝑋̅ suit approximativement une loi normale: 𝑋̅ ∼
𝜎
𝑁 (𝜇, ).
√𝑛
Remarque
En pratique dans le théorème centrale limite, l’infinie est traduit par 𝑛 assez grande
(généralement si 𝑛 > 30).
𝜎
Il ne faut pas confondre l'écart-type 𝑛 de la variable aléatoire 𝑋̅ (qui est définie sur

l’ensemble des échantillons possibles de taille n) avec l'écart-type d'un échantillon prélevé
𝜎
(écart type empirique). Pour éviter cette confusion, la quantité 𝑛 parfois appelée "erreur

type".
Résumé
̅~N (μ, σ ).
Si la distribution de la population est normale X~N(μ, σ) alors X n √
σ
Si la distribution de la population est inconnue et si n ≥ 30 on aura ̅
X~N (μ, ).
√n
Exemple
Les statistiques des notes obtenues en mathématiques au BAC professionnel pour l'année
2014 sont : Moyenne nationale: 𝜇 =10,44 ; Écart-type : 𝜎 = 1,46 ; Une classe de BTS
comporte 35 élèves en 2014/2015 issus d'un BAC professionnel en 2014. Calculer la
probabilité que la moyenne de cette classe soit supérieure à 10.
Ici, nous ne connaissons pas la loi sur la population, mais l'effectif n de l'échantillon est
supérieur à 30. Nous allons donc pouvoir utiliser la version forte du théorème central limite.

Ahmed DRISSI ENSA Tanger Page 7


Notons 𝑋̅ la variable aléatoire qui, à tout échantillon de taille n=35, fait correspondre sa
𝜎 1.46 𝑋̅−10.44
moyenne. Alors 𝑋̅ ∼ 𝑁 (𝜇, ) = 𝑁 (10.44; ) ; posons 𝑇 = 1.46 ainsi 𝑇 ∼ 𝑁(0; 1).
√𝑛 √35
√35
𝑋̅−10.44 10−10.44
Nous obtenons alors par centrage et réduction:𝑝(𝑋̅ ≥ 10) = 𝑝 ( 1.46 ≥ 1.46 )=
√35 √35
𝑝(𝑇 ≥ −1.78) = 𝑝(𝑇 ≤ 1.78) = 𝜙 (1.78)
Et par lecture directe de la table de la loi normale centrée-réduite : 𝜙(1.87)= 0,9625
Conclusion : il y a environ 96% de chance que, dans cette classe de BTS, la moyenne des
notes au baccalauréat de Mathématiques soit supérieure à 10.
III- Étude d'une proportion dans un échantillon
Cette fois-ci, on suppose une population sur laquelle on étudie un caractère (ou attribut) A
dont on connaît la proportion 𝑝 dans la population. On s'intéresse aux échantillons de taille 𝑛.
La proportion du caractère A dans les échantillons sera-t-elle toujours la même ?
Evidemment non, cette proportion varie en fonction de l'échantillon choisi. Notons 𝐹 la
variable aléatoire qui, à chaque échantillon de taille 𝑛, associe sa proportion du caractère A (F
s'appelle distribution des fréquences des échantillons). Que peut-on dire de cette variable
aléatoire 𝐹?
Théorème
Une population sur laquelle on étudie un caractère A répandu avec une fréquence 𝑝. On
prélève, au hasard, un échantillon (tirage avec remise de taille ≥ 30 ). On note 𝐹 la variable
aléatoire correspondante à la fréquence du caractère A dans l'échantillon. Alors la variable
𝑝(1−𝑝)
aléatoire F suit approximativement une loi normale : 𝐹~𝑁 (𝑝; √ ).
𝑛

Démonstration
Nous allons avoir ici un modèle binomial dont on sait qu'il converge vers la loi normale. Pour
tout 𝑖 compris entre 1 et 𝑛, notons 𝑋𝑖 , la variable aléatoire définie par :
1 𝑠𝑖 𝑙𝑒 𝑖é𝑚𝑒 é𝑙é𝑚𝑒𝑛𝑡 𝑑𝑒 𝑙 ′ é𝑐ℎ𝑎𝑛𝑡𝑖𝑙𝑙𝑜𝑛 𝑝𝑜𝑠𝑠é𝑑𝑒 𝑙 ′ 𝑎𝑡𝑡𝑟𝑖𝑏𝑢 𝐴
𝑋𝑖 = {
0 𝑠𝑖𝑛𝑜𝑛
La variable aléatoire 𝑋𝑖 , suit une loi de Bernoulli de paramètre 𝑝 . La variable aléatoire
𝑋 = 𝑋1 + ⋯ + 𝑋𝑛 est donc binomiale de paramètres 𝑛 et 𝑝 : 𝑋~𝐵(𝑛, 𝑝) en conséquence
𝐸 (𝑋) = 𝑛𝑝 et 𝜎(𝑋) = √𝑛𝑝(1 − 𝑝).
𝑋
La variable aléatoire 𝐹 = 𝑛 correspond ainsi à la fréquence de l'attribut A dans l'échantillon
𝐸(𝑋) 𝜎(𝑋)
D'après les propriétés de l'espérance et de l'écart - type : 𝐸 (𝐹 ) = = 𝑝 et 𝜎 (𝐹 ) = =
𝑛 𝑛
𝑝(1−𝑝)
√ .
𝑛
Exemple
Une élection a eu lieu et un candidat a eu 40 % des voix. On prélève un échantillon de 100
bulletins de vote. Quelle est la probabilité que, dans l'échantillon, le candidat ait entre 35 % et
45% des voix ?
Ici , nous avons n = 100 et p = 0,4 . La variable aléatoire F correspondant à la fréquence des
0,4𝑥0,6 0,24
votes pour le candidat dans l'échantillon vérifie donc : 𝐹~𝑁 (0,4; √ ) = 𝑁 (0,4; √ 10 )
100
𝐹−0,4
Posons 𝑇 = √0,24
ainsi 𝑇~𝑁(0,1). Nous obtenons alors par centrage et réduction : 𝑝(0,35 ≤
10
𝐹 ≤ 0,45) = 𝑝(−1,02 ≤ 𝑇 ≤ 1,02) = 2∅(1,02) − 1 et par lecture directe de la table de la
loi normale centrée – réduite ∅(1,02) = 0,8461 d’où 𝑝(0,35 ≤ 𝐹 ≤ 0,45) = 0,6922 . Il y a

Ahmed DRISSI ENSA Tanger Page 8


donc environ 69 % de chance que, dans un échantillon de taille n = 100, le candidat ait entre
35 et 45 % des voix.

En analysant l’exercice ci-dessus on constate que l’on dispose des informations sur la
population (ici l’ensemble des votes) parce que l’élection a déjà eu lieu. On en déduit des
informations sur l’échantillon. Mais dans la pratique, c’est souvent le phénomène réciproque
que nous étudierons : les élections n’ont pas encore eu lieu et on voudrait retrouver les
informations sur la population grâce un sondage réalisé sur un échantillon. D’où le chapitre
suivant de ce polycopié est consacrée à l’estimation.

Ahmed DRISSI ENSA Tanger Page 9


Chapitre 2 : L’Estimation
L'objectif de ce chapitre est de répondre à la problématique suivante : comment à partir
d'information moyenne/écart-type ou proportion calculées sur un échantillon, retrouver ou
plutôt estimer celles de la population mère ? Et ce avec une précision la plus élevée possible.
L’estimation est le problème réciproque de l'échantillonnage ; c’est l’évaluation d’un
paramètre inconnu 𝜃 de la population par une ou plusieurs valeurs possibles. Quand on
estime 𝜃 par une valeur unique, on parle d’estimation ponctuelle. Quand on estime 𝜃 par un
intervalle de valeurs, on parle d’estimation par intervalle de confiance. La distribution exacte
d’une variable aléatoire 𝑋 modélisant le caractère qui intéresse le staticien est généralement
partiellement connu. Souvent la loi de 𝑋 dépend d’un paramètre inconnu. On cherche à se
faire une idée sur ce paramètre de données observées sur l’échantillon.

I- Généralités sur les estimateurs


Soit 𝑋 une variable aléatoire dont la loi dépend d’un paramètre inconnu 𝜃. Soit
(𝑋1 , 𝑋2 , … . 𝑋𝑛 ) un 𝑛 −échantillon et (𝑥1 , 𝑥2 , … . 𝑥𝑛 ) sa réalisation. Il s’agit d’estimer le
paramètre 𝜃.
- Un estimateur d’un paramètre 𝜃 d’une population est une fonction de valeurs observées
𝑋1 , 𝑋2 , … . 𝑋𝑛 susceptibles de servir à estimer 𝜃 ; on écrit 𝑇𝜃 = 𝑓(𝑋1 , 𝑋2 , … . 𝑋𝑛 ).
- On appelle erreur d’estimation 𝑇 − 𝜃 ; on écrit 𝑇 − 𝜃 = 𝑇 − 𝐸 [𝑇] + 𝐸 [𝑇] − 𝜃 ; le terme
𝑇 − 𝐸 [𝑇] traduit la fluctuation de 𝑇 autour de son espérance. Le terme 𝐵(𝑇) = 𝐸 [𝑇] − 𝜃
représente l’erreur systématique et s’appelle biais de l’estimateur.
- Un estimateur 𝑇 de 𝜃 est dit sans biais si 𝐵(𝑇) = 0 (𝐸 [𝑇] = 𝜃 ).
- Un estimateur 𝑇 de 𝜃 est dit asymptotiquement sans biais si 𝐸 [𝑇] → 𝜃, 𝑛 → ∞.
- Si 𝑇 et 𝑇0 deux estimateurs sans biais de 𝜃 ; on dit que 𝑇 est plus efficace que 𝑇0 si
𝑉(𝑇) ≤ 𝑉 (𝑇0 ).
- L’estimateur sans biais et de variance minimale est appelé estimateur efficace.
Remarque
Pour un même paramètre, il peut y avoir plusieurs estimateurs possibles. Par exemple le
paramètre 𝜆 d’une loi de poisson admet comme estimateurs possible la moyenne empirique et
la variance empirique.

II- Estimation de la moyenne/écart type d’une population


1- Estimation ponctuelle
a) Estimateur de la moyenne

Soit 𝑋 une variable aléatoire dont on veut estimer la moyenne 𝜇 = 𝐸[𝑋] à partir d’un n-
échantillon (𝑋1 , 𝑋2 , … . 𝑋𝑛 ) de 𝑋 .
Théorème
𝑋 +𝑋 +⋯+𝑋𝑛
𝑋̅ = 1 2𝑛 est un estimateur efficace de 𝜇.
Preuve
𝑋̅ est sans biais car 𝐸[𝑋̅] = 𝜇.
𝑉(𝑋)
𝑉 (𝑋̅) = → 0, 𝑛 → ∞. Si 𝑇 un autre estimateur de 𝜇 on aura 𝑉(𝑋̅) < 𝑉(𝑇) .
𝑛

b) Estimateur de la variance

Ahmed DRISSI ENSA Tanger Page 10


Le cas 1 : 𝜇 connue
Théorème
Soit 𝑋 une variable aléatoire qui suit une loi de paramètres 𝜇, 𝜎 avec 𝜇 connue.
∑𝑛 (𝑋𝑖 −𝜇)2
𝑇𝑛2 = 𝑖=1 est un estimateur efficace de 𝜎 2 .
𝑛
Preuve
∑𝑛
𝑖=1(𝑋𝑖 −𝜇)
2 ∑𝑛 2 2
𝑖=1((𝑋𝑖 ) −2𝑋𝑖 𝜇+𝜇 ) ∑𝑛 2 2
𝑖=1(𝐸((𝑋𝑖 ) )−2𝐸(𝑋𝑖 )𝜇+𝜇 )
𝐸 (𝑇𝑛2 ) = 𝐸 ( )=𝐸( )= .
𝑛 𝑛 𝑛
∑𝑛 2 2 2
𝑖=1(𝐸((𝑋𝑖 ) )−2𝜇 +𝜇 ) ∑𝑛 2 2
𝑖=1(𝐸((𝑋𝑖 ) )−𝜇 ) ∑𝑛 2
𝑖=1 𝐸((𝑋𝑖 ) )−𝑛𝜇
2
= = = ..
𝑛 𝑛 𝑛
𝑛
1
= ∑(𝑉(𝑋𝑖 ) + (𝐸(𝑋𝑖 ))2 ) − 𝜇2 = 𝜎 2 +𝜇2 − 𝜇2 = 𝜎 2
𝑛
𝑖=1

∑𝑛
𝑖=1(𝑋𝑖 −𝜇)
2 1 1
𝑉 (𝑇𝑛2 ) = 𝑉 ( ) = 𝑛2 ∑𝑛𝑖=1 𝑉 ((𝑋𝑖 − 𝜇)2 ) = 𝑛2 ∑𝑛𝑖=1 𝐸 ((𝑋𝑖 − 𝜇)4 ) − (𝐸((𝑋𝑖 −
𝑛
2
𝜇)2 )) .
=⋯→0
Le cas 2 : 𝜇 inconnue
Théorème
Soit 𝑋 une variable aléatoire qui suit une loi de paramètres 𝜇, 𝜎 avec 𝜇 inconnue. La
∑𝑛 ̅ 2
𝑖=1(𝑋𝑖 −𝑋 )
variance empirique 𝑆𝑛2 = est un estimateur biaisé de 𝜎 2 mais asymptotiquement
𝑛
sans biais.
Preuve
∑𝑛 ̅ 2
𝑖=1(𝑋𝑖 −𝑋 ) 1
𝐸 (𝑆𝑛2 ) = 𝐸 ( ) = 𝐸 (𝑛 ∑𝑛𝑖=1(𝑋𝑖2 − 2𝑋𝑖 𝑋̅ + 𝑋̅ 2 )).
𝑛
𝑛 𝑛
1 1 1
= 𝐸 ( ∑ 𝑋𝑖2 − 2𝑋̅ ∑ 𝑋𝑖 + 𝑛 𝑋̅ 2 )
𝑛 𝑛 𝑛
𝑖=1 𝑖=1
𝑛
1
= 𝐸 ( ∑ 𝑋𝑖2 − 2𝑋̅ 2 + 𝑋̅ 2 )
𝑛
𝑖=1
𝑛
1
= 𝐸 ( ∑ 𝑋𝑖2 − 𝑋̅ 2 )
𝑛
𝑖=1
𝑛
1
= ∑ 𝐸(𝑋𝑖2 ) − 𝐸(𝑋̅ 2 )
𝑛
𝑖=1
𝑛
1 2 2
= ∑ 𝜎 2 + (𝐸(𝑋𝑖 )) − (𝜎𝑋2̅ + (𝐸(𝑋̅)) )
𝑛
𝑖=1
1
= (𝑛𝜎 2 ) + 𝜇2 − 𝜎𝑋2̅ − 𝜇2
𝑛
𝜎2
= 𝜎 2 − 𝜎𝑋2̅ = 𝜎 2 −
𝑛
𝑛−1 2
= 𝑛 𝜎 .
𝑛−1 1
𝐵(𝑆𝑛2 ) = 𝐸 (𝑆𝑛2 ) − 𝜎 2 = 𝜎2 − 𝜎2 = − 𝑛 𝜎2.
𝑛
𝐵(𝑆𝑛2 ) → 0; 𝑛 → +∞.
Théorème

Ahmed DRISSI ENSA Tanger Page 11


Soit 𝑋 une variable aléatoire qui suit une loi de paramètres 𝜇, 𝜎 avec 𝜇 inconnue. La variance
𝑛 ∑𝑛 (𝑋 −𝑋̅)2
empirique 𝑆𝑛′2 = 𝑛−1 𝑆 2 = 𝑖=1𝑛−1 𝑖
est un estimateur sans biais de 𝜎 2 .
Preuve
𝑛 𝑛 𝑛−1
𝐸(𝑆′2𝑛 ) = 𝑛−1 𝐸 (𝑆𝑛2 ) = 𝑛−1 𝑛 𝜎 2 = 𝜎 2 donc sans biais.
Remarque
Si 𝑛 est assez grande on aura 𝐸(𝑆′2𝑛 ) ≈ 𝐸 (𝑆𝑛2 ), on préfère 𝑆 2 .
Si 𝑛 est assez petite, on préfère 𝑆𝑛′2 .
Remarque
n
Le coefficient √n−1 s'appelle correction de biais. Lorsque la taille de l'échantillon est assez
grande (en pratique > 30), ce coefficient est très voisin de 1, si bien que, dans ce cas, on peut
estimer par 𝑆𝑛2 .
Exemple 1
Un club de sport comporte 1500 membres. On mesure la taille de 20 d'entre eux. La moyenne
𝜇0 , et l'écart - type 𝜎0 calculés à partir de cet échantillon sont : 𝜇0 = 176𝑐𝑚 et 𝜎0 = 6𝑐𝑚
20
Nous pouvons donc estimer les paramètres de la population : F = 176 cm et√19 6 ≈ 6,16𝑐𝑚.
Exemple 2
Lors d’un concours radiophonique , on note 𝑋 le nombre de réponses reçues chaque jour. On
suppose 𝑋~𝑁(𝜇, 𝜎).
Durant 10 jours on a obtenu les 𝑥𝑖 : 200,240,190,150,220,180,170,230,210 ,210.
Donner une estimation ponctuelle de 𝜇 et de 𝜎 2 .
𝑋 +𝑋 +⋯+𝑋
Dans ce cas, la taille de l’échantillon 𝑛 = 10 ; 𝑋̅ = 1 210 10 est un estimateur de 𝜇. Sa
𝑥 +𝑥 +⋯+𝑥 200
réalisation 𝑥̅ = 1 210 10 = 10 = 200 est une estimation ponctuelle efficace de 𝜇.
On est dans le cas ou la moyenne 𝜇 n’est pas connue.
𝑋 2 +𝑋 2+⋯+𝑋10 2
𝑆 2 = 1 2 10 − 𝑋̅ 2 est un estimateur biaisé de 𝜎 2 . Sa réalisation 𝑠 2 =
𝑥1 2 +𝑥2 2 +⋯+𝑥10 2
− 𝑥̅ 2 = 40700 − 40000 = 700 est une estimation ponctuelle biaisé de 𝜎 2 .
10
𝑛 10 10
𝑆′2 = 𝑛−1 𝑆 2 = 9
𝑆 2 est un estimateur sans biais de 𝜎 2 . Sa réalisation 𝑆′2 = 9
𝑆2 =
10
700 = 778 est une estimation ponctuelle sans biais de 𝜎 2 .
9
Exemple 3
On considère l’échantillon statistique (1,0,2,1,1,0,1,0,0) ;
a. Calculer sa moyenne et sa variance empirique.
b. En supposant que les données de cet échantillon sont des réalisations d’une variable
de loi inconnue, donner une estimation non biaisée de l’espérance de la variance de
cette loi.
c. On choisit de modéliser les valeurs de cet échantillon par une loi binomiale 𝛽 (2, 𝑝).
Utiliser la moyenne empirique pour proposer une estimation ponctuelle 𝑝.

a) La moyenne et la variance empirique de cet échantillon sont données comme suit :


𝑥 +𝑥 +⋯+𝑥9 6 2
𝑥̅ = 1 2 = = .
9 9 3
𝑋1 2 +𝑋2 2+⋯+𝑋9 2 12 +02 +22 +12 +12 +02 +12 +02 +02 2 2 4
𝑆2 = − 𝑋̅ 2 = − (3) = 9 .
9 9
b) L’estimation non biaisé de l’espérance et de la variance de cette loi inconnue est
déterminée comme suit :

Ahmed DRISSI ENSA Tanger Page 12


- L’estimation non biaisé de l’espérance de cette loi inconnue est donnée par la moyenne
2
empirique 𝑥̅ déjà calculé dans la question précédente 𝐸 (𝑋) = 𝑥̅ = 3.
𝑛
- L’estimation non biaisé de la variance de cette loi inconnue est donnée par 𝑆′2 = 𝑆2,
𝑛−1
49 1
on trouve 𝑆′2 = 9 8 = 2 ;
c) Puisque 𝑋~𝛽 (2, 𝑝) → 𝐸 (𝑋) = 𝑛𝑝 = 2𝑝. L’espérance mathématique de cette loi
2
binomiale est estimée par la moyenne empirique (ici 𝑥̅ = 3) donc l’estimation de la
𝑥̅ 2/3 1
probabilité 𝑝 peut etre déterminée comme suit : 𝐸 (𝑋) = 2𝑝 = 𝑥̅ ⇒ 𝑝 = 2 = 2 = 3
Remarque
Nous n’avons fait qu'une estimation, il est bien sûr impossible de retrouver les vraies
caractéristiques 𝜇 et 𝜎 de la population. L'estimation ponctuelle permet surtout de
disposer d'une valeur de référence pour poursuivre/affiner les calculs. On souhaiterait
notamment pouvoir faire une estimation par intervalle, en contrôlant le risque pris.

2- Estimation par intervalle de confiance


Il est plus réaliste de fournir une estimation de type 𝑡1 < 𝜃 < 𝑡2 plutôt que décrire sèchement
𝜃 = 𝑡, car on sait que la valeur estimée 𝑡 différe toujours de la valeur exacte du paramètre
recherché 𝜃. Il est donc souhaitable de donner la précision de l’estimation en acceptant de
faire une erreur 𝛼 sur celle-ci.
Définition
Soit 𝑋 une variable aléatoire dont la loi dépend d’un paramètre inconnue 𝜃, on appelle
intervalle de confiance pour 𝜃 de niveau 1 − 𝛼 (ou risque 𝛼), l’intervalle [𝑡1 , 𝑡2 ] qui a la
probabilité 1 − 𝛼 de constater la vraie valeur de 𝜃. 𝑝(𝑡1 < 𝜃 < 𝑡2 ) = 1 − 𝛼.
Remarque
Si on augmente le niveau de confiance 1 − 𝛼, on augmente la longueur de l’intervalle [𝑡1 , 𝑡2 ].

A- Intervalle de confiance pour une moyenne


Nous avons vu, dans la théorie de l’échantillonnage, que si 𝑋̅ est la variable aléatoire
correspondant à la moyenne d'un échantillon de taille n pris au hasard, alors le Théorème
Central Limite permet d'affirmer que sous certaines conditions 𝑋̅ suit approximativement une
𝜎
loi normale : 𝑋̅~𝑁 (𝜇, 𝑛). Nous allons chercher un intervalle qui contient 𝜇 avec une

confiance arbitraire de 1 − 𝛼 (1 − 𝛼 pourrait être, en général, 95 % ou 99% ou un autre
coefficient de confiance). Nous cherchons donc un rayon 𝑟 tel que : 𝑝(𝑋̅ − 𝑟 ≤ 𝜇 ≤ 𝑋̅ + 𝑟) =
1 − 𝛼. Cette disposition des inégalités n’est pas pratique mais il y a une correspondance
remarquable entre deux événements qui va nous faciliter les calculs :
𝑋̅ − 𝑟 ≤ 𝜇 ≤ 𝑋̅ + 𝑟 ⟺ 𝑋̅ − 𝑟 − (𝑋̅ + 𝜇) ≤ 𝜇 − (𝑋̅ + 𝜇) ≤ 𝑋̅ + 𝑟 − (𝑋̅ + 𝜇)
⟺ −𝑟 − 𝜇 ≤ −𝑋̅ ≤ 𝑟 − 𝜇
⟺ 𝜇 − 𝑟 ≤ 𝑋̅ ≤ 𝜇 + 𝑟
Alors 𝑝(𝑋̅ − 𝑟 ≤ 𝜇 ≤ 𝑋̅ + 𝑟) = 𝑝(𝜇 − 𝑟 ≤ 𝑋̅ ≤ 𝜇 + 𝑟) = 1 − 𝛼
Nous somme ainsi amenés à calculer 𝑝(𝜇 − 𝑟 ≤ 𝑋̅ ≤ 𝜇 + 𝑟) = 1 − 𝛼 la probabilité que la
moyenne 𝑋̅ de l’échantillon tombe dans un intervalle centré en 𝜇. On sait que la variable
𝑋̅−𝜇 𝜇−𝑟−𝜇
aléatoire 𝑇~ 𝜎/ ~𝑁(0,1). Nous obtenons donc par centrage et réduction 𝑝 ( ≤
√ 𝑛 𝜎/√𝑛
𝑋̅−𝜇 𝜇+𝑟−𝜇 𝑟 √𝑛 𝑟 √𝑛
𝜎/√𝑛
≤ 𝜎/√𝑛
) = 1 − 𝛼 ce entraine que 𝑝 (− 𝜎
≤ T≤ 𝜎
) = 1 − 𝛼, il s’ensuit que

Ahmed DRISSI ENSA Tanger Page 13


𝑟 √𝑛 𝑟 √𝑛 𝛼
2∅ ( ) − 1 = 1 − 𝛼 d’où ∅ ( ) = 1 − 2 . Nous cherchons donc par lecture inverse de la
𝜎 𝜎
𝛼 𝑟 √𝑛
table de la loi normale centré réduite une borne 𝑡 tel que ∅(t) = 1 − 2 . c’est-à-dire = 𝑡 le
𝜎
𝜎
rayon 𝑟 de l’intervalle cherché est 𝑟 = 𝑡 . Pour calculer les bornes de cet intervalle, deux
√𝑛
cas qui se présentent :
 Si l’écart type 𝜎 de la population est connu, il n’y a rien à faire.
 Si l’écart type 𝜎 de la population n’est pas connu, on le remplace par son estimation
n 𝜎 n 𝑆𝑛 𝑆𝑛
ponctuelle √n−1 𝑆𝑛 . Dans ce cas, nous obtenons r = 𝑡 = t√n−1 =t .
√𝑛 √n √n−1

Remarque
On constate ici que le fait de ne pas connaitre 𝜇 n’est pas gênant.
On ne retient pas ces formules. Dans la pratique on refait les calculs.
Exemple
Un club de sport comporte 1500 membres. On mesure la taille de 40 d’entre eux. La moyenne
𝜇0 et l’écart type 𝜎0 calculé à partir de cet échantillon sont 𝜇0 = 176 𝑐𝑚 et 𝜎0 = 6 𝑐𝑚. Nous
avons déjà estimé ponctuellement les paramètres de la population 𝜇̅ = 176 𝑐𝑚 et 𝜎̅ =
20
√19 6 ≈ 6.16 𝑐𝑚. Déterminons maintenant une estimation de 𝜇 par intervalle de confiance à
95% (ou au risque de 5%). Notons 𝑋̅ la variable aléatoire correspondant à la moyenne d’un
𝜎 𝜎
échantillon de taille 20 pris au hasard. On sait que 𝑋̅ ~𝑁 (𝜇, 𝑛) = 𝑁 (𝜇, 20) ; on calcule un
√ √
𝑋̅−𝑟
rayon r tel que 𝑝(𝜇 − 𝑟 ≤ 𝑋̅ ≤ 𝜇 + 𝑟) = 0.95. on pose 𝑇 = 𝜎/ 20 ainsi 𝑇~𝑁(0,1) et donc

√40 √40 √40 √40
𝑝 (−𝑟 𝜎 ≤𝑇≤ 𝑟 𝜎 ) = 0.95 donc 2∅ (𝑟 𝜎 ) − 1 = 0,95 alors ∅ (𝑟 ) = 0,975 où
𝜎
√40
𝑡 = 𝑟 𝜎 . Nous cherchons donc, par lecture inverse de la table de la loi normale centré
réduite une borne t tel que ∅(𝑡) = 0,975 la borne t=1,96 convient. Ainsi notre réel r cherché
√40 𝜎
est tel que 𝑟 𝜎 = 1.96 et 𝑟 = 40 1.96 mains une fois l’échantillon tiré, nous avons obtenu

un écart type estimant 𝜎̅ = 6.16 𝑐𝑚 d’où 𝑟 ≈ 1.91. la réalisation de l’intervalle de confiance
à 95% sur cet échantillon est 𝐼𝐶 = [176 − 1.91; 176 + 1.91] = [174.09; 177.91] . Nous
pouvons donc estimer, avec une confiance de 95% que la taille moyenne de la population est
comprise entre 174.09 et 177.91cm.

B- Intervalle de confiance pour la variance d’une variable gaussienne


On suppose 𝑋~𝑁(𝜇, 𝜎)
Le cas 1 : 𝜇 est connue (peu fréquent)
1 1
𝑇𝑛2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2 est un estimateur efficace de 𝜎 2 , sa réalisation est 𝑡 2 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 −
𝜇) 2 .
𝑛
𝑋𝑖 − 𝜇 𝑋𝑖 − 𝜇 2
𝑋~𝑁(𝜇, 𝜎) ⇒ 𝑋𝑖 ~𝑁(𝜇, 𝜎), ∀𝑖 = 1 … 𝑛 ⇒ ~𝑁(0,1) ⇒ ∑ ( ) ~𝜒𝑛2
𝜎 𝜎
𝑖=1

Ahmed DRISSI ENSA Tanger Page 14


𝑋𝑖 −𝜇 𝑋𝑖 −𝜇 2
En effet comme ~𝑁(0,1) alors ∑𝑛𝑖=1 ( ) est une somme de n variables aléatoires
𝜎 𝜎
𝑛𝑇𝑛2 𝑋𝑖 −𝜇 2 𝑛𝑇𝑛2
indépendantes qui suivent 𝑁(0,1), or = ∑𝑛𝑖=1 ( ) donc ~𝜒𝑛2 . L’erreur 𝛼 étant
𝜎2 𝜎 𝜎2
𝑛𝑇𝑛2
fixé, on cherche dans la table de 𝜒𝑛2 les valeurs de 𝑡1 et 𝑡2 tel que 𝑝 (𝑡1 < < 𝑡2 ) = 1 − 𝛼.
𝜎2
𝑛𝑇𝑛2 1 𝜎2 1 𝑛𝑇𝑛2 𝑛𝑇𝑛2
On a 𝑡1 < < 𝑡2 ⇔ 𝑡 < 𝑛𝑇 < 𝑡 ⇔ < 𝜎2 < .
𝜎2 2 1 𝑡2 𝑡1
𝑛𝑇𝑛2 𝑛𝑇𝑛2 𝑛𝑇𝑛2 𝑛𝑇 2 𝑛𝑇 2
1 − 𝛼 = 𝑝 (𝑎 = < 𝜎2 < = 𝑏) = 𝑝 (𝑎 < < 𝑏) = 𝑝 ( 𝜎2𝑛 < 𝑏) − ( 𝜎2𝑛 < 𝑎) =
𝑡2 𝑡1 𝜎2
𝛼 𝛼
1− − .
2 2
𝛼 𝛼
A partir du tableau 𝜒𝑛2 on extrait 𝑡1 et 𝑡2 tel que ∅(𝑎) = et ∅(𝑏) = 1 − 2 . On déduit que
2
[𝑎, 𝑏] est un intervalle de confiance de 𝜎 2 avec un risque 𝛼.
Le cas 2 : 𝜇 est inconnue
Théorème (Admis)
Si 𝑋1 , 𝑋2 , … 𝑋𝑛 sont des variables aléatoires indépendantes identiquement distribuées (qui
𝑋̅−𝜇 (𝑛−1)𝑆′2 ∑𝑛
𝑖=1 𝑋𝑖 ∑𝑛 ̅ 2
𝑖=1(𝑋𝑖 −𝑋 )
suivent 𝑁(𝜇, 𝜎)) alors 𝜎/ ~𝑁(0,1) et 2
~𝜒𝑛−1 avec 𝑋̅ = et 𝑆′ = .
√ 𝑛 𝜎2 𝑛 𝑛−1
Explication
1
𝑆′ = 𝑛−1 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2 est un estimateur sans biais de 𝜎 2 , et d’après ce dernier théorème,
(𝑛−1)𝑆′2 2 2
On a ~𝜒𝑛−1 . On cherche dans la table de 𝜒𝑛−1 les valeurs de 𝑡1 et 𝑡2 tel que 𝑝 (𝑡1 <
𝜎2
(𝑛−1)𝑆′2
< 𝑡2 ) = 1 − 𝛼 (par la même méthode que le cas 1).
𝜎2

III- Estimation d’une proportion


1- Estimation ponctuelle
Nous avons vu, dans la théorie de l’échantillonnage, que si F est la variable aléatoire
correspondante à la proportion d’un caractère dans un échantillon de taille n pris au hasard,
𝑝(1−𝑝)
alors F suit approximativement une loi normale 𝐹~𝑁(𝑝, 𝜎𝑝 ) où 𝜎𝑝 = √ .
𝑛
Remarque
La condition « 𝐹 converge vers 𝑁(𝑝, 𝜎𝑝 ) » est traduit en pratique par « si 𝑛𝑝 >
5 𝑒𝑡 𝑛(1 − 𝑝) > 5 ou 𝑛 > 30 alors 𝐹~𝑁(𝑝, 𝜎𝑝 ) ».

Lemme
𝐸 (F) = p donc F est un estimateur sans biais de p.
p(1−p)
V(F) = donc F est un estimateur convergent de p.
n
Exemple 1
Deux sondages différents portant sur la même caractéristique d’une population sont effectués.
Dans le premier sondage, on a pris un petit échantillon de taille 𝑛 = 5, on a trouvé X = 3
𝑋 3
donc 𝑝̅ = 𝑛 = 5 = 60%. Dans le second sondage, on a pris un petit échantillon de taille 𝑛 =
100, cet échantillon a donné 𝑋 = 60 donc 𝑝̅ = 60%. Ces deux sondages donnent-ils la même
information ?

Ahmed DRISSI ENSA Tanger Page 15


Réponse : Non, le second résultat est beaucoup plus précis que le premier. (Comparant les
variances des deux cas).
Exemple
A quelques jours d’une élection, un candidat fait effectuer un sondage. Sur les 150 personnes
interrogées, 45 se disent prêtes à voter pour lui aux prochaines élections. La proportion
45
d’individus prête à voter pour ce candidat dans l’échantillon est ici de 𝑝0 = 150 = 0.3. on
estime donc qu’il en est de même dans la population (comment pourrait-on faire
autrement ?) : 𝑝̅ = 𝑝0 = 0.3. Quant à l’indication 𝜎𝑝 , on peut ici l’estimer par : ̅̅̅ 𝜎𝑝 =
𝑝0 (1−𝑝0 ) 0.3×0.7
√ =√ ≈ 0.037.
𝑛 150
On voudrait aller plus loin et, au lieu d’une simple proportion, calculer un intervalle
contenant, avec une confiance arbitraire fixée au départ, la proportion 𝑝 d’individus prêts à
voter pour ce candidat.

2- Estimation par intervalle de confiance


Cherchons un intervalle qui contient 𝑝 avec une confiance arbitraire de 1 − 𝛼. Nous
cherchons donc un rayon r tel que : 𝑝(𝐹 − 𝑟 ≤ 𝑝 ≤ 𝐹 + 𝑟) = 1 − 𝛼. On sait que la variable
𝐹−𝑝
aléatoire 𝑇 = suit la loi normale centrée réduite 𝑁(0.1). Nous obtenons donc, par
𝜎𝑝
𝑝−𝑟−𝑝 𝐹−𝑝 𝑝+𝑟−𝑝
centrage et réduction : 𝑝 ( ≤ ≤ ) = 1 − 𝛼.
𝜎𝑝 𝜎𝑝 𝜎𝑝
−𝑟 𝑟 𝑟 𝑟 𝛼
𝑝 ( 𝜎 ≤ 𝑇 ≤ 𝜎 ) = 1 − 𝛼 , 2∅ (𝜎 ) − 1 = 1 − 𝛼, ∅ (𝜎 ) = 1 − 2 . On cherche une borne t
𝑝 𝑝 𝑝 𝑝
𝛼 𝑟
telle que : ∅(𝑡) = 1 − 2 avec 𝑡 = 𝜎 . Par lecture inverse de la table de la loi normale centré
𝑝
réduite 𝑁(0.1). Ce qui nous permet de calculer 𝑟 = 𝑡𝜎𝑝 . Supposons maintenant l’échantillon
𝑝(1−𝑝) p0(1−p0 )
prélevé. Or on 𝜎𝑝 = √ on le remplace par √ .
𝑛 n
Nous avons donc une estimation ponctuelle de p et σp . Ainsi, la réalisation de l’intervalle de
p0 (1−p0 ) p0 (1−p0 )
confiance dans l’échantillon est : IC = [p0 − t√ ; p0 + t√ ] (on ne retiendra
n−1 n−1
pas cette formule. Dans la pratique, on refait les calculs).
Exemple
A quelques jours d’une élection, un candidat a effectué un sondage. Sur 150 personnes
interrogées. 45se disent prêtes à voter pour lui aux prochaines élections. La proportion
45
d’individus prête à voter pour ce candidat dans l’échantillon est ici de 𝑝0 = 150 = 0.3. On a
déjà estimé ponctuellement 𝑝̅ = 𝑝0 = 0.3 et ̅̅̅ 𝜎𝑝 ≈ 0.037., Déterminons maintenant une
estimation de p par intervalle de confiance à 80%. Notons F la variable aléatoire
correspondante à la proportion d’individus prêts à voter pour ce candidat dans un échantillon
de taille 150 pris au hasard. Nous avons vu qu‘approximativement : 𝐹~𝑁(𝑝, 𝜎𝑝 ) où 𝜎𝑝 =
𝑝(1−𝑝) 𝑟
√ . On cherche un rayon r tel que 𝑝 (𝑝 − 𝑟 ≤ 𝐹 ≤ 𝑝 + 𝑟) = 0.8. 2∅ (𝜎 ) − 1 = 0.8 ;
𝑛 𝑝
𝑟
∅ (𝜎 ) = 0.9. Par lecture inverse de la table de la loi normale centré-réduite, on cherche une
𝑝
𝑟
borne 𝑡 telle que : ∅(𝑡) = 0.9 avec 𝑡 = 𝜎 . La valeur 𝑡 ≈ 1.28 convient donc 𝑟 = 1.28𝜎𝑝 .
𝑝
Supposons maintenant l’échantillon prélevé. Une estimation ponctuelle de 𝜎𝑝 est ̅̅̅
𝜎𝑝 ≈

Ahmed DRISSI ENSA Tanger Page 16


0.037 d’où la réalisation de l’intervalle de confiance dans cet échantillon est alors 𝐼𝐶 =
[0.3 − 0.047; 0.3 + 0.047] = [0.253; 0.347] . Nous pouvons estimer, avec une confiance de
80% que la proportion d’individus dans la proportion prête à voter pour le candidat en
question est comprise entre 25.3% et 34.7%.

Ahmed DRISSI ENSA Tanger Page 17


Chapitre 3 : Les tests statistiques

I- Généralités
Un test statistique est une procédure permettant de trancher entre deux hypothèses en prenant
une décision à partir d’informations fournies par un échantillon. L’hypothèse nulle, notée 𝐻0 ,
qui est supposée vraie en faveur du décideur jusqu’à preuve du contraire, dont on cherche à
vérifier par un raisonnement statistique. C’est l’hypothèse principal que l’on considère vraie à
priori. L’hypothèse alternative, notée 𝐻1 , est l’hypothèse qui sera acceptée si 𝐻0 est
{𝐻0 }
rejetée. {𝐻1 } ⊆ 𝐶 .

1. Concept de risque
Toute décision statistique comporte des risques d’erreur :
 Risque de première espèce
C’est le risque de rejeter 𝐻0 alors qu’elle est vraie. Ce risque est appelé aussi le seuil de
signification du test et noté 𝛼. 𝛼 = 𝑝(𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 / 𝐻0 𝑒𝑠𝑡 𝑣𝑟𝑎𝑖𝑒).
 Risque de deuxième espèce
C’est le risque de ne pas rejeter 𝐻0 alors qu’elle est fausse. 𝛽 = 𝑝(𝑟𝑒𝑗𝑒𝑡 𝐻1 / 𝐻1 𝑒𝑠𝑡 𝑣𝑟𝑎𝑖𝑒).

La décision
𝐻0 𝐻1
𝐻0 Conclusion correcte Risque de première espèce 𝛼
La vérité Niveau de confiance 1 − 𝛼
𝐻1 Risque de deuxième espèce 𝛽 Conclusion correcte
Puissance de test 1 − 𝛽
Exemple
Soit 𝜇 la moyenne du niveau de radioactivité en picocuries par litre. La valeur 𝜇0 = 5 est
considérée comme la valeur critique entre eau potable et non potable. Considérons les deux
hypothèses 𝐻0 vs 𝐻1 :
𝐻0 : 𝜇0 ≥ 5 (eau toxique).et 𝐻1 : 𝜇0 < 5 (eau potable).
𝛼 = 𝑝(𝑟𝑒𝑗𝑒𝑡𝑒𝑟 𝐻0 / 𝐻0 𝑣𝑟𝑎𝑖𝑒 ) ce qui correspond à laisser boire de l’eau toxique
𝛽 = 𝑝(𝑎𝑐𝑐𝑒𝑝𝑡𝑒𝑟 𝐻0 / 𝐻0 𝑓𝑎𝑢𝑠𝑠𝑒 ) ce qui conduit seulement à rejeter de l’eau potable
1 − 𝛽 représente la puissance de test.
Remarque
Les tests ne sont pas faits pour «démontrer» H0 mais pour «rejeter» H0 . L’aptitude d’un test
à rejeter H0 alors qu’elle est fausse constitue la puissance du test.
Pour quantifier le risque 𝛽, il faut connaître la loi de probabilité de la statistique sous
l’hypothèse 𝐻1 .

2. La variable de décision

Ahmed DRISSI ENSA Tanger Page 18


Soit 𝑋 une variable aléatoire d’une population donnée. Considérons un 𝑛-échantillon
(𝑋1 , 𝑋2 , … 𝑋𝑛 ). On nomme une variable de décision 𝑍, ou une statistique, une variable
aléatoire construite à partir d’un échantillon permettant de formuler une règle décision. Et
construite de telle façon à connaitre sa loi si 𝐻0 est vraie. Elle n’est pas unique.
La valeur numérique de la statistique obtenue pour l’échantillon considéré permet de
distinguer entre 𝐻0 vraie et 𝐻0 fausse.

3. La région d’acceptation et la région critique


a) Définition
La région d’acceptation est la partie de l’espace des échantillons 𝐸 qui permet d’accepter 𝐻0 ;
C’est-à-dire l’ensemble des valeurs observées de la statistique provoquant l’acceptation de
l’hypothèse nulle. 𝐴 = {(𝑥1 , 𝑥2 … 𝑥𝑛 ) ∈ 𝐸 / 𝐻0 𝑒𝑠𝑡 𝑣𝑟𝑎𝑖𝑒}.
La région critique ou de rejet est l’espace des échantillons 𝐸′ permettant de rejeter 𝐻0 ;c’est à
dire l’ensemble des valeurs observées de la statistique provoquant le rejet de l’hypothèse
nulle.𝑅 = {(𝑥1 , 𝑥2 … 𝑥𝑛 ) ∈ 𝐸′ / 𝐻0 𝑒𝑠𝑡 𝑓𝑎𝑢𝑠𝑠𝑒}.
b) La détermination des deux régions
On calcule la valeur de Z à partir de l’observation de l’échantillon. La région de rejet est
déterminée par 𝛼 = 𝑝(𝑍 ∈ 𝑅 𝑎𝑣𝑒𝑐 𝐻0 𝑒𝑠𝑡 𝑣𝑟𝑎𝑖𝑒) ce qui équivaut à « si 𝐻0 est vraie 1 − 𝛼 =
𝑝(𝑍 ∈ 𝐴) ».
c) La p-value (probabilité critique ou niveau de signification observé)
En pratique, plutôt que calculer la région critique en fonction de 𝛼, on prefere donner un seuil
𝛼 ∗ , appelée p-value. La p-value est la plus grande valeur de 𝛼 conduisant à ne pas rejeter 𝐻0 .
Cette information permet au lecteur de conclure l’acceptation de 𝐻0 pour tout risque de
première espèce 𝛼 ≤ 𝛼 ∗ et son rejet pour tout 𝛼 > 𝛼 ∗.
Définition
La p-value est la plus petite des valeurs de risque de première espèce pour lesquelles la
décision serait de rejeter 𝐻0 . C’est une mesure de la compatibilité des donnés avec
l’hypothèse privilégiée. Plus cette p-value est proche de zéro, plus la compatibilité est faible
et donc conduit à rejeter 𝐻0 .
Remarque
La proximité à zéro dépend de la sévérité que l’on s’impose à travers le risque 𝛼.
Plus 𝛼 est choisi petit, plus la règle de décision est stricte (ou conservative).

4. Formulation des tests statistiques


Dans tous les tests on travaille de la même façon en procédant comme suit :
a. Formulation de 𝐻0 et 𝐻1 .
b. Précision des conditions d’application (seuil de signification, taille de l’échantillon)
c. Détermination de la variable de décision et sa loi de probabilité.
d. Détermination de l’intervalle d’acceptation.
e. La prise de décision : acceptation de 𝐻0 si la valeur de Z est dans la région
d’acceptation, et le rejet sinon.
Exemple
Supposons qu’on cherche à tester l’hypothèse qu’une pièce de monnaie n’est pas « truquée »,
Soit 𝑋 la variable aléatoire correspondante au nombre de faces obtenus en lançant 100 fois la

Ahmed DRISSI ENSA Tanger Page 19


pièce. On adopte la règle de décision suivante : « 𝐻0 est acceptée si 𝑋 ∈ [40,60] » et « 𝐻0
rejetée si 𝑋 ∉ [40,60] (donc 𝑋 < 40 ou 𝑋 > 60 ».
1
𝐻0 : La pièce n’est pas truquée. 𝑋~𝛽 (100, )
2
Le risque d’erreur de première espèce est α avec 1 − α = p(X ∈ [40,60]) .
Si on reprend le même exemple on suppose la probabilité d’obtenir face est de 0.6 pour une
pièce truquée. En adoptant toujours la même règle de décision. 𝐻1 : la pièce est truquée
𝑋~𝛽 (100; 0.6). Le risque de seconde espèce est β avec 1 − β = p(X ∈ [40,60]). Pour
X~β(100; 0.6).

5. Les types de tests


On distingue deux classes de tests
a. Les tests paramétriques
Un test est dit paramétrique si la population mère (parente) est de distribution connue ; c’est-
à-dire les hypothèses sont relatives à un paramètre statistique associé à la loi de probabilité
décrivant la variable étudiée. Soit une population au sein de laquelle un échantillon aléatoire
est extrait. Cette population est caractérisée par un paramètre θ (moyenne, variance,
proportion …) qui est estimé par un estimateur (moyenne empirique, variance empirique,
fréquence…) en utilisant cet échantillon. Supposons que la vraie valeur de θ est inconnue.
Attribuons une valeur θ0 à θ et testons la validité de cette hypothèse. L’objectif de ce test est
de vérifier si θ est égale ou non la valeur θ0 . Donc l’hypothèse nulle est H0 : θ = θ0 .
Règle de décision : si l’échantillon appartient à A on accepte H0 , si l’échantillon appartient à
R on rejette H0 .
b. Formes des tests statistiques paramétriques
Test bilatéral
𝐻 : 𝜃 = 𝜃0
{ 0 ; On peut chercher 𝐴 = [𝑡1 , 𝑡2 ] tel que 𝑝(𝑡1 ≤ 𝑍 ≤ 𝑡2 𝑎𝑣𝑒𝑐 𝜃 = 𝜃0 ) = 1 − 𝛼
𝐻1 : 𝜃 ≠ 𝜃0
Test unilatéral à gauche (𝑅 =] − ∞, 𝑎[) 𝐴 =]𝑏, +∞[
𝐻 : 𝜃 = 𝜃0
{ 0 ; On peut chercher 𝐴 tel que 𝑝(𝑍 > 𝑏 𝑎𝑣𝑒𝑐 𝜃 = 𝜃0 ) = 𝛼
𝐻1 : 𝜃 < 𝜃0
Test unilatéral à droite (𝑅 =]𝑏 , +∞[) 𝐴 =] − ∞, 𝑏[
𝐻 : 𝜃 = 𝜃0
{ 0 ; On peut chercher R tel que 𝑝(𝑍 < 𝑏 𝑎𝑣𝑒𝑐 𝜃 = 𝜃0 ) = 𝛼.
𝐻1 : 𝜃 > 𝜃0
a. Les tests non paramétriques
Les tests non paramétriques sont des tests dont le modèle ne précise pas les conditions que
doivent remplir les paramètres de la population dont a été extrait l’échantillon. Un test non
paramétrique compare globalement la répartition des observations et n’exige aucune
connaissance sur la loi de probabilité décrivant la variable étudiée. On cherche l’écart entre la
distribution théorique et la distribution observée si cet écart est significativement grand,
l’hypothèse 𝐻0 rejeté au seuil considéré. On cite le test khi-deux, le test Kolmogorov
Smirnov, …
Remarque
Les tests paramétriques, quand leurs conditions sont remplies, sont les plus puissants que les
tests non paramétriques. Les tests non paramétriques s’emploient lorsque les conditions

Ahmed DRISSI ENSA Tanger Page 20


d’applications des autres méthodes ne sont pas satisfaites, ils peuvent s’utiliser même pour
des échantillons de taille très faible. Si toutes les hypothèses nécessaires, à un test
paramétrique, sont vérifiées, on perd de l’information en utilisant un test non paramétrique.

II- Test de conformité


Le test de conformité consiste à confronter un paramètre calculé sur l’échantillon à une valeur
préétablie. Les plus connus sont certainement les tests portant sur la moyenne, la variance ou
sur les proportions. On connaît la loi théorique (en général la loi normale).
Exemple
Dans un jeu de dés à 6 faces, on sait que la face 3 a une probabilité de 1/6 d’apparaître. On
demande à un joueur de lancer 100 fois le dé, on teste alors si la fréquence d’apparition de la
face 3 est compatible avec la probabilité 1/6. Si ce n’est pas le cas, on peut se poser des
questions sur l’intégrité du dé.

A- Test de conformité de la moyenne


Soit 𝜇 la moyenne de la population et 𝑋̅ la moyenne de l’échantillon, la vraie valeur de 𝜇 est
inconnue. Attribuons une valeur 𝜇0 à 𝜇 et testons la validité de cette hypothèse.
L’hypothèse nulle 𝐻0 : 𝜇 = 𝜇0 .
La variable de décision est l’estimateur 𝑋̅.
La règle de décision : si 𝑥̅ ∈ 𝐴, on accepte 𝐻0 et si 𝑥̅ ∉ 𝐴, on rejette 𝐻0 .
Etant donné 𝛼 le seuil de signification et 𝑛 la taille de l’échantillon . Le calcul de l’intervalle
d’acceptation se fait à partir de 1 − 𝛼 = 𝑝(𝑋̅ ∈ 𝐴) et il dépend de 𝐻1 en effet 𝐴 = [𝐵, 𝐵′]
dans le cas bilatéral, 𝐴 =] − ∞, 𝐵]dans le cas unilatéral à droite et 𝐴 = [𝐵, ∞[ pour le cas
unilatéral à gauche.
Exemple
On veut tester si le salaire hebdomadaire moyen des employés d’une entreprise est 𝜇0 =
2500DH avec un risque d’erreur de première espèce 𝛼 = 0.05. On prélève un échantillon
aléatoire avec remise de taille 𝑛 = 100 de l'ensemble des employés. Pour cet échantillon, on
trouve une moyenne de 2000 DH de salaire hebdomadaire et un écart type de 400DH.
- Formuler les hypothèses 𝐻0 et 𝐻1 (bilatéral, unilatéral à droite et à gauche)
- Déterminer la variable de décision.
- Déterminer l’intervalle d’acceptation.
- Déterminer la décision prise.
Test bilatéral
 Formulation des hypothèses
L’hypothèse nulle 𝐻0 : 𝜇 = 𝜇0 = 2500DH
L’hypothèse alternative 𝐻1 : 𝜇 ≠ 𝜇0 alors l’intervalle de l’acceptation est de la forme [𝑎, 𝑏]
 La variable de décision
La variable de décision n’est que 𝑋̅ l’estimateur de 𝜇
 L’intervalle d’acceptation
[𝑎, 𝑏] est centré par 𝜇 donc 1 − 𝛼 = 𝑝(𝑋 ̅ ∈ [𝑎, 𝑏]) = 𝑝(𝜇 − 𝑟 ≤ 𝑋 ̅ ≤ 𝜇 + 𝑟)
𝑟√𝑛 ̅ −𝜇
𝑋 𝑟√𝑛
= 𝑝(− ≤ ≤ )
𝜎 𝜎/√𝑛 𝜎

Ahmed DRISSI ENSA Tanger Page 21


𝜎
Puisque 𝑛 = 100 ≥ 30 et d’après le théorème centrale limite on aura 𝑋̅~𝑁(𝜇, ).
√𝑛
̅ −𝜇
𝑋
Par changement de variable (𝜎/√𝑛 ~𝑁(0,1) et à partir des tableaux des probabilités de la loi
𝑟√𝑛
normale centrée réduite, on déduit que 𝜎
= 1.96.
𝑛
Remplaçant 𝜎 par sen estimation ponctuelle 𝑆′ = √ 𝑆 = 400 = 402.015 on obtient 𝑟 = 78.79
𝑛−1

d’où l’intervalle d’acceptation est 𝐴 = [𝜇0 − 𝑟; 𝜇0 + 𝑟] = [2421.2; 2578.


 La décision
𝑥̅ = 2000 ∉ 𝐴 d’où le rejet de 𝐻0
Test unilatéral à droite

 Formulation des hypothèses


L’hypothèse nulle 𝐻0 : 𝜇 = 𝜇0 = 2500DH
L’hypothèse alternative 𝐻1 : 𝜇 > 𝜇0 alors l’intervalle de l’acceptation est de la forme
𝐴 =] − ∞, 𝑎[=] − ∞, 𝜇0 + 𝑟[
 La variable de décision
La variable de décision n’est que 𝑋̅ l’estimateur de 𝜇
 L’intervalle d’acceptation
1 − 𝛼 = 𝑝(𝑋̅ ∈ 𝐴) = 𝑝(𝑋 ̅ ≤ 𝜇 + 𝑟)
̅ −𝜇
𝑋 𝑟√𝑛
= 𝑝( ≤ )
𝜎/√𝑛 𝜎
𝜎
Puisque 𝑛 = 100 ≥ 30 et d’après le théorème centrale limite on aura 𝑋̅ ~𝑁(𝜇, ).
√𝑛
̅ −𝜇
𝑋
Par changement de variable ( 𝜎/√𝑛 ~𝑁(0,1) et à partir du tableau des probabilités de la loi
𝑟√𝑛
normale centrée réduite, on déduit que 𝜎
= 1.65.
𝑛
Remplaçant 𝜎 par sen estimation ponctuelle 𝑆′ = √𝑛−1 𝑆 = 400 = 402.015 on obtient 𝑟 =
66.332475 d’où l’intervalle d’acceptation est 𝐴 =] − ∞, 𝜇0 + 𝑟[=] − ∞, 2566.33[.
 La décision
𝑥̅ = 2000 ∈ 𝐴 d’où l’acceptation de 𝐻0 .

Test unilatéral à gauche


On procède de la même manière que dans le cas du test unilatéral à droite.

B- Test de conformité de la variance


L’objectif de test est de vérifier si la variance 𝜎 2 est égale ou non à une valeur donnée 𝜎02 .
(c’est-à-dire 𝐻0 : 𝑠 2 = 𝜎02 ). La variable de décision est l’estimateur 𝑆 de 𝜎 2 . Cherchons 𝐴
vérifiant 1 − 𝛼 = 𝑝(𝑆 ∈ 𝐴)sachant que 𝐴 dépend de 𝐻1 (𝐻1 : 𝑠 ≠ 𝜎02 , 𝐻1 : 𝑠 > 𝜎02 , 𝐻1 : 𝑠 < 𝜎02 )

C- Test de conformité de la proportion


Nous proposons de tester si la proportion 𝑝 d’éléments dans la population présentant un
certain caractère qualitatif, peut-être ou non considérée comme égale à une valeur
hypothétique p0 . Le test de la proportion 𝑝 consiste à décider si celle-ci est égale ou non à

Ahmed DRISSI ENSA Tanger Page 22


une valeur 𝑝0 . C’est-à-dire l’hypothèse nulle (𝐻0 : 𝑝 = 𝑝0 ) et l’hypothèse alternative est en
général de la forme 𝐻1 : 𝑝 ≠ 𝑝0 ou 𝐻1 : 𝑝 > 𝑝0 ou 𝐻1 : 𝑝 < 𝑝0 . Nous disposons pour ce faire
de la proportion 𝑓 d’éléments possédant ce caractère dans un échantillon de taille n
Etant donné 𝛼 le seuil de signification ; La variable de décision est l’estimateur 𝐹 de 𝑝 (la
variable aléatoire qui désigne la proportion d’éléments possédant le caractère considéré). Le
calcul de l’intervalle d’acceptation se fait à partir de la relation 1 − 𝛼 = 𝑝(𝐹 ∈ 𝐴) sachant
que 𝐴 dépend de 𝐻1 .

III- Test de comparaison


A- Comparaison de deux moyennes
L’objectif de ce test est de comparer les moyennes inconnues de deux populations.
𝐻0 : 𝜇1 = 𝜇2 ; 𝐻1 : 𝜇1 ≠ 𝜇2 ;
La variable de décision est la différence des moyens des deux échantillons c’est-à-dire
𝑋̅1 − 𝑋̅2 .
Cherchons l’intervalle d’acceptation 𝐴 vérifiant 1 − 𝛼 = 𝑝(̅̅̅
𝑋1 − ̅̅̅
𝑋2 ∈ 𝐴).
Le lemme suivant nous permet de déterminer la loi de probabilité de cette variable de
décision.
Lemme
σ2 σ2
si X1 ~N(μ1 , σ1 ) et X2 ~N(μ2 , σ2 ) et indépendantes alors ̅̅̅
X1 − ̅̅̅
X2 ~N (μ1 − μ2 , √n1 + n2 ).
1 2

Preuve
σ σ
On a ̅̅̅
X1 ~N (μ1 , n1 ) et X2 ~N (μ2 , n1 ) et ona E(̅̅̅
X1 − ̅̅̅
X2 ) = E(̅̅̅
X1 ) − E(̅̅̅
X2 ) = μ1 − μ2 et
1 2
σ21
σ 2
V(̅̅̅
X1 − ̅̅̅
X2 ) = V(̅̅̅
X1 ) + V(̅̅̅
X2 ) = n + n2 (puisque les deux variables ̅̅̅
X1 et ̅̅̅
X2 sont
1 2
indépendantes).
Remarque
Dans le cas où la distribution de la population est inconnue, on utilise le théorème central
̅̅̅1̅−X
X ̅̅̅2̅
limite pour déterminer la loi de ̅̅̅
X1 − ̅̅̅
X2 avec ~N(0,1)
σ2 σ2
√ 1+ 2
n1 n2

B- Comparaisons de deux variances


Considérons deux populations de variances 𝜎12 et 𝜎22 , dont deux échantillons sont extraits de
variances empiriques 𝑆12 et 𝑆22 . L’objectif de ce test est de comparer 𝜎12 et 𝜎22 à l’aide des
deux échantillons.
Les hypothèses nulle et alternatives peuvent être formulés comme suit : 𝐻0 : 𝜎12 = 𝜎22 et
𝐻1 : 𝜎12 ≠ 𝜎22 , 𝐻1 : 𝜎12 > 𝜎22 , 𝐻1 : 𝜎12 < 𝜎22 .
𝑆12
La variable de décision est le quotient des deux estimateurs . La région d’acceptation peut
𝑆22
𝑆2
être déterminée à partir la relation 1 − 𝛼 = 𝑝 (𝑆12 ∈ 𝐴).
2
Le théorème suivant nous permet de déterminer sa loi de probabilité de la variable de
décision.
Théorème (Admis)

Ahmed DRISSI ENSA Tanger Page 23


𝑈/𝑘
Si 𝑈 et 𝑉 deux variables aléatoires indépendantes et si 𝑈~𝜒𝑘2 et 𝑉~𝜒𝑙2 alors ~𝐹(𝑘, 𝑙 ) (la
𝑉/𝑙
loi de Fisher).
C- Comparaisons de deux proportions
Considérons deux populations de proportions 𝑝1 et 𝑝2 . Dans ce test, on s’intéresse à comparer
les proportions 𝑝1 et 𝑝2 à l’aide de deux échantillons extraits à partir ces deux populations.
Les hypothèses peuvent être formulés comme suit : (𝐻0 : 𝑝1 = 𝑝2 ) et [(𝐻1 : 𝑝1 ≠ 𝑝2 ) ou
(𝐻1 : 𝑝1 > 𝑝2 ) ou (𝐻1 : 𝑝1 < 𝑝2 ).
La variable de décision est la différence entre les fréquences observées des deux échantillons.
𝑋 𝑋
𝐹1 − 𝐹2 où 𝐹1 = 𝑛1 et 𝐹2 = 𝑛2 avec 𝑋1 et 𝑋2 deux variables qui désignent l’effectif des
1 2
éléments ayant le caractère considéré, sur respectivement l’échantillon 1 et l’échantillon 2. La
région d’acceptation est extraite à partir de la relation 1 − 𝛼 = 𝑝(𝐹1 − 𝐹2 ∈ 𝐴). Sous 𝐻0 le
théorème suivant nous permet de connaitre la loi de distribution des probabilités de 𝐹1 − 𝐹2 .
Théorème
𝑝1 (1−𝑝1 ) 𝑝2 (1−𝑝2 )
Sous les hypothèses ci-dessus on aura : 𝐹1 ~𝑁 (𝑝1 , √ ) et 𝐹2 ~𝑁 (𝑝2 , √ ), et
𝑛1 𝑛2
𝑝1 (1−𝑝1 ) 𝑝2 (1−𝑝2 )
𝐹1 − 𝐹2 ~𝑁 (𝑝1 − 𝑝2 , √ + ) approximativement.
𝑛1 𝑛2
Remarque
En pratique l’approximation est traduit par la condition 𝑛1 ≥ 30 , 𝑛1 𝑝1 ≥ 5 et si 𝑛2 ≥
30 , 𝑛2 𝑝2 ≥ 5 .
Preuve
𝑝1 (1−𝑝1 )
Nous avons démontré, dans le chapitre d’échantillonnage que 𝐹1 ~𝑁 (𝑝1 , √ ) et
𝑛1
𝑝2(1−𝑝2 )
𝐹2 ~𝑁 (𝑝2 , √ ) (en utilisant la convergence d’une loi binomiale vers une loi normale)
𝑛2
𝐸 (𝐹1 − 𝐹2 ) = 𝐸 (𝐹1 ) − 𝐸 (𝐹2 ) = 𝑝1 − 𝑝2 .
2
𝑣𝑎𝑟(𝐹1 − 𝐹2 ) = 𝐸 ((𝐹1 − 𝐹2 )2 ) − (𝐸(𝐹1 ) − 𝐸 (𝐹2 ))
2 2
= 𝐸 (𝐹12 − 2𝐹1 𝐹2 + 𝐹22 ) − ((𝐸 (𝐹1 )) − 2𝐸 (𝐹1 )𝐸(𝐹2 ) + (𝐸(𝐹2 )) )
2 2
= 𝐸 (𝐹12 ) − (𝐸(𝐹1 )) − 2𝐸 (𝐹1 𝐹2 ) + 2𝐸 (𝐹1 )𝐸(𝐹2 ) + 𝐸 (𝐹22 ) − (𝐸(𝐹2 ))
𝑝1 (1−𝑝1 ) 𝑝2 (1−𝑝2 )
= 𝑣𝑎𝑟(𝐹1 ) + 𝑣𝑎𝑟(𝐹2 ) = + .
𝑛1 𝑛2
En effet 𝐸 (𝐹1 𝐹2 ) = 𝐸 (𝐹1 )𝐸(𝐹2 ) car 𝐹1 et 𝐹2 sont deux variables indépendantes.

IV- Test de khi-deux


Le test 𝜒 2 permet de tester l’adéquation d’une série de données à une famille de lois de
probabilités ou de tester l’indépendance entre deux variables aléatoires. Il concerne
uniquement les lois discrètes, mais on peut l’utiliser aussi pour des échantillons continus
regroupés en classes. Ce test est pratiqué sur les valeurs discrètes de la fonction de répartition
empirique et les valeurs discrètes de la fonction de répartition théorique. Le rejet est
évidemment une réponse négative dans les tests d’adéquation et d’homogénéité mais il
apporte une information positive dans les tests d’indépendance.

A- Test du χ2 d’adéquation à une loi théorique

Ahmed DRISSI ENSA Tanger Page 24


Le test d’ajustement ou d’adéquation consiste à vérifier la compatibilité des données avec une
distribution choisie a priori. Ce qui permet ensuite d’appliquer un test paramétrique. On a un
phénomène aléatoire représenté par une variable aléatoire notée 𝑋. Généralement, on ne
connait ni la forme de la loi de probabilité suivie par ce phénomène, ni les paramètres de cette
loi. Pour remédier cette ignorance, on tire un n–échantillon que l’on analyse selon les
méthodes de statistiques descriptives. Cela nous permettra de choisir parmi les lois de
probabilité classiques (binomiale, poisson, normale…) celle qui semble être le plus proche de
la distribution expérimentale induite par l’échantillon.

- Formulation des hypothèses


(𝐻0 ): 𝑋 suit 𝑄 vs (𝐻1 ): 𝑋 ne suit pas 𝑄 .avec 𝑄 est l’une des lois de probabilités choisie à
priori (normale, binomiale, de poisson, uniforme…).

- Détermination de la variable de décision

On dispose de 𝑛 réalisations de 𝑋. Ces observations peuvent être groupés en 𝑘 classes ou


modalités notées 𝐶1 , 𝐶2 … 𝐶𝑘 , à chaque 𝐶𝑖 correspond un effectif observé noté 𝑛𝑖 (𝑛 =
∑𝑘𝑖=1 𝑛𝑖 ). On peut calculer la probabilité de la classe 𝐶𝑖 , notée 𝑝𝑖 = 𝑝(𝑋 ∈ 𝐶𝑖 ) car 𝑋~𝑄 et 𝑄
supposé connu. On appelle effectif théorique le produit 𝑛𝑝𝑖 (pas forcément un entier). L’écart
entre la distribution théorique et expérimentale est mesuré par la distance 𝑑 =
(𝑛 −𝑛𝑝 )2 (𝑁 −𝑛𝑝 )2
∑𝑘𝑖=1 𝑖 𝑖 ; A cette distance. On associe la statistique 𝐷 = ∑𝑘𝑖=1 𝑖 𝑖 dont la
𝑛𝑝𝑖 𝑛𝑝𝑖
réalisation est 𝑑 et 𝑁𝑖 la variable aléatoire qui compte l’effectif de la classe 𝐶𝑖 et dont la
réalisation est 𝑛𝑖 . On choisira comme variable de décision 𝐷.

- Détermination de la zone d’acceptation

Etant donné le risque 𝛼, on va rejetter 𝐻0 si l’écart 𝐷 est trop grand. Ainsi on déterminera la
zone de rejet de la forme 𝑅 = [𝑑 ∗ , +∞[ à partir de la table de loi on détermine le réel 𝑡 tel que
1 − 𝛼 = 𝑝( 𝐷 < 𝑡 ) .
Théorème fondamental (admis)
(𝑁 −𝑛𝑝 )2
Si 𝑋~𝑄, alors 𝐷 = ∑𝑘𝑖=1 𝑖 𝑖 ~𝜒𝑘−1 2
approximativement (𝑘 le nombre de classes de 𝑋).
𝑛𝑝𝑖
En pratique «la convergence» est traduite par «𝑛𝑝𝑖 ≥ 5 ».
Exemple (Ajustement par la loi de Poisson)
Le responsable des stocks d’un laboratoire de produits pharmaceutiques souhaite savoir
combien de doses de vaccin il doit tenir en stock. Il relève donc les ventes de ce vaccin sur les
100 derniers jours, supposés représentatifs, à savoir :

Nombre de doses vendues 0 1 2 3 4 5 6


Nombre de jours 14 27 26 18 9 4 2
Peut-on dire que les ventes de vaccin sont distribuées selon une loi de Poisson ?
Solution
Formulation des hypothèses
Soit 𝑋 une variable aléatoire qui désigne le nombre de doses de vaccin vendues par jour.
𝐻0 : 𝑋~𝑃(𝜆).
𝐻1 : 𝑋 ne suit pas la loi de poisson.
Si 𝑋~𝑃(𝜆) alors 𝐸 (𝑋) = 𝜆.
𝑋̅ est un estimateur efficace de 𝐸 (𝑋) c’est-à-dire de 𝜆.

Ahmed DRISSI ENSA Tanger Page 25


0𝑋14+1𝑋27+⋯6𝑋2
Alors on peut estimer 𝜆 par son estimation ponctuelle 𝜆 = 𝑥̅ = ≈ 2.01
100
𝜆𝑘 𝑒 −𝜆 2𝑘 𝑒 −2
Donc pour 𝑋 ∈ {0,1,2 … 7, … } ; 𝑝(𝑋 = 𝑘) = =
𝑘! 𝑘!
Calcul des effectifs théoriques
2𝑖 𝑒 −2
𝑇𝑖 = 𝑛𝑝𝑖 = 𝑛𝑝(𝑋 = 𝑖 ) = 100
𝑖!
X 0 1 2 3 4 5 6
𝑛𝑖 14 27 26 18 9 4 2
𝑇𝑖 13.4 26.93 27.07 18.13 9.11 3.66 1.70

On constate que 𝑇5 et 𝑇6 <5 or la condition du lemme est que 𝑛𝑝𝑖 > 5 pour tout i. donc on
regroupe les deux classes 5 et 6 en une le tableau ci-dessus devient
X 0 1 2 3 4 >=5 Total
𝑛𝑖 14 27 26 18 9 6 100
𝑇𝑖 13.4 26.93 27.07 18.13 9.11 5 .36 100
(𝑛𝑖 −𝑇𝑖 )2
On calcule 𝑑 = ∑6𝑖=1 = 0.15
𝑇𝑖
Le seuil critique 1 − 𝛼 = 0.95 et à partir du tableau des probabilités de la loi 𝜒52 on extrait t
vérifiant 𝑝(𝐷 ≤ 𝑡) = 0.95 on obtient t=11.07 or d=0.15<t=11.07 alors on accepte
l’hypothèse nulle ; c’est-à-dire les ventes de vaccin sont distribués selon la loi de poisson.

B- Test du χ2 d’indépendance
Le test d’indépendance ou d’association consiste à prouver l’existence d’une liaison entre 2
variables. On considère deux variables aléatoires 𝑋 et 𝑌 et on souhaite tester le fait que ces
deux variables sont indépendantes.
Exemple
Est-ce que la distribution de la couleur des yeux observée dans la population européenne est
indépendante du sexe des individus ?
Formulation des hypothèses
On calcule la distance entre les valeurs observées (ou les valeurs empiriques) et les valeurs
attendues s’il y avait indépendance. Supposons que 𝑋 et 𝑌 deux variables aléatoires définies
sur la même population Ω mesurant deux caractères.𝑋: Ω → M, M étant un ensemble de
modalités divisé en 𝑘 classes 𝐶1 , 𝐶2 … 𝐶𝑘 ; 𝑌: Ω → M′, M′ étant un ensemble de modalités
divisé en 𝑙 classes 𝐷1 , 𝐷2 … 𝐷𝑙 .
On veut savoir s’il existe une liaison significative entre 𝑋 et 𝑌
𝐻0 : 𝑋 et 𝑌 sont indépendantes vs 𝐻1 : 𝑋 et 𝑌 sont dépendantes.
Détermination de la variable de décision
On dispose d’un échantillon 𝑋 et d’un échantillon de 𝑌 dont les résultats peuvent se mettre
sous la forme du tableau de contingence suivant :
𝐷1 𝐷𝑗 𝐷𝑙 Effectif des 𝐶𝑖
𝐶1 𝑛1∗

𝐶𝑖 𝑛𝑖𝑗 𝑛𝑖∗

𝐶𝑘 𝑛𝑘∗
Effectif des 𝑛∗1 𝑛∗𝑗 𝑛∗𝑙 𝑛
𝐷𝑖

Ahmed DRISSI ENSA Tanger Page 26


Avec 𝑛∗𝑗 = ∑𝑘𝑖=1 𝑛𝑖𝑗 ; 𝑛𝑖∗ = ∑𝑙𝑗=1 𝑛𝑖𝑗 et 𝑛 = ∑𝑘𝑖=1 ∑𝑙𝑗=1 𝑛𝑖𝑗
Si 𝐻0 est vraie alors 𝑝 ((𝑋 ∈ 𝐶𝑖 ) ∩ (𝑌 ∈ 𝐷𝑗 )) = 𝑝(𝑋 ∈ 𝐶𝑖 ). 𝑝(𝑌 ∈ 𝐷𝑗 ), ∀ 𝑖, 𝑗. Puisque on ne
connait pas les probabilités théoriques de 𝑋 et 𝑌, on peut traduire cette propriété par 𝑓𝑖𝑗 =
𝑛𝑖𝑗 𝑛𝑖∗ 𝑛∗𝑗
𝑓𝑖∗ × 𝑓∗𝑗 ∀𝑖, 𝑗 avec 𝑓𝑖𝑗 = ; 𝑓𝑖∗ = ; 𝑓∗𝑗 = . On appelle effectif théorique la quantité
𝑛 𝑛 𝑛
𝑛𝑖∗ ×𝑛∗𝑗
𝑡𝑖𝑗 = ; 𝑓𝑖𝑗 = 𝑓𝑖∗ × 𝑓∗𝑗 ∀𝑖, 𝑗 ⇔ 𝑛𝑖𝑗 = 𝑡𝑖𝑗 ∀𝑖, 𝑗. On définit la quantité 𝑑 =
𝑛
2
(𝑛𝑖𝑗 −𝑡𝑖𝑗 )
∑𝑘𝑖=1 ∑𝑙𝑗=1 , c’est normal de décider le rejet de 𝐻0 si 𝑑 est trop grand.
𝑡𝑖𝑗
On choisit la variable aléatoire de décision la variable aléatoire 𝐷 associée à 𝑑. Si 𝐻0 est vraie
2
(𝑁𝑖𝑗 −𝑇𝑖𝑗) 2
𝐷 = ∑𝑘𝑖=1 ∑𝑙𝑗=1 ~𝜒(𝑘−1)(𝑙−1) où 𝑁𝑖𝑗 et 𝑇𝑖𝑗 sont les variables aléatoires dont les
𝑇𝑖𝑗
réalisations sont respectivement 𝑛𝑖𝑗 et 𝑡𝑖𝑗 .
Remarque
Tous les effectifs doivent être supérieurs à 5.
Les techniques utilisées diffèrent selon que les variables sont qualitatives nominales,
ordinales ou quantitatives.

C- Test du χ2 d’homogénéité
On considère 𝑟 populations 𝑃2 … . 𝑃𝑟 chacune divisées en 𝑘 classes distinctes 𝐶1 , 𝐶2 … . 𝐶𝑘
selon une même variable aléatoire 𝑋. On dira que les populations sont homogènes si la
distribution est la même dans les 𝑟 populations.
Formulation des hypothèses
𝐻0 : Les 𝑟 populations sont de même distributions vs 𝐻1 : les 𝑟 populations ne sont pas
homogènes.
On note 𝑝𝑖𝑗 la probabilité de la classe 𝐶𝑗 dans la population 𝑃𝑖 . les 𝑟 populations sont
homogènes si les 𝑝𝑖𝑗 ne dépendent pas de la population 𝑃𝑖 ce qui se traduit par 𝐻0 𝑝𝑖𝑗 =
𝑝𝑗 ∀𝑖 = 1 … 𝑟 , ∀𝑗 = 1 … 𝑘 avec ∑𝑘𝑗=1 𝑝𝑗 = 1 mais les 𝑝𝑗 sont inconnues puisque on ne
connait pas la loi de probabilité théorique de 𝑋. (𝑝𝑗 = 𝑝(𝑋 ∈ 𝐶𝑗 )). On dispose d’un
𝑛-échantillon de 𝑋 dans chacune des r populations dont les résultats peuvent se mettre sous la
forme du tableau de contingence suivant :
𝐶1 ⋯ 𝐶𝑗 ⋯ 𝐶𝐾 Taille des
échantillons
𝑃1 𝑛11 ⋯ 𝑛1𝑗 ⋯ 𝑛1𝑘 𝑛1∗
⋮ ⋮ ⋮
𝑃𝑖 𝑛𝑖1 𝑛𝑖𝑗 𝑛𝑖𝑘 𝑛𝑖∗
⋮ ⋮ ⋮
𝑃𝑟 𝑛
𝑛𝑟1 ⋯ 𝑟𝑗 ⋯ 𝑛𝑟𝑘 𝑛𝑟∗
Effectif 𝑛∗1 ⋯ 𝑛∗𝑗 ⋯ 𝑛∗𝑘 𝑛
des 𝐶𝑗
Avec 𝑛∗𝑗 = ∑𝑟𝑖=1 𝑛𝑖𝑗 ; 𝑛𝑖∗ = ∑𝑘𝑗=1 𝑛𝑖𝑗 et 𝑛 = ∑𝑟𝑖=1 ∑𝑘𝑗=1 𝑛𝑖𝑗 . On estimera naturellement le
𝑛
paramètre 𝑝𝑗 par la proportion correspondante dans l’échantillon 𝑝𝑗 ≈ 𝑛∗𝑗 ainsi si 𝐻0 est
vraie, l’effectif théorique de la classe 𝐶𝑗 dans la population 𝑃𝑖 est à peu près 𝑡𝑖𝑗 = 𝑛𝑖∗ × 𝑝𝑗 =

Ahmed DRISSI ENSA Tanger Page 27


2
𝑛𝑖∗ ×𝑛∗𝑗 (𝑛𝑖𝑗−𝑡𝑖𝑗 )
. On définit la quantité 𝑑 = ∑𝑘𝑖=1 ∑𝑙𝑗=1 . Il est naturel de décider, si 𝑑 est trop
𝑛 𝑡𝑖𝑗
grand, le rejet de 𝐻0
Détermination de la variable de décision
On choisit comme variable de décision la variable aléatoire 𝐷 associée à 𝑑. Si 𝐻0 est vraie
2
(𝑁𝑖𝑗 −𝑇𝑖𝑗) 2
𝐷 = ∑𝑘𝑖=1 ∑𝑙𝑗=1 ~𝜒(𝑘−1)(𝑟−1) avec 𝑁𝑖𝑗 et 𝑇𝑖𝑗 sont les variables aléatoires dont les
𝑇𝑖𝑗
réalisations sont respectivement 𝑛𝑖𝑗 et 𝑡𝑖𝑗 .
Remarque
Les notations et la mise en place sont les mêmes que dans les tests d’indépendance, mais les
significations sont différentes.
Exemple 1
Y a-t-il une différence entre le taux de glucose moyen mesuré pour deux échantillons
d’individus ayant reçu des traitements différents ?

Ahmed DRISSI ENSA Tanger Page 28

Vous aimerez peut-être aussi