Statistique Cours New
Statistique Cours New
Statistique Cours New
Statistique Inférentielle
Pole Technologie de l’information
Ahmed DRISSI
[email protected]
Ces notes de cours sont destinées aux étudiants de la première année du cycle des ingénieurs,
des filières du pole technologie de l’information (Génie Informatique, Génie des Systèmes et
Réseaux… ) de l’Ecole Nationale des Sciences Appliquées, Tanger. Elles ont été rédigées,
conformément au programme accrédité en 2024, dans le but d’aider les étudiants à consolider
leurs acquis en statistiques et probabilités et à maitriser les nouvelles notions introduites dans
ce cours. Les démonstrations de certains résultats de ce polycopié, ainsi que plusieurs
exemples et exercices seront données au tableau pendant les séances de cours. Il est donc
indispensable que l’étudiant assiste au cours et prend des notes, pour qu’il puisse bien
assimiler ce cours de statistiques inférentielle. Je serai reconnaissant à tout lecteur qui aura
l’amabilité de me signaler des erreurs que peut comporter ce manuscrit ou de me suggérer
une idée pour le parfaire.
Ahmed DRISSI
Syllabus
I- Echantillonnage
II- L’estimation
Les estimateurs, estimation ponctuelle, estimation par intervalle de confiance
III- Les tests statistiques
Tests de conformité, tests de comparaison, test de Khi-deux (d’adéquation à une
loi théorique, d’indépendance, d’homogénéité…)
IV- Projets pratiques et études de cas en utilisant l’un des logiciels : R, Python,
Matlab, SPSS ou autres
Pré-requis
Ouvrages Conseillés
1. Les fondements probabilistes des méthodes statistiques. Composé par Economica. Paris. France
janvier 1989. Europe Media Duplication SA.
2. FOUNDATIONS OF DESCRIPTIVE AND INFERENTIAL STATISTICS. HENK VAN ELST
August 30, 2019
3. An Introduction to Statistical Inference and Data Analysis. Michael W. Trosset1 April 3, 2001
Démonstration
Nous allons avoir ici un modèle binomial dont on sait qu'il converge vers la loi normale. Pour
tout 𝑖 compris entre 1 et 𝑛, notons 𝑋𝑖 , la variable aléatoire définie par :
1 𝑠𝑖 𝑙𝑒 𝑖é𝑚𝑒 é𝑙é𝑚𝑒𝑛𝑡 𝑑𝑒 𝑙 ′ é𝑐ℎ𝑎𝑛𝑡𝑖𝑙𝑙𝑜𝑛 𝑝𝑜𝑠𝑠é𝑑𝑒 𝑙 ′ 𝑎𝑡𝑡𝑟𝑖𝑏𝑢 𝐴
𝑋𝑖 = {
0 𝑠𝑖𝑛𝑜𝑛
La variable aléatoire 𝑋𝑖 , suit une loi de Bernoulli de paramètre 𝑝 . La variable aléatoire
𝑋 = 𝑋1 + ⋯ + 𝑋𝑛 est donc binomiale de paramètres 𝑛 et 𝑝 : 𝑋~𝐵(𝑛, 𝑝) en conséquence
𝐸 (𝑋) = 𝑛𝑝 et 𝜎(𝑋) = √𝑛𝑝(1 − 𝑝).
𝑋
La variable aléatoire 𝐹 = 𝑛 correspond ainsi à la fréquence de l'attribut A dans l'échantillon
𝐸(𝑋) 𝜎(𝑋)
D'après les propriétés de l'espérance et de l'écart - type : 𝐸 (𝐹 ) = = 𝑝 et 𝜎 (𝐹 ) = =
𝑛 𝑛
𝑝(1−𝑝)
√ .
𝑛
Exemple
Une élection a eu lieu et un candidat a eu 40 % des voix. On prélève un échantillon de 100
bulletins de vote. Quelle est la probabilité que, dans l'échantillon, le candidat ait entre 35 % et
45% des voix ?
Ici , nous avons n = 100 et p = 0,4 . La variable aléatoire F correspondant à la fréquence des
0,4𝑥0,6 0,24
votes pour le candidat dans l'échantillon vérifie donc : 𝐹~𝑁 (0,4; √ ) = 𝑁 (0,4; √ 10 )
100
𝐹−0,4
Posons 𝑇 = √0,24
ainsi 𝑇~𝑁(0,1). Nous obtenons alors par centrage et réduction : 𝑝(0,35 ≤
10
𝐹 ≤ 0,45) = 𝑝(−1,02 ≤ 𝑇 ≤ 1,02) = 2∅(1,02) − 1 et par lecture directe de la table de la
loi normale centrée – réduite ∅(1,02) = 0,8461 d’où 𝑝(0,35 ≤ 𝐹 ≤ 0,45) = 0,6922 . Il y a
En analysant l’exercice ci-dessus on constate que l’on dispose des informations sur la
population (ici l’ensemble des votes) parce que l’élection a déjà eu lieu. On en déduit des
informations sur l’échantillon. Mais dans la pratique, c’est souvent le phénomène réciproque
que nous étudierons : les élections n’ont pas encore eu lieu et on voudrait retrouver les
informations sur la population grâce un sondage réalisé sur un échantillon. D’où le chapitre
suivant de ce polycopié est consacrée à l’estimation.
Soit 𝑋 une variable aléatoire dont on veut estimer la moyenne 𝜇 = 𝐸[𝑋] à partir d’un n-
échantillon (𝑋1 , 𝑋2 , … . 𝑋𝑛 ) de 𝑋 .
Théorème
𝑋 +𝑋 +⋯+𝑋𝑛
𝑋̅ = 1 2𝑛 est un estimateur efficace de 𝜇.
Preuve
𝑋̅ est sans biais car 𝐸[𝑋̅] = 𝜇.
𝑉(𝑋)
𝑉 (𝑋̅) = → 0, 𝑛 → ∞. Si 𝑇 un autre estimateur de 𝜇 on aura 𝑉(𝑋̅) < 𝑉(𝑇) .
𝑛
b) Estimateur de la variance
∑𝑛
𝑖=1(𝑋𝑖 −𝜇)
2 1 1
𝑉 (𝑇𝑛2 ) = 𝑉 ( ) = 𝑛2 ∑𝑛𝑖=1 𝑉 ((𝑋𝑖 − 𝜇)2 ) = 𝑛2 ∑𝑛𝑖=1 𝐸 ((𝑋𝑖 − 𝜇)4 ) − (𝐸((𝑋𝑖 −
𝑛
2
𝜇)2 )) .
=⋯→0
Le cas 2 : 𝜇 inconnue
Théorème
Soit 𝑋 une variable aléatoire qui suit une loi de paramètres 𝜇, 𝜎 avec 𝜇 inconnue. La
∑𝑛 ̅ 2
𝑖=1(𝑋𝑖 −𝑋 )
variance empirique 𝑆𝑛2 = est un estimateur biaisé de 𝜎 2 mais asymptotiquement
𝑛
sans biais.
Preuve
∑𝑛 ̅ 2
𝑖=1(𝑋𝑖 −𝑋 ) 1
𝐸 (𝑆𝑛2 ) = 𝐸 ( ) = 𝐸 (𝑛 ∑𝑛𝑖=1(𝑋𝑖2 − 2𝑋𝑖 𝑋̅ + 𝑋̅ 2 )).
𝑛
𝑛 𝑛
1 1 1
= 𝐸 ( ∑ 𝑋𝑖2 − 2𝑋̅ ∑ 𝑋𝑖 + 𝑛 𝑋̅ 2 )
𝑛 𝑛 𝑛
𝑖=1 𝑖=1
𝑛
1
= 𝐸 ( ∑ 𝑋𝑖2 − 2𝑋̅ 2 + 𝑋̅ 2 )
𝑛
𝑖=1
𝑛
1
= 𝐸 ( ∑ 𝑋𝑖2 − 𝑋̅ 2 )
𝑛
𝑖=1
𝑛
1
= ∑ 𝐸(𝑋𝑖2 ) − 𝐸(𝑋̅ 2 )
𝑛
𝑖=1
𝑛
1 2 2
= ∑ 𝜎 2 + (𝐸(𝑋𝑖 )) − (𝜎𝑋2̅ + (𝐸(𝑋̅)) )
𝑛
𝑖=1
1
= (𝑛𝜎 2 ) + 𝜇2 − 𝜎𝑋2̅ − 𝜇2
𝑛
𝜎2
= 𝜎 2 − 𝜎𝑋2̅ = 𝜎 2 −
𝑛
𝑛−1 2
= 𝑛 𝜎 .
𝑛−1 1
𝐵(𝑆𝑛2 ) = 𝐸 (𝑆𝑛2 ) − 𝜎 2 = 𝜎2 − 𝜎2 = − 𝑛 𝜎2.
𝑛
𝐵(𝑆𝑛2 ) → 0; 𝑛 → +∞.
Théorème
Remarque
On constate ici que le fait de ne pas connaitre 𝜇 n’est pas gênant.
On ne retient pas ces formules. Dans la pratique on refait les calculs.
Exemple
Un club de sport comporte 1500 membres. On mesure la taille de 40 d’entre eux. La moyenne
𝜇0 et l’écart type 𝜎0 calculé à partir de cet échantillon sont 𝜇0 = 176 𝑐𝑚 et 𝜎0 = 6 𝑐𝑚. Nous
avons déjà estimé ponctuellement les paramètres de la population 𝜇̅ = 176 𝑐𝑚 et 𝜎̅ =
20
√19 6 ≈ 6.16 𝑐𝑚. Déterminons maintenant une estimation de 𝜇 par intervalle de confiance à
95% (ou au risque de 5%). Notons 𝑋̅ la variable aléatoire correspondant à la moyenne d’un
𝜎 𝜎
échantillon de taille 20 pris au hasard. On sait que 𝑋̅ ~𝑁 (𝜇, 𝑛) = 𝑁 (𝜇, 20) ; on calcule un
√ √
𝑋̅−𝑟
rayon r tel que 𝑝(𝜇 − 𝑟 ≤ 𝑋̅ ≤ 𝜇 + 𝑟) = 0.95. on pose 𝑇 = 𝜎/ 20 ainsi 𝑇~𝑁(0,1) et donc
√
√40 √40 √40 √40
𝑝 (−𝑟 𝜎 ≤𝑇≤ 𝑟 𝜎 ) = 0.95 donc 2∅ (𝑟 𝜎 ) − 1 = 0,95 alors ∅ (𝑟 ) = 0,975 où
𝜎
√40
𝑡 = 𝑟 𝜎 . Nous cherchons donc, par lecture inverse de la table de la loi normale centré
réduite une borne t tel que ∅(𝑡) = 0,975 la borne t=1,96 convient. Ainsi notre réel r cherché
√40 𝜎
est tel que 𝑟 𝜎 = 1.96 et 𝑟 = 40 1.96 mains une fois l’échantillon tiré, nous avons obtenu
√
un écart type estimant 𝜎̅ = 6.16 𝑐𝑚 d’où 𝑟 ≈ 1.91. la réalisation de l’intervalle de confiance
à 95% sur cet échantillon est 𝐼𝐶 = [176 − 1.91; 176 + 1.91] = [174.09; 177.91] . Nous
pouvons donc estimer, avec une confiance de 95% que la taille moyenne de la population est
comprise entre 174.09 et 177.91cm.
Lemme
𝐸 (F) = p donc F est un estimateur sans biais de p.
p(1−p)
V(F) = donc F est un estimateur convergent de p.
n
Exemple 1
Deux sondages différents portant sur la même caractéristique d’une population sont effectués.
Dans le premier sondage, on a pris un petit échantillon de taille 𝑛 = 5, on a trouvé X = 3
𝑋 3
donc 𝑝̅ = 𝑛 = 5 = 60%. Dans le second sondage, on a pris un petit échantillon de taille 𝑛 =
100, cet échantillon a donné 𝑋 = 60 donc 𝑝̅ = 60%. Ces deux sondages donnent-ils la même
information ?
I- Généralités
Un test statistique est une procédure permettant de trancher entre deux hypothèses en prenant
une décision à partir d’informations fournies par un échantillon. L’hypothèse nulle, notée 𝐻0 ,
qui est supposée vraie en faveur du décideur jusqu’à preuve du contraire, dont on cherche à
vérifier par un raisonnement statistique. C’est l’hypothèse principal que l’on considère vraie à
priori. L’hypothèse alternative, notée 𝐻1 , est l’hypothèse qui sera acceptée si 𝐻0 est
{𝐻0 }
rejetée. {𝐻1 } ⊆ 𝐶 .
1. Concept de risque
Toute décision statistique comporte des risques d’erreur :
Risque de première espèce
C’est le risque de rejeter 𝐻0 alors qu’elle est vraie. Ce risque est appelé aussi le seuil de
signification du test et noté 𝛼. 𝛼 = 𝑝(𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 / 𝐻0 𝑒𝑠𝑡 𝑣𝑟𝑎𝑖𝑒).
Risque de deuxième espèce
C’est le risque de ne pas rejeter 𝐻0 alors qu’elle est fausse. 𝛽 = 𝑝(𝑟𝑒𝑗𝑒𝑡 𝐻1 / 𝐻1 𝑒𝑠𝑡 𝑣𝑟𝑎𝑖𝑒).
La décision
𝐻0 𝐻1
𝐻0 Conclusion correcte Risque de première espèce 𝛼
La vérité Niveau de confiance 1 − 𝛼
𝐻1 Risque de deuxième espèce 𝛽 Conclusion correcte
Puissance de test 1 − 𝛽
Exemple
Soit 𝜇 la moyenne du niveau de radioactivité en picocuries par litre. La valeur 𝜇0 = 5 est
considérée comme la valeur critique entre eau potable et non potable. Considérons les deux
hypothèses 𝐻0 vs 𝐻1 :
𝐻0 : 𝜇0 ≥ 5 (eau toxique).et 𝐻1 : 𝜇0 < 5 (eau potable).
𝛼 = 𝑝(𝑟𝑒𝑗𝑒𝑡𝑒𝑟 𝐻0 / 𝐻0 𝑣𝑟𝑎𝑖𝑒 ) ce qui correspond à laisser boire de l’eau toxique
𝛽 = 𝑝(𝑎𝑐𝑐𝑒𝑝𝑡𝑒𝑟 𝐻0 / 𝐻0 𝑓𝑎𝑢𝑠𝑠𝑒 ) ce qui conduit seulement à rejeter de l’eau potable
1 − 𝛽 représente la puissance de test.
Remarque
Les tests ne sont pas faits pour «démontrer» H0 mais pour «rejeter» H0 . L’aptitude d’un test
à rejeter H0 alors qu’elle est fausse constitue la puissance du test.
Pour quantifier le risque 𝛽, il faut connaître la loi de probabilité de la statistique sous
l’hypothèse 𝐻1 .
2. La variable de décision
Preuve
σ σ
On a ̅̅̅
X1 ~N (μ1 , n1 ) et X2 ~N (μ2 , n1 ) et ona E(̅̅̅
X1 − ̅̅̅
X2 ) = E(̅̅̅
X1 ) − E(̅̅̅
X2 ) = μ1 − μ2 et
1 2
σ21
σ 2
V(̅̅̅
X1 − ̅̅̅
X2 ) = V(̅̅̅
X1 ) + V(̅̅̅
X2 ) = n + n2 (puisque les deux variables ̅̅̅
X1 et ̅̅̅
X2 sont
1 2
indépendantes).
Remarque
Dans le cas où la distribution de la population est inconnue, on utilise le théorème central
̅̅̅1̅−X
X ̅̅̅2̅
limite pour déterminer la loi de ̅̅̅
X1 − ̅̅̅
X2 avec ~N(0,1)
σ2 σ2
√ 1+ 2
n1 n2
Etant donné le risque 𝛼, on va rejetter 𝐻0 si l’écart 𝐷 est trop grand. Ainsi on déterminera la
zone de rejet de la forme 𝑅 = [𝑑 ∗ , +∞[ à partir de la table de loi on détermine le réel 𝑡 tel que
1 − 𝛼 = 𝑝( 𝐷 < 𝑡 ) .
Théorème fondamental (admis)
(𝑁 −𝑛𝑝 )2
Si 𝑋~𝑄, alors 𝐷 = ∑𝑘𝑖=1 𝑖 𝑖 ~𝜒𝑘−1 2
approximativement (𝑘 le nombre de classes de 𝑋).
𝑛𝑝𝑖
En pratique «la convergence» est traduite par «𝑛𝑝𝑖 ≥ 5 ».
Exemple (Ajustement par la loi de Poisson)
Le responsable des stocks d’un laboratoire de produits pharmaceutiques souhaite savoir
combien de doses de vaccin il doit tenir en stock. Il relève donc les ventes de ce vaccin sur les
100 derniers jours, supposés représentatifs, à savoir :
On constate que 𝑇5 et 𝑇6 <5 or la condition du lemme est que 𝑛𝑝𝑖 > 5 pour tout i. donc on
regroupe les deux classes 5 et 6 en une le tableau ci-dessus devient
X 0 1 2 3 4 >=5 Total
𝑛𝑖 14 27 26 18 9 6 100
𝑇𝑖 13.4 26.93 27.07 18.13 9.11 5 .36 100
(𝑛𝑖 −𝑇𝑖 )2
On calcule 𝑑 = ∑6𝑖=1 = 0.15
𝑇𝑖
Le seuil critique 1 − 𝛼 = 0.95 et à partir du tableau des probabilités de la loi 𝜒52 on extrait t
vérifiant 𝑝(𝐷 ≤ 𝑡) = 0.95 on obtient t=11.07 or d=0.15<t=11.07 alors on accepte
l’hypothèse nulle ; c’est-à-dire les ventes de vaccin sont distribués selon la loi de poisson.
B- Test du χ2 d’indépendance
Le test d’indépendance ou d’association consiste à prouver l’existence d’une liaison entre 2
variables. On considère deux variables aléatoires 𝑋 et 𝑌 et on souhaite tester le fait que ces
deux variables sont indépendantes.
Exemple
Est-ce que la distribution de la couleur des yeux observée dans la population européenne est
indépendante du sexe des individus ?
Formulation des hypothèses
On calcule la distance entre les valeurs observées (ou les valeurs empiriques) et les valeurs
attendues s’il y avait indépendance. Supposons que 𝑋 et 𝑌 deux variables aléatoires définies
sur la même population Ω mesurant deux caractères.𝑋: Ω → M, M étant un ensemble de
modalités divisé en 𝑘 classes 𝐶1 , 𝐶2 … 𝐶𝑘 ; 𝑌: Ω → M′, M′ étant un ensemble de modalités
divisé en 𝑙 classes 𝐷1 , 𝐷2 … 𝐷𝑙 .
On veut savoir s’il existe une liaison significative entre 𝑋 et 𝑌
𝐻0 : 𝑋 et 𝑌 sont indépendantes vs 𝐻1 : 𝑋 et 𝑌 sont dépendantes.
Détermination de la variable de décision
On dispose d’un échantillon 𝑋 et d’un échantillon de 𝑌 dont les résultats peuvent se mettre
sous la forme du tableau de contingence suivant :
𝐷1 𝐷𝑗 𝐷𝑙 Effectif des 𝐶𝑖
𝐶1 𝑛1∗
𝐶𝑖 𝑛𝑖𝑗 𝑛𝑖∗
𝐶𝑘 𝑛𝑘∗
Effectif des 𝑛∗1 𝑛∗𝑗 𝑛∗𝑙 𝑛
𝐷𝑖
C- Test du χ2 d’homogénéité
On considère 𝑟 populations 𝑃2 … . 𝑃𝑟 chacune divisées en 𝑘 classes distinctes 𝐶1 , 𝐶2 … . 𝐶𝑘
selon une même variable aléatoire 𝑋. On dira que les populations sont homogènes si la
distribution est la même dans les 𝑟 populations.
Formulation des hypothèses
𝐻0 : Les 𝑟 populations sont de même distributions vs 𝐻1 : les 𝑟 populations ne sont pas
homogènes.
On note 𝑝𝑖𝑗 la probabilité de la classe 𝐶𝑗 dans la population 𝑃𝑖 . les 𝑟 populations sont
homogènes si les 𝑝𝑖𝑗 ne dépendent pas de la population 𝑃𝑖 ce qui se traduit par 𝐻0 𝑝𝑖𝑗 =
𝑝𝑗 ∀𝑖 = 1 … 𝑟 , ∀𝑗 = 1 … 𝑘 avec ∑𝑘𝑗=1 𝑝𝑗 = 1 mais les 𝑝𝑗 sont inconnues puisque on ne
connait pas la loi de probabilité théorique de 𝑋. (𝑝𝑗 = 𝑝(𝑋 ∈ 𝐶𝑗 )). On dispose d’un
𝑛-échantillon de 𝑋 dans chacune des r populations dont les résultats peuvent se mettre sous la
forme du tableau de contingence suivant :
𝐶1 ⋯ 𝐶𝑗 ⋯ 𝐶𝐾 Taille des
échantillons
𝑃1 𝑛11 ⋯ 𝑛1𝑗 ⋯ 𝑛1𝑘 𝑛1∗
⋮ ⋮ ⋮
𝑃𝑖 𝑛𝑖1 𝑛𝑖𝑗 𝑛𝑖𝑘 𝑛𝑖∗
⋮ ⋮ ⋮
𝑃𝑟 𝑛
𝑛𝑟1 ⋯ 𝑟𝑗 ⋯ 𝑛𝑟𝑘 𝑛𝑟∗
Effectif 𝑛∗1 ⋯ 𝑛∗𝑗 ⋯ 𝑛∗𝑘 𝑛
des 𝐶𝑗
Avec 𝑛∗𝑗 = ∑𝑟𝑖=1 𝑛𝑖𝑗 ; 𝑛𝑖∗ = ∑𝑘𝑗=1 𝑛𝑖𝑗 et 𝑛 = ∑𝑟𝑖=1 ∑𝑘𝑗=1 𝑛𝑖𝑗 . On estimera naturellement le
𝑛
paramètre 𝑝𝑗 par la proportion correspondante dans l’échantillon 𝑝𝑗 ≈ 𝑛∗𝑗 ainsi si 𝐻0 est
vraie, l’effectif théorique de la classe 𝐶𝑗 dans la population 𝑃𝑖 est à peu près 𝑡𝑖𝑗 = 𝑛𝑖∗ × 𝑝𝑗 =