Chap Echantillonnage-Estimation

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 15

STATISTIQUE INFERENTIELLE

I. Echantillonnage

II. Estimation

Professeur : Adil Echchelh


[email protected]

Semestre 5
Année Universitaire 2020/2021

I. Echantillonnage :
Problématique : comment à partir d’informations (moyenne-écart -type ou
proportion) connues sur une population peut-on prévoir celles d’un
échantillon ?

Deux cas à distinguer :

- celui ou l’on établie une moyenne dans un échantillon

- Celui où l’on étudie une proportion dans un échantillon

Définitions : 1/ échantillonnage aléatoire :

Pour qu’un échantillon soit représentatif de la population, il faut que chaque


élément de la population ait les mêmes chances d’appartenir à cet échantillon
dans ce cas on a un échantillonnage aléatoire. (p=1/N)

2/ échantillonnage exhaustif ou non exhaustif :

Si l’élément extrait de la population pour effectuer l’échantillonnage est remis


dans cette population après relevé de ses statistiques alors on a un
échantillonnage non exhaustif sinon on a un échantillonnage exhaustif

Autrement dit non exhaustif = avec remise.

Remarque :

- une population finie sur laquelle on effectue un


échantillonnage exhaustif peut être considéré comme infinie.

- Un échantillonnage exhaustif réalisé sur une population très


grande (N>>n) est considérée comme non exhaustif. P=1/n,
1/(N-1)…………, 1/(N-n+1)

I.1 : étude de la moyenne d’un échantillonnage :

On dispose d’une population sur laquelle est définie une variable aléatoire X
dont on connait l’espérance E(x) (ou la moyenne µ) et l’écart -type .

On s’intéresse aux échantillons de taille n. Auront-ils la même moyenne ?

Notons la variable aléatoire qui, à chaque échantillon de taille n associe la


moyenne S ou
Population mère de taille N Echantillon de taille n

Paramètres connues Paramètres non connues


{moyenne µ et écart } type {moyenne et écart –
type

S’appelle la distribution des moyennes des échantillons notés DEM.

Que peut-on dire de cette variable aléatoire ?

Théorème central limite (version faible) TCL1

Contexte : X la variable aléatoire qui suit la loi normale sur la population


(population mère normale)

On prélève un échantillon aux hasards (tirage non exhaustif de taille n et de


moyenne S ou alors la variable aléatoire suit également une loi normale
autrement dit la variable aléatoire suit également une loi

normale N(0,1)

Exercice 1 : On suppose qu’à partir d’une population de taille très importante


on tire les donnés suivante :

Moyenne µ=50 et Ecart-type , n=36

Calculer la moyenne de l’étude et l’écart-type de l’échantillon.

Réponse :
Théorème central limite (version forte) TCL2:

Contexte : X variable aléatoire qui suit une loi quelconque sur la population
avec E(X)= µ et (X)=

On prélève un échantillon au hasard (tirage non exhaustif de taille et de


moyenne ) alors la variable aléatoire approximativement suit une loi
normale.

Autrement dit la v.a suit approximativement N(0,1)

Exercice 2 : les statistiques des notes en mathématique à ENCG pour la 1ère


année 2008 sont : moyenne nationale µ=10,44 écart_type

Une classe de ENCG S3 comporte 35 étudiants en 2008/2009 issu de ENCG S1


en 2008.

Calculer la probabilité que la moyenne de cette classe soit supérieure à 10

Réponse : ici nous ne connaissons pas la loi sur la population mais l’effectif de
l’échantillon, n=35>30, nous allons pouvoir utiliser le TCL 2.

Notons la variable aléatoire qui à tout échantillon de taille n=35 fait


correspondre sa moyenne )

Posons on aura :
Conclusion :

Il y a environ 96% de chance que dans cette classe de ENCG S3, la moyenne des
notes de mathématique soit supérieur à10.

Exercice 3 : un vérificateur tire un échantillon de taille n=36 d’une population


de 1000 comptes. Si la moyenne des 1000 comptes est µ=260 DH et son écart
–type

Quelle est la probabilité que la moyenne de l’échantillon retenu soit inférieure


ou égale à 250 DH ?

Réponse :

Posons

p(X ≤ 250) = p(Z ≤ (250-260)/7.16) = p(Z≤-1.4)=1 – p(≥1.4) = 0.0808

I.2 Etude d’une proportion dans un échantillon :

On dispose d’une population sur laquelle on étudie un caractère A dont on


cannait la proportion (fréquence) dans la population.

On s’intéresse aux échantillons de taille n.

La proportion du caractère A dans les échantillons sera-t-elle toujours la


même ?

Notons F la variable aléatoire qui à chaque échantillon de taille n, associe sa


population de caractère A (F notée DEF s’appelle distribution des fréquences
des échantillons), que peut-on dire de cette variable aléatoire ?
Théorème :

Contexte : une population sur laquelle on étudie un caractère A ayant une


fréquence p, on prélève au hasard un échantillon (tirage avec remise) de taille
n (n≥30).

On note Xe la fréquence du caractère A dans l’échantillon, alors la variable


aléatoire Xe suit approximativement une loi normale.

Exemple 4 :

Une élection a eu lieu et un candidat a obtenu 40% des voix, on prélève un


échantillon de 100 bulletins de vote. Quelle est la probabilité que dans
l’échantillon le candidat ait entre 35% et 45% des voix

Réponse

Ici nous avons n=100 ; p=0,4 la variable F correspond à la fréquence des votes
pour le candidat dans l’échantillon vérifié :

= N(0.4 ; 0.155)

La nouvelle variable suit une loi normale X =

On a = 2*p(0.05) - 1 = 2*0,8461 – 1= 0,6922

Conclusion :

Il y a 69% de chance que dans l’échantillon de taille n=100, le candidat ait entre
35% et 45% des voix.

NB :
* si l’échantillon est prélevé sans remise dans une population finie on

multipliera l’écart –type ( ) par le facteur d’exhaustivité

*si N est <<grande>> devant n ce facteur vaut pratiquement 1.

Exercice 5

Les poids de 3000 étudiants sont distribués normalement avec une moyenne
de 68 kg et un écart type de 3 kg. On constitue, par tirages aléatoires, un
échantillon de 25 étudiants. On note X la variable représentant la moyenne
des poids d’un tel échantillon

1. Déterminer l’espérance et l’écart type de X dans le cas de tirages avec


remise
2. Déterminer la probabilité pour que X soit comprise entre 67,4 kg et 68,6
3. Quelle aurait dû être la taille de l’échantillon pour que cette probabilité
soit égale à 0,8 ?
Réponse
1/ sur l’ensemble de la population la variable poids X suit la loi N (µ, ) avec
µ=68 Kg et =3 Kg

Dans un échantillon aléatoire obtenu par tirage avec remise, l’écart –type
= = 0.6

Pour un échantillon obtenu par tirage sans remise (exhaustif) on a :

Remarque : Les résultats étant très voisins nous prendrons, quelque soit la
méthode de constitution de l’échantillon =0,6 Kg

2/ la population mère étant distribuée normalement nous pourrons donc


affirmer que suit la loi normale N(E ( ), ) = N (68 ; 0,6).

Remarque : si la population n’avait pas été supposée <<normale>> la loi choisie


pour aurait été une approximation

Notons
II. Estimation

Problématique : Comment à partir d’informations (moyenne- écart–type ou


proportion) calculées sur un échantillon retrouver ou plutôt estimer celles
d’une population entière ?

-L’échantillonnage permet de passer de la population totale à une partie


seulement de cette population (l’échantillon)

-L’estimation permet alors, à partir des résultats observés sur l’échantillon, des
informations sur la population totale.

Définition :

-On est souvent amené à estimer quelque chose (valeur d’un produit, poids
d’un paquet…) cela peut consister à fournir une valeur qui, à notre avis est la
valeur réelle, on fait alors une estimation ponctuelle.

-Pour affiner l’estimation, on propose parfois, plutôt qu’une valeur unique, un


intervalle dans laquelle la valeur estimée « a de grandes chances » de se
trouver ; on fait donc une estimation par intervalle.

-Un estimateur est un paramètre d’échantillonnage utilisé pour estimer la


valeur d’un paramètre statistique de la population.

-Si l’estimateur a même moyenne que le paramètre à estimer, on dit que cet
estimateur est non biaisé. Dans le cas contraire on dit qu’il biaisé

Nous distinguons deux cas :

 Estimer la valeur d’une variable aléatoire définie sur la population.


 Estimer une proportion d’individus dans la population ayant un tel
caractère.

II.1 – Estimations d’une moyenne :

II.1.1- Estimations ponctuelle :

Contexte : on considère une variable aléatoire X sur une population de


moyenne µ inconnu et d’écart –type inconnu (ou connu), on suppose que
l’on a prélevé un échantillon de taille n (tirage avec remise) sur lequel on a
calculé la moyenne µ e et l’écart type .

*/ une estimation ponctuelle de la population est

*/ une estimation ponctuelle de l’écart –type de la population est

Remarque :

-Estimateur de même moyenne que les paramètres estimés  estimateur non


biaisé.

-Estimateur de moyenne différente de celle des paramètres estimés 


estimateur biaisé.

* Le coefficient s’appel correction de biaise. Lorsque la taille n de

l’échantillon est assez grand (n>30), ce coefficient est très voisin de 1.

Exemple d’application :

Une université compte 1500 étudiants. On mesure 20 d’entre eux la moyenne


et l’écart –type , calculés à partir de cet échantillon et
.

Estimer les paramètres de la population ?

Réponse : d’après le théorème on a :


1/ l’estimateur de la moyenne = =176 cm

2/ de l’écart –type *

II.1.2- Estimations par intervalle de confiance :

Nous allons raisonner en deux temps : une phase à priori (prévisionnelle) dans
laquelle on suppose que l’échantillon n’est pas encore prélevé et une phase
posteriori dans laquelle on suppose connue et et donc les estimateurs
et de la population.

Phase priori (Mise en place du modèle prévisionnel) :

si la variable aléatoire correspond à la moyenne d’un échantillon de taille n


pris au hasard d’après TCL :

suit approximativement une loi normale :

Nous allons chercher un intervalle qui contient avec une confiance arbitraire
de 95% (risque de 5%) : cad chercher un rayon r tel que :

Donc

Posons

Donc =

Donc

Sur la taille :
On a Q(t)=0,975  t=1,96 (voir la table de la loi normale)

Donc t= =1,96

Donc r=t

r=1,96 * le rayon de l’intervalle cherché.

Phase à posteriori (utilisation des valeurs estimées ponctuellement)

Supposons maintenant que l’échantillon a été tiré. Nous obtenons donc une
représentation de la variable aléatoire .

L’intervalle obtenue pour cet échantillon est : IC= [ -t ; +t ]

On l’appelle intervalle de confiance à 95%. Pour calculer les bornes de IC deux


cas se présentent :

- Si de la population est connu : rien à faire

IC= [ -t ; +t ]

- Si de la population n’est pas connu : on la remplace par son

estimation de e
donc

IC= [ -t ; +t ]

Exemple d’application :

Une université compte 1500 étudiants. On mesure 20 d’entre eux la moyenne


et l’écart –type calculés à partir de cet échantillon et
.

Déterminer une estimation de la moyenne par intervalle de confiance à 95% ?

Réponse :
Les paramètres de la population sont déjà estimés ponctuellement =176

cm et = 6,16 cm.

Donc la moyenne est dans IC= [ -t ; +t ]

C.a.d IC= [176-2,7 ;176+2,7= IC= [173,3 ;178,7]

III.1 – Estimations d’une proportion :

III.1.1- Estimations ponctuelle :

Contexte : On considère un caractère A sur une population dont la proportion p


est inconnue. On suppose que l'on a prélevé un échantillon de taille n (tirage
avec remise ou assimilé) sur lequel on a calculé la proportion pe d'individus
ayant le caractère A.
Notons F la variable aléatoire correspondant à la proportion du caractère A
dans un échantillon de taille n pris au hasard. On rappelle qu'alors F suit
approximativement une loi normale :

Théorème
Une estimation ponctuelle de la proportion p de A dans la population est :
= pe
Une estimation ponctuelle de l'écart-type est selon le cas :
Exemple d’application

À quelques jours d'une élection, un candidat fait effectuer un sondage. Sur les
150 personnes interrogées, 45 se disent prêtes à voter pour lui aux prochaines
élections.
Déterminer les estimateurs ponctuels et ?
Réponse
La proportion d'individus prête à voter pour ce candidat dans l'échantillon est
ici de pe = 45/150= 0,3.
Dans la population, on estime = pe = 0,3.

Et = = = 0,037

But :

On voudrait calculer un intervalle de confiance contenant, avec une confiance


arbitraire fixée, la proportion p.

III.1.2- Estimations par intervalle de confiance :

Si F est la variable aléatoire correspondant à la proportion d'un caractère dans


un échantillon de taille n pris au hasard, alors F suit approximativement une loi
normale :

Le fait que p soit inconnu n'est pas gênant dans les calculs a priori.
Nous le remplacerons, dans la phase a posteriori, par son estimation ponctuelle
de même pour l'écart-type .

Cherchons un intervalle qui contient p avec une confiance arbitraire de 90 % .


Nous cherchons donc un rayon r tel que :

i.e :

Le passage a la réduite centrale T  N(0,1), entraîne


Donc 2ø( )-1=0,90 c.a.d ø( )=0,95

Or ø(t)=0,95 avec t= sur la table de la loi normale donne t=1,645

Donc

Supposons maintenant l'échantillon prélevé. Nous avons donc une


estimation ponctuelle de p et .Ainsi, la réalisation de l'intervalle
de confiance dans l'échantillon est :

Exemple d’application :
A quelques jours d'une élection, un candidat fait faire un sondage. Sur les 150
personnes interrogées, 45 se disent prêtes à voter pour lui aux prochaines
élections.
Déterminer une estimation de p par intervalle de confiance à 80%.

La proportion d'individus prête à voter pour ce candidat dans l'échantillon est


ici de pe = 45/150= 0,3.
On a déjà estimé ponctuellement : = pe = 0,3 et 0,037
Notons F la variable aléatoire correspondant à la proportion d'individus prêts à
voter pour ce candidat dans un échantillon de taille 150 pris au hasard.
Nous avons vu qu'approximativement :

On cherche un rayon r tel que

Donc 2ø( )-1=0,80 c.a.d ø( )=0,9


Or ø(t)=0,9 avec t= sur la table de la loi normale donne t=1,28

Donc c.a.d r=1,28

Supposons maintenant l'échantillon prélevé. Une estimation ponctuelle de


est
D’où r=0,047

La réalisation de l’intervalle de confiance dans cet échantillon est

Remarque : Nous pouvons estimer, avec une confiance de 80 %, que la


proportion d'individus dans la population prêts à voter pour le candidat en

Vous aimerez peut-être aussi