Chapitre1 S3 21 22 TCL Sondage
Chapitre1 S3 21 22 TCL Sondage
Chapitre1 S3 21 22 TCL Sondage
Année universitaire
2021-2022
1
Dans la première partie de ce chapitre, on va définir la convergence en probabilité et la
convergence en loi, puis on donnera le théorème de la loi faible des grands nombres (LGN)
et le théorème central limite (TCL). Dans la deuxième partie de ce chapitre on va aborder les
différentes méthodes d’échantillonnages, on distinguera ainsi les méthodes aléatoires (qui
vont nous intéressé dans les chapitres suivants) et les méthodes non aléatoires.
2
Sommaire
3
1. Lois découlant de la loi normale
Une v.a. 𝑋 suit une loi normale de paramètre (𝜇, 𝜎) (avec 𝜎 > 0) si sa densité est
1 1 𝑥−𝜇 2
𝑓 𝑥 = 𝑒− 2 𝜎 , 𝑝𝑜𝑢𝑟 𝑥 ∈ ℝ
𝜎 2𝜋
On note 𝑿~𝓝(𝝁, 𝝈)
Soit 𝑋1 , 𝑋2 , … , 𝑋𝑛 , 𝑛 v.a. indépendantes de même loi normale standard 𝑁 0,1 , alors la v.a.
𝑛
𝑌= 𝑋𝑖2
𝑖=1
Cette loi est utilisée en statistique dans l’estimation de la variance 𝜎 2 inconnue d’une
population.
Soit deux v.a. 𝑋 et 𝑌 tel que 𝑋~𝑁 0,1 et 𝑌 ~ 2 (𝑛), si 𝑋 et 𝑌 sont indépendantes alors la
v.a.
𝑋 𝑋
𝑇= = 𝑛
𝑌 𝑌
𝑛
suit une loi de probabilité dite de Student à 𝑛 degrés de liberté.
On note 𝑻 ~ 𝒕(𝒏).
Cette loi sera utilisée en statistique dans l’estimation de la moyenne 𝜇 inconnue d’une
population dont la variance 𝜎 2 est aussi inconnue.
On donne dans ce paragraphe les deux convergences qui vont caractériser les estimateurs,
on parle ici de convergence en probabilité et de convergence en loi. On donne aussi la loi
faible des grands nombres (LGN) et le fameux théorème central limite (TCL).
4
Deux applications du TCL sont prévues pour les deux lois discrètes binomiale et de Poisson,
dans ce cas une correction de continuité est envisageable.
Définition : Une suite de variables aléatoires 𝑋𝑛 converge en probabilité vers une variable
aléatoire 𝑋 si et seulement si, pour tout 𝜀 > 0
lim 𝑃 𝑋𝑛 − 𝑋 > 𝜀 = 0
𝑛 →+∞
𝑷
On note 𝑿𝒏 → 𝑿
Pour tout écart fixé 𝜀, quand 𝑛 devient très grand, il est de moins en moins probable
d’observer des écarts supérieurs à 𝜀.
Un exemple très apprécié de la convergence en probabilité est la loi faible des grands
nombres.
Théorème de la LGN
Soit 𝑋 une v.a. et 𝑋𝑛 une suite de v.a. de même loi que 𝑋 et deux à deux indépendantes
Alors, pour tout 𝜀 > 0
lim 𝑃 𝑋𝑛 − 𝐸 𝑋 >𝜀 =0
𝑛→+∞
Remarques :
▪ La condition deux à deux indépendantes peut être allégé par la condition de la non
corrélation deux à deux ; c.à.d.
𝐶𝑜𝑣 𝑋𝑖 , 𝑋𝑗 = 𝐸 𝑋𝑖 𝑋𝑗 − 𝐸 𝑋𝑖 𝐸 𝑋𝑗 = 0 𝑠𝑖 𝑖 ≠ 𝑗.
▪ D’après la LGN, on est presque sûr que les valeurs observées de la moyenne d’une série
de données issues de la même loi de probabilité et qui sont au moins non corrélées se
trouvent au voisinage de l’espérance, et cela est d’autant vrai quand 𝑛 est assez grand.
⇔ lim 𝑃 𝑋𝑛 ∈ 𝐸 𝑋 − 𝜀 ; 𝐸 𝑋 + 𝜀 =1
𝑛→+∞
▪ La LGN s’écrit
𝑃
𝑋𝑛 → 𝐸 𝑋
5
Exemple : Si on joue 𝑛 fois avec une pièce de monnaie bien équilibrée, on pose 𝑋𝑖 la v.a. qui
1
prend la valeur 1 si le résultat du ième lancé est Pile, alors 𝑋𝑖 ~ℬ ; la moyenne 𝑋𝑛 (qu’on
2
note aussi 𝑝𝑛 ) est la v.a. fréquence (pourcentage) de l’événement Pile, si on a supposé que
le dé n’est pas truqué, on s’attend à une fréquence de 0.5 = 50%, cette fréquence n’est
autre que l’espérance de 𝑋𝑖 :
1
𝐸 𝑋𝑖 = = 0.5
2
D’une autre manière, si on prend des valeurs différentes de 𝜀, il suffit d’augmenter la taille 𝑛
pour être presque sûr que la fréquence observée 𝑥𝑛 est proche de la valeur espérée.
Définition : Une suite de v.a. 𝑋𝑛 de fonction de répartition 𝐹𝑛 converge en loi vers une v.a.
𝑋 de fonction de répartition 𝐹 si et seulement si, pour tout 𝑥 ∈ ℝ
lim 𝐹𝑛 𝑥 = 𝐹 𝑥
𝑛→+∞
ℒ
On note 𝑋𝑛 → 𝑋
Posons :
𝑛
1
𝑋𝑛 = 𝑋𝑖
𝑛
𝑖=1
6
Il s’agit de la moyenne de 𝑛 v.a. de même loi de probabilité, de même espérance 𝐸(𝑋1 ) et
de même variance 𝑉𝑎𝑟(𝑋1 ).
𝑋𝑛 − 𝜇 ℒ
𝑛 → 𝑁 0,1
𝜎
Si on centre et on réduit la v.a. 𝑋𝑛 , sa loi sera approximativement une loi normale centrée
réduite.
𝐸 𝑋𝑛 = 𝜇,
𝜎2 𝑋𝑛 − 𝜇 𝑋𝑛 − 𝜇
𝑉𝑎𝑟 𝑋𝑛 = ℒ 𝜎 =ℒ 𝑛 ≅ 𝑁 0,1
𝑛 𝜎
𝑛
𝑋𝑛 −𝜇
On remplace pour 𝑛 assez grand la fonction de répartition de la v.a. 𝑛 par la
𝜎
En général, on considère que pour 𝑛 ≥ 30, on aura une bonne approximation par le TCL.
𝑛
Si on considère la somme de 𝑛 v.a. indépendantes et de même loi, 𝑆𝑛 = 𝑖=1 𝑋𝑖 alors
ℒ 𝑆𝑛 ≅ 𝑁 𝑛𝜇, 𝑛 𝜎
Rappelons que les paramètres de la loi normale ci-dessus sont l’espérance et l’écart-type de
𝑆𝑛 , 𝐸 𝑆𝑛 = 𝑛𝜇 ; 𝑉𝑎𝑟 𝑆𝑛 = 𝑛𝜎 2 et 𝜎 𝑆𝑛 = 𝑛 𝜎.
7
Pour 𝑛 assez grand, la loi de probabilité de 𝑆 est approximativement une loi normale :
ℒ 𝑆 ≅ 𝑁 𝑛𝑝, 𝑛𝑝(1 − 𝑝)
𝑆 − 𝑛𝑝
ℒ ≅ 𝑁 0,1 pour 𝑛 assez grand
𝑛𝑝(1 − 𝑝)
Pour 𝑛 assez grand, la loi de probabilité de 𝑆 est approximativement une loi normale
𝑁 𝑛, 𝑛 .
𝑆 − 𝑛
ℒ ≅ 𝑁 0,1 pour 𝑛 assez grand
𝑛
8
𝑆−𝑛
ℒ ≅ 𝑁 0,1
𝑛
Dans le cas de l’utilisation du TCL pour approcher une loi discrète 𝑋 par la loi continue
normale, on devra corriger cette approximation en considérant des intervalles continus
centrés sur les valeurs prises par 𝑋, par exemple si 𝑋 ∈ ℕ, l’intervalle *1, 2+ sera remplacé
par l’intervalle *0.5 ; 2.5].
Exemple :
Si 𝑋~𝐵 100; 0.06 , on veut calculer 𝑃(3 ≤ 𝑋 ≤ 7).
▪ Exactement, on aura la calcul suivant :
𝑃 3 ≤ 𝑋 ≤ 7 = 𝑃 𝑋 = 3 + 𝑃 𝑋 = 4 + 𝑃 𝑋 = 5 + 𝑃 𝑋 = 6 + 𝑃(𝑋 = 7) = 69.17%
9
On peut conclure que sans correction de continuité, la différence entre la probabilité
𝑃 3 ≤ 𝑋 ≤ 7 et son approximation par la loi normale est égale à 0.1327 ; cette différence
s’est réduite à 0.0268 quand on a corrigé l’intervalle [3, 7] par l’intervalle [2.5 ; 7.5].
Pour le calcul des probabilités directement sur les points observés de la v.a. discrète 𝑋, on
considère la formule 𝑃 𝑋 = 𝑘 = 𝑃(𝑘 − 0.5 < 𝑋 < 𝑘 + 0.5), par exemple :
−0.5 0.5
𝑃 𝑋 = 6 = 𝑃 5.5 ≤ 𝑋 ≤ 6.5 ≈ 𝑃 ≤𝑍≤ = 2 ∗ 𝜙 0.21 − 1 = 16.64%
5.64 5.64
6
On vérifie bien la pertinence du calcul : 𝑃 𝑋 = 6 = 𝐶100 ∗ 0.066 ∗ 0.9494 = 16.57%
3. Méthodes d’échantillonnage
Dans un recensement, tous les sujets de la population sont examinés, on envisage un coût
élevé et même dans certains cas, l’impossibilité de recenser toutes les unités du fait qu’elles
ne sont pas toutes accessibles. Le sondage (on parle aussi d’enquête par sondage) cible une
partie de la population, il va choisir par une méthode, un échantillon représentatif de toute
la population. Ce qui va nous permettre d’étendre (ou d’extrapoler) les résultats obtenus sur
l’échantillon à des conclusions concernant toute la population (inférence statistique).
Il y a deux approches pour construire un échantillon, une première qui utilise les méthodes
dites aléatoires et une deuxième qui n’est pas aléatoire.
Les méthodes aléatoires sont des méthodes qui ont recours à la théorie des probabilités,
elles ont la particularité d’attribuer à chaque unité de la population une probabilité, non
nulle, d’être sélectionnée (toute unité de la population a une chance d’appartenir à
l’échantillon donc de représenter la population).
L’échantillonnage aléatoire simple consiste à choisir des individus de telle sorte que chaque
membre de la population a une chance égale de figurer dans l’échantillon.
10
▪ Avec remise, un individu peut être choisi plusieurs fois.
▪ Sans remise, un individu déjà choisi ne peut l’être de nouveau. C’est le cas habituel.
Difficultés : la méthode n’est applicable que lorsqu’il existe une liste exhaustive de toute la
population.
Comment procéder ?
1. On numérote tous les individus de la liste correspondant aux individus de la population
avec des nombres comportant un même nombre de chiffres.
2. En utilisant une table de nombres aléatoires, une calculatrice ou un programme
informatique, on obtient des nombres aléatoires comportant le nombre de chiffres désiré.
3. On sélectionne les nombres qui coïncident avec la liste. On rejette les nombres qui ne
coïncident pas avec la liste ou qui se répètent, on s’arrête après avoir sélectionné 𝑛 individus
(𝑛 représentant le nombre d’individus souhaités dans l’échantillon).
Avec Excel, on peut utiliser une des deux fonctions alea() ou alea.entre.bornes()
1. Avec le nombre aléatoire « alea »
▪ Première colonne : identifie avec un nombre chaque individu de la liste de référence.
▪ Deuxième colonne : =alea()
▪ Recopier les deux colonnes en valeur à la même place.
▪ Trier les deux colonnes en fonction de l’ordre croissant (ou décroissant) de la
deuxième colonne.
▪ Retenir les 𝑛 premiers individus dans la colonne 1
11
Pour simplifier la construction d’un ES, on a recours à la méthode systématique qui consiste
à la prédétermination des échantillons possibles à la sélection.
Une strate est un groupe ou sous population homogène. Si on peut subdiviser la population
en strates qui sont relativement homogènes et mutuellement exclusives, on doit prélever
des sous-échantillons dans chaque strate.
Comment procéder ?
12
Pour réussir cette méthode d’échantillonnage, les variables de starification doivent être
simples à utiliser, facile à observer et étroitement reliées au thème de l’enquête.
L’avantage de la méthode, c’est qu’il est fort probable de choisir un échantillon raisonnable
de la population puisqu’on s’assure de la présence proportionnelle de tous les divers sous-
groupes composant la population.
Remarques :
Exemple : on veut choisir par échantillonnage stratifié 10 étudiants dans un groupe de 60, en
tenant compte du fait que 50% d’entre eux sont en Gestion, 30% en Économie et Gestion et
20% en Économie. Le facteur de stratification est le caractère « Option » qui prend trois
modalités : « Gestion », « Économie et Gestion » et «Économie ».
L’avantage de la méthode, c’est qu’elle ne nécessite pas une liste globale de la population,
puisque seuls les individus inclus dans les grappes comptent. Elle permet de limiter
l’échantillon à des groupes compacts, ce qui permet de réduire les coûts de déplacement, de
suivi et de supervision.
La méthode peut entraîner des résultats imprécis (moins précis que les méthodes
précédentes) puisque les unités voisines ont tendance à se ressembler. Et elle ne permet pas
de contrôler la taille finale de l’échantillon.
13
Pour réussir un échantillonnage par grappes, il est recommandable :
▪ d’avoir des tailles de grappes le plus uniforme que possible (tailles se rapprochant d’une
taille unique).
▪ que les unités composant la grappe soient aussi hétérogènes que possible du point de
vue du caractère étudié.
Exemple : Dans la faculté des sciences, on choisit aléatoirement des groupes de TP pour
constituer l’échantillon final, chaque groupe de TP est constitué d’un certain nombre
d’étudiants, les tailles des groupes peuvent varier.
On peut utiliser plus de 2 degrés, par exemple, si on veut un échantillon des enseignants des
universités marocaines, on sélectionne quelques universités du royaume. Dans chaque
université sélectionné, on choisit quelques établissements et dans chaque établissement
choisit, on fait un tirage au sort de quelques départements. Tous les enseignants du
département sélectionné seront dans l’échantillon final.
L’avantage de cette méthode c’est qu’on aura un échantillon plus concentré, ce qui réduit
les coûts, de plus on n’a pas besoin de disposer de la liste de toutes les unités.
Les données de base sont collectées auprès d’un échantillon d’unité de grande taille, ensuite
pour un sous-échantillon de ces unités, la collecte des données est plus détaillée.
Le plus couramment on utilise deux phases, par exemple, on a besoin d’information sur les
éleveurs de bétail. Dans la base de sondage, sont énumérés les types d’exploitation
14
agricoles: bétail, grains, volaille, fruit, légumes... mais on n’a aucune donnée auxiliaire. C’est
pour cette raison qu’on pourrait mener une enquête sur un premier échantillon de grande
taille dont la seule question serait : Vous consacrez vous en totalité au bétail ? Puis sur la
sélection des éleveurs uniquement de bétail, on extrait un second échantillon plus petit que
le premier auquel on pose des questions détaillées.
Les méthodes non aléatoires sont des méthodes où le concept de «chance égale» est
absent. Ce sont des méthodes généralement peu fiables. Elles ne nécessitent pas de base de
sondage, elles sont souvent utilisées
▪ pour des études exploratoires;
▪ pour réduire les coûts;
▪ quand il est impossible ou non envisageable d’utiliser la méthode aléatoire.
L’avantage essentiel de ces méthodes, c’est qu’elles sont moins coûteuses et plus faciles à
réaliser.
Le calcul de probabilité n’est pas possible puisqu’on ne peut pas connaitre à priori la
probabilité qu’une unité sélectionnée appartienne à l’échantillon.
Il est largement utilisé dans les enquêtes d’opinion et les études de marché notamment
parce qu’il ne suppose pas de liste des individus de la population. On parle aussi
d’échantillonnage dirigé ou par choix raisonné. On demande aux enquêteurs de faire un
nombre d’entrevues dans divers groupes établis en fonction du secteur géographique, de
l’âge, du sexe ou d’autres caractéristiques…
15
L’idée d’une telle démarche est qu’on a plus de chances pour que les distributions de
l’échantillon pour les autres caractères étudiés soit les mêmes que celles de la population.
Le choix des unités est laissé à la discrétion de l’enquêteur, qui doit respecter son quota.
Les quotas sont déterminés en multipliant le taux de sondage par les effectifs des différentes
modalités des variables de contrôle.
Pour choisir une variable de contrôle, on doit vérifier si sa distribution dans la population est
connue. En plus, comme dans le cas du choix de la variable de stratification, la variable de
contrôle doit être en corrélation avec la (ou les) variable(s) étudiée(s).
16
Age Effectifs Fréquence
17- 19 280 46.67%
Sexe Effectifs Fréquence
19-21 220 36.67%
Féminin 360 60%
21-25 60 10%
Masculin 240 40%
25-33 30 5%
Total 600 100%
33-51 10 1.67%
Total 600 100%
Alors on multiplie le taux de sondage aux différents effectifs pour obtenir les quotas :
Exemples :
17
▪ Déguster des yaourts d’une marque, goûter à des plats principaux, afin de juger de la
qualité.
▪ Un journaliste d’une chaine télévisé interviews des gens dans la rue pour comprendre
comment la population perçoit un enjeu ou une question.
▪ On veut interroger 30 clients d’une grande surface, on décide de sélectionner les trente
premiers clients qui entrent.
18
Un instrument est valide lorsqu’il mesure vraiment ce qu’il est censé mesurer.
Pour éviter ces erreurs, il faut utiliser les mêmes instruments et les mêmes conditions.
▪ L’erreur d’échantillonnage
Le fait d’étudier un échantillon plutôt qu’un autre engendre forcément une erreur. Cette
erreur appelée erreur d’échantillonnage est inévitable.
Pour en savoir plus sur les sondages et leurs applications, voici quelques références :
Bibliographie
1. Méthodes statistiques, techniques statistiques, B. Grais.
2. L’enquête par questionnaire, manuel à l’usage du praticien. C.Javeau.
3. Au royaume des sondages, J.-J. Droesbeke et G. Thoveron.
4. Les techniques de sondage P. Ardilly, édition TECHNIP.
5. Documents pédagogiques sur le site de Statistique Canada www.statcan.ca
19