Chapitre1 S3 21 22 TCL Sondage

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 19

UNIVERSITE MOHAMED PREMIER

FACULTE DES SCIENCES JURIDIQUES,

ÉCONOMIQUES ET SOCIALES D’OUJDA

COURS ECHANTILLONNAGE ET ESTIMATION

CHAPITRE 1 : Théorèmes limites et méthodes d’échantillonnage

Professeur Moustapha Faizi

Deuxième année sciences économiques et gestion, semestre 3

Année universitaire
2021-2022

1
Dans la première partie de ce chapitre, on va définir la convergence en probabilité et la
convergence en loi, puis on donnera le théorème de la loi faible des grands nombres (LGN)
et le théorème central limite (TCL). Dans la deuxième partie de ce chapitre on va aborder les
différentes méthodes d’échantillonnages, on distinguera ainsi les méthodes aléatoires (qui
vont nous intéressé dans les chapitres suivants) et les méthodes non aléatoires.

2
Sommaire

1. Lois découlant de la loi normale __________________________________________ 4


1.1. Loi de khi-deux __________________________________________________________________ 4
1.2. Loi de Student ___________________________________________________________________ 4

2. Convergence en probabilité et convergence en loi ___________________________ 4


2.1. Convergence en probabilité ________________________________________________________ 5
2.2. Convergence en loi _______________________________________________________________ 6
2.3. Approximation par la loi normale ____________________________________________________ 7
2.3.1. Cas de la loi binomiale ________________________________________________________ 7
2.3.2. Cas de la loi de Poisson _______________________________________________________ 8
2.3.3. Correction de continuité ______________________________________________________ 9

3. Méthodes d’échantillonnage ___________________________________________ 10


3.1. Méthodes aléatoires _____________________________________________________________ 10
3.1.1. L’Echantillonnage aléatoire simple _____________________________________________ 10
3.1.2. L’échantillonnage stratifié ____________________________________________________ 12
3.1.3. L’échantillonnage par grappes _________________________________________________ 13
3.1.4. L’échantillonnage à plusieurs degrés ____________________________________________ 14
3.1.5. L’échantillonnage à plusieurs phases ___________________________________________ 14
3.2. Méthodes empiriques ou non aléatoires ____________________________________________ 15
3.2.1. L’échantillonnage par quotas__________________________________________________ 15
3.2.2. l’échantillonnage à l’aveuglette ou de commodité _________________________________ 17
3.2.3. L’échantillonnage de volontaires _______________________________________________ 18
3.2.4. L’échantillonnage au jugé ____________________________________________________ 18
3.3. Les erreurs _____________________________________________________________________ 18

3
1. Lois découlant de la loi normale
Une v.a. 𝑋 suit une loi normale de paramètre (𝜇, 𝜎) (avec 𝜎 > 0) si sa densité est
1 1 𝑥−𝜇 2
𝑓 𝑥 = 𝑒− 2 𝜎 , 𝑝𝑜𝑢𝑟 𝑥 ∈ ℝ
𝜎 2𝜋
On note 𝑿~𝓝(𝝁, 𝝈)

En particulier si 𝜇 = 0 et 𝜎 = 1 alors 𝑋 est dite de loi normale standard, 𝑋~𝒩(0, 1).

1.1. Loi de khi-deux

Soit 𝑋1 , 𝑋2 , … , 𝑋𝑛 , 𝑛 v.a. indépendantes de même loi normale standard 𝑁 0,1 , alors la v.a.
𝑛

𝑌= 𝑋𝑖2
𝑖=1

suit une loi de probabilité dite de khi-deux à 𝑛 degrés de liberté.

On note 𝒀 ~ 𝟐 (𝒏) ou 𝒀~ 𝟐𝒏 .

Cette loi est utilisée en statistique dans l’estimation de la variance 𝜎 2 inconnue d’une
population.

1.2. Loi de Student

Soit deux v.a. 𝑋 et 𝑌 tel que 𝑋~𝑁 0,1 et 𝑌 ~ 2 (𝑛), si 𝑋 et 𝑌 sont indépendantes alors la
v.a.
𝑋 𝑋
𝑇= = 𝑛
𝑌 𝑌
𝑛
suit une loi de probabilité dite de Student à 𝑛 degrés de liberté.

On note 𝑻 ~ 𝒕(𝒏).

Cette loi sera utilisée en statistique dans l’estimation de la moyenne 𝜇 inconnue d’une
population dont la variance 𝜎 2 est aussi inconnue.

2. Convergence en probabilité et convergence en loi

On donne dans ce paragraphe les deux convergences qui vont caractériser les estimateurs,
on parle ici de convergence en probabilité et de convergence en loi. On donne aussi la loi
faible des grands nombres (LGN) et le fameux théorème central limite (TCL).

4
Deux applications du TCL sont prévues pour les deux lois discrètes binomiale et de Poisson,
dans ce cas une correction de continuité est envisageable.

2.1. Convergence en probabilité

Définition : Une suite de variables aléatoires 𝑋𝑛 converge en probabilité vers une variable
aléatoire 𝑋 si et seulement si, pour tout 𝜀 > 0
lim 𝑃 𝑋𝑛 − 𝑋 > 𝜀 = 0
𝑛 →+∞
𝑷
On note 𝑿𝒏 → 𝑿

Pour tout écart fixé 𝜀, quand 𝑛 devient très grand, il est de moins en moins probable
d’observer des écarts supérieurs à 𝜀.
Un exemple très apprécié de la convergence en probabilité est la loi faible des grands
nombres.

Théorème de la LGN
Soit 𝑋 une v.a. et 𝑋𝑛 une suite de v.a. de même loi que 𝑋 et deux à deux indépendantes
Alors, pour tout 𝜀 > 0
lim 𝑃 𝑋𝑛 − 𝐸 𝑋 >𝜀 =0
𝑛→+∞

Remarques :
▪ La condition deux à deux indépendantes peut être allégé par la condition de la non
corrélation deux à deux ; c.à.d.
𝐶𝑜𝑣 𝑋𝑖 , 𝑋𝑗 = 𝐸 𝑋𝑖 𝑋𝑗 − 𝐸 𝑋𝑖 𝐸 𝑋𝑗 = 0 𝑠𝑖 𝑖 ≠ 𝑗.

▪ D’après la LGN, on est presque sûr que les valeurs observées de la moyenne d’une série
de données issues de la même loi de probabilité et qui sont au moins non corrélées se
trouvent au voisinage de l’espérance, et cela est d’autant vrai quand 𝑛 est assez grand.

lim 𝑃 𝑋𝑛 − 𝐸 𝑋 >𝜀 =0 ⇔ lim 𝑃 𝑋𝑛 − 𝐸 𝑋 ≤𝜀 =1


𝑛→+∞ 𝑛→+∞

⇔ lim 𝑃 𝑋𝑛 ∈ 𝐸 𝑋 − 𝜀 ; 𝐸 𝑋 + 𝜀 =1
𝑛→+∞

▪ La LGN s’écrit
𝑃
𝑋𝑛 → 𝐸 𝑋

5
Exemple : Si on joue 𝑛 fois avec une pièce de monnaie bien équilibrée, on pose 𝑋𝑖 la v.a. qui
1
prend la valeur 1 si le résultat du ième lancé est Pile, alors 𝑋𝑖 ~ℬ ; la moyenne 𝑋𝑛 (qu’on
2

note aussi 𝑝𝑛 ) est la v.a. fréquence (pourcentage) de l’événement Pile, si on a supposé que
le dé n’est pas truqué, on s’attend à une fréquence de 0.5 = 50%, cette fréquence n’est
autre que l’espérance de 𝑋𝑖 :
1
𝐸 𝑋𝑖 = = 0.5
2

Cela s’exprime par la LGN, pour un 𝜀 > 0 assez petit, on a :

lim 𝑃 𝑋𝑛 ∈ 0.5 − 𝜀; 0.5 + 𝜀 =1


𝑛→+∞

D’une autre manière, si on prend des valeurs différentes de 𝜀, il suffit d’augmenter la taille 𝑛
pour être presque sûr que la fréquence observée 𝑥𝑛 est proche de la valeur espérée.

Si 𝜀 = 0.1 on écrit lim 𝑃 𝑋𝑛 ∈ 0.4 ; 0.6 =1


𝑛→+∞

Si 𝜀 = 0.01 on écrit lim 𝑃 𝑋𝑛 ∈ 0.49 ; 0.51 =1


𝑛→+∞

Si 𝜀 = 0.001 on écrit lim 𝑃 𝑋𝑛 ∈ 0.499 ; 0.501 =1


𝑛 →+∞

2.2. Convergence en loi

Définition : Une suite de v.a. 𝑋𝑛 de fonction de répartition 𝐹𝑛 converge en loi vers une v.a.
𝑋 de fonction de répartition 𝐹 si et seulement si, pour tout 𝑥 ∈ ℝ

lim 𝐹𝑛 𝑥 = 𝐹 𝑥
𝑛→+∞

On note 𝑋𝑛 → 𝑋

Posons :
𝑛
1
𝑋𝑛 = 𝑋𝑖
𝑛
𝑖=1

6
Il s’agit de la moyenne de 𝑛 v.a. de même loi de probabilité, de même espérance 𝐸(𝑋1 ) et
de même variance 𝑉𝑎𝑟(𝑋1 ).

Théorème central limite (TCL)


Soit 𝑛 v.a. 𝑋1 , 𝑋2 , … , 𝑋𝑛 indépendantes et de même loi de probabilité, de moyenne
𝐸(𝑋1 ) = 𝜇 et de variance 𝑉𝑎𝑟(𝑋1 ) = 𝜎 2 . Alors, on a :

𝑋𝑛 − 𝜇 ℒ
𝑛 → 𝑁 0,1
𝜎

Si on centre et on réduit la v.a. 𝑋𝑛 , sa loi sera approximativement une loi normale centrée
réduite.
𝐸 𝑋𝑛 = 𝜇,

𝜎2 𝑋𝑛 − 𝜇 𝑋𝑛 − 𝜇
𝑉𝑎𝑟 𝑋𝑛 =  ℒ 𝜎 =ℒ 𝑛 ≅ 𝑁 0,1
𝑛 𝜎
𝑛

𝑋𝑛 −𝜇
On remplace pour 𝑛 assez grand la fonction de répartition de la v.a. 𝑛 par la
𝜎

fonction de répartition de la loi normale 𝑁 0,1 .

En général, on considère que pour 𝑛 ≥ 30, on aura une bonne approximation par le TCL.

𝑛
Si on considère la somme de 𝑛 v.a. indépendantes et de même loi, 𝑆𝑛 = 𝑖=1 𝑋𝑖 alors
ℒ 𝑆𝑛 ≅ 𝑁 𝑛𝜇, 𝑛 𝜎
Rappelons que les paramètres de la loi normale ci-dessus sont l’espérance et l’écart-type de
𝑆𝑛 , 𝐸 𝑆𝑛 = 𝑛𝜇 ; 𝑉𝑎𝑟 𝑆𝑛 = 𝑛𝜎 2 et 𝜎 𝑆𝑛 = 𝑛 𝜎.

2.3. Approximation par la loi normale

2.3.1. Cas de la loi binomiale

Soit 𝑛 v.a. 𝑋1 , 𝑋2 , … , 𝑋𝑛 indépendantes et de même loi Bernoulli 𝐵(𝑝), on a :


𝐸(𝑋1 ) = 𝑝 et 𝑉𝑎𝑟(𝑋1 ) = 𝑝(1 − 𝑝)
𝑛
La v.a. 𝑆 = 𝑖=1 𝑋𝑖 suit une loi binomiale 𝐵(𝑛, 𝑝), on a :
𝐸(𝑆) = 𝑛𝑝 et 𝑉𝑎𝑟(𝑆) = 𝑛𝑝(1 − 𝑝)

7
Pour 𝑛 assez grand, la loi de probabilité de 𝑆 est approximativement une loi normale :

ℒ 𝑆 ≅ 𝑁 𝑛𝑝, 𝑛𝑝(1 − 𝑝)

Si on centre et on réduit la v.a. 𝑆, on écrit :

𝑆 − 𝑛𝑝
ℒ ≅ 𝑁 0,1 pour 𝑛 assez grand
𝑛𝑝(1 − 𝑝)

On rappelle qu’on parle toujours de la convergence en loi :


𝑆 − 𝑛𝑝 ℒ
→ 𝑁 0,1
𝑛𝑝(1 − 𝑝)
A l’origine de ce résultat était De Moivre (1738) et Laplace (1812), qu’on tire du nom du
théorème de Moivre-Laplace. (De Moivre a démontré le résultat pour le cas
d’équiprobabilité 𝑝 = 0.5 et Laplace l’a généralisé pour n’importe quelle valeur de 𝑝).

Remarque : Cette approximation est d’autant meilleure si on a les conditions suivantes,


𝑛 ≥ 30
𝑝 < 0.1
𝑛𝑝 1 − 𝑝 > 5

Si on veut que 𝑝 prenne n’importe quelle valeur entre 0 et 1, on peut se restreindre à la


seule condition suivante
𝑛𝑝 1 − 𝑝 ≥ 10

2.3.2. Cas de la loi de Poisson

Soit 𝑛 v.a. 𝑋1 , 𝑋2 , … , 𝑋𝑛 indépendantes et de même loi de Poisson 𝒫(), d’espérance


𝐸 𝑋1 =  et de variance 𝑉𝑎𝑟 𝑋1 =  . La v.a. 𝑆 = 𝑛
𝑖=1 𝑋𝑖 suit une loi Poisson 𝒫(𝑛), on
a:
𝐸(𝑆) = 𝑛 𝑒𝑡 𝑉𝑎𝑟(𝑆) = 𝑛

Pour 𝑛 assez grand, la loi de probabilité de 𝑆 est approximativement une loi normale
𝑁 𝑛, 𝑛 .
𝑆 − 𝑛
ℒ ≅ 𝑁 0,1 pour 𝑛 assez grand
𝑛

On va considérer que cette approximation est valable si 𝑛 ≥ 10.

Si on prend le cas particulier où  = 1, on aura :

8
𝑆−𝑛
ℒ ≅ 𝑁 0,1
𝑛

Cette approximation est valable pour 𝑛 ≥ 10.

2.3.3. Correction de continuité

Dans le cas de l’utilisation du TCL pour approcher une loi discrète 𝑋 par la loi continue
normale, on devra corriger cette approximation en considérant des intervalles continus
centrés sur les valeurs prises par 𝑋, par exemple si 𝑋 ∈ ℕ, l’intervalle *1, 2+ sera remplacé
par l’intervalle *0.5 ; 2.5].

On a pour toute valeur 𝑘 ∈ ℕ


𝑃 𝑋 = 𝑘 = 𝑃(𝑘 − 0.5 < 𝑋 < 𝑘 + 0.5)
𝑃 𝑋 < 𝑘 = 𝑃(𝑋 < 𝑘 − 0.5) et 𝑃 𝑋 > 𝑘 = 𝑃(𝑋 > 𝑘 + 0.5)
𝑃 𝑋 ≤ 𝑘 = 𝑃(𝑋 < 𝑘 + 0.5) et 𝑃 𝑋 ≥ 𝑘 = 𝑃(𝑋 > 𝑘 − 0.5)
Pour 𝑘 > 𝑙 on aura :
𝑃 𝑙 ≤ 𝑋 < 𝑘 = 𝑃(𝑙 − 0.5 < 𝑋 < 𝑘 − 0.5)
𝑃 𝑙 < 𝑋 < 𝑘 = 𝑃(𝑙 + 0.5 < 𝑋 < 𝑘 − 0.5)

Exemple :
Si 𝑋~𝐵 100; 0.06 , on veut calculer 𝑃(3 ≤ 𝑋 ≤ 7).
▪ Exactement, on aura la calcul suivant :
𝑃 3 ≤ 𝑋 ≤ 7 = 𝑃 𝑋 = 3 + 𝑃 𝑋 = 4 + 𝑃 𝑋 = 5 + 𝑃 𝑋 = 6 + 𝑃(𝑋 = 7) = 69.17%

▪ En utilisant le TCL sans correction de continuité, on aura le résultat suivant :


−3 1
𝑃 3≤𝑋≤7 ≈𝑃 ≤𝑍≤ = 𝜙 0.42 − 𝜙 −1.26
5.64 5.64
= 𝜙 0.42 + 𝜙 1.26 − 1 = 55.90%

▪ En utilisant le TCL avec correction de continuité, on aura :


−3.5 1.5
𝑃 3 ≤ 𝑋 ≤ 7 = 𝑃 2.5 ≤ 𝑋 ≤ 7.5 ≈ 𝑃 ≤𝑍≤ = 𝜙 0.63 − 𝜙 −1.47
5.64 5.64
= 66.49%

9
On peut conclure que sans correction de continuité, la différence entre la probabilité
𝑃 3 ≤ 𝑋 ≤ 7 et son approximation par la loi normale est égale à 0.1327 ; cette différence
s’est réduite à 0.0268 quand on a corrigé l’intervalle [3, 7] par l’intervalle [2.5 ; 7.5].

Pour le calcul des probabilités directement sur les points observés de la v.a. discrète 𝑋, on
considère la formule 𝑃 𝑋 = 𝑘 = 𝑃(𝑘 − 0.5 < 𝑋 < 𝑘 + 0.5), par exemple :
−0.5 0.5
𝑃 𝑋 = 6 = 𝑃 5.5 ≤ 𝑋 ≤ 6.5 ≈ 𝑃 ≤𝑍≤ = 2 ∗ 𝜙 0.21 − 1 = 16.64%
5.64 5.64
6
On vérifie bien la pertinence du calcul : 𝑃 𝑋 = 6 = 𝐶100 ∗ 0.066 ∗ 0.9494 = 16.57%

3. Méthodes d’échantillonnage
Dans un recensement, tous les sujets de la population sont examinés, on envisage un coût
élevé et même dans certains cas, l’impossibilité de recenser toutes les unités du fait qu’elles
ne sont pas toutes accessibles. Le sondage (on parle aussi d’enquête par sondage) cible une
partie de la population, il va choisir par une méthode, un échantillon représentatif de toute
la population. Ce qui va nous permettre d’étendre (ou d’extrapoler) les résultats obtenus sur
l’échantillon à des conclusions concernant toute la population (inférence statistique).

On parle de méthode de sondage, ou de méthode d’échantillonnage ou tout simplement


d’échantillonnage, le procédé par lequel on va choisir un échantillon de la population.

Il y a deux approches pour construire un échantillon, une première qui utilise les méthodes
dites aléatoires et une deuxième qui n’est pas aléatoire.

Les méthodes aléatoires sont des méthodes qui ont recours à la théorie des probabilités,
elles ont la particularité d’attribuer à chaque unité de la population une probabilité, non
nulle, d’être sélectionnée (toute unité de la population a une chance d’appartenir à
l’échantillon donc de représenter la population).

3.1. Méthodes aléatoires

3.1.1. L’Echantillonnage aléatoire simple (ES)

L’échantillonnage aléatoire simple consiste à choisir des individus de telle sorte que chaque
membre de la population a une chance égale de figurer dans l’échantillon.

Ce choix peut se faire avec remise ou sans remise :

10
▪ Avec remise, un individu peut être choisi plusieurs fois.
▪ Sans remise, un individu déjà choisi ne peut l’être de nouveau. C’est le cas habituel.

Avantage de cette méthode : On peut espérer un échantillon «représentatif » puisque la


méthode donne à chaque individu de la population une chance égale.

Difficultés : la méthode n’est applicable que lorsqu’il existe une liste exhaustive de toute la
population.
Comment procéder ?
1. On numérote tous les individus de la liste correspondant aux individus de la population
avec des nombres comportant un même nombre de chiffres.
2. En utilisant une table de nombres aléatoires, une calculatrice ou un programme
informatique, on obtient des nombres aléatoires comportant le nombre de chiffres désiré.
3. On sélectionne les nombres qui coïncident avec la liste. On rejette les nombres qui ne
coïncident pas avec la liste ou qui se répètent, on s’arrête après avoir sélectionné 𝑛 individus
(𝑛 représentant le nombre d’individus souhaités dans l’échantillon).

Avec Excel, on peut utiliser une des deux fonctions alea() ou alea.entre.bornes()
1. Avec le nombre aléatoire « alea »
▪ Première colonne : identifie avec un nombre chaque individu de la liste de référence.
▪ Deuxième colonne : =alea()
▪ Recopier les deux colonnes en valeur à la même place.
▪ Trier les deux colonnes en fonction de l’ordre croissant (ou décroissant) de la
deuxième colonne.
▪ Retenir les 𝑛 premiers individus dans la colonne 1

2. Directement avec la fonction alea.entre.bornes()

Combien peut-on réaliser d’échantillons ?


Si l’on note 𝑛 la taille de l’échantillon et 𝑁 la taille de la population.
Pour des valeurs 𝑛 = 30 et 𝑁 = 100, on aura jusque 1060 échantillons ESAR et 3 ∗ 1025
ESSR. (On note ESAR pour Echantillon Simple Avec Remise et ESSR pour le cas Sans Remise)

11
Pour simplifier la construction d’un ES, on a recours à la méthode systématique qui consiste
à la prédétermination des échantillons possibles à la sélection.

Exemple : on a une population de 300 individus, on veut un échantillon de 60 individus (taux

de sondage = 60 300 = 20%)

1 On calcule ce qu’on appelle le pas de sondage 𝑅 = 𝑁 𝑛 = 300 60 = 5

2 On détermine les 5 échantillons possibles :


▪ 1, 6, 11, …. 296
▪ 2, 7, 12, …. 297
▪ 3, 8, 13, …. 298
▪ 4, 9, 14, …. 299
▪ 5, 10, 15, …. 300
3 Pour connaitre l’échantillon de l’étude, on choisi au hasard un entier entre 1 et 5.

Remarque : Si la population est distribuée au hasard dans la base de sondage, un


échantillonnage systématique donnera des résultats similaires à ceux d’un échantillonnage
aléatoire simple. La méthode systématique est très utilisée dans les contrôles de qualité, elle
est appréciée par son implémentation facile. Un désavantage de la méthode est que les
données peuvent être biaisées à cause de la périodicité (qui peut coïncider avec le pas de
sondage 𝑅)

3.1.2. L’échantillonnage stratifié

Une strate est un groupe ou sous population homogène. Si on peut subdiviser la population
en strates qui sont relativement homogènes et mutuellement exclusives, on doit prélever
des sous-échantillons dans chaque strate.

Comment procéder ?

1. On calcule pour chaque strate, le nombre d’individus qu’il faudra sélectionner. Ce


nombre est proportionnel à l’importance de la strate dans la population : plus grande est
la taille de la strate, plus grand sera le sous-échantillon prélevé.

2. Dans chaque strate, on choisit au hasard les individus en nombre nécessaire.

12
Pour réussir cette méthode d’échantillonnage, les variables de starification doivent être
simples à utiliser, facile à observer et étroitement reliées au thème de l’enquête.

L’avantage de la méthode, c’est qu’il est fort probable de choisir un échantillon raisonnable
de la population puisqu’on s’assure de la présence proportionnelle de tous les divers sous-
groupes composant la population.

Remarques :

▪ La méthode suppose l’existence d’une liste de la population.

▪ La variance totale des données est la somme de la variance intra-strate (à l’intérieur de la


strate) et de la variance inter-strate (entre les différentes strates).
On cherche à avoir la plus petite variance intra-strate (des individus homogènes à
l’intérieur de la même strate) et une grande variance inter-strate (le facteur ou la
variable de stratification explique bien la classification ou le regroupement en strates).

Exemple : on veut choisir par échantillonnage stratifié 10 étudiants dans un groupe de 60, en
tenant compte du fait que 50% d’entre eux sont en Gestion, 30% en Économie et Gestion et
20% en Économie. Le facteur de stratification est le caractère « Option » qui prend trois
modalités : « Gestion », « Économie et Gestion » et «Économie ».

3.1.3. L’échantillonnage par grappes

Dans les méthodes précédentes, l’unité statistique était choisie individuellement. La


technique de l’échantillonnage en grappes entraîne la division de la population en groupes
ou grappes. On sélectionne au hasard un certain nombre de grappes (unités primaires) pour
représenter la population. On sélectionne ensuite tous les individus des grappes choisies.

L’avantage de la méthode, c’est qu’elle ne nécessite pas une liste globale de la population,
puisque seuls les individus inclus dans les grappes comptent. Elle permet de limiter
l’échantillon à des groupes compacts, ce qui permet de réduire les coûts de déplacement, de
suivi et de supervision.

La méthode peut entraîner des résultats imprécis (moins précis que les méthodes
précédentes) puisque les unités voisines ont tendance à se ressembler. Et elle ne permet pas
de contrôler la taille finale de l’échantillon.

13
Pour réussir un échantillonnage par grappes, il est recommandable :

▪ d’éviter de construire de grosses grappes afin d’en garantir un nombre suffisant.

▪ d’avoir des tailles de grappes le plus uniforme que possible (tailles se rapprochant d’une
taille unique).

▪ que les unités composant la grappe soient aussi hétérogènes que possible du point de
vue du caractère étudié.

Exemple : Dans la faculté des sciences, on choisit aléatoirement des groupes de TP pour
constituer l’échantillon final, chaque groupe de TP est constitué d’un certain nombre
d’étudiants, les tailles des groupes peuvent varier.

3.1.4. L’échantillonnage à plusieurs degrés

Ressemble à l’échantillonnage en grappes, sauf que dans ce cas on prélève un échantillon à


l’intérieur de chaque grappe. On a au moins deux degrés :
On identifie au premier les grandes grappes (unités primaires). Ces grappes renferment plus
d’unités qu’il n’en faut dans l’échantillon
Au second degré, à l’intérieur de chaque grappe, on sélectionne les unités (unités
secondaires) qui vont faire partie de l’échantillon

On peut utiliser plus de 2 degrés, par exemple, si on veut un échantillon des enseignants des
universités marocaines, on sélectionne quelques universités du royaume. Dans chaque
université sélectionné, on choisit quelques établissements et dans chaque établissement
choisit, on fait un tirage au sort de quelques départements. Tous les enseignants du
département sélectionné seront dans l’échantillon final.

L’avantage de cette méthode c’est qu’on aura un échantillon plus concentré, ce qui réduit
les coûts, de plus on n’a pas besoin de disposer de la liste de toutes les unités.

3.1.5. L’échantillonnage à plusieurs phases

Les données de base sont collectées auprès d’un échantillon d’unité de grande taille, ensuite
pour un sous-échantillon de ces unités, la collecte des données est plus détaillée.

Le plus couramment on utilise deux phases, par exemple, on a besoin d’information sur les
éleveurs de bétail. Dans la base de sondage, sont énumérés les types d’exploitation

14
agricoles: bétail, grains, volaille, fruit, légumes... mais on n’a aucune donnée auxiliaire. C’est
pour cette raison qu’on pourrait mener une enquête sur un premier échantillon de grande
taille dont la seule question serait : Vous consacrez vous en totalité au bétail ? Puis sur la
sélection des éleveurs uniquement de bétail, on extrait un second échantillon plus petit que
le premier auquel on pose des questions détaillées.

3.2. Méthodes empiriques ou non aléatoires

Les méthodes non aléatoires sont des méthodes où le concept de «chance égale» est
absent. Ce sont des méthodes généralement peu fiables. Elles ne nécessitent pas de base de
sondage, elles sont souvent utilisées
▪ pour des études exploratoires;
▪ pour réduire les coûts;
▪ quand il est impossible ou non envisageable d’utiliser la méthode aléatoire.

L’avantage essentiel de ces méthodes, c’est qu’elles sont moins coûteuses et plus faciles à
réaliser.

Le calcul de probabilité n’est pas possible puisqu’on ne peut pas connaitre à priori la
probabilité qu’une unité sélectionnée appartienne à l’échantillon.

Parmi les méthodes non aléatoires, on distingue :

3.2.1. L’échantillonnage par quotas

Il est largement utilisé dans les enquêtes d’opinion et les études de marché notamment
parce qu’il ne suppose pas de liste des individus de la population. On parle aussi
d’échantillonnage dirigé ou par choix raisonné. On demande aux enquêteurs de faire un
nombre d’entrevues dans divers groupes établis en fonction du secteur géographique, de
l’âge, du sexe ou d’autres caractéristiques…

Le principe de cette méthode est de reproduire un échantillon qui va présenter les


distributions statistiques de certains caractères appelés variables de contrôle, de telles
distributions doivent être identiques aux distributions connues de la population.

15
L’idée d’une telle démarche est qu’on a plus de chances pour que les distributions de
l’échantillon pour les autres caractères étudiés soit les mêmes que celles de la population.

Le choix des unités est laissé à la discrétion de l’enquêteur, qui doit respecter son quota.

Les quotas sont déterminés en multipliant le taux de sondage par les effectifs des différentes
modalités des variables de contrôle.
Pour choisir une variable de contrôle, on doit vérifier si sa distribution dans la population est
connue. En plus, comme dans le cas du choix de la variable de stratification, la variable de
contrôle doit être en corrélation avec la (ou les) variable(s) étudiée(s).

Exemple : on veut sélectionner un échantillon par quotas dans un groupe d’étudiants de


𝑁 = 600, le taux de sondage est 𝑛 𝑁 = 20%. La taille de l’échantillon sera 𝑛 = 120.
On connait la répartition du groupe selon les deux caractères Age et Sexe (deux variables de
contrôle) :

16
Age Effectifs Fréquence
17- 19 280 46.67%
Sexe Effectifs Fréquence
19-21 220 36.67%
Féminin 360 60%
21-25 60 10%
Masculin 240 40%
25-33 30 5%
Total 600 100%
33-51 10 1.67%
Total 600 100%

Alors on multiplie le taux de sondage aux différents effectifs pour obtenir les quotas :

Age Effectifs Fréquence


17- 19 56 46.67%
Sexe Effectifs Fréquence
19-21 44 36.67%
Féminin 72 60%
21-25 12 10%
Masculin 48 40%
25-33 6 5%
Total 120 100%
33-51 2 1.67%
Total 120 100%

Si on demande à un enquêteur de réaliser 24 interviews, on lui fourni un tableau de contrôle


qu’il doit respecter :
Age Effectifs
Sexe Effectifs 17- 19 11
Féminin 14 19-21 9
Masculin 10 21-25 2
25-33 1
33-51 1

3.2.2. l’échantillonnage à l’aveuglette ou de commodité

L'échantillonnage de commodité est une technique d'échantillonnage non probabiliste où les


individus sont choisis en raison de leur accessibilité et de la proximité de l’enquêteur. Simple
à réaliser, elle sera utilisée par l’enquêteur quand il estime non utile de représenter toute la
population, cela va entrainer un biais entre les résultats obtenus et les hypothèses
théoriques provenant de toute la population.

Exemples :

17
▪ Déguster des yaourts d’une marque, goûter à des plats principaux, afin de juger de la
qualité.
▪ Un journaliste d’une chaine télévisé interviews des gens dans la rue pour comprendre
comment la population perçoit un enjeu ou une question.
▪ On veut interroger 30 clients d’une grande surface, on décide de sélectionner les trente
premiers clients qui entrent.

3.2.3. L’échantillonnage de volontaires

On sélectionne un échantillon parmi des volontaires.


Par exemple, il est impossible de choisir au hasard des personnes du grand public, pour des
expériences médicales ou psychologiques. Pour cette raison qu’on prélève l'échantillon à
partir d'un groupe de volontaires, qui acceptent la possibilité de subir tout un processus long
ou exigeant. Ce type d’échantillonnage entraine des biais puisqu’on ne peut pas accéder à
toute la population.

3.2.4. L’échantillonnage au jugé

Cette méthode implique la sélection d’individus en fonction de l’idée qu’on se fait de la


composition de la population (hypothèse sur laquelle l'enquêteur sélectionnera des unités
qui représentent la population). On le fait pour des essais auprès des groupes cibles.
L’inconvénient principal, c’est qu’on doit se fier à l’hypothèse de l’enquêteur qui a ses
propres idées préconçues (qui peuvent se révéler inexactes), au risque d’avoir des biais dans
les résultats.

3.3. Les erreurs

Les méthodes d’échantillonnage peuvent être sources d’erreurs. Un certain nombre


d’erreurs pourront être éliminées, certaines pourront être réduites, mais d’autres
persisteront :

▪ Les erreurs dues aux instruments de mesure :


Un instrument est fidèle s’il répond exactement de la même façon quand il est placé dans
deux situations identiques. Exemple le thermomètre. Une question claire est dite fidèle
quand tout le monde la comprend de la même façon.

18
Un instrument est valide lorsqu’il mesure vraiment ce qu’il est censé mesurer.

▪ Les erreurs dues à l’organisation :


Ce sont les erreurs qui se glissent lors de la collecte des données.

Est-ce que les consignes ont été respectées ?

Les enquêteurs ont-ils agi de la même façon?

Pour éviter ces erreurs, il faut utiliser les mêmes instruments et les mêmes conditions.

▪ Les erreurs dues à la méthode d’échantillonnage


Il faut toujours vérifier, à la lumière des objectifs de l’étude statistique, que la méthode
d’échantillonnage est adaptée. En particulier éviter la surreprésentation de certaines parties
de la population.

▪ Les erreurs dues au phénomène de non-réponse


Même avec la meilleure méthode d’échantillonnage, il se présente toujours un certain
nombre de non-répondants, ce qui peut entacher la représentativité de l’échantillon et
amener des conclusions erronées.

▪ L’erreur d’échantillonnage
Le fait d’étudier un échantillon plutôt qu’un autre engendre forcément une erreur. Cette
erreur appelée erreur d’échantillonnage est inévitable.

Pour en savoir plus sur les sondages et leurs applications, voici quelques références :

Bibliographie
1. Méthodes statistiques, techniques statistiques, B. Grais.
2. L’enquête par questionnaire, manuel à l’usage du praticien. C.Javeau.
3. Au royaume des sondages, J.-J. Droesbeke et G. Thoveron.
4. Les techniques de sondage P. Ardilly, édition TECHNIP.
5. Documents pédagogiques sur le site de Statistique Canada www.statcan.ca

19

Vous aimerez peut-être aussi