Echantillonnage Statistique 1. Généralités Sur Le Recensement Et L'échantillonnage
Echantillonnage Statistique 1. Généralités Sur Le Recensement Et L'échantillonnage
Echantillonnage Statistique 1. Généralités Sur Le Recensement Et L'échantillonnage
Cet exemple constitue une des manières les plus pédagogiques d'introduire la question de
l'échantillonnage et de montrer, comme le souligne bien Beaud que « nous faisons tous de
l'échantillonnage sans le savoir ». Goûter un plat signifie que « nous recueillons de
l'information sur une fraction (échantillon) de l'ensemble (population) que nous voulons
étudier ».
On peut donc concevoir l'échantillon et la population comme étant un rapport à des univers
variables. Les concepts d'échantillon et de population se modifient donc en fonction de notre
connaissance.
Par définition, l’échantillonnage représente l’ensemble des opérations qui ont pour objet de
prélever un certain nombre d’individus dans une population donnée. Pour que les résultats
observés lors d’une étude soient généralisables à la population statistique, l’échantillon doit
être représentatif de cette dernière, c’est-à-dire qu’il doit refléter fidèlement sa composition et
sa complexité. La façon la plus simple de constituer un échantillon représentatif est de tirer au
sort les sujets de l’échantillon au sein de la population. L’échantillonnage se justifie pour des
raisons de coûts ou de délais.ch
- Établir les objectifs de l’enquête : évaluer les avantages et les inconvénients d’un
recensement par rapport à un échantillon ou l’utilisation de dossiers administratifs ;
Il y a un degré d’incertitude associé aux estimations établies à partir d’un échantillon qui
dépend notamment de la méthode d’échantillonnage et de la taille de l’échantillon. Quel
degré peut-on accepter ?
La population cible est définie à partir des éléments précédant. L’enquête prend en compte
une population différente : la population observée : Certains membres de la population cible
ne sont pas observés par exemple du fait du coût de la collecte des données. Les conclusions
ne s’appliqueront qu’à la population réellement observée.
2. La taille de l’échantillon
Pour calculer la taille de l’échantillon dans le cas de l’estimation d’une proportion, vous
pouvez appliquer la formule suivante :
où n est la taille de l’échantillon t est une constante issue de la loi normale selon un certain
seuil de confiance (en général 95% et Z = 1.96), p est le pourcentage de gens qui présentent
le caractère observé, e est la marge d’erreur d’échantillonnage choisie.
2.1. Différence de taille d’un échantillon pour une population finie et infinie
Du point de vue statistique, une population finie est une population dont on connait la taille au
départ et elle est généralement petite (par exemple, tous les membres d’une coopérative). Une
population infinie est une population dont on ne connait pas la taille exacte ou qui est
relativement grande (par exemple, tous les agriculteurs de la Guinée).
Lorsque la population à l’étude est petite, la taille de l’échantillon peut être plus petite tout en
conservant la même marge d’erreur que pour une population plus grande. Nous devons dans
ce cas, appliquer un facteur de correction.
Exemple, nous avons une population d’agriculteurs de 200 personnes.
Nous ignorons les caractéristiques de cette population, donc l’écart-type est inconnu. Nous
décidons d’accepter une marge d’erreur de ± 5%. Pour déterminer le nombre des répondants
nécessaires, nous appliquons ensuite la formule de n = 1/E2, c’est-à-dire la taille de
l’échantillon(n) est égale a l’inverse de l’erreur E2. Comme nous avons déterminé que
l’erreur acceptable serait de 5%, nous avons donc :
n = 1/0,052 ; n = 0,0025 ; n = 400.
Cette démarche doit être adoptée si nous utilisons des tests statistiques qui extrapolent ls
résultats à l’ensemble de la population.
3. Méthodes d’échantillonnage
Il existe deux actions interreliées par lesquelles tout chercheur passe pour décider de
l’échantillon : l’action de sélectionner et l’action d’échantillonner comme tel. L’action de
sélectionner se réfère au processus général de décider, de cibler, non seulement l’objet de
l’étude, mais aussi l’angle par lequel on souhaite l’approcher. C’est lors de l’opération de la
sélection que les balises théoriques et conceptuelles sont utiles, que les considérations
pratiques, matérielles et logistiques sont prises en compte.
L’opération de sélection va guider, orienter le chercheur dans le choix du/des sites. L’action
d’échantillonner découle ainsi des décisions prises lors de la sélection. Il y a deux types de
Dans l’échantillonnage non probabiliste, une méthode subjective de sélection des unités est
appliquée à une population. On suppose que la distribution des caractéristiques à l’intérieur de
la population est égale.
Dans un échantillonnage aléatoire simple (EAS), chaque membre d'une population a une
chance égale d'être inclus à l'intérieur de l'échantillon. Chaque combinaison de membres de la
population a aussi une chance égale de composer l'échantillon. Ces deux propriétés sont ce
qui définit un échantillonnage aléatoire simple. Vous devez dresser une liste de toutes les
unités incluses dans la population observée pour sélectionner un échantillon aléatoire simple.
Un échantillonnage aléatoire simple peut s'effectuer avec ou sans remplacement.
L'échantillonnage aléatoire simple est la méthode d'échantillonnage la plus facile à appliquer
et la plus couramment utilisée. L'avantage de cette technique tient au fait qu'elle n'exige pas
de données additionnelles dans la base de sondage.
Puisque l'échantillonnage aléatoire simple est une méthode simple et que la théorie qui la
sous-tend est bien établie, il existe des formules-types pour déterminer la taille de
l'échantillon, les estimations, etc., et ces formules sont faciles à utiliser.
Un tirage à la loterie est un bon exemple d'échantillonnage aléatoire simple. Par exemple,
lorsqu'un échantillon de six numéros est généré au hasard à partir d'une population de 49
numéros, chacun de ces derniers a une chance égale d'être sélectionné et chaque combinaison
de six numéros a la même chance d'être la combinaison gagnante. Même si les gens tendent à
éviter une combinaison comme 1-2-3-4-5-6, cette combinaison a la même chance d'être la
série gagnante de numéros que la combinaison 8-15-21-28-32-40.
Inconvénients:
- Non-représentativité
- Coûteux et irréalisable pour de grandes populations
Exemple :
1. Numéroter de 1 à N les unités incluses dans votre base de sondage (où N est la taille
de la population totale).
2. Déterminer l'intervalle d'échantillonnage (K) en divisant le nombre d'unités incluses
dans la population par la taille de l'échantillon que vous désirez obtenir. Par exemple,
pour sélectionner un échantillon de 100 unités à partir d'une population de 400, vous
auriez besoin d'un intervalle d'échantillonnage de 400 ÷ 100 = 4. K = 4, par
conséquent. Vous devrez sélectionner une unité sur 4 pour avoir finalement au total
100 unités à l'intérieur de votre échantillon.
3. Sélectionner au hasard un nombre entre 1 et K. Ce nombre s'appelle l'origine choisie
au hasard et serait le premier nombre inclus dans votre échantillon. À l'aide de
l'échantillon fourni ci-dessus, vous sélectionneriez un chiffre entre 1 et 4 à partir d'une
table de nombres aléatoires (pris au hasard). Si vous choisissiez 3, la troisième unité
incluse dans votre base de sondage serait la première unité comprise dans votre
échantillon; si vous choisissiez 2, le début de votre échantillon serait la deuxième unité
incluse dans votre base de sondage.
4. Sélectionner chaque Ke (dans ce cas, chaque 4e) unité après ce premier nombre.
L'échantillon pourrait, par exemple, se composer des unités suivantes de façon à
constituer un échantillon de 100 : 3 (l'origine choisie au hasard), 7, 11, 15, 19... 395,
399 (jusqu'à N, qui est 400 dans ce cas).
Vous pouvez constater, à l'aide de l'exemple fourni ci-dessus, que dans le cas d'un
échantillonnage systématique, seuls quatre échantillons possibles, qui correspondent aux
quatre origines choisies au hasard également possibles, peuvent être sélectionnés :
BEAVOGUI, S (2012). Echantillonnage statistique. Atelier de biométrie. IRAG. Page 6
1, 5, 9, 13... 393, 397
2, 6, 10, 14... 394, 398
3, 7, 11, 15... 395, 399
4, 8, 12, 16... 396, 400
Chaque membre de la population ne fait partie que de l'un des quatre échantillons et chaque
échantillon a une chance égale d'être sélectionné. Cela nous permet de constater que chaque
unité a une chance sur quatre d'être sélectionnée à l'intérieur de l'échantillon. Sa probabilité
d'être sélectionnée est la même que si l'on sélectionnait un échantillon aléatoire simple de 100
unités. La principale différence tient au fait que dans le cas d'un échantillonnage aléatoire
simple, toute combinaison de 100 unités aurait une chance de constituer l'échantillon, tandis
que dans celui d'un échantillonnage systématique, il n'y a que quatre échantillons possibles.
Cela nous permet aussi de constater à quel point l'échantillonnage systématique est précis
comparativement à l'échantillonnage aléatoire simple. L'ordre de la population incluse dans la
base de sondage déterminera les échantillons possibles pour l'échantillonnage systématique.
On utilise souvent cette méthode dans l'industrie, où l'on sélectionne une unité pour des essais
à partir d'une chaîne de production afin de s'assurer que la machinerie et l'équipement sont
d'une qualité uniforme. Un essayeur à l'intérieur d'une usine pourrait, par exemple, soumettre
à un contrôle de la qualité chaque 20e produit sur une ligne de montage. L'essayeur pourrait
choisir une origine au hasard entre les nombres 1 et 20. Cela déterminerait le premier produit
à essayer; chaque 20e produit serait ensuite soumis à des essais.
Les intervieweurs peuvent utiliser cette technique d'échantillonnage lorsqu'ils interrogent des
gens pour une enquête-échantillon. Les avantages de l'échantillonnage systématique tiennent
au fait que la sélection de l'échantillon peut être plus facile (vous n'obtenez qu'un seul nombre
aléatoire – l'origine choisie au hasard – et le reste de l'échantillon suit automatiquement) et
que l'échantillon est distribué dans des proportions égales à l'intérieur de la population
répertoriée.
Le plus gros inconvénient de la méthode d'échantillonnage systématique tient au fait que les
échantillons possibles risquent de ne pas être représentatifs de la population s'il existe un
certain cycle sur le plan du mode d'ordonnancement de la population inscrite sur une liste et si
ce cycle coïncide d'une quelconque façon avec l'intervalle d'échantillonnage.
Exemple :
Pour l'échantillonnage probabiliste, il faut que chaque membre de la population observée ait
une chance d'être inclus dans l'échantillon, mais il n'est pas nécessaire que cette chance soit la
même pour tous. Si la base de sondage renferme de l'information sur la taille de chaque unité
(comme le nombre d'employés de chacune des entreprises qui y sont inscrites) et si la taille de
ces unités varie, on peut utiliser cette information dans le cadre de la sélection de
l'échantillonnage afin d'en accroître l'efficacité. Cela s'appelle l'échantillonnage avec
probabilité proportionnelle à la taille (PPT). Dans le cas de cette méthode, plus la taille de
l'unité est grande, plus sa chance d'être incluse dans l'échantillon est élevée. Il faut que la
mesure de la taille soit exacte pour que cette méthode accroisse l'efficacité. C'est une méthode
d'échantillonnage plus complexe dont nous ne traiterons pas ici davantage.
Exemple :
Un village a 8 vergers contenant respectivement 50, 30, 25, 40, 26, 44, 20 et 35 arbres. Un
échantillon de 3 vergers doit être sélectionné avec probabilité proportionnelle au nombre de
pommiers.
Enfin, on choisit trois nombres aléatoires entre 1 et 270 : ces nombres sont 200, 116 et 47.
Les unités associées à ces nombres sont la 6ème, 4ème et la 1ère. L’échantillon ainsi
sélectionné contient donc les unités portant les numéros de série 1, 4 et 6.
(http://www.fao.org/docrep/003/x6831f/X6831f15.htm)
Pourquoi doit-on créer des strates? Pour bien des raisons, la principale étant que leur création
peut rendre la stratégie d'échantillonnage plus efficace. C'est l'idée qui sous-tend le gain
d'efficacité qu'on réalise grâce à la stratification. Si vous créez des strates à l'intérieur
desquelles des unités auraient des caractéristiques qui seraient similaires (comme le revenu) et
qui différeraient considérablement de celles d'unités incluses dans d'autres strates (comme la
profession et le type de logement), vous n'auriez alors besoin que d'un petit échantillon tiré de
chaque strate afin d'obtenir une estimation précise du revenu total pour la strate en question.
Vous pourriez ensuite combiner ces estimations afin d'obtenir une estimation précise du
revenu total de l'ensemble de la population. Si vous deviez utiliser un échantillonnage
aléatoire simple de la population entière sans effectuer de stratification, il vous faudrait un
échantillon plus grand que la totalité de tous les échantillons de strate afin d'obtenir pour le
revenu total une estimation du même degré de précision.
L'échantillonnage stratifié nous assure d'obtenir une taille d'échantillon suffisante pour des
sous-groupes de la population à laquelle nous nous intéressons. Étant donné que chaque strate
devient une population indépendante lorsque vous stratifiez une population, vous devrez
déterminer pour chaque strate la taille de l'échantillon.
La stratification est des plus utiles lorsque les variables de stratification sont :
- simples à utiliser;
- faciles à observer;
- étroitement reliées au thème de l'enquête.
Mentionnons, entre autres exemples de grappes, les usines, les établissements d'enseignement
et les régions géographiques telles que les subdivisions électorales.
Réduire les coûts est l'une des raisons d'utiliser l'échantillonnage en grappes. Ce dernier crée
des « poches » d'unités échantillonnées, au lieu de disséminer l'échantillon sur tout le
territoire. Le fait que l'on ne dispose pas parfois d'une liste de toutes les unités incluses dans la
population nécessite qu'on effectue un échantillonnage aléatoire simple, un échantillonnage
systématique ou un échantillonnage avec probabilité proportionnelle à la taille, tandis qu'une
BEAVOGUI, S (2012). Echantillonnage statistique. Atelier de biométrie. IRAG. Page 9
liste de toutes les grappes est disponible ou facile à dresser, constitue une autre raison
d'utiliser l'échantillonnage en grappes.
Dans la plupart des cas, une perte d'efficacité comparativement à ce qu'il en est lorsqu'on
utilise un échantillonnage aléatoire simple représente le principal inconvénient de l'emploi de
l'échantillonnage en grappes. Il est habituellement préférable de sonder un grand nombre de
petites grappes, plutôt qu'un petit nombre de grandes grappes. Pourquoi? Parce que les unités
avoisinantes tendent à se ressembler davantage, ce qui donne un échantillon ne représentant
pas l'éventail complet d'opinions ou de situations de l'ensemble de la population.
Pour obtenir un échantillon final, on prélève au second degré des unités de la population à
partir des grappes sélectionnées (à l'aide de l'une des méthodes d'échantillonnage probabiliste
possibles). Si l'on utilise plus de deux degrés, le processus de sélection d'unités de la
population à l'intérieur des grappes se poursuit jusqu'à l'obtention d'un échantillon final.
Exemple :
BEAVOGUI, S (2012). Echantillonnage statistique. Atelier de biométrie. IRAG. Page 10
Supposez qu'une organisation a besoin d'information sur des éleveurs de bétail de l'Alberta,
mais que dans la base de sondage sont énumérés tous les types d'exploitations agricoles :
d'élevage de bétail et de production laitière, de grains, de porcs, de volailles et de fruits et de
légumes. Pour compliquer les choses, la base de sondage ne fournit aucune donnée auxiliaire
sur les exploitations agricoles qui y sont énumérées.
On pourrait mener une enquête toute simple dont la seule question serait : « Votre exploitation
agricole est-elle en partie ou en totalité consacrée à l'élevage du bétail? » Si elle ne comptait
qu'une seule question, cette enquête devrait entraîner un faible coût par interview (surtout si
elle était faite par téléphone), ce qui, par conséquent, permettrait à l'organisation de prélever
un grand échantillon. Une fois le premier échantillon prélevé, on pourrait en extraire un
second, plus petit, à partir des éleveurs de bétail et poser à ces derniers des questions plus
détaillées. En utilisant cette méthode, l'organisation éviterait de dépenser de l'argent à sonder
des unités ne faisant pas partie du champ d'observation (c'est-à-dire les producteurs agricoles
autres que les éleveurs de bétail).
L’échantillonnage non-probabiliste est utilisé lorsqu’il n’est pas possible d’utiliser une liste
exhaustive de toutes les unités du sondage. Dans le cas d’échantillonnage probabiliste, chaque
unité à une chance d’être sélectionnée. Ce qui n’est pas vrai dans le cas d’échantillonnage non
probabiliste. On se fixe alors comme règle que l’échantillon retenu doit avoir la même
composition que la population-mère par rapport à une ou plusieurs caractéristiques.
Sélection d’un échantillon jusqu’à ce qu’un nombre précis d’unités (quotas) pour diverses
sous-populations ait été sélectionné.
La différence principale entre ce type d’échantillonnage et celui stratifié découle du fait qu’ici
c’est l’enquêteur qui décide des unités formant l’échantillon.
Avantages :
Inconvénients :
- Cette méthode n’est pas réalisée grâce au hasard peut biaiser l’échantillon ;
- Non-représentativité ;
- On doit connaître la distribution de la variable dans la population pour la reproduire
dans l’échantillon.
BEAVOGUI, S (2012). Echantillonnage statistique. Atelier de biométrie. IRAG. Page 11
Exemple :
Dans une université, 70% des étudiants sont au premier cycle, 20% au deuxième cycle et 10%
au troisième cycle. Pour constituer un échantillon de 200 étudiants de cette université,
l’enquêteur choisi de façon arbitraire 140 étudiants au premier cycle, 40 au deuxième cycle et
20 au troisième cycle.
Exemple :
Un conseil municipal choisit de tenir son enquête socioéconomique dans un seul quartier de la
ville, prétextant que ce quartier choisi ressemble à la majorité des autres. En considérant le
rapport coûts/bénéfices, il n’y a pas d’avantages à étendre leur enquête à un deuxième
quartier.
3.2.3. Volontariat
Cette méthode impose un point de départ à l’enquêteur et un itinéraire à suivre avec tirage
systématique des variables à mesurer. L’objectif étant de reproduire un certain tirage aléatoire
des enquêtés sans donner d’explication sur les noms et les adresses des enquêtés.