Manuels CPD 03
Manuels CPD 03
Manuels CPD 03
Rémy CLAIRIN
Philippe BRION
MANUEL DE
SONDAGES
Applications aux pays en
développement
2’ édition
Novembre 1997
Éléments de catalogage :
-
Page 47 Dernière formule, lire :
’‘ dF
z= C-(k)k,
dX,
Préface ....................................................................................................................... XI
Résumé ....................................................................................................................XIII
S u m m a r y .................................................................................................................XIII
Introduction ............................................................................................................... 1
Chapitre 1. Principes.............................................................................................. 3
1 .Principe............................................................................................................ 15
2.Estimation d'une moyenne .............................................................................. 15
-
a) j? est un estimateursans biais de la grandeur Y ....................................... 16
b) Variance de 7............................................................................................ 16
c) Pour un échantillon suffisamment grand, 7 suit une loi normale ............. 16
d) La variance V (7) peut être estimée à partir de l'échantillon.................... 17
e) Dans la pratique on n'a tiré qu'un échantillon............................................ 18
f)Remarques .................................................................................................. 19
La précision est essentiellement liée au nombre d'unités enquêtées..... 19
La variance est inversement proportionnelle au nombre d'unités
enquêtées............................................................................................... 20
Tirage avec remise,tirage sans remise ................................................. 20
Évaluation "chiffrée"de la précision .................................................... 21
Combien d'unitésenquêter dans l'échantillon ?.................................... 21
3.Estimation d'un total........................................................................................ 21
4.Estimation d'une proportion ............................................................................ 22
a) Principe ...................................................................................................... 22
b) Exemple ..................................................................................................... 23
5.Estimation d'un ratio........................................................................................ 24
6.Méthodes de tirage .......................................................................................... 25
a) Méthode simple.......................................................................................... 25
b) Tirage systématique................................................................................... 25
Exemple ................................................................................................ 25
1 .Principe. objectifs............................................................................................ 27
2.Formules d'estimation ..................................................................................... 28
a) Notations .................................................................................................... 28
b) Estimation du total de Y sur l'univers àpartir du sondage stratifié...........29
c) Estimation de la moyenne de Y sur l'universà partir du sondage
stratifié............................................................................................................ 29
Y'
d) Les estimateurs f(Y)et sont des estimateurssans biais du total et de
la moyenne de Y............................................................................................. 29
e) Variance de l'estimateurdu total et de l'estimateurde la moyenne ........... 30
f)Estimation de ces variances d'estimation à partir de l'échantillon.............. 30
g) Cas particulier :le taux de sondage est le même pour toutes les strates....30
3 .Choix des strates.............................................................................................. 31
4.Répartition de l'échantillon entre les strates.................................................... 32
SOMMAIRE VI1
1 .Principe ............................................................................................................ 37
2.Formules d'estimation dans le cas avec remise................................................ 37
a) Estimation d'un total................................................................................... 38
b) Estimation d'une moyenne. d'un ratio ........................................................ 39
3.Méthodes de tirage ...........................................................................................39
a) Méthode des chiffrescumulés.................................................................... 39
b) Méthodes aréolaires utilisant des grilles de points ..................................... 40
4.Aperçu sur le sondage à probabilités inégales sans remise.............................. 41
L'estimateurde Horvitz-Thompson....................................................... 41
1 .Principe.notations............................................................................................43
a) Principe.......................................................................................................43
b) Justification.caractéristiques...................................................................... 44
c) Notations.....................................................................................................45
2.Tirage des unités primaires à probabilités égales (tirage à deux degrés) .........46
a) Estimation du total de Y.............................................................................. 46
Cas particulier :sondage autopondéré................................................... 46
b) Variance de l'estimateurdu total de Y........................................................ 47
c) Estimation de la variance de l'estimateurdu total de Y .............................. 47
d) Remarques ..................................................................................................48
e) Estimation d'une moyenne. d'un ratio......................................................... 48
f)Application pratique au cas d'une enquête agricole .................................... 49
Introductiond'un modèle de coût .......................................................... 50
3.Tirage des unités primaires à probabilités inégales (tirage à deux degrés).....51
a) Estimateur du total de Y.............................................................................. 51
b) Variance de l'estimateur du total,estimateur de cette variance .................52
c) Cas particulier important ............................................................................ 52
d) Estimation dune moyenne,d'un ratio......................................................... 53
-
e) Retour sur le choix avec remise sans remise............................................ 53
4.Sondage en grappes..........................................................................................53
a) Principe....................................................................................................... 53
VIII DE SONDAGES. APPLICATIONS
MANUEL AUX PAYS EN DÉVELOPPEMENT
b) Estimation d'un total dans le cas d'un tirage des grappes à probabilités
égales.............................................................................................................. 54
c) Estimation d'une moyenne dans le cas d'un tirage des grappes à
probabilités égales.......................................................................................... 54
d) Estimation d'un total dans le cas d'un tirage des grappes à probabilités
inégales........................................................................................................... 54
5.L'effet de grappe.............................................................................................. 55
a) Principe...................................................................................................... 55
b) Le coefficient de corrélation intragrappe................................................... 55
c) Conséquences sur la précision du sondage ................................................ 55
d) Valeurs numériques de 6.utilisation de ces valeurs .................................. 56
E n pratique,comment utilise-t-once coefficient?............................... 57
U n retour sur les valeurs numériques relativesaux effets de grappe
citées dans certains articles................................................................... 58
6.Considérationspratiques ................................................................................. 59
a) Quand utiliser des sondages à plusieurs degrés ? ...................................... 59
b) Pour les enquêtes démographiques dans les pays en développement........60
7.Aperçu sur le tirage à trois degrés................................................................... 61
1 .Stratifieationaposteriori................................................................................ 64
a) Principe...................................................................................................... 64
b) Quelle est la différence avec la stratificationapriori ?............................. 64
c) Exemple ..................................................................................................... 65
d) La pratique ................................................................................................. 65
e) Que faire si le plan de sondage est plus complexe qu'un sondage
aléatoire simple ?............................................................................................ 66
f) La méthode du raking ratio ........................................................................ 67
2.Estimation par le quotient................................................................................ 67
a) Principe...................................................................................................... 67
b) Exemple ..................................................................................................... 68
c) L'estimateur par la régression .................................................................... 69
3.Les non-réponses............................................................................................. 69
a) Non-réponsespartielles et totales .............................................................. 69
b) Comment traiter les non-réponsestotales ?............................................... 71
c) Comment traiter les non-réponsespartielles ?........................................... 72
1 .Principe............................................................................................................ 75
Exemple ................................................................................................ 75
SOMMAIRE IX
Chapitre 8.
. E n guise de synthèse.........................................................................79
1 .Quelle méthode dans quel contexte ?............................................................... 79
a) U n ou plusieurs degrés ?............................................................................ 79
b) Les panels................................................................................................... 80
c) Les sondages en deux phases ..................................................................... 81
d) Les estimations pour de petits domaines ................................................... 82
e) La méthode des segments........................................................................... 83
f)La question de la taille de l'échantillon ...................................................... 85
2.Retour sur les problèmes liés à la base de sondage ......................................... 85
a) Cas des enquêtes démographiques dans les pays en développement.........85
b) La mise àjour de la base de sondage ......................................................... 86
c) La nécessité d'adapter la base de sondage au domaine d'étude..................87
d) L'utilisation de la télédétection................................................................... 87
3.La nécessité d'un travail soigné à tous les niveaux.......................................... 88
a) A u niveau de la collecte.............................................................................. 88
b) A u niveau du traitement des données......................................................... 88
c) A u niveau de la documentation des différentes phases de l'enquête ..........89
d) A u niveau de la publication des résultats ................................................... 90
Rémy Clairin nous a quittés le 12 octobre 1987, trois mois avant que le
CEPED,dont ilfaisait partie,ne voie ofleiellementlejour.
Administrateur de l'INSEE (1954), Rémy Clairin commence sa carrière en
Guinée où il participe à lapremière grande enquête démographique lancée par son
Institut en Afiique.Auteur ou collaborateur de nombreux travaux et ouvrages de
référence, en particulier sur la collecte des données et les techniques d'ajustement,
homme de terrain,analyste,mais aussi brillant théoricien,il a toujours eu le souci
deformer lesjeunes statisticiens et démographes,directement,par ses manuels, ses
publications et ses articles nombreux.Spécialiste reconnu en matière d'application
de la théorie des sondages,il a laissé au CEPED le manuscrit inachevé d'un manuel
de sondages à l'usage desjeunes cadres afiicains.
Mon prédécesseur, Francis Gendreau, et Michel François, statisticien-
démographe de l'INSEE,ont avec patience et obstination fait tout ce qu'ilfallait
pour rendre un dernier hommage à Rémy Clairin en faisant aboutir ce projet de
manuel.
Celui-cireste cependantcentré sur les sondages appliqués aux enquêtes auprès des
ménages des pays en développement et on n'Y trouvera pas, par exemple,
d'applicationdes sondages au domaine des entreprises.
Je tiens,au nom du CEPED et de tous ceux qui en son temps ont apprécié le
talent et l'humanismede Rémy Clairin,à remercier ici chacun des multiples auteurs
de cet hommage à sa mémoire et à son œuvre, et à les féliciter, Philippe Brion en
premier bien sûr,pour la qualité du résultat.
.JacquesVALLIN
Directeur de recherche à I'INED
Ancien directeur du CEPED
Alain LERY
Directeur du CEPED
RÉSUMÉ
La méthode des sondages est utilisée dans les pays en développement pour
produire de l'information sur différents domaines : enquêtes démographiques,
enquêtes socio-économiquescomme celles sur le budget et la consommation des
ménages, ou encore enquêtes agricoles. Son principe est de remplacer le tout par
une partie, l'échantillon, dont l'observation sert de base à l'extrapolation à
î'ensemble.Lors de l'applicationde cette méthode,un certain nombre de contraintes
techniques et organisationnelles sont à prendre en compte, et interferent dans les
choix théoriques.
L'objet de ce manuel, qui résulte d'un projet initié par Rémy Clairin et, à
l'origine,consacré aux enquêtes démographiques dans les pays africains, est de
présenter les bases théoriques de manière simple,et de faire le lien avec la pratique,
en utilisant en particulier certains exemples s'appuyantsur des enquêtes réalisées par
sondage dans divers pays en développement.
SUMMARY
méthodes ne sont pas exclusives l'une de l'autre, et sont souvent combinées dans les
plans de sondage mis en place pour les enquêtes réalisées sur différents sujets.
C'est l'objet du chapitre 8 que de mettre en perspective l'ensemble des
méthodes présentées, et d'insister sur un certain nombre de points pratiques qu'on ne
peut négliger quand on procède à la conception ou au traitement d'une enqutte par
sondage.U n de ces points est relatif au problème des redressements,en particulier
en raison des non-réponses,abordé au chapitre 6.Enfin, le chapitre 7 présente la
méthode des quotas, très utilisée dans certains pays développés, peu actuellement
dans les pays en développement, mais qui pourrait y connaître des champs
d'application.
CHAPITRE 1
PRINCIPES
a) Univers
b) Unitésstatistiques
Les unités statistiques sont les Cléments composant l'univers. Elles peuvent
être de différentstypes :
- individusau sens courant du terme,
4 AUX PAYS EN DÉVELOPPEMENT
MANUEL DE SONDAGES.APPLICATIONS
- villages,
- hameaux,quartiers,îlots,etc.,
- ménages,
- parcelles cultivées,
- etc.
U n même univers peut être décomposé selon différents types d'unités
élémentaires (par exemple en ménages ou en individus).
O n peut aussi être amené à considérerune décomposition de l'univers en unités
à plusieurs degrésl, chaque unité d'un degré donné étant elle-même composée
d'unités du degré suivant. Par exemple, du point de vue démographique, une zone
rurale peut être décomposée en villages,unités du premier degré (unités primaires)
composées :
- de ménages, unités du second degré (unités secondaires), eux-mêmes
composés :
- d'individus,unités du troisième degré (unités tertiaires).
e) Échantil€on
Univers
Échantillon
c'est à partir de son observation
que l'on"extrapole"à l'univers
* Les sondages à plusieurs degrés seront abordés plus loin (chapitre 5).
PRINCIPES 5
d) Variables
Les études statistiques portent sur les valeurs prises par certaines variables
(caractères) pour chacune des unités statistiques. Ces variables peuvent être
quantitatives continues (taille, revenu), discontinues (nombre d'enfants) ou
qualitatives (situation matrimoniale,nationalité).
Parmi les variables qualitatives, on distingue les variables dichotomiques qui
ne présentent que deux modalités, par exemple le sexe ou le fait d'être en vie ou
décédé.
a) Estimateur
Ayant utilisé un procédé de sondage déterminé (on reviendra tout au long des
chapitres suivants sur la manière de faire), on va chercher à produire des estimations
pour une ou plusieurs variables dites d'intérêt.Un estimateur associé à un procédé
de sondage utilisé est une "formule mathématique" qui permet de calculer
l'estimationdune grandeur à partir des données observées sur l'échantillontiré. On
voit que, pour un procédé de sondage déterminé, le "hasard" peut conduire à
différents échantillons, donc à différentes estimations (calculées à partir de
l'estimateur).
En outre, pour une méthode de sondage déterminée, on aura souvent,en fait,
un choix destimateurs. Les chapitres 2 à 5 présentent les estimateurs les plus
"naturels" associés aux différentes méthodes -et on parlera dans ce cas de
6 W U E LDE SONDAGES.APPLICATIONS
AUX PAYS EN DEVELOPPLCWENT
-
"l'estimateur'' comme s'il était unique mais on verra au chapitre 6 d'autres
estimateursplus complexes.
b) Variable aléatoire
Une variable aléatoire est une variable qui peut prendre "uncertain nombre de
valeurs" avec, pour chaque valeur, une probabilité correspondante : on a donc une
"distribution"de la variable aléatoire.
Si l'on s'intéresse au domaine des sondages,on a vu qu'un échantillon fournit
une estimation de la grandeur qu'on cherche à estimer;mais si l'on tire un autre
échantillon selon les mêmes règles de sélection,on aura sans doute un autre résultat
pour l'estimation de la grandeur étudiée. L'estimateur est donc une variable
aléatoire.
e) Moyenne,variance
cov(Y,2)
"Jm
Cette grandeur est comprise entre -1 et +l.
Pour une variable aléatoireA,on parle d'espérance et de variance.
L'espérance est définie par : E(A) = C<q
1
On voit qu'on utilise, dans le cadre des enquêtes par sondage, le terme de
variance à la fois pour les variables dans l'univers étudié (donc mesurables sur
chaque unité statistique) et pour la variable aléatoire "estimateur résultant du plan
de sondage".
Cette double utilisation du terme variance peut conduire à certaines
confusions. I1 sera nécessaire de toujours préciser de quelle variance il s'agit
quand on traite de problèmes de sondages.
4Écart-type,coejjfìcientde variation
L'écart-typed'une variable Y est la racine carrée de la variance :
Cette notion s'applique aussi bien à la variance d'une variable qu'à la variance
dune variable aléatoire.Par ailleurs,l'écart-types'exprime dans la même unité que
la variable,alors que la variance s'exprime en cette unité "aucarré".
Le coefficient de variation est :
C.V.= -
DY
Y
pour une variable Y
e) Biais
On dit qu'un estimateur A d'une grandeur G est sans biais si E(A) = G,c'est-à-
dire si "en moyenne" les résultats fournis par cet estimateur sont égaux à la grandeur
qu'on cherche à estimer. Dans le cas contraire, on a un estimateur biaisé, qui peut
néanmoins dans certaines conditions être acceptable (partie 4).
a) Sondage alkatoire
b) Base de sondage
base de sondage est une liste complète et àjour des unités de l'universsans omission
ni double compte, et telle que l'identification de chaque unité se fasse sans
ambiguïté.
Le terme de "liste" doit être entendu au sens large :s'il s'agit en général dun
fichier (manuel ou informatique) issu d'un recensement ou d'une source
admirustrative,il peut aussi s'agir dune couverture photographque aérienne qu'on
va découper en zones élémentaires quand on utilise une méthode de sondage
aréolake,ou dun autre moyen d'accéderaux unités statistiques.
Il est intéressant de disposer, dans la base de sondage, d'informations
concernant les unités statistiques (en plus, bien sûr, de leur localisation) utilisables
pour le sondage.Par exemple,dans une enquête démographque,la base de sondage
peut indiquer pour chaque village de l'univers une estimation de la population:
population au dernier recensement, nombre de personnes imposables,nombre de
ménages, etc. Ces renseignements sont appelés variables auxiliaires.Ces variables
auxiliaires peuvent être utilisées,soit pour améliorer la technique de tirage,soit pour
calculer une estimation plus efficace (estimateurs plus complexes proposés au
chapitre 6).
Qu'utilise-t-on comme base de sondage? On peut fournir plusieurs types
d'exemples :
- des documents administratifs existants, par exemple des listes fiscales
(qu'ilfaudra compléter ou corriger éventuellement) ;
- le fichier des clients dune société,ou des anciens élèves d'une école ;
-une liste venant dune enquête précédente, en particulier d'un
recensement ;
-une liste qui est dressée à l'occasion de l'enquête : on peut, à l'occasion
dune enquête sur un centre urbain, procéder à un dénombrement des
ménages à partir duquel on tirera l'échantillon ;
-une liste d'unités aréolaires (en particulier les zones de dénombrement
utilisées pour le recensement de la population) dans laquelle on tirera un
échantillon d'unités pour lesquelles on procédera à un dénombrement des
ménages (chapitres 5 et 8).
Si l'on revient aux "qualités"de la base de sondage (exhaustivité et absence de
doubles comptes), on se trouve rarement dans la situation idéale où on a une base de
sondage parfaite ; on fera cependant avec la base dont on dispose. On reviendra,au
chapitre 8,sur les problèmes de mise àjour de la base de sondage.
10 AUX PAYS EN D&ELOPPEMENT
MANUEL DE SONDAGES.APPLICATIONS
a) La recherche de précision
b) La notion de
Les chapitres suivants présentent les différentes options qu'on peut utiliser
pour "améliorer"la qualité des estimateursen tenant compte des variables connues a
priori avant le tirage afin de sélectionner "au mieux" l'échantillon,mais aussi après
l'observationde l'échantillonen tenant compte de certaines informations auxiliaires
(chapitre 6 sur les redressements).
5. Notations
a) Sur l'univers
l N
Par ailleurs,on définit aussi : s2= - C (Y, -
N -1 ,=i
r)
b) Sur l'échantillon
c) Taux de sondage
n
f=-
N
d) L'utilisation de la notation
1. Principe
Pour estimer la moyenne 7 d'une variable Y sur l'univers (7est bien sûr
inconnue) il semble naturel d'utiliser l'estimateur:
1 7= -Cy,
i:l 1 (1) moyenne calculée sur les unités de 1'échantillon3
Dans le cas d'un tirage avec remise, si une unité est tirée plusieurs fois dans l'échantillon, sa valeur
sera comptée dans cette formule pour autant de fois qu'elle a été tirée ; la valeur n correspondra
alors au nombre de tirages, et non au nombre d'unités différentes tirées.
16 M N U E L DE SOND.4GES.APPUCATroiVsAUX PAYSEN DÈK?LOPPEMENT
b) Variance de jï
Ici,on peut donc dire que 95 %des valeurs de 7 sont situées dans l'intervalle
[ r - 2 m , F + 2 , / @ ) ] , où V(p) est donnée par les formules (2) ou (3) ci-
dessus.
d) L a variance V (7)
peut être estimée àpartir de l'échantillon
Dans les formules (2) et (3) ci-dessus,la quantité V(r) est inconnue. Celle-ci
va être estimée à partir des données observées sur l'échantillon. Si l'on note s2 la
grandeur calculée sur l'échantillon:
n s2
$(y) = (1--) - dans le cas du tirage sans remise
N n
C e qui vient d'être dit aux paragraphes précédents doit être replacé dans cette
perspective. Les résultats ci-dessus présentent la manière dont l'ensemble des
valeurs calculées sur tous les échantillons possibles se répartissent par rapport à la
grandeur recherchée r.
E n pratique, le seul résultat dont on dispose est la moyenne j7 calculée sur un
échantillon, et 7 est inconnue. O n tient un raisonnement analogue au précédent,
mais à partir de y (encadré l), pour fournir un "intervalle de confiance" pour :
- on dispose de la valeur y ;
- on estime V($ à partir de l'échantillon, on obtient donc une estimation
&(y) (racine carrée de la variance estimée 8(7))5 ;
- on peut donc fournir un intervalle de confiance : à 95 chances sur loo6,
la grandeur est dans l'intervalle [v-2&(7);7+2&(7)].
Ceci donne
une idée de la précision du sondage.
Cette estimation de la variance est elle-mêmesujette à une erreur de sondage qu'ilest d'ailleurs
possible d'estimer,et ainsi de suite.En fait, en général, on n'effectue pas ce calcul et on "fait
comme si"l'estimationde la variance étaitla vraie valeur ;ceciincite à une certaineprudence dans
l'interprétationdes chiffres...
Le sondeurreconnaît donc avoir quelques chances (5 sur 100) de setromper.O n peut,en utilisant
une table relative à la loi normale, fournir des intervalles de confiance à d'autres valeurs, par
exemple99 %ou encore 90%. ..
sONDAGES.4Lk4TOIRES SIMPLES 19
Encadré 1
Récapitulation sur l'estimation d'une moyenne
dans le cas d'un sondage aléatoiresimple sans remise
I Cet estimatew est sans biais et sa variance est estimée à partir de l'échantillon
Par:
où s2=-Z(yz-7)
1 " 2
n-1
fl Remarques
La précision est essentiellement liée au nombre d'unités enquêtées
La précision, en termes de variance de 7,est essentiellement liée au nombre
d'unités enquêtées n, et relativementpeu7 au taux de sondage n/N (pas du tout dans
le cas avec remise). Ceci est un point fondamental. O n peut l'illustrer de deux
façons :
- deux pays de tailles différentes menant des enquêtes, à partir d'échantillons
de même taille issus de sondages aléatoires simples,et sur des variables présentant
la même dispersion V(Y) (ce qui est souvent approximativement le cas si Ia
variable Y étudiée est la même dans les deux pays), obtiendront des résultats
équivalents en précision,bien que les taux de sondage soient différents (figure 5) ;
-
quand on publie des résultats dune enquête sur une partie de l'univers étudié
(par exemple une région si on a réalisé une enquête sur un pays, ou encore si l'on
s'intéresse aux résultats dans une "case" d'un tableau croisant deux modalités, par
exemple l'âge du chef de famille et sa catégorie sociale), le taux de sondage est le
même (pour un sondage équiprobable) au niveau de l'ensemble de l'univers (par
Le taux de sondagef = n/Nintervient dans le cas du tirage sans remise par Ie coefficient (1 -J.I1
affecte la variance de manière sensible, et donc la précision, s'il est proche de 1, ce qui est rarement
le cas en pratique.
20 MANUEL DE SONDAGES.APPLICATIONSAUXPAYS EN D E V E L O P P ~ E N T
f(Y)= N J (4)
1 " N"
On voit apparaître dans N 7= N -Cy,= - yz la "pondération"de chaque
n ,=I n ,=I
unité de l'échantillon N/n,encore appelée coefficient d'extrapolation (qui permet
"d'étendre à l'univers" la donnée observée sur cette unité).
La variances de cet estimateur vaut
V (f( Y))= NzV(7)
On notera au passage que le fait de "sortir N de la parenthèse" amène à multiplier v(J)par le
carré de N (une erreur répandue est de multiplier V(J) par seulement N pour calculer V (N7)).
22 MANUEL DE SOND.4GES.APPLICATIONSA
UXPAYS EN DEVELOPPEMENT
a) Principe
1 N - 2
9Eneffet,Y=PetL
'(Y)=- C (Ya-Y)
N a=l
= -[N,(l-
1 P)' +(N - N,)P*] = -[Na
1 -2N,P+ NP']
N N
=-[Na
1 Na
-2N,P+N,P] =-[1-P]
N N
SONDAGESALÉATOIRESSMPLES 23
b) Exemple
Interprétation :les taux de natalité et de mortalité à estimer sont situés vers les
valeurs 45 %O et 20 %O. Si l'on néglige le taux de sondage,on peut dire que :
lo On assimile ici les taux à des proportions, ce qui n'est pas tout à fait rigoureux puisqu'on divise
par exemple le nombre de décès d'une année par l'effectif moyen de la population; pour être
rigoureux,il faudrait se placer dans le cadre d'observations longitudinales (suivi de cohortes).
24 hlkiWEL DE SONDAGES.APPLICATIONSAUX
PAYS EN DEVELOPPEMENT
L'estimation dun ratio peut être délicate, et révéler des pièges. Prenons un
exemple :supposons que l'univers soit un univers de ménages (la base de sondage
est une liste de ménages), et que certaines caractéristiques comme le nombre
d'enfants de moins de cinq ans ne soientpas connues.
Comment estimer le poids corporel moyen des enfants de moins de cinq ans à
partir d'un échantillon de ménages tiré de façon aléatoire simple ? Remarquons que
l'unité statistique utilisée pour le sondage est le ménage et non l'individu. O n
procède ainsi :
- on estime le nombre total d'enfants de moins de cinq ans ;
- on estime ensuite le poids corporeltotal des enfants de moins de cinq ans
de l'univers;
- le ratio (ou quotient) de ces deux masses est l'estimationdu poids moyen
des enfants de moins de cinq ans.
Une erreur à ne pas commettreest de calculer la moyenne simple des poids moyens des enfants de
moins de cinq ans des ménages de l'échantillon; cette estimationne tiendrait pas compte du fait
que tous les ménages n'ontpas le même nombre d'enfants de moins de cinq ans.
SONDAGES ALk4TOIRES SIMPLES 25
6. Méthodes de tirage
a) Mbthode simple
b) Tirage systématique
Une autre méthode est celle du tirage systématique : on procède par "sauts"
dans la liste des unités statistiques.
Exemple
On doit tirer 10 personnes parmi 153 personnes (numérotées).
Le "pas de tirage"sera de 153/10= 15,3.
On tire un premier nombre au hasard entre 1 et 15 : 3
l2 Pour un calcul de l'erreur aléatoire, voir Desabie (1971), chapitre 9 ou Ardilly (1994), chapitre
3.3.On montre que si ? est l'estimationdu ratio 7/ X ,alors une estimation de la variance de r^
est donnée,dans le cas dun sondage aléatoire simple sans remise, par :
26 M N U E L DE SOND.4GES. APPLICATIONS
AUX PAYS EN DÉVELOPPEMENT
SONDAGES STRATIFIÉS
1. Principe, objectifs
stratifié
2. Formules d'estimation
a) Notations
- O n a k strates (h = 1,2,...,k)
k
- Pour la strate h, l'effectiftotal est Nh(N =
h=l
N h)
la moyenne de Y est
si=- 1
C(Kh-q2
Nh
Nh- l a h = ]
le nombre d'unités tirées est nh
l'indice des unités de l'échantillonest ih (ih = 1, ...,nh)
1 "h
yh
nhl'hi
)'(' = 2
h=l
NhYh
puisque
d)Les estimateurs f(Y) et Y" sont des estimateurs sans biais du total et de
la moyenne de Y
30 MANUEL
DE SONDAGES.APPLICATIONSAUX PAYS EN DEVELOPPEMENT
V( ?
(
'
) = .(i
h=l N h y h )
k
= h=l N,'v(yh)
et (4)
g) Cas particulier :le taux de sondage est le m ê m e pour toutes les strates
Les formules présentées ci-dessussont valables quels que soient les nombres
d'unités tirées par strate ; le taux de sondage noh
peut donc être variable d'une
strate à une autre.
Quand on impose un taux de sondage identique pour toutes les strates, on
qualifie alors le sondage de "stratifié représentatif',ou "stratifié proportionnel".
SONDAGESSTRATIFIÉS 31
puisque n,,LNh= n/N (où n est le nombre total de questionnaires) ; c'est donc la
moyenne simple calculée sur l'échantillon qui permet d'estimer la moyenne sur
l'univers; on a un sondage dit "autopondéré".
( -c-si
.
.
La variance de I'estimateur vaut Y Y = 1 --
;)ih:l:
Ceci veut dire que le sondage stratifié représentatifa une variance d'estimateur
toujours inférieure ou égale à celle du sondage "simple",et d'autant plus inférieure
que les strates ont des moyennes différentes de la moyenne générale. O n perçoit
intuitivement ce résultat en se souvenant que le tirage stratifié a consisté à forcer le
hasard "général" et à imposer à l'échantillon de "représenter" l'univers strate par
strate, donc à concentrer les valeurs observées autour des moyennes de chaque
strate.
b) Exemple
Nombre de Population -
Strate h h' r,
villages (N,) totale
1 3 O00 956 800 1O0 319
2 1 O00 605 O00 200 605
Total 4 O00 1561 800 3 90
Neyman
I Total I 80 I 80
Donc V(Y,)=V(Y,)
Soit
n
En "négligeant''les taux de sondage h pour simplifier :
Nh
s; s;+s; et n = 80
n, n2 n
D'oÙn, = 16 et n2 = 64.Ici,pour obtenir une estimation précise sur la strate 2
(qui comporte pourtant moins de villages que la strate 1 mais pour laquelle la
dispersion de la taille des villages est plus forte), on sera conduit à privilégier
l'affectation des unités enquêtées vers cette strate.
d) Conclusion
Encadré 2
U n exemple de sondage stratifié
L'enquête budget -consommationdu Gabon de 1993
Cette enquête s'est déroulée dans deux centres urbains du Gabon :Libreville et
Port Gentil.U n dénombrement exhaustifa permis de dresser la liste des ménages de
chaque centre (52 800 ménages à Libreville par exemple) en posant un nombre
limité de questions.
Le sondage utilisé a été un sondage stratifié selon trois critères supposés en
relation avec le niveau de vie :
- nationalitédu chefde ménage (Gabonais,autre africain) ;
- type d'habitat (5 modalités de "précaire" à "luxe");
- statutd'occupation(propriétaire,autre).
Soit en tout 20 strates pour chaque centre urbain, avec tirage d'un échantillon
(de 2 300 ménages pour Libreville par exemple), en utilisant le même taux de
sondage pour chaque strate (échantillon "représentatif'). D e plus, à l'intérieur de
chaque strate, le fichier a été trié selon la taille du ménage avant le tirage, et un
tirage "systématique"14 a assuré une bonne représentativité de l'échantillon selon ce
dernier critère.
SONDAGES A PROBABILITÉSINÉGALES
1. Príncipe
Bien qu'on se soit jusqu'à présent placé, dans ce manuel, dans le cadre de
tirages sans remise,on commencera ici par parler de tirages à probabilités inégales
38 MANUEL
DE SONDAGES.APPLICATIONS
AUXPAYS EN DÉVELOPPEMENT
I N
Sa variance vaut : v (fm)
=-
n
C A,
Elle peut être estimée sans biais à partir de l'échantillon par :
n(n- 1) i=i
Souvent A, est proportionnel à une mesure de la taille de l'unité : si 2,est sa taille, on prendra
I/ N \
16 Cette formule peut, à première vue, paraître étrange pour l'estimation d'un total et sembler plus
appropriée pour estimer une moyenne ; on doit cependant se rappeler que les Ai au
dénominateur ont des valeurs très faibles.
SONDAGESA PROBABILITÉSINÉGALES 39
A, =r
C
'
pour toutes les unités statistiquesde l'univers.
Ya
a=l
Ceci veut dire que, si l'on utilise ce jeu de probabilités A,, le sondage est
"parfait" (variance nulle). Mais ceci est irréalisable en pratique, car nécessitant de
connaître à l'avance le résultat recherché, puisque demandant de connaître
l'ensemble des Y, ; cependant, l'utilisation d'un critère variant de manière
approximativement proportionnelle à Y pour établir les probabilités de tirage (par
exemple les superficies des exploitations agricoles pour estimer leur production)
pourra permettre de "s'approcher''de cette situation, et donc d'avoir une variance
assez réduite. C'estla raison pour laquelle un critère de taille est souventutilisé pour
des estimationsrelatives à des totaux (production,effectifs).
3. Méthodes de tirage
Supposons que l'on ait une liste de 207 villages avec une estimation de leur
population. O n veut enquêter 21 villages,n = 21.O n calcule d'abord la population
cumulée correspondant à chaque village (tableau 4). Pour le dernier village, elle
vaut 58 626.
O n tire au hasard 21 nombres à 5 chiffres inférieurs ou égaux à 58 626.Ceci
permet de sélectionner les unités pour lesquelles ces nombres appartiennent à la
"portion de population cumulée" correspondante, donc avec une probabilité
proportionnelle à leur population (pour visualiser ceci, on peut imaginer qu'on a
40 MANUEL
DE SONDAGES.APPLICATIONS
AUX PAYS EN DÉVELOPPEMENT
distribué à chaque habitant un billet de loterie numéroté et qu'un village est tiré si un
habitant de ce village a un billet gagnant).
Supposons, par exemple, que l'on ait tiré entre autres 937 et 58 302 ; ces
chiffres désignent respectivement les villages no 3 et no 206.Supposons que l'ontire
ensuite 727 ; le village no 3 est à nouveau sélectionné.
O n peut améliorer la procédure en rangeant par taille les unités, et en
procédant à un tirage systématique (présenté au chapitre 2) dans les chiffres
cumulés.O n obtient ainsi une répartition "satisfaisante"de l'échantillon par rapport
au critère de tri choisi.
Ces méthodes consistent à placer une grille de points sur une carte
préalablement découpée,ou sur une photographie aérienne (figure 7).
Les "zones élémentaires" de la carte (parfois appelées segments) ou les
parcelles sur la photographie sont sélectionnées si elles contiennent un point de la
grille,avec une probabilité proportionnelleà leur surface (en toute rigueur,ce mode
de tirage est plus complexe puisque s'apparentant à un tirage systématique ;pour le
formaliser de manière complète,il faudraitétablir une modélisation de la "structurel'
du paysage sur lequel on procède au sondage).
SONDAGESA PROBABILITÉSINÉGALES 41
7
X
L 'estimateurde Howitz-Thompson
O n fait donc appel à une autre approche, que nous présenterons rapidement :
celle de Horvitz-Thompson.Le point de départ de cette approche développée pour
les tirages sans remise est la probabilité d'inclusion :
- .
I es
jas
Cette approche est une approche générale,pas seulement limitée aux sondages
à probabilités inégales ; elle est présentée dans ce chapitre car étant la seule
utilisable quand on tire à probabilités inégales sans remise.
CHAPITRE 5
SONDAGES A PLUSIEURSDEGRÉS
1. Principe, notations
a) Principe
villages
f
univers découpé
en unités primaires
xxx xxx xxx XXXI xxx
.iraged'unités primaires
(villages)
m e
4
tirage d'unités secondaires
(ménages)
4
Figure 8. Exemple de tirage B deux degrés
b) Justification,caractéristiques
c) Notations
s,=-
A4 -1 a=]
l M
OÙ T = -zTa(Y)
M a=l
M
- Tm total de Ysur l'univers : T(Y)= T,(Y)
a=l
17 Cette expression est sans doute à l'origine de l'utilisation de l'appellation "sondages en grappes"
pour "sondage à plusieurs degrés".
46 MANUEL DE SONDAGES.APPLICATIONS
AUXPAYS EN DEVELOPPEMENT
O n se placera dans le cas d'un tirage sans remise au premier degré,qui est a
priori préférable pour la précision.
a) Estimation du total de Y
La formule
alors,puisque
t
constante
la pondération utilisée est la même pour toutes les unités statistiques de l'échantillon
(en l'occurrence les unités secondaires) ; le sondage est dit autopondéré. Dans ce
SONDAGESÀ PLUSIEURSDEGRÉS 47
cas,la moyenne simple calculée sur l'ensemble des unités tirées est utilisée comme
estimateur de la moyenne sur l'univers (ce qui n'est pas le cas si l'on tire au
deuxièmedegré avec des taux de sondage différents selon les unités primaires).
m (151
d) Remarques
- le nombre d'unités secondaires tirées par unité primaire est supposé à peu
près constant et égal à no.
B
Alors V(f(Y)) s'écrit sous la forme : V(f(Y))= A+--, où A et B sont des
m mn,
constantes.
305
54 432
10 51 510
m mn,
A B
L=-+-+A(Co+Clm+C,mno)
mQ
dL -
_ A B
-o + AC,+ AC,no= O
dm m2 m2no
dL
-- -o -- B + K , m = O
dn0 mn0
SONDAGESA PLUSIEURSDEGRÉS 51
Par exemple,pour l'enquête sur le riz au Mali, les coûts C,et C,avaient été
chiffrés à :
C,= 3 (un village nécessite 3 jours de travail : accès au village, dénombrement des
rizières) ;
C,= 0,5(une rizière nécessite une demi-jouméed'enquête).
Alors no= 3,7. O n enquête donc 4 rizières par village (ce résultat est a
rapprocher de la pratique d'un certain nombre d'enquêtes agricoles à plusieurs
degrés dans les pays africains où on tire entre cinq et dix exploitations agricoles par
village sélectionné ;voir par exemple Brilleau,1993).
a) Estimateur du total de Y
fv) est un estimateur sans biais du total de Y sur l'univers ; on voit qu'on
passe par l'estimateur f(Y) du total de Y pour l'unité primaire i, puis qu'on utilise la
formule (1) du chapitre 4.f(Y) tient compte de la méthode de sondage utilisée au
deuxième degré de tirage.
l9 Remarquons qu'il s'agit de la probabilité d'être tirée à chaque tirage et non de la probabilité
("globale") d'être dans I'échantillon.
52 MANUEL DE SONDAGES.APPLICATIONS
AUX PAYS EN DÉVELOPPEMENT
O n n'a pas abordé pour l'instant le problème du choix des A,. Souvent on
décide de tirer les unités avec une probabilité proportionnelle à leur taille :
- -
N N\
mN, no
Pour estimer une moyenne par unité secondaire sur l'univers, il faudra souvent
estimer le nombre total d'unités secondaires qui est inconnu. U n ratio sera estimé
comme le rapport de deux masses estimées.
-
e) Retour sur le choix avec remise sans remise
Dans cette partie consacrée au tirage à deux degrés avec sélection des unités
primaires à probabilités inégales,on s'est placé dans le cas où celles-ciétaient tirées
avec remise; ceci, en fait, pour des raisons de difficult& à appréhender
correctement,sur le plan de la formalisation,le cas sans remise.
En pratique, on procèdera très souvent à des tirages des unités primaires à
Probabilités inégales sans remise :on utilisera les formulesprécédentes ("comme si''
on avait tiré avec remise), en sachant que les estimations de précision obtenues
(variance d'estimateur) majoreront la véritable précision.
O n réalisera parfois le tirage en rangeant les unités selon un certain critère (par
exemple, la taille de la localité) et en procédant à un tirage systématique dans le
cumul des tailles (chapitre 4).
4. Sondage en grappes
a) Principe
b) Estimation d'un total dans le cas d'un tirage des grappes a probabilités
égales
SiT,m est le total de Y observé sur la grappe i (ou unité primaire) sans erreur
aléatoire (puisqu'ona enquêté exhaustivementla grappe) :
M "'
?(Y)= -x
m ,=I
I;(Y) (5) est l'estimateurdu total de Y sur l'univers.
1 1
?(?(Y)) = M Z(1 -'II)-
M mm-1,=1
i 1
- (T(Y)- qY)f où T(Y)= - qY)
m ,=I
Iì'
m ,=I
m.
fi
Sa variance,plus complexe à calculer,est celle d'un ratio (chapitre 2).
d) Estimation d'un total dans le cas d'un tirage des grappes íi probabilités
inégales
Si T,m
est le total de Y observé sur la grappe i,
1 I;(Y)
f(Y)=-Z- "I
m i = lA,
SONDAGESÀ PLUSIEURS D E G m 55
est l'estimateurdu total de Y sur l'univers (A, est la probabilité de la grappe i d'être
tirée à chaque tirage).
5. L'effet de grappe
a) Principe
. .
6= *- 1
$5(Kß -?y
r*ß
R-1
a=l &?=I
-
où Y est la moyenne de Y par unité secondaire (donc calculée sur l'ensemble des
-
unités statistiques - ici,unités secondaires de l'univers),
-
N est la taille moyenne des unités primaires (donc, le nombre moyen d'unités
secondairespar unité primaire).
La grandeur DEFF20 qui est le rapport des deux variances d'estimation permet
d'estimer la perte de précision obtenue lors du passage d'un plan de sondage à
l'autre :on l'appelle "effet de sondage" (en anglais "DesignEgeet'',d'où l'appellation
DEFF'):
DEFF=l+S(A-l)
Cet effet de sondage est en fait une notion plus générale qui mesure le rapport
de la variance d'un sondage pratiqué à la variance du sondage aléatoire simple
utilisant la même taille d'échantillon.Si le sondage effectivement appliqué avait, en
plus des deux degrés, utilisé une stratification des unités primaires ou un tirage à
probabilités inégales de celles-ci,on aurait un effet de sondage plus complexe.Dans
ce cas, on peut introduire une grandeur, que certains auteurs appellent ROH (par
analogie à RHO)qui est définie par l'équation :
DEFF = 1 + ROH(ñ-1).
C'est le calcul effectif de la variance du sondage pratiqué et de celle du
sondage aléatoire simple qui permet d'obtenir des valeurs de DEFF et,par la suite,
de ROH pour certains paramètres (dans ce cas, ROH n'est plus le coefficient de
corrélation intragrappe puisqu'il prend en compte,par exemple, la stratificationdes
unités primaires s'il y en a une). Les valeurs de DEFF et de ROH sont donc alors
obtenues par une démarche "expérimentale"plus que théorique.
2o O n trouvera parfois dans la littérature anglo-saxonnela notion D'eff plutôt que DEFF pour le
rapport des deux variances d'estimation.
SONDAGESÀ PLUSIEURSDEGRÉS 57
0,002
0,003 225
0,05 6,O 16,O 26,O
58 MANUEL DE SONDAGES.APPLICATIONS
AUX PAYS EN DÉVELOPPEMENT
Un retour sur les valeurs numériques relatives aux effets de grappe citées
dans certains articles...
Ces valeurs doivent bien entendu être considérées comme des ordres de
grandeur,plus que comme des valeurs "portablestelles quelles" à d'autres contextes,
d'autant plus qu'elles sont elles-mêmes souvent l'objet d'estimations à partir d'un
échantillon.
U n point important à signaler et relatifaux enquêtes démographiques concerne
le fait que, pour ces dernières, la valeur de 6 (ou ROH) calculée à partir de la
formule :
6. Considérations pratiques
21Cette construction va donc dans un sens contraire à la stratification, qui, elle, cherche à créer
des regroupements d'individus semblables.
22 O n doit remarquer qu'avec cette méthode on connaît à l'avance le nombre total de
questionnaires à réaliser (on fixe le nombre d'unités secondaires enquêtées par unité primaire
tirée). Par contre, pour le tirage des unités primaires à probabilités égales avec taux de sondage
au deuxième degré fixé a priori ou le tirage par grappes, on ne connaît pas a priori le nombre
d'unités secondaires par unité primaire (on le découvre par comptage sur le terrain) et le
nombre final de questionnaires est inconnu.
23 Rappelons que dans le cas d'un sondage stratifié, on calcule la variance d'estimation strate par
strate et que la variance de l'estimateur du total est la s o m m e de ces variances sur l'ensemble
des strates.
60 AUX PAYS EN DÉVELOPPEMENT
MANUEL DE SONDAGES.APPLICATIONS
pour certaines enquêtes, ceci pour des estimations "globales"; si l'on veut des
estimations plus fines,par exemple sur les taux de mortalité par groupes d'âges
quinquennaux,il faudra augmenter cette taille26.
Pour l'estimation d'une moyenne par ménage, la méthode est différente selon
que l'on connaît le nombre total de ménages (c'est alors direct à partir du total estimé
sur l'univers) ou non (on doit alors estimer le nombre total de ménages à partir de
I'échantillon).
26 Dans ce cas, il faut cependant mentionner que l'usage de certains modèles démographiques
(tables-type de mortalité par exemple) permet d'éviter de "gonfler" I'échantillon dans une
proportion égale à celle qu'on devrait avoir si on estimait chaque taux quinquennal c o m m e un
élément indépendant des autres taux quinquennaux, puisqu'on part de cette table-type et de
certains paramètres estimés pour décomposer la mortalité selon les tranches d'âges (CEPED,
1988,chapitre 20).
62 MANUEL DE SONDAGES.APPLICATIONSAUX PA YS EN DÉVELOPPEMENT
I Encadré 3
U n exemple de sondage ii plusieurs degrés
Les enquêtes démographiques et de santé EDS (Scott, 1987)
2. R e m a r q u e s
- L e tirage n'est pas un tirage aléatoire simple de segments puisque deux
segments appartenantau même district ne serontjamais tirés ensemble.
-I1 n'est pas nécessaire de procéder au découpage des segments POUI
l'ensemble des districts ; on limite cette opération aux districts tirés au premie]
degré.
-Des districts trop petits peuvent être regroupés avec le suivant (ou le
précédent).
- Le sondage est bâti pour être à peu près autopondéré : on devrait pouvoir se
contenter de calculer des moyennes simples sur l'échantillon. Cependant, des
perturbations (non réponses, non identification...) peuvent remettre en cause le
caractère autopondéré du sondage.I1 faut recalculer,infine,les pondérations.
- O n peut opérer, au niveau des unités primaires, une stratificatior
géographique.
CHAPITRE 6
UTILISATION D'INFORMATION
AUXILIAIRE, REDRESSEMENTS
i
estimateur
"brut"
estimateur
I' red ressé"
1. Stratificationaposteriori
a) Prìncipe
j? = -x
1
n
"
y, est l'estimateur "brut" (avant redressement) de la moyenne de la
,=I
variable Y.
Si l'ondécoupe l'universen strates h = 1, ..., k et si l'on connaît les effectifs N,
des strates,alors :
= t$yh
h=l
est I'estimateur stratifié a posteriori de la moyenne de Y (yh
étant la moyenne simple calculée sur la partie de l'échantillon se trouvant dans la
strate h).
O n voit qu'on modifie les pondérations des questionnaires par rapport a
l'estimateur "brut".
e) Exemple
Or ces villages (du Sud) ont en moyenne une taille plus faible. Comment
prendre en compte cette information ? On utilise l'estimateurde la moyenne stratifié
a posteriori :
d) L a pratique
Le critère choisi pour stratifier a posteriorì doit être corrélé avec la variable
d'intérêt (ou les variables d'intérêt) pour que la technique soit efficace.
66 MANUEL DE SONDAGES.APPLICATIONS
AUX PAYS EN DEVELOPPEMENT
Par ailleurs,il est essentiel que les effectifs des strates (les N,)soient connus
de manière précise et surtout récente : une stratification a posteriori ajustant un
échantillon sur une distribution ancienne (et susceptible de s'être déformée) sera à
déconseiller.
Enfin, il est préférable de ne pas avoir de corrections des pondérations trop
importantes : une règle empirique indique d'éviter d'avoir des taux de correction
plus de cinq fois supérieurs au taux de correction le plus faible.O n déconseille aussi
de stratifier a posteriori sur des strates trop peu nombreuses (éviter des strates telles
que N
,
" 10 %).
a) Principe
b) Exemple
27 O n montre que, dans le cas d'un sondage aléatoire simple, la variance de l'estimateur par le
quotient peut être estimée àpartir de l'échantillon par :
où :
s et sz sont calculés sur l'échantillon (formule habituelle),
,
.
p est le coefficient de corrélation linéaire entre X e t l'estimé sur l'échantillon.
UTILISATION
D 'INFORMATION AUXILIAIRE,REDRESSEMENTS 69
e) L 'estìmateurpar la régression
Cette méthode suppose une relation de type affine entre Y,la variable d'intérêt,
et X,la variable auxiliaire,qui n'est plus une relation de simple proportionnalité
(comme pour l'estimateurpar le quotient) : Y = a + bX.
L'idée va Ctre d'estimer le paramètre b, puis d'utiliser la grandeur x
(valeur
moyenne de X sur l'univers,connue) pour redresser et fournir l'estimateur par la
régression de la moyenne : = 7+ b"(x
-Y) où 6 est l'estimation de b par la
méthode des moindres carrés ordinaires appliquée à l'échantillon.
Cette méthode suppose des calculs complexes et est peu utilisée en pratique
(voir cependant l'encadré 4 qui présente un exemple d'application). O n utilise
parfois une "variante",l'estimationpar la différence,où la valeur de b est choisie a
priori égale à 1 :
-
ydg = 7+ (X-3) (on ajoute à 7 la différence constatéeentre x et Y).
3. Les non-réponses
a) Non-réponsespartielles et totales
28 I1 peut également s'agir de données qui ont été jugées incohérentes lors de la phase
d'apurement du fichier.
70 MANUEL AUX PAYS EN DÉVELOPPEMENT
DE SONDAGES.APPLICATIONS
Encadré 4
U n exemple d'estimation par la régression
L'estimationde superficies agricoles à partir d'images satellites
Chaque année, une enquête est menée par le service de statistique agricole
franGais (SCEES) dans un certain nombre de départements, à partir d'un
échantillon de segments (carrés de 50 hectares) visités par des enquêteurs qui
procèdent à des relevés permettant de déterminer la superficie de différentes
catégories d'utilisation du sol. Cette enquête fournit des estimations "brutes",par
exemple pour la superficieboisée du département.
Par ailleurs,l'image satellite délivre une information exhaustive sur la zone,
mais avec une certaine erreur d'observation: il existe des confusions dans
l'affectationdes points de l'image aux différentescatégories d'utilisation du sol.
O n peut, sur l'image satellite,repérer les segments de l'enquête de terrain et
disposerpour chacun de ceux-cide :
y superficieboisée à l'enquête de terrain
x superficieboisée sur l'image satellite
Le fait de disposer, sur l'image satellite, de la valeur x, moyenne sur
l'ensemble des segments, va permettre de fournir un estimateur redressé de la
superficiemoyenne (par segment) en bois :
j7Eg=j7+qx-F)
où X, j7 sont les moyennes sur l'échantillon de segments (7sert d'ailleurs à
produire l'estimation brute de la superficie en bois du département), et b^ est la
pente de la droite de régression entre x et y,estimée par l'échantillon.L'image
satellite est donc l'information auxiliaire qui "redresse"les résultats de l'enquêtede
terrain (et non l'inverse). Pour plus de détails,voir Pastorelli(1992).
UTILISATIOND 'INFORI.ATlONA UXILIAIRE,REDRESSEMENTS 71
Donc
O n remplace les données manquantes d'une unité à l'aide d'une des méthodes
d"'imputation'' suivantes (qui supposent, là aussi, l'utilisation d'hypothèses de
comportement) :
- déductive,à l'aide d'une règle déterministe (par exemple,un individu de
moins de 14 ans est inactif), ou prédictive (en fonction des
caractéristiquesobservées de l'unité,on fait appel aux données constatées
sur les autres unités répondanteset semblables) ;
- "hot-deck": on prend, pour la variable manquante, la valeur de l'unité
précédente dans le fichier,ou celle de la dernière unité rencontrée et dont
on pense qu'elle est suffisamment semblable à l'unité pour laquelle
l'information manque ;
UTILISATION D 'INFORMATION A UXILIAIRE,REDRESSEMENTS 73
Bien qu'encore peu utilisée dans les pays en développement,cette méthode est
présentée dans ce manuel en raison de son caractère spécifique; elle pourrait
trouver des champs d'application dans ces pays.
1. Principe
Exemple
O n veut faire une enquête socio-économique sur la population active d'une
ville.U n recensementrécent a fourni les répartitions globales suivantes d'après trois
critères (tableau 8 :remarquons qu'il s'agit de distributions marginales, c'est-à-dire
qu'on n'a pas fait de ventilation suivant deux critères, par exemple un tableau à
double entrée suivantl'âge et le secteur d'activité).
O n a décidé d'interroger 5 O00 personnes avec dix enquêteurs travaillant 10
jours.O n dira à chaque enquêteur :vous interrogezen tout 500 personnes dont 240
hommes et 260 femmes,70jeunes de 16 à 24 ans, 185 personnes âgées de 25 à 44
ans, 80 cadres ou patrons du secteur formel... Dans cet exemple, on a utilisé des
quotas marginaux (plusutilisés en pratique) mais on peut aussi se servir de quotas
croisés (nécessitant de l'information sur la répartition de la population pour chaque
case résultant du croisement des critères).
76 MANUEL
DE SONDAGES.APPLICATIONS
AUXPAYS EN DÉVELOPPEMENT
100 %
3. L a pratique
Cette méthode est parfois présentée comme une variante de la méthode des
quotas : elle ne nécessite pas de base de sondage, et on fournit à l'enquêteur des
indications sur les unités à enquêter.Plus précisément, on lui impose un itinéraire
fixé sur une carte,avec un point de départ et des points d'enquête déterminés le long
de celui-ci.
La méthode s'approche en fait d'une méthode aléatoire (choix aléatoire de
l'itinéraire) : l'enquêteur a une latitude beaucoup moins importante qu'avec la
78 MANUEL
DE SONDAGES.APPLICATIONS
AUX PAYS EN DÉVELOPPEMENT
EN GUISEDE SYNTHÈSE
Ce chapitre a pour but de mettre en perspective ce qui a été présenté dans les
chapitres précédents,tout en insistant sur un certain nombre de points pratiques.
Les méthodes présentées dans les chapitres précédents sont loin d'être
antinomiques :on a même vu qu'elles s'utilisent souvent en complément les unes des
autres.
Le choix de la procédure définitivement adoptée va dépendre des paramètres
suivants :
- raisons pratiques d'organisation de l'enquête (Cléments de coût, de
rémunération des enquêteurs,contraintes d'accessibilité de l'ensembledes
zones du territoire,organisation du travail des enquêteurs) ;
- disponibilité d'une base de sondage fiable (complète, exacte et àjour), ou
d'une liste pour constituer les unités primaires d'un sondage à plusieurs
degrés ;
- caractéristiques profondes du phénomène étudié : semble-t-ila priori
réparti à peu près uniformément sur l'univers, ou y a-t-ilconcentration
forte sur certaines parties de celui-ci(zones géographiques ou catégories
d'unités) ?
a) Un ou plusieurs degrés ?
quand on organise une enquête de grande envergure (à l'échelle d'un pays), ne sera
efficace que si le phénomène étudié ne présente pas de concentration sur certaines
zones correspondantà des unités primaires.
La technique de la stratification sera, elle, quasiment systématiquement
utilisée,très souvent conjointement avec d'autres méthodes.
Pour beaucoup d'enquêtes dans les pays en développement, on peut
recommander la procédure suivante :
- stratification préalable des unités primaires (en utilisant des critères
pertinents,intégrant des variables géographiques le plus souvent) ;
- tirage à plusieurs degrés28, avec un premier degré aréolaire constitué
d'unités primaires de tailles aussi voisines que possible. Le tirage des
unités primaires se fera à probabilités égales si celles-ci sont de tailles à
peu près équivalentes (ce qui peut résulter en particulier d'une
stratification judicieuse), ou à probabilités inégales proportionnelles à
leurs tailles (si on dispose de cette information).
Parfois, il sera possible d'utiliser une méthode à un seul degré (encadré 2 ou,
quand un registre est disponible,enquêtes auprès des entreprises).
Une fois le mode de tirage déterminé (avec tous ses "raffinements"), se pose le
problème de l'extrapolationdes valeurs observées sur l'échantillon.Pour l'estimation
d'un total,on utilise le principe du 'lieude construction'':estimation strate par strate
s'il y a stratification puis sommation générale, remontée par chacun des degrés de
tirage si on est dans le cas de plusieurs degrés (par exemple estimation du total au
niveau unité primaire, puis estimation au niveau global). U n ratio sera estimé
comme le rapport de deux masses; quant à l'estimation d'une moyenne, elle
proviendra, si le nombre d'unités "de base" est inconnu, d'un ratio où le
dénominateur(le ïV) sera estimé à partir de l'échantillon.
b) Les panels
U n cas particulier est relatif aux panels, pour lesquels on enquête le même
échantillon à plusieurs dates : l'intérêt est qu'ils permettent, en général, des
28 L a taille du chapitre 5 de ce manuel montre l'importance des sondages à plusieurs degrés pour
les enquêtes démographiques... U n certain nombre de publications ont présenté des plans de
sondage d'enquêtes démographiques de manière détaillée :on pourra par exemple se référer à
R é m y Clairin (1978)et Christopher Scott (1987).
EN GUISE DE SYNTHÈSE 81
estimations d'évolution (entre les différentes dates) plus précises29 que celles qu'on
aurait obtenues en tirant à chaque date un nouvel échantillon ; de plus, l'intérêt des
panels est de pouvoir produire des matrices de passage entre deux dates d'enquêtes :
si par exemple on suit des personnes du point de vue de leur emploi, on pourra
étudier comment se font les passages d'une catégorie d'emploi à une autre (combien
du secteur public vers l'informel...) alors que la même enquête pratiquée sur deux
échantillons indépendants (aux deux dates) ne permettrait que d'avoir deux
"photographies"de l'emploi aux deux dates.
Par contre, la gestion d'un panel s'avère complexe dans le cas d'unités à
"géométrie variable", en particulier dans le cas de ménages : il peut y avoir des
arrivées,des départs,des fusions...qui rendent le suivi des unités difficile.
Cette technique est parfois utilisée quand on dispose de très peu d'informations
dans la base de sondage :elle consiste à tirer un échantillon nombreux sur lequel on
pose peu de questions (première phase) avant de sélectionnerun sous-échantillonen
deuxième phase, lequel sera "ciblé" en fonction des objectifs poursuivis (par
exemple étude de populations rares) et à partir des informations collectées lors de la
première phase.
On utilisera, par exemple, pour les résultats de la deuxième phase un
estimateur stratifié du type :
mais ici les N O seront des résultats d'estimations provenant de la première phase :
si on a tiré, lors de la première phase,n unités et que n, ont été "constatées"comme
appartenantà la strate 1, nl/nsera l'estimateurde Nl/N.
29 Si on veut estimer l'évolution de la moyenne d'une variable Y entre deux dates tl et t2, on montre
h
que la variance de l'estimation obtenue à partir d'un panel tiré de façon aléatoire simple (A5)
où est estimé sur un ensemble plus vaste que le petit domaine (on fait donc
l'hypothèseque la proportionnalité entre le total de Xet le total de y est la même sur
le petit domaine et sur l'ensembleplus vaste).
k=l
Une base de sondage vieillit, et doit être mise àjour (Brion, 1995) : s'il s'agit
d'une base de sondage aréolaire, de nouvelles constructions peuvent exister,
certaines peuvent avoir été détruites... Certaines limites d'unités aréolaires qui ne
posaient pas de problème auparavant peuvent demander à être précisées lors de la
mise àjour,quand la localisation d'une nouvelle habitation est ambiguë par rapport
à la délimitation de l'unité. L'entretien d'une base de sondage doit être un service
régulier d'un institut de statistique (suivi des limites des unités, suivi des effectifs si
possible), afin de ne pas être obligé de travailler dans l'urgence lors de la mise en
place d'une nouvelle enquête.
Si la base de sondage est une liste,on aura intérêt à y intégrer des informations
"exogènes" concernant les unités (créations, disparitions, modifications ; par
exemple, dans certains pays, la base de sondage des enquêtes ménages est la liste
des logements issue du recensement de la population,complétée chaque année par
la liste des logements neufs). I1 arrive que, dans une base de sondage,on trouve des
informations datées d'époques différentes (certaines datent par exemple du dernier
recensement,d'autres sont très récentes) : ceci n'est pas gênant à partir du moment
où la base de sondage est un outil pour tirer des échantillons (par exemple en
stratifiant), et non un fichier qu'on utilise pour sortir des statistiques.
~ ~~
31 Parfois, quand les zones de dénombrement du recensement sont voisines de cette taille, on
découpe les plus grosses et on regroupe les plus petites pour arriver à une taille à peu près
homogène.
EN GUISEDE SYNTHÈSE 87
d) L 'utilisation de la télédétection
d'îlots à l'intérieur des strates définies. O n voit que c'est donc au niveau de la
"cartographie"que se situe l'apport de la télédétection.
Des expériences récentes ont montré les possibilités d'application de cette
technique pour les enquêtes socio-dkmographiques en milieu urbain (Barbary,
Dureau, 1991 ; Cogneau, Roubaud, 1992). Pour les enquêtes agricoles, la
télédétection peut être utilisée comme information auxiliaire exhaustive pour
produire des estimations de superficies (encadré 4), ou comme support pour établir
une stratification du territoire en zones agro-écologiques homogènes ; à l'intérieur
de chaque strate,on procédera alors à un sondage classique à deux degrés.
a) Au niveau de la collecte
32II n'est, malheureusement, pas rare de rencontrer des résultats d'enquête qui ont été calculés en
"oubliant" les pondérations...
90 MANUEL DE SONDAGES.APPLICATIONSAUXPAYS EN DÉVELOPPEMENT
Encadré 5
Une méthode d'estimation de la variance
d'estimation dans le cas de statistiques complexes :la linéarisation
(Deville et Roth, 1986)
Encadré 6
1) Ouvrages généraux
Coéditions
- Démographie :analyse et synthèse. Causes et conséquences des
évolutions démographiques, CEPED/DSD/FACOLTÀ DI
GIURISPRUDENZA,276 p. (Actesdu colloque de Sienne,22-
24 avril 1996,vol.3) (151,66FHT,160 F TTC,frais de port
27 F).
-Démographie:analyse et synthèse. Causes et conséquences des
évolutions démographiques,CEPED/DSD, 408p. (Actes du
colloque de Sienne, 22-24avril 1996,vol.2) (I 70,62F HT,
180 F TTC,frais de port 36 F).
-Populations et environnement dans les pays du Sud, sous la
direction de Francis GENDREAU, Patrick GUBRYet Jacques
VÉRON, KarthalaKEPED, 308 p. (I51,66FHT, 160 F TTC,
fiais de port 36 F).
-Leretour au village. Une solution à lu crise économique au Cameroun ?,par Patrick GUBRYet
al.(1 996), CEPED/IFORDMINREST/L'Harmattan, 206 p. (II3,74F HT,120 F TTC,frais
de port 16 F).
- Populations africaines et sida, sous la direction de Jacques VALLIN(1994), CEPED/La
Découverte,218p. (141,23F HT,149 F TTC,frais de port 27 F).
LESPUELICATIONSDU CEPED 105
Collection Los Documentos del CEPED (35,07F HT,37 F TTClnuméro, his de port 5 F)
-no1 : La mortalidad en el mundo :tendencias y perspectivas, para France MESLB
y Jacques
VALLIN, 24 p.(Traducido del francèspara Maria Celina AÑAÑos). (épuisé).
no 26 no 2
Changementsmatrimoniaux Crisis and demographic
en Afrique transition in AJFica
The CEPED News, english version of the Chronique du CEPED made with the support of IFRA
(1 O F/number or subscription 30 F/year).
lmprimben France par INSTAPRINT S.A.
- - -
1-2-3,levée d e la Loire LA RICHE B.P. 5927 37059 TOURS Cedex 1
Tbl.02 47 38 10 04
CEPED INSEE
15, rue de l’École de Médecine Département des Relations
75270PARIS Cedex 06 Internationales et de la Coopération
Téléphone : (33) 1 44 41 82 30 18, boulevard Adolphe Pinard
Télécopie : (33) 1 44 41 82 3 1 75675PARIS Cedex 14
Téléphone : (33) 141 17 53 13
Télécopie : (33) 1 41 17 66 52