PDF - Vol 98-01-N01

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 7

FICHES MÉTHODOLOGIQUES EN RECHERCHE ET EN RÉDACTION SCIENTIFIQUE

Fiche Méthodologique n°1 : Comment calculer la taille d’un échantillon pour


une étude observationnelle ?
Methodological sheet n°1: How to calculate the size of a sample for an
observational study?
‫ كيف احت�سب حجم عينة لدرا�سة قائمة على املالحظة؟‬:1 ‫ورقة منهجية رقم‬

Zineb Serhier1, Karima Bendahhou1, Ahmed Ben Abdelaziz2, Mohammed Bennani Othmani1, Réseau Maghrébin PRP2S*

* Réseau- Maghrébin: Pédagogie- Recherche- Publication en Sciences de Santé (PRP2S)


1. Laboratoire Neurosciences cliniques et santé mentale, Université Hassan 2 Casablanca.
2. Laboratoire de Recherche LR19SP01 : « Mesure et Appui à la Performance des Etablissements de Santé »

Cette série…
Le Réseau Maghrébin PRP2S et la Rédaction de la revue « La Tunisie Médicale » ont l’honneur de vous présenter, régulièrement à partir du
numéro de janvier 2020, une série des fiches techniques en épidémiologie et en bio statistique. Ces fiches méthodologiques décrivent, d’une
manière standardisée, les modes d’usage des concepts, des outils et des méthodes utilisés lors des différentes phases de la rédaction médicale
scientifique depuis la phase de la recherche documentaire jusqu’à la phase de le communication médicale scientifique.
Cette série est rédigée par des experts de méthodologie de recherche dans les universités du Grand Maghreb et les facultés sœurs au Nord de la
Méditerranée. Chaque fiche répond aux trois questions essentielles (Quoi ? Pourquoi ? Comment) du concept étudié, en se basant sur un article
publié dans la revue Tunis Med.
Le coordinateur de la série « Fiches méthodologiques »
Professeur Ahmed Ben Abdelaziz (Président du Réseau Maghrébin PRP2S) [email protected]

Série des Fiches méthodologiques


Sommaire
Fiche n°1 (janvier 2020):
Comment calculer la taille d’un échantillon pour une étude observationnelle
Serhier et al. (Faculté de Médecine et de Pharmacie de Casablanca)

Correspondance
Ahmed Ben Abdelaziz
Laboratoire de Recherche LR19SP01 « Mesure et Appui de la Performance des Etablissements de Santé ».
Université de Sousse (Tunisie)

LA TUNISIE MEDICALE - 2020 ; Vol 98 (01)

1
Z. er ier al.- Comment calculer la taille d un éc antillon pour une étude o servationnelle

ETUDE DE CAS a. Le pourcentage de récupération


b. La moyenne de la différence attendue et son écart-type
Dans l’extrait suivant de l’article [1] intitulé « Effets de c. La distance parcourue et la durée de l’IEF (l’immersion
l’immersion en eau froide sur la récupération physique des en eau froide)
jeunes footballeurs », les auteurs décrivent la méthode de
calcul du nombre de sujet à inclure dans l’étude. INTRODUCTION 

« L’hypothèse nulle a été: H0: m1=m2 et l’hypothèse Le calcul de la taille de l’échantillon est une étape
alternative a été Ha: m1=m2+d où d est la différence primordiale dans la réalisation d’un travail de recherche
entre les deux moyennes et n1 et n2 sont les tailles des qu’il soit descriptif ou analytique [2]. En effet, afin d’estimer
échantillons pour deux groupes (IEF et non-IEF) de telle un paramètre avec précision ou détecter une différence
sorte que N=n1+n2. La taille de l’échantillon total a été avec une puissance adaptée, le calcul de la taille de
calculée selon l’équation suivante : N=((r+1)(Zα/2+Z1- l’échantillon à priori, s’impose.
β)2s2))/rd2. Zα/2 est la déviation normale à un niveau de Une étude épidémiologique réalisée avec un sous-effectif
signification (=1,96 pour 5% de niveau de signification); est une perte de temps et de moyens car ne permettra
Z1-β est la déviation normale à une force 1-β % avec une pas d’atteindre l’objectif du travail. Dans certains cas, elle
erreur de type II β % (=1,28 à une puissance statistique peut être considérée non éthique, notamment dans les
de 90%); r (=n1/n2) est le rapport entre la taille des études expérimentales car elles exposent les participants
échantillons de deux groupes (r=1 donne une distribution aux risques, d’effets indésirables par exemple, sans
de 1:1 pour les deux groupes); s et d sont l’écart-type et la aucun bénéfice, du moment qu’elles sont incapables de
différence entre les moyennes de temps de course avant démontrer l’efficacité même si elle existe réellement à
et après l’IEF. Ces deux valeurs sont issues d’une étude cause du manque de puissance [3].
antérieure qui avait comme objectif principal d’évaluer Dans cette fiche méthodologique, nous allons expliquer
l’effet de l’IEF (14 °C pendant 5 min) sur la récupération pourquoi c’est important de calculer la taille de l’échantillon
en appliquant une course de 4000 m. Le groupe non-IEF pour une étude observationnelle, c’est quoi le calcul de
avait des moyennes de temps de course de 18,0 et de 18,9 la taille d’échantillon, une précision et une puissance, et
min, respectivement, avant et après le protocole, avec comment peut-on faire ce calcul à l’aide des formules
un écart-type moyen de 0,9. L’injection de ces données statistiques et des logiciels d’analyse statistique. Nous
dans l’équation prédictive donne un échantillon total de 21 avons choisi un logiciel libre R (disponible sur: https://
sujets (10 dans chaque groupe). » www.r-project.org/) et un logiciel propriétaire Stata pour
illustrer ces calculs.
Quiz :
1. Pourquoi les auteurs ont calculé la taille de POURQUOI ?
l’échantillon avant le début de l’étude ? Calculer le nombre de sujet nécessaire est important car
a. Pour être capable de détecter une différence qui n’existe c’est la seule façon qui permet de garantir la précision
pas réellement ou la puissance adéquate selon l’objectif de l’étude, et
b. Pour assurer une bonne puissance d’évaluer la faisabilité en termes de temps et de moyens
c. Pour augmenter la différence avant et après l’IEF disponibles. Un nombre nécessaire dépassant la capacité
(l’Immersion en Eau Froide) de recrutement des patients au niveau d’un centre pendant
2. Quelle est la puissance statistique visée par les une durée limitée doit nous pousser à allonger la durée de
auteurs ? l’étude ou, à réaliser une étude multicentrique. On peut
a. 90 % également accepter une plus faible précision (intervalle de
b. 80 % confiance plus large) mais sans que ça nuise à la qualité et
c. 5 % à l’interprétation des résultats. La faisabilité est également
3. Quels sont les paramètres qu’ils ont utilisés pour le évaluée selon les moyens financiers disponibles car le
calcul de la taille de l’échantillon ? budget nécessaire en cas d’examens couteux est d’autant
plus élevé que la taille de l’échantillon est grande. Parfois,

2
TUNISEMDCAL-202ol98(n°01;V )

on doit renoncer à l’étude si on n’a pas la possibilité


d’atteindre la taille de l’échantillon adaptée. D’autre COMMENT ?
part, le calcul de la taille de l’échantillon, nous évite des La détermination de la taille de l’échantillon dépend de
dépenses inutiles en termes de temps et de moyens liés plusieurs paramètres selon l’objectif de l’étude. Cette
à un recrutement d’un nombre de sujet dépassant celui détermination peut se faire grâce à des formules statistiques
exigé. en se basant sur les résultats escomptés. Il faut noter que
les données de la littérature sont importantes pour orienter
QUOI ?
le calcul de la taille de l’échantillon. Généralement,
Le calcul de la taille de l’échantillon est une méthode qui
ce calcul se fera à l’aide de logiciels statistiques. Nous
va nous permettre d’obtenir le nombre minimum de sujets
avons choisi de présenter la méthode sur le logiciel R
à inclure dans une étude pour garantir, dans les études
pour les études descriptives et R et Stata pour les études
descriptives une bonne précision, et dans les études
comparatives. Nous allons se focaliser sur les situations
analytiques une bonne puissance.
les plus rencontrées, dans les études observationnelles,
La précision est la moitié de la largeur d’un Intervalle de pour le calcul de la taille de l’échantillon.
Confiance (IC) c’est-à-dire c’est la distance de part et
d’autre de la valeur estimée sur un échantillon définissant
a. Paramètres utiles pour le calcul de la taille de
l’intervalle qui a une grande probabilité (généralement
l’échantillon :
95%) de contenir la vraie valeur de la population. Le risque
de se tromper dans l’estimation et que la vraie valeur soit
Dans les études descriptives 
à l’extérieur de l’intervalle est alors de 5 % (appelé risque
Afin de calculer la taille de l’échantillon on a besoin de :
de première espèce alpha).
· Fixer le risque d’erreur α (souvent c’est 5 %) ou
Par exemple, l’estimation de la dépression chez des
degré de confiance à 95 %
patients atteints de schizophrénie a trouvé le résultat
· Déterminer la valeur attendue du paramètre à
suivant : 12,7 % avec un IC95% [7,6 %-17,8 %]. Cette
estimer (généralement proportion ou moyenne)
estimation a une précision de 5,1 % (12,7 % ± 5,1 %).
à partir de la littérature ou le résultat d’une étude
La fréquence 12,7 % a été observée sur l’échantillon, la
pilote.
vraie prévalence de dépression chez les schizophrènes
· Fixer le degré de précision désiré qui doit être
est très probablement entre 7,6 % et 17,8 %. Si on désire
acceptable.
une meilleure précision, c’est-à-dire un intervalle plus
étroit on devrait augmenter la taille de l’échantillon, et vice
Dans les études analytiques
versa si on avait fait l’étude sur un échantillon plus petit,
Le calcul de la taille de l’échantillon nécessite de :
on aurait obtenu un intervalle plus large et l’estimation
dans ce cas ne serait d’aucun intérêt. Par exemple, si on · Fixer le risque d’erreur α ou degré de signification
a une précision de 10 %, IC95% serait [2,7 %-22,7 %], (souvent c’est 5 %)
c’est-à-dire la vraie prévalence de dépression dans cette · Déterminer la puissance désirée (au minimum
population de malades serait très probablement entre 80%, c’est-à-dire un risque β au maximum de
2,7 % et 22,7 %. Cette estimation peu précise ne permet 20%)
pas de se rapprocher de la réalité et n’apporte aucune · La différence minimale intéressante à mettre en
information. évidence qui doit être basée sur la signification
Dans les études analytiques, on vise plutôt une bonne clinique. Des données préliminaires, la revue de
puissance statistique (1-β). La puissance est la capacité la littérature ou l’expérience de l’investigateur
de détecter une différence lorsqu’elle existe réellement. peuvent orienter la détermination de cette
Autrement dit, un manque de puissance (β) serait différence attendue.
responsable d’un résultat non significatif alors que dans la · La variabilité en cas de variable quantitative
réalité, la différence existe. La puissance est très liée à la (variance)
taille de l’échantillon, plus l’échantillon est grand, meilleure · Le risque de base ou la proportion dans l’un des
est la puissance. Le minimum de puissance accepté pour groupes en cas de critère de jugement qualitatif
un travail de recherche est 80 %. binaire

3
�����
études analytiques
e la taille de l’échantillon nécessite de : Pour utiliser le logiciel R, on peut installer puis charger le package «samplingbook». L
commande
er le risque d’erreur α ou degré de signification Pour
(souvent c’est utiliser
utilisée le logiciel
5 %)est visible R, on peut
sur l’encadré installer etpuis
ci-dessous donnecharger
le mêmele package «sampling
résultat 483 sujets
erminer la puissance désirée (au minimum 80 %, commandelautilisée
Sur la commande,
c’est-à-dire un risque β est visible
précisionau sur l’encadré
apparait en premier,ci-dessous et donne le même
« p » correspond résultat
à la proportio
ximum de 20 %)Z.Serhier&al.-Commentcalculerlataille
attendue, Sur »lataille
« N d’un commande, launeprécision
de la population
échantillon pour étudesourceapparait
qui esten
observationnelle ? premier,
souvent « p le
infinie, » correspond à la
cas de populatio
différence minimale intéressante à mettre en évidence qui doit être basée sur la
finie sera attendue,
discuté «
plus N
bas,
nification clinique. Des données préliminaires, la revue de la littérature ou » taille
« levelde» la population
correspond ausource
degré qui
de est souvent
confiance infinie,
(1-α). le cas de
finie sera
périence de l’investigateur peuvent orienter la détermination de discuté plus bas, « level » correspond au degré de confiance (1-α).
cette différence
ndue.
b. Méthodes
variabilité en cas de variable de calcul
quantitative > sample.size.prop(0.03, P = 0.13, required
(variance) N = Inf, in accordance
level = 0.95) with the pursued study objective.
risque de base ou la proportion dans l’un des groupes
sample.size.prop en object:
cas de Sample In P
critère desize
> sample.size.prop(0.03, this
= context,
for N it=isInf,
proportion
0.13, more efficient
estimate
level in terms of both cost and
= 0.95)
ement qualitatif binaire
Estimation d’une prévalence Without finite population correction:
sample.size.prop N=Inf,
object:time
Sample precision
to use size for e=0.03
samples proportionandestimate
than to work expected
with proportion
the entire P=0.13
population.
Sample
Soit n la taille de l’échantillon, size
p la needed:
Without
prévalence 483populationThe
finite
attendue, correction: N=Inf,
present article precision
describes thee=0.03
way to and expected
establish proportion P=0
sample
thodes de calcul Sample size needed: 483
i le degré de précision et zα/2 la valeur critique sur la loi size in the kinds of studies most frequently found in health
n d’une prévalence
normale centrée réduite pour un risque d’erreur α (pour research, and how to calculate it using the epicalc package
aille de l’échantillon,
α=5 %, p zla prévalence
=1,96). La attendue,
formule 1 ipermet
le degré
le de précision
calcul de la et zα/2 la included in the shareware R program. A description is
taille
α/2
que sur la loi normale centrée réduite pour un risque d’erreur α (pour α=5 %, zα/2
delel’échantillon [4] de Estimation provided of the formulae used to calculate sample sizes
formule 1 permet calcul de la taille l’échantillon [4] d’une moyenne
for the estimation of a mean and percentage (referring
La formuleEstimation
suivante 2, d’unepermetmoyenne
le calcul de la taille de l’échantillon « n » pour l’estimatio
Formule 1 :
d’une�moyenne

La� formule
� � �� �� en cas suivante
de critère2,to permet
both finiteleand
de jugement infinitede
calcul populations.
la taille
quantitatif La valeur
[4]. de zα/2 est la « n » pour
Lal’échantillon
valeur zα/2 est la valeu
Formule 1 : valeur critique sur la loi normale centrée réduite
[4].pour un
�d’une
la loi moyenne en casréduite
de critère
pourde un jugement quantitatif Lavariance
valeur zetα/2«es
� �
critique
= sur normale centrée risque d’erreur α, est la i
critique risque d’erreur α, est la variance et « i » est
sur la loi normale centrée réduite pour un risque d’erreur α, � est la varia la précision
est la précision désirée.
est la précision désirée.désirée.
le, pour estimer la prévalence de la dépression chez des patients atteints de
Par exemple,
nie, on sait à travers pour de
les données estimer la prévalence
la littérature del’expérience
ou selon la dépressionen tant Formule 2: � �
liste qu’elle peutchez
être des
d’environ 13 %.
patients Donc pour
atteints une prévalence on
de schizophrénie, sait àde 13 Formule
attendue 2Formule
: 2: ×
� �
e d’erreur alpha de 5 % et pour obtenir une précision de 3 %, le nombre de sujets �= � ×
travers
dans l’étude serait selon,les données6-1,
la formule de483la littérature
sujets. ou selon l’expérience � �
en tant que spécialiste qu’elle peut être d’environ 13 %. �
�=
Donc pour une prévalence attendue de 13 %, un risque Par exemple, pour estimer la moyenne du score de
d’erreur alpha de 5 % etPar
pour exemple, pour estimer
obtenir une précision de 3 %, la moyenne
dépression duchezscore de dépression
une population de sujets chez une
âgés, la population d
taille
le nombre de sujets sujets dans
5 à recruter Par
âgés, laexemple,
l’étudetaille pour
serait selon, la estimer
de l’échantillon la moyenne
nécessaire
de l’échantillon pourduune
nécessaire score
pour de précision
précision
une dépression
désirée de
désiréechez une po
2 points, u
formule 6-1, 483 sujets.risque alphasujets
de 5âgés,
% et unla taille dedel’échantillon
écart-type 2 de nécessaire
5,4,unserait
points, risquede depour
28 sujets.
alpha une
La
5 % et précision
untaille désirée
seraitdeplus
écart-type de 2s
grande
risque
la variabilité alpha
est plus de 5 % et 5,4,
marquée. un écart-type
serait de 28 de 5,4,Laserait
sujets. de 28plus
taille serait sujets. Lasitaille
grande la serait plu

���� × ���� × �� � �����la variabilité est plus marquée.
variabilité est plus marquée.
�= = ����� ����� × ����
����� �= = ���
��� ���� × ����
= = ��
er le logicielPour
R, utiliser
on peut installer
le logiciel R, onpuis
peutcharger le package
installer puis charger «samplingbook». La ��
utilisée est le
visible l’encadréSur
sur «samplingbook».
package
le La
logiciel
ci-dessous etR,donne
commande
enutilisée
utilisant
le même
est
la même
résultatbibliothèque
483 sujets. «samplingbook», on a calculé la taille d
mmande, lavisibleprécision apparait l’échantillon Sur
en premier, enle logiciel
utilisant R, en utilisant la même bibliothèque «samplingbook»,
correspond à la sample.size.mean(e,
la commande : S, N = Inf, level = on0.95),
a calculé

sur l’encadré ci-dessous et donne le«même
p » résultat proportion
« N » taille de correspond l’échantillon
qui està souvent
la précision en utilisant
désirée, la commande
Sur« leS» : sample.size.mean(e,
l’écart-type, « N » taille de la population source= e
S, N = Inf, level
483lasujets.
population source infinie, le cas de population
logiciel R, en utilisant la même bibliothèque
iscuté plus bas, « level « levelau
» correspond correspond
» degré
degré de à la précision
de confiance.
confiance désirée,
Le résultat obtenu «Sest» 29
l’écart-type,
sujets. « N » taille de la population
Sur la commande, la précision premier, (1-α).«samplingbook», on a calculé la taille de l’échantillon en
«apparait
level »endegré de confiance. Le résultat obtenu est 29 sujets.
«  p » correspond à la proportion attendue, «  N » taille utilisant la commande : sample.size.mean(e, S, N = Inf,
> sample.size.mean(2, 5.4, N = Inf,
levellevel = 0.95)
= 0.95), où e correspond à la précision désirée, « S »
size.prop(0.03,dePla= population
0.13, N = source qui=est
Inf, level souvent infinie, le cas de
0.95)
sample.size.mean
> object: Sample
sample.size.mean(2, size for mean estimate
e.prop object:population finie sera
Sample size discuté plusestimate
for proportion bas, « level » correspond l’écart-type, « N »level
5.4, N = Inf, taille=de
0.95)
la population source et « level »
Without finite population correction:
sample.size.mean object:
degré
N=Inf,
Sample
de
precision
size
confiance. for
Le
e=2
meanandestimate
résultat
standard deviation S=5.4
obtenu est 29 sujets.
au degré de confiance (1-α).
ite population correction: N=Inf, precision e=0.03 and expected proportion P=0.13
Sample sizeWithout
needed: 29 population correction: N=Inf, precision e=2 and standard deviation S=5.4
finite
ze needed: 483 Sample size needed: 29
> sample.size.prop(0.03, P = 0.13, N = Inf, level = 0.95) > sample.size.mean(2, 5.4, N = Inf, level = 0.95)
sample.size.prop object: Sample size for proportion estimate sample.size.mean object: Sample size for mean estimate
Without finite populationCas de population
correction: N=Inf, precisionfinie
e=0.03
and expected proportion P=0.13 Cas de population finie
Without finite population correction: N=Inf, precision e=2
and standard deviation S=5.4
n d’une Sample size needed: 483Dans les études descriptives, il
moyenne faut distinguer les populations finies des populations infinie
suivante 2, permet le calcul [5]. de la Il est Dans
difficile
taille les études
de définir une
de l’échantillon descriptives,
Sample size
« n »population il faut distinguer
needed: 29
finie mais toute
pour l’estimation lespopulation
populations finies desunpopulati
contenant nombr
enne en casEstimation
de critère de jugement [5]. Il
quantitatif est difficile
[4]. La
limité de sujets peut être considérée
d’une moyenne de
valeurdéfinir
z une
est population
la valeur finie mais toute population
α/2 comme finie, surtout si la taille de l’échantillon peu contenant

la loi normale
La centrée réduite2,pour
formule suivante un le
permet
dépasser risque %d’erreur
limité
calcul
10 de la
de
de α, de
lasujets
taille
taille de est
peut la variance
la être considérée
population. et « icomme
Dans »ce cas, finie, surtout
le calcul de lasitaille
la taille de l’écha
de l’échantillo
sion désirée.l’échantillon « n » pour l’estimation d’une Cas de population finie
dépasser
moyenne 10 en%casde la taille de la population. Dans ce cas, le calcul de la taille de l
de critère de jugement quantitatif [4]definition is required Dans les études descriptives, il faut distinguer les
Formule
of the sample 2 : in order to carry
size needed populations finies des populations infinies [5]. Il est difficile
� out� the study. 6
× de définir une population finie mais toute population
This sample size is an estimate of the number
� of patients 6
�= � contenant un nombre limité de sujets peut être considérée

le, pour estimer la moyenne du score de dépression chez une population de


s, la taille de l’échantillon nécessaire pour une précision désirée de 2 points, un
TUNISEMDCAL-202ol98(n°01;V )

stimations nécessite l’application du Facteur de Correction de Population


comme finie, surtout si la taille de l’échantillon peut Comparaison de deux proportions
celui des estimations nécessite l’application du Facteur de Correction de Population
dépasser 10 % de la taille de la population. Dans ce Dans les études comparatives (cas-témoins ou cohortes),
imations
CPF). nécessite l’application du Facteur de Correction de Population
cas, le calcul de la taille de l’échantillon comme celui le calcul de la taille de l’échantillon peut se baser sur la
ction est défini par la formule 3 où N est la taille de la population
des estimations nécessite l’application du Facteur de
et n est
prévalence d’exposition attendue chez les cas et chez
eur de correction
lon [6]. est défini par la formule 3 où N est la taille de la population et n est
Correction de Population Finie (FCPF). les témoins ou les incidences de la maladie chez les non
ion est défini
de l’échantillon par la
[6]. formule 3 où N est la taille de la population et n est
Le facteur de correction est défini par la formule 3 où N est exposés et chez les exposés. Donc ça revient à comparer
on [6]. Formule 3 :
la taille de la population et n est la taille de l’échantillon [6]. deux proportions, celle de la population générale (les
Formule 3 : −
=√ Comparaison de deux proportions
témoins ou les non exposés) et celle attendue chez les
Formule 3 : − � −Dans les études comparatives
Formule 3 : =√ cas ou les (cas-témoins
exposés. ou cohortes), le calcul de la taille de l’échantillon
− − �
peut se baser sur la prévalence d’exposition attendue chez les cas et chez les témoins ou
=√ La formule 5 permet de calculer le nombre de sujets à
les incidences de la maladie chez les non exposés et chez les exposés. Donc ça revient à
−� inclure n dans chaque groupe dans le cas d’une étude
comparer deux proportions, celle de la population générale (les témoins ou les non exposés)
analytique
et celle attendue chez les cas oudont le critère de jugement est qualitatif binaire
les exposés.
Le nombre de sujetsest à inclure La formule 5 permet de calculer le
(exemple malade/non nombre de malade
sujets à inclure n dans chaqueexposé).
ou exposé/non groupe dans le
s à inclure après correction donnéaprès par correction
la formule estComparaison
4,donné
n’ correspond de deux
cas d’une étude analytique
à dont
la
proportions
le critère de jugement est qualitatif binaire (exemple
bre corrigée,
on de sujets à lainclure
parN est la après
formule 4,
taille correction
n’ correspond à est donné
la taille
de la population parmalade/non
de finie, lan formule
l’échantillon
Dans les la 4,
estétudes
malade n’ correspond
comparatives
taille à laou cohortes), le calcul de la taille de l’échantillon
(cas-témoins
de exposé).
ou exposé/non
eeà àinclure après
l’échantillon correction
corrigée, N est laN
corrigée, est
tailledonné
estde la par
taille la
la populationdeformule
finie,
la 4, lan’taille
npopulation
est peut correspond
se baser Formule
sur
finie, la
n à la 5la: taille
prévalence
est d’exposition
de attendue chez les cas et chez les témoins ou
partir des formules standards citées dans les paragraphes antérieurs.
ntillon
corrigée,
calculéeNàest
de la des
partir taille
l’échantillon de la standards
calculée
formules à populationcitées
partir des Formule
les
finie,dans
formules n est
standards 5 :
incidences taille de antérieurs.exposés et chez les exposés. Donc ça revient à
de la
leslaparagraphes maladie chez les non
citées dans les paragraphes antérieurs.
à partir des formules standards citées dans les paragraphes antérieurs. comparer deux proportions, celle de la population générale (les témoins ou les non exposés)
� � × √� × × �� − � + ����� × √ � × �� − � � + � × �� − � ���
et celle attendue chez
�� � les cas ou les exposés.
Formule 4 :
Formule 4 : La formule 5 permet de calculer le nombre de� sujets � − � � à inclure n dans chaque groupe dans le

× cas d’une étude analytique dont le critère de jugement est qualitatif binaire (exemple
Formule
′ 4:
=
+ × malade/non malade ou exposé/non exposé).
Formule 4 : ′
= Zα/2 est la valeur critique de la loi normale centrée réduite

× + Zα/2 est la valeur critique de la loi normale centrée réduite pour un risque d’erreur α et un test
= pour un risque d’erreur α et un test bilatéral. Z(1-β) est la
+ FormuleZ(15-β): est la valeur critique de la loi normale centrée réduite pour une puissance
bilatéral. (1-
Dans l’exemple de l’estimation de la prévalence de la valeur critique de la loi normale centrée réduite pour une
β). p1 et p2 sont les proportions attendues dans les deux groupes à comparer et p est la
dépression chez le sujet âgé, la taille de l’échantillon puissance (1-β).
× √�
� � p=( p1 ×et��p−2 sont les proportions
� +puissance ��Z−(1-attendues
� + � × à�� − � ���
moyenne des deux proportions p1+×p2)/2. Pour une ����� × √ de �80×%, β)�est égale
l’estimation nécessaire
de la prévalence de la dépression
était de 483 sujets. Si on suppose 0,84 chez le sujet
queet pour âgé,
la une puissancedans� lesla taille
� dedeux
� groupes à comparer et p est la moyenne
90 % cette valeur critique est de 1,28. �
exemple de population
essaire était l’estimation
de 483 est de
finielaSi
sujets. etprévalence
on suppose
composée dede800la individus
que dépression
la population (par chez est
des lefiniesujetproportions
deux etâgé, la taille p=( p1+ p2)/2. � �Pour
− � �une puissance de
estimation
hantillon de
individusnécessaire
(par la prévalence
exemple
exemple siétait side de
on483
on s’intéresse la dépression
sujets.
milieu Si
s’intéresse
au auon chez
suppose
milieu
carcéral), le sujet
Lorsque
carcéral),
l’application que âgé,
le recrutement la
lal’application
population
80 %,des taille -β) estest
Z(1sujets l’unfinie
deégale et etestpour
desà groupes
0,84 difficile,
unenotamment
puissance les malades
de 90
ssaire
sée de était
800 de 483
individus
du facteur sujets.
(par
de Si
exemple
correction on suppose
nous si on
donne
ction nous donne une nouvelle taille d’échantillon de 302 sujets. que la
s’intéresse
une population
nouvelle ouau les exposés,
milieu
taille est on finie
peut
carcéral),
% cette et
garantir
valeur la même
l’application
critique puissance
est de en augmentant
1,28. l’effectif du deuxième
dividus
eur (pard’échantillon
de correctionexemplenous si de on
donne302s’intéresse
une nouvelle
sujets. au taille
milieu groupe
d’échantillonZα/2 est(témoin
carcéral), deouLorsque
non
l’application
la valeur 302 exposé).
critique sujets. Dansloi ce
derecrutement
le la cas, le des
normale rapport
centrée entre
réduite
sujets les groupes
de pourdes
l’un unestrisque
déséquilibré
groupes d’erreur
est et α et un test
ion nous donne une ��� ∗ ���taille d’échantillon de 302
nouvelle le calcul
sujets. doit prendre
difficile,en considération
notamment ce rapport r. La formule 6 nous permet d’obtenir
peutla
bilatéral. Z(1-β) est la valeur critique deles malades
la loi normaleou les exposés,
centrée réduite pour on une puissance (1-
�′ = =������,��∗ ��� taille de l’échantillon pour
garantir des tailles de
la mêmeattenduesgroupes
puissancedéséquilibrées, par
enlesaugmentant exemple r=2 lorsque
l’effectif dule et p est la
��� + ��� ′ β). p et p sont les proportions dans deux groupes à comparer
��� ∗ ���� = ��� + ��� = ���,�� nombre de témoins
1 2 est le double du nombre de cas, p1 est la prévalence d’exposition chez
moyenne deuxième groupe p=( (témoin ou non exposé). Dans de 80ce cas,- est égale à
�′ = = ���,�� les cas et p2des est ladeux proportions
prévalence d’exposition p1chez
+ p2)/2. Pour
les témoins une
(ou puissance
bien les incidences %,
chezZ(1les
β)
ciels statistiques intègrent
��� + ��� le facteur de correction FCPF dans le calcul de
le rapport entre les groupes est déséquilibré et le calcul
0,84 et pour
exposés et nonune puissance
exposés de 90 % cette valeur critique est de 1,28.
respectivement).
orité
illon des logiciels
en cas Lade statistiques
population
majorité intègrent
finie.
des logiciels Sur le le logiciel
statistiques facteur
intègrentdeR, correction
il suffit
le facteur de de FCPF remplacer,
doit prendre dans le encalcul de
considération ce rapport r. La formule
iels
de statistiques
l’échantillon intègrent
en cas le
de facteur
population de correction
finie. Sur FCPFle logicieldans le
R, calcul
6il suffit
nous de de remplacer,
, la taille de la population
correction FCPFinfinie
dans lepar la de
calcul taille exacte
la taille deLorsque
de l’échantillon la population
Formule 6 :
le recrutement finie. des sujets de l’un des groupes de
permet d’obtenir la taille est l’échantillon
difficile, notamment
� � × √�� + �� × × �� − � + ����� × √ � × �� − � � + � � × �� − � ���
pour les malades
on en cas de
commande,enla cas population
taille
dede finie.
la population
population Sur
finie. Surle logiciel
infinie R,
par la
le logiciel il
R, taille suffit
ou exacte
il suffit de
lesdeexposés, remplacer,
de�on
des la population
tailles garantir la finie.
de groupes déséquilibrées, par exemple r=2du deuxième
� peut�
même puissance �
en augmentant l’effectif
a taille de
op(0.03, P =la0.13,
population
remplacer, dans
N = 800, infinie =par
la commande,
level la taille
0.95) exacte
la taille de lade lagroupe
population population(témoinlorsque oufinie.
� − �
le nombre de témoins est le double du nombre
non exposé).
� �
Dans ce cas, le rapport entre les groupes est déséquilibré et
infinie
pample.size.prop(0.03,
object: Sample size forpar la taille exacte
P =proportion de
0.13, N = estimate la population
800, level = 0.95) finie. de cas, p est la prévalence d’exposition chez les cas et
le calcul doit prendre en 1considération ce rapport r. La formule 6 nous permet d’obtenir la
ation correction:
mple.size.prop
p(0.03, P = 0.13, N=800,
object: precision
Sample
N = 800, levelsize e=0.03 and expected
for proportion
= 0.95) estimate proportion P=0.13 p2 est la prévalence d’exposition chez les témoins (ou
taillele de
Sur
l’échantillon
logiciel R, la commande
pour desà utiliser
tailles de groupes déséquilibrées, par exemple r=2 lorsque le
ded:
object: 302
h finite Sample
populationsizecorrection:
for proportion
> sample.size.prop(0.03,N=800, precision
estimate
P = 0.13, Ne=0.03 and =expected
= 800, level 0.95) proportion
bien P=0.13 estchez
les incidences power.prop.test(p1
les exposés = , p2et =non , power = 0.80,
exposés
mple size needed:
on correction: 302 precisionobject:
N=800, e=0.03Sample and expected nombre de témoins
sig.level = 0.05). respectivement). est le double du nombre de cas, p est la prévalence d’exposition chez
size forproportion
proportionP=0.13
1
sample.size.prop
ed: 302 les cas et p2 est la prévalence d’exposition chez les témoins (ou bien les incidences chez les
estimate Exemple : Pour étudier l’association entre l’activité physique et la dépression, si on veut
exposés et non exposés
réaliser une étudeFormule
respectivement).
cas témoins,6quel : est le nombre d’individus à inclure dans chacun des
With finite population correction: N=800, precision
e=0.03 and expected proportion P=0.13 groupes ?
IlFormule
faut chercher 6 : la prévalence de l’activité physique en population générale (qui est celle des
Sample size needed: 302 � � × √�� + �� × × �� − � + ����� × √ � × �� − � � + � � × �� − � ���
témoins), supposons qu’elle est d’environ 60 %. On devrait déterminer la différence minimale
�� �
qu’on aimerait détecter. Autrement dit, quel est le pourcentage � � − � �� de pratique d’activité
physique maximum qu’on doit observer chez les déprimés pour les qualifier d’être moins
actifs. En effet, si notre hypothèse est que l’activité physique a un effet protecteur, on
s’attend à une plus faible fréquence d’actifs chez les patients déprimés. Si on s’intéresse 5à
une différence de 10 % (une fréquence de 50 % chez les cas), pour assurer une puissance
Sur80le%,logiciel
de il faudraitR,recruter
la commande
n1=387 sujets à utiliser est Sipower.prop.test(p1
par groupe. on pense que la différence = , p2peut= ,êtrepower = 0.80,
sig.level = 0.05).
une puissance de 80 % et un risque alpha de 5 % est le même que c
formule 3.

> power.prop.test(p1 = 0.6, p2 = 0.5, power = 0.80, sig.level = 0.05)


Z.Serhier&al.-Commentcalculerlatailled’unéchantillonpouruneTwo-sample comparison of proportions
étudeobservationnelle ? power calculation
n = 387.3385
p1 = 0.6
p2 = 0.5
Sur le logiciel R, la commande à utiliser est power.prop. sig.level
power = 0.05
twoproportions 0.6 0.5, test(chi2)
test(p1 = , p2 = , power = 0.80, sig.level = 0.05). power =sample
Estimated 0.8 sizes for a two-sample proportions test
Pearson’s chi-squared
alternative = two.sidedtest
Ho:NOTE:
p2 = p1n isversus
numberHa: p2 != p1
in *each* group
Exemple : Pour étudier l’association entre l’activité Study parameters:
physique et la dépression, si on veut réaliser une étude alpha = 0.0500
Enpower
utilisant le logiciel Stata 13.0, on obtient le même résultat environ 388 s
= 0.8000
cas témoins, quel est le nombre d’individus à inclure dans
delta = -0.1000 (difference)
chacun des groupes ? p1 = 0.6000
Il faut chercher la prévalence de l’activité physique en p2 = 0.5000
power twoproportions 0.6 0.5, test(chi2)
population générale (qui est celle des témoins), supposons Estimated sample sizes:
N=
Estimated
776
sample sizes for a two-sample proportions test
qu’elle est d’environ 60 %. On devrait déterminer la Pearson's chi-squared test
différence minimale qu’on aimerait détecter. Autrement N per group = 388
Ho: p2 = p1 versus Ha: p2 != p1
dit, quel est le pourcentage de pratique d’activité physique Study parameters:
Comparaison de deux moyennes
maximum qu’on doit observer chez les déprimés pour les alpha = 0.0500
qualifier d’être moins actifs. En effet, si notre hypothèse Lorsque le critèrepower =de0.8000jugement est quantitatif, on est
est que l’activité physique a un effet protecteur, on s’attend amené à comparer delta = deux
-0.1000 (difference)La formule pour le
moyennes.
à une plus faible fréquence d’actifs chez les patients calcul du nombre p1 = de 0.6000
sujets à inclure pour chaque groupe
p2 = 0.5000
déprimés. Si on s’intéresse à une différence de 10 % est 7 où m1 et m2 sont les moyennes attendues dans les
Estimated sample sizes:
(une fréquence de 50 % chez les cas), pour assurer une deux groupesN à= comparer 776 ainsi (m1-m2) est la différence
puissance de 80 %, il faudrait recruter n1=387 sujets par minimale intéressante
N per group =à détecter.
388 S² est la variance
groupe. Si on pense que la différence peut être plus grande commune supposée être la même dans les deux groupes.
20 % par exemple, on peut recruter moins de sujets n2=97, Elle peut être de calculée
Comparaison deuxàmoyennes
partir des variances observées
s grande 20 %mais on prend on
par exemple, le risque de ne pas
peut recruter pouvoir
moins détecter
de sujets de plus
n2=97, mais on prend
dans unele étudede antérieure
faiblesdétecter
différences (< 20%). Lorsque le critère jugementdans chaque groupe
est quantitatif, par la à comparer d
on est amené
que de ne pas pouvoir de plus faibles différences (< 20%). formulepour8 oùles1calcul
² et s2²dusont les variances desà deux groupes
formule nombre de sujets inclure pour chaque groupe
sont
et n les
et moyennes
n sont les attendues
tailles des dans les
échantillons deux groupes
observés lors deà comparer ai
����� × �� × ���� × ���� + ���� × ���� × ��� + ��� × ����� 1
différence
2
minimale intéressante à détecter. S² est la variance commune
�� = = ����� la dite étude.
���� � ����� même dans les deux groupes. Elle peut être calculée à partir des varianc
une étude antérieure dans chaque groupe par la formule 8 où s1² et s2²
����� × �� × ���� × ���� + ���� × √��� × ��� + ��� × ����� des deux groupes et n1 et n2 sont les tailles des échantillons observés lors
�� = = ���� Formule 7 :
���� � �����
Formule 7 :
� × �� × � � + ����� �

résultat obtenu sur R pour une fréquence de 60 % chez les témoins et 50 % chez les cas, �
�=
e puissance deLe 80résultat
% et unobtenu
risquesur R pour
alpha de une
5 %fréquence de 60
est le même que%celui
chezobtenu par la ��� � �� ��
mule 3. les témoins et 50 % chez les cas, une puissance de 80 %
et un risque alpha de 5 % est le même que celui obtenu Formule 8 :
par la=formule
> power.prop.test(p1 0.6, p2 =3.
0.5, power = 0.80, sig.level = 0.05)
Formule Formule
8: 8: �
Two-sample comparison of proportions power calculation ��� � ���� � �� � �� �� �� � � � 9 �
n = 387.3385 > power.prop.test(p1 = 0.6, p2 = 0.5, power = 0.80, sig.level �� = � � � �� � ��� � ��� �� �� � ��
� = � �� ��
p1 = 0.6 = 0.05) � � �� � �� � �
p2 = 0.5
Two-sample comparison of proportions power calculation
sig.level = 0.05 Si on prend l’exemple de l’effet de l’immersion en eau froide
power = 0.8 n = 387.3385
alternative = two.sided
p1 = 0.6 sur la récupération physique des jeunes footballeurs, pour
NOTE: n is numberp2 =in0.5
*each* group Si on prend Si onl’exemple détecter
prend l’exemple une de
de l’effet différence
del’effet de
de0,9l’immersion
l’immersion min entre
en eaules en
moyennes
froide de la sur
sur
eau froide récupér
la ré
sig.level = 0.05 des jeunes temps de
footballeurs,course avec
pour un écart-type
des jeunes footballeurs, pour détecter une différence de 0,9 min entre ent
détecter une de 0,9 et
différencepour une
de 0,9 min les
utilisant le logiciel Stata 13.0, on obtient le même résultat environ 388 sujets par groupe.
puissance de un
90 % etde
un risque alpha
power = 0.8 temps detemps course deavec
course un avec
écart-type écart-type0,9 etde 0,9deet5une
pour %, lapuissance
pour taille
unedepuissance
de 90de %
alternative = two.sided alpha de 5 alpha 5 %,chaque
%, ladetaille de groupe
la chaque
taille doit être 21
de groupe
chaque sujets.
groupe
doit êtredoit
21être 21 sujets.
sujets.
NOTE: n is number in *each* group
power twoproportions 0.6 0.5, test(chi2)
�� � ���� � ����� � �
Estimated sample sizes for a two-sample proportions test � � ����= � ����� � ������ ����� = ��
En utilisant
Pearson's chi-squared test le logiciel Stata 13.0, on obtient le même �= � = ��
Ho: p2 = p1 résultat
versus Ha: p2 != p1
environ 388 sujets par groupe.
���� ���
Study parameters:
alpha = 0.0500 Sur le Rlogiciel
Sur le logiciel R il faudrait
il faudrait installer installer
et chargeret charger le package
le package « samples
« samplesize »,
power = 0.8000 apparait sur l’encadré suivant, power correspond à la puissance, alpha e
delta6 = -0.1000 (difference)
apparait sur l’encadré suivant, power correspond à la puissance, alpha est le
mean.diff est la différence minimale à mettre en évidence, sd1 et sd2
p1 = 0.6000 mean.diff est la différence minimale à mettre en évidence, sd1 et sd2 sont
présumés des deux groupes, k est le rapport entre les deux groupes e
p2 = 0.5000 présumésmême des deux
taillegroupes, k est précise
k=1, design le rapport entre lesde
l’existence deux groupes en dans
l’appariement, cas
Estimated sample sizes:
TUNISEMDCAL-202ol98(n°01;V )

Sur le logiciel R il faudrait installer et charger le package


« samplesize », la commande apparait sur l’encadré
L’essentiel à retenir
suivant, power correspond à la puissance, alpha est
• Le calcul de la taille de l’échantillon est
le risque d’erreur, mean.diff est la différence minimale indispensable avant tout travail de recherche.
à mettre en évidence, sd1 et sd2 sont les écart-types • Il dépend globalement du schéma d’étude;
présumés des deux groupes, k est le rapport entre les descriptif ou analytique et du paramètre à estimer
deux groupes en cas de groupes de même taille k=1, ou à comparer.
design précise l’existence de l’appariement, dans notre • La détermination nécessite la connaissance
exemple les données sont indépendantes. de certains paramètres qui peuvent être issus
d’une revue de la littérature ou de l’expertise du
> n.ttest(power = 0.9, alpha = 0.05, mean.diff =0.9, sd1 = 0.9, chercheur.
sd2 = 0.9,k = 1, design = «unpaired», variance = «equal») • Actuellement les logiciels statistiques facilitent
$`Total sample size`
[1] 46 la détermination de la taille de l’échantillon.
$`Sample size group 1` • La taille calculée doit correspondre au nombre
[1] 23 recruté réellement. Ainsi en cas de risque de non
$`Sample size group 2`
[1] 23
réponse ou de perte de vue une augmentation
de la taille doit être prévue en divisant la taille
Sur le logiciel Stata 13.0 on obtient le même résultat. calculée par (1-d) où d est la proportion attendue
de non réponse.
power twomeans 18 18.9, sd(0.9) power(0.9)
Estimated sample sizes for a two-sample means test
t test assuming sd1 = sd2 = sd
Ho: m2 = m1 versus Ha: m2 != m1
Study parameters: Réponses aux questions de quizz
alpha = 0.0500 1.b
power = 0.9000
2.a
delta = 3.3912
m1 = 18.0000 3.b
m2 = 18.9000
sd = 0.9000
RÉFÉRENCES
Estimated sample sizes:
1. Boujezza H, Sghaier A, Ben Rejeb M, Gargouri I, Latiri I,
N= 46
N per group = 23 Ben Saad H. Effets de l’immersion en eau froide sur la
récupération physique des jeunes footballeurs. Tunis
Médicale. 2018;96(2):107‑12.
CONCLUSION 2. Lwanga SK, Lemeshow S, Organization WH.
Détermination de la taille d’un échantillon dans les
Le calcul de la taille de l’échantillon est une étape études sanométriques  : manuel pratique [Internet].
nécessaire à la réalisation de toute étude épidémiologique. Genève : Organisation mondiale de la Santé; 1991 [cité
27 oct 2019]. Disponible sur: https://apps.who.int/iris/
La présente fiche explique les méthodes de calcul pour
handle/10665/36881
les cas les plus fréquents. Les formules est commandes 3. Halpern SD, Karlawish JHT, Berlin JA. The continuing
présentées sont valables pour un échantillonnage unethical conduct of underpowered clinical trials. JAMA.
aléatoire simple et pour des données indépendantes. Un 2002;288(3):358‑62.
échantillonnage en grappe nécessite la prise en compte 4. Rodríguez Del Águila M, González-Ramírez A. Sample
de l’effet de grappe ou de la corrélation intra-grappe, et size calculation. Allergol Immunopathol (Madr). oct
2014;42(5):485‑92.
il existe des formules spécifiques en cas d’appariement.
5. Kozak M. Finite and Infinite Populations in Biological
Statistics: Should We Distinguish Them? J Am Sci.
4(1):59‑62.
6. Kasiulevičius V, Šapoka V, Filipavičiūtė R. Sample size
calculation in epidemiological studies. Gerontologija.
2006;7(4):225‑31.

Vous aimerez peut-être aussi