22-Statistiques-_A2024

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 98

Automne

2024
Notes de cours
Statistiques (partie 2)

Pour le cours de Raymond Cloutier.


Écrit par Raymond Cloutier, Isabelle
Lamontagne, Samuel Langevin et Nadine St-
Pierre.
Adapté par Julie Milot
Collège de Maisonneuve
Automne2024
CHAPITRE 4 : Statistiques descriptives (RETOUR)
_________________________________________________________
4.1 Données brutes
On appelle «données brutes» ou « série statistique » l’ensemble des données recueillies et non traitées lors d’un
sondage.

Ces données nous donnent une information sur chaque individu de l’échantillon. Pour faire ressortir les
principales caractéristiques de ces données, il faut les traiter et les analyser.

4.2 Traitement d’une variable


Le traitement des données consiste, dans un premier temps, à regrouper et représenter les données sous forme
de tableau ou de graphique. Voici les règles de base à suivre pour faire ces premières étapes de traitement dans
les règles de l’art.

Un tableau de distribution de fréquences nous permet d’avoir un résumé des données brutes, de constater la
répartition des individus selon les différentes modalités.

Ex. 1 : En 2010, l’association étudiante du Collège de Maisonneuve a fait une étude auprès des étudiants
afin de connaître certaines caractéristiques de la clientèle étudiante. Pour ce faire, on a choisi aléatoirement
80 des 5600 étudiants du collège et à la question «Quel moyen de transport utilisez-vous pour vous rendre
au collège?» on a obtenu les résultats suivants :
Vélo Métro Autobus Auto Métro Aucun Autobus Autobus
Métro Autobus Métro Autobus Métro Métro Métro auto
Métro Métro Autobus Métro Autobus Métro Métro Autobus
Aucun Autobus Auto Autobus Auto Autobus Auto Métro
Autobus Aucun Aucun Autobus Vélo Vélo Autobus Auto
Aucun Métro Aucun Métro Auto Vélo Métro Métro
Métro Autobus Métro Métro Métro Aucun Autobus Métro
Auto Auto Métro Aucun Auto Vélo Métro Aucun
Métro Autobus Auto Aucun Auto Vélo Aucun vélo
Aucun Métro Auto Auto Métro Aucun Aucun Métro

2
Normes générales de présentation des tableaux
Puisqu’un tableau de distribution de fréquences est un condensé des données brutes, il faut s’assurer qu’il
contienne toute l’information nécessaire à l’étude de la variable. Donc, tout tableau de distribution doit
posséder les caractéristiques suivantes :

Un titre qui indique la population


ou l’échantillon concerné et la
variable étudiée.

Chaque colonne doit


avoir un titre
accompagné, s’il y a Distribution de 80 des 5600 étudiants du Collège de
lieu, de l’unité de Maisonneuve selon le moyen de transport utilisé
mesure retenue pour se rendre au collège en 2010.

Moyen de Nombre Pourcentage


transport d’étudiants d’étudiants

xi ni fi La dernière ligne
est réservée pour
Auto 15 18,75% le total de chacune
La source des
des colonnes
données doit Autobus 17 21,75%
apparaitre au
bas du tableau Aucun 14 17,50%

Métro 28 35,00%

Vélo 6 7,50%

Total 80 100,00%

Sources : Données fictives

Les autres colonnes sont


consacrées à la répartition
La première colonne est des données, effectifs et
réservée aux différentes pourcentages
modalités ou valeurs de la
variable

3
Normes générales de présentation des diagrammes

Diagramme en bandes verticales ou horizontales

Tout comme le tableau de distribution de fréquences, le diagramme est un condensé (une photo) des
données brutes, il faut s’assurer qu’il contienne toute l’information nécessaire à l’étude de la variable.

Ex. 1 : Construire le diagramme à bandes verticales représentant les données de l’exemple 1 de


la page précédente

On peut utiliser les


effectifs ou les
Un titre qui indique la population ou
pourcentages sur les axes
l’échantillon concerné et la variable
de fréquences. Ces axes
doivent être orientés étudiée.

Les rectangles
doivent être de
même largeur et
Distribution de 80 des 5600 étudiants du Collège de Maisonneuve la distance entre
selon le moyen de transport utilisé pour se rendre au collège, 2010. ceux-ci la
même.
35
30
Nombre d'étudiants

25
20
15
10
5
0
Vélo Métro Autobus Auto Aucun
Moyen de transport
Source : Données fictives
Les axes doivent
être dotés d’une
graduation
proportionnelle
La source des
données doit Les modalités doivent
apparaitre au être bien définies
bas du tableau ainsi que les axes et
les unités de mesures

4
Le diagramme en bandes peut aussi se faire selon des bandes horizontales et les mêmes
caractéristiques doivent être respectées.

Distribution de 80 des 5600 étudiants du Collège de Maisonneuve


selon le moyen de transport utilisé pour se rendre au collège, 2010.

Aucun
Moyen de transport

Auto

Autobus

Métro

Vélo

0% 10% 20% 30% 40%


Pourcentage d'étudiants
Source : Données fictives

Diagramme en bandes verticales ou horizontales

Ex. : Construire le diagramme circulaire représentant les données de l’exemple de la page 48.

Distribution de 80 des 5600 étudiants du Collège de Maisonneuve


selon le moyen de transport utilisé pour se rendre au collège, 2010.

7,50%

17,50% Vélo
L’angle de chacun
Métro
des secteurs =
fréquences 35,00% Autobus
18,75%
relatives X 3600 Auto
Aucun
21,25%

Source : Données fictives


Prévoir une légende
expliquant les
symboles ou les
couleurs utilisés

5
Mesures

Mesure de tendance centrale

Le mode
La seule mesure de tendance centrale significative dans le cas d’une variable qualitative est le mode. Le
mode (noté Mo) d’une variable qualitative est la modalité qui apparaît le plus souvent, c’est la modalité
qui a le plus grand effectif dans un tableau de distribution de fréquences.

Ex. : Déterminer et interpréter le mode dans l’exemple de la page 48.

Mo = Métro

Interprétation : En 2010, au Collège de Maisonneuve, le métro était le moyen de


transport emprunté par un plus grand nombre d’élèves.

6
4.3 Exercices
1. Un centre de nutrition a comme mission de changer les habitudes alimentaires des employés d’une
compagnie oeuvrant dans le textile. On a demandé à 60 employés choisis au hasard quel était le breuvage
qu’ils avaient l’habitude de consommer lors des repas.
a) Quelle est la variable étudiée ? De quel type est-
elle ?

b) Quelle est la population ? L’échantillon ?

c) Quelle(s) mesure(s) est-il approprié de donner ?


Trouvez-la (ou les) et interprétez.

d) Combien de ces 60 employés boivent


habituellement une tisane lors des repas ?
e)Quel est l’angle au centre (en degrés) du secteur
« Café » ?

Source : données fictives

2. Pour étudier la longueur du premier pas d’un bébé, nous avons sélectionné 80 mamans qui avaient mesuré
ce premier pas et nous avons classé la longueur de ces pas en trois catégories: C :court (moins de 27,5 cm),
M : moyen (entre 27,5 cm et 32,5 cm) et L :long (plus de 32,5 cm) :
a) Quelle est la variable étudiée ?
C C M C L M M C M M b) Quel est le type de la variable étudiée ?
L L C M L C M M M L c) Quelle est l’échelle de mesure de la variable ?
M M M C M L L M M L d) Construire le tableau de distribution de
M M L C C C M L L M fréquences.
M M C M L M M C M C e) Calculez la ou les mesure(s) de tendance
M M M C C M M C M M centrale pertinente(s) à ce type de variable et
L M M M M L M L M L interprétez dans le contexte.
Source : Données fictives f) Représentez graphiquement les résultats
obtenus.

3. On a donné à manger à 50 grenouilles d’une même espèce. Elles avaient le choix entre manger un moustique
(code 0), une mouche (code 1) ou une libellule (code 2). Voici les résultats obtenus:
a) Quelle est la variable étudiée ?
b) Quel est le type de cette variable ?
1 0 1 0 2 0 0 0 1 1 c) Quelle est l’échelle de mesure de la variable ?
0 0 1 0 2 0 1 2 0 0 d) Construire le tableau de distribution de fréquences.
0 0 1 0 0 0 0 1 0 0 e) Représentez graphiquement les résultats obtenus.
0 1 0 0 0 1 0 2 0 0 f) Quelles sont les autres représentations graphiques
0 0 2 1 2 1 0 2 1 1 possibles pour ce type de variable ?
Source : Données fictives g) Calculez la ou les mesure(s) de tendance centrale
pertinente(s) à ce type de variable et interprétez dans le
contexte.

Source : Données fictives

7
4.4 Réponses
1.
a) VAR : Le breuvage habituellement consommé lors des repas
TYPE : Qualitative nominale
b) POP : L’ensemble de tous les employés de la compagnie de textile.
ÉCH : Les 60 employés sélectionnés de la compagnie de textile.
c) Mo = « Eau ». Un plus grand nombre des 60 employés choisis de la compagnie de textile
consomment de l’eau lors des repas.
d) 3 employés e) 64,8 degrés

2.
a) La longueur du premier pas d’un bébé f) Un diagramme à bandes verticales, horizontales ou
b) Quantitative continue un diagramme circulaire serait approprié. En voici un
c) Échelle ordinale exemple
d) Distribution des 80 bébés selon g)
la longueur de leur premier pas
Longueur Distribution des 80 bébés selon la
des premiers Nb. De % de longueur de leur premier pas
pas bébés bébés
60
Court 17 21,25 %
Moyen 45 56,25 %
Nombre de bébés 40
Long 18 22,50 %
20
Total 80 100%
Source :données fictives 0
e) Mo = « Moyen ». Un plus grand nombre des Court Moyen Long
80 bébés choisis ont effectué un premier pas de Longueur des pas
longueur moyenne.
Source :données fictives

3. a) L’espèce d’insecte mangée par les grenouilles

b) Qualitative nominale
c) Échelle nominale
d) e)
Distribution des 50 grenouilles selon
Distribution de 50 grenouilles
l’insecte qu’elles ont mangé.
selon l'espèce d'insecte qu'elles
Insecte Nb.de % de
mangé grenouilles grenouilles ont mangé.
Libellule 7 14%
Mouche 15 30%
Moustique 28 56% 14%
Total : 50 100 % Libellule
Source :données fictives Mouche
56% 30%
Moustique

f) Diagramme à bandes horizontales et diagramme à bandes verticales.


g) Mo = « Moustique ». Un plus grand nombre des 50 grenouilles ont mangé un moustique.

8
CHAPITRE 6 : Statistiques descriptives (suite)
6.1 Traitement d’une variable quantitative discrète

Une variable quantitative peut être soit discrète ou soit continue. Dans un premier temps, nous allons
voir comment traiter une variable quantitative discrète qui ne comporte que quelques valeurs
différentes pour ensuite, à la section suivante, traiter le cas d’une variable discrète qui comporte
plusieurs valeurs différentes. Ce dernier cas, nous le traiterons comme celui d’une variable quantitative
continue.

6.11 Tableau de distribution de fréquence


Le tableau de distribution des fréquences nous permet d’avoir un résumé des données brutes, de
constater la répartition des individus selon les diverses valeurs.

Ex. : En 2009, l’association étudiante du Collège Maisonneuve désire faire une étude auprès des
étudiants afin de connaître certaines caractéristiques de la clientèle étudiante. Pour ce faire, on a
choisi aléatoirement 110 des 5600 étudiants du Collège et à la question «Combien de fois, par
semaine, utilisez-vous le système Omnivox du Collège?» on a obtenu les résultats suivants :

2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
5 5 5 5 5 5 5 5 5 5 6 6 6 6 6

1. Construire le tableau de distribution de fréquences regroupant les données de cet exemple

Distribution de 110 des 5600 étudiants du Collège de Maisonneuve selon le nombre


d'utilisations hebdomadaires du système Omnivox, 2009
Nombre Pourcentage
Nombre Pourcentage
d’utilisations cumulé
d’étudiants d'étudiants
du système d’étudiants
ni fi
Nous Omnivox x i Fi Les fréquences
devons ou
respecter 2 28 25,45% 25,45%
pourcentages
les cumulés
mêmes
3 43 39,09% 64,54%
représente la
règles de
4 24 21,82% 86,36% valeur pour
présentat laquelle un
ion que 5 10 9,09% 95,45% pourcentage
l’exemple de valeurs lui
précéden 6 5 4,55% 100,00% sont égales ou
t inférieures
Total 110 100,00%

Source : Données fictives

9
6.12 Diagramme
Le seul diagramme approprié pour représenter une variable quantitative discrète ayant peu de valeurs
différentes est le diagramme en bâtons.

Ex. 2 : Construire le diagramme en bâtons représentant les données de l’exemple de la page 63

Distribution de 110 des 5600 étudiants du Collège de


Maisonneuve selon le nombre d'utilisations
Nous devons hebdomadaires du système Omnivox, 2009
respecter les 50
mêmes règles de
Nombre d'étudiants

40
présentation de
l’exemple 30
précédent
20

10

0
2 3 4 5 6
Nombre d'utilisations hebdomadaires d'Omnivox
Source : données fictives

Afin de facilité la lecture, une brisure d’axe peut


être utilisée. Cette brisure prend souvent la
forme suivante ---/ /----

/ /

10
Remarque : bien que les bâtons doivent être des segments de droite, avec Excel, il est impossible
d’obtenir ces segments de façon automatique. On utilisera alors les bandes verticales les plus étroites
possibles. On obtiendra alors une représentation semblable à la suivante :

Distribution de 110 des 5600 étudiants du Collège de


Maisonneuve selon le nombre d'utilisations hebdomadaires du
système Omnivox, 2009
50
Nombre d'étudiants

40
30
20
10
0
2 3 4 5 6
Nombre d'utilisations hebdomadaires d'Omnivox
Source : données fictives

6.2 Mesures de tendance centrale

6.21 Mode
Le mode (noté Mo) d’une variable quantitative discrète est la valeur de la variable qui a le plus grand
effectif ou pourcentage. Pour être significatif, le mode doit avoir une fréquence nettement plus grande
que les autres.

Ex. : Déterminer et interpréter le mode dans l’exemple de la page 13.

Mo = 3 utilisations

Interprétation : En 2009, le plus grand nombre des 110 étudiants interrogés au Collège de
Maisonneuve utilisaient le service Omnivox 3 fois par semaine.

6.22 Médiane
La médiane (notée Md ou Me) est la donnée centrale de la distribution des données lorsque celles-ci
sont ordonnées. C’est la valeur pour laquelle 50% des données sont inférieures ou égales à celle-ci.

Dans un tableau de distribution de fréquences, la médiane est la première valeur pour laquelle le
pourcentage cumulé dépasse 50%. Si le pourcentage cumulé est exactement de 50%, la médiane sera
la moyenne de cette valeur et de la suivante.

Ex. : Déterminer et interpréter la médiane dans l’exemple de la page 52.

Me = 3 utilisations

Interprétation : En 2009, au moins 50% des 110 étudiants interrogés au Collège de Maisonneuve
utilisaient le service Omnivox 3 fois ou moins par semaine.

11
6.23 Moyenne
La moyenne est le centre de gravité de la dispersion des données. Algébriquement, la moyenne est la
somme de toutes les données, divisée par le nombre total de données.

Ainsi, la moyenne d’une population est symbolisée par la lettre grecque µ (qui se prononce « mu ») et
se calcule à l’aide de la formule

x1 + x2 + x3 + ... + xN où les x1 , x2 , x3 ,..., xN représentent toutes les données de la


 =
N population, de la première à la Nième.

La moyenne d’un échantillon est symbolisée par x (prononcer « x barre ») et se calcule de la même
façon soit à l’aide de la formule

x1 + x2 + x3 + ... + xn où les x1 , x2 , x3 ,..., xn représentent toutes les données de la


x =
n population, de la première à la nième.

Ex. : Calculer et interpréter la moyenne dans l’exemple de la page 13

( 2 + 2 + ... + 2 ) +( 3 + 3... + 3 ) +( 4 + 4.... + 4 ) +( 5 + 5.... + 5 ) +( 6 + 6.... + 6 )


x =
110
( 2  28 ) +( 3  43 ) +( 4  24 ) +( 5  10 ) +( 6  5 )
=
110
= 3, 28
Interprétation : En 2009, les 110 étudiants interrogés au Collège de Maisonneuve utilisaient le
service Omnivox 3,28 fois par semaine en moyenne.

Graphiquement, il existe une méthode pour trouver une approximation de la moyenne. On n’a qu’à
imaginer que le graphique est un plateau qu’on doit faire tenir en équilibre sur un seul doigt. La
moyenne correspond alors à l’endroit où on mettrait le doigt pour garder cet équilibre.

Ex. : Quelle serait votre approximation de la moyenne des données du graphique suivant?

Distribution de 110 des 5600 étudiants du Collège de


Maisonneuve selon le nombre d'utilisations hebdomadaires du
50 système Omnivox, 2009
Nombre d'étudiants

40
30
20
10
0
2 3 4 5 6
Nombre d'utilisations hebdomadaires d'Omnivox
Source : données fictives
6.3 Mesures de position

12
6.31 Quantiles
Les mesures de position sont utiles afin de déterminer la position relative d’une valeur par rapport à
l’ensemble de toutes les données. Les principales mesures de position sont les quartiles, les quintiles,
les déciles et les centiles. Les quantiles sont des nombres qui divisent une série ordonnée de données
en un nombre déterminé de portions égales.

Les quartiles (notés Q1, Q2, Q3) partagent une distribution en 4 parties égales comprenant 25% des
données.

25% 25% 25% 25%

Q1 Q2 Q3

De manière analogue,
▪ les quintiles (notés V1, V2, V3, V4 ) partagent une distribution en 5 parties égales, chacune
comprenant 20% des données;
▪ les déciles (notés D1, D2, D3,…,D9) partagent une distribution en 10 parties égales, chacune
comprenant 10% des données;
▪ les centiles (notés C1, C2, C3,…,C99) partagent une distribution en 100 parties égales, chacune
comprenant 1% des données.

Les mesures de position les plus utilisées sont les centiles. De plus, toutes les mesures de position se
transforment en centiles.

Ex. :
Q1 = C 25
D 4 = C 40
V 3 = C 60
Q 2 = D 5 = C 50 = Md

Pour des données provenant d’un tableau de distribution de fréquence :


Le centile d’ordre k, noté Ck, est la première valeur dont le pourcentage cumulé dépasse k%.
ou
Si le pourcentage cumulé est exactement égal à k%, le centile d’ordre k sera la moyenne de cette valeur
et la suivante.

Ex. : Déterminer et interpréter le 72e centile dans l’exemple de la page 13.

C72 = 4 utilisations

Interprétation : En 2009, au moins 72% des 110 étudiants interrogés au Collège de Maisonneuve
utilisaient le service Omnivox 4 fois ou moins par semaine.

13
6.4 Mesures de dispersion
En plus des mesures de tendance centrale et des mesures de position, les mesures de dispersion sont
des mesures qui seront très utiles lors de l’inférence statistique. Les mesures de dispersion vont
exprimer la dispersion, l’éparpillement, l’étalement des données autour des mesures de tendance
centrale. Les principales mesures de dispersion sont l’étendue, la variance, l’écart type et le coefficient
de variation.

6.41 Étendue
L’étendue est la différence entre la plus grande et la plus petite valeur d’une série de données.
Habituellement, l’étendue est notée par « E ». L’étendue correspond à la longueur d’une série de
données.

Ex. : Déterminer et interpréter l’étendue dans l’exemple de la page 13.

E = 6 – 2 = 4 utilisations

Interprétation :

6.42 Variance
La variance est une mesure de dispersion des données autour de la moyenne. Elle est définie comme
la moyenne des carrés des écarts entre chacune des données et la moyenne.

Cette définition est le résultat d’une étude sur la dispersion des données autour de la moyenne. Tout
d’abord, on avait fait l’étude des écarts des données à la moyenne. Puisque la moyenne est le centre de
gravité de la distribution, on s’est vite rendu compte qu’il y avait des écarts positifs et des écarts négatifs
et qu’en calculant la moyenne de ces écarts, le résultat était toujours égal à 0.

Ex. : Dans l’exemple page 13, le calcul de la moyenne des écarts serait le suivant :
( 2 − 3, 28)  28 + ( 3 − 3, 28)  43 + ( 4 − 3, 28 )  24 + ( 5 − 3, 28 ) 10 + ( 6 − 3, 28 )  5
110
−35,84 − 12, 04 + 17, 28 + 17, 2 + 13, 6
=
110
0
=
110
= 0 utilisation

Cette façon de faire n’était donc pas acceptable car aucunement représentative de la dispersion des
données autour de la moyenne.

14
Ensuite, est venu le calcul de la moyenne des valeurs absolues de ces écarts, défini comme l’écart moyen
(noté EM). Ce calcul nous donnait une mesure de dispersion naturelle des données. Plus cet écart
moyen est grand, plus les données sont éloignées de la moyenne.

Ex. : Dans l’exemple page 52, le calcul de l’écart moyen serait le suivant.
2 − 3, 28  28 + 3 − 3, 28  43 + 4 − 3, 28  24 + 5 − 3, 28  10 + 6 − 3, 28  5
EM =
110
35, 84 + 12, 04 + 17, 28 + 17, 2 + 13, 6
=
110
95, 96
=
110
= 0, 8724 utilisations

En raison de la présence de la valeur absolue, on a vite constaté que l’écart moyen se prêtait mal à un
traitement algébrique. Alors, pour obtenir une mesure qui se prêterait mieux à un calcul algébrique, on
a élevé au carré chacun de ces écarts pour ensuite en faire la moyenne. Mais ce nouveau calcul ne nous
donnait plus la moyenne des écarts, mais demeurait un indicateur de la dispersion des données. C’est,
une mesure différente qu’on a appelée variance et qui est notée  2 (prononcer « sigma carré ») pour
une population et s pour un échantillon. La variance d’un échantillon s’appelle aussi variance corrigée.

Ex. : Dans l’exemple page 52, le calcul de la variance s’effectuerait de la manière suivante :
( 2 − 3, 28 )  28 + ( 3 − 3, 28 )  43 + ( 4 − 3, 28 )  24 + ( 5 − 3, 28 )  10 + (6 − 3, 28 )  5
2 2 2 2 2

s 2=
110 − 1
45, 8752 + 3, 3712 + 12, 4416 + 29, 584 + 36, 992
=
109
= 1,17 utilisations 2

Puisqu’on effectue des différences au carré, l’unité de mesure de la variance sera donc le carré de
celle de la variable. Par exemple, si la variable à l’étude est la taille en cm, l’unité de la variance serait
le cm2. Cette particularité de la variance est son principal défaut.

Dans notre exemple, l’unité de la variance sera le nombre d’utilisations hebdomadaires du système
Omnivox au carré.

Formules pour le calcul de la variance :


( x −  ) 2 + ( x2 −  ) 2 + ( x3 −  ) 2 + ... + ( xN −  ) 2
2 = 1 pour une population
N

( x1 − x ) 2 + ( x2 − x ) 2 + ( x3 − x ) 2 + ... + ( xn − x ) 2
s2 = pour un échantillon
n −1

15
6.43 Écart type
Malgré qu’elle soit une bonne mesure de dispersion, la variance possède un petit défaut, soit de
s’exprimer en unités carrés. Pour corriger ce petit défaut, on extrait la racine carrée de la variance et on
obtient alors une mesure de dispersion assortie de la même unité que la variable à l’étude. Cette nouvelle
mesure s’appelle l’écart type et sera très proche de la valeur calculée par l’écart moyen. L’écart type sera
noté par  pour une population et par s pour un échantillon. L’écart type d’un échantillon s’appelle
aussi écart type corrigé.

Formules pour le calcul de l’écart type :



( x 1 −  ) +( x 2 −  )2 +( x 3 −  )2 + ... +( x N −  )2
2

= variance =  2
= pour une
N
population

( x 1 − x )2 +( x 2 − x )2 +( x 3 − x )2 + ... +( x n − x )2
s = variance = s 2
= pour un
n −1
échantillon

Ex. : Calculer l’écart type de l’exemple de la page 13.

s = 1,17 = 1, 08 utilisation

Même si l’écart type est une mesure de dispersion des données autour de la moyenne, elle ne nous
permet pas d’affirmer que cette dispersion est grande ou petite. Mais, lorsque l’on compare l’écart type
de deux séries de données statistiques mesurées dans les mêmes unités et ayant sensiblement la même
moyenne : plus l’écart type est faible, plus les données sont concentrés autour de la moyenne, et plus
l’écart type est élevé, plus les données sont dispersées.

Ex. : Supposons que nous sommes en présence de deux groupes de personnes, le groupe A et le
groupe B, ayant les caractéristiques suivantes.

Groupe A : âge moyen 25,3 ans avec un écart type de 10,2 ans

Groupe B : âge moyen 25,3 ans avec un écart type de 2,3 ans

Dans les deux cas, l’écart type de chacun ne nous donne que très peu d’information sur la
dispersion des âges de chacun des groupes. Par contre, ce que nous pouvons dire, c’est que la
dispersion des âges du groupe B est plus petite que la dispersion des âges du groupe A. Ainsi, si
nous avons à sélectionner un groupe comprenant, par exemple, des personnes de 12 ans et des
personnes de 39 ans, il sera préférable de faire ce choix dans le groupe A. Par contre, si vous
voulez un groupe comprenant surtout des personnes âgées entre 20 et 30 ans, il sera préférable
de choisir ces personnes à partir du groupe B.

De plus, si nous avons à comparer la dispersion de deux séries de données ayant des moyennes
différentes, l’écart type n’est pas la mesure la plus efficace pour effectuer cette comparaison. C’est
pourquoi il nous faut définir une nouvelle mesure soit : le coefficient de variation.

16
6.5 Coefficient de variation
Tout en étant des mesures de dispersion des données autour de la moyenne, ni la variance ni l’écart
type ne peut nous dire si nous sommes en présence d’une grande ou d’une petite dispersion de données.
L’importance de cette dispersion est relative à l’ordre de grandeur de la moyenne. Le coefficient de
variation (noté CV) est une mesure de dispersion relative, il est un indicateur de l’homogénéité de la
population. Il se calcule de la façon suivante :


CV =  100 % pour une population

s pour un échantillon
CV =  100 %
x

Plus la valeur de ce coefficient est grande, plus la population est dispersée. Un coefficient de variation
inférieur à 15% indique que la population est homogène, tandis qu’un coefficient supérieur à 15%
montre que la population est dispersée, et de plus en plus dispersée à mesure que celui-ci augmente.

Le coefficient de variation est une mesure de dispersion pure, c’est-à-dire qu’il ne comporte pas d’unité
de mesure, on pourra donc l’utiliser pour comparer la dispersion de plusieurs séries de données même
si elles sont exprimées en unités différentes.

Il est à noter qu’on se servira du coefficient de variation uniquement lorsque la série de données
contiendra des valeurs positives. De plus, précisons que le coefficient de variation n’est pas très utile si
la moyenne est près de zéro. Dans ce cas, il serait très élevé et cela ne représenterait pas bien la
dispersion réelle des données.

Ex. : Supposons que nous sommes en présence de deux groupes de personnes, le groupe A et le
groupe B, ayant les caractéristiques suivantes.

Groupe A : âge moyen 47,6 ans avec un écart type de 10,2 ans

Groupe B : âge moyen 25,3 ans avec un écart type de 2,3 ans

Le coefficient de variation pour chacun des groupes de personnes sera :

10, 2
CV A =  100% = 21, 42%
47, 6

2, 3
CV B =  100% = 9, 09%
25, 3

Interprétation : La distribution de l’âge des personnes du groupe B est homogène alors que la
distribution de l’âge des personnes du groupe A n’est pas homogène.

Si le but de l’étude est de comparer les 2 groupes, on peut aussi faire l’interprétation suivante :

Interprétation : La distribution de l’âge des personnes du groupe B est plus homogène que celle
des personnes du groupe A.
ou
La distribution de l’âge des personnes du groupe A est plus dispersée que celle des personnes du
groupe B.

17
6.6 Traitement d’une variable quantitative continue (ou de données groupées en
classes)
Avant de procéder au traitement d’une variable, on doit effectuer un regroupement en classes lorsque
les données brutes observées sont toutes différentes ou presque. Cela se produit généralement lorsque
nous faisons l’étude d’une variable quantitative continue ou d’une variable quantitative discrète
qui possède un grand nombre de valeurs différentes. Ces classes seront ensuite utilisées tant pour
la construction du tableau de distribution de fréquences que pour les diagrammes. Elles interviendront
aussi dans certains cas dans l’estimation des mesures.

Comment faire un tel regroupement ? Combien de classes devrons-nous utiliser ? Pour répondre à ces
questions, on doit suivre la démarche suivante :

1. Calculer l’étendue des données


L’étendue (E) des données est la différence entre la plus grande et la plus petite valeur.
E = valeur maximale – valeur minimale

2. Choisir un nombre de classes approprié


Habituellement, le nombre de classes se situe entre 5 et 15. Ce nombre dépend de la taille de la
population (N) ou de la taille de l’échantillon (n). Plus la taille de la population ou de l’échantillon est
grande, plus le nombre de classes est grand.

W.H.Sturges a inventé une formule pour fixer le nombre de classes. Le nombre de classes (NC) est
approximativement égal à 1 + 3,332 log (n). En utilisant cette formule on obtient la table de Sturges
ci-dessous.
Table de Sturges

Nombre de données Nombre approximatif de classes


Moins de 23 5
De 23 à 45 6
De 46 à 90 7
De 91 à 180 8
De 181 à 361 9
De 362 à 723 10
De 724 à 1 447 11
De 1 448 à 2 895 12

3. Déterminer la largeur des classes


La largeur approximative des classes est déterminée en effectuant le quotient de l’étendue par le
nombre de classes. La valeur définitive de cette largeur doit être, autant que possible, un multiple
de 2, 5, ou 10 pour favoriser une lecture plus efficace du tableau de distribution.

4. Définir les classes


Pour fixer la borne inférieure de la première classe, il faut s’assurer que la plus petite valeur des données
brutes se retrouve dans cette classe et que la plus grande valeur ne soit pas à l’extérieur de la dernière
classe. Encore ici, les bornes doivent être, autant que possible, un multiple de 2, 5, ou 10. Pour chacune
des classes, la borne inférieure est incluse et la borne supérieure est exclue (forme [a;b[). Une fois que
les classes sont définie, on peut accepter que leur nombre soit à plus ou moins une classe du nombre
de classes prévus par la règle de Sturges étant donné que nous avons arrondi la largeur des classes et
que nous avons choisi une borne inférieure de première classe qui peut être différente de la donnée
minimale.

18
Ex. : En 2012, l’association étudiante du Collège Maisonneuve a fait une étude auprès des
étudiants afin de connaître certaines de leurs caractéristiques. Pour ce faire, on a choisi
aléatoirement 135 des 5600 étudiants du Collège et à la question «Combien de temps prenez-vous
pour vous rendre au Collège ? » on a obtenu les temps suivants en minutes:

7 8 10 10 11 11 11 12 12 12 13
13 13 14 14 15 15 15 16 16 16 16
18 18 18 18 21 21 21 21 21 21 22
23 23 23 23 23 23 23 23 24 24 24
24 25 25 25 25 25 25 25 25 25 26
26 27 27 27 28 29 30 30 30 30 30
32 32 32 32 32 32 34 34 34 36 37
37 37 38 38 38 38 41 41 41 42 42
42 43 44 44 44 45 45 45 45 45 46
46 46 46 47 47 48 48 49 50 51 54
54 54 55 58 59 59 60 62 62 62 62
62 62 63 63 63 63 64 64 64 65 65
66 67 69

Quelles sont les classes qu’il faudrait utiliser pour grouper ces données?

19
6.61 Tableau de distribution de fréquences
Une fois que les classes sont créées, il est possible de construire un tableau de distributions de
fréquences pour une variable quantitative continue ou une variable quantitative discrète ayant un grand
nombre de valeurs différentes en se servant des classes comme modalités et en procédant au
dénombrement.

Ex. : Construire le tableau de distribution de fréquences regroupant les données de l’exemple de


la page 23.

Distribution de 135 des 5600 étudiants du Collège de Maisonneuve selon le temps


nécessaire pour se rendre au Collège, 2012

Temps Pourcentages Pourcentage cumulé


Nombre d’étudiants
(minutes) d’étudiants d’étudiants
[5 ; 15[ 15 11,11% 11,11%
[15 ; 25[ 30 22,22% 33,33%
[25 ; 35[ 30 22,22% 55,56%
[35 ; 45[ 18 13,33% 68,89%
[45 ; 55[ 19 14,07% 82,96%
[55 ; 65[ 18 13,33% 96,30%
[65 ; 75[ 5 3,70% 100,00%
Total 135 100,00%
Sources : Données fictives

6.62 Diagrammes
On peut représenter les données regroupées en classes à l’aide de différents types de diagrammes :
l’histogramme, le polygone de fréquences et l’ogive. Voici un exemple de chacun d’eux.

Ex. : Construire l’histogramme représentant les données de l’exemple de la page 23.

Distribution de 135 des 5600 étudiants du Collège de Maisonneuve selon le


temps nécessaire pour se rendre au Collège en 2012.
25%
Pourcentage d'étudiants

20%

15%

10%

5%

0%
-5 5 15 25 35 45 55 65 75
Temps (minutes)
Sources : Données fictives

Normes particulières dans le cas des histogrammes


▪ Les rectangles doivent être nécessairement collés.
▪ Les axes sont orientés, leur graduation est proportionnelle, ils sont identifiés et on y trouve les
unités.

20
6.63 Polygones de fréquences

Ex. : Construire le polygone de fréquences représentant les données de l’exemple de la page 23.

Distribution de 135 des 5600 étudiants du Collège de Maisonneuve selon le


temps nécessaire pour se rendre au Collège en 2012.
25%
Pourcentage d'étudiants

20%

15%

10%

5%

0%
-5 5 15 25 35 45 55 65 75
Temps (minutes)
Sources : Données fictives

Normes particulières dans le cas des polygones de fréquences


▪ Les axes sont orientés, leur graduation est proportionnelle, ils sont identifiés et on y trouve les
unités.
▪ Si plus d’une variable est représentée, prévoir une légende expliquant les symboles ou les
couleurs utilisés.
▪ Les observations doivent être faites à partir du point milieu de chacune des classes.
▪ Le polygone doit être nécessairement fermé. On ferme le polygone de chaque côté en ajoutant
deux classes fictives vides (de même largeur que les autres classes). L’une au début, l’autre à la
fin.

21
6.64 Ogive
On a vu que la colonne des fréquences cumulées d’un tableau de distribution des fréquences indique
pour chaque valeur, ou chaque classe, le pourcentage de valeurs qui lui sont inférieures.

À partir de la colonne des fréquences cumulées, nous pouvons faire une représentation graphique de
la répartition cumulative des données, une telle représentation graphique à pour nom une ogive. (Ce
nom à été proposé par le physiologiste, anthropologue et psychologue anglais Francis Galton 1822-
1911)
Ex. : Construire l’ogive représentant les données de l’exemple de la page 23. (Rappel du tableau)

Distribution de 135 des 5600 étudiants du Collège de Maisonneuve selon le temps nécessaire
pour se rendre au Collège, 2012

Temps Pourcentages Pourcentage cumulé


Nombre d’étudiants
(minutes) d’étudiants d’étudiants
[5 ; 15[ 15 11,11% 11,11%
[15 ; 25[ 30 22,22% 33,33%
[25 ; 35[ 30 22,22% 55,56%
[35 ; 45[ 18 13,33% 68,89%
[45 ; 55[ 19 14,07% 82,96%
[55 ; 65[ 18 13,33% 96,30%
[65 ; 75[ 5 3,70% 100,00%
Total 135 100,00%
Source : données fictives.

Distribution cumulative de 135 des 5600 étudiants du Collège


de Maisonneuve selon leur temps de déplacement vers le
Collège en 2012.
100%
Pourcentage cumulé d'étudiants

80%

60%

40%

20%

0%
5 15 25 35 45 55 65 75
Temps (minutes)
Sources : Données fictives

Normes particulières dans le cas des ogives


▪ La première valeur de l’axe horizontal doit être la valeur de la borne inférieure de la première
classe et le pourcentage correspondant est 0%.
▪ Les autres valeurs de l’axe horizontal sont les bornes supérieures de chacune des classes et on
leur associe le pourcentage cumulé de leur classe.
▪ On joint les points par des segments de droite. Il ne faut pas essayer de faire une courbe lisse
passant par tous les points.

22
6.7 Mesures de tendance centrale

6.71 Mode
Dans le cas de données regroupées en classes, comme les données sont la plupart du temps à peu près
toutes différentes, il y a peu de chance que l’une d’elle se répète un grand nombre de fois. Dans ce cas,
nous n’étudions pas le mode mais plutôt la classe modale qui est la classe dans laquelle il y a le plus
de données.

Ex : Déterminer et interpréter la classe modale pour l’exemple de la page 23.

Dans ce cas, il y a deux classes modales soient les classes [15;25[ et [25;35[.

Interprétation : En 2012, au Collège de Maisonneuve, un plus grand nombre des 135 étudiants
interrogés mettaient entre 15 et 35 minutes pour se rendre au Collège.

Si nous voulons une valeur plus précise du mode, il faudra l’estimer. Le centre de la classe modale est
parfois employé comme approximation du mode. Dans ce cas, le mode sera vu comme un point de
concentration autour duquel on retrouve une plus grande concentration des données.

6.72 Médiane
Rappelons que la médiane (Md ou Me) est la valeur telle que 50% des données lui sont inférieures et
50% lui sont supérieures. Pour le cas des données regroupées en classes, la médiane se trouve dans la
première classe pour laquelle le pourcentage cumulé atteint ou dépasse 50%. Cette classe est appelée
la classe médiane.

Ex : Déterminer la classe médiane pour l’exemple de la page 23.

La classes médiane est [25;35[.

Nous pouvons estimer une médiane en supposant que les données sont réparties uniformément dans
la classe médiane. Pour cette raison, la valeur obtenue sera une valeur approximative de la
médiane. Elle se calcule à l’aide de la formule suivante :

bi est la borne inférieure de la classe médiane

% cum. préc. est le pourcentage cumulé de la classe


 50% − % cum. préc.  qui précède la classe médiane;
Md = bi +   Ampl.  où
 % cl. 
% cl. est le pourcentage de la classe médiane;

Ampl. est la largeur de la classe médiane.

Ex : Estimer et interpréter la médiane de l’exemple de la page 23 à partir de son tableau de


distribution de fréquences.
 50% − 33,33% 
Me = 25 +  10  = 32,50 min
 22, 22% 
Interprétation : En 2012, on estime que 50% des 135 étudiants interrogés du Collège de
Maisonneuve mettaient moins de 32,5 minutes à se rendre au Collège.
Il existe une façon plus intuitive d’estimer la médiane à partir d’un tableau de distribution de fréquences
comportant des classes ou à partir d’un histogramme.

23
Ex : Estimer la médiane de l’exemple de la page 23 à partir de son tableau de distribution de
fréquences ou de son histogramme sans utiliser la formule de la page précédente.

Rappel de l’histogramme :

Sources : Données fictives

Distribution cumulative de 135 des 5600 étudiants du Collège


de Maisonneuve selon leur temps de déplacement vers le
Collège en 2012.
100%
Pourcentage cumulé d'étudiants

80%

60%

40%

20%

0%
5 15 25 35 45 55 65 75
Temps (minutes)

24
6.73 Moyenne
La moyenne est la somme de toutes les données divisée par le nombre total de données (elle est le
centre de gravité de la dispersion des données).

Dans le cas où les données sont regroupées en classes, on peut se servir du point milieu de chacune
des classes pour estimer la moyenne de la distribution. Cette moyenne sera très près de la moyenne
réelle à la condition que les classes soient adéquatement construites.

Ex : Estimer et interpréter la moyenne dans l’exemple de la page 23 à partir du tableau de


distribution de fréquences.

Rappel du tableau de distribution de fréquences :

Distribution de 135 des 5600 étudiants du Collège de Maisonneuve selon le temps nécessaire
pour se rendre au Collège, 2012

Temps Pourcentages Pourcentage cumulé


Nombre d’étudiants
(minutes) d’étudiants d’étudiants
[5 ; 15[ 15 11,11% 11,11%
[15 ; 25[ 30 22,22% 33,33%
[25 ; 35[ 30 22,22% 55,56%
[35 ; 45[ 18 13,33% 68,89%
[45 ; 55[ 19 14,07% 82,96%
[55 ; 65[ 18 13,33% 96,30%
[65 ; 75[ 5 3,70% 100,00%
Total 135 100,00%

x=
(10 15) + ( 20  30 ) + ( 30  30 ) + ( 40 18 ) + (50 19 ) + ( 60 18 ) + ( 70  5 )
135
= 35,19 min

Interprétation : On estime que les 135 étudiants du Collège de Maisonneuve interrogés en 2012
mettaient en moyenne 35,19 minutes à se rendre au Collège.

25
6.74 Avantages et inconvénients des mesures de tendance centrale

Mode
Avantages : Inconvénients :

▪ Il est simple à concevoir. ▪ Il a très peu de signification lorsque le


▪ Il est facile à comprendre, à déterminer nombre de données est petit.
et à interpréter. ▪ Dans le cas des données regroupées en
▪ Il ne dépend pas de toutes les données; classes, il peut être influencé par le choix
ainsi, il n’est pas influencé par les des classes.
données extrêmes. ▪ Sa valeur n’est pas stable, elle peut varier
▪ Il est significatif lorsqu’il y a une valeur beaucoup d’un échantillon à l’autre.
qui est nettement plus fréquente que les ▪ Une série de données peut avoir
autres. plusieurs modes. Dans ce cas, il est
difficile de l’utiliser comme mesure de
tendance centrale.

Médiane
Avantages : Inconvénients :

▪ Elle provient de la notion simple de ▪ Elle ne tient pas compte de la valeur des
centre. données.
▪ Elle ne dépend pas de la valeur des ▪ Elle ne possède aucune propriété
données mais de leur position. algébrique.
▪ Dans le cas des données regroupées en
classes, elle est peu influencée par le
choix des classes.
▪ Elle n’est pas affectée pas les valeurs
extrêmes.

Moyenne
Avantages : Inconvénients :

▪ Elle tient compte de toutes les données ▪ Elle est sensible aux valeurs extrêmes.
et de leur valeur respective. ▪ Elle est difficile à calculer s’il y a des
▪ Elle possède de bonnes propriétés classes ouvertes.
algébriques.
▪ Sa valeur est stable d’un échantillon à
l’autre.

26
6.8 Mesures de position

6.81 Centiles
Tous les quantiles pouvant être convertis en centiles, nous traitons ici que des centiles. Lorsque les
données sont groupées en classes, le centile d’ordre k noté C k se trouve dans la première classe pour
laquelle le pourcentage cumulé atteint ou dépasse k %.

Ex : Déterminer la classe qui contient le soixante-huitième centile dans l’exemple de la page 29 à


partir du tableau de distribution de fréquences.

La classe qui contient C 68 est [35 ; 45[ .

D’une manière analogue à la médiane, nous pouvons estimer le centile d’ordre k en supposant que les
données sont réparties uniformément dans la classe qui contient C k . L’estimation du centile d’ordre k
se calcule à l’aide de la formule suivante :

bi est la borne inférieure de la classe qui contient Ck

% cum. préc. est le pourcentage cumulé de la classe qui


 k % − % cum. préc.  précède la classe qui contient Ck
Ck = bi +   Ampl.  où,
 % cl. 
% cl. est le pourcentage de la classe qui contient Ck

Ampl. est la largeur de la classe qui contient Ck

Ex : Estimer et interpréter C68 dans l’exemple de la page 29 à partir du tableau de distribution de


fréquences.

Interprétation : ______________________________________________________________

__________________________________________________________________________

__________________________________________________________________________

27
6.9 Mesures de dispersion

6.91 Étendue
Lorsque les données d’une variable quantitative sont regroupées en classes, l’estimation de l’étendue (E)
est la différence entre la borne supérieure de la dernière classe et la borne inférieure de la première classe.

 borne supérieure de   borne inférieure de 


É tendue =   - 
 la dernière classe   la première classe 

Ex : Estimer et interpréter l’étendue dans l’exemple de la page 29 à partir du tableau de distribution


de fréquences.

E = 75 – 5 = 70

Interprétation : En 2012, les 135 étudiants du Collège de Maisonneuve interrogés pouvaient avoir
un temps de transport pour se rendre au Collège qui pouvait varier jusqu’à environ 70 minutes entre
le temps le plus long et le plus court.

6.92 Variance
Avec des données regroupées en classe, l’estimation de la variance s’effectue de la même manière que si
on la calculait avec des données provenant du tableau de distribution de fréquences d’une variable
quantitative discrète mais en remplaçant chaque donnée par les milieux de classes (mk). Bien sûr, la valeur
obtenue est une valeur approximative de la variance réelle. Cette valeur approximative est très près de la
variance réelle à la condition que les classes soient adéquatement construites.

(m1 −  ) 2 + ... + ( mN −  ) 2
2 = pour une population
N

(m1 − x ) 2 + ... + (mn − x ) 2


s2 = pour un échantillon
n −1

Ex : Estimer la variance dans l’exemple de la page 29 à partir du tableau de distribution de


fréquences.

28
6.93 Écart type

L’écart type est la racine carrée de la variance. Ainsi pour estimer l’écart type avec des données regroupées
en classe, il suffit de faire la racine carrée de l’estimation de la variance. L’écart type d’un échantillon porte
aussi le nom d’écart type corrigé.

( m1 −  )2 + ... +( mN −  )2
 = variance =  2
= pour une population
N

( m1 − x )2 + ... +( mn − x )2
s = variance = s 2
= pour un échantillon
n −1

Ex : Estimer l’écart type dans l’exemple de la page 29 à partir du tableau de distribution de


fréquences.

6.94 Coefficient de variation


Le coefficient de variation mesure l’homogénéité des données. Si le coefficient de variation est inférieur
à 15% alors on peut conclure que les données sont homogènes (regroupées autour de la moyenne). Plus
le coefficient de variation est grand plus les données sont dispersées. Comme le coefficient de variation
des données regroupées en classes devra être fait avec des estimations d’écart type et de moyenne, il va
de soi que le résultat sera une estimation du coefficient de variation.


CV =  100% pour une population

s
CV = 100 % pour un échantillon
x

Ex : Estimer et interpréter le coefficient de variation dans l’exemple de la page 29 à partir du tableau


de distribution de fréquences.

Interprétation : ______________________________________________________________

__________________________________________________________________________

__________________________________________________________________________

29
6.95 Avantages et inconvénients des mesures de dispersion

Étendue
Avantages : Inconvénients :

▪ Elle est très facile à calculer et à ▪ Sa valeur n’est pas stable.


interpréter. ▪ Elle peut beaucoup varier d’un
▪ Elle permet de se faire rapidement une échantillon à l’autre.
idée de la dispersion des données. ▪ Sa valeur ne dépend que des deux valeurs
extrêmes de la série de données, qui sont
souvent des données exceptionnelles.

Variance et écart type


Avantages : Inconvénients :

▪ Elle se prête facilement aux opérations ▪ Son calcul est lourd.


algébriques. ▪ Son interprétation n’est pas immédiate.
▪ Sa valeur est stable d’un échantillon à ▪ Elle doit être utilisée avec d’autres
l’autre. mesures pour prendre un sens.

30
6.10 Exercices
1. Un centre de nutrition a comme mission de changer les habitudes alimentaires des employés d’une
compagnie oeuvrant dans le textile. On a demandé à 60 employés choisis au hasard quel était le
breuvage qu’ils avaient l’habitude de consommer lors des repas.
a) Quelle est la variable étudiée ? De quel type
est-elle ?
b) Quelle est la population ? L’échantillon ?
c) Quelle(s) mesure(s) est-il approprié de donner
? Trouvez-la (ou les) et interprétez.
d) Combien de ces 60 employés boivent
habituellement une tisane lors des repas ?
e) Quel est l’angle au centre (en degrés) du
secteur « Café » ?

Source : données fictives

2. Pour étudier la longueur du premier pas d’un bébé, nous avons sélectionné 80 mamans qui avaient
mesuré ce premier pas et nous avons classé la longueur de ces pas en trois catégories: C :court (moins
de 27,5 cm), M : moyen (entre 27,5 cm et 32,5 cm) et L :long (plus de 32,5 cm) :
a) Quelle est la variable étudiée ?
C C M C L M M C M M b) Quel est le type de la variable étudiée ?
L L C M L C M M M L c) Quelle est l’échelle de mesure de la variable
M M M C M L L M M L ?
M M L C C C M L L M d) Construire le tableau de distribution de
M M C M L M M C M C fréquences.
M M M C C M M C M M e) Calculez la ou les mesure(s) de tendance
L M M M M L M L M L centrale pertinente(s) à ce type de variable et
Source : Données fictives interprétez dans le contexte.
f) Représentez graphiquement les résultats
obtenus.

3. On a donné à manger à 50 grenouilles d’une même espèce. Elles avaient le choix entre manger un
moustique (code 0), une mouche (code 1) ou une libellule (code 2). Voici les résultats obtenus:
a) Quelle est la variable étudiée ?
b) Quel est le type de cette variable ?
1 0 1 0 2 0 0 0 1 1 c) Quelle est l’échelle de mesure de la variable ?
0 0 1 0 2 0 1 2 0 0 d) Construire le tableau de distribution de fréquences.
0 0 1 0 0 0 0 1 0 0 e) Représentez graphiquement les résultats obtenus.
0 1 0 0 0 1 0 2 0 0 f) Quelles sont les autres représentations graphiques
0 0 2 1 2 1 0 2 1 1 possibles pour ce type de variable ?
Source : Données fictives g) Calculez la ou les mesure(s) de tendance centrale
pertinente(s) à ce type de variable et interprétez dans le
contexte.

Source : Données fictives

31
4. Un contrôle visuel est effectué pour repérer les défectuosités possibles sur des chemises de qualité
supérieure produites par un grand couturier français. Les résultats de l’inspection de 100 chemises
apparaissent dans le tableau suivant :
Nombre de défectuosités observées sur e) Quel est le type de la variable à l’étude ?
chaque chemise f) Présentez ces données sous forme de tableau de
1 1 2 0 0 0 0 3 1 0 distribution de fréquences à l’aide d’Excel
2 2 0 0 1 0 2 0 3 1 g) Présentez ces données sous forme de graphique
0 0 0 1 1 0 0 2 4 1 à l’aide d’Excel.
0 0 1 1 1 1 0 0 1 3 h) Trouvez le mode de cette distribution et
2 0 1 1 1 0 3 0 1 1 interprétez-le dans le contexte du problème
0 1 1 0 0 1 1 2 2 0 .i) Trouvez la médiane de cette distribution et
2 1 2 1 3 4 2 1 0 2 interprétez-la dans le contexte problème.
2 1 1 1 2 1 2 0 3 1 j) Trouvez la moyenne de cette distribution à
0 2 2 2 0 0 0 0 0 1 l’aide d’Excel et interprétez-la dans le contexte du
0 1 1 0 0 0 1 1 0 0 problème.
Source : Données fictives k) Trouvez l’écart type de cette distribution.
l) Quel est le nombre maximal de défectuosités
a) Déterminez la population étudiée lors de cette observées sur 35 % des chemises qui en ont le
expérience. moins ?
b)Quelle est l’unité statistique ? m) Quel est le nombre minimal de défectuosités
c) Quelle est la taille de l’échantillon ? observées sur 25 % des chemises qui en ont le
d )Quelle est la variable étudiée ? plus ?

5. On désire déterminer s’il existe un lien entre la fratrie des familles de jeunes ayant des problèmes de
dépendance à l’alcool et le sentiment d’appartenance envers leur famille. Pour réaliser notre étude,
on a demandé à tous les jeunes du centre d’accueil AU-SECOURS combien ils avaient de frères et
de soeurs.
Distribution des_______________ jeunes selon le nombre de frères et sœurs
qu’ils ont dans leur famille
Nb. de frères et soeurs Nb. de jeunes % de jeunes
0 8
1 12
2 5
3 4
4 4
5 0
6 0
7 1
Total
Source : Données fictives

a) S’agit-il d’un recensement ou d’un sondage ?


b) Quelle est la population à l’étude ?
c) Quelle est la variable étudiée ?
d) Représentez ces données sous forme de diagramme en bâtons à l’aide d’Excel.
e)Trouvez la valeur des 3 mesures de tendance centrale à l’aide d’Excel et interprétez-les dans le
contexte.
f) Trouvez l’écart type à l’aide d’Excel.
g) Trouvez le coefficient de variation à l’aide d’Excel et interpréter-le.
h) Trouvez et interprétez les quantiles : Q2, V1, D6 et C88.

32
6. À l’automne 2008, on a posé la question suivante à 30 étudiants de première session d’un cégep de
l’île de Montréal : « À combien de cours êtes-vous inscrits ? » Voici le diagramme en bâton
représentant les résultats.
a) Trouvez les 3 mesures de tendance centrale
et interprétez-les dans le contexte.
Distribution des 30 étudiants de
première session d'un cégep de l'île de
b) Trouvez l’écart type et interprétez-le.
Montréal selon le nombre de cours
auxquels ils sont inscrits à l'automne
10 c) Trouvez le coefficient de variation et
2008
Nombre d'étudiants

8 interprétez-le dans le contexte.


6 d) Trouvez Q3, D7 et C45 et interprétez-les
4 dans le contexte
2
0
4 5 6 7 8
Nombre de cours

Source : données fictives

7. Soit la représentation graphique suivante :


a) Comment se nomme cette représentation
Distribution des unités statistiques en fonction de la graphique?
variable

24
b) Quelle serait la mesure de tendance centrale
20 la plus appropriée dans ce cas? Justifiez.
Nombres d'unités
statistiques

16
12 c) Quel est le type de la variable à l’étude?
8
4
0
d) Quelle est la taille de l’échantillon utilisée?
1 2 3 4 5
Variable à l'étude

Source : données fictives

8. Une maison de sondage a réalisé une étude afin de déterminer si la qualité du service dans un
centre d’information touristique provincial est de bonne qualité. Les données suivantes
représentent le temps d’attente (en minutes), avant d’être servi par un préposé au comptoir, de
30 touristes choisis au hasard.
10,9 7,4 12,9 9,1 7,6 11,2 7 7,3 7,3 11 10
7,9 9,5 10,5 12,4 8,3 8 8,4 7,1 8 8,4 7,9
8,2 9 9 10 11,7 11 9,1 10
a) Quelle est la variable étudiée ? De quel type est-elle ?
b) Quelle est l’étendue des données ?
c) D’après le tableau de Sturges, quel devrait être le nombre de classes requises pour le
dépouillement des données ?
d) Construisez le tableau de distribution. (le tableau doit être complet)
e) Tracez, sur un même graphique, l’histogramme et le polygone de fréquences.
f) Trouvez la classe modale et donnez son interprétation dans le contexte.
g) Trouvez la valeur des deux autres mesures de tendance centrale (Md et x ) et donnez leur
interprétation dans le contexte.

33
9. Le tableau suivant représente la distribution des résultats obtenus d’un échantillon de 120
étudiants lors d’un concours mathématique en 2009.
Distribution de 120 étudiants selon leur résultat obtenu au concours mathématique, 2009
Résultat Nb. d’étudiants % d’étudiants % cumulé d’étudiants
[0 ; 20[ 18
[20 ; 40[ 24
[40 ; 60[ 45
[60 ; 80[ 19
[80 ; 100[ 14
TOTAL
Source : données fictives
a) Complétez le tableau précédent.
b) Trouvez la classe modale et donnez son interprétation dans le contexte.
c) Trouvez la valeur des deux autres mesures de tendance centrale (Md et x ) et donnez leur
interprétation dans le contexte.
d) Trouvez l’écart type.
10. Le club d’aviron HIRAM de Montréal a noté la taille (en centimètres) de tous ses membres. Voici
les données recueillies.

173,4 179,6 179,8 153,6 161,3 188,5


148,7 170,3 142,4 176,1 178,3 184,2
165,1 205,2 166,3 188,3 172,7 160,5
190,3 189,1 172,3 177,4 171,1 182,1
172,1 177,2 180,9 178,5 187,2 181,2
181,4 163,4 171,2 179 196,2 179,2
151,5 191,4 162,1 183,5 175,2 180,2
193,3 156,1 186,1 167,1 180,4 175,3
188,4 197,1 192,5 158,2 159,8 165,2
Source : Données fictives

a) S’agit-il d’un recensement ou d’un sondage ?


b) Regroupez ces données sous forme de tableau de distribution de fréquences.
c) Tracez l’histogramme de cette distribution.
d) Tracez le polygone de fréquences.
e) Tracez la courbe des pourcentages cumulés.
f) Trouvez la classe modale de cette distribution et interprétez-la dans le contexte.
g) Trouvez la médiane (à l’aide de la courbe des pourcentages cumulés et de la formule) et
interprétez-la dans le contexte.
h) Trouvez la moyenne et interprétez-la dans le contexte.
i) Laquelle des mesures de tendance centrale est la plus représentative ? Justifiez.
j) Trouvez l’écart type.
k) Trouvez le coefficient de variation et interprétez-le dans le contexte.
l) Déterminez la valeur des quantiles C75, D3 et Q1 et interprétez-les dans le contexte.

11. Un responsable du contrôle de la qualité a comme mission d’étudier le poids (en grammes) ainsi
que le degré d’usure de pièces électriques utilisées dans la fabrication de téléviseurs usagés. Voici
les données brutes pour un échantillon de 25 pièces.

10,5 peu 11 assez 21,9 peu 13,5 assez 15,6 très


11,5 moyen 11,8 moyen 13,5 peu 16 assez 14,2 peu

34
12,1 peu 12 moyen 10 très 15,3 peu 11,2 peu
10,1 peu 18,2 peu 17 peu 19,1 peu 15 moyen
13,3 très 15,2 peu 16,3 très 17 moyen 11,5 peu
Source : Données fictives

a) De quel type est la variable « degré d’usure » ? Représentez-la sous forme de tableau et de
graphique, et donnez les mesures pertinentes ainsi que leurs interprétations.
b) Quelle est la 2e variable étudiée ? De quel type est-elle ?
c) Représentez cette variable sous forme de tableau de distribution.
d) Déterminez la valeur approximative de la médiane à l’aide de l’ogive.
e) Trouvez les 3 mesures de tendance centrale.
f) Trouvez la variance.
g) Trouvez le 85e centile et le 8e décile.

12. Le graphique suivant décrit la répartition des 72 habitants d’un village Inuit en fonction de leur
âge. Il est à noter que les pourcentages au-dessus des bâtons de l’histogramme sont des valeurs
arrondies.
Distribution des 72 habitants d'un village Inuit selon leur âge

40% 36,11%
33,33%
Pourcentage d'habitants

35%
30%
25%
20%
15% 11,11%
8,33%
10% 5,55% 5,55%
5% 0% 0%
0%
0 15 30 45 60 75 90

Âge

Source : Données fictives

a) S’agit-il d’un recensement ou d’un sondage ?


b) Construisez le tableau de distribution.
c) Trouvez les 3 mesures de tendance centrale et interprétez-les.

13. Le regroupement des données sous forme de classes ne peut s’effectuer qu’avec des données de
type quantitatives continues. Vrai ou faux ? Justifiez.

14. Dans le calcul de l’écart type, pourquoi doit-on élever au carré tous les écarts entre chacune des
données et la moyenne ?

15. Quel est l’inconvénient de l’utilisation de la variance ?

16. Quelle information supplémentaire nous apporte le coefficient de variation par rapport à l’écart
type ?

17. Pendant la fin de semaine du 26 et 27 août, dans l’arrondissement St-Michel avait lieu un
tournoi de soccer. Dans la catégorie 11-12 ans, la taille de tous les participants était distribuée
selon le tableau suivant :

35
Distribution des joueurs de la catégorie 11-12 ans selon leur grandeur en
centimètres au tournoi de soccer de St-Michel les 26-27 août
Grandeur ( cm ) Pourcentage cumulé
100 ;110  6%
110 ;120  28%
120 ;130  58%

 130 ;140  75%

 140 ;150  90%

 150 ;160  100%


Total

Source : Données fictives

a) 
Calculez et interprétez dans le contexte la classe modale de cette distribution.
b) Calculez et interprétez dans le contexte la médiane de cette distribution.
c) Calculez et interprétez dans le contexte la moyenne de cette distribution.
d) Construisez l’histogramme de cette distribution

36
6.11 Réponses
1. a) VAR : Le breuvage habituellement consommé lors des repas
TYPE : Qualitative nominale
b) POP : L’ensemble de tous les employés de la compagnie de textile.
ÉCH : Les 60 employés sélectionnés de la compagnie de textile.
c) Mo = « Eau ». Un plus grand nombre des 60 employés choisis de la compagnie de textile
consomment de l’eau lors des repas.
d) 3 employés
e) 64,8 degrés

2. a) La longueur du premier pas d’un bébé


b) Quantitative continue
c) Échelle ordinale
d) Distribution des 80 bébés selon la longueur de leur premier pas

Longueur des pas Nb. De bébés % de bébés


Court 17 21,25 %
Moyen 45 56,25 %
Long 18 22,50 %
Total : 80 100,00 %
Source :données fictives
e) Mo = « Moyen ». Un plus grand nombre des 80 bébés choisis ont effectué un premier pas de
longueur moyenne.
f) Un diagramme à bandes verticales, horizontales ou un diagramme circulaire serait approprié.
En voici un exemple :
Distribution des 80 bébés selon la longueur de leur
premier pas
60
Nombre de bébés

40
20
0
Court Moyen Long
Longueur des pas

Source :données fictives

3. a) L’espèce d’insecte mangée par les grenouilles


b) Qualitative nominale
c) Échelle nominale
d) Distribution des 50 grenouilles selon l’insecte qu’elles ont mangé.

Insecte mangé Nb.de grenouilles % de grenouilles


Libellule 7 14%
Mouche 15 30%
Moustique 28 56%
Total : 50 100 %
Source :données fictives

37
e)
Distribution de 50 grenouilles selon l'espèce
d'insecte qu'elles ont mangé.

14% Libellule
Mouche
56% 30%
Moustique

f) Diagramme à bandes horizontales et diagramme à bandes verticales.


g) Mo = « Moustique ». Un plus grand nombre des 50 grenouilles ont mangé un moustique.

4. a) L’ensemble des chemises de qualité supérieure produites par un grand couturier français.
b) Une chemise de qualité supérieure produite par un grand couturier français.
c) n = 100
d) Nombre de défectuosités observées sur une chemise produite par ce couturier français.
e) Quantitative discrète
f) Distribution des 100 chemises qualité supérieure produites par un
grand couturier français selon le nombre de défectuosités observées sur chacune d’elles.

Nb.de défectuosités Nb. de chemises % de chemises


0 39 39 %
1 35 35 %
2 18 18 %
3 6 6%
4 2 2%
Total : 100 100 %
Source : données fictives

g)
Distribution de 100 chemises de qualité supérieures produites
par un grand couturier français selon le nombre de
défectuosités observées sur chacune d'elles.
50%
Pourcentage de chemises

40%
30%
20%
10%
0%
0 1 2 3 4
Nombre de défectuosités

Source : données fictives

38
h) Mo = 0 défaut
Un plus grand nombre des 100 chemises de qualité supérieure produites par un grand couturier
français ne possédaient aucun défaut.
i) Me = 1 défaut
Au moins 50 % des 100 chemises de qualité supérieure produites par un grand couturier français
possédaient aucun, ou un seul défaut.
j) x = 0,97 défaut
Les 100 chemises de qualité supérieure produites par un grand couturier français possédaient
en moyenne 0,97 défaut par chemise.
k) s = 1 défaut
l) C35 = 0 défaut
m) C75 = 2 défauts

5. a) Recensement
b) L’ensemble des 34 jeunes du centre d’accueil AU-SECOURS.
c) Le nombre de frères et sœurs
d)
Distribution des 34 jeunes du centre d'accueil AU-SECOURS selon
leur nombre de frères et sœurs.
15
Nombre de jeunes

10

0
0 1 2 3 4 5 6 7
Nombre de frères et sœurs

Source : données fictives


e) Mo = 1 frère ou sœur.
Un plus grand nombre des 34 jeunes du centre d’accueil AU-SECOURS ont soit un frère ou
une sœur dans leur famille.
Me = 1 frère ou soeur
Au moins 50 % des 34 jeunes du centre d’accueil AU-SECOURS ont 1 frère ou sœur ou moins
dans leur famille.
µ = 1,68 frère ou soeur
En moyenne, les 34 jeunes du centre d’accueil AU-SECOURS ont 1,68 frère ou sœur dans leur
famille.
f)  =1,59 frère ou soeur
g) C.V. = 94,64 %
Les 34 jeunes du centre d’accueil AU-SECOURS forment un groupe hétérogène quant à leur
nombre de frères ou sœurs.
h) Q2 = 1 frère ou soeur
Au moins 50 % des 34 jeunes du centre d’accueil AU-SECOURS ont 1 frère ou sœur ou moins
dans leur famille.
V1 = 0 frère ou soeur
Au moins 20 % des 34 jeunes du centre d’accueil AU-SECOURS n’ont aucun frère ou sœur
dans leur famille.
D6 = 2 frères ou soeurs

39
Au moins 60 % des 34 jeunes du centre d’accueil AU-SECOURS ont 2 frères ou sœurs ou
moins dans leur famille.
C88 = 4 frères ou soeurs
Au moins 88 % des 34 jeunes du centre d’accueil AU-SECOURS ont 4 frères ou sœurs ou
moins dans leur famille.

6.
a) Mo = 7 cours
À l’automne 2008, un plus grand nombre des 30 étudiants de première session d’un cégep de
l’île de Montréal interrogés étaient inscrits à 7 cours.
Me = 6 cours
À l’automne 2008, au moins 50 % des 30 étudiants de première session d’un cégep de l’île de
Montréal interrogés étaient inscrits à 6 cours ou moins (4, 5 ou 6 cours).
x = 5,97 cours
À l’automne 2008, les 30 étudiants de première session d’un cégep de l’île de Montréal
interrogés étaient inscrits à 5,97 cours en moyenne.
b) s =1,27 cours.
c) C.V.= 21,27%
Les 30 étudiants de première session d’un cégep de l’île de Montréal interrogés à l’automne
2008 ne formaient pas un groupe homogène quant au nombre de cours auquels ils étaient
inscrits.
c) Q3 = 7 cours
Au moins 75 % des 30 étudiants de première session d’un cégep de l’île de Montréal interrogés
étaient inscrits à 7 cours ou moins à l’automne 2008.
D7 = 7 cours
Au moins 70 % des 30 étudiants de première session d’un cégep de l’île de Montréal interrogés
étaient inscrits à 7 cours ou moins à l’automne 2008.
C45 = 6 cours
Au moins 45 % des 30 étudiants de première session d’un cégep de l’île de Montréal interrogés
étaient inscrits à 6 cours ou moins à l’automne 2008.

7. a) Un diagramme en bâtons
b) Le mode, car la valeur « 2 » se répète beaucoup plus souvent que les autres valeurs.
c) Variable quantitative discrète
d) n = 37

8. a) Le temps d’attente avant d’être servi par un préposé dans un centre d’information
touristique. Type : quantitative continue
b) 5,9 minutes
c) 6 classes
d) Distribution des 30 touristes dans un centre d’information touristique
provincial selon le temps d’attente avant d’obtenir un service

Temps d'attente Nb. de touristes % de touristes


[7; 8[ 8 26,67
[8; 9[ 6 20,00
[9; 10[ 5 16,67
[10; 11[ 5 16,67
[11; 12[ 4 13,33
[12; 13[ 2 6,67
Total: 30 100,00
Source : données fictives

40
e)

Source : données fictives

f) La classe modale est [7; 8[ . Un plus grand nombre des 30 touristes dans un centre d’information
provincial ont dû attendre entre 7 et 8 minutes avant d’obtenir un service d’un préposé.
g) Md = 9,20 Au moins 50 % des 30 touristes d’un centre d’information provincial ont
attendu 9,20 minutes ou moins avant d’avoir un service.

x = 9,40 (avec les milieux) Le temps moyen d’attente des 30 touristes d’un centre d’information
provincial est de 9,4 minutes avant d’avoir un service.

9. a) Distribution de 120 étudiants selon leur résultat obtenu au concours mathématique, 2009
% cumulé
Résultat (%) Nb. d’étudiants % d’étudiants
d’étudiants
[0 ; 20[ 18 15,00 % 15,00 %
[20 ; 40[ 24 20,00 % 35,00 %
[40 ; 60[ 45 37,50 % 72,50 %
[60 ; 80[ 19 15,83 % 88,33 %
[80 ; 100[ 14 11,67 % 100,00 %
TOTAL 120 100,00 %
Source : données fictives

b) [40; 60[ Un plus grand nombre de ces 120 étudiants qui ont fait le concours
mathématique en 2009 ont obtenu un résultat entre 40% et 60%.
c) Md = 48,00 Au moins 50 % de ces 120 étudiants qui ont fait le concours de mathématiques
en 2009 ont obtenu un résultat de 48% ou moins.
x = 47,83 Le résultat moyen obtenu par ces 120 étudiants qui ont fait le concours
mathématique en 2009 est de 47,83%.
d) s = 23,88

41
10. a) Recensement
a) Distribution des 54 membres du club d’aviron
HIRAM de Montréal selon leur taille
Taille Nb. de membres % de membres
[140; 150[ 2 3,70%
[150; 160[ 5 9,26%
[160; 170[ 8 14,81%
[170; 180[ 18 33,33%
[180; 190[ 14 25,93%
[190; 200[ 6 11,11%
[200; 210[ 1 1,85%
Total 54 100,00%
Source : données fictives
c)

Source : données fictives


d)

Source : données fictives

e)

42
Source : données fictives
f) [170; 180[ Un plus grand nombre des 54 membres du club d’aviron HIRAM de Montréal
ont une taille entre 170 et 180 cm.
g) Md = 176,67 cm Au moins 50 % des 54 membres du club d’aviron HIRAM de Montréal
ont une taille de 176,67 cm ou moins.
h)  = 175,93 cm Les 54 membres du club d’aviron HIRAM de Montréal ont une taille
moyenne de 175,93 cm.
i) La moyenne, car la distribution est symétrique (pas de données extrêmes), et il n’y a aucune
classe qui se démarque des autres.
j)  = 13,09 cm
k) C.V. = 7,44 %. La distribution de la taille des 54 membres du club d’aviron HIRAM de
Montréal est homogène.
l) C75 = 185,36 Au moins 75 % des 54 membres du club d’aviron HIRAM de Montréal
ont une taille de 185,36 cm ou moins.
D3 = 170,67 Au moins 30 % des 54 membres du club d’aviron HIRAM de Montréal ont une
taille de 170,67 cm ou moins.
Q1= 168,13 Au moins 25 % des 54 membres du club d’aviron HIRAM de Montréal ont une
taille de 168,13 cm ou moins.

11. a) Qualitative ordinale


Distribution des 25 pièces électriques selon leur degré d’usure
Niveau d'usure Nb. de pièces % de pièces
peu 13 52,00%
moyen 5 20,00%
assez 3 12,00%
très 4 16,00%
Total 25 100,00%
Source : données fictives

Distribution des 25 pièces électriques selon


leur degré d'usure

très
Degré d'usure

assez

moyen

peu

0 10 20 30 40 50 60
% de pièces électriques

Source : données fictives


Remarque : on peut aussi représenter les données sous forme de diagramme à bandes verticales
ou circulaire

Mo = « peu d’usure » Un plus grand nombre des 25 pièces électriques sont peu usées.
Md = « peu d’usure » Au moins 50 % des 25 pièces électriques sont peu usées.
b) VAR : Le poids des pièces électriques TYPE : Quantitative continue

43
c) Distribution des 25 pièces électriques selon leur poids

Poids Nb. de pièces % de pièces


[10; 12[ 8 32,00%
[12; 14[ 5 20,00%
[14; 16[ 5 20,00%
[16; 18[ 4 16,00%
[18; 20[ 2 8,00%
[20; 22[ 1 4,00%
Total 25 100,00%
Source : données fictives.

d)
Distribution cumulative des 25 pièces électroniques selon
leur poids
100%
Pourcentage cumulé

80%
60%
40%
20%
0%
10 12 14 16 18 20 22
Poids (en grammes)

On obtient une médiane d’environ 14 grammes.

e) Classe modale = [10; 12[ Md = 13,80 g x =14,2 g (avec les pts-milieux)


f) s2 = 9 g
g) C85 = 17,63 g D8 = 17 g

12. a) Recensement
b) Distribution des 72 habitants Inuit selon leur âge
Nb.
Âge % d’habitants
d’habitants
[0; 15[ 6 8,33%
[15; 30[ 8 11,11%
[30; 45[ 24 33,33%
[45; 60[ 26 36,11%
[60; 75[ 4 5,55%
[75; 90[ 4 5,55%
Total 72 100,00%
Source : Données fictives

c) Cl. Mod. = [45; 60[ Le plus grand nombre des 72 habitants d’un village Inuit ont entre
45 et 60 ans.
Md = 43,75 ans Au moins 50% des 72 habitants d’un village Inuit ont 43,75 ans ou moins.
 = 42,92 ans L’âge moyen des 72 habitants d’un village Inuit est 42,92 ans.

44
13. Faux. On peut aussi regrouper les données en classes lorsqu’une variable quantitative discrète
possède plusieurs valeurs différentes.

14. Parce que les écarts positifs (où la donnée est au-dessus de la moyenne) et les écarts négatifs (où la
donnée est sous la moyenne) finissent par s’annuler. Le résultat du calcul donnerait toujours zéro.

15. Les unités de mesure sont exprimées au carré. ex : 11,2 ans2 ou 1 433 $2 ce qui les rend très
difficiles à interpréter !

16. Le coefficient de variation nous donne une idée de l’importance relative de la dispersion des
données par rapport à la moyenne. De plus, le C.V. est utile pour comparer la dispersion de 2 séries
de données même si elles sont exprimées en unités de mesure différentes.

17. a) La classe modale est 120 ;130  .


Pendant la fin de semaine du 26 et 27 août, au tournoi de soccer de l’arrondissement St-
Michel, un plus grand nombre de joueurs de 11 et 12 ans avaient une taille entre 120 et 130
cm.
 cm. Au moins 50% des joueurs de soccer âgés de 11 et 12 ans qui ont
b) La médiane est 127,33
participé au tournoi de l’arrondissement St-Michel pendant la fin de semaine du 26 et 27 août
avaient une taille de 127,33 cm ou moins.
c) La moyenne est 129,3 cm. La taille moyenne des joueurs de soccer de 11 et 12 ans qui ont
participé au tournoi de l’arrondissement St-Michel pendant la fin de semaine du 26 et 27 août
était de 129,3 cm.
d)

Source : Données fictives

45
CHAPITRE 7 : La collecte des données
__________________________________________________________________

7.0 La petite histoire de la cueillette des données

D’aussi loin que nous pouvons remonter, les rois et les chefs d’État ont souhaité déterminer la puissance
des nations qu’ils dirigeaient à l’aide de recensements partiels ou complets. En voici des exemples les plus
anciens :
3800 avant J.-C. Dans la région de Sumer de la basse Mésopotamie, on dénombrait les biens et
le bétail et, plus tard, la population elle-même.
3000 avant J.-C En Mésopotamie (région de l’Asie occidentale), on retrouve des mentions de
collectes de données sur les biens et les personnes.
1200 avant J.-C. En Chine, on fait des évaluations de productions agricoles.
Début de notre ère Un dénombrement des richesses de l’Empire Romain est mentionné dans
l’Évangile de Luc.
Toujours selon l’Évangile de Luc, on retrouve un premier recensement des
personnes (à Bethléem).
500 après J.-C. À la suite de l’effondrement de l’Empire romain, la pratique du recensement
disparaît presque, à l’exception du «Bréviaire» de Charlemagne (808 après J.-C.)
et du «Grand livre cadastral» de Guillaume le Conquérant (1086 après J.-C.),
dans lesquels figurait la liste de leurs propriétés et de leurs biens.
e
Les premières utilisations des méthodes quantitatives remontent au début du XVII siècle, en
Angleterre, en France et en Allemagne avec des études à caractère social.

Allemagne 1648 Suite à la guerre de Trente Ans (conflit politique et religieux de 1618 à 1648, né
de l’antagonisme qui opposait les princes allemands  protestants à l’autorité
impériale catholique), les Allemands ont voulu évaluer leur situation. Ils ont
alors recueilli des informations portant sur différents sujets (pertes humaines,
pertes matérielles, nouvelles structures territoriales…). De cette étude, une école
de la statistique, dont le siège était à l’Université de Göttingen, fut créée.
Angleterre 1665 C’est en Angleterre que l’évolution des méthodes quantitatives dans les études
sociales eut le plus d’ampleur. Ainsi, après l’épidémie de peste qui ravagea
Londres en 1664-1665 (environ 100 000 morts sur 460 000 habitants), il
devenait essentiel de faire le dénombrement de la population.
Canada 1666 Le premier recensement canadien a été effectué par Jean Talon (il a fait du porte-
à-porte). Les 3 215 habitants (2034 hommes et 1181 femmes) de la colonie ont
été dénombrés en fonction de leur âge, de leur sexe, de leur état matrimonial et
de leur profession.
France 1697 La grande enquête, qui portait sur une multitude d’aspects sociaux, avait comme
objectif de mettre en évidence les conséquences indésirables de la politique de
guerre de Louis XIV et de sa taxation excessive.
France 1778 La population française était estimée à 23 687 409 habitants.
France 1800-01 Création du bureau de la République.
Angleterre 1801 Adoption de la politique voulant qu’il y ait un recensement aux dix ans.
Québec 1867 Durant l’année de la confédération du Canada (réunion des provinces du
Nouveau-Brunswick, de la Nouvelle-Écosse, de l’Ontario et du Québec), le
gouvernement vota des lois concernant la collecte de données dans les domaines
suivants : l’éducation, l’agriculture, les municipalités et l’état civil.

46
Canada 1871 En vertu de l’acte concernant le premier recensement adopté le 12 mai 1870, le
jour du premier recensement devait avoir lieu au plus tard le premier mai. De
plus, selon l’article 8 de la loi constitutionnelle de 1867 (auparavant l’Acte de
l’Amérique du Nord Britannique), un recensement devait avoir lieu tous les 10 ans.
Ce premier recensement dénombrait la population des quatre provinces d’alors.
Il avait pour objectif principal de déterminer le nombre de représentants du
nouveau Parlement en fonction de la taille de la population de chacune des
provinces. Ce premier recensement couvrait une variété de sujets (territoire,
biens immobiliers, état civil, religion, éducation, justice, agriculture, commerce,
âge, sexe, race) et comptait 211 questions. Tous les ménages n’avaient pas à
répondre aux 211 questions.
Canada 1901 Le recensement est passé à 11 questionnaires et 516 questions. Les ménages
n’avaient pas à répondre à toutes les questions. Des questions sur la religion, le
lieu de naissance, la citoyenneté et la date d’immigration se sont ajoutés à la
question sur l’origine ethnique. La population canadienne se chiffrait à 5 371
051 personnes et Montréal était la ville la plus peuplée avec 267 730 habitants.
Québec 1912 Le 9 décembre, Lomer Gouin présenta un projet de loi concernant la création
du Bureau de la statistique du Québec (BSQ). Le 21 décembre, ce projet de loi
obtient la sanction royale.
Canada 1918 Création du bureau national de la statistique.
Canada 1931 Lors du recensement, on avait de nouvelles questions visant à évaluer l’ampleur
du chômage ainsi qu’à analyser les causes de ce fléau.
États-Unis 1932 Premier sondage préélectoral aux États-Unis, effectué par G.H. Gallup pour sa
belle-mère qui se présentait au Sénat.
Québec 1940 Soutenu par le premier ministre Joseph Adélard Godbout, le projet de loi 18,
sanctionné le 25 avril 1940, met fin à la discrimination électorale faite aux
femmes. Les Québécoises peuvent désormais voter et se faire élire.
Canada 1941 Pour la première fois, le recensement utilisait un échantillonnage alors que le
questionnaire détaillé était envoyé à un ménage sur dix. Cette méthode de
collecte de données détaillées à partir d’un échantillon des ménages s’est révélée
une méthode efficace, qui fournissait des données de qualité supérieure tout en
réduisant les coûts et le fardeau de réponses. Une autre innovation majeure était
l’ajout des questions sur la fertilité. Ces données ont été corrélées à celles du
revenu, de la scolarité et à d’autres caractéristiques importantes de la famille.
Québec 1965 Une première firme québécoise de sondage fut créée « Centre de Recherche sur
l’Opinion Publique » CROP (première enquête chez les membres de l’Alliance
des professeurs de Montréal). La compilation des données est alors effectuée à
la main.
Québec 1966 Les sondages politiques donnaient Jean Lesage gagnant aux élections. Or, c’est
Daniel Johnson qui est devenu Premier ministre! En réalité, Jean Lesage avait
obtenu beaucoup plus de voix que son adversaire. Mais les sondages de l’époque
ne tenaient pas compte de la répartition par circonscriptions. Aujourd’hui, on
évite ce genre d’erreurs.
Canada 1971 Le Bureau national de la statistique devient Statistique Canada.
Une nouvelle loi autorise un recensement aux cinq ans.
L’auto-dénombrement, méthode selon laquelle le répondant remplit lui-même
le questionnaire a été introduit en 1971. Cette méthode a permis de minimiser
les erreurs d’interprétation de la part des recenseurs et d’améliorer la qualité des
données. 41 000 recenseurs ont été nécessaires pour effectuer ce recensement.
Québec 1986 Création de la maison de sondage Léger et Léger qui deviendra Léger Marketing.
Québec 1999 Le premier avril, le Bureau national de la statistique devient l’Institut de la
statistique du Québec (ISQ) d’après le projet de loi 441 sanctionné le 20 juin

47
1998. Il diffuse les statistiques officielles sur l’économie, la démographie, la
culture, le travail, la rémunération et la santé.
Canada 2001 15 mai, jour du 19ième recensement du Canada. Du premier au 12 mai, plus de
11,8 millions ménages recevaient un questionnaire.
Pour la première fois, on recueillait des renseignements sur les partenaires en
union libre (même sexe), avec ou sans enfant à la maison.
Canada 2006 L’avant-dernier recensement a eu lieu le 16 mai 2006. Ce jour-là, on a demandé
à environ 32,5 millions de personnes réparties sur 9,2 millions de kilomètres
carrés du territoire canadien « d’être du nombre ».
Il y a eu cinq grands changements lors de ce recensement :
1. la production d’un fichier d’adresses qui servira à l’envoi postal des
questionnaires à au moins deux tiers des ménages (les autres questionnaires
seront livrés en personne);
2. la possibilité de compléter le questionnaire du recensement par le biais
d’internet;
3. la création d’un centre de traitement à haute sécurité où sera acheminé tous
les questionnaires complétés par les répondants;
4. l’automatisation de l’enregistrement, de la numération et de la saisie des
données des questionnaires;
5. l’automatisation des étapes de vérification des questionnaires et du suivi
téléphonique des questionnaires rejetés au contrôle.
Canada 2010 Changement de la loi par le gouvernement conservateur de Stephen Harper. En
vertu de la nouvelle loi, le formulaire long est réduit d'une cinquantaine de
questions et remplacé par une enquête de type volontaire. Cette modification a
soulevé un tollé de la part des milieux scientifiques, ainsi que des nombreux
organismes qui dépendent de statistiques fiables pour leur planification. Ainsi
qu'on pouvait le prévoir, le recensement statistique de 2011 a révélé
d'importantes lacunes : «Le portrait de tout un lot de petites municipalités, 1128
au total, n’est plus disponible, car moins de la moitié de leurs habitants ont
répondu au questionnaire de 2011, ce qui fausse les résultats.»

48
7.1 Recensement ou sondage
Dans toutes les études statistiques, peu importe la façon choisie pour recueillir l’information, il faut
d’abord déterminer si on recueille l’information auprès de tous les éléments de la population
(recensement) ou seulement une partie de celle-ci (sondage). Si on choisit de recueillir l’information
auprès d’une partie de la population, il faudra donc sélectionner un échantillon. L’échantillonnage est
le procédé par lequel on choisit un échantillon.

Les raisons qui nous poussent à effectuer un sondage plutôt qu’un recensement sont :
▪ Une population qui est trop grande;
▪ Une population qui est inaccessible;
▪ Les coûts élevés associés à un recensement;
▪ Un recensement est souvent trop long à réaliser;
▪ Un recensement peut s’avérer destructif;
▪ Un trop grand nombre de recensements deviendrait un fardeau pour la population.

Pour qu’un sondage soit significatif, il faut que l’échantillon utilisé soit, entre autres, représentatif de la
population, c’est-à-dire un reflet fidèle de cette dernière. Pour s’assurer de la bonne représentativité de
notre échantillon, il faut tout d’abord s’assurer de posséder une bonne base de sondage (donnée par la
liste de tous les individus ou éléments de la population observée) et il faut que cet échantillon soit choisi
selon certaines méthodes d’échantillonnage.

7.2 L’échantillonnage
L'échantillonnage fait partie de la démarche de base de la statistique appliquée. Ainsi, supposons que les
premières parties de l'étude statistique soient complétées, c'est-à-dire que le cadre de la recherche est bien
déterminé et que les hypothèses ont été posées. L’étape suivante sera la cueillette des données. L'étude
des techniques utilisées pour choisir un échantillon ainsi que l’étude des relations entre les variables d’une
population et d’un échantillon constituent la théorie de l'échantillonnage.

7.3 Les méthodes d’échantillonnage probabilistes (ou aléatoires)


Les méthodes d'échantillonnage, c'est-à-dire les méthodes utilisées pour choisir un échantillon, se divisent
en deux groupes: les méthodes probabilistes (dues au hasard) et les méthodes non probabilistes.
Nous allons d'abord étudier les méthodes probabilistes pour ensuite écrire quelques mots sur les
méthodes non probabilistes.

49
7.3.1 Échantillonnage aléatoire simple

L'échantillonnage aléatoire simple consiste à choisir des individus au hasard avec comme principe de
base que chaque unité statistique ait la même chance d'être choisie pour faire partie de l'échantillon.

Illustration de la méthode d’échantillonnage aléatoire simple : Population de taille N=25

1 2 3 4 5 Sélection de n
nombres aléatoires.
6 7 8 9 10 Ex : Échantillon de taille n=5

11 12 13 14 15

16 17 18 19 20

21 22 23 24 25

Étapes de l'échantillonnage aléatoire simple :


1. On se procure une liste de tous les individus ou éléments de la population et on numérote
chacun de ces individus de 1 à N.

2. On choisit au hasard "n" nombres différents correspondant aux "n" individus de la


population devant faire partie de l'échantillon.
Ces nombres sont généralement choisis à l'aide d’un logiciel ou d'une calculatrice qui possède un
générateur de nombre pseudo aléatoires. Sous Excel, il existe quelques fonction pour générer de tels
nombres et sur une calculatrice, on trouve généralement une touche "RANDOM" pour activer cette
fonction.

Avantages et inconvénients de l’échantillonnage aléatoire simple :


Avantages : Inconvénients :

▪ Simplicité. ▪ Il faut posséder une bonne base de


▪ L’échantillon représente bien la sondage, c’est-à-dire une liste de tous les
population individus ou éléments de la population qui
soit complète, sans répétition et à jour.

▪ Peut être très long et fastidieux si on


n'utilise pas un ordinateur (pour de grands
échantillons).

Ex. : On veut connaître la saveur de crème glacée préférée des gens habitant un certain quartier.
Connaissant l’adresse des habitants du quartier, on choisit au hasard 100 numéros civiques en faisant
sortir 100 nombres aléatoires avec l’ordinateur. Nous irons ensuite interroger ces 100 personnes qui
formeront notre échantillon.

50
7.3.2 Échantillonnage systématique (ou périodique)

L'échantillonnage systématique consiste à choisir d'abord un individu ou un élément au hasard, puis à


choisir les unités statistiques à intervalles réguliers dans la liste de la population.

Illustration de la méthode d’échantillonnage systématique : Population de taille N=24

1. Taille de l’échantillon voulu : n=4.


2. Pas de sondage : 24/4 = 6
1 2 3 4 5 6 3. Départ choisi aléatoirement : no. 3

7 8 9 10 11 12 Échantillon de taille n = 4.

13 14 15 16 17 18 3 9 15
21

19 20 21 22 23 24

Étapes de l'échantillonnage systématique:


1. On se procure une liste des individus ou éléments de la population et on les numérote de 1
à N.

2. On détermine le pas de sondage c'est-à-dire l'intervalle avec lequel on choisit les individus
de notre échantillon.
Le pas de sondage, qu’on doit arrondir à l’entier, est déterminé par :
N( taille de la population )
Pas de sondage =
n( taille de l'échantillon )

3. On choisit le premier individu en sélectionnant un nombre au hasard entre 1 et "N".

4. On choisit les individus suivants en ajoutant ou en retranchant " le pas " au numéro du
premier individu choisi et ainsi de suite jusqu'à la formation complète de l'échantillon.

Avantages et inconvénients de l’échantillonnage systématique :


Avantages : Inconvénients :

▪ Sélection d'un seul nombre aléatoire. ▪ Il faut posséder une bonne base de
▪ Très rapide. sondage, c’est-à-dire une liste de tous les
▪ Bonne répartition de l'échantillon dans la individus ou éléments de la population qui
base de sondage. soit complète, sans répétition et à jour.
▪ Il faut se méfier des effets de périodicité.

Ex

51
7.3.3 Échantillonnage stratifié

L'échantillonnage stratifié est le mode d'échantillonnage par lequel les individus sont choisis au hasard en
respectant les strates connues de la population. Une strate est un sous-groupe d’individus de la population
ayant une (ou des) caractéristique(s) commune(s). Les strates doivent être construites de telle sorte qu'un
individu n’appartienne qu’à une seule strate.

Illustration de la méthode d’échantillonnage stratifié : Population de taille N=36


Échantillonnage aléatoire simple
dans chaque strate.
Strate 1 : 1/6 de la population Strate 1 :
1/6 de l’échantillon.
Strate 2 :
1/3 de l’échantillon.

Strate 2 : 1/3 de la population Strate 3 :


1/2 de l’échantillon.

Strate 3 : 1/2 de la population


Étapes de l'échantillonnage stratifié:
1. On choisit les strates susceptibles d'avoir une influence sur les caractéristiques à l'étude.
2. On se procure une liste de la population selon les strates retenues.
3. On calcule le pourcentage des individus constituant chacune des strates.
4. On détermine le nombre d'individus correspondant à chacun de ces pourcentages pour
l'échantillon.
5. On utilise l'échantillonnage aléatoire simple pour choisir les individus de chaque strate
constituant l'échantillon.

Avantages et inconvénients de l’échantillonnage stratifié :


Avantage : Inconvénients :

▪ L'échantillon représente bien ▪ Il faut bien connaître chacune des caractéristiques


chacune des caractéristiques de de la population.
la population. ▪ Il peut être difficile de rejoindre des individus
faisant partie d'une strate peu nombreuse de la
population.
▪ Ce type d'échantillonnage est souvent très
coûteux.
Ex. :

52
7.3.4 Échantillonnage par grappes

L'échantillonnage par grappes consiste à choisir au hasard des groupes d'individus appelés grappes.
Chacune de ces grappes doit être hétérogène et de taille semblable. L'échantillon sera donc composé de
toutes les unités statistiques des grappes choisies aléatoirement. On devrait choisir cette technique
d’échantillonnage seulement lorsqu’il y a beaucoup de variation des caractéristiques ou variables étudiées
à l’intérieur de chaque grappe, mais peu de variation d’une grappe à l’autre.

Illustration de la méthode d’échantillonnage par grappes :


On a une population de taille N = 24 et on veut un échantillon de taille n= 8 environ.

Sélection aléatoire
de 2 grappes qui
forment
l’échantillon 2

1 2 3 6

Échantillon final de taille n = 9

4 5 6

Étapes de l'échantillonnage par grappes:

1. On détermine des grappes qui doivent contenir à peu près le même nombre d'individus.

2. On détermine le nombre de grappes nécessaires (on doit arrondir à l’entier):


taille de l' échantillon " n "
nombre de grappes =
nombre moyen d' individus par grappes

3. On choisit les grappes par l'échantillonnage aléatoire simple.

4. On interroge tous les individus de chacune des grappes choisies.

Avantages et inconvénients de l’échantillonnage par grappes :


Avantage : Inconvénients :

▪ Lorsque la population est répartie sur un ▪ L’échantillon devient non représentatif si


grand territoire, la méthode réduit les les grappes sont homogènes.
déplacements donc aussi les coûts.

Ex. :

53
7.4 Les méthodes d'échantillonnage non probabilistes (non aléatoires)
L'échantillonnage non probabiliste repose sur un choix arbitraire des unités; c'est l'enquêteur qui choisit
les unités et non le hasard. Dans ce cas, il est plus risqué et souvent même erroné de généraliser les
résultats à toute la population.

5.4.1 Échantillonnage à l'aveuglette (accidentel)

L'échantillonnage à l'aveuglette consiste à choisir les unités de l'échantillon de façon totalement arbitraire.
Les résultats obtenus seront acceptables seulement s'il existe une bonne homogénéité dans la population,
ce qui est rarement le cas. Même si un échantillon construit par cette technique n’est pas représentatif, il
pourrait être valable. C’est le cas pour un journaliste qui l’utilise afin de dresser un portrait de la variété
des opinions existantes sur un sujet d’actualité. Par contre, on ne peut pas généraliser les résultats à toute
la population.

Ex. : Les interviews dans la rue, les interviews à la porte d'un magasin.

5.4.2 Échantillonnage de volontaires

L'échantillonnage de volontaires consiste à choisir les individus de l'échantillon en faisant appel à des
volontaires. C'est une méthode souvent utilisée en psychologie ou en médecine quand la recherche peut
s'avérer longue, exigeante, gênante, douloureuse et dangereuse pour les participants. Généralement, la
demande de volontaires est faite à l’aide de journaux, de la radio ou de la télévision et très souvent on
observe un écart plus ou moins prononcé entre les caractéristiques d’un échantillon de volontaires et
celles de la population. Cet écart est très prononcé lorsque le sujet du sondage est polémique parce
qu’habituellement les personnes aux opinions les plus extrêmes ou les personnes les plus concernées par
le sujet se manifestent en plus grand nombre.

Ex. : À une ligne ouverte à la radio, on demande aux auditeurs de se prononcer sur le sujet du jour :
« Êtes-vous pour ou contre la « Charte affirmant les valeurs de laïcité et de neutralité religieuse de l'État ainsi
que d'égalité entre les femmes et les hommes et encadrant les demandes d'accommodement » telle que présentée par
le précédent gouvernement péquiste ? »

5.4.3 Échantillonnage par quotas

L'échantillonnage par quotas est largement utilisé dans les enquêtes d'opinion et les études de marché.
Dans ce type d'échantillonnage, l'enquêteur choisit un échantillon qu'il veut le plus représentatif possible
des différentes strates de la population: sexe, âge, scolarité, etc. Cette méthode a l'avantage d'être peu
coûteuse et assez rapide à effectuer. De plus, elle ne suppose pas que l'on possède une liste de tous les
individus de la population. La différence avec l'échantillonnage stratifié vient du fait que les enquêteurs
sont libres d’interroger qui ils veulent. De ce fait, les individus ne sont pas choisis au hasard.

Ex. :

54
7.5 Erreurs d’observation
Lorsqu’on choisit un échantillon, on voudrait bien qu’il soit une représentation fidèle de la population.
Toutefois, on accepte que cette représentation ne soit pas parfaite et que certaines erreurs, attribuables
aux aspects aléatoires de l’échantillonnage, s’infiltrent dans les résultats du sondage. On appelle ces
erreurs des erreurs d’échantillonnage.

Toutefois, d’autres erreurs peuvent contribuer à fausser les résultats d’un sondage. Elles sont attribuables
à l’imperfection humaine, à l’une ou à l’autre des phases du sondage. On les appelle des erreurs
d’observation. Les principales sources de ces erreurs d’observation sont :

▪ Termes mal définis : il est important d’employer des termes que tous comprennent et
interprètent de la même façon. Il faut très bien définir les termes qui portent à confusion pour
ne pas laisser libre cours aux interprétations.

▪ Mauvaise base de sondage : il faut cerner et décrire parfaitement la population visée par le
sondage. Or, il arrive souvent que la base de sondage soit : incomplète, inexacte, ancienne,
d’accès difficile et inappropriée à une enquête.

▪ Question inadéquate ou mal posée : il faut s’assurer que les questions sont clairement
formulées et ne comportent pas d’ambiguïté (cet aspect sera abordé dans votre cours SCH-
300).

▪ Réponses ou renseignements inexacts : à une question posée, il faut s’attendre à une


réponse juste et honnête. Cet aspect est très difficile à contrôler et c’est pour cette raison qu’on
doit toujours avoir des questions qui sont très bien formulées et qui ne comportent pas
d’ambiguïté.

▪ Biais dû aux relations interpersonnelles : le sondeur qui pose les questions ne doit pas
diriger ou influencer les réponses. La personne qui répond ne doit pas être indisposée par le
sondeur ou par la méthode employée.

▪ Absence de réponses : dans les résultats d’une étude, il faudra tenir compte des personnes qui
sont indécises ou qui refusent de répondre. Le traitement de ces non-réponses n’est pas simple.
Il y a différentes manières de tenir compte de ces personnes. En voilà quelques-unes : les
répartir au prorata des autres réponses; augmenter la taille de l’échantillon (ce qui ne règle pas
vraiment le problème); substituer aux individus non répondants des individus analogues;
effectuer un sous-échantillonnage de non répondants et y recueillir les données selon des
méthodes plus efficaces. Comme vous pouvez le voir, l’absence de réponses n’est pas facile à
résoudre et les moyens de résoudre ce problème sont présentés dans d’autres cours de
statistiques plus avancés.

▪ Mauvais traitement des données : le mauvais traitement des données est souvent dû à des
erreurs de calcul ou à une utilisation erronée de concepts et de formules.

55
7.6 Exercices
1. Qu’est-ce qu’une base de sondage ?

2. Par la méthode d’échantillonnage systématique, on désire prélever un échantillon de 85 noms sur


une liste qui en compte 447. Quel sera alors le pas de sondage ?

3. Expliquer pourquoi les méthodes d’échantillonnage non probabilistes sont souvent considérées
comme non scientifiques.

4. Quel est le principal inconvénient de l’échantillonnage systématique ?

5. Quelles sont les deux principales conditions préalables à l’utilisation de la technique


d’échantillonnage stratifié?

6. Quelles sont les étapes requises pour former un échantillon à l’aide de la technique d’échantillonnage
systématique?

7. Vrai ou Faux ?
a) Lors d’un recensement, on recueille l’information auprès de tous les individus de la population.
b) Une base de sondage est la méthode à suivre pour effectuer un sondage.
c) L’échantillonnage stratifié est une technique d’échantillonnage non probabiliste car l’enquêteur
peut rejeter un certain nombre d’unités lors de la prise de mesure.
d) Une base de sondage est nécessaire lorsque nous utilisons une technique d’échantillonnage
probabiliste.
e) La première qualité d’un échantillon est d’être bien représentatif de la population.
f) L’échantillonnage à l’aveuglette est une technique d’échantillonnage probabiliste.
g) On peut utiliser la technique d’échantillonnage systématique lorsque nous sommes assurés qu’il
n’y a pas un phénomène de répétition dans la population.
h) L’échantillonnage de volontaires ne doit jamais être utilisé en sciences humaines.
i) Pour utiliser l’échantillonnage stratifié, il faut connaître exactement chacune des strates de la
population.
j) Lorsqu’on utilise l’échantillonnage par grappes il faut s’assurer que les grappes soient
homogènes.

8. Pour chacune des situations suivantes, dire de quelle méthode d’échantillonnage il s’agit en précisant
s’il s’agit d’une méthode probabiliste ou non probabiliste.

a) Pour démontrer votre insatisfaction face au service reçu lors de votre dernière visite au
restaurant, vous décidez de remplir une carte d’appréciation que vous remettez en mains
propres au gérant.
b) On désire savoir si les visiteurs ont apprécié l’exposition « Les pharaons d’Égypte » présentée
au musée d’histoire ancienne. La personne chargée de l’enquête veut que son échantillon soit
formé de filles, de garçons, d’étudiants et d’adultes, avec les bonnes proportions pour chacune
des catégories. Elle interroge alors un après l’autre les visiteurs se présentant au musée, jusqu’à
ce que chacune des catégories soit remplie.
c) À la loterie 6 / 49, les six boules qui sortent du boulier forme la combinaison gagnante
permettant de remporter le gros lot.
d) Le président de votre association étudiante désire savoir ce que vous pensez de l’abolition de
la nourriture de type « fast-food » à la cafétéria. Un lundi midi, il décide de se promener dans
le collège et d’interroger les étudiants qu’il rencontre.

56
e) Le propriétaire d’une érablière désire vérifier l’état de santé de ses arbres. Pour ce faire, il divise
son érablière en 12 zones, et choisit ensuite 4 zones au hasard. Il analyse ensuite tous les arbres
des zones sélectionnées.
f) En se servant d’une liste alphabétique des 1045 étudiants d’un Collège, un psychologue choisi
aléatoirement 200 étudiants et les interroge sur la pertinence d’instaurer un service d’entraide
où les élèves en détresse psychologique pourraient être jumelés à d’autres élèves ayant vécu les
mêmes problèmes qu’eux.
g) Une annonce dans le journal étudiant indique que l’on recherche des personnes pour participer
à une étude portant sur le racisme en milieu collégial. Vous devez vous présenter au local A-
6700 avant la fin de la semaine si vous désirez répondre au questionnaire.
h) On invite des gens à téléphoner pour donner leur opinion sur la compétence des employés de
garderie.
i) On demande à chaque enquêteur d’interroger 10 hommes de moins de 20 ans, 35 hommes de
20 à 50 ans et 25 hommes de plus de 50 ans afin de déterminer s’ils connaissent les symptômes
associés au cancer de la prostate.
j) On sélectionne de manière aléatoire 25 pages de l’annuaire téléphonique et on interroge tous
ceux dont les noms apparaissent sur ces pages.
k) On utilise la touche RANDOM sur une calculatrice pour choisir 40 nombres compris entre 1
et 1 344. On forme ensuite notre échantillon en sélectionnant sur une liste électorale les 40
individus associés à ces 40 nombres.
l) Pendant le télé journal de vendredi passé, on apprenait que les américains songeaient à interdire
l’entrée sur leur territoire de la patate douce québécoise parce qu’ils avaient identifié un ver qui
pourrait détruire toute leur propre production. Pour vérifier si la patate douce québécoise
possédait ce ver, les scientifiques ont effectué une étude des champs québécois. Pour ce faire,
ils ont divisé chacun des champs en secteurs pour ensuite sélectionner certains secteurs au
hasard et vérifier chacun des plants de patate des secteurs sélectionnés.
m) Dans le but de connaître l’opinion des gens concernant la hausse proposée par le gouvernement
sur les frais en garderie, on interroge toutes les personnes qui se présentent à la porte principale
d’un centre commercial, un jeudi midi.
n) Pour faire un portrait d’un membre type, les dirigeants du centre de conditionnement physique
«ÀBOUTDESOUFFLE» étudient une fiche d’inscription à toutes les 25 (après avoir
sélectionné la première au hasard entre les 25 premières fiches) parmi ses dossiers de membres
actifs.
o) Pour vérifier l’efficacité de son nouveau médicament, la compagnie pharmaceutique «PILULE»
passe une petite annonce dans les journaux dans le but de trouver 25 personnes voulant faire
l’essai de son nouveau médicament.
p) Afin de connaître l’avis des clients concernant le service fait par les serveurs et serveuses de
son restaurant, le propriétaire ordonne au portier de faire compléter, à chaque jour, un petit
questionnaire de 5 questions à 2 adolescents, 5 adultes et 3 personnes âgées.

9. Le maire de St-Alphonse désire envoyer 12 familles de sa ville au prochain congrès provincial des
municipalités dont le thème principal sera «La famille». Sachant qu’il possède déjà une liste numérotée
des 12 564 familles de sa ville, comment devra-t-il s’y prendre pour sélectionner ces familles :
a) à l’aide de l’échantillonnage aléatoire simple?
b) à l’aide de la technique d’échantillonnage systématique?

57
10. Un distributeur de films se rend à un grand festival pour y acheter des films. Évidemment, il désire
se procurer des films qui plairont au public. Il vient d’en voir un qu’il a aimé, mais il n’est pas
convaincu que ses goûts correspondent à ceux du grand public. Il décide d’effectuer une enquête par
1
sondage auprès de personnes qui ont vu ce film au festival .
1
Amyotte Luc, Méthodes quantitatives, Les éditions du renouveau pédagogique, St-Laurent,
Québec, page 90.
a) Peut-il réaliser son sondage par échantillonnage aléatoire simple? Expliquer votre réponse.

b) Quels problèmes pourraient soulever un échantillonnage de volontaires?
c) Le distributeur pense à se poster à la sortie du cinéma et à interroger les 20 premières personnes
qui quitteront la salle. Expliquer pourquoi il ne devrait pas procéder de la sorte.
d) Il décide plutôt d’interroger la 3e personne qui sort de la salle, puis la 8e, la 13e et ainsi de suite.
Quelle technique d’échantillonnage utilise-t-il? Quel est le pas de sondage?
e) Les commentaires des personnes faisant partie de l’échantillon sont tous favorables. Le
distributeur décide donc d’acheter le film. Quelques semaines plus tard, alors qu’il projette le
film en salle, beaucoup de spectateurs sortent avant la fin du film en maugréant. Expliquer
pourquoi ces faits ne sont pas en contradiction avec les résultats obtenus auprès des personnes
de l’échantillon.

11. Lors d’une étude menée dans un centre commercial afin de déterminer quelle saveur de Chips était
préférée par le grand public, on a compilé les résultats suivants :
Distribution de s pe rsonne s inte rrogée s se lon le ur sav e ur
de chips préférée

Vinaigre
8% Ordinaire
20%

BBQ
34%

Ketchup
24%

Bacon
14%

Ordinaire Ketchup Bacon BBQ Vinaigre

Source : Données fictives


a) Quelle est la variable à l’étude?
b) Quelle est la technique d’échantillonnage utilisée?
c) Le lendemain, dans l’un des magasins du centre commercial, on disait : «les chips BBQ sont les
plus aimés par la population». Dire pour quelle raison on ne peut faire une telle affirmation.
d) Sachant que 150 personnes ont participé à cette dégustation, compléter le tableau de
distribution de cette situation.
Saveur de chips Nombre de personnes % de personnes
BBQ
Ordinaire
Ketchup
Bacon
Vinaigre
Total
Source : Données fictives

58
7.7 Réponses
1. C’est la liste de tous les individus constituant la population.

2. Le pas de sondage r = 5.

3. Elles sont considérées comme non scientifiques parce que les individus sont choisis de manière
arbitraire (et non aléatoire) et qu’aucune loi ou modèle mathématique ne décrit un tel comportement.
Au lieu d’insister pour que Monsieur X fasse partie de l’échantillon dans le cas de non-réponse, on
remplace simplement la donnée de M. X par celle d’un autre répondant. Et pourtant, si c’est M. X
qui a été sélectionné par la « méthode d’échantillonnage », ce sont ses caractéristiques que l’on
recherche pour l’échantillon. Dans les méthodes probabilistes, on traite la non-réponse à l’aide de
méthodes statistiques (pondération, imputation des données, etc.).

4. Il peut laisser échapper certains phénomènes de périodicité.

5. Il faut posséder une très bonne base de sondage et il faut très bien connaître chacune des strates de
la population.

6. a) Posséder une bonne base de sondage;


b) Numéroter chacun des individus de la population;
c) Évaluer le pas de sondage;
d) À l’aide d’une table de nombres aléatoires, choisir au hasard le numéro de notre première unité
de notre échantillon;
e) À cette première unité, additionner et retrancher le pas de sondage afin de connaître le numéro
des autres unités de notre échantillon.

7. a) V b) F c) F d) V e) V f) F
g) V h) F i) V j) F

8. a) Non Probabiliste - De volontaires


b) Non Probabiliste - Par quotas
c) Probabiliste - Aléatoire simple
d) Non probabiliste - À l’aveuglette
e) Probabiliste - Par grappes
f) Probabiliste - Aléatoire simple
g) Non Probabiliste - De volontaires
h) Non Probabiliste - De volontaires
i) Non Probabiliste - Par quotas
j) Probabiliste - Par grappes
k) Probabiliste - Aléatoire simple
l) Probabiliste - Par grappes
m) Non Probabiliste - À l’aveuglette
n) Probabiliste - Systématique
o) Non probabiliste - De volontaires
p) Non Probabiliste - Par quotas

59
9. a) À l’aide, par exemple, de la fonction RANDOM, il obtient un nombre aléatoire entre 1 et 12564.
Ce nombre correspond à la famille choisie au hasard faisant partie de l’échantillon. Comme il désire
obtenir un échantillon de 12 familles, il répètera se procéder 11 autre fois.
b) Il calcule d’abord le pas de sondage 𝑟 = 1047. À l’aide, par exemple, de la fonction RANDOM,
il obtient un nombre aléatoire entre 1 et 12564. Ce nombre correspond au point de départ pour
former l’échantillon systématique. La famille associée choisie au hasard fera partie de l’échantillon.
Comme il désire obtenir un échantillon de 12 familles, il additionnera (soustraira) le pas de sondage,
1047, au nombre obtenu et chaque nouveau nombre représentera une nouvelle famille à ajouter à
l’échantillon. Il répétera ce processus jusqu’à l’obtention de 12 familles.

10. a) Non, car il n’a pas la liste de tous les participants de ce festival.
b) On risquerait d’avoir une surreprésentation de certains groupes dans l’échantillon : des
personnes qui ont aimé ou qui ont détesté le film, des personnes qui ont intérêt à ce que le film
se vende bien, etc. Par conséquent, l’échantillon ne serait pas représentatif.
c) Les personnes qui sortent les premières seront probablement celles qui ont le moins aimé le
film. Donc, l’échantillon obtenu ne serait pas représentatif.
d) Échantillonnage systématique avec un pas de sondage égal à 5.
e) Les personnes qui fréquentent un festival de cinéma n’ont pas nécessairement les mêmes goûts
que le grand public; l’échantillon choisi n’était pas tirée de la population cible et risquait de ne
pas être représentatif de cette dernière.

11. a) La saveur de chips préférée.


b) Échantillonnage accidentel.
c) Principalement parce que l’échantillon n’a pas été choisi au hasard.
d)
Distribution des 150 personnes interrogées selon leur saveur de chips préférée
Saveur de chips Nombre de personnes % de personnes
BBQ 51 34,0 %
Ordinaire 30 20,0 %
Ketchup 36 24,0 %
Bacon 21 14,0 %
Vinaigre 12 8,0 %
Total 150 100,0 %
Source : Données fictives

60
CHAPITRE 8 : La Distribution normale
__________________________________________________________________

8.0 Introduction
À la section précédente, nous avons vu que le polygone des fréquences était une bonne représentation
de la distribution des données d’une variable quantitative continue. De plus, cette représentation
graphique va nous permettre de comparer les distributions de variables différentes. Ainsi, si la forme de
deux polygones des fréquences est presque identique, nous pouvons conclure que la distribution des
données pour ces deux variables est, à peu de choses près, la même.

Une des principales caractéristiques d’une population ou d’un échantillon est sa distribution. Il
existe plusieurs distributions théoriques qui ont été étudiées au courant des derniers siècles (par exemple
la binomiale, l’exponentielle, la Student, la normale, etc.). Dans le cadre de ce cours, nous nous limitons
à la distribution normale. Pour ce faire, nous identifions une variable dont la distribution est
« suffisamment près » de la normale et nous utilisons ensuite ce modèle pour caractériser notre variable
à l’étude. Dans les prochains chapitres, c’est à partir de ce modèle que nous allons construire les intervalles
de confiance et faire des tests d’hypothèses.

Dans un premier temps, il est donc nécessaire de faire l’étude de la distribution normale.

8.1 A-t-on une distribution normale?


Comment reconnaît-on une distribution normale? Qu’est-ce qui la caractérise? Que fait-on avec une
distribution normale? Voilà des questions auxquelles nous aimerions répondre. Pour ne pas dépasser le
cadre de ce cours, nous allons essayer de répondre à ces questions à partir d’un exemple simple.

Ex. : On a sélectionné aléatoirement 110 étudiants du collège de Maisonneuve et à la question « Le


midi, combien de temps prenez-vous pour votre repas? », on a obtenu les résultats suivants :
Distribution de 110 des 5600 étudiants du collège de
Maisonneuve selon le temps pris pour leur repas du midi.

Temps Nombre Pourcentage


(minutes) d'étudiants d'étudiants
[ 5 ; 10 [ 8 7,27%
[ 10 ; 15 [ 12 10,91%
[ 15 ; 20 [ 18 16,36%
[ 20 ; 25 [ 29 26,36%
[ 25 ; 30 [ 22 20,00%
[ 30 ; 35 [ 15 13,64%
[ 35 ; 40 [ 6 5,45%
Total 110 100,00%
Source : Données fictives

61
À partir de cette distribution des fréquences, on obtient le polygone de fréquences suivant :
Distribution de 110 des 5600 étudiants du collège de Maisonneuve selon le temps
nécessaire pour prendre le repas du midi

35
Nombre d'étudiants 30
25
20
15
10
5
0
0 5 10 15 20 25 30 35 40 45
Temps nécessaire (minutes)

Une telle représentation graphique s’approche d’une distribution normale. Si la distribution avait été faite
à partir de la population entière, il aurait fallu faire un regroupement en classes avec un plus grand
nombre de classes et de largeur plus petite. Une fois lissé, le polygone des fréquences aurait pu ressembler
à:

Distribution de 110 des 5600 étudiants du collège de Maisonneuve selon le temps


nécessaire pour prendre le repas du midi

35
30
Nombre d'étudiants

25
20
15
10
5
0
0 5 10 15 20 25 30 35 40 45
Temps nécessaire (minutes)

Si la taille de la population à l’étude est très grande, voir infinie, le polygone des fréquences aurait pu
prendre la forme d’une cloche comme l’illustre le graphique suivant.

Lorsque la distribution d’une population ressemble à une telle courbe on dit que cette population est
distribuée approximativement selon une distribution normale.

62
8.2 La distribution normale
La distribution normale est l’une des plus importantes distributions de variables quantitatives dont les
données sont regroupées en classes. Cette distribution est caractérisée par le fait qu’un grand nombre de
résultats observés lors d’une expérience s’accumulent autour de la moyenne et que les valeurs les plus
rares s’éloignent de part et d’autre de cette dernière. Des phénomènes étudiés en sciences humaines ont
démontré que plusieurs variables pouvaient être définies ou représentées par une distribution normale.
Ainsi, les précipitations de pluie (mm) dans une région donnée, le poids des nouveau-nés, la grandeur des
personnes, le diamètre des oranges, les résultats académiques, le quotient intellectuel et plusieurs autres
variables que l’on retrouve dans la nature sont des variables qui sont distribuées selon une distribution
presque normale. En fait, les variables dont les données sont suffisamment nombreuses et qui obéissent
aux seules lois du hasard, sont susceptibles d’avoir des distributions normales.

Pourquoi tant de variables ont-elles une distribution approximativement normale? Les mathématiciens
(entre autres Émile Borel 1871-1956) ont prouvé qu’une variable dont la valeur dépend de l’influence
cumulative d’un grand nombre de facteurs indépendants est normale. Par exemple, pensons au poids
d’une personne. Celui-ci peut varier en fonction de la taille, de l’ossature, du régime alimentaire, de
l’activité physique, de l’hérédité et quoi encore! Une variable comme celle-là, étudiée sur une population
suffisamment grande, donne un polygone de fréquences qui a, à peu de choses près, la forme d’une
cloche, c’est-à-dire une courbe normale.

Il est à remarquer que plusieurs synonymes sont utilisés pour parler de la distribution normale; courbe
normale, distribution en forme de cloche, modèle normal, loi normale. On l’appelle aussi la loi de Gauss-
Laplace (Carl Friedrich Gauss (1777-1855) et Le Marquis de Laplace (1749-1827)), en l’honneur de ces
deux mathématiciens. Ils avaient formulé cette loi pour décrire les erreurs d’observation commises en
astronomie et en avaient démontré certaines propriétés.

8.2.1 Les caractéristiques de la loi normale

En 1733, Abraham de Moivre présenta une formulation mathématique de cette courbe en forme de
cloche. Soit


(x−  )2
1 2
f (x) = e 2
 2

À partir de cette fonction, on constate que la loi normale est entièrement déterminée par sa moyenne 
2
et par sa variance  :

Note : Nous n’aurons jamais à utiliser cette fonction dans le cours MQH-300. 

63
Ce qu’il faut savoir !
Bien qu’il existe un très grand nombre de courbes normales, elles ont toutes en commun les
caractéristiques suivantes :

▪ La forme de la courbe est celle d’une cloche parfaitement symétrique par rapport à la moyenne :
le mode, la médiane et la moyenne ont la même valeur. Théoriquement, la courbe s’étend
indéfiniment de chaque côté de la moyenne.
▪ L’aire totale entre la courbe et l’axe des x est toujours égale à 1 (100%).
▪ Puisque l’aire totale est égale à 1, alors par symétrie par rapport à la moyenne, on a que l’aire à
droite et l’aire à gauche de la moyenne sont chacune égale à 0,5 (50%).
▪ La surface entre la courbe et l’axe des x est répartie de la façon suivante :
1. La surface comprise entre   −  ;  +   représente 68,3% de la surface totale.
2. La surface comprise entre   − 2 ;  + 2  représente 95,44% de la surface totale.
3. La surface comprise entre   − 3 ;  + 3  représente 99,7% de la surface totale.

Lorsqu’une variable X se comporte approximativement comme une loi normale, on note celle-ci par :

X ~ N ( ;  2 )

Il faut lire : X est une variable qui est définie par une loi normale de moyenne  et de variance
 2 . Donc, lorsque les deux paramètres  et  2 sont connus, la loi normale est entièrement connue.

64
Si la moyenne change et la variance ne change pas, alors la courbe normale se déplace horizontalement
en conservant sa forme initiale.

Si la variance change et la moyenne ne change pas, alors la courbe devient plus évasée si la variance
augmente et plus concentrée autour de la moyenne si la variance diminue.

65
( 2
Ex. : Soit la courbe normale N 40 ;10 . )
Sa moyenne est  = 40 et son écart-type est  = 10 .

Puisque  −  = 40 − 10 = 30 et  +  = 40 + 10 = 50 , alors la surface comprise entre 30 et


50 représente 68,3% de sa surface totale.

Voici la représentation graphique de cette courbe normale :

Ex. : Soit la courbe normale N (50;25) .

Sa moyenne est  = ____50_ et son écart-type est  = _____5_ .

Puisque __________50-3*5=35____________ et ________50+3-5=65__________________,


alors la surface comprise entre _______ et _______ représente 99,7% de sa surface totale.

Dessinez le graphique de cette courbe normale par-dessus la première courbe normale de l’exemple
précédent et en utilisant l’axe déjà établi.

Notations :
▪ Une variable X de moyenne  et d’écart type  suivant une loi normale s’exprime par
X ~ N ( ; 2 ) .

▪ Un pourcentage cherché s’exprime par l’une des formes suivantes :


P( X  a) , P( X  a) , P(a  X  b) .

Remarque : P( X = a) = 0 donc P(a  X  b) = P(a  X  b)

66
8.3 Utilisation de la loi normale
La loi normale permet, en particulier, de calculer des proportions (ou des pourcentages) en utilisant l’aire
sous la courbe.

Ex : On a établi que la distribution du quotient intellectuel (QI) suit un modèle normal dont la
moyenne est 100 et l’écart type est 16. Quel est, dans la population, le pourcentage des gens possédant
un QI supérieur à 112 ?

Pour répondre à cette question, il faut d’abord définir ce qu’on connaît et ce que l’on cherche.

Ce qu’on connaît :
La variable à l’étude : X : résultat du quotient intellectuel (QI)
Cette variable est distribuée selon quelle loi ? Avec quels paramètres ? X ~ N (100;162 )

Ce que l’on cherche:


Le pourcentage de la population ayant un QI supérieur à 112.
Traduction mathématique: P( X  112) = ?
Illustration de ce que l’on cherche sur une courbe normale :

Ensuite, pour trouver P( X  112) , il faut faire des manipulations pour arriver à utiliser une table
donnant le pourcentage (ou la probabilité) recherché.

Peut-on imaginer avoir une table pour chaque loi normale ?


C’est-à-dire pour chaque valeur différente de µ ou de σ ?
Bien sûr que non !

On doit donc transformer le pourcentage (ou la probabilité)


que l’on recherche pour l’ajuster à LA table de la loi normale
dont nous disposon.
Celle dont la moyenne µ vaut 0 et la variance σ2 vaut 1.
Cette loi s’appelle la loi normale centrée réduite.
Elle est notée N(0;1)

67
Avant de voir la manière de standardiser n’importe quelle variable normale en une variable normale
centrée réduite, notée Z, voyons d’abord comment se servir de cette dernière.

8.3.1 Calculs dans une distribution normale Z~N(0;1)

Il est nécessaire de développer des habilités dans le calcul des probabilités associés à une normale N(0;1)
avant de passer à un modèle plus général. Voilà donc quelques exemples ayant pour but de développer
ces habilités.

Ex. : À l’aide de la table de la distribution centrée réduite Z ~ N(0;1), déterminer

a) P( 0  Z  1, 23) =

Rép : 0,3907

b) P( Z  1, 23 ) =

Rép : 0,8907

c) P( −2,15  Z  2,15) =

Rép : 0,9684

d) P( Z  −2,15 ) =

Rép : 0,9842

68
e) P( Z  −2,15 ) =

Rép : 0,0158

f) P( −1, 67  Z  2,15 ) =

Rép : 0,9367

g) P( 0, 54  Z  2,15 ) =

Rép : 0,2788

h) Trouver la valeur de a telle que : P( Z  a ) = 0, 2236

Rép : a = 0,76

i) Trouver la valeur de a telle que : P( Z  a ) = 0, 35

Rép : a = -0,39

j) Trouver la valeur de a telle que : P( a  Z  1, 68) = 0,1062

Rép : a = 1,025

69
8.4 La cote z
Maintenant qu’on s’est familiarisé avec la loi normale centrée réduite, voyons le processus qui nous
permettra de retrouver cette loi normale centrée réduite Z ~ N ( 0; 1) à partir de n’importe quelle loi
normale X ~ N (  ;  2 ) . Ce processus est le calcul de la cote z.

Ex. : Le collège désire remettre une bourse. Il étudie entre autre le dossier de quatre étudiants qui
suivent le cours de Méthodes quantitatives et il voudrait attribuer cette bourse à l’un de ceux-ci. Voici
les résultats :

Moyenne Écart type


Note Cote Z
du groupe du groupe
Anouk 85 75 10
Yann 76 68 4
Natasha 72 61 7
Sébastien 75 80 5

À quel étudiant devra-t-il remettre la bourse?

Si le collège se fie seulement à la note, il doit remettre la bourse à Anouk car celle-ci a obtenu la note
la plus élevée.

Si en plus de la note, il tient compte de la moyenne du groupe, il doit remettre la bourse à Natasha
car celle-ci a obtenu une note qui est la plus éloignée de la moyenne de son groupe tout en étant
supérieure à cette moyenne.

Si en plus de la note, il tient compte de la moyenne et de l’écart type du groupe, il doit remettre la
bourse à Yann car il a obtenu la meilleure cote z.

La dernière situation est la plus adéquate car elle tient compte de la force de chacun des groupes. C’est
le principe même de la cote z d’une valeur.

Valeur -Moyenne x −
Cote Z = =
écarttype 

La cote z est très utile pour comparer des résultats de nature différente. Ainsi, dans notre exemple, la
cote z de chacun des étudiants nous permet de «sortir» le résultat de chacun des étudiants de leur milieu
(de leur groupe) afin de pouvoir les comparer mieux. Ainsi, le résultat de chacun des étudiants est ramené
sur une même échelle (celle des cotes Z) qui nous permet de décider qui a obtenu le « meilleur » résultat.
Cette façon de faire serait effectivement la plus adéquate et c’est donc Yann qui se verrait attribuer la
bourse.

Une cote z plus grande que 2 ou plus petite que -2 est peu fréquente. En effet, avec une loi normale,
P(Z  2) = 2, 28%

Une cote z plus grande que 3 ou plus petite que -3 est très rare. En effet, avec une loi normale,
P(Z  3) = 0,13%

70
8.5 Loi normale quelconque

La cote z nous permet aussi de passer d’une loi normale quelconque X ~ N (  ;  2 ) à une loi normale
centrée réduite Z ~ N ( 0; 1) .

Ex : Reprenons le problème de la page 108 :


On a établi que la distribution du quotient intellectuel (QI) suit un modèle normal dont la moyenne
est 100 et l’écart type est 16. Quel est, dans la population, le pourcentage des gens possédant un QI
supérieur à 112 ?

X : résultat du quotient intellectuel (QI)


X ~ N (100;162 )
P( X  112) = ?

Le problème est que nous n’avons pas la table de la loi normale pour la variable X~N(100 ; 162) pour
trouver la probabilité recherchée. Nous n’avons que la table de la loi normale centrée réduite.

Cependant, on sait qu’on peut trouver la cote z associée à n’importe quelle valeur d’une variable X.
De plus, la distribution des cotes z nous donne une loi normale centrée réduite. Il suffit donc de
d’appliquer la transformation suivante :
112 − 100
Puisque X ~ N (100;162 ) , alors la cote z de 112 est : z= = 0,75
16
Graphiquement, cela correspond à la transformation ci-dessous

X ~ N (100;16
2
) X − Z ~ N (0;1)
z =

P( X  112) = P ( Z  0,75)

donc P( X  112) = P ( Z  0,75) =__________ et le problème est résolu !

Interprétation :________________________________________________________________

71
Ex : Soit X ~ N( 76; 42 ) . Trouvez :
a) P(74  X  84)

b) P( X  86)

c) P(65  X  85)

72
Ex : Soit X ~ N( 47;81) . Trouvez :
a) P( X  29)

Rép : 0,9772

b) P( X  42,5)

Rép : 0,3085

c) P(56  X  78,5)

Rép : 0,1585

73
Ex : Soit X ~ N( 250; 400) .
a) Trouver la valeur de a telle que P(0  X  a) = 0,3030

b) Trouvez la valeur de a telle que P( X  a) = 0,3810

c) Trouvez la valeur de a telle que P( X  a) = 0,8962

Rép : a= 224,8

74
Ex : En natation, le temps pris pour effectuer le 400 m style libre, chez les athlètes provinciaux du
Québec en 2010, est distribué normalement avec une moyenne de 3,82 minutes et un écart type de
0,02 minute.

a) Quel pourcentage des athlètes ont fait le 400 m de style libre en moins de 3,8 minutes en
2010 ?

Rép : 15,87%

b) Sur 200 athlètes québécois, environ combien devaient faire le 400 m de style libre en plus
de 3,85 minutes ?

Rép : environ 13 nageurs

c) Quel temps devait prendre un athlète québécois pour faire partie des 1 % les plus rapides
dans le 400 m de style libre en 2010 ?

Rép : 3,77 minutes

75
8.6 Exercices
1. On étudie le poids (en grammes) de 28 pièces électriques produites par une machine. Si le poids
moyen est de 14,2 g et l’écart type de 3 g, quelle est la cote Z d’une pièce pesant 16 g ? Interprétez sa
valeur.

2. Sur chacun des graphiques suivants, placer un point ( ● ) correspondant à la cote Z indiquée.
a) 1. Z = -1,5 

2. Z = 0,5 

b) Si l’écart type (  ) est de 6 dans le graphique 1 et de 16 dans le graphique 2, trouver pour chacun
d’entre eux, l’écart entre le point et la moyenne.

3. Un commerçant se plaint à la ville du fait que certains travaux effectués par celle-ci ont causé une
diminution de la circulation sur la rue, entraînant ainsi une baisse dans ses recettes. Pour appuyer sa
plainte, il signale que ses recettes sont en moyenne de 20 000$ par jour, et que le jour des travaux
elles n’étaient que de 19 500$. La ville réplique qu’un écart de 500$, pour des recettes moyennes de
20 000$, est trop petit et ne démontre rien. Le commerçant calcule alors l’écart type de ses recettes.
Il trouve 100$. Qui a raison ? 1

1Source : Simard, Christiane. Méthodes quantitatives. Éditions Le griffon d’argile. 3e éd. page. 104
#9

4. La moyenne d’un examen est de 70 % et l’écart type de 10 %. La distribution des notes à cet examen
a la forme d’une cloche.
a) Si la cote Z de Mariette est de 2, qu’est ce que cela signifie ?
b) Combien de points Mariette a-t-elle de plus que la moyenne ?
c) Quelle est la note de Mariette ?

5. Pour chacune des questions suivantes, dessiner l’aire sous la courbe de la loi normale correspondant
à la proportion recherchée et utiliser ensuite la table (en annexe) pour trouver la réponse. Quel
pourcentage des données d’une distribution normale ont une cote Z :
a) Comprise entre 0 et 1,76 ?
b) Comprise entre - 2,05 et 0 ?
c) Comprise entre 0,98 et 1,81 ?
d) Supérieure à 2,08 ?
e) Comprise entre -1,67 et 2,26 ?
f) Inférieure à 0,08 ?

76
6. Si Z → N ( 0 ; 1 ) , calculer :
a) P ( 0  Z  1,18 ) = b) P ( − 0, 43  Z  1,18 ) =
c) P ( Z  0,76 ) = d) P ( 0, 22  Z  1,67 ) =
e) P ( − 0,95  Z  − 0, 44 ) = f) P ( Z  − 0,92 ) =
g) P ( − 1,18  Z  0 ) = h) P ( Z = 2,12 ) =
i) P ( 0,13  Z  4,18 ) = j) P ( − 2,33  Z  2,18 ) =

7. Trouver les valeurs de « a » et/ou « b » selon le cas pour que :


a) P ( 0  Z  a ) = 0, 4878 b) P ( − a  Z  a ) = 0, 4648
c) P ( Z  b ) = 0, 9111 d) P ( Z  a ) = 0,0039
e) P ( Z  a ) = 0, 8371 f) P ( − 0, 87  Z a ) = 0, 5975

8. Si X → N ( 15 ; 9 ) , calculer :
a) P ( 15  X  18 ) = b) P (X  20,9 ) =
c) P ( X  13,68 ) = d) P ( 10  X  20 ) =
e) P ( 16  X  22 ) = f) P (9X  14 ) =

9. Si X → N ( 62, 5 ; 79, 7 ) , calculer :


a) P ( X  70 ) = b) P ( X  75 ) =
c) P ( 50  X  76 ) = d) P ( X  55,8 ) =

10. Si X → N ( 45 ; 64 ) , trouver la valeur de « a » pour que :


a) P ( X  a ) = 0,7340 b) P ( X  a ) = 0,1922
c) P ( X  a ) = 0,1314 d) P ( X  a ) = 0,9972

11. Un examen de méthodes quantitatives a donné comme résultat une moyenne de 68,6% avec un écart
type de 11,8%. En supposant que les résultats soient distribués normalement, déterminer :
a) le pourcentage d’étudiants qui ont échoué ce test;
b) le pourcentage d’étudiants qui ont eu un résultat supérieur à 80%;
c) le résultat minimal des 10% meilleurs de ce groupe;
d) le résultat maximal pour lequel 15% des étudiants ont obtenu une note inférieure à celui-ci.

12. On a établi que la durée de la gestation des Québécoises enceintes est une variable qui obéit à une
loi normale avec une moyenne de 273 jours et un écart type de 9 jours.
a) Définir la variable X :
X →N ( ; )
b) Calculer la probabilité qu’une naissance se produise avant une gestation de 280 jours.
c) Sachant que 65% des naissances se produisent après une gestation de B jours, trouver la valeur
de B.
 d) Une gestation de 295 jours vous apparaît-elle exceptionnelle? Justifier votre réponse.

77
13. Le temps que Karine prend pour se rendre à son travail au centre-ville est une variable qui est
distribuée normalement avec une moyenne égale à 47 minutes et un écart type de 8 minutes.
a) Déterminer la variable à l’étude X
b) Donc, X → N ( ; )
c) Calculer la probabilité que Karine prenne plus d’une heure pour se rendre à son travail.
d) Karine commence à travailler à 8h30. Aujourd’hui, elle s’est réveillée en retard et elle a dû quitter
son domicile en catastrophe à 7h45. Quelle est la probabilité que Karine arrive à l’heure à son
 travail ?
e) Calculer la probabilité que Karine prenne entre 45 minutes et 1 heure pour se rendre à son travail.

14. On a fait passer un test pour évaluer le quotient intellectuel de 500 personnes. Sachant que les
résultats de ce test sont distribués normalement avec une moyenne de 95 et un écart type de 15.
Combien de personnes auront :
a) un résultat compris entre 85 et 105 ?
b) un résultat inférieur à 80 ?
c) un résultat supérieur à 110 ?

15. Les notes d’un examen administré à 120 étudiants sont distribuées approximativement selon une loi
normale dont la moyenne est 72 avec un écart type de 11. On classe les notes en ordre décroissant.
Calculer approximativement
a) la 60e note
b) la 100e note.

16. Le 10 août 2006, le Torontois Danny Kassap à remporté le marathon de Montréal en un temps de 2
heures 20 minutes et 19 secondes. Sachant que le temps requis pour parcourir la distance de ce 42,2
km était distribué normalement avec une moyenne de 3 heures 30 minutes avec un écart type de 25
minutes.
a) Déterminer la proportion de participants qui ont franchi cette distance en un temps supérieur à
3 heures 5 minutes.
b) Paul Gauthier a franchi cette distance en un temps de 3 heures 45 minutes. Sachant qu’il y avait
environ 8 000 participants à ce marathon, combien de participants sont arrivés après Paul?
c) Sachant que 65% des participants ont effectué ce marathon en un temps inférieur à B minutes,
déterminer la valeur de B.
d) Sylvain Côté faisait partie des coureurs les plus rapides. Seulement 8% des coureurs ont franchi
ce marathon en un temps inférieur au sien. Estimer le temps pris par Sylvain pour franchir cette
distance.

78
17. Après avoir corrigé un examen, un professeur constate que les résultats ne sont pas très, très bons.
En effet, il constate que les résultats sont distribués normalement avec une moyenne de 48, 6 et un
écart type de 9, 8. Afin de ne pas trop décourager ses étudiants, il décide de remettre les résultats de
l’examen avec les lettres A, B, C, D et E où E représente un échec. De plus, il décerne les lettres
selon la distribution suivante.

a) Trouver les valeurs c et d qui vont déterminer l’intervalle des résultats associés à la lettre C.
b) Trouver la note maximale d’un étudiant qui a reçu un E (échec).
c) En recevant sa copie d’examen, Sébastien remarque qu’il a obtenu la note de 59%. Quelle lettre
a-t-il alors obtenue ?

18. Le glaucome est une maladie de l’œil caractérisée par une augmentation de la pression interne du
globe oculaire. Cette pression interne dépend du débit de liquide entrant et sortant, ce liquide est
appelé « humeur aqueuse ». Dans l’œil sain, la quantité de liquide produite dans l’œil est égale à la
quantité de liquide évacué. Pour une population adulte de 150 000 personnes, la pression interne du
globe oculaire est distribuée selon une loi normale dont la moyenne est 18 mm de Hg et dont l’écart
type est 2,4 mm de Hg.
a) On considère qu’un individu présentant une pression variant entre 12 mm et 22 mm de Hg ne
possède pas cette maladie. Calculer la proportion de la population qui ne possède pas cette
maladie.
b) Quel pourcentage de la population présente une pression supérieure à 25 mm de Hg.
c) Un médecin vous annonce que votre pression intra-oculaire est de 24 mm de mercure. Combien
y a-t-il de personnes dans la population dont la pression est au moins aussi éloignée de la
moyenne que la votre ?

19. Paul travaille dans une usine de fabrication de meubles de bois.


a) En vous basant sur vos connaissances en statistique ainsi que sur les renseignements suivants,
déterminer l’âge de Paul.
▪ On sait que l’âge moyen des employés de l’usine est de 41 ans avec une variance de 64.
▪ On sait que la distribution de l’âge suit un modèle normal.
▪ Seulement le tiers des employés sont plus âgés que Paul.
b) Dans un modèle normal, presque toutes les données (99,7 %) se situent dans l’intervalle [ - 3
;  + 3]. L’âge de presque tous les employés serait alors compris entre quelles valeurs ?

79
8.7 Réponses
1. Z = 0,6. Le poids de cette pièce électrique se situe à 0,6 écart type au-dessus de la moyenne.

2. b) L’écart est de – 9 dans le graphique 1 et de 8 dans le graphique 2.

3. Il serait raisonnable d’attribuer la baisse des recettes aux travaux municipaux car une cote Z de - 5
est exceptionnelle.

4. a) La note de Mariette se situe à 2 écart type au-dessus de la moyenne.


b) Elle a 20 points de plus que la moyenne.
c) 90 %

5. a) 46, 08 % b) 47, 98 % c) 12, 84 % d) 1, 88 % e) 94, 06 % f) 53,19 %

6. a) 0, 3810 b) 0, 5474 c) 0, 2236 d) 0, 3654 e) 0, 1589


f) 0,1788
g) 0, 3810 h) 0 i) 0, 4483 j) 0, 9755

7. a) 2, 25 b) 0, 62 c) 1, 35 d) 2, 66 e) 0,985 f) 0, 81

8. a) 0, 3413 b) 0, 9756 c) 0, 67 d) 0, 9050 e) 0, 3608


f) 0, 3479

9. a) 0, 7995 b) 0, 0808 c) 0, 8537 d) 0, 2266

10. a) 40,04 b) 38,04 c) 53,96 d) 67,16

11. a) 23,27 % b) 16,60 % c) 83,70% d) 56,33%

12. b) 0,7823 c) 269,49 jours d) Oui, car P( X  295) = 0,0073

13. a) X : Temps (en minutes) pris par Karine pour se rendre au travail
b) X → N (47;64)
c) 0, 0516 d) 0, 4013 e) 0,5471

14. a) 249 b) 79 c) 79

15. a) 72 b) 61,33

16. a) 0,8413 b) 2194 c) B = 3h40 d) 2h55

17. a) c = 55,17 et d = 42,03 b) 36,06 c) B

18. a) 0,9463 b) 0,18 % c) 1860 personnes

19. a) presque 44 ans et demi b) entre 17 et 65 ans

80
CHAPITRE 9 : Estimation
_________________________________________________________________

9.0 Introduction
Dans ce chapitre, nous aurons à faire l’estimation d’un paramètre d’une population à partir d’une
statistique provenant d’un échantillon d’individus sélectionnés au hasard d’une certaine
population. Il nous faut tout d’abord définir ces deux termes : paramètre et statistiques.

Un paramètre est une mesure prise sur une variable de population alors qu’une statistique est une
mesure prise sur une variable de l’échantillon. Pour les sections suivantes, nous aurons à distinguer ces
mesures et pour ce faire, on utilisera la notation qui suit :

Paramètres d’une POPULATION Statistiques d’un ÉCHANTILLON


N : taille, nombre d’individus n : taille, nombre d’individus
 : moyenne de la variable étudiée x : moyenne de la variable étudiée

 2 : variance de la variable étudiée s 2 : variance de la variable étudiée


 : écart type de la variable étudiée s : écart type de la variable étudiée

 9.1 La distribution de la moyenne


 échantillonnale
Lorsque nous effectuons un sondage, il arrive très souvent que l’on ait à estimer la valeur moyenne d’une
variable X dans une population (revenu moyen, durée de vie moyenne, poids moyen, dépenses moyennes
pour des manuels scolaires, résultat moyen à un examen) à partir de la valeur moyenne x de notre
échantillon.

La question que l’on doit se poser est de savoir dans quelle mesure la moyenne de l’échantillon reflète
bien celle qu’on aurait obtenue si on avait interrogé tous les individus constituant la population. Plus
précisément : « Quelle est la probabilité que la moyenne de l’échantillon soit comparable à celle de la
population ? P (   x ) = ? ».

Pour répondre à cette question, il faut avoir une idée du comportement de toutes les moyennes des
différents échantillons possibles de taille « n » choisis à partir de notre population (on en aurait un très
grand nombre). Pour chacun d’eux, on calculerait la moyenne. On obtiendrait ainsi toutes les moyennes
possibles que peut prendre un échantillon de taille « n ». Finalement, on obtiendrait la probabilité cherchée
en utilisant le nombre d’apparition des moyennes échantillonnales comparables à celle de la population.

81
Ex : Soit la variable X : nombre d’heures d’étude par semaine chez 14 étudiants.

Taille de la population : N = 14 2 2 2 3 3 4 4
Moyenne de cette population :  = 4,21 5 5 5 6 6 6 6

 n = 8.
Échantillons de taille
Valeurs possibles pour x ?

2 2 2 3 3 4 4 2 2 2 3 3 4 4 2 2 2 3 3 4 4
5 5 5 6 6 6 6 5 5 5 6 6 6 6 5 5 5 6 6 6 6

n=8 n=8
n=8
x = 4,625 x = 4,125 x = 3,625

2 2 2 3 3 4 4 2 2 2 3 3 4 4 2 2 2 3 3 4 4
5 5 5 6 6 6 6 5 5 5 6 6 6 6 5 5 5 6 6 6 6

n=8 n=8
n=8
x = _____ x = _____ x = _____

82
Ex. : Supposons que la moyenne de tous les étudiants du collège de Maisonneuve inscrits à la session
automne 2004 dans un cours de méthodes quantitatives MQH 300 ait été de µ = 68% avec un écart
type de 13%. Prélevons un premier échantillon aléatoire de 50 étudiants et calculons le résultat moyen
de ces 50 étudiants. Notons ce premier résultat par x1 . On peut répéter cette opération puisqu’il existe
un très grand nombre d’échantillons différents de taille n = 50 dans cette population. On obtient
ainsi la liste de tous les échantillons de taille 50 avec leur moyenne.

Échantillon Moyenne échantillonnale


Échantillon numéro 1 x1 = 66%
Échantillon numéro 2 x2 = 59%
Échantillon numéro 3 x3 = 73%
… …

On peut regrouper toutes ces valeurs dans un tableau de distribution de fréquences où


▪ La variable statistique est :
« X : La note moyenne d’un échantillon de 50 étudiants du cours MQH300.»
▪ L’unité statistique est :
«Un échantillon de 50 étudiants de MQH300.»

Distribution des échantillons de 50 étudiants du cours MQH300 selon leur note moyenne en
MQH300 au Collège de Maisonneuve, 2004.

Nombre d’échantillon Pourcentage d’échantillon


Note moyenne ( X )
[0;20[

[20;40[

[40;60[

[60;80[

[80;100[

Total 100%

Source : Omnivox.

Lorsque la variable étudiée représente la moyenne dans un échantillon, on la note X et on l’appelle


moyenne échantillonnale. Des études ont démontré que si la variable à l’étude X obéit à une loi
normale, alors la répartition des différentes moyennes des échantillons de même taille tend vers une loi
normale.

Si la variable à l’étude n’obéit pas à une loi normale, cette répartition tend vers une loi normale seulement
lorsque la taille de l’échantillon (n) est suffisamment grande, c’est-à-dire n  30 .

83
En effet, le tableau représentant tous les résultats possibles des différents échantillons est nommé tableau
de distribution d’échantillonnage. Si on traçait le polygone des fréquences associé à cette distribution,
on verrait qu’il se rapproche de la courbe normale, ce qui porte à penser que la distribution de la variable
tend vers la loi normale lorsque la taille des échantillons est suffisamment grande.

Si on avait prélevé tous les échantillons possibles de cette population (on sait qu’il y en aurait eu un très
grand nombre), on aurait pu calculer la moyenne  x (la moyenne des moyennes d’échantillon) et l’écart
type  x (l’écart type des moyennes d’échantillon) de la variable X . Par ces calculs, on aurait pu observer
les relations suivantes :

2
x =  et  2x =
n

On remarque que la moyenne de la variable X est la même que la moyenne de la population et que la
variance de la variable X est égale à la variance de la population divisée par la taille de l’échantillon.

Ex. : Dans le contexte de l’exemple de la page précédente, on a

132
µx = 68% et  x =
2

50

On peut conclure que la variable X (la moyenne échantillonnale) obéit à une loi normale de
132
moyenne µx = 68% et d’écart type  x =
2
. En représentant les deux distributions, soient la
50
distribution de X et la distribution de X , on obtient le résultat suivant :

Ce résultat important porte le nom de théorème central limite et s’énonce ainsi :

84
Théorème central limite pour une moyenne
Soit l’étude d’une variable X de moyenne µ et d’écart type  dans une population quelconque de taille
N. Si des échantillons aléatoires de taille n sont tirés de la population, alors la variable X , donnant la
moyenne des échantillons, présentera les caractéristiques suivantes :

Sa distribution sera normale ( X N) si la variable mère X est distribuée normalement


ou
si n  30.

Sa moyenne µx = µ

Son écart type


si la population est grande par rapport à l’échantillon (n  5%N)

x = ou
n si les échantillons sont tirés avec remise.

ou
si la population est petite par rapport à l’échantillon (n > 5%N)
 N −n et
x =
n N −1 si les échantillons sont tirés sans remise.

N −n
Note : Le facteur est appelé facteur de correction.
N −1

Ex. : Revenons au contexte de la page 125. Supposons que la moyenne de tous les étudiants du
Collège de Maisonneuve inscrits à la session d’automne 2004 dans un cours de méthodes
quantitatives MQH300 ait été de 68% avec un écart type de 13%. Prélevons un échantillon aléatoire
de 50 étudiants de cette population et calculons la probabilité que la moyenne de cet échantillon soit
supérieure à 70%.

X : la note moyenne d’un échantillon aléatoire de 50 étudiants.


 169 
X N  68;  car n = 50  30 et la population est grande.
 50 
P ( X  70)
= P ( Z  1, 09) 70 − 68
Z= = 1, 09
= 0,5 − 0,3621 169
= 0,1379 50

Donc, il y a approximativement 13,79% de chances que la note moyenne d’un échantillon de 50


étudiants de MQH300 du Collège de Maisonneuve ait été plus grande que 70% à l’automne 2004.

85
ATTENTION :
Si la question avait été : « Choisissons un étudiant au hasard, quelle est la probabilité que sa note soit
supérieure à 70% ?». La variable étudiée aurait été

X : la note d’un étudiant.


X N ( 68;169)
P ( X  70)
= P ( Z  0,15) 70 − 68
Z= = 0,15
= 0,5 − 0, 0596 13
= 0, 4404

Donc, il y a approximativement 44,04% de chances que la note d’un étudiant de MQH300 du


Collège de Maisonneuve ait été plus grande que 70% à l’automne 2004.

Ex. : Une étude a démontré que les familles québécoises de quatre personnes dépensent en moyenne
185$ par semaine pour la nourriture avec un écart type de 60$.

a) Déterminer le pourcentage approximatif d’échantillons de taille 45 dans lesquels la dépense


hebdomadaire moyenne pour la nourriture est comprise entre 170$ et 190$.

Rép. : 66,58%

b) Déterminer le pourcentage approximatif d’échantillons de taille 100 dans lesquels la dépense


hebdomadaire moyenne pour la nourriture est comprise entre 170$ et 190$.

Rép. : 79,05%

86
Ex. : Dans une population de 400 personnes, on a établi que la distribution du quotient intellectuel
(QI) suit un modèle normal dont la moyenne est 100 avec un écart type de 16. Dans un échantillon
de taille 25, quelles sont les chances que la moyenne de QI de cet échantillon soit inférieure à 95?

Rép. : 5,37%

87
9.2 Estimation de la moyenne d’une population
Dans cette section, on veut estimer la moyenne d’une population à partir de la moyenne d’un échantillon.
Toujours avec la même population, en prélevant au hasard un échantillon de 50 étudiants du collège de
Maisonneuve inscrits en méthodes quantitatives à la session automne 2004, on a calculé un résultat moyen
de 72% avec un écart type de 15%. Pouvons-nous dire que la moyenne de cette population était
exactement égale à 72% ? La réponse est sûrement NON car il y a très peu de chances que ce résultat
survienne. C’est pour cette raison qu’il faut faire de l’estimation d’une moyenne. Il y a deux sortes
d’estimation possibles, soient l’estimation ponctuelle et l’estimation par intervalle de confiance.

9.2.1 Estimation ponctuelle d’une moyenne

L’estimation ponctuelle est très simple, il s’agit tout simplement de supposer que la moyenne de la
population est égale à la moyenne de l’échantillon. Donc que  = x . Cette estimation est souvent
utilisée pour faire la manchette des journaux ou des bulletins de nouvelles.

Dans notre cas, on aurait qu’à dire que la moyenne de la population est égale à 72%. Comme nous l’avons
déjà mentionné, cette affirmation a très peu de chances de se produire (presque nulle) et c’est pour cette
raison qu’il nous faut faire de l’estimation par intervalle de confiance. L’estimation par intervalle fait
augmenter les chances de voir notre prédiction se réaliser.

9.2.2 Estimation par intervalle de confiance d’une moyenne

Estimer la moyenne  d’une population par intervalle de confiance, c’est d’affirmer que celle-ci se situe
dans un intervalle autour de la moyenne x de l’échantillon avec une certaine probabilité.

   x − ME ; x + ME 
c’est-à-dire

ME est la marge d’erreur : c’est la distance entre le centre et l’extrémité de l’intervalle de confiance.

Puisque le centre x de l’intervalle de confiance est connu, il faudra trouver la valeur de ME pour obtenir
la largeur de l’intervalle de confiance. Nous verrons la manière de procéder à la prochaine section mais
avant tout, il faut voir deux autres définitions.

Lorsque nous effectuons de l’estimation par intervalle, nous devons déterminer avec quelle certitude nous
voulons que l’intervalle contienne bien la moyenne de la population. Cette certitude se nomme
«niveau de confiance» et elle est déterminée par celui qui demande l’étude. Les niveaux de confiance les
plus souvent utilisés sont : 90%, 95% et 99%. En statistique, le niveau de confiance se note par 1−  où
 représente le risque d’erreur. Ainsi, si nous utilisons un niveau de confiance de 95%, on accepte de se
tromper 5 fois sur 100 dans l’estimation de la moyenne de la population.

Niveau de confiance ( 1−  ) : Probabilité que l’intervalle de confiance contienne bien la moyenne 


 de la population.
Risque d’erreur (  ) : Probabilité que l’intervalle de confiance ne contienne pas la moyenne  de la
population. On peut associer une cote z à un risque d’erreur  cette cote z est notée z  .
 2

 88
Ex. : Trouvez la valeur de z  sachant que Z ~ N ( 0 ; 1 ) et que le niveau de confiance est de 95%.
2

Supposons que le niveau de confiance est de 95%. Dans le cas d’une distribution normale, on sait que
95% des données se situent à au plus 1,96 écart type de part et d’autre de la moyenne  car
P( −1,96  Z  1,96) = 95% . Cela s’applique aussi à la distribution d’une variable X ~ N (  X ;  X2 )
dont l’écart type est  X , c’est-à-dire que, pour 95% des échantillons de taille n, on aura une moyenne x
qui se situera à au plus 1,96  X unités de la moyenne  X =  .

1, 96  X 1, 96  X

Donc, si l’écart entre la moyenne  et 95% des valeurs x est d’au plus 1,96  X , on a, pour 95% des
échantillons de taille n, la relation suivante :

 − 1, 96  X  x   + 1, 96  X

À partir de cette relation, nous obtenons l’intervalle de confiance, à un niveau de confiance de 95%,
nous permettant d’estimer la moyenne d’une population  :

x − 1, 96  X    x + 1, 96  X .

Dit autrement, il y a 95% de chances que    x -1, 96  X ; x + 1, 96  X  où 1, 96  X = ME .


En général, avec un niveau de confiance 1−  et une variable X ~ N (  X ;  X2 ) ,

89

l’intervalle de confiance est donnée par :

   x - ME ; x + ME 
où ME = z   X .
2

La valeur de z  est obtenue dans la table de la loi normale centrée réduite N(0 ; 1) selon le niveau de
2

confiance utilisé.

La formule à utiliser pour  X est à déterminer à l’aide du théorème central limite. Si  est inconnu, on
l’estime ponctuellement en le remplaçant par s.

Ex : Toujours avec la même population des étudiants du collège de Maisonneuve inscrits en


méthodes quantitatives à la session automne 2013, on a prélevé avec remise un échantillon aléatoire
de 50 étudiants et on a calculé un résultat moyen de 72% avec un écart type de 15%. Avec un niveau
de confiance de 95%, pouvons-nous construire un intervalle de confiance afin d’estimer le résultat
moyen de tous les étudiants inscrits en méthodes quantitatives à la session automne 2013?

On sait que : n = 50, x = 72%, s = 15%, 1 −  = 95% et L’échantillon est prélevé avec remise.

On cherche :   x − ME; x + ME 

Donc
X : La moyenne des notes dans un échantillon de 50 étudiants.
X N (  x ;  x2 ) car n  30
ME = z 2 x

= z 2 car la population est grande
n
15
= 1,96 
50
= 4,16

D’où
µ   x − ME; x + ME 
 µ   72 − 4,16;72 + 4,16
 µ   67,84;76,16

Interprétation : Il y a 95% de chance que le résultat moyen de tous les étudiants du collège de
Maisonneuve inscrits en méthodes quantitatives à la session automne 2013 se situe entre 67,84%
et 76,16%.

90
Ex: On sait que le quotient intellectuel (QI) suit une distribution normale dont la variance
est 144. Un échantillon de taille n = 250 a été prélevé. On a calculé une moyenne échantillonnale de
105 avec un écart type échantillonnal de 10. Avec un niveau de confiance de 90%, estimer le quotient
intellectuel moyen de cette population.

Rép : [103,75; 106,25]

Ex: Le registrariat nous informe que le nombre d’étudiants du collège de Maisonneuve


inscrits en méthodes quantitatives à la session automne 2013 était de 785. On a prélevé un
échantillon aléatoire de 100 étudiants (au lieu de 50) et on a obtenu un résultat moyen de 72% avec
un écart type de 15%. Avec un niveau de confiance de 95%, construire un intervalle de confiance
afin d’estimer le résultat moyen de tous les étudiants inscrits en méthodes quantitatives à la session
automne 2013.

Rép : [69,25%; 74,75%]

91
Ex: La taille des bébés naissants est une variable obéissant à une distribution normale. À
partir d’un échantillon aléatoire de 40 bébés, on a calculé une taille moyenne de 35 cm avec un écart
type de 6 cm. Calculer la marge d’erreur qui nous permettra d’estimer, par intervalle de confiance,
la taille moyenne de tous les bébés naissants. Utiliser un niveau de confiance de 99%.

Rép : 2,44 cm

9.2.3 Taille d’échantillon requise pour estimer une moyenne avec une marge d’erreur et
un niveau de confiance attendu.

Lorsqu’un sondage est commandé, une des premières choses qu’il faut déterminer c’est le nombre
d’individus qu’il faut sélectionner afin de mener à bien notre sondage. Ce nombre d’individus est la taille
de l’échantillon. La taille de l’échantillon a une grande influence sur la précision du sondage, c’est-à-dire
plus la taille de l’échantillon est grande, plus le résultat est précis.

Pour déterminer la taille de l’échantillon nécessaire à un sondage, il faut tout d’abord connaître la précision
que l’on veut donner à ce sondage ainsi que son niveau de confiance. En connaissant ces deux paramètres
et à l’aide de la formule de la marge d’erreur

 s
ME = z  ou ME = z 
2
n 2
n

on obtient la taille de l’échantillon en isolant « n » de cette formule :

2 2
 z    z s 
n = 2  ou n = 2 
 ME   ME 
   

92
Ex : Quelle taille minimum d’échantillon faudrait-il avoir pour estimer la grandeur moyenne des
bébés naissants avec une marge d’erreur d’au plus 1,7 cm et un niveau de confiance de 95%, si des
études antérieures ont donné un écart type de 5 cm pour la population?

9.2.4 Effet de la variation de la taille de l’échantillon sur la marge d’erreur

Rappel :
 s
ME = z  ou ME = z 
2
n 2
n

D’après cette formule, on peut constater que pour un même niveau de confiance, plus on augmente la
taille de l’échantillon, plus la marge d’erreur va diminuer et par le fait même donne une estimation plus
précise de la moyenne de la population.

Le tableau suivant nous montre les effets de la variation du niveau de confiance et de la taille de
l’échantillon sur la marge d’erreur.

Si le niveau de confiance … et la taille de l’échantillon … alors la marge d’erreur …


reste constant augmente diminue
reste constant diminue augmente
augmente reste constant augmente
diminue reste constant diminue

93
9.3 Exercices

1. Le tableau suivant donne le prix payé par 5 individus d’une population pour l’achat d’un logiciel anti-
virus acheté dans des boutiques différentes. Afin d’estimer le prix moyen de ce logiciel, supposons
que l’on prélève un échantillon aléatoire de 3 individus.

Individu Prix (X) en $


Jean 52
Christophe 48
Marie-Claude 54
Danielle 50
Guy 53

a) Combien d’échantillons aléatoires différents de taille 3 peut-on prélever à l’intérieur de cette


population ?
b) Construire le tableau de distribution d’échantillonnage de X .
c) À l’aide de la calculatrice en mode statistique, calculer la moyenne  X et l’écart type  X de
cette distribution d’échantillonnage.
d) Selon le théorème central limite, la moyenne de la distribution des valeurs possibles pour X est
égale à la moyenne de la population (  =  X ). Cette égalité est-elle vraie dans ce cas-ci ?
e) Toujours selon le théorème central limite, pour une population considérée comme petite par
 N −n
rapport à la taille de l’échantillon, on a :  X = . Vérifier cette égalité.
n N −1

2. On désire former aléatoirement des équipes de hockey de niveau Pee-Wee. Sachant que la taille d’un
garçon de 11 ans est distribuée normalement avec une moyenne de 147 cm et un écart type de 26
cm.
a) Quelles sont les chances qu’une équipe se retrouve avec un garçon de 11 ans ayant une taille
inférieure à 140 cm ?
b) Quelles sont les chances qu’une équipe de hockey Pee-Wee (constituée de 12 garçons de 11 ans)
ait une taille moyenne inférieure à 140 cm ?

3. Le résultat moyen du premier examen d’un groupe de 36 étudiants en méthodes quantitatives à la


session automne 2006 a été de 62,2% avec un écart type de 17,8%. Supposons que les résultats de
cet examen sont distribués normalement.
a) Combien d’étudiants ont obtenu une note supérieure à 75% ?
b) On choisit un étudiant au hasard, quelle est la probabilité que le résultat de cet étudiant soit
supérieur à 70% ?
c) On choisit 5 étudiants au hasard avec remise, quelle est la probabilité que le résultat moyen de
ces 5 étudiants soit supérieur à 70% ?

4. Voici le salaire horaire de 9 étudiants choisis au hasard parmi tous les étudiants d’un collège.
10,50 8 6,80 12,25 15 7,30 8,55 7,81 9,58

a) Estimer ponctuellement le salaire horaire moyen de tous les étudiants de ce collège.


b) Quel est le niveau de confiance de cette estimation ? Justifier.
c) Faire une estimation ponctuelle de  et  x et expliquer la différence entre ces deux paramètres
en donnant leur interprétation.

94
5. Le nombre d’heures de sommeil par jour pour un échantillon de 500 Québécois obéit à une loi
normale dont la moyenne est de 7,9 heures avec un écart type de 1,2 heure.
a) Estimer le nombre de Québécois qui dorment moins de 7 heures par jour dans cet échantillon.
b) Combien d’heures par jour un Québécois faisant partie de cet échantillon doit-il dormir au
minimum pour faire partie des 10 % de ceux qui dorment le plus ?
c) À un niveau de confiance de 95 %, estimer le nombre moyen d’heures de sommeil par jour dans
la population québécoise.

6. Un manufacturier de stylos veut mettre sur le marché un nouveau modèle de stylo longue durée.
Pour estimer la durée moyenne de ces nouveaux stylos, il choisit un échantillon de 30 stylos et calcule
leur durée d’écriture (en heures). Il obtient les résultats suivants :

87 92 97 93 91 91 96 95 92 68
85 90 86 102 101 90 86 88 94 99
98 100 80 88 96 91 78 89 88 85

En supposant que la durée d’écriture obéit à une loi normale, construire un intervalle au niveau
99% afin d’estimer la durée d’écriture moyenne de ces nouveaux stylos.

7. Un psychologue a présenté un casse-tête à 30 enfants québécois âgés de 5 ans. Il a mesuré le temps


pris par chacun des enfants pour assembler ce casse-tête. Les enfants ont réalisé la tâche en un temps
moyen de 7,56 minutes avec un écart type de 2,23 minutes.
a) Estimer, par intervalle de confiance, le temps moyen que prendrait l’ensemble des enfants
québécois âgés de 5 ans pour assembler le casse-tête. Utiliser un niveau de confiance à 99% et
préciser quelle est la marge d’erreur.
b) Interpréter l’intervalle en précisant le risque d’erreur qu’il comporte.
c) Quelle aurait été la marge d’erreur si l’échantillon avait été de 50 enfants ?
d) Quelle aurait été la marge d’erreur si le niveau de confiance avait été de 95% (avec un échantillon
de taille 30) ?
e) Quelle doit être la taille minimum de l’échantillon pour obtenir une marge d’erreur d’au plus 0,5
minute avec un niveau de confiance de 95 % ?

8. Le niveau de timidité d’une personne peut être évalué grâce à l’échelle de Leary. (L’échelle de Leary
est établie par un petit test comprenant 15 questions. Le répondant doit encercler un chiffre de 1 à 5
qui correspond le mieux au degré selon lequel l’énoncé est vrai pour lui). Pour vérifier le niveau de
timidité des étudiants du collège de Maisonneuve, on prélève aléatoirement 225 étudiants et on trouve
un niveau de timidité moyen de 38,4 points avec un écart type de 15,6 points. (Il faut noter que plus
une personne est timide, plus son total de points sera élevé).
a) Avec un niveau de confiance de 94%, construire un intervalle de confiance afin d’estimer le
niveau de timidité moyen de tous les étudiants du collège de Maisonneuve.
b) Interpréter cet intervalle de confiance.
c) Quelle serait l’estimation ponctuelle du niveau de timidité des étudiants du collège?
d) Quel effet sur la marge d’erreur observerions-nous si l’on augmentait le niveau de confiance?

9. Quelle taille minimale d’échantillon faudrait-il prendre pour estimer l’âge moyen des étudiants d’une
université avec une marge d’erreur d’au plus 1,5 an et un niveau de confiance de 95 % si des études
antérieures ont donné un écart type  de 5,3 ans pour la population ?

95
10. Compléter les phrases suivantes :
a) Pour un même niveau de confiance, plus on augmente la taille de l’échantillon, plus l’écart type
 x _______________ , ce qui a comme conséquences de faire ________________ la marge
d’erreur et par le fait même de donner une estimation plus _______________ de la moyenne
de la population.
b) Si l’on augmente le niveau de confiance, la marge d’erreur sera plus _______________ et par
conséquent la largeur de l’intervalle de confiance sera plus ________________. Nous aurons
alors ____________ de chances que le vrai paramètre de la population soit compris dans notre
intervalle.

11. Les résultats obtenus à un test psychométrique que l’on fait subir à des enfants d’âge préscolaire est
une variable obéissant à une loi normale d’écart type 4,2. On prélève un échantillon de 32 enfants
pour lesquels ont obtient un résultat moyen de 37,1. À un niveau de confiance de 95 %, on veut
estimer le résultat moyen des enfants à ce test. Vrai ou faux ?
a) L’estimation ponctuelle nous permet de dire que le résultat moyen de tous les enfants est de
37,1.
b) Il y a 95 % des chances que le résultat moyen des 32 enfants de l’échantillon se situe entre 35,64
et 38,56.
c) Il y a 100 % des chances que le résultat moyen des 32 enfants de l’échantillon se situe entre 35,64
et 38,56.
d) Il y a 95 % des chances que le résultat moyen de tous les enfants se situe entre 35,64 et 38,56.
e) Il y a 5 % de chances que je me trompe en calculant l’intervalle de confiance.
f) Il y a 5 % de chances que le résultat moyen de tous les enfants ne se situe pas entre 35,64 et
38,56.

12. On veut estimer le nombre d’années d’expérience des 380 professeurs du collège. Pour ce faire, on
sélectionne au hasard 35 professeurs et on trouve une moyenne échantillonnale de 12,8 années avec
un écart type de 3,3 années.
a) Faites une estimation ponctuelle du nombre d’années d’expérience de tous les professeurs du
collège.
b) Construire un intervalle de confiance afin d’estimer le nombre moyen d’années d’expérience de
tous les professeurs du collège. Utiliser un niveau de confiance de 96%.
c) Afin d’augmenter notre niveau de certitude lors de l’estimation par intervalle, que devrions-nous
faire ?
d) Afin d’être plus précis dans notre estimation par intervalle de la moyenne (et pas nécessairement
plus confiant), que devrions-nous faire ?

96
9.4 Réponses
1. a) 125 c) x = 51, 4 et  x = 0, 88
2,15 5 − 3
d) oui,  = x = 51, 4 e) oui,  = 2,15 et  x = = 0,88
3 5 −1
2. a) 39,36% b) 17,62%

3. a) 8 étudiants b) 33% c) 14,92%

4. a)  = 9, 53$
b) Le niveau de confiance est 0%. La probabilité que le salaire moyen de tous les étudiants
d’un collège soit exactement de 9,53 $ est nulle.
c)  = 2, 67 et  x = 0, 89

5. a) 113 b) 9,44 heures c)   7,80 ; 8,00


6.   87,14 ; 93,92
7. a)   6,51; 8,61
b) Avec un niveau de confiance de 99%, on peut dire que le temps moyen pris pour
compléter le casse-tête par tous les enfants québécois âgés de 5 ans se situe entre 6,51 et
8,61 minutes. La marge d’erreur est de plus ou moins 1,05 minute.
c) La marge d’erreur aurait été de 0,81 minute.
d) La marge d’erreur aurait été de 0,80 minute.
e) n = 77

8. a)   36, 44 ; 40,36
b) Avec un niveau de confiance de 94%, on peut dire que le niveau de timidité moyen de
tous les étudiants du collège de Maisonneuve se situe entre 36,44 et 40,36.
c)  = 38, 4
d) La marge d’erreur augmenterait.

9. n = 48

10. a) diminue diminuer précise


b) grande grande plus

11. a) V b) F c) V d) V e) F f) V

12. a)  = 12, 8 années b)   11,70 ; 13,90


c) Augmenter la marge d’erreur d) Augmenter la taille de l’échantillon

97
98

Vous aimerez peut-être aussi