22-Statistiques-_A2024
22-Statistiques-_A2024
22-Statistiques-_A2024
2024
Notes de cours
Statistiques (partie 2)
Ces données nous donnent une information sur chaque individu de l’échantillon. Pour faire ressortir les
principales caractéristiques de ces données, il faut les traiter et les analyser.
Un tableau de distribution de fréquences nous permet d’avoir un résumé des données brutes, de constater la
répartition des individus selon les différentes modalités.
Ex. 1 : En 2010, l’association étudiante du Collège de Maisonneuve a fait une étude auprès des étudiants
afin de connaître certaines caractéristiques de la clientèle étudiante. Pour ce faire, on a choisi aléatoirement
80 des 5600 étudiants du collège et à la question «Quel moyen de transport utilisez-vous pour vous rendre
au collège?» on a obtenu les résultats suivants :
Vélo Métro Autobus Auto Métro Aucun Autobus Autobus
Métro Autobus Métro Autobus Métro Métro Métro auto
Métro Métro Autobus Métro Autobus Métro Métro Autobus
Aucun Autobus Auto Autobus Auto Autobus Auto Métro
Autobus Aucun Aucun Autobus Vélo Vélo Autobus Auto
Aucun Métro Aucun Métro Auto Vélo Métro Métro
Métro Autobus Métro Métro Métro Aucun Autobus Métro
Auto Auto Métro Aucun Auto Vélo Métro Aucun
Métro Autobus Auto Aucun Auto Vélo Aucun vélo
Aucun Métro Auto Auto Métro Aucun Aucun Métro
2
Normes générales de présentation des tableaux
Puisqu’un tableau de distribution de fréquences est un condensé des données brutes, il faut s’assurer qu’il
contienne toute l’information nécessaire à l’étude de la variable. Donc, tout tableau de distribution doit
posséder les caractéristiques suivantes :
xi ni fi La dernière ligne
est réservée pour
Auto 15 18,75% le total de chacune
La source des
des colonnes
données doit Autobus 17 21,75%
apparaitre au
bas du tableau Aucun 14 17,50%
Métro 28 35,00%
Vélo 6 7,50%
Total 80 100,00%
3
Normes générales de présentation des diagrammes
Tout comme le tableau de distribution de fréquences, le diagramme est un condensé (une photo) des
données brutes, il faut s’assurer qu’il contienne toute l’information nécessaire à l’étude de la variable.
Les rectangles
doivent être de
même largeur et
Distribution de 80 des 5600 étudiants du Collège de Maisonneuve la distance entre
selon le moyen de transport utilisé pour se rendre au collège, 2010. ceux-ci la
même.
35
30
Nombre d'étudiants
25
20
15
10
5
0
Vélo Métro Autobus Auto Aucun
Moyen de transport
Source : Données fictives
Les axes doivent
être dotés d’une
graduation
proportionnelle
La source des
données doit Les modalités doivent
apparaitre au être bien définies
bas du tableau ainsi que les axes et
les unités de mesures
4
Le diagramme en bandes peut aussi se faire selon des bandes horizontales et les mêmes
caractéristiques doivent être respectées.
Aucun
Moyen de transport
Auto
Autobus
Métro
Vélo
Ex. : Construire le diagramme circulaire représentant les données de l’exemple de la page 48.
7,50%
17,50% Vélo
L’angle de chacun
Métro
des secteurs =
fréquences 35,00% Autobus
18,75%
relatives X 3600 Auto
Aucun
21,25%
5
Mesures
Le mode
La seule mesure de tendance centrale significative dans le cas d’une variable qualitative est le mode. Le
mode (noté Mo) d’une variable qualitative est la modalité qui apparaît le plus souvent, c’est la modalité
qui a le plus grand effectif dans un tableau de distribution de fréquences.
Mo = Métro
6
4.3 Exercices
1. Un centre de nutrition a comme mission de changer les habitudes alimentaires des employés d’une
compagnie oeuvrant dans le textile. On a demandé à 60 employés choisis au hasard quel était le breuvage
qu’ils avaient l’habitude de consommer lors des repas.
a) Quelle est la variable étudiée ? De quel type est-
elle ?
2. Pour étudier la longueur du premier pas d’un bébé, nous avons sélectionné 80 mamans qui avaient mesuré
ce premier pas et nous avons classé la longueur de ces pas en trois catégories: C :court (moins de 27,5 cm),
M : moyen (entre 27,5 cm et 32,5 cm) et L :long (plus de 32,5 cm) :
a) Quelle est la variable étudiée ?
C C M C L M M C M M b) Quel est le type de la variable étudiée ?
L L C M L C M M M L c) Quelle est l’échelle de mesure de la variable ?
M M M C M L L M M L d) Construire le tableau de distribution de
M M L C C C M L L M fréquences.
M M C M L M M C M C e) Calculez la ou les mesure(s) de tendance
M M M C C M M C M M centrale pertinente(s) à ce type de variable et
L M M M M L M L M L interprétez dans le contexte.
Source : Données fictives f) Représentez graphiquement les résultats
obtenus.
3. On a donné à manger à 50 grenouilles d’une même espèce. Elles avaient le choix entre manger un moustique
(code 0), une mouche (code 1) ou une libellule (code 2). Voici les résultats obtenus:
a) Quelle est la variable étudiée ?
b) Quel est le type de cette variable ?
1 0 1 0 2 0 0 0 1 1 c) Quelle est l’échelle de mesure de la variable ?
0 0 1 0 2 0 1 2 0 0 d) Construire le tableau de distribution de fréquences.
0 0 1 0 0 0 0 1 0 0 e) Représentez graphiquement les résultats obtenus.
0 1 0 0 0 1 0 2 0 0 f) Quelles sont les autres représentations graphiques
0 0 2 1 2 1 0 2 1 1 possibles pour ce type de variable ?
Source : Données fictives g) Calculez la ou les mesure(s) de tendance centrale
pertinente(s) à ce type de variable et interprétez dans le
contexte.
7
4.4 Réponses
1.
a) VAR : Le breuvage habituellement consommé lors des repas
TYPE : Qualitative nominale
b) POP : L’ensemble de tous les employés de la compagnie de textile.
ÉCH : Les 60 employés sélectionnés de la compagnie de textile.
c) Mo = « Eau ». Un plus grand nombre des 60 employés choisis de la compagnie de textile
consomment de l’eau lors des repas.
d) 3 employés e) 64,8 degrés
2.
a) La longueur du premier pas d’un bébé f) Un diagramme à bandes verticales, horizontales ou
b) Quantitative continue un diagramme circulaire serait approprié. En voici un
c) Échelle ordinale exemple
d) Distribution des 80 bébés selon g)
la longueur de leur premier pas
Longueur Distribution des 80 bébés selon la
des premiers Nb. De % de longueur de leur premier pas
pas bébés bébés
60
Court 17 21,25 %
Moyen 45 56,25 %
Nombre de bébés 40
Long 18 22,50 %
20
Total 80 100%
Source :données fictives 0
e) Mo = « Moyen ». Un plus grand nombre des Court Moyen Long
80 bébés choisis ont effectué un premier pas de Longueur des pas
longueur moyenne.
Source :données fictives
b) Qualitative nominale
c) Échelle nominale
d) e)
Distribution des 50 grenouilles selon
Distribution de 50 grenouilles
l’insecte qu’elles ont mangé.
selon l'espèce d'insecte qu'elles
Insecte Nb.de % de
mangé grenouilles grenouilles ont mangé.
Libellule 7 14%
Mouche 15 30%
Moustique 28 56% 14%
Total : 50 100 % Libellule
Source :données fictives Mouche
56% 30%
Moustique
8
CHAPITRE 6 : Statistiques descriptives (suite)
6.1 Traitement d’une variable quantitative discrète
Une variable quantitative peut être soit discrète ou soit continue. Dans un premier temps, nous allons
voir comment traiter une variable quantitative discrète qui ne comporte que quelques valeurs
différentes pour ensuite, à la section suivante, traiter le cas d’une variable discrète qui comporte
plusieurs valeurs différentes. Ce dernier cas, nous le traiterons comme celui d’une variable quantitative
continue.
Ex. : En 2009, l’association étudiante du Collège Maisonneuve désire faire une étude auprès des
étudiants afin de connaître certaines caractéristiques de la clientèle étudiante. Pour ce faire, on a
choisi aléatoirement 110 des 5600 étudiants du Collège et à la question «Combien de fois, par
semaine, utilisez-vous le système Omnivox du Collège?» on a obtenu les résultats suivants :
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
5 5 5 5 5 5 5 5 5 5 6 6 6 6 6
9
6.12 Diagramme
Le seul diagramme approprié pour représenter une variable quantitative discrète ayant peu de valeurs
différentes est le diagramme en bâtons.
40
présentation de
l’exemple 30
précédent
20
10
0
2 3 4 5 6
Nombre d'utilisations hebdomadaires d'Omnivox
Source : données fictives
/ /
10
Remarque : bien que les bâtons doivent être des segments de droite, avec Excel, il est impossible
d’obtenir ces segments de façon automatique. On utilisera alors les bandes verticales les plus étroites
possibles. On obtiendra alors une représentation semblable à la suivante :
40
30
20
10
0
2 3 4 5 6
Nombre d'utilisations hebdomadaires d'Omnivox
Source : données fictives
6.21 Mode
Le mode (noté Mo) d’une variable quantitative discrète est la valeur de la variable qui a le plus grand
effectif ou pourcentage. Pour être significatif, le mode doit avoir une fréquence nettement plus grande
que les autres.
Mo = 3 utilisations
Interprétation : En 2009, le plus grand nombre des 110 étudiants interrogés au Collège de
Maisonneuve utilisaient le service Omnivox 3 fois par semaine.
6.22 Médiane
La médiane (notée Md ou Me) est la donnée centrale de la distribution des données lorsque celles-ci
sont ordonnées. C’est la valeur pour laquelle 50% des données sont inférieures ou égales à celle-ci.
Dans un tableau de distribution de fréquences, la médiane est la première valeur pour laquelle le
pourcentage cumulé dépasse 50%. Si le pourcentage cumulé est exactement de 50%, la médiane sera
la moyenne de cette valeur et de la suivante.
Me = 3 utilisations
Interprétation : En 2009, au moins 50% des 110 étudiants interrogés au Collège de Maisonneuve
utilisaient le service Omnivox 3 fois ou moins par semaine.
11
6.23 Moyenne
La moyenne est le centre de gravité de la dispersion des données. Algébriquement, la moyenne est la
somme de toutes les données, divisée par le nombre total de données.
Ainsi, la moyenne d’une population est symbolisée par la lettre grecque µ (qui se prononce « mu ») et
se calcule à l’aide de la formule
La moyenne d’un échantillon est symbolisée par x (prononcer « x barre ») et se calcule de la même
façon soit à l’aide de la formule
Graphiquement, il existe une méthode pour trouver une approximation de la moyenne. On n’a qu’à
imaginer que le graphique est un plateau qu’on doit faire tenir en équilibre sur un seul doigt. La
moyenne correspond alors à l’endroit où on mettrait le doigt pour garder cet équilibre.
Ex. : Quelle serait votre approximation de la moyenne des données du graphique suivant?
40
30
20
10
0
2 3 4 5 6
Nombre d'utilisations hebdomadaires d'Omnivox
Source : données fictives
6.3 Mesures de position
12
6.31 Quantiles
Les mesures de position sont utiles afin de déterminer la position relative d’une valeur par rapport à
l’ensemble de toutes les données. Les principales mesures de position sont les quartiles, les quintiles,
les déciles et les centiles. Les quantiles sont des nombres qui divisent une série ordonnée de données
en un nombre déterminé de portions égales.
Les quartiles (notés Q1, Q2, Q3) partagent une distribution en 4 parties égales comprenant 25% des
données.
Q1 Q2 Q3
De manière analogue,
▪ les quintiles (notés V1, V2, V3, V4 ) partagent une distribution en 5 parties égales, chacune
comprenant 20% des données;
▪ les déciles (notés D1, D2, D3,…,D9) partagent une distribution en 10 parties égales, chacune
comprenant 10% des données;
▪ les centiles (notés C1, C2, C3,…,C99) partagent une distribution en 100 parties égales, chacune
comprenant 1% des données.
Les mesures de position les plus utilisées sont les centiles. De plus, toutes les mesures de position se
transforment en centiles.
Ex. :
Q1 = C 25
D 4 = C 40
V 3 = C 60
Q 2 = D 5 = C 50 = Md
C72 = 4 utilisations
Interprétation : En 2009, au moins 72% des 110 étudiants interrogés au Collège de Maisonneuve
utilisaient le service Omnivox 4 fois ou moins par semaine.
13
6.4 Mesures de dispersion
En plus des mesures de tendance centrale et des mesures de position, les mesures de dispersion sont
des mesures qui seront très utiles lors de l’inférence statistique. Les mesures de dispersion vont
exprimer la dispersion, l’éparpillement, l’étalement des données autour des mesures de tendance
centrale. Les principales mesures de dispersion sont l’étendue, la variance, l’écart type et le coefficient
de variation.
6.41 Étendue
L’étendue est la différence entre la plus grande et la plus petite valeur d’une série de données.
Habituellement, l’étendue est notée par « E ». L’étendue correspond à la longueur d’une série de
données.
E = 6 – 2 = 4 utilisations
Interprétation :
6.42 Variance
La variance est une mesure de dispersion des données autour de la moyenne. Elle est définie comme
la moyenne des carrés des écarts entre chacune des données et la moyenne.
Cette définition est le résultat d’une étude sur la dispersion des données autour de la moyenne. Tout
d’abord, on avait fait l’étude des écarts des données à la moyenne. Puisque la moyenne est le centre de
gravité de la distribution, on s’est vite rendu compte qu’il y avait des écarts positifs et des écarts négatifs
et qu’en calculant la moyenne de ces écarts, le résultat était toujours égal à 0.
Ex. : Dans l’exemple page 13, le calcul de la moyenne des écarts serait le suivant :
( 2 − 3, 28) 28 + ( 3 − 3, 28) 43 + ( 4 − 3, 28 ) 24 + ( 5 − 3, 28 ) 10 + ( 6 − 3, 28 ) 5
110
−35,84 − 12, 04 + 17, 28 + 17, 2 + 13, 6
=
110
0
=
110
= 0 utilisation
Cette façon de faire n’était donc pas acceptable car aucunement représentative de la dispersion des
données autour de la moyenne.
14
Ensuite, est venu le calcul de la moyenne des valeurs absolues de ces écarts, défini comme l’écart moyen
(noté EM). Ce calcul nous donnait une mesure de dispersion naturelle des données. Plus cet écart
moyen est grand, plus les données sont éloignées de la moyenne.
Ex. : Dans l’exemple page 52, le calcul de l’écart moyen serait le suivant.
2 − 3, 28 28 + 3 − 3, 28 43 + 4 − 3, 28 24 + 5 − 3, 28 10 + 6 − 3, 28 5
EM =
110
35, 84 + 12, 04 + 17, 28 + 17, 2 + 13, 6
=
110
95, 96
=
110
= 0, 8724 utilisations
En raison de la présence de la valeur absolue, on a vite constaté que l’écart moyen se prêtait mal à un
traitement algébrique. Alors, pour obtenir une mesure qui se prêterait mieux à un calcul algébrique, on
a élevé au carré chacun de ces écarts pour ensuite en faire la moyenne. Mais ce nouveau calcul ne nous
donnait plus la moyenne des écarts, mais demeurait un indicateur de la dispersion des données. C’est,
une mesure différente qu’on a appelée variance et qui est notée 2 (prononcer « sigma carré ») pour
une population et s pour un échantillon. La variance d’un échantillon s’appelle aussi variance corrigée.
Ex. : Dans l’exemple page 52, le calcul de la variance s’effectuerait de la manière suivante :
( 2 − 3, 28 ) 28 + ( 3 − 3, 28 ) 43 + ( 4 − 3, 28 ) 24 + ( 5 − 3, 28 ) 10 + (6 − 3, 28 ) 5
2 2 2 2 2
s 2=
110 − 1
45, 8752 + 3, 3712 + 12, 4416 + 29, 584 + 36, 992
=
109
= 1,17 utilisations 2
Puisqu’on effectue des différences au carré, l’unité de mesure de la variance sera donc le carré de
celle de la variable. Par exemple, si la variable à l’étude est la taille en cm, l’unité de la variance serait
le cm2. Cette particularité de la variance est son principal défaut.
Dans notre exemple, l’unité de la variance sera le nombre d’utilisations hebdomadaires du système
Omnivox au carré.
( x1 − x ) 2 + ( x2 − x ) 2 + ( x3 − x ) 2 + ... + ( xn − x ) 2
s2 = pour un échantillon
n −1
15
6.43 Écart type
Malgré qu’elle soit une bonne mesure de dispersion, la variance possède un petit défaut, soit de
s’exprimer en unités carrés. Pour corriger ce petit défaut, on extrait la racine carrée de la variance et on
obtient alors une mesure de dispersion assortie de la même unité que la variable à l’étude. Cette nouvelle
mesure s’appelle l’écart type et sera très proche de la valeur calculée par l’écart moyen. L’écart type sera
noté par pour une population et par s pour un échantillon. L’écart type d’un échantillon s’appelle
aussi écart type corrigé.
= variance = 2
= pour une
N
population
( x 1 − x )2 +( x 2 − x )2 +( x 3 − x )2 + ... +( x n − x )2
s = variance = s 2
= pour un
n −1
échantillon
s = 1,17 = 1, 08 utilisation
Même si l’écart type est une mesure de dispersion des données autour de la moyenne, elle ne nous
permet pas d’affirmer que cette dispersion est grande ou petite. Mais, lorsque l’on compare l’écart type
de deux séries de données statistiques mesurées dans les mêmes unités et ayant sensiblement la même
moyenne : plus l’écart type est faible, plus les données sont concentrés autour de la moyenne, et plus
l’écart type est élevé, plus les données sont dispersées.
Ex. : Supposons que nous sommes en présence de deux groupes de personnes, le groupe A et le
groupe B, ayant les caractéristiques suivantes.
Groupe A : âge moyen 25,3 ans avec un écart type de 10,2 ans
Groupe B : âge moyen 25,3 ans avec un écart type de 2,3 ans
Dans les deux cas, l’écart type de chacun ne nous donne que très peu d’information sur la
dispersion des âges de chacun des groupes. Par contre, ce que nous pouvons dire, c’est que la
dispersion des âges du groupe B est plus petite que la dispersion des âges du groupe A. Ainsi, si
nous avons à sélectionner un groupe comprenant, par exemple, des personnes de 12 ans et des
personnes de 39 ans, il sera préférable de faire ce choix dans le groupe A. Par contre, si vous
voulez un groupe comprenant surtout des personnes âgées entre 20 et 30 ans, il sera préférable
de choisir ces personnes à partir du groupe B.
De plus, si nous avons à comparer la dispersion de deux séries de données ayant des moyennes
différentes, l’écart type n’est pas la mesure la plus efficace pour effectuer cette comparaison. C’est
pourquoi il nous faut définir une nouvelle mesure soit : le coefficient de variation.
16
6.5 Coefficient de variation
Tout en étant des mesures de dispersion des données autour de la moyenne, ni la variance ni l’écart
type ne peut nous dire si nous sommes en présence d’une grande ou d’une petite dispersion de données.
L’importance de cette dispersion est relative à l’ordre de grandeur de la moyenne. Le coefficient de
variation (noté CV) est une mesure de dispersion relative, il est un indicateur de l’homogénéité de la
population. Il se calcule de la façon suivante :
CV = 100 % pour une population
s pour un échantillon
CV = 100 %
x
Plus la valeur de ce coefficient est grande, plus la population est dispersée. Un coefficient de variation
inférieur à 15% indique que la population est homogène, tandis qu’un coefficient supérieur à 15%
montre que la population est dispersée, et de plus en plus dispersée à mesure que celui-ci augmente.
Le coefficient de variation est une mesure de dispersion pure, c’est-à-dire qu’il ne comporte pas d’unité
de mesure, on pourra donc l’utiliser pour comparer la dispersion de plusieurs séries de données même
si elles sont exprimées en unités différentes.
Il est à noter qu’on se servira du coefficient de variation uniquement lorsque la série de données
contiendra des valeurs positives. De plus, précisons que le coefficient de variation n’est pas très utile si
la moyenne est près de zéro. Dans ce cas, il serait très élevé et cela ne représenterait pas bien la
dispersion réelle des données.
Ex. : Supposons que nous sommes en présence de deux groupes de personnes, le groupe A et le
groupe B, ayant les caractéristiques suivantes.
Groupe A : âge moyen 47,6 ans avec un écart type de 10,2 ans
Groupe B : âge moyen 25,3 ans avec un écart type de 2,3 ans
10, 2
CV A = 100% = 21, 42%
47, 6
2, 3
CV B = 100% = 9, 09%
25, 3
Interprétation : La distribution de l’âge des personnes du groupe B est homogène alors que la
distribution de l’âge des personnes du groupe A n’est pas homogène.
Si le but de l’étude est de comparer les 2 groupes, on peut aussi faire l’interprétation suivante :
Interprétation : La distribution de l’âge des personnes du groupe B est plus homogène que celle
des personnes du groupe A.
ou
La distribution de l’âge des personnes du groupe A est plus dispersée que celle des personnes du
groupe B.
17
6.6 Traitement d’une variable quantitative continue (ou de données groupées en
classes)
Avant de procéder au traitement d’une variable, on doit effectuer un regroupement en classes lorsque
les données brutes observées sont toutes différentes ou presque. Cela se produit généralement lorsque
nous faisons l’étude d’une variable quantitative continue ou d’une variable quantitative discrète
qui possède un grand nombre de valeurs différentes. Ces classes seront ensuite utilisées tant pour
la construction du tableau de distribution de fréquences que pour les diagrammes. Elles interviendront
aussi dans certains cas dans l’estimation des mesures.
Comment faire un tel regroupement ? Combien de classes devrons-nous utiliser ? Pour répondre à ces
questions, on doit suivre la démarche suivante :
W.H.Sturges a inventé une formule pour fixer le nombre de classes. Le nombre de classes (NC) est
approximativement égal à 1 + 3,332 log (n). En utilisant cette formule on obtient la table de Sturges
ci-dessous.
Table de Sturges
18
Ex. : En 2012, l’association étudiante du Collège Maisonneuve a fait une étude auprès des
étudiants afin de connaître certaines de leurs caractéristiques. Pour ce faire, on a choisi
aléatoirement 135 des 5600 étudiants du Collège et à la question «Combien de temps prenez-vous
pour vous rendre au Collège ? » on a obtenu les temps suivants en minutes:
7 8 10 10 11 11 11 12 12 12 13
13 13 14 14 15 15 15 16 16 16 16
18 18 18 18 21 21 21 21 21 21 22
23 23 23 23 23 23 23 23 24 24 24
24 25 25 25 25 25 25 25 25 25 26
26 27 27 27 28 29 30 30 30 30 30
32 32 32 32 32 32 34 34 34 36 37
37 37 38 38 38 38 41 41 41 42 42
42 43 44 44 44 45 45 45 45 45 46
46 46 46 47 47 48 48 49 50 51 54
54 54 55 58 59 59 60 62 62 62 62
62 62 63 63 63 63 64 64 64 65 65
66 67 69
Quelles sont les classes qu’il faudrait utiliser pour grouper ces données?
19
6.61 Tableau de distribution de fréquences
Une fois que les classes sont créées, il est possible de construire un tableau de distributions de
fréquences pour une variable quantitative continue ou une variable quantitative discrète ayant un grand
nombre de valeurs différentes en se servant des classes comme modalités et en procédant au
dénombrement.
6.62 Diagrammes
On peut représenter les données regroupées en classes à l’aide de différents types de diagrammes :
l’histogramme, le polygone de fréquences et l’ogive. Voici un exemple de chacun d’eux.
20%
15%
10%
5%
0%
-5 5 15 25 35 45 55 65 75
Temps (minutes)
Sources : Données fictives
20
6.63 Polygones de fréquences
Ex. : Construire le polygone de fréquences représentant les données de l’exemple de la page 23.
20%
15%
10%
5%
0%
-5 5 15 25 35 45 55 65 75
Temps (minutes)
Sources : Données fictives
21
6.64 Ogive
On a vu que la colonne des fréquences cumulées d’un tableau de distribution des fréquences indique
pour chaque valeur, ou chaque classe, le pourcentage de valeurs qui lui sont inférieures.
À partir de la colonne des fréquences cumulées, nous pouvons faire une représentation graphique de
la répartition cumulative des données, une telle représentation graphique à pour nom une ogive. (Ce
nom à été proposé par le physiologiste, anthropologue et psychologue anglais Francis Galton 1822-
1911)
Ex. : Construire l’ogive représentant les données de l’exemple de la page 23. (Rappel du tableau)
Distribution de 135 des 5600 étudiants du Collège de Maisonneuve selon le temps nécessaire
pour se rendre au Collège, 2012
80%
60%
40%
20%
0%
5 15 25 35 45 55 65 75
Temps (minutes)
Sources : Données fictives
22
6.7 Mesures de tendance centrale
6.71 Mode
Dans le cas de données regroupées en classes, comme les données sont la plupart du temps à peu près
toutes différentes, il y a peu de chance que l’une d’elle se répète un grand nombre de fois. Dans ce cas,
nous n’étudions pas le mode mais plutôt la classe modale qui est la classe dans laquelle il y a le plus
de données.
Dans ce cas, il y a deux classes modales soient les classes [15;25[ et [25;35[.
Interprétation : En 2012, au Collège de Maisonneuve, un plus grand nombre des 135 étudiants
interrogés mettaient entre 15 et 35 minutes pour se rendre au Collège.
Si nous voulons une valeur plus précise du mode, il faudra l’estimer. Le centre de la classe modale est
parfois employé comme approximation du mode. Dans ce cas, le mode sera vu comme un point de
concentration autour duquel on retrouve une plus grande concentration des données.
6.72 Médiane
Rappelons que la médiane (Md ou Me) est la valeur telle que 50% des données lui sont inférieures et
50% lui sont supérieures. Pour le cas des données regroupées en classes, la médiane se trouve dans la
première classe pour laquelle le pourcentage cumulé atteint ou dépasse 50%. Cette classe est appelée
la classe médiane.
Nous pouvons estimer une médiane en supposant que les données sont réparties uniformément dans
la classe médiane. Pour cette raison, la valeur obtenue sera une valeur approximative de la
médiane. Elle se calcule à l’aide de la formule suivante :
23
Ex : Estimer la médiane de l’exemple de la page 23 à partir de son tableau de distribution de
fréquences ou de son histogramme sans utiliser la formule de la page précédente.
Rappel de l’histogramme :
80%
60%
40%
20%
0%
5 15 25 35 45 55 65 75
Temps (minutes)
24
6.73 Moyenne
La moyenne est la somme de toutes les données divisée par le nombre total de données (elle est le
centre de gravité de la dispersion des données).
Dans le cas où les données sont regroupées en classes, on peut se servir du point milieu de chacune
des classes pour estimer la moyenne de la distribution. Cette moyenne sera très près de la moyenne
réelle à la condition que les classes soient adéquatement construites.
Distribution de 135 des 5600 étudiants du Collège de Maisonneuve selon le temps nécessaire
pour se rendre au Collège, 2012
x=
(10 15) + ( 20 30 ) + ( 30 30 ) + ( 40 18 ) + (50 19 ) + ( 60 18 ) + ( 70 5 )
135
= 35,19 min
Interprétation : On estime que les 135 étudiants du Collège de Maisonneuve interrogés en 2012
mettaient en moyenne 35,19 minutes à se rendre au Collège.
25
6.74 Avantages et inconvénients des mesures de tendance centrale
Mode
Avantages : Inconvénients :
Médiane
Avantages : Inconvénients :
▪ Elle provient de la notion simple de ▪ Elle ne tient pas compte de la valeur des
centre. données.
▪ Elle ne dépend pas de la valeur des ▪ Elle ne possède aucune propriété
données mais de leur position. algébrique.
▪ Dans le cas des données regroupées en
classes, elle est peu influencée par le
choix des classes.
▪ Elle n’est pas affectée pas les valeurs
extrêmes.
Moyenne
Avantages : Inconvénients :
▪ Elle tient compte de toutes les données ▪ Elle est sensible aux valeurs extrêmes.
et de leur valeur respective. ▪ Elle est difficile à calculer s’il y a des
▪ Elle possède de bonnes propriétés classes ouvertes.
algébriques.
▪ Sa valeur est stable d’un échantillon à
l’autre.
26
6.8 Mesures de position
6.81 Centiles
Tous les quantiles pouvant être convertis en centiles, nous traitons ici que des centiles. Lorsque les
données sont groupées en classes, le centile d’ordre k noté C k se trouve dans la première classe pour
laquelle le pourcentage cumulé atteint ou dépasse k %.
D’une manière analogue à la médiane, nous pouvons estimer le centile d’ordre k en supposant que les
données sont réparties uniformément dans la classe qui contient C k . L’estimation du centile d’ordre k
se calcule à l’aide de la formule suivante :
Interprétation : ______________________________________________________________
__________________________________________________________________________
__________________________________________________________________________
27
6.9 Mesures de dispersion
6.91 Étendue
Lorsque les données d’une variable quantitative sont regroupées en classes, l’estimation de l’étendue (E)
est la différence entre la borne supérieure de la dernière classe et la borne inférieure de la première classe.
E = 75 – 5 = 70
Interprétation : En 2012, les 135 étudiants du Collège de Maisonneuve interrogés pouvaient avoir
un temps de transport pour se rendre au Collège qui pouvait varier jusqu’à environ 70 minutes entre
le temps le plus long et le plus court.
6.92 Variance
Avec des données regroupées en classe, l’estimation de la variance s’effectue de la même manière que si
on la calculait avec des données provenant du tableau de distribution de fréquences d’une variable
quantitative discrète mais en remplaçant chaque donnée par les milieux de classes (mk). Bien sûr, la valeur
obtenue est une valeur approximative de la variance réelle. Cette valeur approximative est très près de la
variance réelle à la condition que les classes soient adéquatement construites.
(m1 − ) 2 + ... + ( mN − ) 2
2 = pour une population
N
28
6.93 Écart type
L’écart type est la racine carrée de la variance. Ainsi pour estimer l’écart type avec des données regroupées
en classe, il suffit de faire la racine carrée de l’estimation de la variance. L’écart type d’un échantillon porte
aussi le nom d’écart type corrigé.
( m1 − )2 + ... +( mN − )2
= variance = 2
= pour une population
N
( m1 − x )2 + ... +( mn − x )2
s = variance = s 2
= pour un échantillon
n −1
CV = 100% pour une population
s
CV = 100 % pour un échantillon
x
Interprétation : ______________________________________________________________
__________________________________________________________________________
__________________________________________________________________________
29
6.95 Avantages et inconvénients des mesures de dispersion
Étendue
Avantages : Inconvénients :
30
6.10 Exercices
1. Un centre de nutrition a comme mission de changer les habitudes alimentaires des employés d’une
compagnie oeuvrant dans le textile. On a demandé à 60 employés choisis au hasard quel était le
breuvage qu’ils avaient l’habitude de consommer lors des repas.
a) Quelle est la variable étudiée ? De quel type
est-elle ?
b) Quelle est la population ? L’échantillon ?
c) Quelle(s) mesure(s) est-il approprié de donner
? Trouvez-la (ou les) et interprétez.
d) Combien de ces 60 employés boivent
habituellement une tisane lors des repas ?
e) Quel est l’angle au centre (en degrés) du
secteur « Café » ?
2. Pour étudier la longueur du premier pas d’un bébé, nous avons sélectionné 80 mamans qui avaient
mesuré ce premier pas et nous avons classé la longueur de ces pas en trois catégories: C :court (moins
de 27,5 cm), M : moyen (entre 27,5 cm et 32,5 cm) et L :long (plus de 32,5 cm) :
a) Quelle est la variable étudiée ?
C C M C L M M C M M b) Quel est le type de la variable étudiée ?
L L C M L C M M M L c) Quelle est l’échelle de mesure de la variable
M M M C M L L M M L ?
M M L C C C M L L M d) Construire le tableau de distribution de
M M C M L M M C M C fréquences.
M M M C C M M C M M e) Calculez la ou les mesure(s) de tendance
L M M M M L M L M L centrale pertinente(s) à ce type de variable et
Source : Données fictives interprétez dans le contexte.
f) Représentez graphiquement les résultats
obtenus.
3. On a donné à manger à 50 grenouilles d’une même espèce. Elles avaient le choix entre manger un
moustique (code 0), une mouche (code 1) ou une libellule (code 2). Voici les résultats obtenus:
a) Quelle est la variable étudiée ?
b) Quel est le type de cette variable ?
1 0 1 0 2 0 0 0 1 1 c) Quelle est l’échelle de mesure de la variable ?
0 0 1 0 2 0 1 2 0 0 d) Construire le tableau de distribution de fréquences.
0 0 1 0 0 0 0 1 0 0 e) Représentez graphiquement les résultats obtenus.
0 1 0 0 0 1 0 2 0 0 f) Quelles sont les autres représentations graphiques
0 0 2 1 2 1 0 2 1 1 possibles pour ce type de variable ?
Source : Données fictives g) Calculez la ou les mesure(s) de tendance centrale
pertinente(s) à ce type de variable et interprétez dans le
contexte.
31
4. Un contrôle visuel est effectué pour repérer les défectuosités possibles sur des chemises de qualité
supérieure produites par un grand couturier français. Les résultats de l’inspection de 100 chemises
apparaissent dans le tableau suivant :
Nombre de défectuosités observées sur e) Quel est le type de la variable à l’étude ?
chaque chemise f) Présentez ces données sous forme de tableau de
1 1 2 0 0 0 0 3 1 0 distribution de fréquences à l’aide d’Excel
2 2 0 0 1 0 2 0 3 1 g) Présentez ces données sous forme de graphique
0 0 0 1 1 0 0 2 4 1 à l’aide d’Excel.
0 0 1 1 1 1 0 0 1 3 h) Trouvez le mode de cette distribution et
2 0 1 1 1 0 3 0 1 1 interprétez-le dans le contexte du problème
0 1 1 0 0 1 1 2 2 0 .i) Trouvez la médiane de cette distribution et
2 1 2 1 3 4 2 1 0 2 interprétez-la dans le contexte problème.
2 1 1 1 2 1 2 0 3 1 j) Trouvez la moyenne de cette distribution à
0 2 2 2 0 0 0 0 0 1 l’aide d’Excel et interprétez-la dans le contexte du
0 1 1 0 0 0 1 1 0 0 problème.
Source : Données fictives k) Trouvez l’écart type de cette distribution.
l) Quel est le nombre maximal de défectuosités
a) Déterminez la population étudiée lors de cette observées sur 35 % des chemises qui en ont le
expérience. moins ?
b)Quelle est l’unité statistique ? m) Quel est le nombre minimal de défectuosités
c) Quelle est la taille de l’échantillon ? observées sur 25 % des chemises qui en ont le
d )Quelle est la variable étudiée ? plus ?
5. On désire déterminer s’il existe un lien entre la fratrie des familles de jeunes ayant des problèmes de
dépendance à l’alcool et le sentiment d’appartenance envers leur famille. Pour réaliser notre étude,
on a demandé à tous les jeunes du centre d’accueil AU-SECOURS combien ils avaient de frères et
de soeurs.
Distribution des_______________ jeunes selon le nombre de frères et sœurs
qu’ils ont dans leur famille
Nb. de frères et soeurs Nb. de jeunes % de jeunes
0 8
1 12
2 5
3 4
4 4
5 0
6 0
7 1
Total
Source : Données fictives
32
6. À l’automne 2008, on a posé la question suivante à 30 étudiants de première session d’un cégep de
l’île de Montréal : « À combien de cours êtes-vous inscrits ? » Voici le diagramme en bâton
représentant les résultats.
a) Trouvez les 3 mesures de tendance centrale
et interprétez-les dans le contexte.
Distribution des 30 étudiants de
première session d'un cégep de l'île de
b) Trouvez l’écart type et interprétez-le.
Montréal selon le nombre de cours
auxquels ils sont inscrits à l'automne
10 c) Trouvez le coefficient de variation et
2008
Nombre d'étudiants
24
b) Quelle serait la mesure de tendance centrale
20 la plus appropriée dans ce cas? Justifiez.
Nombres d'unités
statistiques
16
12 c) Quel est le type de la variable à l’étude?
8
4
0
d) Quelle est la taille de l’échantillon utilisée?
1 2 3 4 5
Variable à l'étude
8. Une maison de sondage a réalisé une étude afin de déterminer si la qualité du service dans un
centre d’information touristique provincial est de bonne qualité. Les données suivantes
représentent le temps d’attente (en minutes), avant d’être servi par un préposé au comptoir, de
30 touristes choisis au hasard.
10,9 7,4 12,9 9,1 7,6 11,2 7 7,3 7,3 11 10
7,9 9,5 10,5 12,4 8,3 8 8,4 7,1 8 8,4 7,9
8,2 9 9 10 11,7 11 9,1 10
a) Quelle est la variable étudiée ? De quel type est-elle ?
b) Quelle est l’étendue des données ?
c) D’après le tableau de Sturges, quel devrait être le nombre de classes requises pour le
dépouillement des données ?
d) Construisez le tableau de distribution. (le tableau doit être complet)
e) Tracez, sur un même graphique, l’histogramme et le polygone de fréquences.
f) Trouvez la classe modale et donnez son interprétation dans le contexte.
g) Trouvez la valeur des deux autres mesures de tendance centrale (Md et x ) et donnez leur
interprétation dans le contexte.
33
9. Le tableau suivant représente la distribution des résultats obtenus d’un échantillon de 120
étudiants lors d’un concours mathématique en 2009.
Distribution de 120 étudiants selon leur résultat obtenu au concours mathématique, 2009
Résultat Nb. d’étudiants % d’étudiants % cumulé d’étudiants
[0 ; 20[ 18
[20 ; 40[ 24
[40 ; 60[ 45
[60 ; 80[ 19
[80 ; 100[ 14
TOTAL
Source : données fictives
a) Complétez le tableau précédent.
b) Trouvez la classe modale et donnez son interprétation dans le contexte.
c) Trouvez la valeur des deux autres mesures de tendance centrale (Md et x ) et donnez leur
interprétation dans le contexte.
d) Trouvez l’écart type.
10. Le club d’aviron HIRAM de Montréal a noté la taille (en centimètres) de tous ses membres. Voici
les données recueillies.
11. Un responsable du contrôle de la qualité a comme mission d’étudier le poids (en grammes) ainsi
que le degré d’usure de pièces électriques utilisées dans la fabrication de téléviseurs usagés. Voici
les données brutes pour un échantillon de 25 pièces.
34
12,1 peu 12 moyen 10 très 15,3 peu 11,2 peu
10,1 peu 18,2 peu 17 peu 19,1 peu 15 moyen
13,3 très 15,2 peu 16,3 très 17 moyen 11,5 peu
Source : Données fictives
a) De quel type est la variable « degré d’usure » ? Représentez-la sous forme de tableau et de
graphique, et donnez les mesures pertinentes ainsi que leurs interprétations.
b) Quelle est la 2e variable étudiée ? De quel type est-elle ?
c) Représentez cette variable sous forme de tableau de distribution.
d) Déterminez la valeur approximative de la médiane à l’aide de l’ogive.
e) Trouvez les 3 mesures de tendance centrale.
f) Trouvez la variance.
g) Trouvez le 85e centile et le 8e décile.
12. Le graphique suivant décrit la répartition des 72 habitants d’un village Inuit en fonction de leur
âge. Il est à noter que les pourcentages au-dessus des bâtons de l’histogramme sont des valeurs
arrondies.
Distribution des 72 habitants d'un village Inuit selon leur âge
40% 36,11%
33,33%
Pourcentage d'habitants
35%
30%
25%
20%
15% 11,11%
8,33%
10% 5,55% 5,55%
5% 0% 0%
0%
0 15 30 45 60 75 90
Âge
13. Le regroupement des données sous forme de classes ne peut s’effectuer qu’avec des données de
type quantitatives continues. Vrai ou faux ? Justifiez.
14. Dans le calcul de l’écart type, pourquoi doit-on élever au carré tous les écarts entre chacune des
données et la moyenne ?
16. Quelle information supplémentaire nous apporte le coefficient de variation par rapport à l’écart
type ?
17. Pendant la fin de semaine du 26 et 27 août, dans l’arrondissement St-Michel avait lieu un
tournoi de soccer. Dans la catégorie 11-12 ans, la taille de tous les participants était distribuée
selon le tableau suivant :
35
Distribution des joueurs de la catégorie 11-12 ans selon leur grandeur en
centimètres au tournoi de soccer de St-Michel les 26-27 août
Grandeur ( cm ) Pourcentage cumulé
100 ;110 6%
110 ;120 28%
120 ;130 58%
36
6.11 Réponses
1. a) VAR : Le breuvage habituellement consommé lors des repas
TYPE : Qualitative nominale
b) POP : L’ensemble de tous les employés de la compagnie de textile.
ÉCH : Les 60 employés sélectionnés de la compagnie de textile.
c) Mo = « Eau ». Un plus grand nombre des 60 employés choisis de la compagnie de textile
consomment de l’eau lors des repas.
d) 3 employés
e) 64,8 degrés
40
20
0
Court Moyen Long
Longueur des pas
37
e)
Distribution de 50 grenouilles selon l'espèce
d'insecte qu'elles ont mangé.
14% Libellule
Mouche
56% 30%
Moustique
4. a) L’ensemble des chemises de qualité supérieure produites par un grand couturier français.
b) Une chemise de qualité supérieure produite par un grand couturier français.
c) n = 100
d) Nombre de défectuosités observées sur une chemise produite par ce couturier français.
e) Quantitative discrète
f) Distribution des 100 chemises qualité supérieure produites par un
grand couturier français selon le nombre de défectuosités observées sur chacune d’elles.
g)
Distribution de 100 chemises de qualité supérieures produites
par un grand couturier français selon le nombre de
défectuosités observées sur chacune d'elles.
50%
Pourcentage de chemises
40%
30%
20%
10%
0%
0 1 2 3 4
Nombre de défectuosités
38
h) Mo = 0 défaut
Un plus grand nombre des 100 chemises de qualité supérieure produites par un grand couturier
français ne possédaient aucun défaut.
i) Me = 1 défaut
Au moins 50 % des 100 chemises de qualité supérieure produites par un grand couturier français
possédaient aucun, ou un seul défaut.
j) x = 0,97 défaut
Les 100 chemises de qualité supérieure produites par un grand couturier français possédaient
en moyenne 0,97 défaut par chemise.
k) s = 1 défaut
l) C35 = 0 défaut
m) C75 = 2 défauts
5. a) Recensement
b) L’ensemble des 34 jeunes du centre d’accueil AU-SECOURS.
c) Le nombre de frères et sœurs
d)
Distribution des 34 jeunes du centre d'accueil AU-SECOURS selon
leur nombre de frères et sœurs.
15
Nombre de jeunes
10
0
0 1 2 3 4 5 6 7
Nombre de frères et sœurs
39
Au moins 60 % des 34 jeunes du centre d’accueil AU-SECOURS ont 2 frères ou sœurs ou
moins dans leur famille.
C88 = 4 frères ou soeurs
Au moins 88 % des 34 jeunes du centre d’accueil AU-SECOURS ont 4 frères ou sœurs ou
moins dans leur famille.
6.
a) Mo = 7 cours
À l’automne 2008, un plus grand nombre des 30 étudiants de première session d’un cégep de
l’île de Montréal interrogés étaient inscrits à 7 cours.
Me = 6 cours
À l’automne 2008, au moins 50 % des 30 étudiants de première session d’un cégep de l’île de
Montréal interrogés étaient inscrits à 6 cours ou moins (4, 5 ou 6 cours).
x = 5,97 cours
À l’automne 2008, les 30 étudiants de première session d’un cégep de l’île de Montréal
interrogés étaient inscrits à 5,97 cours en moyenne.
b) s =1,27 cours.
c) C.V.= 21,27%
Les 30 étudiants de première session d’un cégep de l’île de Montréal interrogés à l’automne
2008 ne formaient pas un groupe homogène quant au nombre de cours auquels ils étaient
inscrits.
c) Q3 = 7 cours
Au moins 75 % des 30 étudiants de première session d’un cégep de l’île de Montréal interrogés
étaient inscrits à 7 cours ou moins à l’automne 2008.
D7 = 7 cours
Au moins 70 % des 30 étudiants de première session d’un cégep de l’île de Montréal interrogés
étaient inscrits à 7 cours ou moins à l’automne 2008.
C45 = 6 cours
Au moins 45 % des 30 étudiants de première session d’un cégep de l’île de Montréal interrogés
étaient inscrits à 6 cours ou moins à l’automne 2008.
7. a) Un diagramme en bâtons
b) Le mode, car la valeur « 2 » se répète beaucoup plus souvent que les autres valeurs.
c) Variable quantitative discrète
d) n = 37
8. a) Le temps d’attente avant d’être servi par un préposé dans un centre d’information
touristique. Type : quantitative continue
b) 5,9 minutes
c) 6 classes
d) Distribution des 30 touristes dans un centre d’information touristique
provincial selon le temps d’attente avant d’obtenir un service
40
e)
f) La classe modale est [7; 8[ . Un plus grand nombre des 30 touristes dans un centre d’information
provincial ont dû attendre entre 7 et 8 minutes avant d’obtenir un service d’un préposé.
g) Md = 9,20 Au moins 50 % des 30 touristes d’un centre d’information provincial ont
attendu 9,20 minutes ou moins avant d’avoir un service.
x = 9,40 (avec les milieux) Le temps moyen d’attente des 30 touristes d’un centre d’information
provincial est de 9,4 minutes avant d’avoir un service.
9. a) Distribution de 120 étudiants selon leur résultat obtenu au concours mathématique, 2009
% cumulé
Résultat (%) Nb. d’étudiants % d’étudiants
d’étudiants
[0 ; 20[ 18 15,00 % 15,00 %
[20 ; 40[ 24 20,00 % 35,00 %
[40 ; 60[ 45 37,50 % 72,50 %
[60 ; 80[ 19 15,83 % 88,33 %
[80 ; 100[ 14 11,67 % 100,00 %
TOTAL 120 100,00 %
Source : données fictives
b) [40; 60[ Un plus grand nombre de ces 120 étudiants qui ont fait le concours
mathématique en 2009 ont obtenu un résultat entre 40% et 60%.
c) Md = 48,00 Au moins 50 % de ces 120 étudiants qui ont fait le concours de mathématiques
en 2009 ont obtenu un résultat de 48% ou moins.
x = 47,83 Le résultat moyen obtenu par ces 120 étudiants qui ont fait le concours
mathématique en 2009 est de 47,83%.
d) s = 23,88
41
10. a) Recensement
a) Distribution des 54 membres du club d’aviron
HIRAM de Montréal selon leur taille
Taille Nb. de membres % de membres
[140; 150[ 2 3,70%
[150; 160[ 5 9,26%
[160; 170[ 8 14,81%
[170; 180[ 18 33,33%
[180; 190[ 14 25,93%
[190; 200[ 6 11,11%
[200; 210[ 1 1,85%
Total 54 100,00%
Source : données fictives
c)
e)
42
Source : données fictives
f) [170; 180[ Un plus grand nombre des 54 membres du club d’aviron HIRAM de Montréal
ont une taille entre 170 et 180 cm.
g) Md = 176,67 cm Au moins 50 % des 54 membres du club d’aviron HIRAM de Montréal
ont une taille de 176,67 cm ou moins.
h) = 175,93 cm Les 54 membres du club d’aviron HIRAM de Montréal ont une taille
moyenne de 175,93 cm.
i) La moyenne, car la distribution est symétrique (pas de données extrêmes), et il n’y a aucune
classe qui se démarque des autres.
j) = 13,09 cm
k) C.V. = 7,44 %. La distribution de la taille des 54 membres du club d’aviron HIRAM de
Montréal est homogène.
l) C75 = 185,36 Au moins 75 % des 54 membres du club d’aviron HIRAM de Montréal
ont une taille de 185,36 cm ou moins.
D3 = 170,67 Au moins 30 % des 54 membres du club d’aviron HIRAM de Montréal ont une
taille de 170,67 cm ou moins.
Q1= 168,13 Au moins 25 % des 54 membres du club d’aviron HIRAM de Montréal ont une
taille de 168,13 cm ou moins.
très
Degré d'usure
assez
moyen
peu
0 10 20 30 40 50 60
% de pièces électriques
Mo = « peu d’usure » Un plus grand nombre des 25 pièces électriques sont peu usées.
Md = « peu d’usure » Au moins 50 % des 25 pièces électriques sont peu usées.
b) VAR : Le poids des pièces électriques TYPE : Quantitative continue
43
c) Distribution des 25 pièces électriques selon leur poids
d)
Distribution cumulative des 25 pièces électroniques selon
leur poids
100%
Pourcentage cumulé
80%
60%
40%
20%
0%
10 12 14 16 18 20 22
Poids (en grammes)
12. a) Recensement
b) Distribution des 72 habitants Inuit selon leur âge
Nb.
Âge % d’habitants
d’habitants
[0; 15[ 6 8,33%
[15; 30[ 8 11,11%
[30; 45[ 24 33,33%
[45; 60[ 26 36,11%
[60; 75[ 4 5,55%
[75; 90[ 4 5,55%
Total 72 100,00%
Source : Données fictives
c) Cl. Mod. = [45; 60[ Le plus grand nombre des 72 habitants d’un village Inuit ont entre
45 et 60 ans.
Md = 43,75 ans Au moins 50% des 72 habitants d’un village Inuit ont 43,75 ans ou moins.
= 42,92 ans L’âge moyen des 72 habitants d’un village Inuit est 42,92 ans.
44
13. Faux. On peut aussi regrouper les données en classes lorsqu’une variable quantitative discrète
possède plusieurs valeurs différentes.
14. Parce que les écarts positifs (où la donnée est au-dessus de la moyenne) et les écarts négatifs (où la
donnée est sous la moyenne) finissent par s’annuler. Le résultat du calcul donnerait toujours zéro.
15. Les unités de mesure sont exprimées au carré. ex : 11,2 ans2 ou 1 433 $2 ce qui les rend très
difficiles à interpréter !
16. Le coefficient de variation nous donne une idée de l’importance relative de la dispersion des
données par rapport à la moyenne. De plus, le C.V. est utile pour comparer la dispersion de 2 séries
de données même si elles sont exprimées en unités de mesure différentes.
45
CHAPITRE 7 : La collecte des données
__________________________________________________________________
D’aussi loin que nous pouvons remonter, les rois et les chefs d’État ont souhaité déterminer la puissance
des nations qu’ils dirigeaient à l’aide de recensements partiels ou complets. En voici des exemples les plus
anciens :
3800 avant J.-C. Dans la région de Sumer de la basse Mésopotamie, on dénombrait les biens et
le bétail et, plus tard, la population elle-même.
3000 avant J.-C En Mésopotamie (région de l’Asie occidentale), on retrouve des mentions de
collectes de données sur les biens et les personnes.
1200 avant J.-C. En Chine, on fait des évaluations de productions agricoles.
Début de notre ère Un dénombrement des richesses de l’Empire Romain est mentionné dans
l’Évangile de Luc.
Toujours selon l’Évangile de Luc, on retrouve un premier recensement des
personnes (à Bethléem).
500 après J.-C. À la suite de l’effondrement de l’Empire romain, la pratique du recensement
disparaît presque, à l’exception du «Bréviaire» de Charlemagne (808 après J.-C.)
et du «Grand livre cadastral» de Guillaume le Conquérant (1086 après J.-C.),
dans lesquels figurait la liste de leurs propriétés et de leurs biens.
e
Les premières utilisations des méthodes quantitatives remontent au début du XVII siècle, en
Angleterre, en France et en Allemagne avec des études à caractère social.
Allemagne 1648 Suite à la guerre de Trente Ans (conflit politique et religieux de 1618 à 1648, né
de l’antagonisme qui opposait les princes allemands protestants à l’autorité
impériale catholique), les Allemands ont voulu évaluer leur situation. Ils ont
alors recueilli des informations portant sur différents sujets (pertes humaines,
pertes matérielles, nouvelles structures territoriales…). De cette étude, une école
de la statistique, dont le siège était à l’Université de Göttingen, fut créée.
Angleterre 1665 C’est en Angleterre que l’évolution des méthodes quantitatives dans les études
sociales eut le plus d’ampleur. Ainsi, après l’épidémie de peste qui ravagea
Londres en 1664-1665 (environ 100 000 morts sur 460 000 habitants), il
devenait essentiel de faire le dénombrement de la population.
Canada 1666 Le premier recensement canadien a été effectué par Jean Talon (il a fait du porte-
à-porte). Les 3 215 habitants (2034 hommes et 1181 femmes) de la colonie ont
été dénombrés en fonction de leur âge, de leur sexe, de leur état matrimonial et
de leur profession.
France 1697 La grande enquête, qui portait sur une multitude d’aspects sociaux, avait comme
objectif de mettre en évidence les conséquences indésirables de la politique de
guerre de Louis XIV et de sa taxation excessive.
France 1778 La population française était estimée à 23 687 409 habitants.
France 1800-01 Création du bureau de la République.
Angleterre 1801 Adoption de la politique voulant qu’il y ait un recensement aux dix ans.
Québec 1867 Durant l’année de la confédération du Canada (réunion des provinces du
Nouveau-Brunswick, de la Nouvelle-Écosse, de l’Ontario et du Québec), le
gouvernement vota des lois concernant la collecte de données dans les domaines
suivants : l’éducation, l’agriculture, les municipalités et l’état civil.
46
Canada 1871 En vertu de l’acte concernant le premier recensement adopté le 12 mai 1870, le
jour du premier recensement devait avoir lieu au plus tard le premier mai. De
plus, selon l’article 8 de la loi constitutionnelle de 1867 (auparavant l’Acte de
l’Amérique du Nord Britannique), un recensement devait avoir lieu tous les 10 ans.
Ce premier recensement dénombrait la population des quatre provinces d’alors.
Il avait pour objectif principal de déterminer le nombre de représentants du
nouveau Parlement en fonction de la taille de la population de chacune des
provinces. Ce premier recensement couvrait une variété de sujets (territoire,
biens immobiliers, état civil, religion, éducation, justice, agriculture, commerce,
âge, sexe, race) et comptait 211 questions. Tous les ménages n’avaient pas à
répondre aux 211 questions.
Canada 1901 Le recensement est passé à 11 questionnaires et 516 questions. Les ménages
n’avaient pas à répondre à toutes les questions. Des questions sur la religion, le
lieu de naissance, la citoyenneté et la date d’immigration se sont ajoutés à la
question sur l’origine ethnique. La population canadienne se chiffrait à 5 371
051 personnes et Montréal était la ville la plus peuplée avec 267 730 habitants.
Québec 1912 Le 9 décembre, Lomer Gouin présenta un projet de loi concernant la création
du Bureau de la statistique du Québec (BSQ). Le 21 décembre, ce projet de loi
obtient la sanction royale.
Canada 1918 Création du bureau national de la statistique.
Canada 1931 Lors du recensement, on avait de nouvelles questions visant à évaluer l’ampleur
du chômage ainsi qu’à analyser les causes de ce fléau.
États-Unis 1932 Premier sondage préélectoral aux États-Unis, effectué par G.H. Gallup pour sa
belle-mère qui se présentait au Sénat.
Québec 1940 Soutenu par le premier ministre Joseph Adélard Godbout, le projet de loi 18,
sanctionné le 25 avril 1940, met fin à la discrimination électorale faite aux
femmes. Les Québécoises peuvent désormais voter et se faire élire.
Canada 1941 Pour la première fois, le recensement utilisait un échantillonnage alors que le
questionnaire détaillé était envoyé à un ménage sur dix. Cette méthode de
collecte de données détaillées à partir d’un échantillon des ménages s’est révélée
une méthode efficace, qui fournissait des données de qualité supérieure tout en
réduisant les coûts et le fardeau de réponses. Une autre innovation majeure était
l’ajout des questions sur la fertilité. Ces données ont été corrélées à celles du
revenu, de la scolarité et à d’autres caractéristiques importantes de la famille.
Québec 1965 Une première firme québécoise de sondage fut créée « Centre de Recherche sur
l’Opinion Publique » CROP (première enquête chez les membres de l’Alliance
des professeurs de Montréal). La compilation des données est alors effectuée à
la main.
Québec 1966 Les sondages politiques donnaient Jean Lesage gagnant aux élections. Or, c’est
Daniel Johnson qui est devenu Premier ministre! En réalité, Jean Lesage avait
obtenu beaucoup plus de voix que son adversaire. Mais les sondages de l’époque
ne tenaient pas compte de la répartition par circonscriptions. Aujourd’hui, on
évite ce genre d’erreurs.
Canada 1971 Le Bureau national de la statistique devient Statistique Canada.
Une nouvelle loi autorise un recensement aux cinq ans.
L’auto-dénombrement, méthode selon laquelle le répondant remplit lui-même
le questionnaire a été introduit en 1971. Cette méthode a permis de minimiser
les erreurs d’interprétation de la part des recenseurs et d’améliorer la qualité des
données. 41 000 recenseurs ont été nécessaires pour effectuer ce recensement.
Québec 1986 Création de la maison de sondage Léger et Léger qui deviendra Léger Marketing.
Québec 1999 Le premier avril, le Bureau national de la statistique devient l’Institut de la
statistique du Québec (ISQ) d’après le projet de loi 441 sanctionné le 20 juin
47
1998. Il diffuse les statistiques officielles sur l’économie, la démographie, la
culture, le travail, la rémunération et la santé.
Canada 2001 15 mai, jour du 19ième recensement du Canada. Du premier au 12 mai, plus de
11,8 millions ménages recevaient un questionnaire.
Pour la première fois, on recueillait des renseignements sur les partenaires en
union libre (même sexe), avec ou sans enfant à la maison.
Canada 2006 L’avant-dernier recensement a eu lieu le 16 mai 2006. Ce jour-là, on a demandé
à environ 32,5 millions de personnes réparties sur 9,2 millions de kilomètres
carrés du territoire canadien « d’être du nombre ».
Il y a eu cinq grands changements lors de ce recensement :
1. la production d’un fichier d’adresses qui servira à l’envoi postal des
questionnaires à au moins deux tiers des ménages (les autres questionnaires
seront livrés en personne);
2. la possibilité de compléter le questionnaire du recensement par le biais
d’internet;
3. la création d’un centre de traitement à haute sécurité où sera acheminé tous
les questionnaires complétés par les répondants;
4. l’automatisation de l’enregistrement, de la numération et de la saisie des
données des questionnaires;
5. l’automatisation des étapes de vérification des questionnaires et du suivi
téléphonique des questionnaires rejetés au contrôle.
Canada 2010 Changement de la loi par le gouvernement conservateur de Stephen Harper. En
vertu de la nouvelle loi, le formulaire long est réduit d'une cinquantaine de
questions et remplacé par une enquête de type volontaire. Cette modification a
soulevé un tollé de la part des milieux scientifiques, ainsi que des nombreux
organismes qui dépendent de statistiques fiables pour leur planification. Ainsi
qu'on pouvait le prévoir, le recensement statistique de 2011 a révélé
d'importantes lacunes : «Le portrait de tout un lot de petites municipalités, 1128
au total, n’est plus disponible, car moins de la moitié de leurs habitants ont
répondu au questionnaire de 2011, ce qui fausse les résultats.»
48
7.1 Recensement ou sondage
Dans toutes les études statistiques, peu importe la façon choisie pour recueillir l’information, il faut
d’abord déterminer si on recueille l’information auprès de tous les éléments de la population
(recensement) ou seulement une partie de celle-ci (sondage). Si on choisit de recueillir l’information
auprès d’une partie de la population, il faudra donc sélectionner un échantillon. L’échantillonnage est
le procédé par lequel on choisit un échantillon.
Les raisons qui nous poussent à effectuer un sondage plutôt qu’un recensement sont :
▪ Une population qui est trop grande;
▪ Une population qui est inaccessible;
▪ Les coûts élevés associés à un recensement;
▪ Un recensement est souvent trop long à réaliser;
▪ Un recensement peut s’avérer destructif;
▪ Un trop grand nombre de recensements deviendrait un fardeau pour la population.
Pour qu’un sondage soit significatif, il faut que l’échantillon utilisé soit, entre autres, représentatif de la
population, c’est-à-dire un reflet fidèle de cette dernière. Pour s’assurer de la bonne représentativité de
notre échantillon, il faut tout d’abord s’assurer de posséder une bonne base de sondage (donnée par la
liste de tous les individus ou éléments de la population observée) et il faut que cet échantillon soit choisi
selon certaines méthodes d’échantillonnage.
7.2 L’échantillonnage
L'échantillonnage fait partie de la démarche de base de la statistique appliquée. Ainsi, supposons que les
premières parties de l'étude statistique soient complétées, c'est-à-dire que le cadre de la recherche est bien
déterminé et que les hypothèses ont été posées. L’étape suivante sera la cueillette des données. L'étude
des techniques utilisées pour choisir un échantillon ainsi que l’étude des relations entre les variables d’une
population et d’un échantillon constituent la théorie de l'échantillonnage.
49
7.3.1 Échantillonnage aléatoire simple
L'échantillonnage aléatoire simple consiste à choisir des individus au hasard avec comme principe de
base que chaque unité statistique ait la même chance d'être choisie pour faire partie de l'échantillon.
1 2 3 4 5 Sélection de n
nombres aléatoires.
6 7 8 9 10 Ex : Échantillon de taille n=5
11 12 13 14 15
16 17 18 19 20
21 22 23 24 25
Ex. : On veut connaître la saveur de crème glacée préférée des gens habitant un certain quartier.
Connaissant l’adresse des habitants du quartier, on choisit au hasard 100 numéros civiques en faisant
sortir 100 nombres aléatoires avec l’ordinateur. Nous irons ensuite interroger ces 100 personnes qui
formeront notre échantillon.
50
7.3.2 Échantillonnage systématique (ou périodique)
7 8 9 10 11 12 Échantillon de taille n = 4.
13 14 15 16 17 18 3 9 15
21
19 20 21 22 23 24
2. On détermine le pas de sondage c'est-à-dire l'intervalle avec lequel on choisit les individus
de notre échantillon.
Le pas de sondage, qu’on doit arrondir à l’entier, est déterminé par :
N( taille de la population )
Pas de sondage =
n( taille de l'échantillon )
4. On choisit les individus suivants en ajoutant ou en retranchant " le pas " au numéro du
premier individu choisi et ainsi de suite jusqu'à la formation complète de l'échantillon.
▪ Sélection d'un seul nombre aléatoire. ▪ Il faut posséder une bonne base de
▪ Très rapide. sondage, c’est-à-dire une liste de tous les
▪ Bonne répartition de l'échantillon dans la individus ou éléments de la population qui
base de sondage. soit complète, sans répétition et à jour.
▪ Il faut se méfier des effets de périodicité.
Ex
51
7.3.3 Échantillonnage stratifié
L'échantillonnage stratifié est le mode d'échantillonnage par lequel les individus sont choisis au hasard en
respectant les strates connues de la population. Une strate est un sous-groupe d’individus de la population
ayant une (ou des) caractéristique(s) commune(s). Les strates doivent être construites de telle sorte qu'un
individu n’appartienne qu’à une seule strate.
52
7.3.4 Échantillonnage par grappes
L'échantillonnage par grappes consiste à choisir au hasard des groupes d'individus appelés grappes.
Chacune de ces grappes doit être hétérogène et de taille semblable. L'échantillon sera donc composé de
toutes les unités statistiques des grappes choisies aléatoirement. On devrait choisir cette technique
d’échantillonnage seulement lorsqu’il y a beaucoup de variation des caractéristiques ou variables étudiées
à l’intérieur de chaque grappe, mais peu de variation d’une grappe à l’autre.
Sélection aléatoire
de 2 grappes qui
forment
l’échantillon 2
1 2 3 6
4 5 6
1. On détermine des grappes qui doivent contenir à peu près le même nombre d'individus.
Ex. :
53
7.4 Les méthodes d'échantillonnage non probabilistes (non aléatoires)
L'échantillonnage non probabiliste repose sur un choix arbitraire des unités; c'est l'enquêteur qui choisit
les unités et non le hasard. Dans ce cas, il est plus risqué et souvent même erroné de généraliser les
résultats à toute la population.
L'échantillonnage à l'aveuglette consiste à choisir les unités de l'échantillon de façon totalement arbitraire.
Les résultats obtenus seront acceptables seulement s'il existe une bonne homogénéité dans la population,
ce qui est rarement le cas. Même si un échantillon construit par cette technique n’est pas représentatif, il
pourrait être valable. C’est le cas pour un journaliste qui l’utilise afin de dresser un portrait de la variété
des opinions existantes sur un sujet d’actualité. Par contre, on ne peut pas généraliser les résultats à toute
la population.
Ex. : Les interviews dans la rue, les interviews à la porte d'un magasin.
L'échantillonnage de volontaires consiste à choisir les individus de l'échantillon en faisant appel à des
volontaires. C'est une méthode souvent utilisée en psychologie ou en médecine quand la recherche peut
s'avérer longue, exigeante, gênante, douloureuse et dangereuse pour les participants. Généralement, la
demande de volontaires est faite à l’aide de journaux, de la radio ou de la télévision et très souvent on
observe un écart plus ou moins prononcé entre les caractéristiques d’un échantillon de volontaires et
celles de la population. Cet écart est très prononcé lorsque le sujet du sondage est polémique parce
qu’habituellement les personnes aux opinions les plus extrêmes ou les personnes les plus concernées par
le sujet se manifestent en plus grand nombre.
Ex. : À une ligne ouverte à la radio, on demande aux auditeurs de se prononcer sur le sujet du jour :
« Êtes-vous pour ou contre la « Charte affirmant les valeurs de laïcité et de neutralité religieuse de l'État ainsi
que d'égalité entre les femmes et les hommes et encadrant les demandes d'accommodement » telle que présentée par
le précédent gouvernement péquiste ? »
L'échantillonnage par quotas est largement utilisé dans les enquêtes d'opinion et les études de marché.
Dans ce type d'échantillonnage, l'enquêteur choisit un échantillon qu'il veut le plus représentatif possible
des différentes strates de la population: sexe, âge, scolarité, etc. Cette méthode a l'avantage d'être peu
coûteuse et assez rapide à effectuer. De plus, elle ne suppose pas que l'on possède une liste de tous les
individus de la population. La différence avec l'échantillonnage stratifié vient du fait que les enquêteurs
sont libres d’interroger qui ils veulent. De ce fait, les individus ne sont pas choisis au hasard.
Ex. :
54
7.5 Erreurs d’observation
Lorsqu’on choisit un échantillon, on voudrait bien qu’il soit une représentation fidèle de la population.
Toutefois, on accepte que cette représentation ne soit pas parfaite et que certaines erreurs, attribuables
aux aspects aléatoires de l’échantillonnage, s’infiltrent dans les résultats du sondage. On appelle ces
erreurs des erreurs d’échantillonnage.
Toutefois, d’autres erreurs peuvent contribuer à fausser les résultats d’un sondage. Elles sont attribuables
à l’imperfection humaine, à l’une ou à l’autre des phases du sondage. On les appelle des erreurs
d’observation. Les principales sources de ces erreurs d’observation sont :
▪ Termes mal définis : il est important d’employer des termes que tous comprennent et
interprètent de la même façon. Il faut très bien définir les termes qui portent à confusion pour
ne pas laisser libre cours aux interprétations.
▪ Mauvaise base de sondage : il faut cerner et décrire parfaitement la population visée par le
sondage. Or, il arrive souvent que la base de sondage soit : incomplète, inexacte, ancienne,
d’accès difficile et inappropriée à une enquête.
▪ Question inadéquate ou mal posée : il faut s’assurer que les questions sont clairement
formulées et ne comportent pas d’ambiguïté (cet aspect sera abordé dans votre cours SCH-
300).
▪ Biais dû aux relations interpersonnelles : le sondeur qui pose les questions ne doit pas
diriger ou influencer les réponses. La personne qui répond ne doit pas être indisposée par le
sondeur ou par la méthode employée.
▪ Absence de réponses : dans les résultats d’une étude, il faudra tenir compte des personnes qui
sont indécises ou qui refusent de répondre. Le traitement de ces non-réponses n’est pas simple.
Il y a différentes manières de tenir compte de ces personnes. En voilà quelques-unes : les
répartir au prorata des autres réponses; augmenter la taille de l’échantillon (ce qui ne règle pas
vraiment le problème); substituer aux individus non répondants des individus analogues;
effectuer un sous-échantillonnage de non répondants et y recueillir les données selon des
méthodes plus efficaces. Comme vous pouvez le voir, l’absence de réponses n’est pas facile à
résoudre et les moyens de résoudre ce problème sont présentés dans d’autres cours de
statistiques plus avancés.
▪ Mauvais traitement des données : le mauvais traitement des données est souvent dû à des
erreurs de calcul ou à une utilisation erronée de concepts et de formules.
55
7.6 Exercices
1. Qu’est-ce qu’une base de sondage ?
3. Expliquer pourquoi les méthodes d’échantillonnage non probabilistes sont souvent considérées
comme non scientifiques.
6. Quelles sont les étapes requises pour former un échantillon à l’aide de la technique d’échantillonnage
systématique?
7. Vrai ou Faux ?
a) Lors d’un recensement, on recueille l’information auprès de tous les individus de la population.
b) Une base de sondage est la méthode à suivre pour effectuer un sondage.
c) L’échantillonnage stratifié est une technique d’échantillonnage non probabiliste car l’enquêteur
peut rejeter un certain nombre d’unités lors de la prise de mesure.
d) Une base de sondage est nécessaire lorsque nous utilisons une technique d’échantillonnage
probabiliste.
e) La première qualité d’un échantillon est d’être bien représentatif de la population.
f) L’échantillonnage à l’aveuglette est une technique d’échantillonnage probabiliste.
g) On peut utiliser la technique d’échantillonnage systématique lorsque nous sommes assurés qu’il
n’y a pas un phénomène de répétition dans la population.
h) L’échantillonnage de volontaires ne doit jamais être utilisé en sciences humaines.
i) Pour utiliser l’échantillonnage stratifié, il faut connaître exactement chacune des strates de la
population.
j) Lorsqu’on utilise l’échantillonnage par grappes il faut s’assurer que les grappes soient
homogènes.
8. Pour chacune des situations suivantes, dire de quelle méthode d’échantillonnage il s’agit en précisant
s’il s’agit d’une méthode probabiliste ou non probabiliste.
a) Pour démontrer votre insatisfaction face au service reçu lors de votre dernière visite au
restaurant, vous décidez de remplir une carte d’appréciation que vous remettez en mains
propres au gérant.
b) On désire savoir si les visiteurs ont apprécié l’exposition « Les pharaons d’Égypte » présentée
au musée d’histoire ancienne. La personne chargée de l’enquête veut que son échantillon soit
formé de filles, de garçons, d’étudiants et d’adultes, avec les bonnes proportions pour chacune
des catégories. Elle interroge alors un après l’autre les visiteurs se présentant au musée, jusqu’à
ce que chacune des catégories soit remplie.
c) À la loterie 6 / 49, les six boules qui sortent du boulier forme la combinaison gagnante
permettant de remporter le gros lot.
d) Le président de votre association étudiante désire savoir ce que vous pensez de l’abolition de
la nourriture de type « fast-food » à la cafétéria. Un lundi midi, il décide de se promener dans
le collège et d’interroger les étudiants qu’il rencontre.
56
e) Le propriétaire d’une érablière désire vérifier l’état de santé de ses arbres. Pour ce faire, il divise
son érablière en 12 zones, et choisit ensuite 4 zones au hasard. Il analyse ensuite tous les arbres
des zones sélectionnées.
f) En se servant d’une liste alphabétique des 1045 étudiants d’un Collège, un psychologue choisi
aléatoirement 200 étudiants et les interroge sur la pertinence d’instaurer un service d’entraide
où les élèves en détresse psychologique pourraient être jumelés à d’autres élèves ayant vécu les
mêmes problèmes qu’eux.
g) Une annonce dans le journal étudiant indique que l’on recherche des personnes pour participer
à une étude portant sur le racisme en milieu collégial. Vous devez vous présenter au local A-
6700 avant la fin de la semaine si vous désirez répondre au questionnaire.
h) On invite des gens à téléphoner pour donner leur opinion sur la compétence des employés de
garderie.
i) On demande à chaque enquêteur d’interroger 10 hommes de moins de 20 ans, 35 hommes de
20 à 50 ans et 25 hommes de plus de 50 ans afin de déterminer s’ils connaissent les symptômes
associés au cancer de la prostate.
j) On sélectionne de manière aléatoire 25 pages de l’annuaire téléphonique et on interroge tous
ceux dont les noms apparaissent sur ces pages.
k) On utilise la touche RANDOM sur une calculatrice pour choisir 40 nombres compris entre 1
et 1 344. On forme ensuite notre échantillon en sélectionnant sur une liste électorale les 40
individus associés à ces 40 nombres.
l) Pendant le télé journal de vendredi passé, on apprenait que les américains songeaient à interdire
l’entrée sur leur territoire de la patate douce québécoise parce qu’ils avaient identifié un ver qui
pourrait détruire toute leur propre production. Pour vérifier si la patate douce québécoise
possédait ce ver, les scientifiques ont effectué une étude des champs québécois. Pour ce faire,
ils ont divisé chacun des champs en secteurs pour ensuite sélectionner certains secteurs au
hasard et vérifier chacun des plants de patate des secteurs sélectionnés.
m) Dans le but de connaître l’opinion des gens concernant la hausse proposée par le gouvernement
sur les frais en garderie, on interroge toutes les personnes qui se présentent à la porte principale
d’un centre commercial, un jeudi midi.
n) Pour faire un portrait d’un membre type, les dirigeants du centre de conditionnement physique
«ÀBOUTDESOUFFLE» étudient une fiche d’inscription à toutes les 25 (après avoir
sélectionné la première au hasard entre les 25 premières fiches) parmi ses dossiers de membres
actifs.
o) Pour vérifier l’efficacité de son nouveau médicament, la compagnie pharmaceutique «PILULE»
passe une petite annonce dans les journaux dans le but de trouver 25 personnes voulant faire
l’essai de son nouveau médicament.
p) Afin de connaître l’avis des clients concernant le service fait par les serveurs et serveuses de
son restaurant, le propriétaire ordonne au portier de faire compléter, à chaque jour, un petit
questionnaire de 5 questions à 2 adolescents, 5 adultes et 3 personnes âgées.
9. Le maire de St-Alphonse désire envoyer 12 familles de sa ville au prochain congrès provincial des
municipalités dont le thème principal sera «La famille». Sachant qu’il possède déjà une liste numérotée
des 12 564 familles de sa ville, comment devra-t-il s’y prendre pour sélectionner ces familles :
a) à l’aide de l’échantillonnage aléatoire simple?
b) à l’aide de la technique d’échantillonnage systématique?
57
10. Un distributeur de films se rend à un grand festival pour y acheter des films. Évidemment, il désire
se procurer des films qui plairont au public. Il vient d’en voir un qu’il a aimé, mais il n’est pas
convaincu que ses goûts correspondent à ceux du grand public. Il décide d’effectuer une enquête par
1
sondage auprès de personnes qui ont vu ce film au festival .
1
Amyotte Luc, Méthodes quantitatives, Les éditions du renouveau pédagogique, St-Laurent,
Québec, page 90.
a) Peut-il réaliser son sondage par échantillonnage aléatoire simple? Expliquer votre réponse.
b) Quels problèmes pourraient soulever un échantillonnage de volontaires?
c) Le distributeur pense à se poster à la sortie du cinéma et à interroger les 20 premières personnes
qui quitteront la salle. Expliquer pourquoi il ne devrait pas procéder de la sorte.
d) Il décide plutôt d’interroger la 3e personne qui sort de la salle, puis la 8e, la 13e et ainsi de suite.
Quelle technique d’échantillonnage utilise-t-il? Quel est le pas de sondage?
e) Les commentaires des personnes faisant partie de l’échantillon sont tous favorables. Le
distributeur décide donc d’acheter le film. Quelques semaines plus tard, alors qu’il projette le
film en salle, beaucoup de spectateurs sortent avant la fin du film en maugréant. Expliquer
pourquoi ces faits ne sont pas en contradiction avec les résultats obtenus auprès des personnes
de l’échantillon.
11. Lors d’une étude menée dans un centre commercial afin de déterminer quelle saveur de Chips était
préférée par le grand public, on a compilé les résultats suivants :
Distribution de s pe rsonne s inte rrogée s se lon le ur sav e ur
de chips préférée
Vinaigre
8% Ordinaire
20%
BBQ
34%
Ketchup
24%
Bacon
14%
58
7.7 Réponses
1. C’est la liste de tous les individus constituant la population.
2. Le pas de sondage r = 5.
3. Elles sont considérées comme non scientifiques parce que les individus sont choisis de manière
arbitraire (et non aléatoire) et qu’aucune loi ou modèle mathématique ne décrit un tel comportement.
Au lieu d’insister pour que Monsieur X fasse partie de l’échantillon dans le cas de non-réponse, on
remplace simplement la donnée de M. X par celle d’un autre répondant. Et pourtant, si c’est M. X
qui a été sélectionné par la « méthode d’échantillonnage », ce sont ses caractéristiques que l’on
recherche pour l’échantillon. Dans les méthodes probabilistes, on traite la non-réponse à l’aide de
méthodes statistiques (pondération, imputation des données, etc.).
5. Il faut posséder une très bonne base de sondage et il faut très bien connaître chacune des strates de
la population.
7. a) V b) F c) F d) V e) V f) F
g) V h) F i) V j) F
59
9. a) À l’aide, par exemple, de la fonction RANDOM, il obtient un nombre aléatoire entre 1 et 12564.
Ce nombre correspond à la famille choisie au hasard faisant partie de l’échantillon. Comme il désire
obtenir un échantillon de 12 familles, il répètera se procéder 11 autre fois.
b) Il calcule d’abord le pas de sondage 𝑟 = 1047. À l’aide, par exemple, de la fonction RANDOM,
il obtient un nombre aléatoire entre 1 et 12564. Ce nombre correspond au point de départ pour
former l’échantillon systématique. La famille associée choisie au hasard fera partie de l’échantillon.
Comme il désire obtenir un échantillon de 12 familles, il additionnera (soustraira) le pas de sondage,
1047, au nombre obtenu et chaque nouveau nombre représentera une nouvelle famille à ajouter à
l’échantillon. Il répétera ce processus jusqu’à l’obtention de 12 familles.
10. a) Non, car il n’a pas la liste de tous les participants de ce festival.
b) On risquerait d’avoir une surreprésentation de certains groupes dans l’échantillon : des
personnes qui ont aimé ou qui ont détesté le film, des personnes qui ont intérêt à ce que le film
se vende bien, etc. Par conséquent, l’échantillon ne serait pas représentatif.
c) Les personnes qui sortent les premières seront probablement celles qui ont le moins aimé le
film. Donc, l’échantillon obtenu ne serait pas représentatif.
d) Échantillonnage systématique avec un pas de sondage égal à 5.
e) Les personnes qui fréquentent un festival de cinéma n’ont pas nécessairement les mêmes goûts
que le grand public; l’échantillon choisi n’était pas tirée de la population cible et risquait de ne
pas être représentatif de cette dernière.
60
CHAPITRE 8 : La Distribution normale
__________________________________________________________________
8.0 Introduction
À la section précédente, nous avons vu que le polygone des fréquences était une bonne représentation
de la distribution des données d’une variable quantitative continue. De plus, cette représentation
graphique va nous permettre de comparer les distributions de variables différentes. Ainsi, si la forme de
deux polygones des fréquences est presque identique, nous pouvons conclure que la distribution des
données pour ces deux variables est, à peu de choses près, la même.
Une des principales caractéristiques d’une population ou d’un échantillon est sa distribution. Il
existe plusieurs distributions théoriques qui ont été étudiées au courant des derniers siècles (par exemple
la binomiale, l’exponentielle, la Student, la normale, etc.). Dans le cadre de ce cours, nous nous limitons
à la distribution normale. Pour ce faire, nous identifions une variable dont la distribution est
« suffisamment près » de la normale et nous utilisons ensuite ce modèle pour caractériser notre variable
à l’étude. Dans les prochains chapitres, c’est à partir de ce modèle que nous allons construire les intervalles
de confiance et faire des tests d’hypothèses.
Dans un premier temps, il est donc nécessaire de faire l’étude de la distribution normale.
61
À partir de cette distribution des fréquences, on obtient le polygone de fréquences suivant :
Distribution de 110 des 5600 étudiants du collège de Maisonneuve selon le temps
nécessaire pour prendre le repas du midi
35
Nombre d'étudiants 30
25
20
15
10
5
0
0 5 10 15 20 25 30 35 40 45
Temps nécessaire (minutes)
Une telle représentation graphique s’approche d’une distribution normale. Si la distribution avait été faite
à partir de la population entière, il aurait fallu faire un regroupement en classes avec un plus grand
nombre de classes et de largeur plus petite. Une fois lissé, le polygone des fréquences aurait pu ressembler
à:
35
30
Nombre d'étudiants
25
20
15
10
5
0
0 5 10 15 20 25 30 35 40 45
Temps nécessaire (minutes)
Si la taille de la population à l’étude est très grande, voir infinie, le polygone des fréquences aurait pu
prendre la forme d’une cloche comme l’illustre le graphique suivant.
Lorsque la distribution d’une population ressemble à une telle courbe on dit que cette population est
distribuée approximativement selon une distribution normale.
62
8.2 La distribution normale
La distribution normale est l’une des plus importantes distributions de variables quantitatives dont les
données sont regroupées en classes. Cette distribution est caractérisée par le fait qu’un grand nombre de
résultats observés lors d’une expérience s’accumulent autour de la moyenne et que les valeurs les plus
rares s’éloignent de part et d’autre de cette dernière. Des phénomènes étudiés en sciences humaines ont
démontré que plusieurs variables pouvaient être définies ou représentées par une distribution normale.
Ainsi, les précipitations de pluie (mm) dans une région donnée, le poids des nouveau-nés, la grandeur des
personnes, le diamètre des oranges, les résultats académiques, le quotient intellectuel et plusieurs autres
variables que l’on retrouve dans la nature sont des variables qui sont distribuées selon une distribution
presque normale. En fait, les variables dont les données sont suffisamment nombreuses et qui obéissent
aux seules lois du hasard, sont susceptibles d’avoir des distributions normales.
Pourquoi tant de variables ont-elles une distribution approximativement normale? Les mathématiciens
(entre autres Émile Borel 1871-1956) ont prouvé qu’une variable dont la valeur dépend de l’influence
cumulative d’un grand nombre de facteurs indépendants est normale. Par exemple, pensons au poids
d’une personne. Celui-ci peut varier en fonction de la taille, de l’ossature, du régime alimentaire, de
l’activité physique, de l’hérédité et quoi encore! Une variable comme celle-là, étudiée sur une population
suffisamment grande, donne un polygone de fréquences qui a, à peu de choses près, la forme d’une
cloche, c’est-à-dire une courbe normale.
Il est à remarquer que plusieurs synonymes sont utilisés pour parler de la distribution normale; courbe
normale, distribution en forme de cloche, modèle normal, loi normale. On l’appelle aussi la loi de Gauss-
Laplace (Carl Friedrich Gauss (1777-1855) et Le Marquis de Laplace (1749-1827)), en l’honneur de ces
deux mathématiciens. Ils avaient formulé cette loi pour décrire les erreurs d’observation commises en
astronomie et en avaient démontré certaines propriétés.
En 1733, Abraham de Moivre présenta une formulation mathématique de cette courbe en forme de
cloche. Soit
−
(x− )2
1 2
f (x) = e 2
2
À partir de cette fonction, on constate que la loi normale est entièrement déterminée par sa moyenne
2
et par sa variance :
Note : Nous n’aurons jamais à utiliser cette fonction dans le cours MQH-300.
63
Ce qu’il faut savoir !
Bien qu’il existe un très grand nombre de courbes normales, elles ont toutes en commun les
caractéristiques suivantes :
▪ La forme de la courbe est celle d’une cloche parfaitement symétrique par rapport à la moyenne :
le mode, la médiane et la moyenne ont la même valeur. Théoriquement, la courbe s’étend
indéfiniment de chaque côté de la moyenne.
▪ L’aire totale entre la courbe et l’axe des x est toujours égale à 1 (100%).
▪ Puisque l’aire totale est égale à 1, alors par symétrie par rapport à la moyenne, on a que l’aire à
droite et l’aire à gauche de la moyenne sont chacune égale à 0,5 (50%).
▪ La surface entre la courbe et l’axe des x est répartie de la façon suivante :
1. La surface comprise entre − ; + représente 68,3% de la surface totale.
2. La surface comprise entre − 2 ; + 2 représente 95,44% de la surface totale.
3. La surface comprise entre − 3 ; + 3 représente 99,7% de la surface totale.
Lorsqu’une variable X se comporte approximativement comme une loi normale, on note celle-ci par :
X ~ N ( ; 2 )
Il faut lire : X est une variable qui est définie par une loi normale de moyenne et de variance
2 . Donc, lorsque les deux paramètres et 2 sont connus, la loi normale est entièrement connue.
64
Si la moyenne change et la variance ne change pas, alors la courbe normale se déplace horizontalement
en conservant sa forme initiale.
Si la variance change et la moyenne ne change pas, alors la courbe devient plus évasée si la variance
augmente et plus concentrée autour de la moyenne si la variance diminue.
65
( 2
Ex. : Soit la courbe normale N 40 ;10 . )
Sa moyenne est = 40 et son écart-type est = 10 .
Dessinez le graphique de cette courbe normale par-dessus la première courbe normale de l’exemple
précédent et en utilisant l’axe déjà établi.
Notations :
▪ Une variable X de moyenne et d’écart type suivant une loi normale s’exprime par
X ~ N ( ; 2 ) .
66
8.3 Utilisation de la loi normale
La loi normale permet, en particulier, de calculer des proportions (ou des pourcentages) en utilisant l’aire
sous la courbe.
Ex : On a établi que la distribution du quotient intellectuel (QI) suit un modèle normal dont la
moyenne est 100 et l’écart type est 16. Quel est, dans la population, le pourcentage des gens possédant
un QI supérieur à 112 ?
Pour répondre à cette question, il faut d’abord définir ce qu’on connaît et ce que l’on cherche.
Ce qu’on connaît :
La variable à l’étude : X : résultat du quotient intellectuel (QI)
Cette variable est distribuée selon quelle loi ? Avec quels paramètres ? X ~ N (100;162 )
Ensuite, pour trouver P( X 112) , il faut faire des manipulations pour arriver à utiliser une table
donnant le pourcentage (ou la probabilité) recherché.
67
Avant de voir la manière de standardiser n’importe quelle variable normale en une variable normale
centrée réduite, notée Z, voyons d’abord comment se servir de cette dernière.
Il est nécessaire de développer des habilités dans le calcul des probabilités associés à une normale N(0;1)
avant de passer à un modèle plus général. Voilà donc quelques exemples ayant pour but de développer
ces habilités.
a) P( 0 Z 1, 23) =
Rép : 0,3907
b) P( Z 1, 23 ) =
Rép : 0,8907
c) P( −2,15 Z 2,15) =
Rép : 0,9684
d) P( Z −2,15 ) =
Rép : 0,9842
68
e) P( Z −2,15 ) =
Rép : 0,0158
f) P( −1, 67 Z 2,15 ) =
Rép : 0,9367
g) P( 0, 54 Z 2,15 ) =
Rép : 0,2788
Rép : a = 0,76
Rép : a = -0,39
Rép : a = 1,025
69
8.4 La cote z
Maintenant qu’on s’est familiarisé avec la loi normale centrée réduite, voyons le processus qui nous
permettra de retrouver cette loi normale centrée réduite Z ~ N ( 0; 1) à partir de n’importe quelle loi
normale X ~ N ( ; 2 ) . Ce processus est le calcul de la cote z.
Ex. : Le collège désire remettre une bourse. Il étudie entre autre le dossier de quatre étudiants qui
suivent le cours de Méthodes quantitatives et il voudrait attribuer cette bourse à l’un de ceux-ci. Voici
les résultats :
Si le collège se fie seulement à la note, il doit remettre la bourse à Anouk car celle-ci a obtenu la note
la plus élevée.
Si en plus de la note, il tient compte de la moyenne du groupe, il doit remettre la bourse à Natasha
car celle-ci a obtenu une note qui est la plus éloignée de la moyenne de son groupe tout en étant
supérieure à cette moyenne.
Si en plus de la note, il tient compte de la moyenne et de l’écart type du groupe, il doit remettre la
bourse à Yann car il a obtenu la meilleure cote z.
La dernière situation est la plus adéquate car elle tient compte de la force de chacun des groupes. C’est
le principe même de la cote z d’une valeur.
Valeur -Moyenne x −
Cote Z = =
écarttype
La cote z est très utile pour comparer des résultats de nature différente. Ainsi, dans notre exemple, la
cote z de chacun des étudiants nous permet de «sortir» le résultat de chacun des étudiants de leur milieu
(de leur groupe) afin de pouvoir les comparer mieux. Ainsi, le résultat de chacun des étudiants est ramené
sur une même échelle (celle des cotes Z) qui nous permet de décider qui a obtenu le « meilleur » résultat.
Cette façon de faire serait effectivement la plus adéquate et c’est donc Yann qui se verrait attribuer la
bourse.
Une cote z plus grande que 2 ou plus petite que -2 est peu fréquente. En effet, avec une loi normale,
P(Z 2) = 2, 28%
Une cote z plus grande que 3 ou plus petite que -3 est très rare. En effet, avec une loi normale,
P(Z 3) = 0,13%
70
8.5 Loi normale quelconque
La cote z nous permet aussi de passer d’une loi normale quelconque X ~ N ( ; 2 ) à une loi normale
centrée réduite Z ~ N ( 0; 1) .
Le problème est que nous n’avons pas la table de la loi normale pour la variable X~N(100 ; 162) pour
trouver la probabilité recherchée. Nous n’avons que la table de la loi normale centrée réduite.
Cependant, on sait qu’on peut trouver la cote z associée à n’importe quelle valeur d’une variable X.
De plus, la distribution des cotes z nous donne une loi normale centrée réduite. Il suffit donc de
d’appliquer la transformation suivante :
112 − 100
Puisque X ~ N (100;162 ) , alors la cote z de 112 est : z= = 0,75
16
Graphiquement, cela correspond à la transformation ci-dessous
X ~ N (100;16
2
) X − Z ~ N (0;1)
z =
P( X 112) = P ( Z 0,75)
Interprétation :________________________________________________________________
71
Ex : Soit X ~ N( 76; 42 ) . Trouvez :
a) P(74 X 84)
b) P( X 86)
c) P(65 X 85)
72
Ex : Soit X ~ N( 47;81) . Trouvez :
a) P( X 29)
Rép : 0,9772
b) P( X 42,5)
Rép : 0,3085
c) P(56 X 78,5)
Rép : 0,1585
73
Ex : Soit X ~ N( 250; 400) .
a) Trouver la valeur de a telle que P(0 X a) = 0,3030
Rép : a= 224,8
74
Ex : En natation, le temps pris pour effectuer le 400 m style libre, chez les athlètes provinciaux du
Québec en 2010, est distribué normalement avec une moyenne de 3,82 minutes et un écart type de
0,02 minute.
a) Quel pourcentage des athlètes ont fait le 400 m de style libre en moins de 3,8 minutes en
2010 ?
Rép : 15,87%
b) Sur 200 athlètes québécois, environ combien devaient faire le 400 m de style libre en plus
de 3,85 minutes ?
c) Quel temps devait prendre un athlète québécois pour faire partie des 1 % les plus rapides
dans le 400 m de style libre en 2010 ?
75
8.6 Exercices
1. On étudie le poids (en grammes) de 28 pièces électriques produites par une machine. Si le poids
moyen est de 14,2 g et l’écart type de 3 g, quelle est la cote Z d’une pièce pesant 16 g ? Interprétez sa
valeur.
2. Sur chacun des graphiques suivants, placer un point ( ● ) correspondant à la cote Z indiquée.
a) 1. Z = -1,5
2. Z = 0,5
b) Si l’écart type ( ) est de 6 dans le graphique 1 et de 16 dans le graphique 2, trouver pour chacun
d’entre eux, l’écart entre le point et la moyenne.
3. Un commerçant se plaint à la ville du fait que certains travaux effectués par celle-ci ont causé une
diminution de la circulation sur la rue, entraînant ainsi une baisse dans ses recettes. Pour appuyer sa
plainte, il signale que ses recettes sont en moyenne de 20 000$ par jour, et que le jour des travaux
elles n’étaient que de 19 500$. La ville réplique qu’un écart de 500$, pour des recettes moyennes de
20 000$, est trop petit et ne démontre rien. Le commerçant calcule alors l’écart type de ses recettes.
Il trouve 100$. Qui a raison ? 1
1Source : Simard, Christiane. Méthodes quantitatives. Éditions Le griffon d’argile. 3e éd. page. 104
#9
4. La moyenne d’un examen est de 70 % et l’écart type de 10 %. La distribution des notes à cet examen
a la forme d’une cloche.
a) Si la cote Z de Mariette est de 2, qu’est ce que cela signifie ?
b) Combien de points Mariette a-t-elle de plus que la moyenne ?
c) Quelle est la note de Mariette ?
5. Pour chacune des questions suivantes, dessiner l’aire sous la courbe de la loi normale correspondant
à la proportion recherchée et utiliser ensuite la table (en annexe) pour trouver la réponse. Quel
pourcentage des données d’une distribution normale ont une cote Z :
a) Comprise entre 0 et 1,76 ?
b) Comprise entre - 2,05 et 0 ?
c) Comprise entre 0,98 et 1,81 ?
d) Supérieure à 2,08 ?
e) Comprise entre -1,67 et 2,26 ?
f) Inférieure à 0,08 ?
76
6. Si Z → N ( 0 ; 1 ) , calculer :
a) P ( 0 Z 1,18 ) = b) P ( − 0, 43 Z 1,18 ) =
c) P ( Z 0,76 ) = d) P ( 0, 22 Z 1,67 ) =
e) P ( − 0,95 Z − 0, 44 ) = f) P ( Z − 0,92 ) =
g) P ( − 1,18 Z 0 ) = h) P ( Z = 2,12 ) =
i) P ( 0,13 Z 4,18 ) = j) P ( − 2,33 Z 2,18 ) =
8. Si X → N ( 15 ; 9 ) , calculer :
a) P ( 15 X 18 ) = b) P (X 20,9 ) =
c) P ( X 13,68 ) = d) P ( 10 X 20 ) =
e) P ( 16 X 22 ) = f) P (9X 14 ) =
11. Un examen de méthodes quantitatives a donné comme résultat une moyenne de 68,6% avec un écart
type de 11,8%. En supposant que les résultats soient distribués normalement, déterminer :
a) le pourcentage d’étudiants qui ont échoué ce test;
b) le pourcentage d’étudiants qui ont eu un résultat supérieur à 80%;
c) le résultat minimal des 10% meilleurs de ce groupe;
d) le résultat maximal pour lequel 15% des étudiants ont obtenu une note inférieure à celui-ci.
12. On a établi que la durée de la gestation des Québécoises enceintes est une variable qui obéit à une
loi normale avec une moyenne de 273 jours et un écart type de 9 jours.
a) Définir la variable X :
X →N ( ; )
b) Calculer la probabilité qu’une naissance se produise avant une gestation de 280 jours.
c) Sachant que 65% des naissances se produisent après une gestation de B jours, trouver la valeur
de B.
d) Une gestation de 295 jours vous apparaît-elle exceptionnelle? Justifier votre réponse.
77
13. Le temps que Karine prend pour se rendre à son travail au centre-ville est une variable qui est
distribuée normalement avec une moyenne égale à 47 minutes et un écart type de 8 minutes.
a) Déterminer la variable à l’étude X
b) Donc, X → N ( ; )
c) Calculer la probabilité que Karine prenne plus d’une heure pour se rendre à son travail.
d) Karine commence à travailler à 8h30. Aujourd’hui, elle s’est réveillée en retard et elle a dû quitter
son domicile en catastrophe à 7h45. Quelle est la probabilité que Karine arrive à l’heure à son
travail ?
e) Calculer la probabilité que Karine prenne entre 45 minutes et 1 heure pour se rendre à son travail.
14. On a fait passer un test pour évaluer le quotient intellectuel de 500 personnes. Sachant que les
résultats de ce test sont distribués normalement avec une moyenne de 95 et un écart type de 15.
Combien de personnes auront :
a) un résultat compris entre 85 et 105 ?
b) un résultat inférieur à 80 ?
c) un résultat supérieur à 110 ?
15. Les notes d’un examen administré à 120 étudiants sont distribuées approximativement selon une loi
normale dont la moyenne est 72 avec un écart type de 11. On classe les notes en ordre décroissant.
Calculer approximativement
a) la 60e note
b) la 100e note.
16. Le 10 août 2006, le Torontois Danny Kassap à remporté le marathon de Montréal en un temps de 2
heures 20 minutes et 19 secondes. Sachant que le temps requis pour parcourir la distance de ce 42,2
km était distribué normalement avec une moyenne de 3 heures 30 minutes avec un écart type de 25
minutes.
a) Déterminer la proportion de participants qui ont franchi cette distance en un temps supérieur à
3 heures 5 minutes.
b) Paul Gauthier a franchi cette distance en un temps de 3 heures 45 minutes. Sachant qu’il y avait
environ 8 000 participants à ce marathon, combien de participants sont arrivés après Paul?
c) Sachant que 65% des participants ont effectué ce marathon en un temps inférieur à B minutes,
déterminer la valeur de B.
d) Sylvain Côté faisait partie des coureurs les plus rapides. Seulement 8% des coureurs ont franchi
ce marathon en un temps inférieur au sien. Estimer le temps pris par Sylvain pour franchir cette
distance.
78
17. Après avoir corrigé un examen, un professeur constate que les résultats ne sont pas très, très bons.
En effet, il constate que les résultats sont distribués normalement avec une moyenne de 48, 6 et un
écart type de 9, 8. Afin de ne pas trop décourager ses étudiants, il décide de remettre les résultats de
l’examen avec les lettres A, B, C, D et E où E représente un échec. De plus, il décerne les lettres
selon la distribution suivante.
a) Trouver les valeurs c et d qui vont déterminer l’intervalle des résultats associés à la lettre C.
b) Trouver la note maximale d’un étudiant qui a reçu un E (échec).
c) En recevant sa copie d’examen, Sébastien remarque qu’il a obtenu la note de 59%. Quelle lettre
a-t-il alors obtenue ?
18. Le glaucome est une maladie de l’œil caractérisée par une augmentation de la pression interne du
globe oculaire. Cette pression interne dépend du débit de liquide entrant et sortant, ce liquide est
appelé « humeur aqueuse ». Dans l’œil sain, la quantité de liquide produite dans l’œil est égale à la
quantité de liquide évacué. Pour une population adulte de 150 000 personnes, la pression interne du
globe oculaire est distribuée selon une loi normale dont la moyenne est 18 mm de Hg et dont l’écart
type est 2,4 mm de Hg.
a) On considère qu’un individu présentant une pression variant entre 12 mm et 22 mm de Hg ne
possède pas cette maladie. Calculer la proportion de la population qui ne possède pas cette
maladie.
b) Quel pourcentage de la population présente une pression supérieure à 25 mm de Hg.
c) Un médecin vous annonce que votre pression intra-oculaire est de 24 mm de mercure. Combien
y a-t-il de personnes dans la population dont la pression est au moins aussi éloignée de la
moyenne que la votre ?
79
8.7 Réponses
1. Z = 0,6. Le poids de cette pièce électrique se situe à 0,6 écart type au-dessus de la moyenne.
3. Il serait raisonnable d’attribuer la baisse des recettes aux travaux municipaux car une cote Z de - 5
est exceptionnelle.
7. a) 2, 25 b) 0, 62 c) 1, 35 d) 2, 66 e) 0,985 f) 0, 81
13. a) X : Temps (en minutes) pris par Karine pour se rendre au travail
b) X → N (47;64)
c) 0, 0516 d) 0, 4013 e) 0,5471
14. a) 249 b) 79 c) 79
15. a) 72 b) 61,33
80
CHAPITRE 9 : Estimation
_________________________________________________________________
9.0 Introduction
Dans ce chapitre, nous aurons à faire l’estimation d’un paramètre d’une population à partir d’une
statistique provenant d’un échantillon d’individus sélectionnés au hasard d’une certaine
population. Il nous faut tout d’abord définir ces deux termes : paramètre et statistiques.
Un paramètre est une mesure prise sur une variable de population alors qu’une statistique est une
mesure prise sur une variable de l’échantillon. Pour les sections suivantes, nous aurons à distinguer ces
mesures et pour ce faire, on utilisera la notation qui suit :
La question que l’on doit se poser est de savoir dans quelle mesure la moyenne de l’échantillon reflète
bien celle qu’on aurait obtenue si on avait interrogé tous les individus constituant la population. Plus
précisément : « Quelle est la probabilité que la moyenne de l’échantillon soit comparable à celle de la
population ? P ( x ) = ? ».
Pour répondre à cette question, il faut avoir une idée du comportement de toutes les moyennes des
différents échantillons possibles de taille « n » choisis à partir de notre population (on en aurait un très
grand nombre). Pour chacun d’eux, on calculerait la moyenne. On obtiendrait ainsi toutes les moyennes
possibles que peut prendre un échantillon de taille « n ». Finalement, on obtiendrait la probabilité cherchée
en utilisant le nombre d’apparition des moyennes échantillonnales comparables à celle de la population.
81
Ex : Soit la variable X : nombre d’heures d’étude par semaine chez 14 étudiants.
Taille de la population : N = 14 2 2 2 3 3 4 4
Moyenne de cette population : = 4,21 5 5 5 6 6 6 6
n = 8.
Échantillons de taille
Valeurs possibles pour x ?
2 2 2 3 3 4 4 2 2 2 3 3 4 4 2 2 2 3 3 4 4
5 5 5 6 6 6 6 5 5 5 6 6 6 6 5 5 5 6 6 6 6
n=8 n=8
n=8
x = 4,625 x = 4,125 x = 3,625
2 2 2 3 3 4 4 2 2 2 3 3 4 4 2 2 2 3 3 4 4
5 5 5 6 6 6 6 5 5 5 6 6 6 6 5 5 5 6 6 6 6
n=8 n=8
n=8
x = _____ x = _____ x = _____
82
Ex. : Supposons que la moyenne de tous les étudiants du collège de Maisonneuve inscrits à la session
automne 2004 dans un cours de méthodes quantitatives MQH 300 ait été de µ = 68% avec un écart
type de 13%. Prélevons un premier échantillon aléatoire de 50 étudiants et calculons le résultat moyen
de ces 50 étudiants. Notons ce premier résultat par x1 . On peut répéter cette opération puisqu’il existe
un très grand nombre d’échantillons différents de taille n = 50 dans cette population. On obtient
ainsi la liste de tous les échantillons de taille 50 avec leur moyenne.
Distribution des échantillons de 50 étudiants du cours MQH300 selon leur note moyenne en
MQH300 au Collège de Maisonneuve, 2004.
[20;40[
[40;60[
[60;80[
[80;100[
Total 100%
Source : Omnivox.
Si la variable à l’étude n’obéit pas à une loi normale, cette répartition tend vers une loi normale seulement
lorsque la taille de l’échantillon (n) est suffisamment grande, c’est-à-dire n 30 .
83
En effet, le tableau représentant tous les résultats possibles des différents échantillons est nommé tableau
de distribution d’échantillonnage. Si on traçait le polygone des fréquences associé à cette distribution,
on verrait qu’il se rapproche de la courbe normale, ce qui porte à penser que la distribution de la variable
tend vers la loi normale lorsque la taille des échantillons est suffisamment grande.
Si on avait prélevé tous les échantillons possibles de cette population (on sait qu’il y en aurait eu un très
grand nombre), on aurait pu calculer la moyenne x (la moyenne des moyennes d’échantillon) et l’écart
type x (l’écart type des moyennes d’échantillon) de la variable X . Par ces calculs, on aurait pu observer
les relations suivantes :
2
x = et 2x =
n
On remarque que la moyenne de la variable X est la même que la moyenne de la population et que la
variance de la variable X est égale à la variance de la population divisée par la taille de l’échantillon.
132
µx = 68% et x =
2
50
On peut conclure que la variable X (la moyenne échantillonnale) obéit à une loi normale de
132
moyenne µx = 68% et d’écart type x =
2
. En représentant les deux distributions, soient la
50
distribution de X et la distribution de X , on obtient le résultat suivant :
84
Théorème central limite pour une moyenne
Soit l’étude d’une variable X de moyenne µ et d’écart type dans une population quelconque de taille
N. Si des échantillons aléatoires de taille n sont tirés de la population, alors la variable X , donnant la
moyenne des échantillons, présentera les caractéristiques suivantes :
Sa moyenne µx = µ
ou
si la population est petite par rapport à l’échantillon (n > 5%N)
N −n et
x =
n N −1 si les échantillons sont tirés sans remise.
N −n
Note : Le facteur est appelé facteur de correction.
N −1
Ex. : Revenons au contexte de la page 125. Supposons que la moyenne de tous les étudiants du
Collège de Maisonneuve inscrits à la session d’automne 2004 dans un cours de méthodes
quantitatives MQH300 ait été de 68% avec un écart type de 13%. Prélevons un échantillon aléatoire
de 50 étudiants de cette population et calculons la probabilité que la moyenne de cet échantillon soit
supérieure à 70%.
85
ATTENTION :
Si la question avait été : « Choisissons un étudiant au hasard, quelle est la probabilité que sa note soit
supérieure à 70% ?». La variable étudiée aurait été
Ex. : Une étude a démontré que les familles québécoises de quatre personnes dépensent en moyenne
185$ par semaine pour la nourriture avec un écart type de 60$.
Rép. : 66,58%
Rép. : 79,05%
86
Ex. : Dans une population de 400 personnes, on a établi que la distribution du quotient intellectuel
(QI) suit un modèle normal dont la moyenne est 100 avec un écart type de 16. Dans un échantillon
de taille 25, quelles sont les chances que la moyenne de QI de cet échantillon soit inférieure à 95?
Rép. : 5,37%
87
9.2 Estimation de la moyenne d’une population
Dans cette section, on veut estimer la moyenne d’une population à partir de la moyenne d’un échantillon.
Toujours avec la même population, en prélevant au hasard un échantillon de 50 étudiants du collège de
Maisonneuve inscrits en méthodes quantitatives à la session automne 2004, on a calculé un résultat moyen
de 72% avec un écart type de 15%. Pouvons-nous dire que la moyenne de cette population était
exactement égale à 72% ? La réponse est sûrement NON car il y a très peu de chances que ce résultat
survienne. C’est pour cette raison qu’il faut faire de l’estimation d’une moyenne. Il y a deux sortes
d’estimation possibles, soient l’estimation ponctuelle et l’estimation par intervalle de confiance.
L’estimation ponctuelle est très simple, il s’agit tout simplement de supposer que la moyenne de la
population est égale à la moyenne de l’échantillon. Donc que = x . Cette estimation est souvent
utilisée pour faire la manchette des journaux ou des bulletins de nouvelles.
Dans notre cas, on aurait qu’à dire que la moyenne de la population est égale à 72%. Comme nous l’avons
déjà mentionné, cette affirmation a très peu de chances de se produire (presque nulle) et c’est pour cette
raison qu’il nous faut faire de l’estimation par intervalle de confiance. L’estimation par intervalle fait
augmenter les chances de voir notre prédiction se réaliser.
Estimer la moyenne d’une population par intervalle de confiance, c’est d’affirmer que celle-ci se situe
dans un intervalle autour de la moyenne x de l’échantillon avec une certaine probabilité.
x − ME ; x + ME
c’est-à-dire
ME est la marge d’erreur : c’est la distance entre le centre et l’extrémité de l’intervalle de confiance.
Puisque le centre x de l’intervalle de confiance est connu, il faudra trouver la valeur de ME pour obtenir
la largeur de l’intervalle de confiance. Nous verrons la manière de procéder à la prochaine section mais
avant tout, il faut voir deux autres définitions.
Lorsque nous effectuons de l’estimation par intervalle, nous devons déterminer avec quelle certitude nous
voulons que l’intervalle contienne bien la moyenne de la population. Cette certitude se nomme
«niveau de confiance» et elle est déterminée par celui qui demande l’étude. Les niveaux de confiance les
plus souvent utilisés sont : 90%, 95% et 99%. En statistique, le niveau de confiance se note par 1− où
représente le risque d’erreur. Ainsi, si nous utilisons un niveau de confiance de 95%, on accepte de se
tromper 5 fois sur 100 dans l’estimation de la moyenne de la population.
88
Ex. : Trouvez la valeur de z sachant que Z ~ N ( 0 ; 1 ) et que le niveau de confiance est de 95%.
2
Supposons que le niveau de confiance est de 95%. Dans le cas d’une distribution normale, on sait que
95% des données se situent à au plus 1,96 écart type de part et d’autre de la moyenne car
P( −1,96 Z 1,96) = 95% . Cela s’applique aussi à la distribution d’une variable X ~ N ( X ; X2 )
dont l’écart type est X , c’est-à-dire que, pour 95% des échantillons de taille n, on aura une moyenne x
qui se situera à au plus 1,96 X unités de la moyenne X = .
1, 96 X 1, 96 X
Donc, si l’écart entre la moyenne et 95% des valeurs x est d’au plus 1,96 X , on a, pour 95% des
échantillons de taille n, la relation suivante :
− 1, 96 X x + 1, 96 X
À partir de cette relation, nous obtenons l’intervalle de confiance, à un niveau de confiance de 95%,
nous permettant d’estimer la moyenne d’une population :
x − 1, 96 X x + 1, 96 X .
89
l’intervalle de confiance est donnée par :
x - ME ; x + ME
où ME = z X .
2
La valeur de z est obtenue dans la table de la loi normale centrée réduite N(0 ; 1) selon le niveau de
2
confiance utilisé.
La formule à utiliser pour X est à déterminer à l’aide du théorème central limite. Si est inconnu, on
l’estime ponctuellement en le remplaçant par s.
On sait que : n = 50, x = 72%, s = 15%, 1 − = 95% et L’échantillon est prélevé avec remise.
On cherche : x − ME; x + ME
Donc
X : La moyenne des notes dans un échantillon de 50 étudiants.
X N ( x ; x2 ) car n 30
ME = z 2 x
= z 2 car la population est grande
n
15
= 1,96
50
= 4,16
D’où
µ x − ME; x + ME
µ 72 − 4,16;72 + 4,16
µ 67,84;76,16
Interprétation : Il y a 95% de chance que le résultat moyen de tous les étudiants du collège de
Maisonneuve inscrits en méthodes quantitatives à la session automne 2013 se situe entre 67,84%
et 76,16%.
90
Ex: On sait que le quotient intellectuel (QI) suit une distribution normale dont la variance
est 144. Un échantillon de taille n = 250 a été prélevé. On a calculé une moyenne échantillonnale de
105 avec un écart type échantillonnal de 10. Avec un niveau de confiance de 90%, estimer le quotient
intellectuel moyen de cette population.
91
Ex: La taille des bébés naissants est une variable obéissant à une distribution normale. À
partir d’un échantillon aléatoire de 40 bébés, on a calculé une taille moyenne de 35 cm avec un écart
type de 6 cm. Calculer la marge d’erreur qui nous permettra d’estimer, par intervalle de confiance,
la taille moyenne de tous les bébés naissants. Utiliser un niveau de confiance de 99%.
Rép : 2,44 cm
9.2.3 Taille d’échantillon requise pour estimer une moyenne avec une marge d’erreur et
un niveau de confiance attendu.
Lorsqu’un sondage est commandé, une des premières choses qu’il faut déterminer c’est le nombre
d’individus qu’il faut sélectionner afin de mener à bien notre sondage. Ce nombre d’individus est la taille
de l’échantillon. La taille de l’échantillon a une grande influence sur la précision du sondage, c’est-à-dire
plus la taille de l’échantillon est grande, plus le résultat est précis.
Pour déterminer la taille de l’échantillon nécessaire à un sondage, il faut tout d’abord connaître la précision
que l’on veut donner à ce sondage ainsi que son niveau de confiance. En connaissant ces deux paramètres
et à l’aide de la formule de la marge d’erreur
s
ME = z ou ME = z
2
n 2
n
2 2
z z s
n = 2 ou n = 2
ME ME
92
Ex : Quelle taille minimum d’échantillon faudrait-il avoir pour estimer la grandeur moyenne des
bébés naissants avec une marge d’erreur d’au plus 1,7 cm et un niveau de confiance de 95%, si des
études antérieures ont donné un écart type de 5 cm pour la population?
Rappel :
s
ME = z ou ME = z
2
n 2
n
D’après cette formule, on peut constater que pour un même niveau de confiance, plus on augmente la
taille de l’échantillon, plus la marge d’erreur va diminuer et par le fait même donne une estimation plus
précise de la moyenne de la population.
Le tableau suivant nous montre les effets de la variation du niveau de confiance et de la taille de
l’échantillon sur la marge d’erreur.
93
9.3 Exercices
1. Le tableau suivant donne le prix payé par 5 individus d’une population pour l’achat d’un logiciel anti-
virus acheté dans des boutiques différentes. Afin d’estimer le prix moyen de ce logiciel, supposons
que l’on prélève un échantillon aléatoire de 3 individus.
2. On désire former aléatoirement des équipes de hockey de niveau Pee-Wee. Sachant que la taille d’un
garçon de 11 ans est distribuée normalement avec une moyenne de 147 cm et un écart type de 26
cm.
a) Quelles sont les chances qu’une équipe se retrouve avec un garçon de 11 ans ayant une taille
inférieure à 140 cm ?
b) Quelles sont les chances qu’une équipe de hockey Pee-Wee (constituée de 12 garçons de 11 ans)
ait une taille moyenne inférieure à 140 cm ?
4. Voici le salaire horaire de 9 étudiants choisis au hasard parmi tous les étudiants d’un collège.
10,50 8 6,80 12,25 15 7,30 8,55 7,81 9,58
94
5. Le nombre d’heures de sommeil par jour pour un échantillon de 500 Québécois obéit à une loi
normale dont la moyenne est de 7,9 heures avec un écart type de 1,2 heure.
a) Estimer le nombre de Québécois qui dorment moins de 7 heures par jour dans cet échantillon.
b) Combien d’heures par jour un Québécois faisant partie de cet échantillon doit-il dormir au
minimum pour faire partie des 10 % de ceux qui dorment le plus ?
c) À un niveau de confiance de 95 %, estimer le nombre moyen d’heures de sommeil par jour dans
la population québécoise.
6. Un manufacturier de stylos veut mettre sur le marché un nouveau modèle de stylo longue durée.
Pour estimer la durée moyenne de ces nouveaux stylos, il choisit un échantillon de 30 stylos et calcule
leur durée d’écriture (en heures). Il obtient les résultats suivants :
87 92 97 93 91 91 96 95 92 68
85 90 86 102 101 90 86 88 94 99
98 100 80 88 96 91 78 89 88 85
En supposant que la durée d’écriture obéit à une loi normale, construire un intervalle au niveau
99% afin d’estimer la durée d’écriture moyenne de ces nouveaux stylos.
8. Le niveau de timidité d’une personne peut être évalué grâce à l’échelle de Leary. (L’échelle de Leary
est établie par un petit test comprenant 15 questions. Le répondant doit encercler un chiffre de 1 à 5
qui correspond le mieux au degré selon lequel l’énoncé est vrai pour lui). Pour vérifier le niveau de
timidité des étudiants du collège de Maisonneuve, on prélève aléatoirement 225 étudiants et on trouve
un niveau de timidité moyen de 38,4 points avec un écart type de 15,6 points. (Il faut noter que plus
une personne est timide, plus son total de points sera élevé).
a) Avec un niveau de confiance de 94%, construire un intervalle de confiance afin d’estimer le
niveau de timidité moyen de tous les étudiants du collège de Maisonneuve.
b) Interpréter cet intervalle de confiance.
c) Quelle serait l’estimation ponctuelle du niveau de timidité des étudiants du collège?
d) Quel effet sur la marge d’erreur observerions-nous si l’on augmentait le niveau de confiance?
9. Quelle taille minimale d’échantillon faudrait-il prendre pour estimer l’âge moyen des étudiants d’une
université avec une marge d’erreur d’au plus 1,5 an et un niveau de confiance de 95 % si des études
antérieures ont donné un écart type de 5,3 ans pour la population ?
95
10. Compléter les phrases suivantes :
a) Pour un même niveau de confiance, plus on augmente la taille de l’échantillon, plus l’écart type
x _______________ , ce qui a comme conséquences de faire ________________ la marge
d’erreur et par le fait même de donner une estimation plus _______________ de la moyenne
de la population.
b) Si l’on augmente le niveau de confiance, la marge d’erreur sera plus _______________ et par
conséquent la largeur de l’intervalle de confiance sera plus ________________. Nous aurons
alors ____________ de chances que le vrai paramètre de la population soit compris dans notre
intervalle.
11. Les résultats obtenus à un test psychométrique que l’on fait subir à des enfants d’âge préscolaire est
une variable obéissant à une loi normale d’écart type 4,2. On prélève un échantillon de 32 enfants
pour lesquels ont obtient un résultat moyen de 37,1. À un niveau de confiance de 95 %, on veut
estimer le résultat moyen des enfants à ce test. Vrai ou faux ?
a) L’estimation ponctuelle nous permet de dire que le résultat moyen de tous les enfants est de
37,1.
b) Il y a 95 % des chances que le résultat moyen des 32 enfants de l’échantillon se situe entre 35,64
et 38,56.
c) Il y a 100 % des chances que le résultat moyen des 32 enfants de l’échantillon se situe entre 35,64
et 38,56.
d) Il y a 95 % des chances que le résultat moyen de tous les enfants se situe entre 35,64 et 38,56.
e) Il y a 5 % de chances que je me trompe en calculant l’intervalle de confiance.
f) Il y a 5 % de chances que le résultat moyen de tous les enfants ne se situe pas entre 35,64 et
38,56.
12. On veut estimer le nombre d’années d’expérience des 380 professeurs du collège. Pour ce faire, on
sélectionne au hasard 35 professeurs et on trouve une moyenne échantillonnale de 12,8 années avec
un écart type de 3,3 années.
a) Faites une estimation ponctuelle du nombre d’années d’expérience de tous les professeurs du
collège.
b) Construire un intervalle de confiance afin d’estimer le nombre moyen d’années d’expérience de
tous les professeurs du collège. Utiliser un niveau de confiance de 96%.
c) Afin d’augmenter notre niveau de certitude lors de l’estimation par intervalle, que devrions-nous
faire ?
d) Afin d’être plus précis dans notre estimation par intervalle de la moyenne (et pas nécessairement
plus confiant), que devrions-nous faire ?
96
9.4 Réponses
1. a) 125 c) x = 51, 4 et x = 0, 88
2,15 5 − 3
d) oui, = x = 51, 4 e) oui, = 2,15 et x = = 0,88
3 5 −1
2. a) 39,36% b) 17,62%
4. a) = 9, 53$
b) Le niveau de confiance est 0%. La probabilité que le salaire moyen de tous les étudiants
d’un collège soit exactement de 9,53 $ est nulle.
c) = 2, 67 et x = 0, 89
8. a) 36, 44 ; 40,36
b) Avec un niveau de confiance de 94%, on peut dire que le niveau de timidité moyen de
tous les étudiants du collège de Maisonneuve se situe entre 36,44 et 40,36.
c) = 38, 4
d) La marge d’erreur augmenterait.
9. n = 48
11. a) V b) F c) V d) V e) F f) V
97
98