Cours Statistiquedescriptive 2014
Cours Statistiquedescriptive 2014
Cours Statistiquedescriptive 2014
Définitions de base : Dans un premier temps, nous allons donner le vocabulaire de base de
la statistique descriptive, on appellera :
Remarque : Ces « individus » peuvent être de natures très diverses : ensemble de personnes,
mois d’une année, pièces produites par une usine, résultats d’expériences répétées un certain
nombre de fois.
c) Échantillon, un sous-ensemble de la population dont les individus feront l’objet de l’étude.
Le choix de l’échantillon se fait en respectant certaines règles ;
d) Variable ou caractère statistique, l’aspect de l’unité statistique que l’on va étudier
(exemples : situation géographique de l’entreprise, diamètre de la pièce…). On dira que
cette variable prend des valeurs (ou modalités).
Les caractéristiques étudiées sur les individus d’une population sont appelées les caractères.
1
Nous considérons plusieurs types de caractères :
1. Les caractères qualitatifs.
Exemples : profession, adresse, sexe, numéro de téléphone...
2. Les caractères quantitatifs : leur détermination produit un nombre ou une suite de
nombres. Nous distinguons :
Les caractères simples ou univariés : leur mesure sur un individu produit un seul
nombre. L’ensemble de leurs valeurs est donc R ou une partie de R.
Exemples : taille, poids, salaire, température...
Les caractères multiples : leur mesure sur un individu produit une suite finie de
nombres. L’ensemble de leurs valeurs est donc Rn ou une partie de Rn.
Exemples : relevé de notes d’un(e) étudiant(e), fiche de salaire...
Remarques
1. Les caractères qualitatifs peuvent toujours être transformés en quantitatifs par codage.
C’est ce qui se fait le plus généralement. Mais un tel codage est purement conventionnel et
n’a pas vraiment un sens quantitatif.
Exemple : Nous ne pouvons pas calculer le sexe moyen.
2. Certains caractères qualitatifs s’expriment à l’aide de nombres.
Exemple : Un numéro de téléphone.
Mais ils n’ont pas non plus de sens quantitatif.
Exemple : Calculer un numéro de téléphone moyen n’est pas pertinent.
B. Caractères et variables : Dans une population, par exemple celle des étudiants
d’une faculté, les unités sont repérées par le nom et le prénom des étudiants (on a
donc une liste). Si l'on souhaite étudier cette population, on va retenir certains
critères d’étude comme le sexe, la filière principale à laquelle chaque étudiant se
2
rattache, les matières optionnelles qu'il a choisi, l’âge, le poids, la taille, etc. Parmi
ces critères, certains sont quantitatifs, comme l’âge, le poids, la taille. On peut en
effet effectuer des calculs numériques sur ces critères : poids moyen, taille
maximale, taille minimale, etc. D’autres critères ne sont pas quantifiables, car on ne
peut pas effectuer de calculs dessus. Ils sont qualitatifs. C’est le cas du sexe par
exemple. On peut connaître l’effectif masculin et l’effectif féminin d’une population,
mais la notion de « sexe moyen » n’a pas de sens et ne peut d’ailleurs pas être
calculée.
Afin de différencier les deux type de critères, les critères qualitatifs sont appelés des
caractères et les critères quantitatifs des variables. On désigne par modalités les
différentes catégories d’un caractère qualitatif et on qualifie de valeurs les différents
chiffres d’une variable.
Exemple 1 : soit une population de 600 étudiants, avec un effectif féminin de 230 et un
effectif masculin de 370. Traduisons ces informations dans le vocabulaire de la statistique
descriptive.
L’effectif total, n, va se répartir entre l’effectif masculin et l’effectif féminin, ce qui nous
permet d'écrire que n = nF + nM. Cette égalité, nous pouvons l’écrire parce que les
différentes modalités d’un caractère sont à la fois exhaustives et incompatibles.
Exhaustives, car elles décrivent toutes les valeurs ou états possibles d’un caractère.
Incompatibles, car un individu ne peut pas avoir plus d’une modalité.
Exemple 2 : soit un échantillon de 10 étudiants ayant passé un examen. Ils ont obtenu les
notes suivantes (sur 20) : {16, 8, 6, 14, 10, 18, 13, 9, 10, 15}.
(*) Il n’y a que 9 valeurs, parce que le 10 est répété 2 fois. Ce qui montre l’importance de
distinguer les valeurs de la variable et l’effectif de l’échantillon (ou de la population).
L’effectif varie de 1 à n (avec n=10), tandis que les valeurs varient de 1 à 9 (avec h=9).
3
C. Modalités ordinales, modalités nominales
Les modalités d'un caractère qualitatif, si elles ne peuvent pas être mesurées
quantitativement, sont parfois susceptibles d'être classées. Ce sont des modalités
ordinales.
Exemple 2 : Des chemises sont classées par taille : XS, S, M, L, XL, XXL, XXXL. Il s'agit
de modalités faussement ordinales. En réalité il existe un tableau de correspondance qui
explicitera à quelle taille en cm chacune de ces catégories correspond. Les modalités d'un
caractère qualitatif qui ne peuvent pas être classées ou hiérarchisées sont dites nominales.
La variable est dite discrète si elle ne prend que des valeurs isolées (ex : entières). Elle est
continue si elle peut prendre toutes les valeurs d’un intervalle (ex : R).
L’effectif d’une population est le nombre d’individus total de cette population. La
fréquence d’un caractère est le nombre d’individus possédant ce caractère divisé par
l’effectif total de la population.
4
E. Unités individuelles et unités groupées
Les unités d’une population, que le critère soit qualitatif ou quantitatif (discret ou continu),
peuvent être présentées individuellement (c’est généralement le cas lorsque les données
sont saisies) ou regroupées. Le regroupement peut être effectué par modalités, par valeurs
ou par classes de modalités ou de valeurs.
Identificateur(*) 1 2 3 4 5 6 7 8 9 10
Évaluation a e e c e f a f e b
Modalités a b c d e f
Effectif 2 1 1 0 4 2
Taille 135 142 145 148 152 165 170 173 175 180
Effectifs 1 1 2 3 1 2 3 1 1 5
5
Tableau 7 : Groupement par classes (amplitudes égales)
Classes Effectifs
[130-140[ 1
[140-150[ 6
[150-160[ 1
[160-170[ 2
[170-180[ 10
Classes Effectifs
[130-150[ 7
[150-170[ 3
[170-180[ 10
Lorsque les unités statistiques sont groupées par classes, on calcule un centre de classe,
désigné par ci, qui est égal à la moyenne des extrémités de classes (voir le tableau 9 pour le
calcul des centres de classe du tableau 8).
Classes Effectifs
[2-5[ 21
[5-10[ 63
[10-15[ 16
Une fois les unités statistiques d’une population répertoriées, celles-ci sont présentées dans
des tableaux (voir le chapitre 2), de diverses manières : effectifs ou fréquences absolues,
fréquences relatives, pourcentages, ratios, indices et taux. Il convient de définir ces termes
avec précision :
6
1) Effectifs ou fréquences absolues : Il s’agit de la répartition brute des données. Lorsque les
données sont présentées individuellement, chaque donnée a la même fréquence unitaire
d’apparition, leur effectif ou fréquence absolue est égal à 1. Lorsque les données sont
regroupées par valeurs ou modalités, les effectifs ou fréquences absolues correspondent au
nombre de données qui ont la valeur ou modalité, ou encore qui sont groupées dans une
classe donnée. Symboliquement, les effectifs ou fréquences absolues s’écrivent ni. Et la
somme des effectifs est égale à n. Ainsi, dans le cas du tableau 11, les effectifs ou
fréquences absolues dont respectivement égaux à n1=21, n2=63 et n3=16. De plus, on a :
n1+n2 + n3 = 21+63+16=100 = n
𝑛1 𝑛2 𝑛𝑛 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑛
𝑓1 + 𝑓2 + … . +𝑓𝑛 = + + …+ = =1
𝑛 𝑛 𝑛 𝑛
Pour décrire statistiquement une variable qualitative, on utilise les outils élémentaires de
distributions de fréquence absolues (effectifs) et relatives visualisées par des graphiques
élémentaires de son choix (diagrammes en bâtons, en barres, en secteurs, etc...).
Avec n = n1 + n2 + ... + nk
Le pourcentage des données qui correspondent à une modalité, à une valeur ou à une
classe s’obtient en multipliant la fréquence relative correspondante par 100. C’est-à-dire :
Pourcentage de la valeur (modalité ou classe) i = fi x 100
7
Les colonnes 2 (fréquences absolues) et 4 (pourcentages) contiennent les mêmes valeurs
car l’effectif total est égal à 100. Si celui-ci était différent de 100, les valeurs contenues
dans les deux colonnes seraient différentes.
3) Ratio, taux et indices : Un ratio est une fraction qui divise deux quantités. Les fréquences
relatives sont des ratios puisqu’elles divisent deux quantités. Plus généralement, les ratios
sont très utilisés en statistiques.
Exemple 1 : Soit la série de pièces défectueuses produites par 10 machines au cours d’une
semaine donnée.
{8, 16, 9, 33, 14, 5, 3, 7, 10, 7}
Exemple 2 : Soit la série de pièces défectueuses produites par 10 machines au cours d’une
semaine donnée.
{8, 16, 9, 33, 14, 5, 3, 7, 10, 7}
Ces chiffres sont des taux car ils sont exprimés dans l’unité « semaine ». Cette unité est « 1
». On dit par conséquent 8 pièces par semaine, 16 pièces par semaine, etc.
Un indice est le ratio d’une quantité à une autre quantité qui sert de référence, multiplié par
100.
Exemple 3 : Soit la série de pièces défectueuses produites par 10 machines au cours d’une
semaine donnée de l’exemple 1. Divisons chacune des valeurs de la série par la valeur la
plus faible et multiplions ensuite chaque valeur par 100. Le résultat est une série d’indices,
la « base 100 » étant la machine numéro 7.
{266,7 ; 533,3 ; 300 ; 1100 ; 466,7 ; 166,7 ; 100 ; 233,3 ; 333,3 ; 233,3}.
G. Schéma récapitulatif
Le Schéma ci-dessous récapitule les différentes sortes de données que l’on rencontre en
statistique, en partant de la distinction fondamentale entre données qualitatives et données
quantitatives.
8
Schéma : Différentes sortes de données statistiques
9
On prendra soin de toujours indiquer la source des données, afin que l'utilisateur du tableau
puisse éventuellement s'y référer. Il est également important d'ajouter toute note utile pour la
compréhension des données. Dans l'exemple des zones géographiques, il peut être
nécessaire soit d'énumérer les pays qui figurent dans les zones, soit de référer à la source (à
condition qu'elle le fasse, ce qui est le cas ici, mais il faut le vérifier).
Remarquons que les données ont été classées, non par ordre alphabétique des zones (ce qui
est normalement le cas), mais par ordre croissant du nombre d'utilisateurs, ceci afin de faire
apparaître les zones où l'utilisation d'Internet est la plus répandue.
Ce tableau peut être complété de plusieurs façons, afin d'en faciliter l'analyse.
Premièrement, on peut présenter les chiffres en pourcentages, dans une seconde colonne,
afin de mieux apprécier la part de chaque zone dans le total des utilisateurs. C'est ce qui a
été fait dans le tableau ci-dessous (colonne 3).
Deuxièmement, la colonne (4) présente la somme cumulée des pourcentages, de façon à
mettre en évidence la contribution additionnelle de chaque zone ainsi que la concentration
des utilisateurs. On voit ainsi que les 3 premières zones (Asie, Europe et
Amérique du Nord) totalisent 88,7% des utilisateurs, les quatre autres zones (Amérique du
sud/caraïbes, Moyen-Orient et Océanie/Australie) ne représentent quant à elles que 100 -
88,7 = 11,3% des utilisateurs.
Par exemple, si l'on veut retrouver le nombre d'utilisateurs d'internet en Asie, il suffit
d'effectuer l'opération suivante :
10
Nombre d'utilisateurs d'internet en Asie = (34,02/100) * 888,3 = 302,2
De même, si l'on veut retrouver la population d'Asie, il suffit d'effectuer l'opération
suivante :
Population d’Asie = (9,61/100) * 6411 = 3612.
Exemple : on interroge 100 ménages sur le nombre de pièces de leur logement. Le variable
« nombre de pièces » est quantitative et discrète (les valeurs sont dénombrables). En outre,
les valeurs, n'ayant pas été groupées, sont connues individuellement. On obtient le tableau
ci-dessous, où Xi représente le nombre de pièces et ni les effectifs correspondants :
11
Tableau 4 : Nombre de pièces du logement (Xi)
Xi Effectifs (ni)
1 5
2 30
3 40
4 20
5 5
Xi Effectifs (ni)
[1-3[ 35
[3-5] 65
Lorsque les données sont groupées, il faut porter attention aux crochets (les signes « [ » et
«] ») car ce sont eux qui indiquent si les valeurs limites sont incluses ou non dans la classe.
Par exemple, dans le tableau ci-dessus, le groupe [1-3[inclut les ménages dont le logement
n’a qu’une seule pièce (c’est le signe « [ ») qui marque l’inclusion, mais exclut les ménages
qui ont 3 pièces (c’est le signe « [ »).
La valeur « 3 » ayant été exclue du groupe [1-3[, elle sera nécessairement incluse dans le
groupe [3-5]. Cela correspond à la propriété évoquée dans le chapitre 1, d’après laquelle les
modalités d’un caractère (ici les valeurs d’une variable) sont exhaustives et incompatibles.
Xi 16 17 18 19 20 21 22
ni 5 25 45 20 15 8 4
12
Tableau 7 : Âge d’obtention du bac (Xi) Groupement par classes
Xi Effectifs (ni)
[16-18[ 30
[18-20[ 80
[20-22] 12
1) Données individuelles : Lorsque l’on veut représenter graphiquement toutes les unités
statistiques d’une population à un caractère ou à une variable, on dispose de deux graphiques :
la ligne et le graphique dit « tige et feuilles » (de l’anglais « stem and leaf »).
a) La ligne : Exemple 1 : Soit la série de chiffres : {8, 2, 3, 7, 4} où aucune unité n’a la même
valeur. On obtient alors la représentation graphique suivante quand les unités statistiques
sont peu nombreuses et connues individuellement et non répétées. :
b) Le graphique « tige et feuilles » : Ce graphique très original consiste à empiler des unités
en conservant leur identification (un numéro, un nom, etc.). De cette façon, aucune donnée
initiale n’est absente du graphique et chacune peut facilement être repérée.
Exemple 1 : Soit 20 personnes, repérées par un numéro de 1 à 20, à qui des notes allant de 0
à 5 ont été attribuées.
Notes = {{0, 12}, {0, 14}, {1, 7}, {1, 9}, {1, 13}, {1, 18}, {2, 4}, {2, 8}, {2, 11}, {2, 15},
{2, 16}, {3, 17}, {3, 12}, {4, 5}, {4, 6}, {4, 20}, {5, 3}, {5, 19}}
13
Dans chaque couple de données, le premier chiffre correspond à la note (de 0 à 5), c’est la «
tige » et le second sert à identifier la personne par un numéro allant de 1 à 20, c’est « les
feuilles ». La représentation tiges et feuilles donne la figure 3.
2) Données groupées par modalités ou valeurs : Que les données soient regroupées par
modalité, comme c’est le cas pour les groupements qualitatifs, ou par valeurs, comme c’est
le cas pour les groupements quantitatifs, on dispose de nombreuses représentations
graphiques. Nous limiterons notre présentation aux plus connues, à savoir : le diagramme en
bâtons, le diagramme en barres et le nuage de points, de l’anglais « scatter plot ».
14
Figure 4 : Diagrammes en bâtons
b) Polygone des effectifs ou des fréquences : Le polygone des effectifs (respectivement des
fréquences) d'une distribution statistique discrète est obtenu à partir du diagramme en bâtons
des effectifs (respectivement des fréquences) en joignant par un segment les sommets des
bâtons.
Exemple2 : Représentez la distribution statistique discrète ((1,2), (2,3), (3,4), (4,1), (5,6),
(6,5), (7,2), (8,3), (9,1), (10,1)) :
15
Solution
1. La figure 1 correspond au diagramme en bâtons des effectifs.
2. La figure 2 a été obtenue en superposant le diagramme en bâtons et le polygone des
fréquences.
3. La figure 3 a été obtenue en superposant le diagramme en bâtons et le polygone des
effectifs cumulés.
a) Dans le cas où les amplitudes des classes sont égales, cet histogramme est constitué d'un
ensemble de rectangles dont la largeur est égale à a, l'amplitude de la classe, et la hauteur
égale à K × nj où nj est l'effectif de la classe et K est un coefficient arbitraire (choix d'une
échelle), de sorte que l'aire totale sous l'histogramme est égale à K × N × a où N est
l'effectif total.
16
b) Dans le cas de classes d'amplitudes kj × a inégales, multiples entiers de l'une d'entre elles
a, nous convenons, pour conserver le résultat précédent, de prendre pour hauteur du
rectangle de la classe numéro j le quotient (K × nj )/kj.
3.2 Polygone des effectifs ou des fréquences : Le polygone des effectifs ou des fréquences d'une
distribution statistique groupée est obtenu en joignant dans l'histogramme de cette distribution les
milieux des côtés horizontaux supérieurs.
3.3 Polygone des fréquences cumulées : Le polygone des fréquences cumulées d'une
distribution statistique groupée est la représentation graphique de la fonction définie sur chaque
intervalle.
Solution
1. L'histogramme des fréquences demandé est la figure 4.
2. La figure 5 superpose l'histogramme des fréquences et le polygone des fréquences.
3. Nous obtenons le polygone des fréquences cumulées à la figure 6.
17
Chapitre III : Les caractéristiques de tendance centrale
(Les indicateurs de tendance centrale et de position)
III.1 Introduction : Qu’elles soient non groupées ou au contraires groupées par valeurs ou par
classes, les variables quantitatives peuvent être utilement résumées par des caractéristiques
privilégient les valeurs principales de la distribution, au détriment par exemple de ceux qui
caractérisent la dispersion ou la concentration des valeurs d’une série. Ces valeurs centrales sont
les moyennes, la médiane et le mode. Nous exposerons leur mode de calcul et leur signification
en distinguant pour chacune d’elles le cas des données non groupées et le cas des données
regroupées (soit par valeurs, soit par classes).
A. La moyenne arithmétique
1) La moyenne arithmétique simple : On appelle moyenne arithmétique la somme de
toutes les données statistiques divisée par le nombre de ces données. La moyenne
arithmétique conserve la somme totale des valeurs observées : si on modifie les valeurs
de deux observations d’une série statistique tout en conservant leur somme, la moyenne
de la série sera inchangée.
18
𝑛
1
𝑋̅ = ∑ 𝑋𝑖
𝑛
𝑖=1
Exemple1 : Soit la série de chiffres {8, 5, 9, 13, 25}. La moyenne arithmétique de cette
série de chiffres se calcule ainsi :
1 60
𝑋̅ = (8 + 5 + 9 + 13 + 25) = = 12
5 5
Exemple 2 : Soit la série de chiffres {8, 13, 5, 8, 5, 9, 13, 25, 13, 9}. Certains chiffres,
comme le 8, le 9 ou le 13 sont répétés. On peut simplifier la présentation en regroupant les
données par valeurs (voir le tableau ci-après). La troisième ligne est le produit des deux
premières. En effet, on a par exemple :
Xi ni ni*Xi
5 2 10
8 2 16
9 2 18
13 3 39
25 1 25
Total 10 108
La moyenne pondérée se calcule alors en faisant la somme pondérée c’est-à-dire la somme des
niXi et en divisant par n. Elle est égale à :
1 108
𝑋̅ = (5 ∗ 2 + 8 ∗ 2 + 9 ∗ 2 + 13 ∗ 3 + 25 ∗ 1) = = 10,8
10 10
Exemple 3 : Soit la série de chiffres {8,13,5,8,5,9,13,25,13,9,35,44,54,28}. Supposons que l’on
regroupe les valeurs en 3 catégories comme dans le tableau ci-dessous. Dans ce cas, il faut calculer
le centre de chaque classe, Ci, c’est-à-dire la somme des extrémités de classe divisée par 2 et
appliquer la formule de la moyenne pondérée.
Tableau 2 : Calcul de la moyenne arithmétique quand les valeurs sont groupées par classes
Classes ni ci ni*ci
[5-13[ 6 9 54
[13-28[ 3 20,5 61,5
[28-54[ 5 41 205
Total 14 320,5
19
On applique la formule précédente, mais en remplaçant Xi par Ci.
𝑛
1
𝑋̅ = ∑ 𝑛𝑖 𝐶𝑖
𝑛
𝑖=1
Xi ni ni*Xi Xi- 𝑋̅
5 1 5 -7
8 1 8 -4
9 1 9 -3
13 1 13 1
25 1 25 13
𝑛
Total 5 60
∑(𝑋𝑖 − ̅̅̅
𝑋) = 0
𝑖=1
2) Ou, ce qui revient au même, mais est plus imagé, la somme des écarts positifs est égale à la
somme des écarts négatifs, au signe près.
En valeur absolue, la somme des écarts négatifs est égale à la somme des écarts positifs.
B. La moyenne quadratique
20
n
1
Q = √ ∑ xi2
n
i=1
Exemple 1 : Soit la série de chiffres {-4, -2, 0, 2, 4}. Si l’on calcule la moyenne arithmétique
simple on obtient zéro.
Parfois, on souhaite obtenir une caractéristique de tendance centrale ayant une valeur positive là où
le calcul de la moyenne arithmétique simple aurait donné zéro. On calcule alors la moyenne
quadratique simple en additionnant le carré de toutes les valeurs de la série et en prenant la racine
carrée du total. Autrement dit, dans notre exemple :
2) La moyenne quadratique pondérée : Soit {x , x , ….,x } une série de chiffres et {n1,n2 , ….,nh }
les effectifs correspondants. La formule de la moyenne quadratique pondérée de cette série est
donnée par :
ℎ
1
𝑄 = √ ∑(𝑛𝑖 . 𝑥𝑖2 )
𝑛
𝑖=1
Xi 25 8 4 12
ni 10 16 25 20
25 10 625 6250
8 16 64 1024
4 25 16 400
12 20 144 2880
21
1) En appliquant la formule précédente on obtient :
10554
2) 𝑄 = √ = 12,1921
71
3) Lorsque les valeurs sont regroupées en classes, il faut calculer les centres de classes et appliquer
ensuite la formule précédente en remplaçant xi par ci.
C. La moyenne géométrique
1) La moyenne géométrique simple : Soit {x1, x2, ….,xn} une série de chiffres. La formule
de la moyenne géométrique simple de cette série est donnée par :
1
𝑛 𝑛
𝐺 = [∏ 𝑥𝑖 ]
𝑖=1
Exemple : Soit la série de chiffres {8, 5, 9, 13, 25}. La moyenne géométrique de cette série est
égale à :
1 5
𝐺 = [8.5.9.13.25]5 = √117000 = 10,32
2) La moyenne géométrique pondérée : Soit {x1, x2, ….,xh} une série de chiffres et {n1,n2,
….,nh} les effectifs correspondants. La formule de la moyenne géométrique pondérée de
cette série est donnée par :
1
ℎ 𝑛
𝑛
𝐺 = [∏ 𝑥𝑖 𝑖 ]
𝑖=1
Exemple : Soit les chiffres du tableau 3. Pour calculer la moyenne géométrique pondérée, on
peut passer par les logarithmes népériens (ln) :
1
𝐺 = [2510 816 425 1220 ]71
1
𝑙𝑛𝐺 = [10𝑙𝑛25 + 16𝑙𝑛8 + 25𝑙𝑛4 + 20𝑙𝑛12]
71
G = 8,2488
D. La moyenne harmonique
1) La moyenne harmonique simple : Soit {x1,x2, …., xn} une série de chiffres. La formule de
la moyenne harmonique simple de cette série est donnée par :
𝑛
𝐻=
1
∑𝑛𝑖=1
𝑥𝑖
Exemple : Soit la série de chiffres {8, 5, 9, 13, 25}. La moyenne harmonique de cette série
est égale à :
22
5
𝐻= = 9,041
1 1 1 1 1
8 + 5 + 9 + 13 + 25
2) La moyenne harmonique pondérée
Exemple : Soit les chiffres du tableau 4 Soit {x1,x2, …., xh} une série de chiffres et {n1,n2,
….,nh} les effectifs correspondants. La formule de la moyenne harmonique pondérée de
cette série est donnée par :
𝒏
𝑯= 𝒏𝒊
∑𝒉𝒊=𝟏
𝒙𝒊
Exemple 1 : Soit les chiffres du tableau 3. Pour calculer la moyenne harmonique pondérée,
on applique la formule précédente.
71
𝐻= = 6,882
10 16 25 10
+ + 4 + 12
25 8
Exemple 2 : Une petite usine abrite 2 machines. La première machine a produit 500 pièces
à la vitesse de 100 pièces par heure. Une seconde machine a produit 300 pièces à la vitesse
de 60 pièces par heure. Calculer la vitesse moyenne (exprimée en nombre de pièces par
heure) de production dans l'usine.
Vitesse moyenne = nombre total de pièces produites/nombre d'heures de production. La
première machine a produit 500 pièces en (500/100) heures (5 heures) La seconde machine
a produit 300 pièces en (300/60) heures (5 heures). La vitesse moyenne est donc donnée
par :
800
𝑉𝑖𝑡𝑒𝑠𝑠𝑒 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 = = 80 𝑝𝑖è𝑐𝑒𝑠/ℎ𝑒𝑢𝑟𝑒
500 300
100 + 60
III.3 LA MEDIANE : La médiane d’une série est la valeur qui partage cette série, préalablement
classée, en deux séries aux effectifs égaux. Dans la première série, on trouve les valeurs inférieures
à la médiane. Dans la seconde série on trouve les valeurs supérieures à la médiane.
La médiane ne se calcule que pour les données quantitatives et son mode de calcul dépend du type
de données. On distinguera quatre cas :
Les séries non groupées dont l’effectif est impair et où aucune valeur n’est répétée,
Les séries non groupées dont l’effectif est pair et où aucune valeur n’est répétée,
Les séries groupées par valeurs,
Les séries groupées par classes de valeurs.
23
A. Calcul de la médiane : effectif impair et aucune valeur n'est répétée
C’est le cas idéal, celui qui permet le mieux de comprendre c’est qu’est la médiane.
a) Classer la série par ordre croissant des valeurs {5, 8, 9, 13, 25}
b) Localiser la valeur qui partage l’effectif total en deux sous effectifs égaux en appliquant
la formule (n+1)/2, c’est-à-dire ici (5+1)/2=3. La troisième valeur de la série est le 9.
Quand l’effectif est pair, la médiane n’est pas une valeur de la série. Il faut le calculer.
a) Classer la série par ordre croissant des valeurs {1, 2, 4, 7, 9, 10, 12, 13}
b) Appliquer la formule (n+1)/2, c’est-à-dire ici (8+1)/2=4,5. Ceci nous indique que
l’intervalle médian est constitué par les 4èmes et la 5ème valeur. La médiane est donc égale
à la moyenne arithmétique simple de ces deux valeurs : Me= (7+9)/2=8
24
On trie tout d'abord les n valeurs par ordre croissant : 0 1 2 2 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5
5 5 5 6 6.
Dans ce cas, la procédure ne permet pas toujours de partager l’effectif total en deux parties égales.
Exemple : Dans le tableau 6 ci-dessous, les valeurs de la variable X ont déjà été classées. La
troisième colonne est celle des effectifs cumulés fc et la quatrième est celle des fréquences relatives
fr . La cinquième colonne du tableau est celle des fréquences relatives cumulées frc.
Tableau 6 : Calcul de la médiane quand les données sont groupées par valeurs
xi fi fc fr frc
2 2 2 0,067 0,067
8 3 5 0,100 0,167
9 4 9 0,133 0,300
10 4 13 0,133 0,433
11 5 18 0,167 0,600
12 3 21 0,100 0,700
13 6 27 0,200 0,900
15 1 28 0,033 0,933
18 2 30 0,067 1
Pour déterminer la médiane, on repère 0,5 dans la colonne des fréquences relatives cumulées (frc) ou
bien n/2 dans la colonne des effectifs cumulés (fc). On choisit ensuite la valeur frc égale ou
immédiatement supérieure à 0,5 (ou la valeur (fc) égale ou immédiatement supérieure à n/2) et l’on
suit le sens des flèches comme indiqué sur le tableau 5. Dans notre exemple, il n’y a pas de valeur
(frc) égale à 0,5, la valeur immédiatement supérieure à 0,5 est 0,6 (et la valeur immédiatement
supérieure à
n/2=30/2=15 est 18). Par conséquent, en suivant les flèches, on remonte à la valeur qui correspond à
la médiane, soit 11. On remarque alors que la médiane ne sépare pas l’effectif en deux parties
égales. En effet, il y a 13 valeurs qui sont inférieures à 11 (soit 43,3% de l’effectif) et 12 valeurs qui
sont supérieures à 11 (soit 40% de l’effectif). En outre, que faire des 5 valeurs qui sont exactement
égales à 11 (16,6% de l’effectif total). Faut-il les compter dans l’effectif des valeurs inférieures à la
médiane ou dans l’effectif des valeurs supérieures à la médiane ? Il n’y a pas de réponse à cette
question, chacun fait comme il l’entend (1).
25
Pour trouver la médiane, il faut localiser n/2=30/2=15 sur l’axe des ordonnées, puis tracer une
flèche horizontale jusqu’au point M. Une fois au point M, il faut tracer une flèche verticale en
direction de l’abscisse. On lit alors la valeur de la médiane qui, dans notre exemple, est égale à 11.
Pour trouver la médiane, il faut localiser n/2=30/2=15 sur l’axe des ordonnées, puis tracer une
flèche horizontale jusqu’au point M. Une fois au point M, il faut tracer une flèche verticale en
direction de l’abscisse. On lit alors la valeur de la médiane qui, dans notre exemple, est égale à 11.
𝑛
[2 − 𝑁(𝑥𝑖−1 )]
𝑀𝑒 = 𝐿1 + 𝐶.
𝑛𝑖
L1 : Borne inférieure de la classe médiane.
N (xi-1) : Effectif cumulé strictement inférieur à xi [somme des effectifs des classes inférieurs à la
médiane].
C : Amplitude de la classe médiane
Exemple : Dans le tableau 7 ci-dessous, les valeurs de la variable X du tableau 6 ont été groupées
par classes de valeurs d’amplitudes égales (la procédure est la même si les classes sont d’amplitudes
inégales).
26
Tableau 7 : Valeurs groupées par classes de valeurs d’amplitude égales
Xi ni N(Xi)
[0-5[ 2 2
[5-10[ 7 9
[10-15[ 18 27
[15-20[ 3 30
Appliquons la formule précédente en l’interprétant par rapport à la figure 2 qui représente le cumul
des ni en ordonnée [soit N (xi)] et xi en abscisse :
[15−9)]
𝑀𝑒 = 10 + 5. =11,666
18
III.4 LE MODE : Le mode d’une série est la valeur la plus fréquente de cette série. Une série peut
avoir plusieurs modes. Le calcul dépend du type de données. Prenons quelques exemples.
Exemple : Soit la série de chiffres {8, 5, 9, 13, 25}. Il n’y a pas de mode car chaque valeur n’est
répétée qu’une fois (la fréquence de chaque valeur est égale à 1).
27
Figure 3 : Détermination de la valeur modale
Exemple : Soit le tableau 7 où des données sont présentées par classes d’amplitudes égales.
Dans ce cas, pour calculer le mode, il faut appliquer la formule suivante :
𝑖𝑛𝑓 𝑑1
𝑀𝑜𝑑𝑒 = 𝑥𝑖 + 𝑎.
𝑑1 + 𝑑2
inf
xi Borne inférieure de la classe modale ; a = Amplitude de classe ;
d1 = ni –ni-1 et d2 = ni –ni+1.
28
11
𝑀𝑜𝑑𝑒 = 10 + 5. = 12,115
11 + 15
Exemple : Soit le tableau 8 où des données sont présentées par classes d’amplitudes inégales.
xi ni ai hi =ni/ai
[0-10] 9 10 0,9
[10-12] 9 2 4,5
[12-20] 12 8 1,5
Dans ce cas, pour calculer le mode, il faut appliquer la formule précédente, mais la définition de d1
et de d2 change, car il faut remplacer les effectifs ni par les amplitudes corrigées hi =ni/ai. On a donc,
en suivant par rapport à la figure 5 qui représente l’histogramme correspondant au tableau 8 (en
ordonnée on a les ni/ai et en abscisse on a les classes de valeurs d’amplitudes inégales).
3,6
𝑀𝑜𝑑𝑒 = 10 + 2. = 11,09
3,6 + 3
29
Chapitre IV : Dispersion et concentration
IV.2 l’intervalle de variation : L’intervalle, ou « spread » c’est la différence entre la plus grande
valeur et la plus petite valeur de la variable.
Étendue : L’étendue, notée e(x), est la différence entre la plus grande et la plus petite des
valeurs prises, donc e(x) = max(x) − min(x).
Exemple1 : soit deux élèves dont les notes dans quatre matières ont été les suivantes :
L’étendue des notes de A est 12-8 = 4, tandis que l’étendue des notes de B est 18 – 2 = 16. On
notera pourtant que la moyenne des deux élèves est de 10. Mais B a des notes beaucoup plus
dispersées que A. En fait, si on fait le rapport 16/4, on voit que les notes de B sont 4 fois plus
dispersées que celles de A.
Cet exemple montre l’utilité de l’intervalle de variation pour avoir une première idée de la
dispersion. Mais l’indicateur est assez limité, car il est trop sensible aux valeurs extrêmes comme le
montre l’exemple ci-après.
Exemple2 : soit la série suivante {1016, 774, 1008, 8, 1001, 999, 1100}
L’intervalle de variation est donc donné par IV = 1100 – 8 = 1092. On constate que la valeur de
l’intervalle de variation est exagérément augmentée par la présence du chiffre 8.
IV.3 L’intervalle interquartile : L’intervalle interquartile est une mesure de la variation qui n’est
pas influencée par les valeurs extrêmes, contrairement à l’intervalle de variation. Sa définition
est simple : l’intervalle interquartile mesure l’étendue des 50% de valeurs situées au milieu
d’une série de données classées.
30
Il se calcule en procédant aux quatre étapes suivantes :
Classement des données de la série par ordre croissant.
Trouver la médiane de la série pour séparer celle-ci en deux séries : la première série
contient les données inférieures à la médiane et la seconde les données supérieures à la
médiane.
Déterminer la médiane des deux nouvelles séries, sans inclure dans aucune d’elle la
médiane de la série initiale. La médiane de la première série est appelée « premier
quartile » et désigné par Q1. La médiane de la seconde série est appelée « second
quartile » et désigné par Q3.
Calculer IQ, l’intervalle interquartile par la formule :
IQ = Q3-Q1
Les figures 1-a et 1-b, ainsi que les quatre exemples ci-après illustrent les notions de
quartiles et d’intervalle interquartile dans le cas de données groupées (1-a) ou non groupées
(1-b).
Exemple 1 : soit la série de chiffres suivants, où aucune valeur n’est répétée. Le nombre de
chiffres est impair.
{4, 19, 17, 7, 1, 3, 9, 14, 12, 20, 16, 15, 11, 6,5}
31
3) Déterminons ensuite la médiane de chacune de ces deux nouvelles séries.
Remarque : Dans ce cas, particulier, la médiane est égale à 11 et l’intervalle interquartile a aussi
pour valeur le chiffre 11. Mais c’est un hasard.
Exemple 2 : soit la série de chiffres suivants, où aucune valeur n’est répétée. Cette fois, le nombre
de chiffres est pair. {4, 19, 17, 7, 1, 3, 9, 14, 12, 20, 16, 15, 11, 6}.
1) Afin de déterminer l’intervalle interquartile, classons d’abord les données de la plus petite à
la plus grande. {1,3,4, 6,7,9,11,12,14,15,16,17,19,20}
2) Déterminons l’intervalle médian, puis la médiane et séparons la série en deux séries. Ici,
(n+1)/2= (14+1)/2=7,5. L’intervalle médian est donc constitué par la 7ème et la 8ème valeur,
c’est-à-dire [11-12]. Et la médiane (11+12)/2=11,5.
32
4) Il reste plus qu’à calculer l’intervalle interquartile : IQ =Q3-Q1 =16-6 =10
Exemple 3 : Soit le tableau suivant, où les valeurs de l’exemple précédent ont été
regroupées par classes.
Tableau 1
1) Afin de déterminer l’intervalle interquartile, ajoutons une ligne pour les effectifs cumulés.
Tableau 2
2) Déterminons la médiane de la série par la méthode étudiée dans le chapitre précédent dans le
cas des données groupées par classe. Il faut d’abord déterminer la classe médiane, qui est ici
[8-12[. Il n’est pas nécessaire de connaître la valeur exacte de la médiane pour séparer les
deux séries, mais calculons-là quand même en appliquant la formule étudiée au chapitre 3
pour le calcul de la médiane quand les données sont groupées par classe :
𝑛
[2 − 𝑁(𝑥𝑖−1 )]
𝑀𝑒 = 𝐿1 + 𝐶.
𝑛𝑖
[13,5−12]
𝑀𝑒 = 8 + 4. = 9,2
5
33
3) La classe médiane [8-12[permet de diviser le tableau en deux. Calculons les médianes
respectives de chacun de ces tableaux :
Tableau 3
1
Si l'effectif considéré est celui d'une population : 𝜎 2 = ∑𝑘𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 (1)
𝑛
1
Si l'effectif considéré est celui d'un échantillon : 𝜎 2 = ∑𝑘𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 (2)
𝑛−1
Remarque :
1
La formule (1) sera utilisée par la suite avec k =n. 𝜎 2 = ∑𝑛𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 (3)
𝑛
Lorsque les données sont connues individuellement ou qu’elles ne se répètent pas, c’est la formule
(3) qui s’applique. En revanche, lorsque les données sont groupées par valeurs, c’est la formule (1)
qui s’applique. Enfin, lorsque les données sont groupées par classe, c’est le centre de classe Ci, qui
remplace Xi.
34
Exemple1 : soit la série {2, 5, 7, 1, 9, 13, 6, 15, 8, 16}
La formule (1) peut aussi être calculée suivant la méthode précédente. Toutefois, pour faciliter les
calculs, il est préférable d’utiliser la formule dite « développée ». On montre en effet que la formule
(1) peut s’écrire :
1 1
𝜎 2 = 𝑛 ∑𝑘𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 = 𝑛 ∑𝑘𝑖=1 𝑛𝑖 𝑥𝑖2 − 𝑥̅ 2 (4)
Xi 2 6 9 11 15
ni 5 9 4 3 5
35
B. L'écart-type : L’écart-type est égal à la racine carrée de la variance.
1 1
𝜎 = √𝑛 ∑𝑘𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 = √𝑛 ∑𝑘𝑖=1 𝑛𝑖 𝑥𝑖2 − 𝑥̅ 2 (5)
Si aucune valeur n’est répétée ou si les données ne sont pas regroupées par valeur, on aura :
1 1
𝜎 = √𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 = √𝑛 ∑𝑛𝑖=1 𝑥𝑖2 − 𝑥̅ 2 (6)
Xi 2 6 9 11 15
ni 5 9 4 3 5
𝜎
𝐶𝑉 = . 100
𝑥̅
Exemple : On connaît les salaires mensuels bruts en euros des 200 employés de la même
entreprise, à 10 ans d’intervalle (voir le tableau ci-dessous). Les données sont groupées par
classe. Le nombre d’employés est passé de 200 en 1994 à 280 en 2004. On veut savoir si la
dispersion des salaires à augmenter. Pour cela on va calculer le coefficient de variation en 1994
et en 2004.
36
Salaire Effectifs 1994 Effectifs 2004
1000-2000 40 56
2000-3000 70 118
3000-4000 80 92
4000-5000 5 10
5000-10000 5 4
Les données sont groupées par classes de valeurs. Dès lors, il convient de calculer Ci, le centre
de chaque classe, qui tiendra lieu de Xi dans les différentes formules. Les tableaux ci-après
indiquent les calculs intermédiaires nécessaires pour obtenir le coefficient de variation des
salaires, respectivement en 1994 et en 2004.
Tableau1
𝑘
1
𝜎 = √ ∑ 𝑛𝑖 𝑐𝑖2 − 𝑥̅ 2 = √1184375 = 𝟏𝟎𝟖𝟖, 𝟐𝟗
𝑛
𝑖=1
Le coefficient de variation des salaires pour l'année 1994 est donc égal à :
𝜎
𝐶𝑉 = 𝑥̅ . 100 = (1088,29/2875)*100 = 37,8536
Tableau2
Salaries ni (2004) Ci ni*Ci Ci2 ni*Ci2
1000-2000 56 1500 84000 2250000 126000000
2000-3000 118 2500 295000 6250000 737500000
3000-4000 92 3500 322000 12250000 1127000000
4000-5000 10 4500 45000 20250000 202500000
5000-10000 4 7500 30000 56250000 225000000
Total 280 776000 97250000 2418000000
37
1
𝑋̅ = ∑5𝑖=1 𝑛𝑖 𝐶𝑖 = 2771,43
280
𝑘
1
𝜎 = √ ∑ 𝑛𝑖 𝑐𝑖2 − 𝑥̅ 2 = √954898 = 𝟗𝟕𝟕, 𝟏𝟖𝟗
𝑛
𝑖=1
Le coefficient de variation des salaires pour l'année 2004 est donc égal à :
𝜎
𝐶𝑉 = 𝑥̅ . 100 = (977,189/2771,43)*100 = 35,2594
En comparant les deux coefficients de variation, on constate que l dispersion des salaires
s'est réduite.
38