Stats Seance 03 Doc
Stats Seance 03 Doc
Stats Seance 03 Doc
Statistiques Descriptives
2 Caractéristiques de position 1
2.1 Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Classe modale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4 Quartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.5 Déciles et centiles . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1 Introduction
La statistique descriptive définit des indices ou indicateurs permettant de ré-
sumer quantitativement les valeurs observées d’un caractère. On distingue les
types suivants :
• les indicateurs de position
• les indicateurs de tendance centrale
• les indicateurs de dispersion
• les indicateurs de concentration
On étudiera aussi des indicateurs de prix qui jouent un rôle important en
économie.
Hormis les caractéristiques de position, les autres indicateurs ne concernent
que les variables quantitatives car ils sont calculés à partir des valeurs du car-
actère.
1
2 Caractéristiques de position
Les indicateurs de position fournissent des renseignements sur des variables aussi
bien qualitatives que quantitatives.
Les caractéristiques de position sont de deux types :
• certaines sont relatives aux effectifs : mode et classe modale ;
• d’autres sont relatives au rang occupé par les observations les unes par
rapport aux autres plutôt qu’à leur valeur.
Remarque : dans le cas d’une variable qualitative, il faut qu’elle soit or-
dinale, c’est-à-dire qu’on puisse ordonner les valeurs du caractère, si on veut
pouvoir parler de rang.
2.1 Mode
Le mode concerne les variables qualitatives ou quantitatives discrètes. Dans ce
cas, on dresse la table des effectifs qui dénombre les observations correspondant
à chaque modalité.
Par définition, le mode est la valeur (ou la modalité) de la variable qui
a l’effectif le plus élevé. Sur un diagramme en bâtons, c’est la modalité qui
correspond au bâton le plus haut.
• Exemple 1
Une enquête de satisfaction a attribué une note entre 1 et 10 pour évaluer
la qualité d’un service. Les résultats sont les suivants :
Note 1 2 3 4 5 6 7 8 9 10
Effectifs 5 3 4 7 8 10 15 11 6 6
Il s’agit d’une variable quantitative discrète. Le mode est 7.
Le diagramme en bâtons fait clairement apparaître le mode.
2
14
12
10
8
6
4
2
0
1 2 3 4 5 6 7 8 9 10
• Exemple 2
Ménages selon la structure familiale.
Données INSEE pour 2011 (RP2011).
Ici les données sont en effectifs. Il s’agit d’une variable qualitative. Le mode
est “couple avec enfant(s)”.
• Exemple 3
Répartition des résidences principales par statut d’occupation (en %).
Données INSEE pour 2013.
Propriétaires 57,9
Locataires 39,1
Autres 3,0
3
Le mode n’est pas nécessairement unique. La notion de maximum est une
propriété dite locale plutôt que globale. Si le diagramme en bâtons a la forme
suivante, on voit apparaître deux modes et on dit, dans ce cas, que la distribution
est bimodale.
14
12
10
8
6
4
2
0
1 2 3 4 5 6 7 8 9 10
ni
di =
ai
Par définition, la classe modale est celle de plus forte densité. Graphique-
ment, on la repère sur un histogramme comme étant celle dont le rectangle est
le plus haut.
• Exemple
Une entreprise s’intéresse à la distance parcourue par les employés entre le
domicile et le lieu de travail. On a noté les effectifs suivants :
Kilométrage [0,10[ [10,20[ [20,30[ [30,40[ [40,50[ [50,60[ [60,70[
Effectifs 14 23 32 21 12 8 4
Ici toutes les classes sont de même amplitude. La classe modale est [20, 30[.
4
• Exemple
Répartition par âge des salariés de 15 ans ou plus
Données INSEE RP2011.
Les classes sont de longueur inégale. On doit calculer les amplitudes et les
densités.
La classe modale est celle des “40 à 54 ans”.
Remarque :
dans la table précédente, on a fixé l’amplitude de la classe des “65 ans et
plus” à 5. C’est ce qu’on appelle une estimation a maxima. On ne peut pas
dire quel est l’âge maximum d’un salarié mais on sait qu’il existe des salariés
de 70 ans, donc la borne supérieure est au moins de 70 et, en divisant par cette
amplitude (70-65=5), on obtient une valeur qui est un majorant la densité.
2.3 Médiane
La notion de médiane concerne les variables quantitatives.
Définition 2.1. La médiane est une quantité qui partage les observations en
deux groupes de même taille.
C’est donc une valeur M (parfois aussi notée Me) telle qu’il y ait 50% des
observations pour lesquelles le caractère observé X est inférieur à M et 50%
des observations pour lesquelles le caractère observé X est supérieur à M .
On peut écrire :
P (X ≤ M ) = 0.5
On reconnaît la définition des proportions cumulées.
• Exemple 1
On a relevé les notes de 9 étudiants à un examen :
5
La valeur M = 11 est la médiane car elle sépare les données en deux groupes
de même taille.
• Exemple 2
On ajoute un dixième étudiant qui a obtenu 12 :
11,5 7 16 14 8,5 10,5 13 11 5 12
6
80
50 − 45.74 M − 20
=
62.92 − 45.74 50 − 20
70
62.92 %
Proportion cumulée
60
50 %
50
45.74 %
40
20 M 50
30
0 10 20 30 40 50 60
SAU
On calcule
50 − 45.74 M − 20
=
62.92 − 45.74 50 − 20
On en déduit :
4.26 M − 20
=
17.18 30
Finalement :
4.26 × 30
M = 20 + = 20 + 7.44 = 27.44 ha
17.18
2.4 Quartiles
La notion de quartiles concerne les variables quantitatives.
Définition 2.2. Les quartiles sont trois quantités qui partagent les observations
en quatre groupes de même taille.
P (X < Q1 ) = 0.25
P (Q1 < X < Q2 ) = 0.25
P (Q2 < X < Q3 ) = 0.25
P (X > Q3 ) = 0.25
7
En utilisant les proportions cumulées, c’est équivalent à dire que :
P (X < Q1 ) = 0.25
P (X < Q2 ) = 0.50
P (X < Q3 ) = 0.75
Q2 = M
• Exemple 1
Cet exemple a déjà été vu dans la séance 01. On a relevé les poids suivants
(en kg) parmi 100 individus :
64 85 79 84 68 74 94 75 64 65
72 74 78 69 67 64 70 63 69 82
62 64 71 74 77 73 77 76 82 82
86 48 50 69 76 59 70 61 55 77
73 81 76 56 63 84 63 57 76 86
62 70 69 66 63 90 72 73 73 76
75 70 68 66 74 66 52 66 81 57
77 79 55 69 78 60 85 70 67 64
76 78 65 81 69 76 72 71 74 58
67 76 74 78 79 69 92 64 73 65
On doit d’abord ordonner les poids :
48 50 52 55 55 56 57 57 58 59
60 61 62 62 63 63 63 63 64 64
64 64 64 64 65 65 65 66 66 66
66 67 67 67 68 68 69 69 69 69
69 69 69 70 70 70 70 70 71 71
72 72 72 73 73 73 73 73 74 74
74 74 74 74 75 75 76 76 76 76
76 76 76 76 77 77 77 77 78 78
78 78 79 79 79 81 81 81 82 82
82 84 84 85 85 86 86 90 92 94
On a fait apparaître les valeurs situées en positions 25-26, 50-51 et 75-76.
Ce sont des intervalles quartiles. Il faut en prendre le milieu. Par exemple,
(
poids[25] = 65
=⇒ Q1 = 65
poids[26] = 65
8
(
poids[50] = 71
=⇒ Q2 = 71, 5
poids[51] = 72
De même, on trouve Q3 = 77. On peut dire que 50% des personnes observées
pèsent entre 65 et 77 kilos.
• Exemple 2
Distribution du revenu salarial annuel par sexe ou catégorie socioprofession-
nelle sur l’ensemble des salariés en 2010.
Source INSEE (DADS 2010 définitif). Montants en euros courants.
Q1 Q2 Q3
Ensemble 9 370 17 510 24 590
Femmes 7 930 15 910 22 270
Hommes 11 460 19 060 26 820
Cadres 24 420 33 650 46 350
Professions intermédiaires 16 130 22 400 27 870
Employés 6 010 14 060 18 640
Ouvriers 7 410 15 580 20 000
9
La médiane, les quartiles, les déciles et les centiles s’appellent de manière
générale des quantiles.
En généralisant leur définition on obtient la notion de quantile d’ordre α%.
C’est une quantité qα telle que α% des valeurs observées soient inférieures à qα .
Autrement dit, on écrit :
P (X < qα ) = α/100
x1 + x2 + · · · + xN
m=
N
10
Si on ordonne ces notes par ordre croissant, le calcul précédent peut s’écrire
de la manière suivante :
0+1+2+2+2+2+2+2+3+3+3+3+3+3+3+3+4+4+4+4
m=
20
0 + 1 + (2 + 2 + 2 + 2 + 2 + 2) + (3 + 3 + 3 + 3 + 3 + 3 + 3 + 3) + (4 + 4 + 4 + 4)
=
20
1×0+1×1+6×2+8×3+4×4
=
20
1 + 12 + 24 + 16
=
20
53
= = 2, 65
20
n 1 v1 + n 2 v2 + · · · + n k vk
m=
N
avec N = n1 + n2 + · · · + nk .
Exercice
On a relevé pendant un mois dans une entreprise le nombre d’absences ré-
sultant d’arrêts-maladies :
Durée en jours 1 2 3 4 5 6 7 8
Effectifs 7 9 4 4 6 5 2 1
Calculer la durée moyenne d’un arrêt-maladie.
• Corrigé
L’effectif total est de 38. On applique la formule en données regroupées :
7×1+9×2+4×3+4×4+6×5+5×6+2×7+1×8
m=
38
135
=
38
≈ 3, 55
11
En partant de la formule en données regroupées et en divisant chaque terme
par N , on obtient :
n 1 v1 + n 2 v 2 + · · · + n k vk
m=
N
n1 n2 nk
= v1 + v2 + · · · + vk
N N N
= f1 v1 + f2 v2 + · · · + fk vk
où fi = nNi est la fréquence.
Donc, lorsqu’on a un tableau de proportions (et non plus d’effectifs), la
formule pour la moyenne est :
m = f1 v1 + f2 v2 + · · · + fk vk
Dans le cas d’une variable continue regroupée en classes, on utilise les milieux
des classes pour faire les calculs.
• Exemple
Le tableau suivant donne la répartition des employés d’une entreprise selon
le salaire mensuel en milliers d’euros. Calculer la moyenne.
12
Avec des données regroupées dans un tableau d’effectifs, la formule s’écrit
de la manière suivante :
N1 q
m0 = v1n1 v2n2 . . . vknk = N v1n1 v2n1 . . . vknk
Exercice
Les dépenses de consommation des ménages au cours des deux derniers
trimestres de 2013 et des deux premiers trimestres de 2014 ont évolué de la
manière suivante :
2013 T3 2013 T4 2014 T1 2014 T2
Conso. ménages -0,1% 0,2% -0,5% 0,5%
Source : note de conjoncture INSEE.
Montrer que le coefficient multiplicateur moyen est la moyenne géométrique
des coefficients multiplicateurs de chaque trimestre.
• Corrigé
Pour un taux d’accroissement r, le coefficient multiplicateur est (1 + r). On
applique donc successivement les taux multiplicateurs en multipliant par :
et donc 1/4
1 + t = 0, 999 × 1, 002 × 0, 995 × 1, 005
C’est bien la formule de la moyenne géométrique. Numériquement on trouve :
13
La formule pour des données exhaustives est :
12 r
x21 + x22 + · · · + x2N x21 + x22 + · · · + x2N
m2 = =
N N
12 r
n1 v12 + n2 v22 + · · · + nk vk2 n1 v12 + n2 v22 + · · · + nk vk2
m2 = =
N N
21 q
m2 = f1 v12 + f2 v22 + · · · + fk vk2 = f1 v12 + f2 v22 + · · · + fk vk2
Exercice
Un paysan possède 5 parcelles carrées dont le côté mesure respectivement
1,2 1,5 2,3 4,7 5,1
Il voudrait les échanger contre cinq parcelles carrées identiques pour une
même surface totale. Monter que l’arête des nouvelles parcelles est la moyenne
quadratique des 5 arêtes.
Attention : l’arête des nouvelles parcelles n’est pas la moyenne arithmé-
1, 2 + 1, 5 + 2, 3 + 4, 7 + 5, 1
tique des cinq arêtes = 2.96.
5
• Corrigé
Si a est l’arête recherchée, on doit avoir, en écrivant l’égalité des surfaces :
5 a2 = 1, 22 + 1, 52 + 2, 32 + 4, 72 + 5, 12
On en déduit :
1, 22 + 1, 52 + 2, 32 + 4, 72 + 5, 12
a2 =
5
et donc : 1/2
1, 22 + 1, 52 + 2, 32 + 4, 72 + 5, 12
a=
5
ce qui est bien la formule de la moyenne quadratique.
Les calculs donnent
1/2 r
1, 44 + 2, 25 + 5, 29 + 22, 09 + 26, 01 57, 08
a= = ≈ 3, 38
5 5
14
3.4 Moyenne d’ordre p
La moyenne quadratique se généralise sans difficulté au cas de la puissance p
(au lieu de la puissance 2). On obtient alors la moyenne d’ordre p qui est notée
en général mp .
Il s’agit de prendre la moyenne des puissances p-ièmes des valeurs. Mais
comme on s’attend à ce qu’une moyenne soit exprimée dans la même unité que
les grandeurs elles-mêmes, il faut prendre la racine p-ième du résultat.
La formule pour des données exhaustives est :
p1 r
xp1 + xp2 + · · · + xpN xp1 + xp2 + · · · + xpN
p
mp = =
N N
p1 r
n1 v1p + n2 v2p + · · · + nk vkp n1 v1p + n2 v2p + · · · + nk vkp
p
mp = =
N N
1
q
mp = (f1 v1p + f2 v2p + · · · + fk vkp ) p = p
f1 v1p + f2 v2p + · · · + fk vkp
Exercice
(emprunté à M. Crawley, Statistics: An Introduction using R, Ed. Wiley,
2005)
Un éléphant habite dans un enclos carré d’un kilomètre de côté. Il en fait
le tour tous les jours de la manière suivante : il parcourt le premier côté à la
15
vitesse de 1 km/h, puis le deuxième côté à la vitesse de 2 km/h, le troisième
côté à la vitesse de 4 km/h, et le dernier côté à la vitesse de 1 km/h.
Quelle est sa vitesse moyenne ?
Attention : nous allons voir que ce n’est pas la moyenne arithmétique des
1+2+4+1
quatre vitesses = 2.
4
• Corrigé
d
La vitesse est la distance divisée par le temps : v = .
t
On sait que la distance parcourue est de d = 4 kilomètres (c’est le périmètre
de l’enclos).
Le temps mis à en faire le tour est la somme des temps mis à parcourir chaque
arête : 1 heure pour le premier côté, 1/2 heure pour le deuxième, 1/4 heure pour
le troisième, 1/2 heure pour le dernier. D’où le temps total :
t = 1 + 1/2 + 1/4 + 1 = 11/4
Finalement :
d 4
v= =
t 1/1 + 1/2 + 1/4 + 1/1
C’est la formule de la moyenne harmonique ! Numériquement, on trouve
v = 16/11 ≈ 1, 45 km/h.
Exercice
Calculer les moyennes m−1 , m0 , m1 , m2 , m3 des nombres 7, 8, 9, 10.
• Corrigé
On trouve :
m−1 = 8, 351284
m0 = 8, 425732
m1 = 8, 5
m2 = 8, 573214
m
3 = 8, 644585
et on constate effectivement que ces valeurs vont en croissant :
m−1 < m0 < m1 < m2 < m3
16