Statistique Descriptive
Statistique Descriptive
Statistique Descriptive
Fabrice MAZEROLLE
Professeur de sciences économiques
Université Paul Cézanne
Notes de cours
2
Résumé du cours
3
Note sur les calculs et les arrondis : Dans le cours qui suit, pour limiter les erreurs
déjà trop nombreuses, les calculs sont toujours effectués à la machine ou avec un
logiciel (EXCEL le plus souvent). Les résultats finaux imprimés sont presque
toujours arrondis pour faciliter la lecture. Cependant lorsqu’un résultat nécessite
plusieurs calculs intermédiaires, les calculs intermédiaires sont évidemment
effectués par la machine ou par le logiciel en conservant toutes les décimales (dans
la limite des capacités de la machine ou du niveau de précision choisi ou fixé par
défaut), seul le dernier résultat étant arrondi « au plus proche » (méthode de
l’arrondi arithmétique).
Par exemple, 3,046 arrondis aux centièmes valent 3,05 (le chiffre suivant (6) est
supérieur à 5).
Voici d'autres exemples en ne gardant qu'un seul chiffre significatif après la virgule :
Cette méthode est celle appliquée par défaut dans le logiciel « EXCEL 2007 » quand
on choisit le nombre de décimales à partir des icônes ci-après :
Voir l’article Wikipédia sur la notion d’arrondi pour un aperçu des autres méthodes
d’arrondi : http://fr.wikipedia.org/wiki/Arrondi
Les machines à calculer étant autorisées à l’examen, les étudiants sont invités à
appliquer aussi cette méthode.
4
Sommaire
Bibliographie
5
Chapitre 1
Vocabulaire de la statistique descriptive
0 – Introduction
2 – Terminologie
A – Population et unités statistiques
B – Echantillons et sous-ensembles d’une population
1) Echantillon et population
2) Répartition des unités statistiques selon différents critères
C - Critères de classification
1) Critères quantitatifs
2) Critères qualitatifs
4 – Résumé
0 – Introduction
6
La statistique, qu’elle soit descriptive ou mathématique, est employée dans toutes
les sciences, ainsi que dans la vie quotidienne. Son utilisation très intensive dans le
champ de l’économie a fait naître une nouvelle expression : L’économétrie.
L’économétrie est l’application de la statistique (descriptive et mathématique) à la
mesure et à l’étude chiffrée des grandeurs économiques. De la même façon, on
emploie parfois l’expression (un peu vieillie) de « sociométrie », pour parler de
l’application de la statistique (descriptive et mathématique) à la mesure et à l’étude
chiffrée des grandeurs sociologiques
2 - Terminologie
7
La statistique sert à décrire l'ensemble des unités statistiques qui composent la
population. On commence par compter ces unités. La première information
statistique que l'on tire d'une population est en effet le nombre de ses unités.
8
B – Echantillons et sous-ensembles d’une population
1) Echantillon et population
Il est fréquent que l’on prélève un échantillon dans une population statistique. Le
diagramme d’EULER ci-après décrit le lien entre l’échantillon et la population.
Par ailleurs, il est fréquent aussi que l’on divise une population en sous-ensembles
au moyen de certains critères (ou dimensions ou encore caractéristiques).
Prenons pour exemple la population des 35 pays du tableau 1. Ces 35 pays sont les
unités statistiques du tableau. Nous souhaitons par exemple « découper » cette
population entre trois sous ensembles, suivant les critères de la monnaie utilisée et
l’appartenance à l’UE 27.
On aura donc, comme l’illustre le schéma ci-après :
• 16 pays membres de l’UE 27 qui font partie de la zone Euro au 1er janvier
2009,
• 11 pays membres de l’UE à 27 qui ne font pas (encore) partie de la zone Euro
au 1er janvier 2009
• 8 pays partenaires de l’UE 27 et qui utilisent d’autres monnaies.
C - Critères de classification
Nous avons vu dans l’exemple précédent que les unités statistiques d’une population
pouvaient être regroupées suivant des dimensions ou critères. Ces critères sont
choisis en fonction de ce qui intéresse le statisticien.
10
On distingue deux sortes de critères :
1) Critères quantitatifs
Les critères quantitatifs sont les critères qui sont représentés par des nombres et
sur lesquels les opérations arithmétiques de base ont un sens. Les critères
quantitatifs sont souvent appelés variables.
Par exemple, dans le tableau 1 , on peut voir que la superficie est un critère de
classification quantitatif. C’est une variable dont les différentes occurrences sont
des valeurs. Chacune des 35 unités statistiques de notre population est caractérisée
par une valeur différente. La superficie est donc, dans notre cas particulier, une
variable qui prend 35 valeurs différentes. C’est un cas particulier dans lequel le
nombre de valeurs de la variable est égal au nombre des unités statistiques de la
population. Nous verrons que dans des cas de ce type (ou bien lorsque le nombre de
valeurs possibles, bien qu’inférieur au nombre d’unités statistiques de la population,
est grand) un regroupement par classes de valeurs est généralement effectué.
Les critères quantitatifs ou « variables » permettent de faire des calculs. On peut par
exemple additionner les superficies, fa ire le rapport de la plus grande superficie à la
plus petite, calculer des moyennes, etc.
2) Critères qualitatifs
Les critères qualitatifs sont tous les critères qui ne sont pas représentés par des
nombres 1. Pour les distinguer des variables, on les appelle des « caractères ». Les
caractères prennent des modalités.
Par exemple, dans le tableau 1, on peut voir que la monnaie utilisée dans chaque
pays est un critère qualitatif qui possède 20 modalités. Ces modalités sont les
différentes monnaies. Il y a en effet 16 pays qui ont la modalité « euro » et les 19
autres qui ont chacun pour modalité une monnaie différente. On voit donc dans cet
exemple que le nombre de modalités (20) est inférieur à celui de la population (35).
1
Ou qui sont parfois codés par des nombres sur lesquels les opérations arithmétiques de base n’ont
pas de sens (ou un sens très limité). Il est fréquent par exemple de coder des opinions.
11
3 - Modes de regroupement des unités statistiques
A - Série simple
Le tableau 1 est un tableau dans lequel les données n’ont pas été regroupées. C’est
un tableau de données brutes. Nous pouvons lire pour chaque ligne les différentes
valeurs ou modalités des variables ou des caractères associés à chacune des 35
unités statistiques de la population. Chaque colonne correspond à une série
simple de valeurs ou de modalités.
Mais une présentation exhaustive, dans laquelle aucun regroupement n’est effectué,
n’est pas toujours pratique. Le plus souvent les données sont collectées et entrées
dans l’ordinateur sous forme d’un tableau brut), puis elles sont regroupées.
2
La valeur « 7 » étant associée à un effectif nul, on peut décider de l’inclure (et dans ce cas il y a 9
valeurs) ou de ne pas l’inclure (et dans ce cas il y a 8 valeurs). Si la nomenclature des valeurs de la
variable est amenée à servir pour plusieurs populations successives (ou une même population à
différents temps), il vaut sans doute mieux, pour faire d’éventuelles comparaisons entre les
populations ou les temps, inclure toutes les valeurs, y compris celles associées à un effectif nul, car
l’effectif associé à une valeur peut changer selon la population et/ou le temps. Mais ceci ne vaut que
si le nombre de valeurs possibles de la variable n’est pas trop important (sinon il faut procéder à un
regroupement par classes de valeurs), dénombrable et fini. C’est le cas pour la variable « nombre de
frontières ». Cependant, certaines variables peuvent avoir un nombre infini (dénombrable ou
indénombrable) de valeurs. Elles sont alors dites continues (par opposition aux variables non
continues qui sont dites « discrètes » du fait d’une traduction abusive de l’anglais). Cependant, les
populations (population = base de données) étudiées concrètement (populations pour lesquelles des
données quantitatives ont été réunies) sont toujours finies. Par conséquent, au sein d’une base de
données, le nombre effectif de valeurs (c’est –à-dire le nombre de valeurs au sein de la population
associées à un effectif non nul) qu’une variable peut prendre est toujours dénombrable et fini et au
maximum égal au nombre d’unités statistiques contenues dans la base de données (ou population).
En effet, chaque unité statistique ne peut être caractérisée que par une seule valeur de la variable et
donc le maximum que l’on puisse avoir est une distribution où chaque valeur a pour effectif 1, ce qui
correspond au cas où chaque unité statistique est caractérisée par une valeur différente de la
variable. La distinction entre variable discrète et variable continue s’appuie aussi sur une autre
justification, que nous mentionnons bien qu’elle nous paraisse source de confusion : une variable est
dite à valeurs discrètes lorsque les valeurs peuvent être comptées et est dite à valeurs continues
lorsque les valeurs peuvent être mesurées. En se référant à cette distinction, on dira alors que le
nombre de pièces d’un appartement est une variable discrète car on peut compter le nombre de
pièces. En revanche, si on veut savoir combien mesure chaque personne d’un échantillon ou d’une
population, on procédera à une mesure de la taille (idem pour le poids), mesure qui d’ailleurs sera
toujours imprécise, car relative à l’instrument de mesure utilisé.
12
1) Distribution par valeurs
Distribution des pays des pays du tableau 1 selon leur nombre de frontières
terrestres avec les pays de l’UE à 27
Dans le tableau 1, nous allons choisir la monnaie officielle utilisée dans chaque pays
comme critère qualitatif pour effectuer un regroupement par modalités. Au 1er
janvier 2009, 16 sur les 35 pays sont dans la zone euro et les 19 autres utilisent leur
monnaie nationale. Dans ces conditions, un regroupement par modalités, quoique
peu utile, donnerait le résultat suivant :
13
C - Regroupement par catégories
1) Catégories de valeurs
14
Regroupement des pays par catégories de superficies
Découpage du monde en zones selon les catégories de l’OMC
A noter qu’il s’agit bien d’un regroupement par catégories de modalités car chaque
pays est en lui-même une modalité.
4 – Résumé
La statistique mathématique s'appuie sur la statistique descriptive, ainsi que sur les
probabilités pour formuler des lois à partir de l'observation d'échantillons.
Par ailleurs, il est fréquent aussi que l’on divise une population en sous-ensembles
au moyen de certains critères (ou dimensions ou encore caractéristiques).
Les unités statistiques d’une population peuvent être représentées sous forme d’une
série simple ou regroupées. Lorsqu’elles sont regroupées on les appelle des
distributions.
Les unités d’une population peuvent être distribuées par valeurs (lorsque le critère
de regroupement est numérique) ou distribuées par modalités (lorsque le critère
de regroupement n’est pas numérique). On peut aussi effectuer des regroupements
par catégories (ou classes) de valeurs ou par catégories (ou classes) de
modalités.
18
Chapitre 2
Les tableaux statistiques
0 – Introduction
2 – Tableaux unidimensionnels
A –Tableaux avec chiffres bruts
B – Tableaux avec pourcentages
C – Tableaux avec cumuls
1) Cumuls des données brutes
2) Cumuls des pourcentages
6 – Résumé
19
0 – Introduction
Les tableaux sont un moyen souvent indispensable, en tous cas très utile, de
classification et de présentation des unités d’une population statistique.
Avant même d’être présentées sous forme de tableau, les données sont parfois
présentées sous forme de séries brutes ou de vecteurs.
S1 est une série non classée. Considérons maintenant la série S2, qui elle, est une
série classée par ordre croissant
S2 : {0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 4,
5, 5, 6, 8}
S3 = {{Allemagne, 8}, {Belgique, 4}, {France, 5}, {Italie, 3}, {Luxembourg, 3}, {Pays-
Bas, 2}, {Danemark, 1}, {Irlande, 1}, {Royaume-Uni, 1}, {Grèce, 1}, {Espagne, 2},
{Portugal, 1}, {Autriche, 6}, {Finlande, 1}, {Suède, 1}, {Chypre, 0}, {Estonie, 1},
{Hongrie, 4}, {Lettonie, 2}, {Lituanie, 2}, {Malte, 0}, {Pologne, 4}, {République
tchèque, 4}, {Slovaquie, 4}, {Slovénie, 3}, {Bulgarie, 2}, {Roumanie, 2}, {Suisse, 4},
{Etats-Unis, 0}, {Chine, 0}, {Inde, 0}, {Japon, 0}, {Russie, 5}, {Taiwan, 0}, {Hong
Kong, 0}}
20
Enfin, la série S4 ci-dessous est une série identifiée et classée par ordre croissant
du nombre de frontières terrestres avec d’autres pays de l’UE à 27 :
2 – Tableaux unidimensionnels
La présentation sous forme de série est utile pour certains calculs, mais on utilise
bien plus fréquemment les tableaux pour présenter les caractéristiques des unités
d’une population statistique.
Le tableau est un outil statistique plus rébarbatif que le graphique. Néanmoins, pour
des études précises, le tableau est souvent nécessaire et même parfois plus utile
que le graphique.
En outre, une remarque simple s’impose ici : si l’on dispose d’un tableau, on peut
faire un graphique. Inversement, si l’on dispose seulement d’un graphique, on ne
peut pas revenir au tableau initial (ou très rarement). Le graphique est ainsi très
utilisé par ceux qui veulent conserver le monopole d’une base de données tout en
« révélant » publiquement son contenu (généralement pour en tirer un profit
commercial ou de notoriété).
Le tableau 1 est un tableau de chiffres bruts qui contient plusieurs séries de chiffres
caractérisant une population de 35 unités statistiques. C’est un tableau exhaustif (il
révèle intégralement la base de données).
Cette dernière présentation s’avère souvent peu commode (ou trop commode, c’est
selon) et l’on préfère de ce fait la présentation sous forme de pourcentages et/ou de
cumuls.
21
B - Tableaux avec pourcentages
Partant du tableau des superficies regroupées, ajoutons une colonne dans laquelle
les chiffres bruts sont présentées en pourcentages comme ci-dessous :
On peut aussi ajouter des colonnes avec les cumuls. Une colonne où les chiffres
bruts sont cumulés et une autre où ce sont les pourcentages qui sont cumulés.
22
2) Cumuls des pourcentages
Parfois, on préfère résumer une série de chiffres par son total, par sa moyenne, par
ses valeurs extrêmes, ou par différentes autres statistiques que nous étudierons
dans le chapitre 3. Le tableau ci-après indique les moyennes simples (voir le
chapitre 5 pour une définition plus précise de la moyenne simple) de certaines des
variables du tableau 1, ainsi que les valeurs minimales et maximales pour les séries
correspondantes.
Note : La moyenne simple des superficies n’est pas reportée car la dispersion est trop grande pour
que la moyenne ait un sens.
23
4 -Tableaux croisés à deux dimensions
A – Définition et exemple
1) Définition
Les tableaux croisés sont appelés ainsi car ils « croisent » deux distributions au
sein d’un même tableau. Les possibilités de croisement sont multiples. En fait,
comme l’illustre le tableau synoptique ci-après, il y a 16 possibilités.
2) Exemple
a) Effectifs
Dans le tableau croisé ci-après nous allons illustrer le cas numéro 6 (croisement de
deux variables regroupées par catégories de valeurs). Les variables « Age médian »
et « Indice de fécondité » du tableau 1 ont en effet été regroupées par catégories de
valeurs puis croisées dans le tableau. On a choisi de mettre les catégories d’âges
médians en lignes et les catégories d’indices de fécondité en colonne, mais l’inverse
aurait également été possible sans que cela ne change la signification du tableau.
24
Pour construire ce tableau à partir des données du tableau 1, on procède ainsi :
2) Classement des valeurs d’une des deux séries. Choisissons par exemple la
série des indices de fécondité et classons-là par ordre croissant.
3) Formation des catégories (ou classes) de valeurs. Il s’agit d’un choix arbitraire.
Pour simplifier, nous allons former les catégories suivantes, d’égales amplitudes :
25
On forme les 3 groupes de fécondité, en utilisant par exemple des couleurs
différentes pour chaque groupe. Ensuite, il suffit de compter pour chaque groupe,
combien de pays ont un âge médian compris dans les trois catégories d’âge médian
que nous avons défini : [20-30 ans [ ; [30-40 ans [ ; [40-50]
b) Pourcentages
Ce tableau peut être mis sous forme de pourcentages en divisant chacun des 9
chiffres par 35 et en multipliant par 100. On obtient alors une distribution croisée des
35 pays en fonction de l’âge médian et de l’indice de fécondité, mais contrairement
au cas précédent, cette distribution croisée est exprimée en pourcentages
B – Distributions marginales
1) Définition
Lorsqu’on ajoute au tableau croisé une colonne pour la somme des valeurs en ligne
et une ligne pour la somme des valeurs en colonnes, on appelle cette colonne et
cette ligne les distributions marginales.
26
2) Exemple
a) Effectifs
27
b) Pourcentages
C – Distributions conditionnelles
1) Colonnes
a) Effectifs
28
La distribution par catégories d’âge de fécondité des 20 pays dont l’âge médian est
dans l’intervalle [30-40 ans [est appelée distribution conditionnelle en colonne.
L’expression conditionnelle provient du fait que les 20 pays concernés sont une
sous-population de la population totale et que cette sous-population correspond à
tous les pays qui répondent à la condition « être dans l’intervalle [30-40[ des âges
médians ».
b) Pourcentages
Dans chaque colonne, l’effectif initial a été divisé par le chiffre correspondant de la
sous population de pays associés à la catégorie d’âge médian correspondante.
2) Lignes
a) Effectifs
29
de ces pays par catégories d’âges de fécondité est ensuite donnée par la ligne
encadrée.
b) Pourcentages
30
5 – Tableaux croisés ayant plus de 2 dimensions
• Pays
• Genre de la compétition (hommes, femmes, mixte)
• Type de médaille (or, argent, bronze).
31
(Tableau des médailles JO de Pékin - Suite)
http://results.beijing2008.cn/WRM/FRE/INF/GL/95A/GL0000000.shtml
32
B - Un exemple de tableau à 4 dimensions : le naufrage du TITANIC
(*) Le nombre total de personnes présentes à bord du TITANIC au moment du naufrage, pas plus
que le nombre exact de personnes décédées, ne sont connus avec certitude. En outre, le sexe des
personnes a parfois été établi uniquement à partir du prénom.
Source du tableau: Michael FRIENDLY, Visualizing Categorical Data: Data, Stories, and Pictures,
http://www.math.yorku.ca/SCS/vcd/vcdstory.pdf. Des chiffres légèrement différents sont présentés
dans l’article que Wikipedia consacre au naufrage : http://fr.wikipedia.org/wiki/Naufrage_du_Titanic
6 – Résumé
Avant même d’être présentées sous forme d’un tableau, les données sont traitées
et parfois présentées sous forme de séries brutes ou de vecteurs. Les séries
brutes peuvent être classés (par ordre croissant ou décroissant) ou non classées,
identifiées ou non identifiées.
Les tableaux peuvent être présentés sous forme de données brutes non groupées ou
groupées, ou sous forme de pourcentages et/ou de cumuls.
Il existe aussi des tableaux qui proposent des statistiques résumées plutôt que de
recenser les unités statistiques elles-mêmes.
Les tableaux à deux dimensions, appelés tableaux croisés, permettent d’étudier les
distributions marginales et les distributions conditionnelles.
33
Les distributions marginales d’un tableau croisé à deux dimensions sont au
nombre de deux et s’obtiennent en ajoutant au tableau croisé une colonne pour la
somme des valeurs en ligne et une ligne pour la somme des valeurs en colonnes.
34
Chapitre 3 : Statistiques permettant de résumer une série
0 – Introduction
1 - Les statistiques de tendance centrale
A- Le mode
1) Définition
2) Remarques à propos du mode
a) Une série peut avoir plusieurs modes
b) Le mode n'existe pas forcément
c) Le mode n'est pas forcément la valeur la plus élevée
d) Variables et caractères peuvent avoir un mode
e) Mettre la série sous forme de distribution pour repérer le mode
B - La moyenne arithmétique
1) La moyenne arithmétique simple
2) La moyenne arithmétique pondérée
3) Calcul de la moyenne sur des données catégorielles
C - La médiane
1) Origine du mot, sens géométrique
2) Sens du mot en statistique descriptive
3) Méthode de calcul
a) n est pair
b) n est impair
2 - Les statistiques de dispersion
A - Minimum, maximum, intervalle de variation et rapport de variation
1) Minimum et maximum d’une série
2) Intervalle de variation ou étendue
3) Rapport de variation
B - Intervalle interquartile
C - Variance, écart-type et coefficient de variation
1) La variance
a) Définition
b) Exemple
c) Utilité de la variance
2) L'écart-type
a) Définition
b) Méthode de calcul
c) Utilité de l’écart-type
3) Le coefficient de variation
3 - Résumé
35
0 – Introduction
o mode,
o moyenne
o médiane.
o l’écart-type,
o de la variance
o du coefficient de variation3.
3
Il existe aussi des statistiques qui résument la « forme » d’une distribution, mais celles-ci ne sont
plus guère utilisées aujourd’hui dans la mesure où il est plus facile d’observer directement le
graphique d’une distribution pour en apprécier la forme que de calculer des coefficients dont
l’interprétation est fastidieuse.
36
Une dernière remarque : bien qu’il soit possible d’effectuer des calculs de
statistiques résumées (moyenne, médiane, mode, etc.) sur les données groupées en
catégories, c’est fortement déconseillé de le faire quand on dispose des données
brutes ou regroupées par valeurs ou modalités 4. C’est une question de bon sens.
Si l’on effectue les calculs sur des données regroupées par catégories, on obtient
des résultats approximatifs et même carrément faux quand on les compare aux
calculs effectués sur les données brutes (sans parler des formules abstruses et
abscondes qu’il faut employer pour effectuer les calculs de moyennes, médianes,
quartiles ou variance sur des données catégorielles). Les méthodes de calcul sur les
données groupées plutôt que sur les données brutes n’ont plus leur place dans la
statistique moderne alors même que l’informatique se charge des calculs pour un
nombre arbitrairement grand de valeurs.
A – Le mode
1) définition
Le mode d'une série est la valeur ou la modalité qui revient le plus fréquemment
dans la série ou la distribution.
La valeur la plus fréquente de cette série est 4. Le mode est donc égal à 4. L'effectif
associé à ce mode est 3.
C'est le cas lorsque toutes les valeurs ont le même effectif comme dans l'exemple
suivant : {8,6,5,7,3,1}. Dans ce cas, on peut aussi dire que toutes les valeurs sont
modales.
Il ne faut pas confondre le mode, qui est la valeur la plus fréquente, avec la valeur la
plus élevée de la série. Dans la série {8, 6, 5, 7, 3, 1}, il n'y a pas de mode, mais la
4
Ce qui est normalement le cas, sauf situation particulière, lorsque les données de départ ont été
perdues – cas d’école autrefois utilisé pour compliquer malicieusement les exercices d’examen.
37
valeur la plus élevée est 8. Il peut arriver que le mode soit aussi la valeur la plus
élevée, mais ce n’est alors qu’une coïncidence.
La notion de mode existe aussi bien dans le cas d’une série qui se rapporte à une
variable que dans le cas d’une série qui se rapporte à un caractère.
Pour détecter le mode, il est souvent plus facile de distribuer les éléments de la série
par valeurs (ou par modalités). Soit la série « nombre de frontières terrestres avec
d’autres pays de l’UE à 27 » extraite du tableau 1 :
Nous avons vu dans le chapitre 1 que cette série peut être mise sous forme d’une
distribution par valeurs de la façon suivante :
Nous voyons alors plus facilement quels sont les deux modes de la série.
B - La moyenne arithmétique
Le mot moyenne a pour origine le latin "médius», mot signifiant "qui est au milieu".
"Médius" est aussi l'origine du mot "médiane". Pourtant, en statistique, les deux mots
conduisent à des définitions différentes. Ceci nous laisse supposer que la notion de
milieu n'est pas toujours facile à définir.
38
1) La moyenne arithmétique simple
(1)
(2)
Les différences entre la formule de la moyenne donnée en (1) et celle donnée en (2)
sont importantes à noter, quoique les deux formules donnent nécessairement le
même résultat.
39
• La première différence tient au fait que dans la formule (1) la somme se fait
sur les n unités statistiques, alors que dans la formule (2) la somme se fait sur
les k valeurs.
• La seconde différence tient au fait que dans la formule (1), chaque élément
additionné compte pour un, c'est-à-dire que la pondération est de 1. Dans la
formule 2, les pondérations sont différentes. La formule (1) est en fait un cas
particulier de la formule (2). En effet si n = k et que nj = 1 pour j = 1 à k alors
les deux formules sont identiques.
Sexe Effectifs
H 4
F 6
On peut calculer les fréquences associées à chaque modalité. On voit alors que la
modalité la plus fréquente est "F" (0,6 contre 0,4 pour la modalité "H"). Mais la notion
de moyenne arithmétique n'a pas de sens pour un caractère.
Ainsi que précisé dans l’introduction à cette section consacrée à la moyenne, il faut à
tout prix éviter de procéder à ce type de calcul. Nous ne le donnons ici qu’à titre
d’information. Lorsque l'on a une distribution par classes de valeurs, la moyenne se
calcule en prenant la formule de la moyenne pondérée et en remplaçant dans cette
formule "xj" par "cj", où cj représente le centre de la classe j, c’est-à-dire la
moyenne arithmétique des extrémités de classe. A défaut d'avoir une valeur xj on
prend "cj". Ceci explique que le calcul de la moyenne donne un résultat imprécis. On
va le voir dans les deux exemples suivants :
40
Exemple 1 : Supposons maintenant que seule la distribution par classe de valeurs
d'amplitudes égales nous soit donnée :
Classes nj
[0-2[ 4
[2- 4[ 10
[4- 6] 6
Pour calculer la moyenne, nous devons déterminer les centres de classe, puis faire
la somme des "nj x c j" et diviser par n. Autrement dit, nous devons appliquer la
formule :
cj (moyenne des
Classes nj extrémités de nj x cj
classe)
[0-2[ 4 1 4
[2- 4[ 10 3 30
[4- 6] 6 5 30
64
Et finalement :
Nous avons donc une marge d'erreur non négligeable par rapport à la vraie
moyenne, à savoir 2,7. La marge d'erreur en pourcentage est donnée par :
41
Exemple 2 : Supposons que l'on ait maintenant deux classes d'amplitudes inégales.
Le calcul se fait de la même façon, mais on obtient un résultat différent :
Classes nj cj nj x cj
[0-4[ 14 2 28
[4- 6] 6 5 30
58
On voit donc que chaque fois que l'on change les classes ou que l'on modifie leur
amplitude, on exerce un effet sur la moyenne par le jeu de la modification des
centres de classe. Il est donc facile de manipuler la moyenne en choisissant les
amplitudes de classe. C'est pourquoi il est recommandé de ne calculer la
moyenne à partir des centres de classe que lorsqu'on ne peut pas faire
autrement, c'est-à-dire lorsque l'on ne dispose pas des données brutes.
C - La médiane
Le mot « médiane » a pour origine le latin « médius», mot signifiant « qui est au
milieu ». « Médius » est aussi l'origine du mot "moyenne". Pourtant, en statistique,
les deux mots conduisent à des définitions différentes. Ceci nous laisse supposer
que la notion de milieu n'est pas toujours facile à définir.
42
2) Sens du mot en statistique descriptive
3) Méthode de calcul
a) n est pair
On a donc le tableau suivant (où les valeurs sont classées par ordre croissant):
Puisque n=20, n est pair. Donc n= 2k [soit k=n/2] donne ici k = 20/2 =10 et k+1 =
11. Les valeurs associées sont a(k) = 3 et a (k+1) = 3. Par conséquent :
43
On peut aussi appliquer la formule proposée par le tableur EXCEL (cf. la notice
technique sur le site de Microsoft : http://support.microsoft.com/kb/103493/fr 5).
g = [(1/2)(20-1)]+1=10,5
Me = 3 + [0,5(3-3)] = 3
5
La notice technique sur le site Internet de Microsoft ( http://support.microsoft.com/kb/103493/fr )
présente la formule différemment mais aboutit au même résultat.
44
b) n est impair
Dans ce cas la médiane est égale à a (k+1) où k est défini par (n-1)/2, soit n=
2k+1 et où a(k+1) est la valeur associée à k+1
Exemple : si l'on prend la série précédente mais que l'on enlève le 20ème élément, on
alors la série {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4} ou n = 19 et le tableau
suivant (où les valeurs sont classées par ordre croissant) :
Ici k= (n-1)/2= 9 [2k+1 = n donne donc 2k+1 = 19, puisque k=9]. Donc k+1 = 10.
On peut, comme dans le cas où n est pair, appliquer la formule proposée par le
tableur EXCEL et on obtiendra le même résultat.
45
2 - Les statistiques de dispersion
Revenons au tableau de statistiques résumées dans lequel figure, pour certaines des
variables du tableau 1, les valeurs minimale et maximale de la série.
Ces deux valeurs donnent une certaine idée de la dispersion. On voit par exemple
que les écarts entre les superficies des pays, de même que l’écart entre les
populations sont très importants.
Dans le tableau ci-après, l’intervalle de variation a été ajouté sur la dernière ligne
pour les 8 séries :
46
3) Rapport de variation
B - Intervalle interquartile
1) Quartiles
Les quartiles sont les trois valeurs qui partagent la population, dont les unités
statistiques ont préalablement été classées par ordre croissant de valeurs (de la
variable considérée), en quatre sous populations de même taille. On les désigne
respectivement par Q1, Q 2 et Q3.
47
2) Calcul des quartiles
On notera que Q2 = Me. Autrement dit, le deuxième quartile n’est autre que la
médiane que nous avons déjà étudiée. Il est important de noter qu’il n’existe pas
d’algorithme universellement accepté pour déterminer les quartiles Q1 et Q3.
Dans ce qui suit, nous utiliserons la formule employée par le logiciel EXCEL de
Microsoft6.
6
Voir la notice technique sur le site de Microsoft : http://support.microsoft.com/kb/103493/fr . La
notice présente la formule différemment mais aboutit au même résultat. Les principales autres
méthodes de calcul des quartiles sont résumées sur le site Mathworld. L’avantage de la méthode
Microsoft est qu’il n’est pas nécessaire d’appliquer une formule différente suivant que n est
pair ou impair.
Le logiciel Mathematica (version 6), détermine quant à lui les quartiles de la façon suivante :
48
Une fois que l’on a définit g, on peut en déduire k et f :
g = [(1/4)(20-1)]+1=5,75
Q1 = 2 + [0,75 x (2-2)] = 2
g = [(3/4) (n-1)] +1
Q3 = 4 + [0,25 x (4-4)] = 4
49
On peut suivre la formule sur le tableau ci-après :
3) Intervalle interquartile
IIQ = Q 3 - Q 1
7
C’est pour cette raison que les algorithmes de calcul diffèrent.
50
Tableau de statistiques résumées pour certaines des variables du tableau 1
Ces trois statistiques sont liées entre elles. Elles sont toutes les trois des indicateurs
de la dispersion d’une série par rapport à sa valeur moyenne. Le plus simple est de
commencer par l’étude de la variance.
1) La variance
a) Définition
Où :
51
b) Exemple
• Toujours se ramener à une série : par exemple, si au lieu d’avoir une série
on avait la distribution suivante :
• On obtient ainsi une série qui comprend des valeurs négatives (car certaines
valeurs de la variable sont inférieures à la moyenne et donc si on retranche la
moyenne elles deviennent négatives) et des valeurs positives (car certaines
valeurs de la variable sont supérieures à la moyenne et donc si on retranche
la moyenne elles restent positives).
• Diviser ensuite ce total par n, pour avoir en fait une sorte de moyenne. C’est
pour cela que l’on dit que la variance n’est finalement que « la moyenne du
carré des écarts à la moyenne ». Et l’on obtient la variance de notre série de
chiffres, soit ici :
52
Tableau pour la disposition du calcul de la variance
c) Utilité de la variance
La variance n’est pas d’une grande utilité en soi. On peut seulement dire que plus
elle est élevée, plus la dispersion autour de la moyenne est élevée. Mais comme les
écarts à la moyenne ont été élevés au carré, le chiffre obtenu, quoiqu’exprimé dans
l’unité de la variable, est généralement assez élevé et « encombrant ». C’est
pourquoi, on utilise surtout la variance comme calcul intermédiaire pour obtenir
l’écart-type et le coefficient de variation.
53
2) L’écart-type
a) Définition
b) Exemple
V(x)=1,81
c) Utilité de l’écart-type
De façon générale :
• si l’écart-type est faible, cela signifie que les valeurs sont assez concentrées
autour de la moyenne.
• si l’écart-type est élevé, cela veut dire au contraire que les valeurs sont plus
dispersées autour de la moyenne.
Exemple : Dans une usine, le fait d’avoir un écart-type aussi bas que possible peut
constituer un objectif de contrôle de qualité. Soit une entreprise qui fabrique un
certain composant et qu’un des éléments du contrôle de la qualité consiste à
mesurer le diamètre du composant. Chaque composant aura donc son diamètre
mesuré. On calculera ensuite le diamètre moyen, puis l’écart-type. Si l’écart-type est
faible, cela signifie que les pièces ont dans l’ensemble un diamètre proche de la
moyenne, donc que leur diamètre se ressemble. À la limite, un écart-type nul signifie
que toutes les pièces ont le même diamètre. Inversement, plus l’écart-type est élevé,
plus il y a de pièces dont le diamètre s’écarte de la moyenne et qui risque de ne pas
cadrer avec le système auxquelles elles sont destinées.
54
Une autre utilité de l’écart-type est de servir de bornes. On regardera par exemple
combien de valeurs de la série sont comprises dans l’intervalle défini par :
Pour savoir combien d’unités ont des valeurs comprises dans cet intervalle, il faut
classer la série par ordre croissant des valeurs de la variable et ensuite encadrer les
valeurs comprises dans l’intervalle. On voit ainsi que 14 unités sur 20 ont des valeurs
comprises dans l’intervalle, ce qui représente 70% de la population. Si ces valeurs se
rapportaient aux caractéristiques des pièces d’un processus industriel on pourrait
juger que la qualité est acceptable ou bien au contraire se fixer comme objectif
d’augmenter le nombre de valeurs qui sont dans cet intervalle. On voit que cet
intervalle est avec l’intervalle interquartile une autre façon de mesurer la dispersion
d’une série.
55
3) Le coefficient de variation
L’écart-type est un outil intéressant pour mesurer la dispersion d’une série, ainsi que
nous venons de le voir. Mais il possède une limite : Il est exprimé dans l’unité de la
variable dont il mesure la dispersion des valeurs.
Ainsi, par exemple, si on veut comparer les dispersions de deux séries qui sont
exprimées dans des unités différentes, on ne peut pas.
D’où l’idée de calculer le coefficient de variation qui est égal à l’écart-type divisé
par la moyenne, c’est-à-dire :
3 – Résumé
56
Le mode d'une série est la valeur (de l’unité statistique) qui revient le plus
fréquemment dans la série.
La moyenne arithmétique simple d’une série est égale à la somme des valeurs
(des unités statistiques) de la série, divisée par le nombre total d’unités statistiques
(la population).
L’intervalle de variation d’une série est égal à la valeur maximale de la série moins
la valeur minimale de la série.
Les quartiles sont les trois valeurs qui partagent la population, dont les unités
statistiques ont préalablement été classées par ordre croissant de valeurs, en
quatre sous populations de même taille. On les désigne respectivement par Q 1, Q 2
et Q3.
57
Annexe : Méthode alternative pour le calcul des quartiles
Cette méthode ne correspond pas à celle employée par EXCEL, ni par les autres
logiciels de calcul. Elle n’est donnée ici qu’à titre d’information parce qu’elle est
la plus logique. C’est aussi la méthode qui est proposée dans Wikipedia :
ii) Classer la série : Une fois la série constituée, l'ordonner en classant les chiffres
par ordre croissant.
a) Cas où n = 4p
C'est le cas où, quand on divise n par 4, on trouve p et que le reste est nul. Dans ce
cas, on a :
58
En classant cette série on obtient le tableau suivant :
Fichier EXCEL
Par conséquent, on a :
Les 4 groupes de valeurs sont : {{0, 1, 1, 1, 2}, {2, 2, 2, 2, 3}, {3, 3, 3, 3, 4}, {4, 4, 4, 5,
5}}
b) Cas où n = 4p + 1
Q2 = (2p+1)e valeur.
59
En classant cette série on obtient le tableau suivant :
Fichier EXCEL
Par conséquent, on a :
Q2 = (2p+1)e valeur = 2
Les 4 groupes de valeurs sont : {{0, 1, 1, 1}, {2, 2, 2, 2}, 2, {3, 3, 3, 3}, {4, 4, 4, 5}}
c) Cas où n = 4p + 2
Q1 =(p+1)e valeur.
Q3 = (3p+2)e valeur
60
En classant cette série on obtient le tableau suivant :
Fichier EXCEL
Par conséquent, on a :
Q1 =(p+1)e valeur = 2
Q3 = (3p+2)e valeur =3
Les 4 groupes de valeurs sont : {{0, 1, 1, 1}, 2, {2, 2, 2, 2}, {3, 3, 3, 3}, 3, {4, 4, 4, 5}}
d) Cas où n = 4p + 3
Q1 =(p+1)e valeur.
Q2 = (2p+2)e valeur.
Q3 = (3p+3)e valeur.
61
En classant cette série on obtient le tableau suivant :
Fichier EXCEL
Par conséquent, on a :
Q1 =(p+1)e valeur = 2
Q2 = (2p+2)e valeur = 3
Q3 = (3p+3)e valeur = 4
Les 4 groupes de valeurs sont : {{0, 1, 1, 1}, 2, {2, 2, 2, 2}, 3, {3, 3, 3, 3}, 4, {4, 4, 4,
5}}
62
Tableau récapitulatif
Fichier EXCEL
63
Chapitre 4
Indices et progressions
0 – Introduction
1 – Indices
A – Nombre indice élémentaire
B – Série indice élémentaire
C – Indice synthétique
1) Définition
2) Indice synthétique d’évolution des prix de LASPEYRES
a) Définition
b) Exemple
3) Indice d'évolution des quantités de LASPEYRES
a) Définition
b) Exemple
4) Indice des prix de l'INSEE
2 – Progressions
A – Variation absolue
B –Taux de croissance sur une période
C – Taux de croissance sur plusieurs périodes : formule du taux moyen
1) Formule de calcul directe
a) Définition
b) Exemple
2) Formule indirecte (en passant par les accroissements successifs)
a) définition
b) Exemple
D – Taux de croissance du produit de 2 valeurs
E – Taux de croissance du rapport de 2 valeurs
F – Compléments
1) Augmentations (diminutions) successives
2) Augmentation en pourcentage suivie d'une diminution identique
3) Temps de doublement d'une grandeur
3 – Résumé
64
0 – Introduction
Nous avons vu au chapitre 2 que les chiffres d’une série pouvaient être présentés
sous forme d’effectifs, de pourcentages et de pourcentages cumulés. Mais ce n’est
pas tout : les chiffres d’une série peuvent aussi être mis sous forme d’indices. De
plus, il est fréquent que l’on souhaite étudier une série dont les valeurs changent au
cours du temps ou bien, plus simplement, que les valeurs d’une seule série
correspondent à différentes valeurs dans le temps (il s’agit alors d’une série
chronologique). Dans ces deux cas, le calcul d’un indicateur de progression (taux
de variation ou taux de croissance) va permettre de résumer l’évolution avec un seul
chiffre. Les indices et les progressions sont aussi utilisés pour comparer des
situations (généralement deux séries dont les valeurs changent selon le lieu).
1 – Indices
Exemple : Au 1er janvier 2009, le prix d’un produit A s’établissait à 8 euros. Au 1er
février 2009, le prix de ce produit A s’établissait à 8,5 euros.
On appelle période (ou date) courante ou période (ou date) finale, la période (ou
date) la plus récente. Ici, la période courante est le 1er février 2009.
Notons par X la grandeur étudiée, par x0, la période de référence et par xt la période
courante.
65
Remarque : Dans l’exemple précédent, la variation de la grandeur se faisait dans le
temps. On désigne l’indice qui la mesure par l’expression indice temporel. Mais la
variation d’une grandeur n’a pas toujours lieu dans le temps. Elle peut avoir lieu dans
l’espace.
Un indice de situation, également appelé indice spatial, est un indice qui concerne
n’importe quelle comparaison de grandeur, hormis les comparaisons temporelles.
Une série indice est une série de chiffre divisée par une de ses valeurs et multipliée
par 100.
Pour transformer cette série en sérié indice, nous allons diviser chaque élément de la
série par l'un des éléments, par exemple 7 (troisième élément) et ensuite multiplier
chaque élément par 100. On obtient alors :
I1 est une série indice. Sa base "100" est le troisième élément de la série. On voit
ainsi que le choix de la "base" est arbitraire.
Mais plutôt que de repartir de la série initiale S1, on peut aussi partir de I1 et diviser
chaque élément par 14,3 et multiplier par 100. On a alors effectué un changement
de base, la nouvelle base étant le premier élément de la série.
C – Indice synthétique
1) Définition
Un autre indice synthétique est aussi souvent calculé : c’est l’indice synthétique
d’évolution des quantités.
9
Chiffres publiés par l’OCDE :
http://oberon.sourceoecd.org/vl=2311694/cl=16/nw=1/rpsv/factbook_fre/11-04-02.htm
66
Il existe plusieurs méthodes de calcul des indices synthétiques. Le plus fréquemment
utilisé de nos jours est l'indice de LASPEYRES. C'est pourquoi nous n'étudierons
que cet indice dans ce cours introductif.
Pour calculer l’indice synthétique d’évolution du niveau général des prix l'INSEE
(Institut National de la Statistique et des Études Économiques) définit un panier à
provision représentatif des produits acheté par un ménage type et il mesure ensuite
l’évolution des prix des biens qui composent ce panier entre deux dates.
a) Définition
L’indice de LASPEYRES d’évolution des prix mesure l’évolution, entre deux dates
0 et t, des prix des biens qui composent un panier, en prenant comme référence la
valeur du panier à la date initiale (t = 0) et en supposant que les quantités de biens
dans le panier n’ont pas varié entre 0 et t.
b) Exemple
Soit le tableau ci-après, qui donne les prix et les quantités de deux produits 1 et 2,
aux dates 0 et t. On peut supposer que le produit 1 est un pantalon et le produit 2 un
tee shirt (voir le fichier EXCEL).
Dans cet exemple, le prix du bien 1 (pantalon) augmente (de 15 à 22 euros) tandis
que celui du bien 2 (tee shirts) baisse (de 7 à 5 euros).
Mais les quantités aussi ont changé. Pour diverses raisons, les gens ont acheté plus
de pantalons et moins de tee-shirts. Il n'est pas nécessaire que ces quantités
évoluent en sens inverse des prix car il ne s'agit pas d’une relation instantanée, mais
d'une évolution dans le temps. Pour mesurer l'évolution des prix, LASPEYRES
suppose donc que les quantités ne changent pas. Il pose la question : quelle serait
l'évolution de la valeur de ce panier si les quantités n'avaient pas changé ?
Pour répondre à cette question et savoir si l'indice synthétique des prix ainsi défini
augmente ou baisse, appliquons la formule de LASPEYRES d'évolution des prix :
On enregistre donc une évolution des prix du panier de bien de 2,8 % selon la
formule de LASPEYRES
67
3) Indice d'évolution des quantités de LASPEYRES
a) Définition
b) Exemple
Reprenons le tableau précédent, qui donne les prix et les quantités de deux produits
1 et 2, aux dates 0 et t voir le fichier EXCEL).
Date 0 Date t
Produit 1 p01=15 q01=3 pt1=22 qt1=10
Produit 2 p02=7 q02=9 pt2=5 qt2=8
Dans cet exemple, la quantité du bien 1 augmente (de 3 à 10 unités) tandis que
celle du bien 2 baisse (de 9 à 8 unités). Pour savoir si l'indice synthétique des
volumes augmente ou baisse, appliquons la formule de LASPEYRES d'évolution des
quantités :
On enregistre donc une évolution des volumes du panier de bien de 90,74 % selon la
formule de LASPEYRES.
L’un des indices synthétiques les plus connus et les plus utilisés est l’indice des
prix à la consommation (IPC) publié chaque mois par l’INSEE. L'IPC permet de
mesurer l'inflation, c’est-à-dire la variation du niveau général des prix des biens et
des services consommés par les ménages sur le territoire français entre deux
périodes données. C'est une mesure synthétique des évolutions de prix à qualité
constante.
68
Source : Insee, http://www.insee.fr/fr/indicateur/indic_cons/info_ipc.htm
L’IPC est publié aux environs du 13 de chaque mois et porte sur l’évolution des prix
du mois précédent. Ce chiffre, régulièrement relayé par les médias, est très attendu
car il sert de multiples fonctions économiques parmi lesquelles la connaissance de
l’inflation, la définition des objectifs de la politique monétaire, mais aussi le
versement de pensions et de divers revenus, tels le SMIC, dont le montant est «
indexé » sur l’évolution de l’IPC.
Depuis le milieu de l'année 2006, l'indice des prix a fait l'objet de critiques et de
controverses. Pour répondre à ces critiques l'Insee met sur son site Internet, à
disposition, un simulateur qui permet instantanément de mesurer "son" indice des
prix personnels. Il est disponible à ce lien :
http://www.insee.fr/fr/indicateur/indic_cons/indic_sip.htm
Finalement, voici le tableau résumé de l'évolution des prix, tel que publié par l'INSEE
en décembre 2008 (régulièrement mis à jour et disponible à l'URL :
http://www.insee.fr/fr/indicateur/indic_conj/indconj_frame.asp?ind_id=29 ) (voir le
tableau ci-après)
69
70
2 - Progressions
A - Variation absolue
10
Le mot « valeur » est ici employé au sens de « grandeur », pas dans le sens de « valeur
monétaire », quoiqu’on puisse également appliquer la formule à des valeurs monétaires, mais pas
uniquement.
71
C - Taux de croissance sur plusieurs périodes : formule du taux moyen
a) Définition
Soit une grandeur G qui prend les valeurs V0, V1, V2, …. , Vi, …. , Vt. La formule
directe du taux de croissance moyen de 0 à t est donnée par l'expression11 :
b) Exemple
Soit une entreprise dont le chiffre d'affaires en euros de 2004 à 2008 est donné par
le tableau ci-dessous : (Fichier EXCEL)
(Fichier EXCEL)
11
Voir l’annexe à ce chapitre pour la démonstration de cette formule.
72
2) Formule indirecte (en passant par les accroissements successifs)
a) définition
Avec :
Où i varie de 1 à t.
b) Exemple
Calculons le taux de croissance annuel du CA entre 2004 et 2005, puis entre 2005 et
2006, 2006-07 et enfin 2007-08. Nous allons ainsi avoir 4 taux de croissance g1, g2,
g3 et g4. Le tableau ci-dessous résume les calculs :
(Fichier EXCEL)
12
Voir l’annexe à ce chapitre pour la démonstration de cette formule.
73
Puis élevons ce produit à la puissance 1/4 = 0,25 :
En économie, on raisonne fréquemment sur des valeurs qui sont en fait le produit
d'un prix et d'une quantité. C'est le cas par exemple de la recette totale, dont la
définition est :
p est le prix d'un produit quelconque et q sa quantité. Dans ce cas, si le prix varie et
que la quantité varie aussi, on peut souhaiter calculer le taux de croissance du
produit des deux, c'est-à-dire le taux de croissance de la recette totale.
pt =(1+gp)pt-1
qt =(1+gq)qt-1
74
La recette totale a diminué de 3,04% à la suite de la hausse du prix de 1% et de la
baisse de la quantité de 4%.
Yt = (1+gY)Yt-1
Lt = (1+gL)Lt-1
75
F - Compléments
On a :
Donc :
Lorsque l'on applique à une grandeur une augmentation d'un certain pourcentage,
par exemple 10%, et qu'ensuite on applique au résultat un pourcentage identique de
diminution, par exemple 10%, on ne retrouve pas le chiffre de départ.
Exemple : si l'on part de V0 =10 et que l'on applique une augmentation de 10%, on
obtient V1 = 11. Si l'on applique une diminution de 10% à V1, on obtient V2=11 x (1-
0,1)=11 x 0 ,9 = 9,9, parce que 10% de 11 = 1,1 alors que 10% de 10 =1. On ajoute
donc 1 à 10, puis on retranche 1,1 à 11. On se retrouve donc avec 9,9.
Exemple : si l'on part de V0=10 et que l'on applique une diminution de 10%, on
obtient V1 = 9. Si l'on applique une augmentation de 10% à V1, on obtient
V2=9(1+0,1)=9 x 1,1 = 9,9.
76
3) Temps de doublement d'une grandeur
On a la formule :
Il faut donc 14 ans plus 0,2 x 12 mois = 2,4 mois pour qu'un capital placé à 5% l'an
double. C'est-à-dire 14 ans, 2 mois et 0,4 x 30 jours = 12 jours. Soit 14 ans, 2 mois et
12 jours.
3 – Résumé
Un nombre indice est une mesure de la variation d’une grandeur comparée à une
valeur de référence appelée « base ».
L’indice de LASPEYRES d’évolution des prix mesure l’évolution, entre deux dates
0 et t, des prix des biens qui composent un panier, en prenant comme référence la
valeur du panier à la date initiale (t = 0) et en supposant que les quantités de biens
dans le panier n’ont pas varié entre 0 et t.
L’un des indices synthétiques les plus connus et les plus utilisés est l’indice des
prix à la consommation (IPC) publié chaque mois par l’INSEE. L'IPC permet de
mesurer l'inflation, c’est-à-dire la variation du niveau général des prix des biens et
des services consommés par les ménages sur le territoire français entre deux
périodes données. C'est une mesure synthétique des évolutions de prix à qualité
constante.
77
Le taux de croissance sur une période de la valeur V entre t = 0 (date du début de
la période) et t =1 (date de fin de la période) s'écrit :
La formule du taux de croissance moyen sur plusieurs périodes est donnée par
l'expression :
78
Annexe : Démonstration de la formule directe du taux de croissance moyen
La formule du taux de croissance moyen sur plusieurs périodes est donnée par
l'expression :
Et ainsi de suite pour les autres périodes jusqu'à la période t pour laquelle on aura :
79
Le taux de croissance moyen g peut aussi s'écrire sous forme d'une moyenne
géométrique des taux de croissance de chaque période g1, g2, g3, ..., gt. En effet,
on a :
Or :
……….
Donc, en remplaçant :
Cette formule est celle de la moyenne géométrique simple d'une série définie par
les termes {(1+g1), (1+g2), (1+g3), ......., (1+gt)} :
80
Chapitre 5
Diagrammes et graphiques
0 – Introduction
3 – Diagrammes
A - Pictogramme
B - Cartogramme
C – Diagramme de GANTT
4 – Graphiques usuels
A - Graphique en barres
1) Barres verticales
a) Simples
b) Multiples
c) Tronçonnées
2) Barres horizontales
a) Simples
b) Multiples
c) Tronçonnées
B – Courbes et aires
1) Courbe simple
2) Courbes multiples
3) Aires délimitées par des courbes
C - Graphique de dispersion ou nuage de points
D - Secteurs
1) Secteurs à 360 degrés
2) Secteurs à 180 degrés
3) Méthode de construction
a) 360 degrés
81
b) 180 degrés
4) Anneaux
a) Simples
b) concentriques
5 – Autres graphiques
A – Graphiques en radar et toiles d’araignée
1) Radar
2) Toile d’araignée
B – Graphique à bulles
C – Graphiques boursiers
D – Graphiques de TUKEY
1) Les éléments constitutifs du graphique original
2) Exemple
3) Le graphique de TUKEY simplifié
E – Graphiques panachés
1) Secteur complété par une barre tronçonnée
2) Graphique de PARETO
a) De la loi de Pareto au graphique de Pareto
b) Définition, construction, exemple et interprétation
c) Interprétation
F – Histogramme
1) amplitudes de classes identiques
a) Histogramme d’effectifs
b) Histogramme de fréquences
2) Amplitudes de classes différentes
a) Histogramme d’effectifs
b) Histogramme de fréquences
G – Pyramide des âges
H – Graphique en cascade
I – Graphique à trois dimensions
1) Graphique en 2D avec ajout de « profondeur »
2) Graphique en barres avec 3 dimensions réelles
6 - Résumé
82
0 – Introduction
Le graphique statistique combine dans des proportions variées des points, des
lignes, un système de coordonnées généralement cartésiennes, des chiffres, des
symboles, des mots, des formes et des couleurs.
13
TUFTE, Edward (2001), The Visual Display of Quantitative Information , Graphics Press. Voir le site
internet de Edward TUFTE, page 13.
83
Pour ce faire, quand l’information doit prendre la forme de données chiffrées, ils font
appel à des infographistes. En effet, l’utilisation des graphiques pour transmettre un
message s’avère très efficace. Mais le statisticien se doit de rappeler qu’il faut
néanmoins respecter certaines règles et ne jamais laisser l’esthétique empiéter sur
l’exactitude, fut-ce au nom de l’efficacité du message.
Ainsi, un excellent graphique devrait-il avoir tout ou partie des qualités suivantes :
B – Quartet d’ANSCOMBE
Les graphiques révèlent des informations sur la forme des séries que les
tableaux et les statistiques résumées ne peuvent pas toujours montrer. La meilleure
illustration en est le quartet d’ANSCOMBE, nommé ainsi après la publication d’un
article sur ce thème par le statisticien anglais Francis ANSCOMBE (1918-2001) 14 .
Dans le tableau ci-après les quatre 4 paires de séries différentes de 11 chiffres ont
toutes les mêmes statistiques résumées. La moyenne des X est égale à 9 et leur
écart-type est 1,94 pour les 4 séries. La moyenne des Y est égale 7,5 et leur écart-
type à 1,94 pour les 4 séries. Sans les quatre graphiques ci-après, on pourrait
déduire de façon erronée que comme les 4 paires de séries ont la même moyenne et
la même dispersion (en outre, elles ont le même coefficient de corrélation et la même
droite de régression Y = 3 + 0,5 X [sur le calcul de la droite de régression voir le
chapitre 6]), elles sont très semblables. Or, comme le montrent les 4 graphiques dits
« en nuages de points » qui leurs sont associées, elles ont des formes très
différentes. Et ceci confirme l’adage qui dit que « un beau graphique vaut mieux
qu’un long discours » !
14
F.J. ANSCOMBE, « Graphs in Statistical Analysis, » American Statistician, 27 février 1973, pages
17-21.
84
Quartet d’ANSCOMBE
Source des chiffres : F.J. ANSCOMBE, « Graphs in Statistical Analysis, » American Statistician, 27 février 1973, pages 17-21.
2 – Les échelles graphiques
Ce qui nous intéresse dans un premier temps ce sont les différentes sortes
d’échelles propres à ce type de représentations graphiques.
A – Echelles numériques
Une échelle numérique est une échelle qui mesure des valeurs qui peuvent varier
de moins l’infini à plus l’infini. Ci-après, un graphique avec une échelle numérique sur
l’axe horizontal et une échelle numérique sur l’axe vertical.
• Sur l’axe horizontal, l’unité de mesure numérique est l’année. Les valeurs
s’échelonnent entre 1995 et 2008. Si l’on doit dessiner ce graphique à la main
sur une feuille de papier, on prendra soin de définir la distance que l’on
souhaite consacrer à une année (par exemple : 1 an = 1 cm). Si c’est un
logiciel qui réalise le graphique, cette opération devient inutile car les
dimensions du graphique seront choisies par défaut (il est possible cependant
de les modifier à son gré en redimensionnant le graphique15).
15
Dans EXCEL, il faut utiliser la poignée de redimensionnement tout en maintenant enfoncé la
touche « Maj », afin de garantir la proportionnalité de la transformation.
• Sur l’axe vertical, l’unité de mesure numérique est le déficit commercial d’un
pays, mesuré en millions de dollars. Il varie de -150 millions à + 400 millions.
Si l’on doit dessiner ce graphique à la main sur une feuille de papier, on
prendra soin de définir la distance que l’on souhaite consacrer à 100 millions
de dollars (par exemple : 100 millions de dollars = 1 cm). Si c’est un logiciel
qui réalise le graphique, cette opération devient inutile car les dimensions du
graphique seront choisies par défaut.
Il est important de toujours bien stipuler sur chaque axe l’unité dans laquelle l’échelle
de l’axe considérée est mesurée (ici l’unité est l’année pour l’axe horizontal et les
millions de dollars pour l’axe horizontal). En revanche, on peut se dispenser
d’indiquer la relation entre la dimension de l’échelle (en centimètres) et la dimension
de la variable mesurée sur l’échelle (millions de dollars, temps, etc.).
B – Echelles de catégories
Une échelle de catégories est une échelle sur laquelle sont portées des catégories.
Il peut s’agir :
87
1) Catégories numériques
Ci-après un graphique où l’on a regroupé les chômeurs d’une ville par classes
d’âges :
• Sur l’axe horizontal figurent les catégories d’âges. C’est une échelle de
catégories ou catégorielle. L’unité est l’âge. On remarque aussi que les
classes d’âge ont la même amplitude c’est-à-dire que toutes les catégories
d’âges ont le même nombre d’années. Il existe aussi des échelles de
catégories d’amplitude différentes.
• Sur l’axe vertical figurent l’effectif des chômeurs qui entrent dans
chaque catégorie. C’est une échelle numérique simple. L’unité est le nombre
des chômeurs.
2) Catégories nominales
• La catégorie des pays qui font partie de la zone Euro au premier janvier 2009
• La catégorie des pays de l’UE 27 qui n’en font pas partie et utilisent de ce fait
d’autres monnaies
• La catégorie des pays hors UE qui sont représentés dans le tableau 1.
88
L’échelle de l’axe vertical est donc une échelle nominale. On a placé l’échelle
nominale sur l’axe vertical car ainsi il est plus commode d’écrire ce que signifie
chaque barre. L’échelle de l’axe horizontal, quant-à-elle, est numérique, elle
mesure le nombre de pays appartenant à chaque catégorie.
Exemple d’utilisation d’une échelle avec catégories nominales sur l’axe vertical
C – Echelles ordinales
Une échelle ordinale est une échelle sur laquelle un ordonnancement des modalités
est concevable. Il peut s’agir :
16
Voir http://www.doingbusiness.org/economyrankings/ (Le classement qui figure dans cette version
du cours a été relevé le 08/10/2008 et peut donc être différent de celui qui figure sur le site internet
donné en référence).
89
Source : http://www.doingbusiness.org/economyrankings/ (Classement relevé le 8 octobre
2008)
90
Exemple d’échelles ordinales sur l’axe vertical et sur l’axe horizontal
(Classement des 20 premiers pays du monde où il est facile de « faire des affaires »)
91
s’agit pas d’une échelle réellement numérique, mais d’une échelle spéciale, qualifiée
pour cette raison d’« échelle ordinale ».
L’échelle verticale du graphique ci-dessus est également ordinale : les pays y sont
classés par ordre décroissant, du moins attractif au plus attractif.
Lorsque que l’on veut représenter les données relatives à deux variables ou à deux
caractères, on a recours à une échelle verticale double pour faciliter la lecture.
17
Exemple inspiré de « Creating a Combination Chart in EXCEL 2007 », par Matthew McDONALD,
video Youtube : http://fr.youtube.com/watch?v=WW2IDE4rPCc
92
Exemple de l’utilité des échelles verticales doubles
Imaginons que l’on souhaite savoir s’il existe une covariation entre ces deux séries.
Une bonne façon de procéder est de les mettre sous forme d’un graphique.
Cependant, comme les deux échelles sont différentes, il faut réserver par exemple
l’échelle verticale de gauche pour le temps passé sur internet (qui est exprimé en
heures) et l’échelle verticale de droite pour les sommes dépensées (qui sont
exprimées en euros). En effet, si l’on utilise seulement l’échelle verticale de gauche
pour tracer les deux séries, la plus petite (celle des heures passées sur internet) sera
écrasée par la plus grande (celle des euros dépensés) et le graphique ne révèlera
rien du tout. Inversement, si l’on réserve une échelle pour chaque série, on obtient
alors un graphique beaucoup plus lisible qui semble bel et bien révéler que plus cet
individu a passé de temps sur Internet et plus il a dépensé d’argent (ceci n’est qu’un
constat de covariation et non une relation de causalité, bien sûr).
E – Echelles logarithmiques
1) Définition
L’échelle logarithmique est une échelle qui mesure le logarithme décimal des
valeurs de la variable. C'est un excellent moyen de mettre en évidence une idée ou
un résultat grâce aux propriétés des logarithmes décimaux.
À ce sujet, sur un plan pratique, il est plus important de savoir obtenir un logarithme
décimal avec une machine à calculer, que de comprendre le pourquoi et le comment
des logarithmes décimaux, ce qui est certainement passionnant mais relève d'un
cours de mathématiques.
Nous allons donc commencer par voir comment on calcule un logarithme décimal
avec une machine à calculer standard (ci-après la "SC-05 Plus") avant de faire un
bref rappel sur les logarithmes décimaux.
Il suffit d'appuyer sur la touche "log" d'une machine à calculer pour obtenir le log d'un
nombre. Par exemple, l'image ci-dessous illustre le calcul du log décimal de 1000.
L'écran indique que le log décimal de 1000 est égal à 3. Pour obtenir ce résultat, on
procède ainsi :
1 - Allumer la machine
2 - appuyer sur la touche "log" entourée en rouge (attention de ne pas appuyer sur
la touche "ln" qui est entourée en bleu juste à côté et qui sert à calculer les
logarithmes naturels)
3 - Entrer le chiffre 1000
4 - Appuyer sur la touche "="
5 - Le résultat (ici le log de 1000 c'est 3) apparaît sur l'écran de la calculatrice.
3) Rappels sur le logarithme décimal
Le logarithme décimal d'un nombre est la puissance à laquelle il faut élever 10 pour
obtenir ce nombre. Appliquons cette définition à quelques nombres. Quel est, par
exemple, le logarithme décimal de 1 ? Autrement dit, à quelle puissance faut-il
élever 10 pour obtenir 1 ?
100=1
On écrira donc :
log 1 = 0
Quel est le logarithme décimal de 100 ? C'est la puissance à laquelle il faut élever 10
pour obtenir 100 :
102=100, parce qu'il faut élever 10 à la puissance 2 pour obtenir 100. Donc le
logarithme décimal de 100 est égal à 2. On écrira par conséquent :
log 100 =2
Inversement, si l'on demande "De quel chiffre 3 est-il le logarithme décimal ?", on
fera le raisonnement inverse. Sachant que 103=1000, la réponse est donc :
log 3 = 1000
95
4) Exemples
Le tableau montre que le nombre de contrats conclus par le vendeur 1 a été multiplié
par 2 et que le nombre de contrats conclus par le vendeur 2 a été multiplié par 4.
Sur le graphique de droite, l'échelle de l'ordonnée est logarithmique, mais les chiffres
indiqués (les nombres de contrats) sont les mêmes que sur le graphique de gauche.
Cependant, au lieu d'utiliser les valeurs elles-mêmes, le tracé utilise le logarithme
décimal des valeurs, comme indiqué dans le tableau ci-dessous :
2007 2008
Vendeur 1 log(300)=2,48 log(600)=2,78
Vendeur 2 log(100)=2 log(400)=2,6
96
b) L’échelle log linéarise les évolutions à taux constant
Comme on peut le voir sur le graphique ci-après les valeurs pour 2004, 2005 et 2006
sont écrasées par rapport à celles de 2007 et 2008 :
Fichier EXCEL
97
Appliquons une transformation logarithmique aux valeurs de l'ordonnée :
Fichier EXCEL
il existe aussi des graphiques avec échelle logarithmique sur les deux axes.
Autrement dit, non seulement l'échelle des ordonnées est logarithmique, mais
également l'échelle des abscisses. C'est assez peu fréquent en économie. L'exemple
donné ci-après est celui de la relation entre le temps de génération (période allant de
la naissance à l'âge moyen de reproduction) et la longueur de divers êtres vivants.
On voit nettement sur ce graphique que le temps de génération croît avec la
longueur. Mais on a ici un cas très intéressant où l'échelle de temps varie entre
moins d'une heure et 100 ans et où l'échelle de longueur varie de l'infiniment petit à
100 m. Pour bien contraster ce graphique avec le graphique semi-logarithmique
98
étudié précédemment, on parle de graphique à échelle doublement
logarithmique.
Source : John Tyler BONNER, Size and Cycle : An Essay on the Structure of Biology (Princeton,
1965), p.17. Reproduit dans Edward R. TUFTE, The Visual Display of Quantitative Information
(Graphics Press LLC, 2004), p. 94
99
3 – Diagrammes
Il existe donc une relation entre diagramme et graphique, que nous pouvons
d’ailleurs illustrer par le diagramme de VENN ci-après (lequel est un diagramme
non statistique !).
100
A – Pictogramme
Remarquons qu’il s’agit d’un pictogramme qui traduit principalement une information
statistique. Mais beaucoup de pictogrammes ne traduisent que des informations
diverses, non statistiques.
101
B - Cartogramme
Source : http://upload.wikimedia.org/wikipedia/commons/c/c4/European_union_past_enlargements_map_fr.png
102
Le cartogramme ci-avant montre l’évolution de la construction européenne par date
d’adhésion. On a d’abord :
C - Diagramme de GANTT
Nous allons partir d’un exemple simple sous forme d’un tableau décrivant la durée
des différentes étapes de la réalisation d’un mémoire et nous transformerons ce
tableau en diagramme de Gantt. Ci-après, le tableau qui va servir à faire le
diagramme :
103
Sur ce tableau figurent successivement :
4 – Graphiques usuels
Il est également très facile, grâce aux logiciels tels que EXCEL 2007 de Microsoft de
donner une « profondeur » aux différents graphiques, afin qu’ils apparaissent comme
ayant trois dimensions (Il est aussi possible dans EXCEL 2007, de représenter
104
« réellement » trois dimensions pour certains graphiques en barres ou pour les
graphiques dits « de surface »).
Il ne faut cependant pas abuser de la possibilité qui nous est donnée aujourd’hui de
réaliser des graphiques complexes. Car cette complexité peut finir par rendre le
graphique difficilement compréhensible. Mieux vaut s’en tenir aux principales
représentations graphiques connues et appréciées de tous : diagrammes en
colonne, diagramme en barres, lignes, « camemberts », etc.…
Il existe une grande quantité de graphiques, tous plus imaginatifs les uns que les
autres. Ainsi, à titre d’exemple, la figure ci-après montre les 73 possibilités de
graphiques simples, regroupées en 11 catégories, qui peuvent être réalisés avec le
logiciel EXCEL 2007. Mais en réalité, il est possible d’en faire beaucoup plus, soit en
combinant ces formes de base, soit en utilisant certaines astuces.
De plus, grâce à des logiciels tels que FLASH d’Adobe, il est possible de réaliser des
graphiques animés, ou des graphiques interactifs (pouvant par exemple être modifiés
par l’utilisateur).
105
Les quatre formes graphiques les plus fréquemment utilisées sont :
A – Graphiques en barres
Pour créer les 8 graphiques les données ci-dessous ont été utilisées :
.
Il s’agit du chiffre d’affaires hypothétique qu’une entreprise a réalisé en 2008
249 327 045 euros) répartis par ses 4 vendeurs et dans les trois villes où se trouvent
ses clients. Les 8 graphiques ci-après sont les 8 principales façons de représenter
ces données (ou une partie d’entre elles). Chaque graphique en barres fait ressortir
ces chiffres d’une manière différente et pourra donc être préféré selon les
circonstances dans lesquelles le graphique est utilisé.
1) Barres verticales
a) Simple
106
Les 8 principales variétés de graphiques en barres
b) Multiples
c) tronçonnées
2) Barres horizontales
a) Simple
b) Multiples
c) tronçonnées
1) Courbes simples
109
Quatre principales façons d’utiliser les graphiques en courbes et aires
2) Coubes multiples
On peut concevoir deux façons de présenter un graphique d’aires délimitées par des
courbes :
112
C - Graphique de dispersion ou nuage de points
Les graphiques de dispersion ou en nuage de points sont très utilisés pour l’étude
des corrélations entre deux variables. (Voir le chapitre 6).
113
D - Secteurs
Les graphiques en secteurs sont utiles lorsque l’on veut représenter la relation entre
une partie et un tout. On distingue les secteurs à 360° et ceux à 180°. Voyons un
exemple de chacun d’eux avant de voir la méthode de construction qui repose sur la
conversion des pourcentages en degrés.
Le secteur à 360° ci-dessous représente la répartition des ventes totales entre les
trois villes (Marseille en jaune, Paris en rouge et Lyon en vert).
114
2) Secteurs à 180 degrés
Le secteur à 180° ci-dessous représente la répartition des ventes totales entre les
trois villes (Marseille en jaune, Paris en rouge et Lyon en vert). Pour le faire avec
EXCEL, voir lien internet ici.
3) Méthode de construction
Pour obtenir la part du chiffre d’affaire réalisé dans chaque ville, on divise le chiffre
d’affaires réalisé dans la ville par le chiffre d’affaires total et on multiplie par 360.
Le tableau ci-dessous donne les résultats en degrés pour les trois villes :
Une fois que l’on a calculé les degrés associés au chiffre d’affaire dans chaque ville,
il faut tracer le secteur au moyen d’un compas, puis, avec un rapporteur, le diviser
en 3 sous-secteurs ayant pour angle 97° (Marseille), 185,3° (Paris) et 77,7°(Lyon).
115
b) Secteur à 180 degrés
Pour obtenir la part du chiffre d’affaire réalisé dans chaque ville, on divise le chiffre
d’affaires réalisé dans la ville par le chiffre d’affaires total et on multiplie par 180.
Le tableau ci-dessous donne les résultats en degrés pour les trois villes :
Une fois que l’on a calculé les degrés associés au chiffre d’affaires dans chaque ville,
il faut tracer le secteur au moyen d’un compas, puis, avec un rapporteur, le diviser
en 3 sous-secteurs ayant pour angle 48,5° (Marseille), 92,7° (Paris) et 38,8 degré
(Lyon). Pour le faire avec EXCEL, voir lien internet ici.
4) Anneaux
a) Simples
Les anneaux sont simplement des secteurs « troués » au milieu. Ainsi, par exemple,
les deux secteurs précédents peuvent être représentés sous forme d’anneaux
comme ci-après. La seule différence étant le cercle vide du milieu dont la taille peu
être choisie de façon arbitraire en fonction de considération telles que l’esthétique ou
l‘économie d’encre (si le graphique est destiné à être imprimé et que l’on doit payer
soi-même la cartouche d’encre) par exemple.
116
b) Concentriques
5 – Autres graphiques
1 – Radar
Soit par exemple 120 personnes qui sont interrogées dans la ville A et 120
personnes dans la ville B sur la caractéristique qu’elles placent en premier lors de
l’achat d’une maison. Il s'agit d'une caractéristique avec 4 modalités. On a le tableau
suivant :
117
On peut alors placer ces données sur un diagramme « en radar » de la façon
suivante :
2 – Toile d’araignée
Le graphique en toile d’araignée est une variante du graphique en radar, mais avec
un nombre d’axes plus grand. On l’utilise par exemple pour représenter des données
chronologiques. Soit par exemple une entreprise qui souhaite comparer le nombre
de visiteurs mensuels sur son site internet en 2007 et en 2008.
118
Une bonne façon de présenter une comparaison visuelle est de faire le graphique
en « toile d’araignée» suivant :
• Les visites en 2008 ont chaque mois été supérieures aux visites en 2007
• Il y a un caractère cyclique dans les visites, car les mois « creux » et les mois
« pleins » sont les mêmes en 2007 et en 2008.
119
B – Graphiques à bulles
120
Exemple de graphique à bulles : Age médian (axe horizontal), indice de fécondité (axe vertical)
et PIB par habitant (surface de la bulle) des pays de l’UE à 27. Années 2007 (âge médian et indice de fécondité) et 2006 (PIB/habitant en $)
Exemple 2 : Le tableau ci-dessous donne les performances macroéconomiques de
2 pays hypothétiques A et B, en 2008.
Dans cet exemple relativement simple, il suffit de faire en sorte que l’aire du disque
qui représente le taux de croissance du pays A soit le double de l’aire qui représente
le taux de croissance du pays B.
Pour assurer la proportionnalité des aires, il faut passer par la formule de l’aire du
disque :
On peut choisir pour référence la plus grosse valeur à représenter sous forme de
disque.
Ensuite on lui attribue une aire arbitraire, par exemple 2 cm2 et on en déduit le
rayon :
On calcule ensuite l’aire de l’autre disque du graphique. Dans notre exemple, si l’aire
du disque du pays A représente 4%, le disque du pays B, qui représente 2% doit
avoir une aire 2 fois plus petite. Par conséquent, l’aire du disque représentatif de la
croissance du pays B sera égale à la moitié de la surface du disque qui représente
la croissance de A, soit 1 cm2. On en déduit ensuite le rayon du disque de B par la
formule :
C – Graphiques boursiers
Les graphiques boursiers sont appelés ainsi car ils servent principalement à donner
des indications sur l’évolution des cours boursiers. Dans l’exemple ci-après, nous
allons voir la version la plus simple du graphique boursier, mais des versions plus
complexes sont possibles et facilement réalisables dans EXCEL 2007 un fois que
l’on a compris le principe de base.
Soit le tableau ci-dessous qui donne l’évolution du cours journalier d’un titre boursier
(en euros) deu 2 janvier au 31 janvier 2009, en en retenant que les jours ouvrables.
On a relevé 3 informations chaque jour : le cours le plus bas, le cours le plus haut et
le cours de clôture.
123
Evolution du cours du titre XXX
124
D - Graphiques de TUKEY
2) Exemple18
18
Pour tracer une boite à moustache avec EXCEL 2007, voir : http://blog.immeria.net/2007/01/box-
plot-and-whisker-plots-in-excel.html . Voir aussi : http://www.bloggpro.com/box-plot-for-excel-2007/
(mais remplacer les valeurs Min et Max par les valeurs adéquates si la distribution contient des
valeurs atypiques). Enfin, voir aussi http://www.coventry.ac.uk/ec/~nhunt/boxplot.htm qui explique la
construction d’une boite à moustaches avec EXCEL 97, 2003 et 2007.
125
Valeurs atypiques : Pour savoir s'il y a des valeurs atypiques il faut calculer Q1 - 1,5
(Q3 - Q1) = 2 - 1,5 x (4 - 2) = 2 - 1,5 x 2 = 2 - 3 = -1 < 0 et Q3 + 1,5 (Q3 - Q1) = 4 +
1,5 x (4 - 2) = 4 + 3 = 7 > 5. Conclusion : puisque -1 < 0 et que 7>5, n'y a pas de
valeurs atypiques 19. Par conséquent, puisque la valeur immédiatement supérieure à
Q1 - 1,5 (Q3 - Q1) est 0 et que la valeur immédiatement inférieure à Q3 + 1,5 (Q3 - Q1)
est 5, les deux moustaches ont respectivement pour extrémité gauche le minimum
de la série (soit 0) et pour extrémité droite le maximum de la série (soit 5).
Cependant, même la version simplifiée ne fait pas l’unanimité, en raison des divers
algorithmes employés pour calculer Q 1 et Q3 (voir le chapitre 3).
19
Selon Monique LE GUENN, « La valeur 1.5 est selon TUKEY une valeur pragmatique qui a une
raison probabiliste. Si une variable suit une distribution normale, alors la zone délimitée par la boîte et
les moustaches devrait contenir 99,3 % des observations. On ne devrait donc trouver que 0.7%
d'observations atypiques. Si le coefficient vaut 1, la probabilité serait de 0.957, et elle vaudrait 0.999 si
le coefficient est égal à 2. Pour TUKEY la valeur 1.5 est donc un compromis pour retenir comme
atypiques assez d’observations mais pas trop d’observations ». http://matisse.univ-
paris1.fr/leguen/leguen2001b.pdf
126
E – Graphiques panachés
Soient les données déjà utilisées du chiffre d’affaires par ville et par vendeur d’une
entreprise XXX en 2008.
On souhaite :
127
Un autre exemple de graphique panaché, symétrique du précédent, consiste à faire
une barre tronçonnée dont une des « tronçons » est lui-même décomposé en en
secteur. Voici un exemple réalisé avec PowerPoint 2007.
2) Graphique de PARETO
128
était possédée par 20% des individus. Par la suite, on s'aperçut qu'un grand
nombre de phénomènes étaient gouvernés par la loi du 80/20 :
Source : http://www.ed-productions.com/leszed/index.php?80-20-pareto
Ces exemples illustrent la loi de PARETO. Quelques causes majeures, une fois
isolées, permettent de résoudre la plus grande partie d'un problème de qualité. Une
fois ces causes majeures identifiées, on peut concentrer les efforts et les ressources
à les éliminer. Le graphique de PARETO est une façon de visualiser la loi des
80/20. Mais, comme on va le voir dans l'exemple étudié plus loin, cette loi n'est pas
systématique, il arrive très souvent aussi que 20% des causes expliquent beaucoup
moins que 80% des résultats.
i) Si les données sont sous forme d'une série, les regrouper par modalités
(données) ou par valeurs (données quantitatives), de façon à obtenir une
distribution par modalités ou par valeurs (éventuellement, une distribution par
classes de modalités ou par classes de valeurs).
ii) Classer les valeurs ou les modalités par ordre décroissant des effectifs
129
iv) Ajouter ensuite une colonne de pourcentages cumulés
Exemple : Supposons que l'on veuille étudier les raisons de la résiliation d'un
abonnement en ligne. Le problème ici est de comprendre pourquoi les abonnés
résilient leur abonnement (afin de réduire le nombre de résiliation). On recherche
donc les causes. Pour ce faire, lorsque les clients résilient leur abonnement, on leur
propose un questionnaire (volontairement simplifié dans cet exemple) où ils sont
invité à cocher la case qui correspond à la raison de la résiliation de leur
abonnement. Supposons que les 5 choix suivants leurs soient proposés (Remarque :
nous sommes en présence de données qualitatives non hiérarchisables, les choix
sont donc des modalités nominales : le contenu du site ne correspondait pas à mes
attentes (réponse codifiée par "A"), le contenu n'est pas bon (réponse codifiée par
"B"), le contenu n'est pas renouvelé assez souvent (réponse codifiée par "C"),
difficultés techniques pour accéder au contenu (réponse codifiée par "D"), Autres
(réponse codifiée par "E").
130
Construction du graphique :
i) Si les données sont sous forme d'une série, les regrouper par modalités (données
qualitatives) ou par valeurs (données quantitatives), de façon à obtenir une
distribution :
ii) Classer les valeurs ou les modalités par ordre décroissant des effectifs :
Nombre de Pourcentages
Modalités réponses Pourcentages cumulés
Le contenu n'est pas bon 5 33,3 33,3
Autres 4 26,7 60,0
Difficultés techniques pour accéder au
contenu 3 20,0 80,0
Le contenu ne correspond pas à mes
attentes 2 13,3 93,3
Le contenu n'est pas renouvelé assez
souvent 1 6,7 100,0
Total 15 100,0
131
v) Faire un graphique pour représenter simultanément :
Fichier EXCEL
c) Interprétation
Dans notre exemple, on voit que la loi de PARETO n'est pas vérifiée. En effet, la loi
de PARETO veut que 20% des causes expliquent 80 % des résultats. Or ici, il y a 5
causes. Donc une cause représente à elle seule 20% des causes. Pour que la loi de
PARETO soit vérifiée, il faudrait qu'une seule cause (20% des causes) explique 80%
des résultats (80% des résiliations). Or, ici, la première cause n'explique que 35%
des résiliations et il faut 3 causes, soit 60% des causes, pour parvenir à expliquer
80% des résultats.
132
F – Histogramme
133
S’agissant des histogrammes, il convient en outre de distinguer les histogrammes
d’effectifs et les histogrammes de fréquences. Nous allons donc être amenés à
étudier 4 types d’histogrammes comme indiqué dans le tableau ci-dessous.
Soir le tableau ci-dessous qui donne la population mondiale en 2008 (estimation dite
« en milieu d’année ») par groupes d’âges quinquennaux (hommes et femmes
confondus). La dernière colonne, intitulées « fréquences » est simplement calculée
en divisant l’effectif de chaque classe d’âge par la population mondiale totale. Par
exemple, pour obtenir le premier chiffre de la colonne des fréquences (classe d’âge
des 0-4 ans), on a effectué le calcul suivant :
134
On remarque que toutes les classes d’âges sont identiques (5 ans)20. Les classes
ont la même amplitude. A chaque classe d’âge est associé un effectif (colonne des
effectifs) ou une fréquence (colonne des fréquences). La somme des effectifs donne
la population mondiale en 2008, tandis que la somme des fréquences est égale à 1.
Nous allons d’abord voir comment se présente l’histogramme des effectifs, puis
ensuite l’histogramme des fréquences.
20
La dernière classe va en fait de 80 à plus de 110 ans, mais pour simplifier, nos la supposons égale
à 5 ans, en nous basant sur le fait que le nombre des 85 ans et plus reste encore minime comparé à
l’ensemble de la population mondiale, même s’il est appelé à augmenter.
135
Exemple d’histogramme d’effectifs quand les catégories numériques sont d’amplitudes égales
Correspond à l’histogramme numéroté 1 dans le tableau « Les 4 types d’histogrammes »
Exemple d’histogramme de fréquences quand les catégories numériques sont d’amplitudes égales
Correspond à l’histogramme numéroté 2 dans le tableau « Les 4 types d’histogrammes »
137
b) Histogramme des fréquences
Les deux histogrammes (celui des effectifs et celui des fréquences) ont la même
forme, mais diffèrent par l’échelle de l’axe vertical.
Revenu = {1100, 1130, 1150, 1200, 1220, 1300, 1300, 1310, 1350, 1400, 1400,
1400, 1400, 1450, 1460, 1480, 1490, 1490, 1495,1495, 1500, 1500, 1550, 1600,
1600, 1630, 1640, 1700, 1900, 2000, 2020, 2050, 2070, 2090, 2100, 2200, 2220,
2400, 2500, 2540, 2560, 2600, 2710, 2730, 2750, 2800, 2810, 2810, 2820, 2840,
2850, 2850, 2850, 2870, 2890, 2900, 2920, 2960, 2980, 2990, 3000, 3000, 3000,
3000, 3000, 3030, 3050, 3070, 3080, 3090, 3090, 3090, 3095, 3100, 3200, 3210,
3250, 3280, 3300, 3350, 3400, 3400, 3400, 3400, 3420, 3450, 3500, 3550, 3560,
3570,3575, 3600, 3610, 3800, 4000, 4100, 4250, 4300, 4310, 4380, 4500, 4560,
4580, 4590, 4590, 5000, 6000, 7500, 9000, 9800}.
Supposons que l’on souhaite répartir ces ménages dans les catégories de revenu
suivantes : [0 – 1500[ ; [1500 – 3000[ ;[3000 – 5000[ ; [5000 – 10000[. On va alors
obtenir le tableau d’effectifs suivant :
On voit que dans ces conditions, la hauteur des barres verticales ne peut plus être
proportionnelle aux effectifs, car cela aboutirait à donner une image fausse de
l’importance des effectifs inclus dans chaque classe.
a) Histogramme d’effectifs
Pour tracer l’histogramme des effectifs, il faut donc modifier l’échelle de l’axe vertical
en divisant les effectifs de chaque classe par l’amplitude de classe correspondante.
On ajoute pour cela deux colonnes au tableau précédent :
La colonne « amplitude de classe » donne l’écart en euros entre les deux extrémités
de chaque classe. La colonne « effectifs corrigés » se calcule en divisant chaque
effectif par l’amplitude de classe qui lui correspond ; Ainsi, l’effectif corrigé de la
classe de revenu [0 – 1500[ s’obtient par l’opération suivante :
Nous pouvons maintenant tracer l’histogramme des effectifs (voir graphique ci-
après). Dans cet histogramme, ce n’est plus la hauteur de chaque barre qui indique
l’effectif, mais sa surface. C’est la raison pour laquelle l’effectif est reporté
directement sur chaque barre, tandis que l’axe vertical mesure l’effectif corrigé, ou
plus précisément l’effectif divisé par l’amplitude de classe. Sur cet histogramme,
ce n'est plus la hauteur qui correspond à l'effectif, mais la surface. On peut voir
139
facilement que la barre qui correspond à 40 a une surface double de celle qui
correspond à 20. Et, bien que cela ne soit pas évident visuellement, la barre qui
correspond à 45 a une surface qui est 45/40=1,125 plus grande que celle qui
correspond à 40 et une surface 45/5 = 9 fois plus grande que celle qui correspond
à 5.
Histogramme d’effectifs
avec catégories numériques d’amplitudes différentes
Correspond à l’histogramme numéroté 3
dans le tableau « Les 4 types d’histogrammes »
b) Histogramme de fréquences
Pour tracer l’histogramme des fréquences, il faut donc modifier l’échelle de l’axe
vertical en divisant les fréquences de chaque classe par l’amplitude de classe
correspondante.
140
On construit pour cela le tableau suivant :
Histogramme de fréquences
avec catégories numériques d’amplitudes différentes
Correspond à l’histogramme numéroté 4 dans le tableau « Les 4 types
d’histogrammes »
141
G – Pyramide des âges
La pyramide des âges est un outil de l'analyse démographique inventé en 1870 par
le Général WALKER, alors directeur du Bureau of Census, organisme américain
chargé du recensement de la population et des études démographiques.
Histogramme A
Histogramme B
143
L’histogramme C ci-dessus représente
la répartition de la population féminine mondiale en 2008
Histogramme C
Nous pouvons ensuite faire effectuer à ce graphique une rotation de 90 degrés dans
le sens inverse des aiguilles de la montre puis un pivotement de gauche à droite
autour de l’axe vertical de façon à obtenir l’histogramme D.
Histogramme D
144
Et finalement, en mettant côte à côte les histogrammes B et D, nous obtenons la
pyramide classique des âges de la population mondiale en 2008 :
Il s’agit en fait d’un graphique qui représente TROIS dimensions : l’âge, le sexe et les
effectifs associés à ces deux catégories.
H – Graphique en cascade
145
Le graphique en cascade va permettre de faire apparaître ces variations (en milliers
d'euros sur le graphique):
Voir le fichier Excel (il faut d'abord installer la macro : téléchargeable ici)
• l'importance de la contribution
• Si la contribution est positive ou négative.
• comment on est passé de 210 à 320 par variations successives.
Grâce aux ordinateurs et aux logiciels il est devenu très facile aujourd’hui de réaliser
de beaux graphiques en 3D. La troisième dimension reste cependant une
construction visuelle dans la mesure où elle doit être affichée sur des écrans à 2
dimensions 21. EXCEL 2007 offre diverses possibilités, tout comme d’autres logiciels,
tels que Mathematica. En revanche, à moins d’être très bon dessinateur, il est
impossible de réaliser ce type de graphique avec la règle, le rapporteur, le compas
et les crayons de couleur (à l’inverse de tous les autres graphiques vus jusqu’à
présent).
21
Ceci est appelé à changer dans les décennies à venir.
146
On peut distinguer 3 catégories de graphique en 3D :
Bien entendu, le nombre de dimensions n’a pas changé par rapport à l’équivalent 2D
de ces deux graphiques qui n’ont que l’inconvénient de paraître « plats » par
comparaison.
147
À gauche, graphiques en 2D avec ajout de « profondeur » ; à droite : leurs équivalents 2D
2) Graphique en barres avec 3 dimensions "réelles"
Cette fois, nous allons utiliser un seul graphique en barres verticales pour montrer à
la fois la répartition du CA par villes et par vendeur en 2008.
6 – Résumé
Les graphiques révèlent des informations sur la forme des séries que les
tableaux et les statistiques résumées ne peuvent pas toujours montrer.
Une échelle numérique est une échelle qui mesure des valeurs qui peuvent varier
de moins l’infini à plus l’infini.
Une échelle de catégories est une échelle sur laquelle sont portées des catégories.
Il peut s’agir :
L’échelle logarithmique est une échelle qui mesure le logarithme décimal des
valeurs de la variable. C'est un excellent moyen de mettre en évidence une idée ou
un résultat grâce aux propriétés des logarithmes décimaux.
Mais la liste des graphiques ne peut pas par définition, être exhaustive, car seule
l’imagination en limite le nombre. Ainsi a-t-on aussi étudié dans ce chapitre, outre les
150
graphiques usuels, d’autres graphiques tels que les anneaux et les « radars » et
autres graphiques en toile d’araignée, les graphiques à bulles, le graphique de
TUKEY, les graphiques « panachés », le graphique de PARETO, l’histogramme
( qu’il faut distinguer du graphique en barres verticales quand les amplitudes de
classes sont inégales), la pyramide des âges, le graphique en cascade et les
représentations tridimensionnelles.
151
Chapitre 6
Tendances et corrélations
0 – Introduction
4 - Résumé
0 – Introduction
Dans les deux cas, ces droites ont été obtenues à l’aide de la méthode des moindres
carrés ordinaires :
• pour les séries chronologiques, on la qualifie de « trend linéaire »,
• pour l’étude de la relation statistique entre deux variables, on parle plus
volontiers de « droite de régression ».
152
Pour l’étude de la corrélation entre deux dimensions dont l’une au moins n’est pas
quantitative, c’est le test d’indépendance du Khi-carré, étudié en section 3, qui
remplace l’ajustement linéaire22.
22
Le test du Khi-carré est souvent présenté, à juste titre, comme un test d’indépendance entre deux
dimensions – qu’il s’agisse de variables ou de caractères ou des deux – quand les données sont
regroupées en catégories. Si l’on se réfère à cette définition, les données distribuées par modalités (et
à fortiori par valeurs) semblent exclues. Mais, en pratique, on ne voit pas pourquoi elles le seraient.
153
1 – La détermination de la tendance d’une série chronologique
A – Détermination graphique
Soit le tableau suivant qui donne l’évolution du taux de chômage en France de 1994
à 2008.
Source : FMI
154
Bien souvent, cette analyse graphique est suffisamment éloquente pour ne pas
poursuivre l’analyse. Néanmoins, il est possible de poursuivre plus rigoureusement
ce raisonnement et de déterminer mathématiquement une droite dont la pente nous
donnera la « tendance ».
Puisqu’il faut deux points pour tracer une droite, une idée simple consiste à faire
passer une droite par les deux points extrêmes de la série, soit {1997 ; 11,5} et
{2008 ; 7,7} d’autre part. On obtient alors une droite qui nous indique une tendance
négative.
Cette méthode n’est cependant pas très satisfaisante car elle ne tient compte que de
des deux points extrêmes. Une meilleure méthode est celle dite des « moindres
carrés ordinaires » ou MCO en abrégé.
155
C – Détermination de la tendance par la méthode MCO
yi = a. ti + b
Les valeurs {t1, t2, ..., ti, ... tn} sont les dates.
Dans notre exemple les chiffres 1 à 12 (le chiffre 1 correspond à 1997 et le chiffre 12
correspond à 2008). Les yi - c'est-à-dire les valeurs tendancielles - ne peuvent être
calculées qu'une fois que l'on connaît a et b. Pour calculer les coefficients a et b,
nous allons donc utiliser les valeurs observées, à savoir la série :
{11,5 ; 11,1 ; 10,5 ; 9,1 ; 8,4 ; 8,6 ; 9 ; 9,3 ; 9,3 ; 9,2 ; 8,3 ; 7,7 }.
23
Ces formules sont données ici sans démonstration, le lecteur intéressé par une démonstration
rigoureuse pourra consulter avec profit le livre de PY, Bernard (2007), Statistique descriptive :
nouvelle méthode pour comprendre et bien réussir 5ème édition, Economica.
156
Nous pouvons alors tracer la droite MCO sur le graphique initial :
157
La méthode MCO est plus rigoureuse que la méthode des points extrêmes car elle
« calcule » la droite de tendance en tenant compte de toutes les observations.
Il est important pour une entreprise d'avoir une bonne idée de la demande qui
s'adresse à son produit. Comment faire pour connaître la fonction de demande pour
un produit ?
La première idée qui vient à l'esprit consiste à tracer un repère quantité/prix, avec la
quantité en abscisse et le prix en ordonnée, comme ci-dessous. Supposons que l'on
dispose pour cela des informations suivantes :
158
La courbe obtenue en joignant les 3 points est bien décroissante et suggère que plus
le prix augmente, plus la quantité demandée diminue. S'agit-il pour autant d'une
fonction de demande ? En fait, pas forcément. Le prix et la quantité d'un bien sont
normalement déterminés à la fois par l'offre et la demande, du moins lorsque le
marché est concurrentiel (si le marché n'est pas concurrentiel, les choses n'en sont
que plus compliquées). Mais, quoiqu’il en soit, le prix et la quantité du produit
s'établissent à l'intersection de l'offre et de la demande.
Ainsi, en fait, les 3 points du graphique précédent sont généralement interprétés par
les économistes comme trois points d'équilibre, ainsi qu'illustré ci-dessous :
Sur ce graphique, nous voyons en fait que les 3 points précédents sont trois points
d'équilibre qui résultent de l'intersection de courbes d'offre et de demande. Par
exemple, en 2008, il s'est vendu 30 millions d'unités au prix unitaire de 15 euros, ce
qui correspond au point d'équilibre E, qui est à l'intersection des courbes d'offre et de
demande de l'année 2008.
159
Cependant, comme illustré sur le graphique ci-dessous, on ne peut pas exclure que
les 3 observations temporelles correspondent à 3 points sur la fonction de demande.
Mais cela signifie en fait que la courbe de demande n'a pas changé, alors que la
courbe d'offre s'est déplacée vers la gauche (en supposant que maintenant on
commence en 2006, puis on continue avec 2007 et ensuite 2008).
160
Quantité qi
Dates (milliers d'unités) Prix pi (euros)
Janvier 5 14
Février 15 6
Mars 9 10
Avril 14 9
Mai 3 11
Juin 9 13
Juillet 10 9
Août 17 6
Septembre 11 5
Octobre 16 3
Novembre 7 11
Décembre 3 15
161
Nous nous attendons ici à ce que le coefficient a soit négatif. Les principaux calculs
nécessaires sont donnés ci-après :
162
On a ainsi la droite de demande décroissante comme illustré sur la figure :
On a :
q = - 1,55618* p+24,4413
On peut ensuite se servir de la fonction de demande ainsi obtenue pour évaluer les
conséquences d'une baisse du prix sur la quantité demandée et donc sur la recette
totale.
163
C - Le coefficient de détermination
164
Pour faire les calculs, voici comment procéder :
165
Interprétation du résultat : Plus le coefficient r2 tend vers 1, plus la qualité globale
de la régression, est bonne. Ici, le r2 est proche de 0,7. On peut juger que c'est
insuffisant. Il faut de toute manière compléter ce premier diagnostic par le calcul
d’autres statistiques, mais ceci est l’objet d’un cours d’économétrie et non plus de
statistique descriptive.
A - Introduction
Le test qui nous intéresse ici est uniquement le test d’indépendance statistique.
Ce test sert à apprécier l’existence ou non d’une relation entre deux dimensions au
sein d’une population, lorsque ces dimensions sont mesurées sur des échelles
qualitatives et/ou que les modalités de ces échelles de mesure ont été regroupées
en catégories. On peut bien sûr utiliser aussi le test du khi carré pour apprécier
l’existence d’une relation entre deux dimensions mesurées sur des échelles
quantitatives groupées en catégories, mais le test est moins approprié que la
régression (sauf si l’on en peut pas remonter aux données brutes). On peut enfin
l’utiliser pour étudier la relation entre une dimension quantitative et une autre
qualitative.
À noter enfin que les différents tests du khi-carré ne doivent pas être confondus
avec la distribution théorique du khi-carré, dont les valeurs servent seulement à
valider ces différents tests.
24
Une présentation synthétique des différents tests est donnée dans Wikipédia (voir l’article « Test du
khi-2 »)
166
B - Exemple d’utilisation25
Nous allons maintenant montrer comment ce test peut-être utilisé dans le cas d’une
distribution à deux dimensions.
Soit le tableau ci-dessous, qui donne les résultats d’une enquête hypothétique
effectuée auprès de 400 étudiants, sur leurs préférences en matière de cours. On
leur a demandé : « Parmi ces 4 matières : HPE, Droit, Micro et Macro, laquelle
préférez-vous ? » (il était interdit de répondre : « aucune »).
25
Pour une très bonne explication de la façon d’effectuer un test d’indépendance du khi-2 (ou chi-2),
voir Charles McCREERY « The CHI-SQUARE test : A test of Association Between Categorical
Variables ». Sur internet : http://www.celiagreen.com/charlesmccreery/statistics/chisquare.pdf. Voir
aussi les explications très claires données sur BibMath dont nous nous sommes inspirés ci-après :
http://www.bibmath.net/dico/index.php3?action=affiche&quoi=./c/chideuxtest.html
167
Faire un test du khi-carré pour savoir si le sexe a une influence significative sur le
choix des matières (se rapporter à la table de la distribution du khi-2 théorique en
annexe).
Avec :
168
Calculons d’abord les ei,j : Si les deux dimensions étaient totalement
indépendantes, les effectifs théoriques e i,j remplaceraient les ni,j et l’on aurait :
169
Une fois que l’on connaît le khi carré calculé, on doit le comparer avec la valeur khi-
deux issue de la distribution du khi carré (voir le tableau ci-après).
Pour trouver cette valeur dans le tableau, nous devons prendre en compte deux
informations supplémentaires :
Degrés de liberté
=
(Nb de catégories[ou valeurs ou variables] en ligne – 1)
x
(Nb de catégories [ou valeurs ou variables] en colonne – 1)
(4 - 1) x (2 – 1) = 3 x 1 = 3.
Nous avons donc 3 degrés de liberté et une probabilité de fiabilité du test de P=0,05.
Par conséquent, nous voyons dans la table que le khi-carré théorique est égal à :
Il nous reste maintenant à comparer le khi carré théorique issu de la table (7,82)
avec le khi-carré calculé (34,11 environ) :
Etant donné que le chi-carré calculé est supérieur au khi carré théorique, nous
pouvons conclure que le sexe a une influence sur le choix de la matière. Notre
observation initiale sur la base de l’échantillon est donc probablement vraie à
l’extérieur de l’échantillon (avec cependant 5% de chances de nous tromper).
170
Degrés de Degrés de
P=0,05 P=0,01 P=0,001 P=0,05 P=0,01 P=0,001
liberté liberté
171
4 – Résumé
Il existe d’autres outils plus élaborés pour étudier les corrélations entre variables
et/ou caractères, mais ceux-ci relèvent alors d’un cours d’économétrie et/ou de
statistique mathématique.
172
Chapitre 7
Courbe de LORENZ et coefficient de GINI
0 – Introduction
1 – La courbe de LORENZ
A – L’exemple de la répartition des superficies de l’UE à 27
B – L’utilité de la courbe de LORENZ pour les comparaisons
C – Cas général
2 – Le coefficient de GINI
A – Définition
B – Formules de calcul
C - Exemple
3 - Résumé
0 – Introduction
Max Otto LORENZ (1880 -1962) est l’économiste américain qui inventa le concept
de courbe de LORENZ en 1905. Il s’agissait pour lui de décrire et de mesurer les
inégalités de revenu. Par la suite, cette courbe qu’il fut le premier à utiliser servit plus
généralement à représenter visuellement la façon dont se répartit une masse
(salariale, de revenus, de richesses, etc.) au sein d’une population pour se faire une
idée du caractère plus ou moins égalitaire de la répartition de cette masse au sein de
la population et comparer ainsi différentes populations entre elles ou comparer la
distribution d’une masse au sein d’une population en deux ou plusieurs points du
temps afin de savoir si l’inégalité augmente ou diminue26.
1 – La courbe de LORENZ
26
L’expression « courbe de LORENZ » a probablement été utilisée pour la première fois en 1912
dans le manuel de W. I. KING, The Elements of Statistical Method. New York: Macmillan.
173
La colonne 3 est simplement un cumul des pays de 0 à 27. La colonne 4 est un
cumul des surperficies des pays.
La colonne 5 reprend les chiffres de la colonne 3 divisés par 27 (nombre total des
pays) et multiplié par 100.
La colonne 6 reprend les chiffres de la colonne 4 divisés par 4236271 (surface totale
de l’UE à 27) et multiplié par 100.
La courbe de LORENZ s’inscrit donc dans un carré. Pour apprécier l’inégalité, on doit
comparer cette courbe (en rouge sur le graphique) avec la droite d’égalité parfaite
qui correspond à la diagonale (droite en vert).
174
Si les surfaces étaient parfaitement distribuées 10% des pays représenteraient 10%
de la surface totale de l’UE à 27, 20% des pays représenteraient 20% de la surface
totale, etc. Or, c’est loin d’être le cas puisque il faut 22 pays (81,5% des pays) pour
atteindre 49,24% de la surface de l’UE à 27).
Soit maintenant un autre exemple concernant cette fois la masse salariale des deux
filiales A et B d’une entreprise et sa répartition entre les salariés. Pour simplifier,
nous supposons qu’il y a 20 salariés dans chaque entreprise. Les salaires mensuels
en euros sont donnés par le tableau ci-après qui détaille également les calculs des
deux séries nécessaires au tracé de la courbe de LORENZ.
175
Comparaisons de la distribution des salaires dans les filiales A et B d’une entreprise XXX
et calculs nécessaires pour le tracé de la courbe de LORENZ
Courbes de LORENZ des salaires des filiales A et B
C – Cas général
A – Définition
Le coefficient de Corrado GINI (1884 -1965) est une mesure de l'inégalité associée
à la courbe de LORENZ. Il est donné par la formule :
Le coefficient de GINI est compris entre zéro et 1. En cas d’égalité parfaite, il est égal
à zéro (car A=0). En cas d’inégalité totale il est égal à 1, car B=0. Par conséquent, à
mesure que G augmente de zéro à 1, l’inégalité de la répartition augmente. Le
coefficient de GINI permet ainsi de faire de nombreuses comparaisons.
Sachant que la courbe de LORENZ est inscrite dans un carré de 1 x 1, on voit que la
surface A+B est égale à la moitié de cette surface. On a donc :
De plus, comme :
De ce fait on peut écrire que :
B – Formules de calcul
Nous allons voir que ces deux formules donnent des résultats identiques.
C – Exemple
Reprenons l’exemple des deux filiales de la même entreprise et calculons d’abord les
deux coefficients de GINI à l’aide la première formule, soit :
Les 2 tableaux ci-après montrent comment les calculs doivent être disposés pour
parvenir rapidement au résultat.
27
Voir http://info.worldbank.org/etools/docs/library/103072/ch6.pdf , page 3
180
Calcul du coefficient de GINI de la filiale A selon la formule :
Calcul du coefficient de GINI de la filiale B selon la formule :
182
On constate que le coefficient de GINI de la filiale A est beaucoup plus élevé que
celui de la filiale B, indiquant que la distribution de la masse salariale y est plus
inégalitaire. En effet, on a :
3 – Résumé
184
Le coefficient de GINI est quant à lui un indicateur statistique, compris entre 0 et 1,
qui sert à mesurer le degré d’inégalité de la répartition d’une masse au sein d’une
population statistique.
185
Bibliographie
A
ABELL Martha L., James P. BRASELTON & John A. RAFTER (1998), Statistics with
mathematica , Academic Press.
B
BADIA, Jacques, René BASTIDA et Jean-Robert HAIT (1997), Statistique sans
mathématique , Ellipses
186
G
HAND, D.J. (1993), A Handbook of Small Data Sets , Chapman & Hall.
HUFF, Darrell et Irving GEIS (1993), How to Lie With Statistics , W. W. Norton &
Company
187
L
PY, Bernard (2007), La statistique sans formule mathématique , 1ère édition, Pearson
Education.
RUMSEY, Deborah (2003), Statistics for Dummies , Wiley Publishing inc. Site
internet de la collection "... for dummies" : Etats-Unis. Voir aussi la page Web du
livre.
188
S
SLAVIN, Steve (1998), Chances Are: The Only Statistics Book You'll Ever Need ,
Madison Books
WAINER, Howard (2005), Graphic Discovery: A Trout in the Milk and Other Visual
Adventures , Princeton University Press.
ZELAZNY, Gene (2001), Say it with Charts : The Executive's Guide to Visual
Communication , McGraw-Hill
189
Sites internet utiles
Pour produire directement, facilement et gratuitement des graphiques pour une page
web et/ou les copier/coller n’importe où : http://code.google.com/intl/fr/apis/chart/
190