Boite A Moustaches PDF
Boite A Moustaches PDF
Boite A Moustaches PDF
Remerciements
Nous remercions nos collgues de lEcole dt EEDA 2001 Carcassonne, et tout
particulirement E. HORBER, R. LAFOSSE, D. LADIRAY et J. VANPOUCKE pour leur apport et leurs
conseils quant la ralisation de ce document.
Plan
1. Introduction .................................................................................................................................................... 2
2. Les donnes..................................................................................................................................................... 2
MATISSE-CNRS UMR8595, Maison des Sciences Economiques, 106-112 Boulevard de lHpital, 75013 Paris.
page 1/14
1. Introduction
La bote moustaches une traduction de Box & Whiskers Plot, est une invention de TUKEY (1977)
pour reprsenter schmatiquement la distribution dune variable.
Cette reprsentation graphique peut tre un moyen pour approcher les concepts abstraits de la
statistique, si lon pratique son usage sur diffrents jeux de donnes.
Le terme spcifique Box & Whiskers Plot et le terme gnrique Box Plot recouvrent une grande
varit de diagrammes en forme de botes qui se diffrencient par leur construction, leurs
interprtations, et leurs usages. E. HORBER qui a effectu des recherches bibliographiques sur ce thme
a repr une soixantaine de formes et de constructions diffrentes. Le lecteur pourra se faire une
opinion en lisant sa note disponible sur Internet2 . La conclusion est que le vocabulaire anglo-saxon
nest pas unifi, les termes sont souvent employs les uns pour les autres. Pour les francophones se
rajoute la (ou une) traduction. Ainsi la traduction de Box & Whiskers Plot par bote moustaches nest
pas unique. Nos amis Qubcois disent bote moustaches. Nos collgues de lAssociation MIRAGE
utilisent plus volontiers le terme Bote Pattes. Il fallait choisir.
Nous avons choisi dans cet article, la traduction bote moustaches et nous allons dcrire la bote
moustaches la plus couramment utilise par les explorateurs de donnes. Cest aussi celle que lon
trouve dans la plupart des logiciels statistiques.
Tout dabord nous montrons une reprsentation3 dune bote moustaches, construite sur un jeu de
donnes. Linterprtation dune bote moustaches ncessite un apprentissage aussi nous dtaillons
comment lire et interprter ce graphique. Nous montrons comment les lves peuvent dcouvrir, en
explorant des donnes, certaines proprits de la mdiane et de la moyenne.
En rfrences nous donnons des adresses Internet pour raliser informatiquement diffrentes formes de
botes moustaches et de Box Plots.
2. Les donnes
Pour chaque lve dune classe mixte, deffectif 59, sont collects son poids en kilogrammes, sa taille
exprime en centimtres et son sexe (code 1 pour masculin, code 2 pour fminin), cf. Annexe.
Le fichier des donnes comporte 3 variables POIDS, TAILLE et SEXE, et 59 observations (lves)
rparties selon le sexe (23 garons et 36 filles).
Cet exemple est inspir des donnes de BATANERO, ESTEPA & GODINO (1991) disponibles galement
sur Internet4.
Pour de jeunes lves, en collge et lyce, les ouvrages de ROSSMAN A. J. (1995, 2001) rassemblent
de nombreux jeux de donnes et exemples dactivits pour dcouvrir la Statistique.
2
3
page 2/14
3. La bote moustaches
La reprsentation graphique de la bote moustaches est mystrieuse lorsquon la dcouvre pour la
premire fois, cf. Graphique 1: Bote moustaches de la variable POIDS. Pour lire et interprter, il est
ncessaire de connatre sa construction.
La bote moustaches utilise 5 valeurs qui rsument des donnes : le minimum, les 3 quartiles Q1, Q2
(mdiane), Q3, et le maximum.
Poids atypique
Poids=93
Q3 =67
Q2 =60
Q1 =53
Graphique 1 : Bote moustaches de la variable POIDS
Les quartiles Q1, Q2, Q3 sont les lments essentiels de ce graphique. Aprs une prsentation des
quartiles sur un exemple simple, nous dtaillerons les tapes de la construction des quartiles et de
l'cart interquartile qui sen dduit.
Pour illustrer notre propos, nous montrons sur un cas trs simple5 comment sont calculer les
quartiles.
Soit la srie des 9 valeurs ordonnes : 1 , 3 , 4 ,5 , 6 ,7 , 9 ,10, 15
La mdiane Q2 partage la srie en deux groupes deffectif gaux, ce qui donne :
Q2=6.
Le Quartile Q1 repartage le groupe du bas (5 valeurs infrieures) en deux groupes deffectif gaux, ce
qui donne : Q1=4.
Le Quartile Q3 repartage le groupe du haut (5 valeurs suprieures) en deux groupes deffectif gaux,
ce qui donne : Q3=9.
Selon que leffectif n des valeurs est pair ou impair, on procdera diffremment pour valuer les
quartiles.
Procdure:
1- Classer les n donnes par ordre croissant.
2- Diviser les donnes en 2 groupes de tailles gales.
On obtient le groupe du bas et le groupe du haut, chacun contenant 50% des observations.
Si n est pair la mdiane est la moyenne des 2 points milieu.
Si n est impair la mdiane est le point milieu.
En pratique le calcul des quartiles seffectue lorsque le nombre dobservations est plus important.
page 3/14
Dans ce cas il faut, pour permettre les calculs qui vont suivre, reproduire la valeur de ce point dans les
2 groupes.
3- Calculer nouveau la mdiane du groupe du bas.
On obtient le quartile Q1, qui correspond 25 % des observations.
4- Calculer nouveau la mdiane du groupe du haut.
On obtient le quartile Q3, qui correspond 75 % des observations.
n/2
n/2
n/4
n/4
n/4
n/4
Lcart interquartile (InterQuartile Range) est utilis comme indicateur de dispersion. Il correspond
50% des effectifs situs dans la partie centrale de la distribution. Pour la variable POIDS lcart
interquartile vaut 14, cf. Graphique 1.
soit
page 4/14
Dans le schma suivant deux valeurs sont atypiques car situes au del de la frontire haute.
Valeur adjacente de la moustache infrieure
Q1
Q3
**
Frontire basse
Q1-1.5*(Q3-Q1)
cart interquartile
frontire haute
Q3+1.5*(Q3-Q1)
La distribution est
dcompose en 4 zones
de mme effectif (25%) .
page 5/14
Si le fichier des donnes contenait le nom des lves, on pourrait afficher le nom de llve qui a un
poids atypique. Aprs le diagnostic, les informations supplmentaires facilitent le dbut dune
explication du pourquoi ce point est atypique.
page 6/14
srifs
page 7/14
Graphique 6 : Comparaison des distributions des tailles des lves selon le sexe.
Sur le Graphique 6 : Comparaison des distributions des tailles des lves selon le sexe, lcart
interquartile est plus tal pour le groupe Masculin que pour le groupe Fminin et la distribution est
plus dissymtrique. Compte tenu de ltalement dans la partie centrale de la distribution, il n'y a plus
de taille atypique pour le groupe Masculin. Les moustaches stendent dans ce cas, jusqu la valeur
minimum et la valeur maximum.
Cest prcisment la facilit de comparaison quoffre lil qui fait lintrt et la force de cette
reprsentation visuelle. Cette visualisation conduit plus facilement lAnalyse de la Variance
(Comparaisons des moyennes compte tenu de leurs variances).
4.2 Utilisation des botes moustaches pour visualiser des sries chronologiques
Soit la srie6 des tempratures mensuelles moyennes Nottingham de 1920 1939. Cette srie de 240
valeurs est reprsente sous forme chronologique cf. le Graphique 7 : Srie des tempratures
mensuelles moyennes Nottingham de 1920 1939.
page 8/14
Ces mmes donnes sont regroupes par mois et reprsentes sous forme de botes moustaches cf.
Graphique 8 : Srie des tempratures mensuelles moyennes Nottingham regroupes par mois.
Graphique 8: Srie des tempratures mensuelles moyennes Nottingham regroupes par mois.
Ces deux graphiques donnent une vision diffrente des donnes. Les objectifs danalyse diffrent dans
chacune des reprsentations.
Les graphiques qui utilisent des botes moustaches permettent davoir une vue synthtique, globale
et en mme temps une vue locale sur les donnes (cf. valeurs atypiques).
page 9/14
Graphique 7 : Comparaison des mdianes (trait horizontal) et des moyennes (symbolises par une
croix) de la variable TAILLE.
En explorant, llve peut donner un sens concret la moyenne et la mdiane et dcouvrir certaines
de leurs proprits.
La mdiane tout comme la moyenne nest pas forcment gale une valeur rencontre dans les
donnes.
La mdiane et la moyenne sont des reprsentants dune position centrale dans les donnes.
La mdiane et la moyenne ont chacune une valeur comprise entre les valeurs extrmes de la
distribution. Les deux valeurs peuvent tre gales ou diffrentes.
Elles sont gales si la distribution est symtrique.
Lorsque la distribution est plus allonge vers les grandes valeurs, la mdiane est infrieure la
moyenne. Lorsque la distribution est plus allonge vers les petites valeurs, la mdiane est
suprieure la moyenne.
Plus la distribution est dissymtrique, plus la mdiane scarte de la moyenne.
En supprimant un point atypique dans les donnes, llve peut raliser que la moyenne est trs
influence par les valeurs extrmes, ce qui nest pas le cas de la mdiane. Il peut ainsi approcher la
notion de contribution.
Aprs avoir visualiser par des botes moustaches diffrentes variables, les notions de variabilit, de
distributions prendront un sens plus concret. Llve pourra comprendre que si sur un jeu de donnes,
il existe une diffrence entre la moyenne et la mdiane, cest un diagnostic de dissymtrie.
page 10/14
page 11/14
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
49
52
50
46
50
52
52
48
52
63
53
54
54
54
53
55
57
44
56
56
56
53
60
65
67
61
68
55
64
60
136
145
150
132
155
150
141
139
152
131
160
158
155
135
155
168
162
155
142
145
150
150
156
168
165
155
133
160
150
160
page 12/14
Rfrences
Articles et Ouvrages
BATANERO C., ESTEPA A., GODINO J.D. (1991), Analysis Exploratorio de Datos : Sus posibilidades en la
enseanza secundaria , Suma, n9, 1991, pp25-31.
disponible sur le site Web : http://www.ugr.es/~batanero/ListadoEstadistica.htm
BATANERO C., GODINO J. D., GREEN D. R., HOLMES P., VALLECILLOS A., (1991), Errores y difficultades en la
comprension de los conceptos estadisticos elementales , International Journal of Mathematics Education in
Science and Technology, 25(4), 527-547.
disponible sur le site Web : http://www.ugr.es/~batanero/.htm
CLEVELAND W.S., (1993), Visualizing Data , Hobart Press, Summit, New Jersey, USA.
CLEVELAND W.S., (1994), The Elements of Graphing Data, Hobart Press, Summit, New Jersey, USA.
CHAMBERS J.M., CLEVELAND W.S., KLEINER B.,TUKEY P.A., (1983) Graphical Methods For Data Analysis ,
Wadsworth International Group, Monterey, Californie.
DESTANDAU S., LADIRAY D., LE GUEN M., (1999), lAnalyse Exploratoire des donnes et SAS/INSIGHT,
Courrier des Statistiques, n90, juin 1999, INSEE, pp3-44.
ERICKSON, B. H., & NOSANCHUK,T. A., (1992), Understanding Data : An introduction to exploratory and
confirmatory data analysis for students in the Social Sciences .
Milton Keynes, Open University Press, 1977, 2e dition 1992.
FOX J. & LONG J.S., (1990), Modern Methods Of Data Analysis, Sage Publications.
GONICK L. et SMITH W., (1993), The Cartoon Guide to Statistics , HarperPerennial.
LE GUEN M., (1999), L'Analyse exploratoire des donnes est au cerveau droit, ce que lanalyse confirmatoire
est au cerveau gauche, les deux doivent communiquer pour traiter linformation .
Document de Travail MATISSE - LES n99-05.
LE GUEN M., (1999) De limportance de limage, Courrier des Statistiques, n90, juin 1999, INSEE, pp7-9.
page 13/14
http://www.itl.nist.gov/div898/handbook/eda/section3/boxplot.htm
http://www.ruf.rice.edu/~lane/hyperstat/A37797.html
http://research.ed.asu.edu/siip/briefs/boxplots.computing.html
http://www.cmh.edu/stats/fund/boxplot.htm
http://www.math.sfu.ca/stats/Courses/Stat-301/Handouts/node32.html
Applet d'un site franais permettant le calcul des diffrents lments d'une bote moustaches
http://www.math-info.univ-paris5.fr/~ycart/mst99/demiguel/demiguel.html
Pour raliser des Box Plots avec EXCEL
Spreadsheets in Education
http://sunsite.univie.ac.at/Spreadsite/ contient de nombreuses rfrences en Excel
Projets denvironnement et denseignement de la Statistique en franais
SEL Statistique en ligne de lINRIA
http://www.inrialpes.fr/sel/
avec des ralisations de botes dciles http://www.inrialpes.fr/sel/lexique/diag_boite/diag_boite.html
SMEL Simulations en ligne de lINRIA
http://www.inrialpes.fr/sel/simulations/cadre_simulations.html
St@tNet du CNAM
http://www.cnam.agropolis.fr/statnet/
Bibliographie de JOHN W. TUKEY
http://www-groups.dcs.st-and.ac.uk/~history/Mathematicians/Tukey.html
http://stat.bell-labs.com/who/tukey/index.html
Association MIRAGE (Mouvement International pour le Dveloppement de la Recherche en Analyse
Graphique et Exploratoire).
http://www.unige.ch/ses/sococ/mirage/ nombreuses rfrences sur la Visualisation et lExploration.
Voir la rubrique Nouvelles Juin 2001 pour une discussion sur la terminologie franaise des Box Plots :
bote moustaches, bote pattes et bote dciles.
Association Pnombre propose un espace public de rflexion et d'change sur l'usage du nombre dans les
dbats de socit: justice, sociologie, mdias, statistiques.
http://www.unil.ch/penombre
page 14/14