Statistiques Probabilités
Statistiques Probabilités
Statistiques Probabilités
com
Retrouver ce titre sur Numilog.com
Statistiques et probabilités
pour les sciences économiques et sociales
Retrouver ce titre sur Numilog.com
COLLECTION MAJOR
DIRIGÉE PAR PASCAL GAUCHON
Retrouver ce titre sur Numilog.com
Statistiques et probabilités
pour les sciences économiques
et sociales
par
Maurice Comte
Joël Gaden
ISBN2 13049682 2
Dépôt légal —lre édition : 2000, mars
9)Presses Universitaires de France, 2000
108, boulevard Saint-Germain, 75006 Paris
Retrouver ce titre sur Numilog.com
Tabledesmatières
CHAPITRE 1
DÉFINITIONS
CHAPITRE II
DISTRIBUTIONS À UN CARACTÈRE,
TABLEAUXET GRAPHIQUES
11.1 Tableaux 21
II. 1.1 Le fichier individus/variables 21
II.1.2 Caractère qualitatif ordinal ou nominal ...................... 24
11.1.3 Variable quantitative discrète 25
11.1.4 Variable quantitative continue 27
11.2 Graphiques 28
11.2.1 Caractère qualitatif 28
11.2.2 Variable quantitative discrète 34
11.2.3 Variable quantitative continue................................ 37
Exercices ............................................................. 52
Retrouver ce titre sur Numilog.com
CHAPITRE III
ANALYSED'UNE VARIABLE QUANTITATIVE
III. 1 Caractéristiques de tendance centrale 61
111.1.1 Mode 61
III. 1.2 Médiane 64
111.1.3 Moyenne arithmétique 72
III. 1.4 Moyenne géométrique 76
111.1.5 Moyenne harmonique 79
III. 1.6 Tableau synoptique 82
111.2 Dispersion 84
111.2.1 Étendue 85
111.2.2 Intervalle interquartile 86
111.2.3 Moyenne des écarts absolus 88
111.2.4 Variance, écart-type 89
111.3 Concentration 92
111.3.1 Courbe de Lorenz 93
111.3.2 Indice de Gini 100
Exercices 102
CHAPITRE IV
REPRÉSENTATION ET ANALYSE
D'UNE DISTRIBUTIONÀDEUX CARACTÈRES
IV.1 Relations entre caractères qualitatifs nominaux 115
IV.1.1 Distributions marginales et conditionnelles : principes 116
IV.1.2 Formalisation 122
IV.1.3 Représentation graphique du croisement de caractères quali-
tatifs 125
IV.2 Relations entre variables quantitatives 127
IV.2.1 Représentation graphique 127
IV.2.2 Caractéristiques marginales et conditionnelles 129
Exercices 132
CHAPITRE V
LIAISON ENTRE VARIABLES QUANTITATIVES :
RÉGRESSION ET CORRÉLATIONLINÉAIRE
V.1 Le choix des formes 141
V,1.1 Pourquoi rechercher une courbe simple ?...................... 141
Retrouver ce titre sur Numilog.com
CHAPITRE VI
LES NOMBRES INDICES
CHAPITRE VII
SÉRIES CHRONOLOGIQUES :
L'OBSERVATIONDES ÉVOLUTIONS TEMPORELLES
CHAPITRE VIII
SÉRIES CHRONOLOGIQUES :
CORRECTIONDES VARIATIONS PÉRIODIQUES
CHAPITRE IX
COMBINATOIRE
CHAPITRE X
GÉNÉRALITÉS SUR LES PROBABILITÉS
CHAPITRE XI
VARIABLESALÉATOIRES RÉELLES
XI.1 Généralités 327
XI.1.1 Définition d'une variable aléatoire réelle 327
XI.1.2 Fonction de répartition d'une variable aléatoire réelle 327
XI.2 Variables aléatoires discrètes 329
XI.2.1 Définition d'une variable aléatoire discrète 329
XI.2.2 Loi de probabilité d'une variable aléatoire discrète 329
XI.2.3 Fonction de répartition d'une variable aléatoire discrète 330
XI.2.4 Moments d'une variable aléatoire discrète 336
XI.3 Variables aléatoires continues ou encore à densité 341
XI.3.1 Densité de probabilité d'une variable aléatoire continue 341
XI.3.2 Fonction de répartition d'une variable aléatoire continue 342
XI.3.3 Propriétés générales d'une variable à densité 344
XI.3.4 Espérance mathématique d'une variable à densité 349
XI.3.5 Variance d'une variable à densité 353
XI.3.6 Écart-type d'une variable à densité .......................... 356
Retrouver ce titre sur Numilog.com
CHAPITRE XII
LOIS DISCRÈTES USUELLES
XII.1 Lois discrètes finies 369
XII.1.1 Loi de Bernoulli B(1;p) 369
XII.1.2 Loi Binomiale B(n;p) 372
XII.1.3 Loi Uniforme U(n) 382
XII.1.4 Loi Hhypergéométrique H(N, n,p) 388
XII.2 Lois discrètes infinies 393
XII.2.1 Loi géométrique GN(P) ou loi de Pascal 393
XII.2.2 Loi géométrique GN*(p) sur N* 399
XII.2.3 Loi de Poisson P(À) avec 0 402
CHAPITRE XIII
LOIS CONTINUES USUELLES
(OUÀDENSITÉ)
Avant-propos 409
XIII.1 Loi uniforme U([a;b]) 410
XIII.1.1 Principe et fonction densité 410
XIII.1.2 Fonction de répartition 411
XIII.1.3 Espérance 412
XIII.1.4 Variance 412
XIII.1.5 Ecart-type 413
XIII.1.7 Remarque 418
XIII.2 Loi exponentielle E(a) 418
XIII.2.1 Principe et fonction densité 418
XIII.2.2 Fonction de répartition 420
XIII.2.3 Espérance 420
XIII.2.4 Variance 422
XIII.2.5 Ecart-type 423
XIII.3 Loi normale N(m; a) encore appelée loi de Gauss 427
XIII.3.1 Principe et fonction densité 428
XIII.3.2 Fonction de répartition 430
XIII.3.3 Espérance 432
XIII.3.4 Variance 432
XIII.3.5 Ecart-type 432
XIII.4 Loi normale N(O; 1) centrée et réduite ....................... 432
Retrouver ce titre sur Numilog.com
CHAPITRE XIV
APPROXIMATIONDE LOIS USUELLES. UTILISATION
DES TABLES NUMÉRIQUES. PAPIER
GAUSSO-ARITHMÉTIQUE ET DROITE DE HENRY
Avant-propos 461
XIV.1Approximation de lois usuelles 461
XIV.1.1 Conditions d'approximation 461
XIV.1.2 Correction de continuité 462
XIV.1.3 Exercices 463
XIV.2 Utilisation des tables numériques 470
XIV.2.1 Table de la loi de Poisson P(À) 470
XIV.2.2 Table de la loi Binomiale B(n;p) 474
XIV.2.3 Table de la loi Normale centrée-réduite N(O; 1) 476
XIV.3 Papier Gausso-Arithmétique et droite de Henry ............. 480
XIV.3.1 Principe de l'échelle gaussienne 480
XIV.3.2 Papier gausso-arithmétique 481
XIV.3.3 Utilisation du papier gausso-arithmétique 481
XIV.3.4 Droite de Henry 481
CHAPITRE XV
COUPLES DE VARIABLESALÉATOIRES
Avant-propos 489
XV.1 Loi conjointe 489
XV.2 Lois marginales 493
XV.3 Lois conditionnelles 495
XV4 Indépendance des variables 497
XV.5 Covariance 498
XV.6 Coefficient de corrélation linéaire ............................. 501
Retrouver ce titre sur Numilog.com
Avant-propos
Définitions
I.1. LAMÉTHODESTATISTIQUE
1.1.1 Une définition extensive de la statistique
Pour bien comprendre les enjeux, nous partirons des statistiques : ce sont
ces colonnes de chiffres que l'on trouve en abondance dans les publications les
plus diverses (annuaires, bases de données, etc.) et reprises aussi bien dans les
publications scientifiques quejournalistiques. Par eux-mêmes, ces nombres sont
des objets mathématiques et leur signification est nulle. Pour leur donner
sens, deux opérations fondamentales doivent être effectuées.
1. Il faut les rapporter à une réalité dont ils sont les indicateurs quantifiés.
Par exemple, l'indice des prix à la consommation est un indicateur possible (mais
il en existe d'autres) de l'inflation, le nombre des chômeurs est un indicateur
de la sous-utilisation de la main d'oeuvre, etc. Cette relation entre un concept
abstrait et un indicateur est le premier champ de la méthode statistique,
que l'on pourrait appeler méthodologie de la quantification. Il s'agit de
l'ensemble des méthodes, des outils, des techniques, qui permettent de définir
un contenu d'information et la manière d'obtenir un indicateur quantifié lui
correspondant. Les techniques statistiques, la statistique en tant que branche
des mathématiques ne sont nullement absentes à ce stade, mais elles sont des
auxiliaires dans des constructions principalement logiques :
- l'analyse de données et la classification automatique aident à créer des
nomenclatures, c'est-à-dire à diviser les observations en catégories (comme les
catégories socioprofessionnelles) ; il n'en reste pas moins qu'elles utilisent des
critères définis a priori par l'observateur ;
- la théorie del'échantillonnage permet de trouver la procédure de sondage la
plus économique et la plus efficace dans tel ou tel contexte précis et de calculer
Retrouver ce titre sur Numilog.com
les incertitudes sur les résultats. Son influence sur la définition des objectifs se
résume à des contraintes techniques.
2. Les chiffres obtenus ont ainsi un contenu précis et il reste à les mettre
en relation les uns avec les autres (comparaison, évolution, etc.) et à les
interpréter.
- La mise en relation utilise des méthodes assez simples, ce qu'on appelle la
statistique descriptive, ou beaucoup plus complexes, la statistique inférentielle.
Onpeut parler, mêmesi celaest unpeutrop restrictif, detechnique statistique,
englobant les deux aspects dont la séparation sémantique ne sejustifie guère.
- L'interprétation statistique, qui est la vraie finalité de tout le reste, est
un art spécifique, qui doit associer une connaissance parfaite des techniques
statistiques et une compréhension exacte des hypothèses de nature logique ou
théorique qui ressortent au champ disciplinaire (économique, sociologique, ...)
exploré.
En d'autres termes, la statistique dans son ensemble n'est jamais indépen-
dante des choix effectués par l'observateur ou l'analyste.
L'expression «ce sont les chiffres », malheureusement fort souvent utilisée,
traduit une grave confusion entre les nombres, qui sont des êtres mathémati-
ques abstraits, et les statistiques, quisont des représentations dephénomènes
bien réels. Lespremiers s'imposent àtous, les secondes supposent des hypothèses,
des choix, qui peuvent fortement dépendre du point de vue (théorique, politique)
adopté.
Peut-on en déduire qu'« onleur fait dire cequ'onveut »?Cette expression tout
aussi banale traduit une autre forme de méconnaissance profonde du travail
statistique : les statistiques sont utilisables pour tromper ou désinformer, mais
ni plus ni moins que le langage. Cequi permet à l'auditeur attentif de traquer le
mensonge dans un discours, c'est sa bonne connaissance de la langue (syntaxe,
vocabulaire) et des faits ;il en est demêmepour la manipulation statistique. S'il
existe une différence, c'est que le nombre de gens qui connaissent les techniques
statistiques est beaucoup plus faible que ceux qui maîtrisent la langue...
En statistique, la manipulation des résultats est moins dangereuse que la
non-compréhension de leur champ d'application. Correctement collectées - ce
qui dépend moins des personnes que des institutions -, clairement définies, les
statistiques traitées en respectant les règles de l'art de la méthode statistique
sont un instrument irremplaçable au service de la connaissance. En effet,
si la capacité des chercheurs à inventer sans cesse de nouvelles théories ou
à affiner des théories anciennes est sans limites, la démarche déductive en
sciences humaines est d'une faible puissance. En l'absence d'expériences au
sens d'expériences contrôlées et programmées, la quantification est un moyen
de tester des hypothèses : bien sûr, aucun test ne fournira jamais de preuve
décisive de la fausseté ou de la vérité d'une théorie, mais l'accumulation des
tests utilisant des méthodes ou des données différentes, finit par créer de fortes
présomptions. En économie, les effets sur la croissance de l'innovation technique
ou de l'accumulation du capital humain ne peuvent plus guère être niés, même
s'il reste de nombreuses incertitudes quant à leur quantification ou à leur
mode de diffusion. En sociologie, les conséquences parfois peu discernables de
Retrouver ce titre sur Numilog.com
1.2.1 Population
La population (la population française, les moins de 25 ans, etc.) est une
notion trop évidente : on prend connaissance rapidement de son contenu dans
le titre du tableau ou du graphique. Si on reprend sa définition de base, elle
est pourtant une élément d'information décisif, puisqu'elle désigne l'ensemble
des unités statistiques concernées par l'étude quantitative. Trois aspects
méritent réflexion.
- Les composants de la population ou unités statistiques sont les éléments
qui font l'objet d'un dénombrement ou sur lesquels on observe certaines
caractéristiques. Ils sont très divers : il s'agit souvent de personnes, mais bien
plus souvent encore d'entités. Celles-ci peuvent être définies institutionnellement
(États, entreprises, communes), ou de manière abstraite : un ménage est une
entité de décision économique, qui peut se limiter à une personne, ou comprendre
un ensemble de personnes, reliées ou non par des liens familiaux.
- L'ensemble des unités concernées. On distinguera soigneusement les unités
observées et concernées : les premières ne peuvent être qu'un sous-ensemble
très réduit des secondes, un échantillon. Ainsi, beaucoup de propositions
(60% des Français sont favorables à ..., la majorité des chefs d'entreprises
considèrent que ...) sont la généralisation à l'ensemble de la population de
référence d'observations réalisée sur un millier de personnes environ. Sous
réserve que l'échantillonnage soit réalisé dans les règles et moyennant quelques
précautions dans l'interprétation (cf sur ce point, les ouvrages de théorie
de l'échantillonnage), cette généralisation est parfaitement admissible. Nous
considérerons dans cet ouvrage que l'observation est exhaustive, c'est-à-dire
qu'elle concerne l'ensemble de la population, même s'il s'agit parfois seulement
d'échantillons.
- Si on se réfère à la population concernée, la question de «l'ensemble » n'est
pas pour autant réglée. Elle définit les contours de la population étudiée. En
raison des choix effectués au moment du recueil de l'information ou de problèmes
de sources, la population dénombrée ne correspond pas nécessairement à l'objet
de l'étude. Par exemple, des pans entiers du dispositif français d'observation de
la vie des entreprises ne concernent que les entreprises de plus de 10 ou de 20
(voire 50) salariés. Pourtant, les commentaires évoquent le plus souvent «Les
Retrouver ce titre sur Numilog.com
Les variables ou caractères désignent les angles sous lesquels a été réalisée
l'observation des unités statistiques. Par exemple, les entreprises peuvent être
décrites à l'aide d'une multiplicité d'indicateurs : la forme juridique, l'adresse,
l'effectif de chaque catégorie de personnel, le chiffre d'affaires, les ventes, le
bénéfice, les immobilisations, l'endettement, etc.
Le concept et l'indicateur
Chacun de ces indicateurs est construit pour représenter un phénomène plus
général, un concept ou une notion. La relation d'adéquation entre le concept
et l'indicateur est particulièrement importante, et trop souvent négligée dans
l'analyse statistique.
La productivité du travail d'une entreprise n'est pas toujours bien traduite
par le rapport de la valeur ajoutée à l'effectif global : un simple accroissement de
la main-d'œuvre travaillant à mi-temps fait chuter la productivité par tête. De
même, une étude sociologique visant à étudier le comportement des chômeurs
aura quelque peine à utiliser la statistique des «chômeurs au sens du BIT » :
orienté par des principes économiques, ce dénombrement exclut les personnes
ayant effectué un travail, même insignifiant (1 heure dans la semaine).
Au-delà de la question de la représentativité des indicateurs, celle de leur
signification est encore plus délicate et doit être élucidée avant de procéder à
toute analyse quantitative, quelle qu'elle soit. Il arrive qu'un même indicateur se
rapporte à plusieurs phénomènes. Ainsi, l'âge des personnes traduit à la fois les
effets biologiques du vieillissement (maladies, coût des soins), les conséquences
d'un changement de position dans la vie active (expérience dans l'emploi, passage
à la retraite), ou bien encore des effets de génération : le niveau de diplôme de
la personne est bas car elle est née à une période où l'enseignement supérieur
n'était pas généralisé, ses goûts musicaux correspondent à ceux de la mode
existant lors de son adolescence, etc.
Le traitement statistique, au sens étroit de manipulation des données, peut
dans une certaine mesure faire abstraction des considérations précédentes :
un âge moyen est calculable sans savoir à quoi cette moyenne va servir. En
revanche, la nature du caractère importe considérablement pour le choix des
représentations graphiques et des techniques d'interprétation.
Retrouver ce titre sur Numilog.com
Caractères et variables
Caractères qualitatifs
Les caractères qualitatifs se définissent par le fait que les différents états
possibles de l'indicateur ne sont pas mesurés à l'aide de nombres, mais de
modalités. Le sexe (modalités : masculin, féminin), la couleur des yeux (bleu,
vert, etc.), le degré de satisfaction (fort, moyen, faible), sont des caractères
qualitatifs.
Ces exemples mettent en évidence deux catégories :
- les caractères ordinaux :les modalités sont des mots décrivant des «états »
de la variable correspondant à une hiérarchie, un rang. Le degré de satisfaction,
le niveau de diplôme (en partie), sont des caractères ordinaux ;
- les caractères nominaux : les modalités sont toujours des mots, mais il
n'existe aucun rangement, ou au moins aucun rangement unique des variables.
Le sexe, la nationalité, la localité, le type d'activité, le statut juridique, etc.,
sont dans le premier cas. La catégorie socio-professionnelle est plutôt dans le
second : certaines hiérarchies existent (cadre > employé), mais il est impossible
d'ordonner l'ensemble en raison de la complexité de la notion de «hiérarchie
sociale »:en moyenne, un cadre a ainsi beaucoup plus de diplômes qu'un patron,
mais un revenu inférieur.
Caractères quantitatifs ou variables
e Un caractère est quantitatif si la caractéristique observée sur l'individu
statistique s'exprime sous la forme d'une valeur numérique. Le nombre
d'enfants, le revenu, la taille, le chiffre d'affaires, le nombre d'employés, la
surface des ateliers, etc., sont dans ce cas. On désigne souvent ces caractères
sous le terme de variables quantitatives ou tout simplement de variables1. Le
traitement statistique implique de distinguer entre les variables discrètes et
continues.
Unevariable continue prend toutes les valeurs d'un intervalle :l'âge, la durée,
etc. sont des variables continues.
Une variable discrète est une variable ne prenant que des valeurs entières
au sein d'un intervalle : le nombre de frères et sœurs, nombre de pièces d'un
logement, etc.
e La distinction entre variables continues et discrètes n'est pas tou-
jours évidente. Une approche «puriste »retient une définition mathématique
stricte : dans ce cas, le budget d'un ménage est une variable discrète, contrai-
rement à la taille des personnes ou à la surface d'un logement. En effet, une
somme ne peut être exprimée avec une unité inférieure à la plus petite unité
monétaire existante (le centime en France2), tandis qu'il est théoriquement
possible de mesurer la taille ou la surface avec une unité aussi petite que l'on
souhaite. Cette approche est à la fois discutable du point de vue logique et
1 En pratique, on appelle également très souvent les caractères quantitatifs des variables. Dans cet
ouvrage, dans un but pédagogique, nous réserverons le terme « variable » à des caractères quantitatifs.
2 Notons que la discrétisation de l'unité monétaire conduit à des résultats très différents aux USA (le
cent) et en Italie (la lire).
Retrouver ce titre sur Numilog.com
Echelles quantitatives
Chaque individu statistique est caractérisé par une valeur. Rappelons que
l'élément essentiel différenciant les variables continues est que, pour une valeur
donnée de la variable, il existe un individu ou quelques individus. Au contraire,
dans le cas des variables discrètes, il existe un grand nombre d'individus
caractérisés par la même valeur : tous les logements de 3 pièces.
e Dans un cas comme dans l'autre, les opérations arithmétiques telles que
l'addition sont possibles, même si leur sens n'est pas toujours évident : il est
légitime d'additionner les tailles des individus (pour calculer la moyenne), même
si cela ne correspond à rien (contrairement au poids).
a Parmi les échelles quantitatives, ont fait parfois la différence entre celles
qui disposent d'un 0 absolu, i.e. d'une valeur traduisant le fait que l'individu n'a
pas la caractéristique mesurée : pas d'enfant, pas de succursale, etc. Le 0 ayant
une signification, la multiplication et la division sont possibles, ce qui fait qu'on
parle d'échelle de rapports.
D'autres échelles n'ont pas cette propriété : le 0 est une valeur conventionnelle
que l'on place où l'on veut, l'échelle ayant seulement la propriété de conserver
les intervalles. Le temps est un bon exemple : la représentation graphique ne
sera pas modifiée si on numérote de 1 à n ou de t à t + (n - 1).
La question du zéro absolu est loin d'être simple ou anodine. Ainsi, quand on
compare des taux de chômage ou des taux de natalité à l'échelle internationale,
faut-il utiliser des rapports (échelle absolue) ou des écarts (échelle relative) ?
- Soient trois pays avec trois taux de natalité de 1, 1,5 et 2 pour mille. L'écart
entre le premier et le second est-il identique à celui existant entre le second et
le troisième (+0,5 points) ou différent (+50% ; +33,33%) ?
- Il existe bien un zéro absolu, mais la valeur moyenne étant proche de 0,
il en résulte une forte disymétrie entre les écarts au-dessus et au-dessous de la
moyenne, qui semble difficile à justifier. Du point de vue du sens, l'écart absolu
ou d'autres distances (logistique) seront plus appropriés.
Recueil de l'information et choix des variables
33 250 0,25
46 320 0,32
. . . . . . . . .
^ Il s'agit d'une variable discrète dans le contexte, puisque la variable n'a que 10 modalités. Elle serait
(de facto) continue si l'investigation portait sur toutes les entreprises sans limite de taille.
Retrouver ce titre sur Numilog.com
Propriétés
Le langage traduit de manière simple les propriétés de la somme.
Donnons-en quelques exemples.
- Multiplication de chaque terme par une constante quelconque a :
Somme = ax, + aX2 + aX3 + ... + axn.
Le terme a se met en facteur commun :
Somme = a(x1+ X2+ X3+ --- + xn).
Or, le terme entre parenthèse n'est pas autre chose que la somme de 1 à n
des x dont nous avons fourni l'écriture simplifiée ci-dessus. Il en résulte une
première règle de calcul sur le signe : les termes constants peuvent être mis
en facteur commun.
(1)
(2)
(3)
(11)
- Appliquons au produit de termes constants
(2')
(30
(1")
EXERCICES
Exercice 1.1
Exercice 1.2
Exercice 1.3
Exercice 1.4
3
Calculez en utilisant l'opérateur 3(xi + 4).
i=l
Vérifiez votre calcul sur le tableau comprenant Xi = [2 ; 3 ; 5].
Retrouver ce titre sur Numilog.com
Xi 3(xi + 4)
2 18
3 21
5 27
10 66
On vérifie que :
66 = 3 * 10 + 36.
Exercice 1.5
Calculez,enutilisantlecaséchéantlesolgarhtimes: ;.
Solution de l'exercice 1.5
En logarithmes :
Retrouver ce titre sur Numilog.com
Exercice 1.6
Chaque terme a la même forme, celle d'un produit XiYi. Ces termes ont une
forme identique : .
NB. Une erreur très fréquente consiste à écrire que S est le produit des
2
Distributions à uncaractère,
tableauxetgraphiques
II. 1. TABLEAUX
Les tableaux statistiques se ressemblent beaucoup :un ensemble d'intitulés de
lignes, une colonne où figurent des effectifs ou des fréquences. Cette similarité
est purement formelle : les intitulés des lignes ont des significations très
différentes selon les caractéristiques du caractère et conditionnent la manière
d'interpréter les distributions de fréquences.
dans des sous-catégories détaillées : que ferez-vous du rythm and blues, du rap,
de la salsa, etc.l ?
- Le choix du nombre de catégories retenues. Il n'est pas sans lien avec ce
qui précède : ne faut-il pas conserver un très grand nombre de catégories, ce qui
éviterait largement le dilemme du regroupement ? Deux éléments empêchent
qu'il en soit ainsi. En premier lieu, en conservant beaucoup de classes, certaines
d'entre elles finissent par ne regrouper que quelques individus. Cela veut dire
qu'on ne peut plus utiliser valablement les résultats des sondages et, plus
généralement, qu'on sort du champ des «phénomènes nombreux » dont traite la
statistique. En second lieu, la manipulation et l'interprétation de ces catégories
se heurtent à des difficultés considérables : on crée des tableaux gigantesques,
dont il s'avère rapidement qu'ils ne contiennent guère plus d'information que
des tableaux regroupés...
Au total, les caractères qualitatifs sont difficiles à interpréter, dans la
mesure où le code qui leur est affecté est une simplification très radicale, une
condensation produite par une méthode d'observation, qu'il est indispensable de
bien comprendre.
Base de données
Exemple
sexe effectif
h I 11 1 I
f II I I1
revenu proportion
homme 44 000 0,524
femme 40 000 0,476
total 84 000 1,000
3 Voir le chapitre 1.
Retrouver ce titre sur Numilog.com
II.2. GRAPHIQUES
La sélection d'une représentation graphique adaptée répond à des règles
précises. Les graphiques traduisent parfaitement l'essence de la statistique
descriptive : permettre à un utilisateur de saisir rapidement l'essentiel
du contenu d'un ensemble de données très nombreuses. S'ils ne sont pas
construits dans cet esprit, les graphiques suscitent des erreurs d'interprétations
graves. C'est dire que toute autre considération (esthétique, «simplicité », etc.),
pour respectable qu'elle soit, doit passer après le respect strict des principes
méthodologiques, qui sont, là-encore, différents selon la nature (qualitative ou
quantitative) du caractère étudié.
Une fréquence 0,15 est représentée par un angle de 0,15 * 360 = 54° .
Exemple
Etablissements d'enseignement. France 1994-95 (effectifs)
18989
Ecoles maternelles : 360* 71445 = 360 *0, 2658 = 95, 688 95, 7degrés.
Retrouver ce titre sur Numilog.com
Avantages et inconvénients
Avantages et inconvénients
e Le graphe non cumulé est très simple à réaliser ; il reste lisible, même
avec un grand nombre de modalités en particulier du fait de l'inscription directe
de la légende.
a Le graphique cumulé, privilégie la distribution des fréquences. Du point
de vue technique, il est préférable au diagramme circulaire :
- s'il est également difficile de faire figurer directement les intitulés de
modalités, cet inconvénient est moins grave dans la mesure où la lecture d'une
légende empilée verticalement (pour un tuyau d'orgue) se fait parallèlement aux
aires représentées sur le graphique ;
- ce diagramme permet dans de bonnes conditions de représenter simul-
tanément plusieurs caractères (cf chapitre 4).
Pictogramme
Principe
Encore appelé diagramme figuratif, le pictogramme consiste à remplacer
les tuyaux du diagramme non cumulé par des images plus évocatrices : une
silhouette masculine ou féminine pour une distribution par sexe, un tonneau
pour la production de vin, etc. Cette représentation est très appréciée dans
la presse car elle ouvre une infinité de variantes amusantes ou esthétiques.
Malheureusement, elle est extrêmement dangereuse lorsqu'elle méconnaît la
règle fondamentale énoncée ci-dessus : le cerveau interprète les graphiques en
fonction des surfaces et non des hauteurs.
Retrouver ce titre sur Numilog.com
Exemple
Cediagrammechercheàreprésenter lesventes d'ordinateurs dansunmagasin
spécialisé en 1995et en 1999. Essayez d'estimer les ventes en 1999, sachant que
la valeur en 1995 est 100 millions de francs.
Courbe cumulative
e La fonction cumulative ou fonction de répartition F(x) se définit par la
proportion (ou le nombre) d'individus dont le caractère a une valeur strictement
inférieure à x.
Appliquons de manière littéraire à notre exemple : -F(4) est la proportion de
mères ayant moins de 4 enfants, c'est-à-dire la somme des proportions de mères
ayant 1, 2 ou 3 enfants.
F{xi) = fi + f2 + •••+ fi —1
Exemple
nombre d'enfants xi fréquence fi fréquence cumulée F(xi )
1 20,6 0
2 38,1 20,6
3 23,2 58,7
4 9,5 81,9
5 4,1 91,4
6 ou + 4,5 95,5
ensemble 100,0 100,0
Représentons par des points la fonction F(x), on obtient :
P1(1 ; 0) ; P2(2 ; f1 = 20,6) ; P3(3 ; f1 + f2 = 20,6 + 38,1 = 56,7), etc.
www.puf.com
259 FF
Participant d’une démarche de transmission de fictions ou de savoirs rendus difficiles d’accès
par le temps, cette édition numérique redonne vie à une œuvre existant jusqu’alors uniquement
sur un support imprimé, conformément à la loi n° 2012-287 du 1er mars 2012
relative à l’exploitation des Livres Indisponibles du XXe siècle.
Cette édition numérique a été réalisée à partir d’un support physique parfois ancien conservé au
sein des collections de la Bibliothèque nationale de France, notamment au titre du dépôt légal.
Elle peut donc reproduire, au-delà du texte lui-même, des éléments propres à l’exemplaire
qui a servi à la numérisation.
Cette édition numérique a été fabriquée par la société FeniXX au format PDF.
*
La société FeniXX diffuse cette édition numérique en accord avec l’éditeur du livre original,
qui dispose d’une licence exclusive confiée par la Sofia
‒ Société Française des Intérêts des Auteurs de l’Écrit ‒
dans le cadre de la loi n° 2012-287 du 1er mars 2012.