Statistique
Statistique
Statistique
Objectifs :
CONTENU :
I. Généralités
• Définition, origine et importance de la statistique.
• Elaboration de statistiques : les sources d’information, les grandes étapes des
enquêtes statistiques, la présentation des résultats : les tableaux statistiques,
représentation graphique.
• Vocabulaire statistique
V. Indices statistiques
• Indices simples, indices composés.
Bibliographie :
- Hubert Carnec, René Seroux, Jean Michel Dagoury, Marc Thomas : Itinéraires en
statistique et probabilités, ELLIPSES,Année 2000
- B. Godfardb, C.Pardoux : Introduction à la méthode statistique, DUNOD, Année 2000
- P.CHAREILLE, Y.PINAULT : Statistique Descriptivie 3ème Edition 2000,
MONTCHRESTIEN
- Murray, Spiegel, Larry J. Stephens : Theory and problems of statistics third edition. 1998
INTRODUCTION
Pour résoudre des problèmes en génie, des données doivent être recueillies, décrites et
analysées pour produire des informations sommaires. Le rôle des statistiques descriptives est
de donner une idée sommaire sur les données par le calcul d’un nombre de statistiques et par
des représentations graphiques.
I) Généralités
1) Définition, origine et importance de la statistique.
La statistique est la science qui a pour objet de recueillir, organiser, classer, présenter et
interpréter les données. La statistique (science) est à distinguer d’une statistique
(généralement employée au pluriel) qui désigne un chiffre ou une collection de chiffres se
rapportant à un sujet quelconque et élaborés grâce à des outils et des méthodes statistiques.
Le déroulement d’une enquête statistique peut être résumé en quatre (4) grandes étapes :
1. La conception : Elle consiste à définir les objectifs de l’étude, définir l’ensemble de l’étude
ainsi que les critères à étudier, à concevoir les outils nécessaires à la collecte des informations
(questionnaires, guide d’entretien, manuels des agents, etc.). Elle doit également définir les
résultats attendus, notamment les indicateurs essentiels à calculer.
2. La phase de collecte : Elle comprend la formation des acteurs, la sensibilisation des
personnes cibles, l’observation et l’enregistrement de l’information à l’aide de questionnaires.
La collecte peut se faire par interview directe, par courrier (poste, e-mail), par téléphone, etc.
3. La phase de traitement : Elle consiste à la validation des questionnaires, la codification des
réponses, le dépouillement (manuel ou automatique) et le traitement éventuel des données
manquantes, des erreurs de saisie, etc.
4. La phase d’analyse et de diffusion : Calcul des indicateurs, critique et interprétation des
résultats, présentation des résultats obtenus.
d) Critiques de la statistique
A tort ou à raison, plusieurs griefs sont souvent faits à la statistique :
« La statistique porte sur des faits passés et apporte trop tard ses enseignements » Pas
toujours vrai puisqu’il existe des méthodes d’observation continue et des méthodes de
prévision.
« Les statistiques sont fausses » Bien sûr si les bases ont été faussées ou si les méthodes
utilisées ne sont pas scientifiquement correctes. C’est pour cela il est nécessaire de
comprendre les statistiques pour les interpréter.
« Les statistiques aboutissent à des conclusions relatives au comportement d’ensemble et non
à celui de l’individu. » C’est précisément l’objet de la statistique
« Une des formes les plus raffinées du mensonge. » Nécessité de connaître clairement de quoi
il s’agit, les concepts et les méthodes utilisées afin de mieux porter son jugement.
a) natalité, les accidents de la route, le revenu des ménages, l’épargne des
ménages, la
b) consommation des ménages, l’âge, la taille, le chômage, la pauvreté, la misère, la
souffrance,.
3) Vocabulaire statistique
On précise ici un certain nombre de termes statistiques très courants qui seront régulièrement
utilisés par la suite et qu’il convient de bien connaitre.
- Population (ou population statistique) : ensemble concerné par une étude statistique.
On parle aussi de champ de l’étude. Si l’on s’intéresse aux notes d’un groupe
d’´étudiants, ce groupe constitue la population. A noter que si l’on s’intéresse
maintenant a` la circulation automobile dans Toulouse, la population est alors
constituée de l’ensemble des véhiculés susceptibles de circuler dans Toulouse a` une
date donnée. Le terme de population et donc plus large en statistique que dans le
langage courant.
- Individu (ou unité statistique) : on désigne ainsi tout élément de la population
considérée. Dans les exemples indiqués ci-dessus, un individu est tout ´étudiant du
groupe dans le premier cas et tout véhicule susceptible de circuler dans Toulouse dans
le second. L`a encore, on constate que le terme d’individu est plus large en statistique
que dans le langage courant.
- Echantillon : dans une étude statistique, il est fréquent que l’on n’observe pas la
population tout entière (par exemple, on n’observe pas tous les véhiculés ayant circulé
un jour donner dans Toulouse, mais seulement ceux ´étant passés dans certains points
particuliers). Les observations du phénomène considère sont donc réalisées sur une
partie restreinte de la population, appelée échantillon. On appelle donc échantillon le
sous-ensemble de la population sur lequel sont effectivement réalisées les
observations.
- Taille de l’échantillon : c’est le cardinal de l’échantillon, autrement dit c’est le nombre
d’individus qu’il contient (échantillon de taille 800, de taille 1000...). En général, on
note n la taille de l’échantillon considère. Enquête (statistique) : c’est l’opération
consistant à observer (ou mesurer, ou questionner. . .) l’ensemble des individus d’un
échantillon (ou, éventuellement, de la population complète).
II) Séries statistiques à une variable
1) Définition, représentation graphique, fréquence.
a) Définition
Une série statistique est la liste des valeurs de la variable statistique observées sur les
individus d’un échantillon d’une population donnée. Lorsque plusieurs variables sont
simultanément observées sur le même échantillon, la série obtenue sera à 2, 3, ou n
dimensions.
b) Exemple
Série statistique du nombre d’enfants à charge de 20 employés d’une entreprise : 1 ; 0 ; 1 ; 2 ;
2 ; 5 ; 4 ; 4 ; 3 ; 1 ; 0 ; 1 ; 0 ; 0 ; 0 ; 6 ; 10 ; 7 ; 1 ; 7
Langue maternelle des élèves d’une classe de 15 élèves : Mooré ; Mooré ; Dioula ; Mooré ;
Français ; Dafing ; Gourmatché, Foulfouldé ; Foulfouldé ; Mooré ; Dioula ; Dioula ; Mooré ;
Mooré ; Mooré.
Salaire mensuel (en milliers de FCFA) des travailleurs d’une entreprise de 10 personnes :
112,0 ; 100,0 ; 215,2 ; 156,0 ; 100,2 ; 115,0 ; 50,1 ; 62,5 ; 150,0 ; 127,7.
Situation matrimoniale de 40 détenus d’une prison (Marié = 1, Célibataire = 2, Divorcé = 3,
veuf = 4 ) : 1 ; 1 ; 3 ; 1 ; 2 ; 1 ; 2 ; 2 ; 4 ; 3 ; 1 ; 2 ; 2 ; 2 ; 1 ; 2 ; 2 ; 2 ; 2 ; 1 ; 3 ; 1 ; 1 ; 1 ; 4 ; 3 ;
1 ; 1 ; 2 ; 1 ; 2 ; 2 ; 3 ; 1 ; 1 ; 2 ; 4 ; 3 ; 2 ; 2.
c) Tableaux
La façon la plus simple de présenter de façon synthétique une série statistique est un tableau
présentant en face de chaque modalité le nombre d’individus de l’échantillon qui portent cette
modalité. Un tel tableau est appelé tableau de dénombrement. Effectif : On appelle effectif ou
encore fréquence absolue d’une modalité M, le nombre d’individus de l’échantillon qui
possèdent cette modalité. La constitution d’un tableau de dénombrement est immédiate dans
le cas des variables qualitatives et des variables quantitatives discrètes. Par contre, dans le cas
des variables continues, il existe une infinité (ou un très grand nombre) de modalités. Il est
donc nécessaire dans ce cas de transformer les données en les regroupant dans des classes de
valeurs (intervalles).
NB : pour les variables continues, Il est conseillé d’avoir des classes d’amplitudes égales.
Cependant, on pourrait être amené à regrouper plusieurs classes lorsqu’elles présentent des
effectifs trop faibles ou nuls. Il existe quelques règles empiriques pour le choix optimal du
nombre de classes :
Représentation graphique
- Diagramme en bâtons et le diagramme circulaire.
Ils servent à représenter les variables qualitatives et les variables quantitatives discrètes. Dans
le cas du diagramme en bâtons, les modalités de la variable sont représentées par des
bâtonnets ou des rectangles (tuyaux d’orgue) dont les hauteurs sont proportionnelles aux
effectifs des modalités.
- Histogramme
C’est la représentation graphique de la distribution des effectifs ou des fréquences d’une
variable statistique continue. A chaque classe de valeurs de la variable portée en abscisse, on
fait correspondre un rectangle basé sur cette classe.
Exercice : Considérons la distribution des salaires mensuel des employés d’une entreprise
donner par le tableau suivant
NB :
Dans le cas où les données sont regroupées par classe, on applique la formule suivante :
b) Moyenne géométrique
c) La moyenne harmonique
d) Moyenne quadratique
Exercice
d) Le coefficient de variation
Interprétation :
- Contrairement aux autres indicateurs de dispersion, le coefficient de variation est sans
unité de mesure. On l’exprime souvent en pourcentage.
- Du fait qu’elle est sans unité, le coefficient de variation présente l’avantage de ne pas
être sensible à l’ordre de grandeur (ou à l’unité de mesure) de la variable mais
seulement à la dispersion des valeurs autour de la moyenne. Ainsi on peut l’utiliser
pour comparer la dispersion de deux séries dont les ordres de grandeur (ou les unités
de mesure) sont différents.
- Un coefficient de variation élevé (respectivement faible) traduit une grande
(respectivement faible) dispersion de la variable autour de la moyenne.
- L’appréciation du niveau (faible ou élevé) du coefficient de variation est laissée aux
soins de l’utilisateur. Cependant une valeur du CV supérieure à 10 % doit susciter des
questions quant à la représentativité de la moyenne comme caractéristique de tendance
centrale.
III) Séries statistiques à deux variables
Pour l’étude de certains phénomènes complexes, il s’avère insuffisant de prendre en compte
un seul caractère. Il faut en considérer simultanément deux ou même davantage.
Naturellement, l’analyse des tableaux correspondants et leur représentation graphique
deviennent plus difficiles. La statistique descriptive à deux dimensions a essentiellement pour
but de mettre en évidence les relations qui existent entre deux séries d’observations
considérées simultanément. Ces données peuvent être de nature qualitative ou quantitative.
Exemple :
On considère la série statistique à deux variables, donnant le poids en kg et la taille en cm
d’enfants de 60 mois et de sexe masculin.
Fig. Nuage de points
Propriétés
IV) Séries chronologiques
1) Définitions et représentations graphiques
On appelle série chronologique (ou chronique, ou temporelle) une suite d’observations
chiffrées d’un même phénomène, ordonnées dans le temps. C’est une série statistique à deux
variables dont une variable est obligatoirement le temps.
Remarques :
• On distingue sur le graphique une tendance à l’augmentation de l’indice (c’est la tendance
générale)
• On distingue des variations saisonnières (elles représentent les ressemblances entre les
différentes périodes)
2) Composantes d’une série chronologique
L’analyse d’une série chronologique permet de distinguer dans l’évolution d’une série :
• une tendance générale (trend) à la hausse ou à la baisse voire constante.
• des variations saisonnières ou mouvements saisonniers qui se répètent chaque année à des
moments bien déterminés.
• des variations accidentelles ou résiduelles imprévisibles, exceptionnelles (grève, catastrophe
naturelle, etc.)
a) Tendance notée C_t
La tendance correspond à l’évolution à long terme, l’évolution fondamentale de la série. Dans
l’exemple, l’IHPI augmente de 2010 à 2014. La tendance est à la hausse (ou haussière), à
l’inverse elle serait à la baisse (ou baissière)
b) Variations saisonnières S_t
Dans l’exemple, les indices les plus élevés sont au premier trimestre et les plus faibles au
troisième trimestre.
c) Variations accidentelles ɛ_t
Les variations accidentelles sont des fluctuations irrégulières et imprévisibles. Elles sont
supposées en général de faible amplitude.
5) Série désaisonnalisée
V) Indices statistiques
Pour l’étude des phénomènes économiques, on a souvent besoin de décrire les évolutions de
grandeurs simples (prix, produit, etc.). Ces valeurs sont à comparer dans le temps et dans
l’espace. Les indices permettent ces comparaisons entre grandeurs simples (indices
élémentaires) mais, aussi entre grandeurs complexes qui résultent de l’agrégation de
composantes de natures diverses et dont le nombre peut être élevé (indice synthétique).
Exemples d’indices :
- l’indice des prix à la consommation (ou indice harmonisé des prix à la consommation
des pays de l’UEMOA) ;
- l’indice de la production industrielle ;
- les indices boursiers : Indices BRVM10, BRVM Composite, CAC 40, … ;
- l’indice de confiance des consommateurs ;
- l’indice de développement humain durable (IDH).
1) Indices simples
a) Définition
b) Propriétés
2) Indices composés ou synthétiques.
Les indices considérés jusqu’à présent permettaient de suivre l’évolution des grandeurs
simples et parfaitement définies. La plupart du temps, en économie, ce n’est pas l’évolution
de grandeurs élémentaires qu’il est intéressant de suivre mais, celle de grandeurs complexes
résultant de l’agrégation de plusieurs grandeurs. Les indices synthétiques se proposent de
résumer en un seul nombre l’évolution conjuguée de toutes ces valeurs composites.
Par exemple, lorsqu’on veut mesurer l’augmentation du coût de la vie on considère un
ensemble de biens de consommation dont on mesure l’évolution des quantités consommées et
des prix d’achat. La combinaison de ces prix et de ces quantités permet de calculer un indice
synthétique.
De nombreuses formules d’indices synthétiques ont été proposées, mais seules les plus
couramment utilisées sont présentées.
a) Indices des moyennes simples
b) Moyenne des indices élémentaires