Statistique

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 31

Unité : UE1 Titre du Cours : Statistique descriptive

Classe : 1A Volume Horaire : 30H


Coefficient : 3 CT: 15 H TD: 15 H TP:

Objectifs :

- Maîtriser l’utilisation de l’outil statistique ;


- Connaître et utiliser les paramètres statistiques, la régression linéaire.

CONTENU :

I. Généralités
• Définition, origine et importance de la statistique.
• Elaboration de statistiques : les sources d’information, les grandes étapes des
enquêtes statistiques, la présentation des résultats : les tableaux statistiques,
représentation graphique.
• Vocabulaire statistique

II. Séries statistiques à une variable


• Définition, représentation graphique, fréquence.
• Fréquence, fréquences cumulées, effectifs cumulés et représentation.
• Caractéristiques de tendance centrale : mode, médiane, moyennes, quartiles,
déciles, centiles, détermination graphique.
• Caractéristiques de dispersion : étendue, écart interquartile, variance, écart-type,
coefficient de variation.

III. Séries statistiques à deux variables


• Présentation de données, nuages de points.
• Ajustement affine par la droite de Mayer
• Covariance, ajustement linéaire par la méthode des moindres carrés, coefficient
de corrélation.

IV. Séries chronologiques


• Définitions et représentations graphiques
• Modèle théorique d’analyse d’une chronique organisée
• Recherche de la tendance d’une chronique organisée, recherche de la
composante saisonnière
• Série désaisonnalisée

V. Indices statistiques
• Indices simples, indices composés.

Bibliographie :
- Hubert Carnec, René Seroux, Jean Michel Dagoury, Marc Thomas : Itinéraires en
statistique et probabilités, ELLIPSES,Année 2000
- B. Godfardb, C.Pardoux : Introduction à la méthode statistique, DUNOD, Année 2000
- P.CHAREILLE, Y.PINAULT : Statistique Descriptivie 3ème Edition 2000,
MONTCHRESTIEN
- Murray, Spiegel, Larry J. Stephens : Theory and problems of statistics third edition. 1998

INTRODUCTION

Pour résoudre des problèmes en génie, des données doivent être recueillies, décrites et
analysées pour produire des informations sommaires. Le rôle des statistiques descriptives est
de donner une idée sommaire sur les données par le calcul d’un nombre de statistiques et par
des représentations graphiques.

I) Généralités
1) Définition, origine et importance de la statistique.
La statistique est la science qui a pour objet de recueillir, organiser, classer, présenter et
interpréter les données. La statistique (science) est à distinguer d’une statistique
(généralement employée au pluriel) qui désigne un chiffre ou une collection de chiffres se
rapportant à un sujet quelconque et élaborés grâce à des outils et des méthodes statistiques.

2) Elaboration de statistiques : les sources d’information, les grandes


étapes des enquêtes statistiques, la présentation des résultats : les
tableaux statistiques, représentation graphique.
L’étude statistique des phénomènes suppose d’abord une collecte des données de base. Cette
collecte se fait à partir d’enquêtes (collecte auprès de personnes morales ou physiques), de
résultats d’expériences ou d’exploitation de fichiers administratifs. L’observation des faits
peut se faire de façon instantanée (enquêtes par sondages et recensements) ou de façon
continue (enregistrement des naissances à l’état civil, comptabilité d’une entreprise).
a) Recensement
C’est une méthode exhaustive, c'est-à-dire que toute la population fait l’objet d’observation
suivant le ou les caractères étudiés. Exemple : recensement de la population du Burkina Faso
en décembre 2006 suivant des caractères démographiques (âge, sexe, etc.), économiques
(activités économiques), sociaux (niveau d’éducation, alphabétisation, etc.), géographiques
(lieu de résidence).
b) Enquête par sondage
Elle porte sur un échantillon. Exemples :
- Enquête sur les conditions de vie des ménages
- Enquête démographique et de santé
- Sondages d’opinion (CGD)
- Etudes de marché (par sondage)
c) Les grandes étapes d’une enquête statistique

Le déroulement d’une enquête statistique peut être résumé en quatre (4) grandes étapes :
1. La conception : Elle consiste à définir les objectifs de l’étude, définir l’ensemble de l’étude
ainsi que les critères à étudier, à concevoir les outils nécessaires à la collecte des informations
(questionnaires, guide d’entretien, manuels des agents, etc.). Elle doit également définir les
résultats attendus, notamment les indicateurs essentiels à calculer.
2. La phase de collecte : Elle comprend la formation des acteurs, la sensibilisation des
personnes cibles, l’observation et l’enregistrement de l’information à l’aide de questionnaires.
La collecte peut se faire par interview directe, par courrier (poste, e-mail), par téléphone, etc.
3. La phase de traitement : Elle consiste à la validation des questionnaires, la codification des
réponses, le dépouillement (manuel ou automatique) et le traitement éventuel des données
manquantes, des erreurs de saisie, etc.
4. La phase d’analyse et de diffusion : Calcul des indicateurs, critique et interprétation des
résultats, présentation des résultats obtenus.
d) Critiques de la statistique
A tort ou à raison, plusieurs griefs sont souvent faits à la statistique :
« La statistique porte sur des faits passés et apporte trop tard ses enseignements » Pas
toujours vrai puisqu’il existe des méthodes d’observation continue et des méthodes de
prévision.
« Les statistiques sont fausses » Bien sûr si les bases ont été faussées ou si les méthodes
utilisées ne sont pas scientifiquement correctes. C’est pour cela il est nécessaire de
comprendre les statistiques pour les interpréter.
« Les statistiques aboutissent à des conclusions relatives au comportement d’ensemble et non
à celui de l’individu. » C’est précisément l’objet de la statistique
« Une des formes les plus raffinées du mensonge. » Nécessité de connaître clairement de quoi
il s’agit, les concepts et les méthodes utilisées afin de mieux porter son jugement.
a) natalité, les accidents de la route, le revenu des ménages, l’épargne des
ménages, la
b) consommation des ménages, l’âge, la taille, le chômage, la pauvreté, la misère, la
souffrance,.

3) Vocabulaire statistique

On précise ici un certain nombre de termes statistiques très courants qui seront régulièrement
utilisés par la suite et qu’il convient de bien connaitre.
- Population (ou population statistique) : ensemble concerné par une étude statistique.
On parle aussi de champ de l’étude. Si l’on s’intéresse aux notes d’un groupe
d’´étudiants, ce groupe constitue la population. A noter que si l’on s’intéresse
maintenant a` la circulation automobile dans Toulouse, la population est alors
constituée de l’ensemble des véhiculés susceptibles de circuler dans Toulouse a` une
date donnée. Le terme de population et donc plus large en statistique que dans le
langage courant.
- Individu (ou unité statistique) : on désigne ainsi tout élément de la population
considérée. Dans les exemples indiqués ci-dessus, un individu est tout ´étudiant du
groupe dans le premier cas et tout véhicule susceptible de circuler dans Toulouse dans
le second. L`a encore, on constate que le terme d’individu est plus large en statistique
que dans le langage courant.
- Echantillon : dans une étude statistique, il est fréquent que l’on n’observe pas la
population tout entière (par exemple, on n’observe pas tous les véhiculés ayant circulé
un jour donner dans Toulouse, mais seulement ceux ´étant passés dans certains points
particuliers). Les observations du phénomène considère sont donc réalisées sur une
partie restreinte de la population, appelée échantillon. On appelle donc échantillon le
sous-ensemble de la population sur lequel sont effectivement réalisées les
observations.
- Taille de l’échantillon : c’est le cardinal de l’échantillon, autrement dit c’est le nombre
d’individus qu’il contient (échantillon de taille 800, de taille 1000...). En général, on
note n la taille de l’échantillon considère. Enquête (statistique) : c’est l’opération
consistant à observer (ou mesurer, ou questionner. . .) l’ensemble des individus d’un
échantillon (ou, éventuellement, de la population complète).
II) Séries statistiques à une variable
1) Définition, représentation graphique, fréquence.
a) Définition
Une série statistique est la liste des valeurs de la variable statistique observées sur les
individus d’un échantillon d’une population donnée. Lorsque plusieurs variables sont
simultanément observées sur le même échantillon, la série obtenue sera à 2, 3, ou n
dimensions.
b) Exemple
Série statistique du nombre d’enfants à charge de 20 employés d’une entreprise : 1 ; 0 ; 1 ; 2 ;
2 ; 5 ; 4 ; 4 ; 3 ; 1 ; 0 ; 1 ; 0 ; 0 ; 0 ; 6 ; 10 ; 7 ; 1 ; 7
Langue maternelle des élèves d’une classe de 15 élèves : Mooré ; Mooré ; Dioula ; Mooré ;
Français ; Dafing ; Gourmatché, Foulfouldé ; Foulfouldé ; Mooré ; Dioula ; Dioula ; Mooré ;
Mooré ; Mooré.
Salaire mensuel (en milliers de FCFA) des travailleurs d’une entreprise de 10 personnes :
112,0 ; 100,0 ; 215,2 ; 156,0 ; 100,2 ; 115,0 ; 50,1 ; 62,5 ; 150,0 ; 127,7.
Situation matrimoniale de 40 détenus d’une prison (Marié = 1, Célibataire = 2, Divorcé = 3,
veuf = 4 ) : 1 ; 1 ; 3 ; 1 ; 2 ; 1 ; 2 ; 2 ; 4 ; 3 ; 1 ; 2 ; 2 ; 2 ; 1 ; 2 ; 2 ; 2 ; 2 ; 1 ; 3 ; 1 ; 1 ; 1 ; 4 ; 3 ;
1 ; 1 ; 2 ; 1 ; 2 ; 2 ; 3 ; 1 ; 1 ; 2 ; 4 ; 3 ; 2 ; 2.
c) Tableaux
La façon la plus simple de présenter de façon synthétique une série statistique est un tableau
présentant en face de chaque modalité le nombre d’individus de l’échantillon qui portent cette
modalité. Un tel tableau est appelé tableau de dénombrement. Effectif : On appelle effectif ou
encore fréquence absolue d’une modalité M, le nombre d’individus de l’échantillon qui
possèdent cette modalité. La constitution d’un tableau de dénombrement est immédiate dans
le cas des variables qualitatives et des variables quantitatives discrètes. Par contre, dans le cas
des variables continues, il existe une infinité (ou un très grand nombre) de modalités. Il est
donc nécessaire dans ce cas de transformer les données en les regroupant dans des classes de
valeurs (intervalles).
NB : pour les variables continues, Il est conseillé d’avoir des classes d’amplitudes égales.
Cependant, on pourrait être amené à regrouper plusieurs classes lorsqu’elles présentent des
effectifs trop faibles ou nuls. Il existe quelques règles empiriques pour le choix optimal du
nombre de classes :

2) Fréquence, fréquences cumulées, effectifs cumulés et représentation.


Fréquence : La fréquence ou fréquence relative d’une modalité .3 est la proportion d’individus
de la population qui présentent cette modalité. On la note fi.
Exercice d’application : En reprenant l’exercice précédent sur le nombre d’enfants à charge,
donner le tableau des fréquences, fréquences cumulées croissantes et décroissantes.

Représentation graphique
- Diagramme en bâtons et le diagramme circulaire.
Ils servent à représenter les variables qualitatives et les variables quantitatives discrètes. Dans
le cas du diagramme en bâtons, les modalités de la variable sont représentées par des
bâtonnets ou des rectangles (tuyaux d’orgue) dont les hauteurs sont proportionnelles aux
effectifs des modalités.
- Histogramme
C’est la représentation graphique de la distribution des effectifs ou des fréquences d’une
variable statistique continue. A chaque classe de valeurs de la variable portée en abscisse, on
fait correspondre un rectangle basé sur cette classe.
Exercice : Considérons la distribution des salaires mensuel des employés d’une entreprise
donner par le tableau suivant

Représenter la variable salaire mensuel.

NB :

- Les courbes de fréquences


De façon pratique on construit le polygone des fréquences en joignant les milieux des
segments des rectangles de l’histogramme.
- Les deux polygones de fréquences
Elles sont représentées en utilisant les fréquences cumulées croissantes et décroissantes. La
projection du croisement de ces deux courbes nous donne la classe modale de la série étudiée.
Exemple : en reprenant l’exemple précédant sur la variable salaire mensuel, représenter les
deux polygones.

3) Caractéristiques de tendance centrale : mode, médiane, moyennes, quartiles,


déciles, centiles, détermination graphique.
a) Le mode
Le mode est la valeur la plus fréquente dans une série d’observations. On le note Mo. Dans le
cas d’une variable quantitative continue on appelle « classe modale » la classe qui présente
l’effectif le plus élevé.
Remarque : Le mode d’une série n’est pas nécessairement unique. Il peut ne pas exister
Exemple 1 : la série {1 ;7 ;2 ;4 ;5 ;3} n’a pas de mode Exemple 2 : la série {4 ;5 ;4 ;4 ;5 ;1 ;3
;2 ;2 ;1 ;2} a deux modes à savoir 2 et 4.
NB : dans certain cas on parle de bimodales ou tri-modales si on a deux ou trois modalités qui
présentent les mêmes effectifs.
b) La médiane
C’est la valeur qui sépare une série d’observations ordonnées en ordre croissant ou
décroissant, en deux parties comportant le même nombre d’observations. On la désigne par la
notation Me.
Méthode de calcul cas général
- Présenter les données sous forme de série. Lorsque les données sont présentées sous
forme de tableau de distribution, les convertir en série.
- Ordonner la série par ordre croissant ou décroissant.
- Déterminer si la série comprend un nombre pair ou impair d’unités statistiques.

Méthode de calcul cas des données groupées


Si les données sont groupées par classes (cas des variables continues) il faut :
- localiser la classe médiane, c’est-à-dire celle qui contient la médiane.
- calculer par extrapolation linéaire la valeur de la médiane ;
- ou déterminer la médiane par projection à partir du diagramme des fréquences
cumulées.
c) Les quantiles
La médiane est la valeur qui divise la population en deux sous-populations de tailles égales.
De la même façon on peut définir des valeurs qui divisent la population en quatre, dix, cent, ...
sous-populations de tailles égales. On définit ainsi :
c.1) Les quartiles

c.2) Les déciles


Ils divisent la série en dix sous-ensembles de tailles égales, soit 10 %.
c.3) Les centiles
Ils divisent la série en cent sous-ensembles de 1 % de la population.
c.4) Détermination des quantiles

4) Caractéristique de tendance centrale : la moyenne


a) Moyenne arithmétique
La moyenne arithmétique d’un ensemble de données est la somme des valeurs obtenues
divisée par le nombre d’observations. Elle est notée X pour une variable notée X.

Dans le cas où les données sont regroupées par classe, on applique la formule suivante :

b) Moyenne géométrique
c) La moyenne harmonique
d) Moyenne quadratique

5) Caractéristiques de dispersion : étendue, écart interquartile, variance, écart-type,


coefficient de variation.
a) Etendue
C’est la différence entre la plus grande et la plus petite valeur observée.
b) Ecart interquartile
C’est la différence entre le 3ème et le 1er quartile. Iq = AC − A8 On définit de la même façon
l’intervalle interdécile (ID=D9-D1) et l’intervalle inter centile (IC=C99-C1).
c) La variance et écart-type
Interprétation :
- L’écart-type et la variance mesurent la dispersion de la variable autour de la moyenne. Ainsi,
des valeurs élevées (respectivement faibles) de ces caractéristiques traduisent une grande
(respectivement faible) dispersion des valeurs autour de la moyenne.
- La variance est calculée à partir des valeurs de la série élevées au carré. Ainsi l’unité (de
mesure) de la variance est le carré de celle de la variable. Par exemple, si la variable est
mesurée en francs, en kg ou en mètre, la variance sera mesurée en francs au carré, en kg au
carré ou en mètres au carré. Par contre l’écart-type a la même unité de mesure que la variable.

Exercice

d) Le coefficient de variation
Interprétation :
- Contrairement aux autres indicateurs de dispersion, le coefficient de variation est sans
unité de mesure. On l’exprime souvent en pourcentage.
- Du fait qu’elle est sans unité, le coefficient de variation présente l’avantage de ne pas
être sensible à l’ordre de grandeur (ou à l’unité de mesure) de la variable mais
seulement à la dispersion des valeurs autour de la moyenne. Ainsi on peut l’utiliser
pour comparer la dispersion de deux séries dont les ordres de grandeur (ou les unités
de mesure) sont différents.
- Un coefficient de variation élevé (respectivement faible) traduit une grande
(respectivement faible) dispersion de la variable autour de la moyenne.
- L’appréciation du niveau (faible ou élevé) du coefficient de variation est laissée aux
soins de l’utilisateur. Cependant une valeur du CV supérieure à 10 % doit susciter des
questions quant à la représentativité de la moyenne comme caractéristique de tendance
centrale.
III) Séries statistiques à deux variables
Pour l’étude de certains phénomènes complexes, il s’avère insuffisant de prendre en compte
un seul caractère. Il faut en considérer simultanément deux ou même davantage.
Naturellement, l’analyse des tableaux correspondants et leur représentation graphique
deviennent plus difficiles. La statistique descriptive à deux dimensions a essentiellement pour
but de mettre en évidence les relations qui existent entre deux séries d’observations
considérées simultanément. Ces données peuvent être de nature qualitative ou quantitative.

1) Présentation de données, nuages de points.


Définition
On considère deux variables statistiques numériques observées sur une même population de n
individus. On note x1; x2; ...xn les valeurs relevées pour la première variable et y1, y2, ..., yn
les valeurs relevées pour la deuxième variable. Les couples (x1; y1);(x2; y2); ...;(xn; yn)
forment une série statistique à deux variables. Dans le plan rapporté à un repère orthogonal,
on appelle nuage de points associé à cette série statistique à deux variables, l’ensemble des
points.

Exemple :
On considère la série statistique à deux variables, donnant le poids en kg et la taille en cm
d’enfants de 60 mois et de sexe masculin.
Fig. Nuage de points

2) Ajustement affine par la droite de Mayer


a) Principe
- Créer deux groupes : Les données sont partagées en deux groupes sensiblement égaux
(exactement si le nombre est pair, une unité près si le nombre est impair).
- Déterminer les points moyens (appelés aussi : barycentres) “G1 et G2”. Pour chaque
groupe, on va déterminer par le calcul, les coordonnées des deux points moyens. (Ou
barycentres) G1 et G2.
- Tracer la droite passant par ces deux points : La droite ajustée est celle qui passe par
ces deux points G1 et G2 elle est appelée : droite de Mayer.
Fig. Ajustement par la méthode de Mayer
b) Exemple
En reprenant l’exemple précédant, ajuster le nuage de point par la droite de Mayer.
3) Covariance, ajustement linéaire par la méthode des moindres carrés, coefficient
de corrélation.
a) Covariance et coefficient de corrélation linéaire
Covariance
Soient X et Y deux variables aléatoires définies sur le même ensemble fondamental Ω. On
définit la covariance de X et Y, que l’on note Cov(X,Y), par

Propriétés
IV) Séries chronologiques
1) Définitions et représentations graphiques
On appelle série chronologique (ou chronique, ou temporelle) une suite d’observations
chiffrées d’un même phénomène, ordonnées dans le temps. C’est une série statistique à deux
variables dont une variable est obligatoirement le temps.

Remarques :
• On distingue sur le graphique une tendance à l’augmentation de l’indice (c’est la tendance
générale)
• On distingue des variations saisonnières (elles représentent les ressemblances entre les
différentes périodes)
2) Composantes d’une série chronologique
L’analyse d’une série chronologique permet de distinguer dans l’évolution d’une série :
• une tendance générale (trend) à la hausse ou à la baisse voire constante.
• des variations saisonnières ou mouvements saisonniers qui se répètent chaque année à des
moments bien déterminés.
• des variations accidentelles ou résiduelles imprévisibles, exceptionnelles (grève, catastrophe
naturelle, etc.)
a) Tendance notée C_t
La tendance correspond à l’évolution à long terme, l’évolution fondamentale de la série. Dans
l’exemple, l’IHPI augmente de 2010 à 2014. La tendance est à la hausse (ou haussière), à
l’inverse elle serait à la baisse (ou baissière)
b) Variations saisonnières S_t
Dans l’exemple, les indices les plus élevés sont au premier trimestre et les plus faibles au
troisième trimestre.
c) Variations accidentelles ɛ_t
Les variations accidentelles sont des fluctuations irrégulières et imprévisibles. Elles sont
supposées en général de faible amplitude.

3) Modèle théorique d’analyse d’une chronique organisée


Un modèle de série chronologique est une équation précisant la façon dont les composantes
s’articulent les unes par rapport aux autres pour constituer la série chronologique. Il existe
deux modèles classiques :
• un modèle additif
• un modèle multiplicatif.
a) Modèle additif
Dans un modèle additif, on suppose que les trois composantes (tendance, variations
saisonnières et variations accidentelles) sont indépendantes les unes des autres. On considère
que la série s’écrit comme la somme de ces trois composantes : Y_t = C_t + S_t + ɛ_t.
Graphiquement, l’amplitude des variations est constante autour de la tendance, la droite qui
rejoint les maxima est parallèle (même coefficient directeur) à la droite qui rejoint les minima.
b) Modèle multiplicatif
Dans le modèle multiplicatif, on considère que les variations saisonnières dépendent de la
tendance (accentuent celle-ci). La série s’écrit sous la forme : Y_t = C_t x S_t + ɛ_t
Graphiquement, l’amplitude des variations saisonnières varie. La droite qui rejoint les
maxima n’est pas parallèle (coefficient directeur différent) à la droite qui rejoint les minima.
c) Méthode de modélisation
Les principales étapes simplifiées sont les suivantes :
• Faire un graphique
• Identifier le modèle de composition (modèle d’analyse) : additif ou multiplicatif
• Identifier la tendance de la série
• Effectuer le calcul des coefficients de variations saisonnières
• Evaluer la tendance à un moment futur.
4) Recherche de la tendance d’une chronique organisée, recherche de la composante
saisonnière

5) Série désaisonnalisée
V) Indices statistiques
Pour l’étude des phénomènes économiques, on a souvent besoin de décrire les évolutions de
grandeurs simples (prix, produit, etc.). Ces valeurs sont à comparer dans le temps et dans
l’espace. Les indices permettent ces comparaisons entre grandeurs simples (indices
élémentaires) mais, aussi entre grandeurs complexes qui résultent de l’agrégation de
composantes de natures diverses et dont le nombre peut être élevé (indice synthétique).
Exemples d’indices :
- l’indice des prix à la consommation (ou indice harmonisé des prix à la consommation
des pays de l’UEMOA) ;
- l’indice de la production industrielle ;
- les indices boursiers : Indices BRVM10, BRVM Composite, CAC 40, … ;
- l’indice de confiance des consommateurs ;
- l’indice de développement humain durable (IDH).
1) Indices simples
a) Définition
b) Propriétés
2) Indices composés ou synthétiques.
Les indices considérés jusqu’à présent permettaient de suivre l’évolution des grandeurs
simples et parfaitement définies. La plupart du temps, en économie, ce n’est pas l’évolution
de grandeurs élémentaires qu’il est intéressant de suivre mais, celle de grandeurs complexes
résultant de l’agrégation de plusieurs grandeurs. Les indices synthétiques se proposent de
résumer en un seul nombre l’évolution conjuguée de toutes ces valeurs composites.
Par exemple, lorsqu’on veut mesurer l’augmentation du coût de la vie on considère un
ensemble de biens de consommation dont on mesure l’évolution des quantités consommées et
des prix d’achat. La combinaison de ces prix et de ces quantités permet de calculer un indice
synthétique.
De nombreuses formules d’indices synthétiques ont été proposées, mais seules les plus
couramment utilisées sont présentées.
a) Indices des moyennes simples
b) Moyenne des indices élémentaires

c) Indice de Laspeyres, de Paasche et de Fischer


d) Propriétés des indices de Laaspeyres, de Paasche et de Fischer

Vous aimerez peut-être aussi