Chapitre 1 Stat

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 14

Université mouloud MAMMERI de Tizi-Ouzou

Faculté des sciences économiques, commerciales et de gestion


Département des sciences économiques
Première année LMD
Module de Statistique descriptive
Semestres I et II

Plan et contenu du cours

0
Plan du cours

Introduction générale

Chapitre I : L’appréhension statistique

Chapitre II : La présentation des données statistiques

Chapitre III : Les paramètres de tendance centrale

Chapitre IV : Les paramètres de dispersion

Chapitre V : Les paramètres de forme

Chapitre VI : Les paramètres de concentration

Chapitre VII : Les indices

Chapitre VIII : Corrélation, Régression et Ajustement

Chapitre IX : Les séries chronologiques

Chapitre X : Introduction aux probabilités

Conclusion générale

1
Introduction générale

Dans la vie moderne, l’information statistique est très vaste et variée. Aucun domaine
n’échappe à l’usage des statistiques, plus particulièrement dans le domaine économique où celles-ci
sont plus qu’indispensables. Ce n’est donc pas un hasard que l’enseignement de la statistique soit
généralisé.

En Algérie, les réformes structurelles engagées impliquent des changements qui imposent un
recours plus fréquent et plus rigoureux à la statistique.

Aussi, à la lumière de cette réalité, les objectifs du présent cours de statistique descriptive, dispensé
en première année LMD (Licence 1 ou L1), sont multiples, à savoir :

- initier l’étudiant aux concepts et applications de base de la statistique descriptive ;

- dans la mesure où les applications pratiques fournies sont associées à des développements
méthodologiques consistant et utilisant les notations usuelles, le cours fournit une base préparatoire
solide pour aborder les problématiques plus complexes de la statistique mathématique et de la
modélisation enseignées en Licence 2 et Licence 3 ;

- apprendre à l’étudiant à mettre en application les techniques de la statistique descriptive de


manière appropriée dans les domaines économique et commercial ;

- pouvoir évaluer le plus correctement possible l’information véhiculée régulièrement par les
médias, les revues, les ouvrages et autres publications ;

- enfin, accroitre l’aptitude de l’étudiant, notamment dans sa future vie professionnelle, à


prendre les meilleures décisions dans un large éventail de décisions.

Ce cours ne nécessite aucune connaissance préalable en statistique, ni des connaissances en


mathématiques supérieures à celles requises en classe de seconde. Les notions et méthodes y sont
exposées de manière succincte et seront développées en cours magistral et en T.D.

L’étudiant a la possibilité, mais aussi le devoir, de compléter ses connaissances par des lectures
supplémentaires, à partir, notamment, de la bibliographie fournie et des informations
complémentaires apportées lors des séances de cours et TD.

2
Chapitre I

L’appréhension statistique

3
Introduction au chapitre I

L’objet du présent chapitre est de faire découvrir à l’étudiant deux


fondamentaux en statistique descriptive : le vocabulaire de base et les soubassements
théorique et pratique de l’analyse statistique. Seront ainsi présentés, en trois sections
successives, trois volets de définition, en allant du général vers le détail.

Section 1 : Notions de données, statistiques et de Statistique

Toutes les statistiques véhiculées et diffusées par les médias et les différentes publications
sont le produit du traitement des données (celles-ci pouvant être d’ordre numérique, alphabétique
et/ou alphanumérique) par les méthodes et les techniques de la Statistique.

1.1- Les Données

Ce sont les faits, les lettres ou les chiffres, porteurs d’informations cachées, collectés en vue
d’un traitement statistique pour en extraire ou révéler ces informations. On les appelle aussi les
données ou les informations brutes. Ce sont, en fait, les premiers éléments de l’enquête ou du
recensement.

1.2- Les statistiques

Ce sont les chiffres, lettres et autre, contenus dans les journaux, rapports, revues, mémoires,
livres et autre publication, destinés à un large éventail de lecteurs, spécialistes ou non en la matière.
Ce sont, par conséquent, des données traitées, résumées et présentées sous une forme facilement
compréhensible par le lecteur.

1.3- La Statistique

C’est à la fois l’art, la discipline ou l’ensemble des techniques et méthodes permettant de


collecter, ordonner, résumer, présenter et interpréter les données, afin d’en révéler le message
informationnel caché.

La Statistique est l’élément privilégié de l’analyse économique.

Une étude de statistique descriptive se déroule globalement en cinq étapes obligatoires, à savoir ;

a- La collecte des données


Soit de manière exhaustive par un recensement, effectué généralement par des institutions
spécialisées en déployant de gros moyens, soit par des enquêtes (recensement partiel), généralement
effectuées par le chercheur lui-même.

4
b- Le dépouillement et l’ordonnancement des données
Cette étape consiste à trier et à ordonner, de manière logique et compréhensible, les
données collectées. Le plus souvent, on adopte l’ordre alphabétique pour les données
alphabétiques, et l’ordre de croissance pour les données numériques.

c- Le classement des données


C’est la première synthèse des données. Soit sous forme individualisée où à chaque donnée
on affecte le nombre de fois qu’elle est observée (xi ni)., soit sous forme d’intervalles ou
classes ( [a ; b[ ) afin d’en réduire le volume.

d- La présentation des données


C’est la deuxième synthèse des données. Celles-ci sont résumées sous forme de tableaux
et/ou de graphiques qui les rendent facilement et rapidement lisibles par le lecteur.

e- Le calcul de paramètres et l’interprétation des résultats


Dans cette étape le calcul de paramètres synthétiques et pertinents devient possible.
L’interprétation de ces derniers offre au chercheur une panoplie de renseignements.

Section 2 : Notions de population, caractère et de modalités

Le soubassement pratique ou le principe d’une étude de statistique descriptive consiste en


l’observation d’un ensemble d’éléments, d’individus ou d’unités statistique, appelé population
statistique, sur lequel on repère ou on étudie une ou plusieurs propriété(s) ou caractéristique(s),
appelées caractère(s). Celui-ci ou ceux -ci peuvent prendre plusieurs situations ou valeurs possibles,
appelées modalités.

2.1- Population statistique

C’est l’ensemble des éléments soumis à l’étude. On l’appelle aussi univers statistique,
ensemble fondamental ou ensemble statistique. Par exemple; l’ensemble des étudiants de première
année, l’ensemble des logements dans une ville, l’ensemble des voitures dans un parking, etc.

Les éléments qui constituent la population sont appelés unités statistique, éléments ou individus. Ils
peuvent être des êtres humains, des objets ou des événements, c'est-à-dire physiques ou
immatériels. Ces individus sont de même nature et forment un ensemble homogène.

La population statistique doit être définie de manière précise car cela conditionne fortement l’étude
statistique et ses résultats.

5
Le nombre d’individus composant une population statistique s’appelle taille de la population ou
effectif total, désigné par “N“.
Remarque : en pratique, la taille des populations à étudier est tellement important qu’on a souvent
recours à des sous-ensembles de populations qu’on appelle échantillon.

2.2- Caractère
C’est l’aspect, la propriété, l’attribut ou le trait particulier que l’on désir étudier. Il est
observable sur tous les individus de la population et est susceptible de varier, ce qui lui confère
également le nom de variable statistique (Cf, § 2.3.1.2 ci-dessous). Par exemple ; l’âge des étudiants
de première année, la couleur des voitures dans un parking, le nombre de pièces par logement dans
une ville, etc.
Sur une population statistique donnée, on peut étudier ou observer un ou plusieurs caractères.

2.3- Modalités
Notées (xi), ce sont toutes les situations ou valeurs possibles du caractère. Tous les
caractères présentent au moins deux modalités (deux ou plus), sinon l’étude statistique n’aurait pas
de sens. Par contre, sur chaque individu on ne retrouve qu’une et une seule modalité (un individu
ne peut pas avoir en même temps 18 ans et 20 ans à la fois).
Il y a autant de modalités que d’individus dans la population. Cependant, le nombre de modalités
différentes (“k“) est toujours inférieur ou égale au nombre d’individus : k ≤ N.

Remarque : xi signifie la modalité numéro « i » (« i » est appelé “ indice “, il désigne le numéro de


la ligne), les modalités étant ordonnées par ordre croissant.

Ainsi :
 x1 signifie la modalité numéro 1 ou la modalité la plus petite, elle est portée à la
première ligne du tableau statistique.
 x2 désigne la modalité numéro 2, celle portée à la deuxième ligne du tableau.
 xk désigne la modalité numéro « k » ou la plus grande modalité, elle est portée à la
dernière ligne du tableau.
 xi désigne une quelconque modalité, (la numéro i), parmi toutes les modalités
possibles du caractère portées sur le tableau statistique. Elle est portée à la ligne kème
ligne.

2.4- Les différents types de caractères

Un caractère peut être de type qualitatif (qualité) ou de type quantitatif (quantité).

2.4.1- Le caractère qualitatif


Un caractère est dit qualitatif lorsque ses modalités ne sont pas mesurables ou pas
quantifiables. Ses modalités sont alors simplement constatées ou qualifiées, repérées par des mots
6
ou des numéros (étiquettes, codes, numéros, …).
De même, les opérations arithmétiques ne sont pas possibles sur les modalités d’un caractère
qualitatif, et débouchent sur des résultats irrationnels et vides de sens.
Lorsque les modalités du caractère qualitatif ne reflètent pas un ordre de grandeur ou de hiérarchie,
on dit qu’il s’agit d’un caractère qualitatif nominal (nom). Par exemple ; la couleur, l’origine
géographique, nature des missions, etc.
Par contre, lorsque les modalités du caractère qualitatif reflètent un ordre de grandeur et peuvent
être hiérarchisées, on dit qu’il s’agit d’un caractère qualitatif ordinal (ordre), c’est le cas des codes
numériques, des adjectifs, des catégories,…. Par exemple, les dates de naissance, les numéros
d’assurance, les numéros des salles, les catégories socioprofessionnelles, le stade d’avancement
d’une maladie, la mention au bac, etc.

En pratique, les modalités d’un caractère qualitatif forment les différentes rubriques d’une
nomenclature établie de telle sorte que chaque individu figure dans une et une seule rubrique (une
et une seule modalité).

2.4.2- Le caractère quantitatif

On dit qu’un caractère est quantitatif lorsque ses modalités sont quantifiables ou mesurables,
c'est-à-dire, reflètent une mesure ou une quantification. Ses modalités sont, par conséquent, toujours
traduites par des données numériques (chiffres) sur lesquelles les opérations arithmétiques sont
possibles et débouchent sur des résultats rationnels.

C’est avec ce type de caractère que la notion de variable statistique prend tout son sens
mathématique, et ses modalités sont les valeurs possibles de la variable. Ainsi, l’âge, la taille, le
poids, la durée, le nombre d’enfants par ménage, le nombre d’étudiants par salle,… ; sont des
caractères quantitatifs.

Les caractères quantitatifs ou les variables statistiques sont de deux natures :

2.4.2.1- La variable statistique discrète

Lorsque les modalités d’une variable statistique reflètent un dénombrement ou un


comptage, c'est-à-dire désignent le nombre de quelque chose, on dit qu’il s’agit d’une variable
statistique discrète ou discontinue. Ses modalités sont exprimées alors par des nombres entiers ou
isolés appartenant à l’ensemble des nombres naturels (Ñ), reflétant des réalités indivisibles.
Exemple ; le nombre d’enfants par ménage, le nombre d’étudiants par salle nombre de pièces par
logement, le nombre de SMS reçus au cours d’une période donnée, etc. Dans ce cas, les modalités
0,3 enfants ; 2,5 SMS ; 3,6 pièces, comme exemples, ne sont pas admises, elles n’ont pas de sens.
Ce sont des valeurs qui n’appartiennent pas à l’ensemble des nombres naturels.

NB/- On remarque alors dans ce cas que le nom du caractère étudié commence toujours par les
mots “Le nombre de… “.
7
Remarque : en pratique, il peut arriver le nombre de modalités soit trop important. Les
données sont alors présentées ou résumées sous forme de classes et sont alors traitées comme des
variables statistiques continues. Mais les résultats obtenus à partir des traitements gardent la même
nature que la variable étudiée. Ex ; si la moyenne calculée est de 1,5 étudiants, on lira 1 à 2
étudiants ou entre 1 et 2 étudiants, car 0,5 étudiant n’a pas de sens !

2.4.2.2- La variable statistique continue

Une variable statistique est dite continue lorsqu’elle prend ses valeurs dans l’ensemble des
nombres réels (R), autrement dit, dans un intervalle infinis de valeurs, ou lorsque ses modalités sont
présentées sous formes d’intervalles ou de classes.

Ainsi, à l’exception du dénombrement, toutes les opérations qui consistent en la mesure, à savoir ;
la pesée, le métrage, le chronométrage, le calcul, … ; représentent des caractères quantitatifs
continus.
Même si dans ce cas les modalités sont exprimées sous forme de nombres entiers, on peut toutefois
pousser les mesures à un nombre infini de décimales. Ainsi, un poids de 10Kg représente en réalité
un poids entre 9,999…9 Kg et 10,000….01 Kg. De même, une taille de 170 cm représente en réalité
une taille entre 169,9999…..9 et 170,000….01 cm, etc. ce sont donc en réalité, des valeurs qui
n’appartiennent pas à l’ensemble des nombres naturels (N), elles sont donc par nature continues.

Section 3 : Notions d’effectif, fréquence et de distribution des fréquences

Cette section a pour objet de définir, respectivement, les notions d’effectif absolu ou
fréquence absolue, fréquence relative ou effectif relatif et de distribution de fréquences.

3.1- Effectif absolu

On appelle effectif absolu, ou fréquence absolue, noté “ni“, le nombre de fois qu’une
modalité est observée. Ou bien encore, le nombre d’individus de la population présentant la même
modalité (xi). On écrit : ( xi ni ).
Ainsi :

 n1 désigne le nombre d’individus présentant la modalité x1.


 n2 désigne le nombre d’individus présentant la modalité x2.
La somme ou le total des effectifs absolus nous donne l’effectif total de la population étudiée.

Ʃni = n1+ n2 + n3 +…..+ nK = N

8
3.2- Fréquence relative

Appelée aussi effectif relatif et notée « fi », elle représente la proportion ou le pourcentage


de chaque effectif absolu « ni » par rapport à l’effectif total « N ». C’est donc la proportion ou le
pourcentage d’individus présentant la même modalité « xi ». On écrit alors :

fi = ni / N

La somme des fréquences relatives est égale à 1 ou 100 % :

Ʃfi = f1+f2+….+ fK = 1 ou 100%

Avec : 0 ≤ fi ≤ 1

3.3- Effectif cumulé – fréquence cumulée

Il désigne l’effectif ou la fréquence d’une modalité quantitative, augmenté des effectifs ou


fréquences des modalités précédentes. Les modalités quantitatives étant toujours ordonnées par
ordre croissant dans le tableau statistique.

Les effectifs ou fréquences cumulés se déterminent à partir du tableau statistique par sommation ou
cumul par ligne des effectifs respectifs des modalités ordonnées.
On peut avoir des effectifs ou fréquences cumulés croissants, notés « Ni » ou « Fi », c'est-à-dire le
cumul croît du premier effectif ou fréquence (porté à la première ligne du tableau) vers le dernier
effectif ou fréquence jusqu’à avoir la somme totale des effectifs (portée à la dernière ligne du
tableau). Autrement dit, le cumul croît du haut vers le bas du tableau (de n1 jusqu’à N). On écrit
alors :

Ni = Ni-1 + ni ou Fi = Fi-1 + fi

Ni-1 et Fi-1 étant respectivement l’effectif cumulé et la fréquence cumulée de la modalité ou de la


ligne avant la modalité ou la ligne « i ».
On peut également avoir des effectifs ou fréquences cumulés décroissants, notés « Ni » ou « Fi »,
c'est-à-dire le cumul décroit de l’effectif total (la somme des effectifs), porté à la première ligne du
tableau, jusqu’au dernier effectif, porté à la dernière ligne du tableau (de N jusqu’à nk). On écrit
alors :

Ni = Ni-1 - ni-1 ou Fi = Fi-1 - fi-1

9
Ni-1 et Fi-1 étant respectivement l’effectif cumulé et la fréquence cumulée décroissants de la
modalité ou de la ligne avant la modalité ou la ligne « i ».

On note en général que :

 N1 = n1 ou F1 = f1
 Nk = N ou Fk = 1
 N1 = N ou F1 = 1
 Nk = nk ou Fk = fk

Les effectifs ou fréquences cumulés présentent trois grandes utilités en statistique :

 ils reflètent, dans un ordre croissant des données, le classement, le numéro, la position ou le
ième
rang de chaque modalité, de la première (la plus petite) jusqu’à la dernière ou la n (la
plus grande) ;
 les effectifs ou fréquences cumulés croissants permettent de répondre à la question : quel est
l’effectif ou la proportion d’individus qui ont moins de ou au plus…. ?
 les effectifs ou fréquences cumulés décroissants permettent de répondre à la question : quel
est l’effectif ou la proportion d’individus qui ont plus de ou au moins…. ?

Remarque :
Il y a lieu de souligner que lorsqu’il s’agit d’un caractère qualitatif l’interprétation des effectifs
cumulés a rarement un sens. Aussi, sont-ils surtout sollicités dans le cas des caractères quantitatifs.

3.4- Distribution des fréquences


Le paragraphe suivant permet, à partir d’un exemple concret de définir la notion de
distribution des fréquences, et d’éclairer l’étudiant sur les différentes notions statistiques définies
plus haut.
Une enquête auprès d’un groupe de 35 étudiants de première année LMD, concernant leur âge, a
permis de collecter les données suivantes :
20 18 21 19 19 18 18
22 20 19 17 18 18 19
17 18 19 22 21 21 20
23 22 23 21 20 19 18
18 17 25 18 20 20 23

10
On détermine d’abord, la population statistique, l’unité, le caractère, les modalités et la nature du
caractère :
Population : c’est l’ensemble des 35 étudiants du groupe enquêtés.
Unité : un étudiant.
Caractère : âge.
Modalités : 17 - 18 - 19 - 20 - 21 - 22 - 23 - 25. ( il y a donc 8 modalités différentes: k=8).
Nature du caractère : variables statistique continue.

Il s’agit là des premiers éléments de l’enquête. Ce sont des données brutes, désordonnées et
indéchiffrables. Pour rendre ces données lisibles et instructives, il faudrait transformer ces données
en statistiques, en leur faisant subir un traitement par les méthodes de la statistique descriptive.
Celle-ci, comme on l’a expliqué plus haut, consiste à ordonner, classer, résumer et présenter ces
données de la manière la plus synthétique et la plus lisible possible. Nous allons donc procéder
étape par étape.
 Ordonner les données
Il s’agit de données numériques, donc la manière la plus logique de les ordonner
c’est de suivre un ordre croissant des données. On obtient alors ce qu’on appelle une série
statistique ordonnée, comme suit :

17- 17- 17- 18- 18- 18- 18- 18- 18- 18- 18- 18-
19- 19- 19- 19- 19- 19- 20- 20- 20- 20- 20- 20-

21- 21- 21- 21- 22- 22- 22- 23- 23- 23- 25.

Remarque
La modalité 17 est la première et plus petite modalité de la série statistique
ordonnée, elle est généralement notée « Xmin ». La modalité 25 est la dernière, ou 35ème
modalité, et aussi la plus grande valeur de la série ordonnée. Elle est généralement notée
« Xmax ».
La différence entre la plus grande et la plus petite valeurs de la série nous donne l’étendue
de la série, notée « e ». dans ce cas elle est égale à 25 – 17 = 8 ans. C’est l’écart d’âge ente le
plus âgé des étudiants du groupe et le plus jeune.

La série présentée de cette manière est ordonnée mais non encore résumée. On
peut donc la simplifier davantage et la rendre encore plus lisible. On va dans ce cas
l’individualiser, c'est-à-dire supprimer les répétitions en faisant apparaître chaque modalité
une seule fois, en lui associant le nombre d’étudiants correspondant (effectif).

11
 Classer et présenter les données
En classant les données, on obtient ce qu’on appelle une distribution statistique,
appelée aussi série individualisée ou pondérée, ou distribution des fréquences (xi ni).
Cependant, une distribution statistique est présentée dans un tableau statistique, où ne sont
représentés que le caractère étudié, ses modalités et les effectifs correspondant, comme suit :

Age Nombre Fréquences Effectifs Fréquences Effectifs cumulés Fréquences cumulées


(xi) d’étudiants relatives cumulés cumulées décroissants décroissantes
(ni) (fi) (Ni) (Fi) (Ni ) (Fi )

17 3 0,086 3 0,086 35 1
18 9 0,257 12 0,343 32 0,914
19 6 0,172 18 0,515 23 0,657
20 6 0,172 24 0,687 17 0,485
21 4 0,114 28 0,801 11 0,313
22 3 0,086 31 0,887 7 0,199
23 3 0,086 34 0,973 4 0,113
25 1 0,027 35 1 1 0,027

Total 35 1 - - - -

Remarques :
 Dans la colonne des fréquences relatives (fi), on arrondis les chiffres à deux ou trois
nombres après la virgule, de telle sorte à avoir au total 0,999 ou 1.
 Les colonnes des effectifs et fréquences cumulés ne contiennent pas de totaux car, s’agissant
de cumuls, les totaux dans la dernière ligne du tableau n’ont pas de sens.

On remarquera, à partir du tableau, que, comme nous l’avons souligné plus haut :
 Ʃfi = 1
 F1 = f1
 N1 = n1
 Ʃni = N
 Fk = fk ou Nk = nk
 F1 = 1 ou N1 = N
 ƩNi ou ƩFi et ƩNi ou ƩFi n’ont pas de sens, ils ne signifient rien !

12
Notons, enfin, que la distribution des fréquences cumulées s’appelle fonction de répartition
ou fonction cumulative, où à chaque modalité xi est associé un effectif ou une fréquence cumulé :
{x i Ni } ou { xi Fi }.

Conclusion au chapitre I

Au terme de ce premier chapitre, l’étudiant est censé avoir pris connaissance du jargon ou
vocabulaire usuel en statistique. La définition précise et détaillée des différentes notions
fondamentales lui permettront, dans la suite du cours, de ne pas tomber dans la confusion et de
bien cerner les contours des problèmes et applications statistiques qui lui seront posées.

Ce premier chapitre fait également l’objet d’une application en T.D (série n°1), où l’étudiant sera
éclairé davantage sur la terminologie statistique.

Après ce préalable terminologique il est opportun de s’intéresser aux techniques de


présentation des données statistiques résumées. C’est l’objet du chapitre suivant.

13

Vous aimerez peut-être aussi