Chapitre 1 Stat
Chapitre 1 Stat
Chapitre 1 Stat
0
Plan du cours
Introduction générale
Conclusion générale
1
Introduction générale
Dans la vie moderne, l’information statistique est très vaste et variée. Aucun domaine
n’échappe à l’usage des statistiques, plus particulièrement dans le domaine économique où celles-ci
sont plus qu’indispensables. Ce n’est donc pas un hasard que l’enseignement de la statistique soit
généralisé.
En Algérie, les réformes structurelles engagées impliquent des changements qui imposent un
recours plus fréquent et plus rigoureux à la statistique.
Aussi, à la lumière de cette réalité, les objectifs du présent cours de statistique descriptive, dispensé
en première année LMD (Licence 1 ou L1), sont multiples, à savoir :
- dans la mesure où les applications pratiques fournies sont associées à des développements
méthodologiques consistant et utilisant les notations usuelles, le cours fournit une base préparatoire
solide pour aborder les problématiques plus complexes de la statistique mathématique et de la
modélisation enseignées en Licence 2 et Licence 3 ;
- pouvoir évaluer le plus correctement possible l’information véhiculée régulièrement par les
médias, les revues, les ouvrages et autres publications ;
L’étudiant a la possibilité, mais aussi le devoir, de compléter ses connaissances par des lectures
supplémentaires, à partir, notamment, de la bibliographie fournie et des informations
complémentaires apportées lors des séances de cours et TD.
2
Chapitre I
L’appréhension statistique
3
Introduction au chapitre I
Toutes les statistiques véhiculées et diffusées par les médias et les différentes publications
sont le produit du traitement des données (celles-ci pouvant être d’ordre numérique, alphabétique
et/ou alphanumérique) par les méthodes et les techniques de la Statistique.
Ce sont les faits, les lettres ou les chiffres, porteurs d’informations cachées, collectés en vue
d’un traitement statistique pour en extraire ou révéler ces informations. On les appelle aussi les
données ou les informations brutes. Ce sont, en fait, les premiers éléments de l’enquête ou du
recensement.
Ce sont les chiffres, lettres et autre, contenus dans les journaux, rapports, revues, mémoires,
livres et autre publication, destinés à un large éventail de lecteurs, spécialistes ou non en la matière.
Ce sont, par conséquent, des données traitées, résumées et présentées sous une forme facilement
compréhensible par le lecteur.
1.3- La Statistique
Une étude de statistique descriptive se déroule globalement en cinq étapes obligatoires, à savoir ;
4
b- Le dépouillement et l’ordonnancement des données
Cette étape consiste à trier et à ordonner, de manière logique et compréhensible, les
données collectées. Le plus souvent, on adopte l’ordre alphabétique pour les données
alphabétiques, et l’ordre de croissance pour les données numériques.
C’est l’ensemble des éléments soumis à l’étude. On l’appelle aussi univers statistique,
ensemble fondamental ou ensemble statistique. Par exemple; l’ensemble des étudiants de première
année, l’ensemble des logements dans une ville, l’ensemble des voitures dans un parking, etc.
Les éléments qui constituent la population sont appelés unités statistique, éléments ou individus. Ils
peuvent être des êtres humains, des objets ou des événements, c'est-à-dire physiques ou
immatériels. Ces individus sont de même nature et forment un ensemble homogène.
La population statistique doit être définie de manière précise car cela conditionne fortement l’étude
statistique et ses résultats.
5
Le nombre d’individus composant une population statistique s’appelle taille de la population ou
effectif total, désigné par “N“.
Remarque : en pratique, la taille des populations à étudier est tellement important qu’on a souvent
recours à des sous-ensembles de populations qu’on appelle échantillon.
2.2- Caractère
C’est l’aspect, la propriété, l’attribut ou le trait particulier que l’on désir étudier. Il est
observable sur tous les individus de la population et est susceptible de varier, ce qui lui confère
également le nom de variable statistique (Cf, § 2.3.1.2 ci-dessous). Par exemple ; l’âge des étudiants
de première année, la couleur des voitures dans un parking, le nombre de pièces par logement dans
une ville, etc.
Sur une population statistique donnée, on peut étudier ou observer un ou plusieurs caractères.
2.3- Modalités
Notées (xi), ce sont toutes les situations ou valeurs possibles du caractère. Tous les
caractères présentent au moins deux modalités (deux ou plus), sinon l’étude statistique n’aurait pas
de sens. Par contre, sur chaque individu on ne retrouve qu’une et une seule modalité (un individu
ne peut pas avoir en même temps 18 ans et 20 ans à la fois).
Il y a autant de modalités que d’individus dans la population. Cependant, le nombre de modalités
différentes (“k“) est toujours inférieur ou égale au nombre d’individus : k ≤ N.
Ainsi :
x1 signifie la modalité numéro 1 ou la modalité la plus petite, elle est portée à la
première ligne du tableau statistique.
x2 désigne la modalité numéro 2, celle portée à la deuxième ligne du tableau.
xk désigne la modalité numéro « k » ou la plus grande modalité, elle est portée à la
dernière ligne du tableau.
xi désigne une quelconque modalité, (la numéro i), parmi toutes les modalités
possibles du caractère portées sur le tableau statistique. Elle est portée à la ligne kème
ligne.
En pratique, les modalités d’un caractère qualitatif forment les différentes rubriques d’une
nomenclature établie de telle sorte que chaque individu figure dans une et une seule rubrique (une
et une seule modalité).
On dit qu’un caractère est quantitatif lorsque ses modalités sont quantifiables ou mesurables,
c'est-à-dire, reflètent une mesure ou une quantification. Ses modalités sont, par conséquent, toujours
traduites par des données numériques (chiffres) sur lesquelles les opérations arithmétiques sont
possibles et débouchent sur des résultats rationnels.
C’est avec ce type de caractère que la notion de variable statistique prend tout son sens
mathématique, et ses modalités sont les valeurs possibles de la variable. Ainsi, l’âge, la taille, le
poids, la durée, le nombre d’enfants par ménage, le nombre d’étudiants par salle,… ; sont des
caractères quantitatifs.
NB/- On remarque alors dans ce cas que le nom du caractère étudié commence toujours par les
mots “Le nombre de… “.
7
Remarque : en pratique, il peut arriver le nombre de modalités soit trop important. Les
données sont alors présentées ou résumées sous forme de classes et sont alors traitées comme des
variables statistiques continues. Mais les résultats obtenus à partir des traitements gardent la même
nature que la variable étudiée. Ex ; si la moyenne calculée est de 1,5 étudiants, on lira 1 à 2
étudiants ou entre 1 et 2 étudiants, car 0,5 étudiant n’a pas de sens !
Une variable statistique est dite continue lorsqu’elle prend ses valeurs dans l’ensemble des
nombres réels (R), autrement dit, dans un intervalle infinis de valeurs, ou lorsque ses modalités sont
présentées sous formes d’intervalles ou de classes.
Ainsi, à l’exception du dénombrement, toutes les opérations qui consistent en la mesure, à savoir ;
la pesée, le métrage, le chronométrage, le calcul, … ; représentent des caractères quantitatifs
continus.
Même si dans ce cas les modalités sont exprimées sous forme de nombres entiers, on peut toutefois
pousser les mesures à un nombre infini de décimales. Ainsi, un poids de 10Kg représente en réalité
un poids entre 9,999…9 Kg et 10,000….01 Kg. De même, une taille de 170 cm représente en réalité
une taille entre 169,9999…..9 et 170,000….01 cm, etc. ce sont donc en réalité, des valeurs qui
n’appartiennent pas à l’ensemble des nombres naturels (N), elles sont donc par nature continues.
Cette section a pour objet de définir, respectivement, les notions d’effectif absolu ou
fréquence absolue, fréquence relative ou effectif relatif et de distribution de fréquences.
On appelle effectif absolu, ou fréquence absolue, noté “ni“, le nombre de fois qu’une
modalité est observée. Ou bien encore, le nombre d’individus de la population présentant la même
modalité (xi). On écrit : ( xi ni ).
Ainsi :
8
3.2- Fréquence relative
fi = ni / N
Avec : 0 ≤ fi ≤ 1
Les effectifs ou fréquences cumulés se déterminent à partir du tableau statistique par sommation ou
cumul par ligne des effectifs respectifs des modalités ordonnées.
On peut avoir des effectifs ou fréquences cumulés croissants, notés « Ni » ou « Fi », c'est-à-dire le
cumul croît du premier effectif ou fréquence (porté à la première ligne du tableau) vers le dernier
effectif ou fréquence jusqu’à avoir la somme totale des effectifs (portée à la dernière ligne du
tableau). Autrement dit, le cumul croît du haut vers le bas du tableau (de n1 jusqu’à N). On écrit
alors :
Ni = Ni-1 + ni ou Fi = Fi-1 + fi
9
Ni-1 et Fi-1 étant respectivement l’effectif cumulé et la fréquence cumulée décroissants de la
modalité ou de la ligne avant la modalité ou la ligne « i ».
N1 = n1 ou F1 = f1
Nk = N ou Fk = 1
N1 = N ou F1 = 1
Nk = nk ou Fk = fk
ils reflètent, dans un ordre croissant des données, le classement, le numéro, la position ou le
ième
rang de chaque modalité, de la première (la plus petite) jusqu’à la dernière ou la n (la
plus grande) ;
les effectifs ou fréquences cumulés croissants permettent de répondre à la question : quel est
l’effectif ou la proportion d’individus qui ont moins de ou au plus…. ?
les effectifs ou fréquences cumulés décroissants permettent de répondre à la question : quel
est l’effectif ou la proportion d’individus qui ont plus de ou au moins…. ?
Remarque :
Il y a lieu de souligner que lorsqu’il s’agit d’un caractère qualitatif l’interprétation des effectifs
cumulés a rarement un sens. Aussi, sont-ils surtout sollicités dans le cas des caractères quantitatifs.
10
On détermine d’abord, la population statistique, l’unité, le caractère, les modalités et la nature du
caractère :
Population : c’est l’ensemble des 35 étudiants du groupe enquêtés.
Unité : un étudiant.
Caractère : âge.
Modalités : 17 - 18 - 19 - 20 - 21 - 22 - 23 - 25. ( il y a donc 8 modalités différentes: k=8).
Nature du caractère : variables statistique continue.
Il s’agit là des premiers éléments de l’enquête. Ce sont des données brutes, désordonnées et
indéchiffrables. Pour rendre ces données lisibles et instructives, il faudrait transformer ces données
en statistiques, en leur faisant subir un traitement par les méthodes de la statistique descriptive.
Celle-ci, comme on l’a expliqué plus haut, consiste à ordonner, classer, résumer et présenter ces
données de la manière la plus synthétique et la plus lisible possible. Nous allons donc procéder
étape par étape.
Ordonner les données
Il s’agit de données numériques, donc la manière la plus logique de les ordonner
c’est de suivre un ordre croissant des données. On obtient alors ce qu’on appelle une série
statistique ordonnée, comme suit :
17- 17- 17- 18- 18- 18- 18- 18- 18- 18- 18- 18-
19- 19- 19- 19- 19- 19- 20- 20- 20- 20- 20- 20-
21- 21- 21- 21- 22- 22- 22- 23- 23- 23- 25.
Remarque
La modalité 17 est la première et plus petite modalité de la série statistique
ordonnée, elle est généralement notée « Xmin ». La modalité 25 est la dernière, ou 35ème
modalité, et aussi la plus grande valeur de la série ordonnée. Elle est généralement notée
« Xmax ».
La différence entre la plus grande et la plus petite valeurs de la série nous donne l’étendue
de la série, notée « e ». dans ce cas elle est égale à 25 – 17 = 8 ans. C’est l’écart d’âge ente le
plus âgé des étudiants du groupe et le plus jeune.
La série présentée de cette manière est ordonnée mais non encore résumée. On
peut donc la simplifier davantage et la rendre encore plus lisible. On va dans ce cas
l’individualiser, c'est-à-dire supprimer les répétitions en faisant apparaître chaque modalité
une seule fois, en lui associant le nombre d’étudiants correspondant (effectif).
11
Classer et présenter les données
En classant les données, on obtient ce qu’on appelle une distribution statistique,
appelée aussi série individualisée ou pondérée, ou distribution des fréquences (xi ni).
Cependant, une distribution statistique est présentée dans un tableau statistique, où ne sont
représentés que le caractère étudié, ses modalités et les effectifs correspondant, comme suit :
17 3 0,086 3 0,086 35 1
18 9 0,257 12 0,343 32 0,914
19 6 0,172 18 0,515 23 0,657
20 6 0,172 24 0,687 17 0,485
21 4 0,114 28 0,801 11 0,313
22 3 0,086 31 0,887 7 0,199
23 3 0,086 34 0,973 4 0,113
25 1 0,027 35 1 1 0,027
Total 35 1 - - - -
Remarques :
Dans la colonne des fréquences relatives (fi), on arrondis les chiffres à deux ou trois
nombres après la virgule, de telle sorte à avoir au total 0,999 ou 1.
Les colonnes des effectifs et fréquences cumulés ne contiennent pas de totaux car, s’agissant
de cumuls, les totaux dans la dernière ligne du tableau n’ont pas de sens.
On remarquera, à partir du tableau, que, comme nous l’avons souligné plus haut :
Ʃfi = 1
F1 = f1
N1 = n1
Ʃni = N
Fk = fk ou Nk = nk
F1 = 1 ou N1 = N
ƩNi ou ƩFi et ƩNi ou ƩFi n’ont pas de sens, ils ne signifient rien !
12
Notons, enfin, que la distribution des fréquences cumulées s’appelle fonction de répartition
ou fonction cumulative, où à chaque modalité xi est associé un effectif ou une fréquence cumulé :
{x i Ni } ou { xi Fi }.
Conclusion au chapitre I
Au terme de ce premier chapitre, l’étudiant est censé avoir pris connaissance du jargon ou
vocabulaire usuel en statistique. La définition précise et détaillée des différentes notions
fondamentales lui permettront, dans la suite du cours, de ne pas tomber dans la confusion et de
bien cerner les contours des problèmes et applications statistiques qui lui seront posées.
Ce premier chapitre fait également l’objet d’une application en T.D (série n°1), où l’étudiant sera
éclairé davantage sur la terminologie statistique.
13