Statistiques Descriptif
Statistiques Descriptif
Statistiques Descriptif
Département d’informatique
Statistique descriptive
2020/2021
Introduction :
Le cours a pour but d’initier les étudiants aux principes de base de la statistique.
Le cours vise principalement à introduire et faire méditer les concepts fondamentaux et
Méthodes élémentaires de la statistique pour permettre un apprentissage autonome ultérieur de
méthodes complémentaires.
On veut développer le sens critique nécessaire lors de la mise en œuvre et de l’interprétation d’un
traitement statistique. Pour cela, on introduira et utilisera un cadre mathématique
Rigoureux. Nous fournirons autant d’exemples et de figures nécessaires afin d’obtenir une meilleure
compréhension du cours.
La statistique descriptive a pour but d’étudier un phénomène à partir de données. Cette description se
fait à travers la présentation des données (la plus synthétique possible), leur représentation graphique
et le calcul de résumés numériques.
1.1 Vocabulaire
Les statistiques consistent en diverses méthodes de classement de données telles que les
tableaux, les histogrammes et les graphiques, permettant d’organiser un grand nombre de
données. Les statistiques se sont développées dans la deuxième moitié du XIXe siècle dans le
domaine des sciences humaines (sociologie, économie, anthropologie, ...). Elles se sont dotées
d’un vocabulaire particulier.
1.1.1 Population :
En statistique, on travaille sur des populations. Ce terme vient du fait que la démographie,
étude des populations humaines, a occupé une place centrale aux débuts de la statistique,
notamment au travers des recensements de population. Mais, en statistique, le terme de
population s’applique à tout objet statistique étudié, qu’il s’agisse d’étudiants (d’une
université ou d’un pays), de ménages ou de n’importe quel autre ensemble sur lequel on fait
des observations statistiques. Nous définissons la notion de population.
Définition :
On appelle population l’ensemble sur lequel porte notre étude statistique. Cet ensemble est
noté P.
Exemple :
Une population est composée d’individus. Les individus qui composent une population
statistique sont appelés unités statistiques.
Définition :
On appelle individu tout élément de la population Ƥ.
Remarque :
Exemple :
1) Dans l’exemple indiqué ci-dessus, un individu est tout étudiant de la section.
2) Si on étudie la production annuelle d’une usine de boîtes de boisson en métal
(Canettes). La population est l’ensemble des boîtes produites durant l’année et une boîte
constitue un individu.
3) L'ensemble des pays du monde. Un individu est un pays.
Echantillon :
C'est un sous ensemble d'une population. Ces échantillons sont en principe choisis au hasard
dans la population. Les observations seront faites sur l'échantillon dans le but d'extrapoler les
résultats a toute la population.
Exemple :
Taille, température, nationalité, sexe, couleur des yeux, catégorie socioprofessionnelle, poids,
nombre d’enfants, leur âge ...
1.1.5 Modalités :
Les modalités d’une variable statistique sont les différentes valeurs que peut prendre celle-ci.
Exemple :
– Variable est " situation familiale "
Modalités sont " célibataire, marié, divorcé "
–– Variable est " sexe"
Modalités sont " masculin, féminin "
– Variable est" statut d’interrupteur "
Modalités sont " 0 et 1 ".
– Variable est " catégories socio-professionnelles "
Modalités sont " Employés, ouvriers, retraités,...
–– Variable est " couleur "
Modalités sont " noir, vert, bleue, rouge,….."
Remarque :
Les modalités sont les différentes situations dans lesquelles les individus peuvent se trouver
à l’égard du caractère considéré.
Les caractères qualitatifs sont ceux dont les modalités ne peuvent pas être ordonnées, c’est-
à-dire que si l’on considère deux caractères pris au hasard, on ne peut pas dire de l’un des
caractères qu’il est inférieur ou égal à l’autre. Plus précisément, nous avons la définition
suivante.
Définition :
Une variable qualitative est une variable qui ne prend pas de valeur numérique i.e non
mesurable.
On distingue deux types :
Exemple :
- L’état d’une maison : on peut considérer les modalités suivantes :
Ancienne, dégradée, nouvelle.
- Sexe, couleur, nationalité, secteur d’activité, la maladie……
Définition :
L’orsque les modalités d’une variable statistique est des quantités mesurables ou l’ensemble
des valeurs est représenté par des chiffres.
Exemple :
Taille, température, âge, nombre d’enfants, salaire annuel…….
Exemple :
Taille….
Classes :
Soit [a; b[ une classe d’une variable quantitative, on dit que b - a est l’amplitude de cette
b+a
classe. Centres de classe
2
Exemple :
La taille d’un échantillon d’étudiants 1 LMD peut être classée en moins d’un
Mètre, [140; 175]. L’amplitude de la classe est 175-140 = 35 cm.
140+175
Centre de cette classe
2
1.2.2.2 Variable statistique quantitatif discret :
Exemple :
Nombre d’enfants,……
Remarque :
En général, la variable quantitative discrète est une variable ne prenant que des valeurs
entières (plus rarement décimales). Le nombre de valeurs distinctes d’une telle variable est
habituellement assez faible. Citons, par exemple, le nombre de maisons par quartier d’une
ville. Une variable quantitative est dite continue lorsque les observations qui lui sont
associées ne sont pas des valeurs précises, mais des intervalles. C’est le cas lorsque nous
avons un grand nombre d’observations distinctes.
La statistique descriptive a pour objectif de synthétiser l’information contenue dans les jeux
de données au moyen de tableaux, figures ou résumés numériques. Les variables statistiques
sont analysées différemment selon leur nature (quantitative, qualitative).
Exercice 1 :
- La variable statistique "couleur de maisons d’un quartier" est-elle :
o qualitative quantitative
discrète continue
La variable statistique "revenu brut" est-elle :
qualitative quantitative
discrète continue
La variable statistique "nombre de maisons vendues par ville" est-elle :
qualitative quantitative
discrète continue
Solution :
Pour le premier cas, la variable statistique est qualitative.
Pour le deuxième cas, la variable statistique est quantitative continue.
Pour le troisième cas, la variable statistique est quantitative discrète.
Exercice 2 :
- Parmi ces assertions, préciser celles qui sont vraies, celles qui sont fausses.
1) On appelle variable, une caractéristique que l’on étudie.
2) La tâche de la statistique descriptive est de recueillir des données.
3) La tâche de la statistique descriptive est de présenter les données sous forme de tableaux,
de graphiques et d’indicateurs statistiques.
4) En Statistique, on classe les variables selon différents types.
5) Les valeurs des variables sont aussi appelées modalités.
6) Pour une variable qualitative, chaque individu statistique ne peut avoir qu’une seule
modalité.
7) Pour faire des traitements statistiques, il arrive qu’on transforme une variable quantitative
en variable qualitative.
8) La variable quantitative poids d’automobile peut être reclassée en compacte, intermédiaire
et grosse.
9) En pratique, lorsqu’une variable quantitative discrète prend un grand nombre de valeurs
distinctes, on la traite comme continue.
Solution :
Le corrigé en ordre est donné par
1. VRAI
2. FAUX
3. VRAI
4. VRAI
5. VRAI
6. VRAI
7. VRAI
8. VRAI
9. VRAI
Exercice 3 :
Pour chacune des variables suivantes, précisé si elle est qualitative, quantitative discrète ou
quantitative continue :
1) Revenu annuel 2) Citoyenneté 3) Distance 4) Taille 5) Lieu de résidence
6) Âge 7) Couleur des yeux 8) Nombre de langues parlées.
2. Présentation des variables statistiques
Série statistique :
Une série statistique est la suite des observations d’une (ou plusieurs) variable(s), relevées
sur les individus d’une population.
Modalités X1 X2 X3 ……… Xr
Effectif n1 n3 n3 …….. nr
n1 n2 nr
f1+f2+ ………+fr=
N
+ +…+ N
N
=
n1+n2+ ………+nr N
= N =1
N
Remarque :
On peut remplacer fi par fi × 100 qui représente alors un pourcentage.
Exemple 1 :
Une enquête réalisée dans un village porte sur le nombre d’enfants à charge par famille.
On note X le nombre d’enfants, les résultats sont donnés par ce tableau :
X 0 1 2 3 4 5 6
N 18 32 66 41 32 9 2
fi 18 32 66 41 32 9 2
200 200 200 200 200 200 200
Pourcentage 9% 16% 33% 20,5% 16% 4,5% 01%
ECC 18 50 116 157 189 198 200
ECD 200 182 116 75 43 34 32
Exemple 2 :
Tuyaux d’orgues :
Nous portons en abscisses les modalités, de façon arbitraire. Nous portons en ordonnées des
rectangles dont la longueur est proportionnelle aux effectifs, ou aux fréquences, de chaque
modalité.
Le degré d’un secteur est déterminé à l’aide de la règle de trois de la manière suivante :
N ـــــــــــــــــــــــــــــــ360°
ni ــــــــــــــــــــــــــــــــــــــــــــــــــdi (degré de la modalité i ).
ni×360°
Donc di = 𝑁
Exemple :
3×360°
Noir : d1 =
20
= 54°
4×360°
Bleue d2 = 20
= 72°
5×360°
Vert d3 =
20
= 90°
8×360°
Rouge d4=
20
= 144°
Nous pouvons représenter le tableau statistique par un histogramme. Nous reportons les classes sur l’axe
des abscisses et, au-dessus de chacune d’elles, nous traçons un rectangle dont l’aire est proportionnelle à
la fréquence fi (ou l’effectif ni) associée. Ce graphique est appelé l’histogramme des fréquences.
Figure : Histogramme des fréquences ou des effectifs .
Le mode :
Le mode d’une V.S est la valeur qui a le plus grand effectif partiel (ou la plus grande
fréquence partielle) et il est dénoté par M0
Exemple :
X 0 1 2 3 4 5 6
Effectif ni 18 32 66 41 32 9 2
Le mode M0 =2
Définition :
Nous définissions la classe modale comme étant la classe des valeurs de X qui a le plus grand
effectif partiel (ou la plus grande fréquence partielle). La quantité
d1
M0 =𝐿i +
d1+d2
×a i
d1 = n0 – n1 , d2 = n0 – n2 ou bien d1 = f0 – f1 , d1 = f0 – f1
n0 et f0 sont l’effectif et la fréquence associés à la classe modale.
Exemple :
𝟑𝟖−𝟖
M0 =𝟐𝟐 +
(𝟑𝟖−𝟖)+(𝟑𝟖−𝟑)
×3 =
La médiane :
La médiane est la valeur qui partage la série en deux séries qui le même effectif totale.
Suivant que N est un nombre totale paire ou impaire.
1 Cas : N=2p+1 donc la médiane est la valeur d’ordre p+1 .
2 Cas : N= 2p donc la médiane est la valeur d’ordre p et p+1 devisé par 2 .
Exemple 1 :
Xi 0 1 2 3
ni 7 3 2 8
N= 20 paire
1+2
Med = = 1,5
2
Exemple 2 :
Xi 0 1 2 3
ni 6 3 2 8
N= 19 impaire
Med = 2
La moyenne :
On appelle moyenne de X, la quantité fi xi
x1 ∙ n1 + x2 . n2 … … xr. nr
𝑋̅ =
N
𝑋̅ = ∑𝑘𝑖=1
xi ni
Ou
𝑁
𝑘
𝑋̅ = ∑ fi xi
𝑖=1
Exemple :
X 7 13 12 11 9,5
n 2 2 1 3 2
𝑋̅ = 10,4
Propriétés :
a , b ϵ IR
1) ̅̅̅̅̅̅̅̅̅
X + a = ̅̅̅X + a̅
2) ̅̅̅̅̅̅̅̅̅
X × a = ̅̅̅
X × a̅
Remarque :
Le cas continu on peut remplacer les variables xi par les centres.
L’étendue :
La différence entre la plus grande valeur et la plus petite valeur du caractère, donnée par la quantité
𝐸 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛
S’appelle l’étendue de la V.S X. Le calcul de l’étendue est très simple. Il donne une première
idée de la dispersion des observations. C’est un indicateur très rudimentaire et il existe des
indicateurs de dispersion plus élaborés (voir ci-dessous).
La variance :
On appelle variance de cette série statistique X, le nombre
𝑖=1 ni(ni
Var (X) = ∑𝑁 – ̅̅̅̅̅
𝑋)
Propriétés de la variance :
L’écart type :
La quantité
𝜎(𝑋)= √Var (X)
Le coefficient de variation :
Définition :
Le coefficient de variation représente le rapport de l'écart-type par la moyenne.
𝜎(𝑋)
CV = ̅̅̅
𝑋