Statistiques Descriptif

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 18

RÉPUBLIQUE ALGÉRIENNE DÉMOCRATIQUE ET POPULAIRE

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

Université Ibn Khaldoun Tiaret


Faculté des Mathématique et de l'Informatique

Département d’informatique

Statistique descriptive

Par : Mahrouz Tayeb

2020/2021
Introduction :

Le cours a pour but d’initier les étudiants aux principes de base de la statistique.
Le cours vise principalement à introduire et faire méditer les concepts fondamentaux et
Méthodes élémentaires de la statistique pour permettre un apprentissage autonome ultérieur de
méthodes complémentaires.
On veut développer le sens critique nécessaire lors de la mise en œuvre et de l’interprétation d’un
traitement statistique. Pour cela, on introduira et utilisera un cadre mathématique
Rigoureux. Nous fournirons autant d’exemples et de figures nécessaires afin d’obtenir une meilleure
compréhension du cours.
La statistique descriptive a pour but d’étudier un phénomène à partir de données. Cette description se
fait à travers la présentation des données (la plus synthétique possible), leur représentation graphique
et le calcul de résumés numériques.

La place de ce cours dans le futur métier des étudiants :


– Analyse des données (outils scientifiques permettant de résumer un ensemble de données afin de
mettre en évidence l’information).
– Simulations (processus stochastique - variable temporelle)
– Prédiction et décisions (probabilités de risque ou d’occurrence).
Chapitre 1

1. Généralités sur la statistique


La statistique est l’étude de la collecte de données, leur analyse, leur traitement,
l’interprétation des résultats et leur présentation afin de rendre les données compréhensibles
par tous. C’est à la fois une science, une méthode et un ensemble de techniques.
L’analyse des données est utilisée pour d’écrire les phénomènes étudiés, faire des prévisions
et prendre des décisions à leur sujet. En cela, la statistique est un outil essentiel pour la
compréhension et la gestion des phénomènes complexes.
Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans tous
les champs disciplinaires et explique pourquoi elle est enseignée dans toutes les filières
universitaires, de l’économie à la biologie en passant par la psychologie et bien sûr les
sciences de l’ingénieur. La statistique consiste à :
– Recueillir des données.
– Présenter et résumer ces données.
– Tirer des conclusions sur la population étudiée et d’aider à la prise de décision.
– En présence de données dépendant du temps, nous essayons de faire de la prévision.

1.1 Vocabulaire
Les statistiques consistent en diverses méthodes de classement de données telles que les
tableaux, les histogrammes et les graphiques, permettant d’organiser un grand nombre de
données. Les statistiques se sont développées dans la deuxième moitié du XIXe siècle dans le
domaine des sciences humaines (sociologie, économie, anthropologie, ...). Elles se sont dotées
d’un vocabulaire particulier.

1.1.1 Population :

En statistique, on travaille sur des populations. Ce terme vient du fait que la démographie,
étude des populations humaines, a occupé une place centrale aux débuts de la statistique,
notamment au travers des recensements de population. Mais, en statistique, le terme de
population s’applique à tout objet statistique étudié, qu’il s’agisse d’étudiants (d’une
université ou d’un pays), de ménages ou de n’importe quel autre ensemble sur lequel on fait
des observations statistiques. Nous définissons la notion de population.
Définition :

On appelle population l’ensemble sur lequel porte notre étude statistique. Cet ensemble est
noté P.

Exemple :

– On considère l’ensemble des étudiants de la section A. On s’intéresse aux nombre de frères


et sœurs de chaque étudiant. Dans ce cas
Ƥ = ensemble des étudiants.
– Si l’on s’intéresse maintenant a la circulation automobile dans une ville, la population est
alors constituée de l’ensemble des véhicules susceptibles de circuler dans cette ville à une
date donnée. Dans ce cas
Ƥ= ensemble des véhicules.
– L’ensemble des voitures en Algérie.
Ƥ = ensemble des voitures

1.1.2 Individu (unité statistique) :

Une population est composée d’individus. Les individus qui composent une population
statistique sont appelés unités statistiques.

Définition :
On appelle individu tout élément de la population Ƥ.

Remarque :

L’ensemble peut être un ensemble de personnes, de choses ou d’animaux...


L’unité statistique est un objet pour lequel nous sommes intéressés à recueillir de
l’information.

Exemple :
1) Dans l’exemple indiqué ci-dessus, un individu est tout étudiant de la section.
2) Si on étudie la production annuelle d’une usine de boîtes de boisson en métal
(Canettes). La population est l’ensemble des boîtes produites durant l’année et une boîte
constitue un individu.
3) L'ensemble des pays du monde. Un individu est un pays.

Echantillon :
C'est un sous ensemble d'une population. Ces échantillons sont en principe choisis au hasard
dans la population. Les observations seront faites sur l'échantillon dans le but d'extrapoler les
résultats a toute la population.

1.1.3 Caractère (variable statistique) :


La statistique « descriptive », comme son nom l’indique cherche à décrire une population
donnée. Nous nous intéressons à la caractéristique des unités qui peuvent prendre différentes
valeurs.

Exemple :
Taille, température, nationalité, sexe, couleur des yeux, catégorie socioprofessionnelle, poids,
nombre d’enfants, leur âge ...

1.1.5 Modalités :
Les modalités d’une variable statistique sont les différentes valeurs que peut prendre celle-ci.

Exemple :
– Variable est " situation familiale "
Modalités sont " célibataire, marié, divorcé "
–– Variable est " sexe"
Modalités sont " masculin, féminin "
– Variable est" statut d’interrupteur "
Modalités sont " 0 et 1 ".
– Variable est " catégories socio-professionnelles "
Modalités sont " Employés, ouvriers, retraités,...
–– Variable est " couleur "
Modalités sont " noir, vert, bleue, rouge,….."

Remarque :

Les modalités sont les différentes situations dans lesquelles les individus peuvent se trouver
à l’égard du caractère considéré.

1.2 Type des caractères (variable statistique)


Nous distinguons deux catégories de caractères :
Les caractères qualitatifs et les caractères quantitatifs.

1.2.1 Variable statistique qualitatif

Les caractères qualitatifs sont ceux dont les modalités ne peuvent pas être ordonnées, c’est-
à-dire que si l’on considère deux caractères pris au hasard, on ne peut pas dire de l’un des
caractères qu’il est inférieur ou égal à l’autre. Plus précisément, nous avons la définition
suivante.

Définition :

Une variable qualitative est une variable qui ne prend pas de valeur numérique i.e non
mesurable.
On distingue deux types :

1.2.1.1 Variable statistique qualitatif nominale


Le variable est dite qualitative nominale quand les modalités ne peuvent être ordonnées.

1.2.1.2 Variable statistique qualitatif ordinale


Le variable est dite qualitative nominale quand les modalités peuvent être ordonnées.

Exemple :
- L’état d’une maison : on peut considérer les modalités suivantes :
Ancienne, dégradée, nouvelle.
- Sexe, couleur, nationalité, secteur d’activité, la maladie……

1.2.2 Variable statistique quantitatif :


Les caractères quantitatifs sont des caractères dont les modalités peuvent être ordonnées.
Ainsi, l’âge, la taille de vie ou le salaire d’un individu sont des caractères quantitatifs.
Donc, nous avons la définition suivante.

Définition :

L’orsque les modalités d’une variable statistique est des quantités mesurables ou l’ensemble
des valeurs est représenté par des chiffres.

Exemple :
Taille, température, âge, nombre d’enfants, salaire annuel…….

On distingue deux types :

1.2.2.1 Variable statistique quantitatif continue :


Les modalités de la variable statistique peuvent prendre toutes les valeurs comprises dans un
intervalle donné, notamment un nombre infini de valeurs.

Exemple :
Taille….

Classes :
Soit [a; b[ une classe d’une variable quantitative, on dit que b - a est l’amplitude de cette
b+a
classe. Centres de classe
2
Exemple :

La taille d’un échantillon d’étudiants 1 LMD peut être classée en moins d’un
Mètre, [140; 175]. L’amplitude de la classe est 175-140 = 35 cm.
140+175
Centre de cette classe
2
1.2.2.2 Variable statistique quantitatif discret :

Les valeurs possibles de la variable sont isolées.

Exemple :
Nombre d’enfants,……

Remarque :
En général, la variable quantitative discrète est une variable ne prenant que des valeurs
entières (plus rarement décimales). Le nombre de valeurs distinctes d’une telle variable est
habituellement assez faible. Citons, par exemple, le nombre de maisons par quartier d’une
ville. Une variable quantitative est dite continue lorsque les observations qui lui sont
associées ne sont pas des valeurs précises, mais des intervalles. C’est le cas lorsque nous
avons un grand nombre d’observations distinctes.
La statistique descriptive a pour objectif de synthétiser l’information contenue dans les jeux
de données au moyen de tableaux, figures ou résumés numériques. Les variables statistiques
sont analysées différemment selon leur nature (quantitative, qualitative).

1.3 Exercices corrigés

Exercice 1 :
- La variable statistique "couleur de maisons d’un quartier" est-elle :
o qualitative quantitative
discrète continue
La variable statistique "revenu brut" est-elle :
qualitative quantitative
discrète continue
La variable statistique "nombre de maisons vendues par ville" est-elle :
qualitative quantitative
discrète continue

Solution :
Pour le premier cas, la variable statistique est qualitative.
Pour le deuxième cas, la variable statistique est quantitative continue.
Pour le troisième cas, la variable statistique est quantitative discrète.
Exercice 2 :
- Parmi ces assertions, préciser celles qui sont vraies, celles qui sont fausses.
1) On appelle variable, une caractéristique que l’on étudie.
2) La tâche de la statistique descriptive est de recueillir des données.
3) La tâche de la statistique descriptive est de présenter les données sous forme de tableaux,
de graphiques et d’indicateurs statistiques.
4) En Statistique, on classe les variables selon différents types.
5) Les valeurs des variables sont aussi appelées modalités.
6) Pour une variable qualitative, chaque individu statistique ne peut avoir qu’une seule
modalité.
7) Pour faire des traitements statistiques, il arrive qu’on transforme une variable quantitative
en variable qualitative.
8) La variable quantitative poids d’automobile peut être reclassée en compacte, intermédiaire
et grosse.
9) En pratique, lorsqu’une variable quantitative discrète prend un grand nombre de valeurs
distinctes, on la traite comme continue.

Solution :
Le corrigé en ordre est donné par
1. VRAI
2. FAUX
3. VRAI
4. VRAI
5. VRAI
6. VRAI
7. VRAI
8. VRAI
9. VRAI

Exercice 3 :
Pour chacune des variables suivantes, précisé si elle est qualitative, quantitative discrète ou
quantitative continue :
1) Revenu annuel 2) Citoyenneté 3) Distance 4) Taille 5) Lieu de résidence
6) Âge 7) Couleur des yeux 8) Nombre de langues parlées.
2. Présentation des variables statistiques
Série statistique :
Une série statistique est la suite des observations d’une (ou plusieurs) variable(s), relevées
sur les individus d’une population.

Modalités X1 X2 X3 ……… Xr
Effectif n1 n3 n3 …….. nr

- Effectif partiel - effectif cumulé :


- Le nombre d’individus de la population est appelé effectif totale noté par N.
- L’effectif absolu est le nombre de fois ou cette valeur du caractère à été observé noté
par ‘’ n ’’.
On a
n1+n2+ ………+nr= N

Fréquence partielle (fréquence relative) :


Définition :
Pour chaque valeur Xi, on pose par définition :
ni
fi =
N
fi s’appelle la fréquence partielle de xi.
La fréquence d’une valeur est le rapport de l’effectif de cette valeur par l’effectif total.

n1 n2 nr
f1+f2+ ………+fr=
N
+ +…+ N
N
=
n1+n2+ ………+nr N
= N =1
N

Remarque :
On peut remplacer fi par fi × 100 qui représente alors un pourcentage.

Effectifs cumulés croissants et décroissants :


Les effectifs (resp: Les fréquences) cumulés croissants d’une
Valeur s’obtiennent en ajoutant à chaque effectif (resp: fréquence) les effectifs (resp: les
fréquences) des valeurs qui la précédent.

Exemple 1 :
Une enquête réalisée dans un village porte sur le nombre d’enfants à charge par famille.
On note X le nombre d’enfants, les résultats sont donnés par ce tableau :

X 0 1 2 3 4 5 6
N 18 32 66 41 32 9 2
fi 18 32 66 41 32 9 2
200 200 200 200 200 200 200
Pourcentage 9% 16% 33% 20,5% 16% 4,5% 01%
ECC 18 50 116 157 189 198 200
ECD 200 182 116 75 43 34 32

FCC 18 50 116 157 189 198 1


200 200 200 200 200 200

FCD 1 182 116 75 43 34 32


200 200 200 200 200 200

Exemple 2 :

Classes [20;22[ [22;25[ [25;31[ [31;36[ [36;41[


Centre 21 23 ,5 28 33,5 39
Effectif (ni) 8 38 3 1 3
Fréquence 8 38 3 1 3
53 53 53 53 53
(fi)
FCC 8 46 50 51 53
ECD 53 45 7 4 3
Fcc 8 46 49 50
53 53 53 53 1
Fcd 45 7 4 3
1 53 53 53 53

3. Représentation graphique des séries statistiques


On distingue les méthodes de représentation d’une variable statistique en fonction de la
nature de cette variable (qualitative ou quantitative). Les représentations recommandées et
les plus fréquentes sont les tableaux et les diagrammes (graphe).
3.1. Représentations des variables qualitatifs
A partir de l’observation d’une variable qualitative, deux diagrammes permettent de
représenter cette variable : le diagramme en bandes (dit tuyaux d’orgue) et le diagramme à
secteurs angulaires (dit camembert).

Tuyaux d’orgues :
Nous portons en abscisses les modalités, de façon arbitraire. Nous portons en ordonnées des
rectangles dont la longueur est proportionnelle aux effectifs, ou aux fréquences, de chaque
modalité.

Figure: Tuyaux d’orgues

Diagramme par secteur (diagramme circulaire)


Les diagrammes circulaires, ou semi-circulaires, consistent à partager un disque ou un demi-
disque, en tranches, ou secteurs, correspondant aux modalités observées et dont la surface
est proportionnelle à l’effectif, ou à la fréquence, de la modalité.
Figure : Diagramme par secteur

Le degré d’un secteur est déterminé à l’aide de la règle de trois de la manière suivante :

N ‫ ـــــــــــــــــــــــــــــــ‬360°
ni ‫ ــــــــــــــــــــــــــــــــــــــــــــــــــ‬di (degré de la modalité i ).

ni×360°
Donc di = 𝑁

Exemple :

Xi Noir Bleue Vert Rouge


ni 3 4 5 8

fi 0,15 0,2 0,25 0,2

3×360°
Noir : d1 =
20
= 54°
4×360°
Bleue d2 = 20
= 72°
5×360°
Vert d3 =
20
= 90°
8×360°
Rouge d4=
20
= 144°

3.2. Représentations des variables quantitatifs discrets


A partir de l’observation d’une variable quantitative discrète, deux diagrammes permettent de
représenter cette variable : le diagramme en bâtons et le diagramme cumulatif (voir ci-
dessous).
Diagramme à bâtons :
On veut représenter cette répartition sous la forme d’un diagramme en bâtons. À chaque
marque correspond un bâton. Les hauteurs des bâtons sont proportionnelles aux effectifs
représentés.

Figure : Diagramme à bâtons

3.2. Représentations des variables quantitatifs continus

Histogramme des fréquences (ou effectifs) :

Nous pouvons représenter le tableau statistique par un histogramme. Nous reportons les classes sur l’axe
des abscisses et, au-dessus de chacune d’elles, nous traçons un rectangle dont l’aire est proportionnelle à
la fréquence fi (ou l’effectif ni) associée. Ce graphique est appelé l’histogramme des fréquences.
Figure : Histogramme des fréquences ou des effectifs .

Paramètres de position (caractéristique de tendance centrale)

Le mode :

Le mode d’une V.S est la valeur qui a le plus grand effectif partiel (ou la plus grande
fréquence partielle) et il est dénoté par M0

Exemple :

X 0 1 2 3 4 5 6
Effectif ni 18 32 66 41 32 9 2

Le mode M0 =2

Le mode (cas continu) :

La définition suivante permet de comprendre la démarche à suivre pour calculer le mode


d’une manière exacte et qui se trouve dans une des classes appelée "classe modale".

Définition :

Nous définissions la classe modale comme étant la classe des valeurs de X qui a le plus grand
effectif partiel (ou la plus grande fréquence partielle). La quantité

d1
M0 =𝐿i +
d1+d2
×a i

𝐿i : la borne inférieure de la classe modale.


ai : le pas de la classe modale.

d1 = n0 – n1 , d2 = n0 – n2 ou bien d1 = f0 – f1 , d1 = f0 – f1
n0 et f0 sont l’effectif et la fréquence associés à la classe modale.

f 0 – f0 sont l’effectif et la fréquence de la classe qui précède la classe modale.

n1 et f1 sont l’effectif et la fréquence de la classe qui précède la classe modale.


n2 et f2 sont l’effectif et la fréquence de la classe qui suit la classe modale.

Exemple :

Classes [20;22[ [22;25[ [25;31[ [31;36[ [36;41[


Effectif (ni) 8 38 3 1 3
8 38 3 1 3
Fréquence
53 53 53 53 53
(fi)

La classe modale [22;25[

𝟑𝟖−𝟖
M0 =𝟐𝟐 +
(𝟑𝟖−𝟖)+(𝟑𝟖−𝟑)
×3 =

La médiane :
La médiane est la valeur qui partage la série en deux séries qui le même effectif totale.
Suivant que N est un nombre totale paire ou impaire.
1 Cas : N=2p+1 donc la médiane est la valeur d’ordre p+1 .
2 Cas : N= 2p donc la médiane est la valeur d’ordre p et p+1 devisé par 2 .

Exemple 1 :

Xi 0 1 2 3
ni 7 3 2 8

N= 20 paire
1+2
Med = = 1,5
2
Exemple 2 :

Xi 0 1 2 3
ni 6 3 2 8

N= 19 impaire
Med = 2

La moyenne :
On appelle moyenne de X, la quantité fi xi

x1 ∙ n1 + x2 . n2 … … xr. nr
𝑋̅ =
N
𝑋̅ = ∑𝑘𝑖=1
xi ni
Ou
𝑁
𝑘

𝑋̅ = ∑ fi xi
𝑖=1
Exemple :

X 7 13 12 11 9,5
n 2 2 1 3 2

𝑋̅ = 10,4
Propriétés :
a , b ϵ IR
1) ̅̅̅̅̅̅̅̅̅
X + a = ̅̅̅X + a̅
2) ̅̅̅̅̅̅̅̅̅
X × a = ̅̅̅
X × a̅

Remarque :
Le cas continu on peut remplacer les variables xi par les centres.

Paramètres de dispersion (variabilité)


Les indicateurs statistiques de dispersion usuels sont l’étendue, la variance et l’écart type.

L’étendue :
La différence entre la plus grande valeur et la plus petite valeur du caractère, donnée par la quantité
𝐸 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛

S’appelle l’étendue de la V.S X. Le calcul de l’étendue est très simple. Il donne une première
idée de la dispersion des observations. C’est un indicateur très rudimentaire et il existe des
indicateurs de dispersion plus élaborés (voir ci-dessous).
La variance :
On appelle variance de cette série statistique X, le nombre

𝑖=1 ni(ni
Var (X) = ∑𝑁 – ̅̅̅̅̅
𝑋)
Propriétés de la variance :

1) Var (X+a) = Var (X)


2) Var (X×a) = a2×Var (X)

L’écart type :
La quantité
𝜎(𝑋)= √Var (X)

Le coefficient de variation :

Définition :
Le coefficient de variation représente le rapport de l'écart-type par la moyenne.

𝜎(𝑋)
CV = ̅̅̅
𝑋

Vous aimerez peut-être aussi