Cours Seminaire de Statistique

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 32

Année académique 2021-2022

ECOLE NATIONALE D’ADMINSTRATION

Cours de Statistique
Descriptive

Dr. Martin Gnoleba, Enseignant-Chercheur, Université Alassane Ouattara, Bouaké


(UAO), email : [email protected] ; 01 02 84 10 84 / 07 57 25 23 40
STATISTIQUE DESCRIPTIVE ENA 2022

INTRODUCTION GENERALE

Les motivations de l’enseignement des statistiques à l’Ecole Nationale d’Administration


sont dictées par trois raisons essentielles. Mais avant d’évoquer ces raisons, il est important
d’appréhender la notion même de « statistique ».
Communément, la « statistique » désigne l’ensemble des méthodes scientifiques à partir
desquelles sont recueillies, présentées, résumées et analysées des données afin d’en dégager des
conclusions utiles à la compréhension d’un phénomène. Partant de cette définition, trois faits peuvent
être évoqués :
- d’abord, les statistiques accompagnent ou du moins guident les gouvernants dans la prise de
décisions relatives à la conduite d’une politique économique et sociale de développement.
En effet de nombreuses décisions touchant au quotidien de chaque citoyen sont diligentées
par les résultats d’analyses statistiques de structures ou organismes étatiques ou privées.
Exemple : les statistiques relatives au Recensement Général de la Population et de l’Habitat
(RGPH) de l’Institut National de la Statistique (INS) permettent au Gouvernement de mettre en place
son programme de gouvernement.

- Ensuite, la statistique s’est étendue à l’ensemble des sciences devenant ainsi, une discipline
scientifique qui fait largement appel aux mathématiques et à l’informatique pour les applications
pratiques. Le résultat final de ses procédés est une simplification de l’information qui permet de
dégager des tendances afin de mieux comprendre le phénomène étudié et d’en tirer des conclusions
utiles.

- Enfin, les analyses statistiques offrent la possibilité de mieux planifier, de conduire,


d’orienter et d’évaluer les politiques économiques et sociales du Gouvernement. Ainsi, la statistique
constitue un outil important d’aide à la prise des décisions pour les gouvernants.

C’est l’objet de l’enseignement du module de statistique. Il permettra aux futurs fonctionnaires issus
de l’ENA d’utiliser non seulement, cet outil pour collecter des données utiles à leurs différents services
mais aussi, travailler avec célérité pour atteindre les résultats escomptés. Ils pourront également
répondre avec promptitude et avec des preuves chiffrées à l’appui, aux multiples questions qui se
posent au quotidien dans tous les domaines de l’administration publique.

1
STATISTIQUE DESCRIPTIVE ENA 2022

CHAPITRE 1 : TERMINOLOGIE ET CONCEPTS DE BASE


Ce chapitre s’articulera autour de quatre principales sections. Il s’agira de définir clairement
toutes les notions de la statistique descriptive (section 1). En outre, il y sera également question
de décrire, toutes les étape d’une démarche scientifique en statistique (section 2). Par ailleurs,
la construction d’un tableau de distribution, y sera examinée (section 3). Enfin, ce chapitre
s’achèvera par la mise en évidence de l’application de toutes les normes de présentation des
graphiques.
Section 1 : Définition des notions sous-jacentes à la statistique descriptive.
Cette section servira de cadre à la définition des données descriptives (A), à l’analyse de
l’opérateur somme (B), à la définition des effectifs et fréquence relative / simple (C), et pour
terminer à la définition des effectifs et fréquence cumulée / croissante / absolue (D).
A. Définition des données descriptives.
Avant d’aborder les données descriptives à proprement dit, il est important de définir le concept
de statistique descriptive. En effet, la statistique descriptive est l’ensemble des outils qui
permettent de résumer l’information contenue dans une base de données en utilisant des
tableaux, des graphiques et des paramètres numériques. La statistique descriptive consiste à
recueillir, synthétiser et résumer les données une fois que celle-ci sont disponibles.
De ce qui précède les données descriptives peuvent être appréhendées comme le volume global
d’informations inhérent à l’étude d’un phénomène donné. Ces données descriptives sont
caractérisées par le fait qu’elles sont multiple et multiforme. Analysons à présent le contenu
des données descriptives.
A1. Définition des concepts clés des données descriptives
- Individu
C’est l’unité statistique qui fait l’objet d’une observation. Il peut s’agir des banques, des pays
… ; cette unité statistique est l’entité abstraite qui représente soit un consommateur, soit un
logement ou un produit.
- Population
C’est l’ensemble des individus ou des unités statistiques qui font l’objet d’une étude. On peut
citer l’ensemble des habitants d’une cité universitaire, l’ensemble du parc automobile de l’Etat
de côte d’Ivoire ; Il convient de faire remarquer que dans la plupart des études l’observation de
tous les individus de la population pourrait être difficile et trop coûteuse, dans ce cas on peut
sélectionner un sous ensemble représentatif de cette population, appelé : échantillon.
- Echantillon
C’est un sous-ensemble tiré de la population mère dont les individus sont concernés par une
étude. Le choix de l’échantillon se fait en respectant certaines règles qui permettent d’assurer
la représentativité de l’échantillon par rapport à la population mère.

2
STATISTIQUE DESCRIPTIVE ENA 2022

❖ Les règles de constitution d’un échantillon


La constitution d’un échantillon obéit à deux principales règles. La première règle est la règle
déterministe qui consiste à cibler des individus dans la population mère. La seconde règle est
la règle aléatoire et consiste à tirer les individus aléatoirement dans la population mère.

- Caractère statistique et différents types de caractères :


Le caractère est le phénomène étudié en statistique, il représente l’objet de l’observation
statistique auprès des individus. L’âge des enquêtés constitue un caractère, le revenu du ménage
et sa localisation géographique constituent des caractères statistiques.
Les modalités : les modalités sont les différentes positions que peut prendre un caractère, ces
modalités se caractérisent par leur unité de mesure et leur ordre ou l’orientation. L’orientation
signifie qu’on peut classer les modalités selon un ordre quelconque. On classe le caractère selon
la signification de l’orientation et l’unité de mesure.
Caractère qualitatif ou nominal : un caractère qualitatif ou variable qualitative est une
variable qui possède des modalités sans unité de mesure ni orientation. Exemple : la région
géographique, la nationalité
Caractère quantitatif discret ou ordinal : les modalités d’un caractère quantitatif discret sont
mesurables et peuvent être ordonnées. Les modalités sont finies et dénombrables et elles sont
en général des entiers naturels. Exemple : le nombre des pièces d’un logement.
Caractère quantitatif continu ou métrique : les modalités d’un caractère quantitatif continu
son mesurables et peuvent être ordonnées. Les modalités sont infinies et leur représentation
nécessite le recours à des intervalles ou classes. Exemple : le revenu du chef du ménage.
- Effectifs et fréquences
Pour mieux apprécier la notion d’effectif donc de fréquence, il faut se mettre dans le cadre de
l’analyse d’un phénomène donné. On veut par exemple analyser le nombre de frères et sœurs
dont disposent plusieurs individus dans un échantillon donné. Supposons que cet échantillon
est composé de 20 personnes, et s’adosse aux modalités suivantes : 0 frère ; 2 frères, 4 frères…

3
STATISTIQUE DESCRIPTIVE ENA 2022

Pour la modalité 4 frères on a 10 individus. Le chiffre 10 représente ici l’effectif absolu ou la


fréquence absolue. On parlera au contraire d’effectif relatif ou fréquence relative si on rapporte
l’effectif absolu ou la fréquence absolue à la population totale. Pour la modalité 4 frères, on
aura comme fréquence relative ou effectif relatif (4/20 =1/5).
- Effectif cumulé ou fréquence cumulée croissante absolue
Pour un caractère quantitatif donné, la fréquence cumulée d’une valeur A, est la somme des
fréquences des valeurs inferieures ou égale à A. dans l’exemple précèdent on peut avoir :
X Y ECC
(modalité) (effectif)
0 4 4
2 6 10
4 10 20
T 20 -

A2. Operateur somme ∑.


A21. Définition.
Quand une variable statistique prend les valeurs 𝑥1 , 𝑥2 , 𝑥3 , au lieu d’écrire la somme sous la
𝟑
forme 𝑥1 + 𝑥2 + 𝑥3 , on écrit simplement : ∑𝒊=𝟏 𝒙𝒊 .

Ce qui se lit : « somme (ou sigma) des 𝑥𝑖 avec « i » variant de 1 à 3 »

De façon plus générale : ∑𝒏𝒊=𝟏 𝒙𝒊 = 𝒙𝟏 + 𝒙𝟐 + ⋯ + 𝒙𝒏


A22. Propriété du symbole ∑.
- Si chaque terme est multiplié par une constante « a », on la mettre en facteur commun :
𝒂𝒙𝟏 + 𝒂𝒙𝟐 + ⋯ + 𝒂𝒙𝒊 + ⋯ + 𝒂𝒙𝒏 = 𝒂(𝒙𝟏 + 𝒙𝟐 + ⋯ + 𝒙𝒊 + ⋯ + 𝒙𝒏 )
𝒏
Donc ∑𝒊=𝟏 𝒂𝒙𝒊 = 𝒂 ∑𝒏𝒊=𝟏 𝒙𝒊
- Décomposition de sommes
Si, pour tout i, 𝒙𝒊 = 𝒚𝒊 + 𝒛𝒊 + 𝒘𝒊 , alors :
∑𝒏𝒊=𝟏 𝒙𝒊 = ∑𝒏𝒊=𝟏(𝒚𝒊 + 𝒛𝒊 + 𝒘𝒊 ) = ∑𝒏𝒊=𝟏 𝒚𝒊 + ∑𝒏𝒊=𝟏 𝒛𝒊 + ∑𝒏𝒊=𝟏 𝒘𝒊
Si ∃𝑏 tel que 1 < 𝑏 < 𝑛, alors :
∑𝒃𝒊=𝟏 𝒙𝒊 + ∑𝒏𝒊=𝒃+𝟏 𝒙𝒊 = ∑𝒏𝒊=𝟏 𝒙𝒊
- Sommation d’une constante :
∑𝒏𝒊=𝟏 𝒂 = 𝒂 + 𝒂 + 𝒂 + ⋯ + 𝒂 = 𝒏. 𝒂
𝒏 𝒏 𝒏
Donc ∑𝒊=𝟏(𝒙𝒊 + 𝒂) = ∑𝒊=𝟏 𝒙𝒊 + 𝒏𝒂 et ∑𝒊=𝟏 𝒂𝒙𝒊 = 𝒂 ∑𝒏𝒊=𝟏 𝒙𝒊

4
STATISTIQUE DESCRIPTIVE ENA 2022

A3. Exercices d’application.


Exercice 1
1. La variable statistique "couleur de maisons d’un quartier" est-elle :
a. Qualitative
b. Quantitative
c. Discrète
d. Continue
2. La variable statistique ’’revenu brut’’ est –elle :
a. Qualitative
b. Quantitative
c. Discrète
d. Continue
3. La variable statistique "nombre de maisons vendues par ville" est-elle :
a. Qualitative
b. Quantitative
c. Discrète
d. Continue
Exercice 2
- Parmi ces assertions, préciser celles qui sont vraies et celles qui sont fausses.

1. On appelle variable, une caractéristique que l’on étudie.


2. La tâche de la statistique descriptive est de recueillir des données.
3. La tâche de la statistique descriptive est de présenter les données sous forme de tableaux, de
graphiques et d’indicateurs statistiques.
4. En Statistique, on classe les variables selon différents types.
5. Les valeurs des variables sont aussi appelées modalités.
6. Pour une variable qualitative, chaque individu statistique ne peut avoir qu’une seule modalité.
7. Pour faire des traitements statistiques, il arrive qu’on transforme une variable quantitative en
variable qualitative.
8. La variable quantitative poids d’automobile peut être reclassée en compacte, intermédiaire
et grosse.
9. En pratique, lorsqu’une variable quantitative discrète prend un grand nombre de valeurs
distinctes, on la traite comme continu

5
STATISTIQUE DESCRIPTIVE ENA 2022

Section 2 : étapes d’une démarche statistique


A travers cette seconde section, il sera principalement question de décrire toutes les étapes
d’une démarche scientifique en statistique. De façon générale, la démarche statistique
s’organise au tour quatre étapes principales :
Planification : En se basant sur les connaissances actuelles du problème, on décide quelles
données doivent être prélevées et comment ?
Action : Nous recueillons les données en réalisant une expérience, en menant une étude, . . .
Analyse : Nous analysons les données afin de voir si nous avons obtenu une réponse à notre
question initiale.
Prédiction : Nous mettons à jour nos connaissances et les utilisons pour savoir à quoi nos
données futures pourraient ressembler.
Spécifiquement, la démarche statistique s’organise autour de :
• La collecte des données ;
• Le traitement des données collectées, aussi appelé la statistique descriptive ;
•L’interprétation des données, aussi appelée l'inférence statistique, qui s'appuie sur la
statistique mathématique.
• La présentation afin de rendre les données compréhensibles par tous.
2.1- Recueil des données
L'enquête statistique est toujours précédée d'une phase où sont déterminés les différents
caractères à étudier et le choix de la population à étudier. Il se pose alors le problème de
l'échantillonnage : choix de l’ensemble des individus à étudier (la population d’étude), la taille
de la population et sa représentativité).
2.1.1- De la situation de recherche au tableau de codage
Les données sont rassemblées dans un tableau à double entrée comprenant autant de lignes que
d'unités d'observation indépendantes (le plus souvent, ce sont des sujets); autant de colonnes
que de "variables" ou de mesures caractérisant chacune des unités d'observation. Le tableau
ainsi constitué se nomme un tableau de codage des données
➢ Les lignes de cette table représentent les unités d'observation.
Les observations sont réalisées sur un nombre limité d'unités ou d'individus dans le but de tirer
des conclusions applicables à une population entière. Ce nombre limité d'unités d'observation
forme l’échantillon.
➢ Quant aux colonnes du tableau de codage, elles représentent les variables.
Une variable, c'est une quantité ou qualité susceptible de fluctuations ou encore une grandeur à
laquelle on peut attribuer plusieurs valeurs différentes, plusieurs niveaux. Au minimum, une
variable a toujours deux modalités ou deux fluctuations. Ainsi, la variable sexe possède deux
modalités : fille et garçon.

6
STATISTIQUE DESCRIPTIVE ENA 2022

Une variable, telle le degré de concentration, peut être estimée sur une échelle à cinq degrés ;
elle a alors cinq modalités : très faible, faible, moyen, fort, très fort Les variables placées en
colonne dans le tableau de codage seront accompagnées d'une légende de codage reprenant
l'ensemble de l'information nécessaire pour pouvoir reconnaitre la signification précise de
n'importe quel code dans n'importe quel endroit du tableau.
La légende mentionne le numéro de la variable :
Exemple : V10 signifie variable n : 10, V lO: sexe: 1= homme, 2 = femme
2.2- Traitement des données
Le traitement et l'interprétation des données ne peuvent se faire que lorsque celles-ci ont été
collectées. La statistique a des règles et des méthodes sur la collecte des données, pour que
celles-ci puissent être correctement interprétées.
2.2.1- Le pré traitement
Le pré traitement des données est extrêmement important, en effet, une transformation des
données initiales (un passage au logarithme, par exemple), peuvent considérablement faciliter
les traitements statistiques suivants. Pour pouvoir exploiter les données, le regroupement des
données, le calcul des effectifs et la construction de graphiques permettent un premier résumé
visuel du caractère statistique à étudier. Il est parfois nécessaire de faire un classement, un
résumé et d'opérer une compression et une transformation de données. En statistique, on est en
général en présence d'un grand nombre de valeurs. Or, si l'intégralité de ces valeurs forme
l'information, il n'est pas aisé de manipuler plusieurs centaines voire des milliers de chiffres, ni
d'en tirer des conclusions. Il faut donc calculer quelques valeurs qui vont permettre d'analyser
les données : c'est le rôle des réductions statistiques. Celles-ci peuvent être extrêmement
concises, réduites à un nombre : c'est le cas des valeurs centrales et des valeurs de dispersion.
Certaines d'entre elles (comme la variance) sont élaborées pour permettre une exploitation plus
théorique des données Critères de position et Critères de dispersion. On peut aussi chercher à
comparer deux populations. On s'intéressera alors plus particulièrement à leurs critères de
position, de dispersion ou à l'analyse de la variance.

2.3- Interprétation et analyse des données


On suppose qu’une partie de la variation des données est due au hasard. On formule des
hypothèses sur la loi qui gère le phénomène général. L'étude de l'échantillon va alors valider ou
non cette hypothèse : c'est ce qu'on appelle les tests d'hypothèses. Ces tests permettent de
quantifier la probabilité avec laquelle des variables vérifient une propriété donnée. On peut
chercher à modéliser un phénomène. La modélisation statistique doit être différenciée de la
modélisation physique :
• La modélisation physique cherche à construire un modèle explicatif d'un phénomène, qui
est soutenu par une théorie plus générale décrivant comment les phénomènes ont lieu en
exploitant le principe de causalité.
• Dans le cas de la modélisation statistique, le modèle va être construit à partir des données
disponibles. Ce type de modélisation s'appelle aussi modélisation empirique.

7
STATISTIQUE DESCRIPTIVE ENA 2022

Un modèle est avant tout un moyen de relier des variables à expliquer Y à des variables
explicatives X, par une relation fonctionnelle : Y = F(X) Les modèles statistiques peuvent
être regroupés en grandes familles (suivant la forme de la fonction F):
• Les modèles linéaires : Exemple : 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑛 𝑋𝑛
• Les modèles non linéaires : Exemple : 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋12 + 𝛽2 𝑋1 𝑋2 + ⋯ + 𝛽𝑛 𝑋𝑛

• Les modèles non paramétriques

Section 3 : Les tableaux de distribution en statistique descriptive


Dans cette section, l’essentiel de l’analyse portera sur la construction des tableaux de
distribution en statistique descriptive univariée.
Le tableau statistique permet de résumer la série statistique en faisant un regroupement des
individus associés aux modalités auxquelles ils appartiennent. La représentation générale d’un
tableau statistique est la suivante :
3.1- Caractère qualitatif
Modalités Effectifs (fréquences
absolues)
𝑚1 𝑛1

𝑚2 𝑛2
𝑚3 𝑛3

𝑚4 𝑛4

total N

Chaque tableau doit être illustré par un titre et une source.


Exemple :
Habitants des villes 𝑛𝑖

Abidjan 4 707 404


Bouaké 608 138
Daloa 319 427
Total 5 634 969
Répartition de la population de la Côte d’Ivoire par ville (Source PopulationData.net 2014)

8
STATISTIQUE DESCRIPTIVE ENA 2022

3.2- Caractère discret :


La représentation du caractère quantitatif discret par un tableau :
𝑋𝑖 Effectifs (fréquences absolues)
𝑋1 𝑛1
𝑋2 𝑛2
𝑋3 𝑛3
… …
𝑋𝐾 𝑛𝐾
Total N
Titre et source
Exemple :
Modalités Effectifs (fréquences absolues)
0 4
1 5
2 9
3 3
4 7
5 2
Total 30
La répartition des logements selon le nombre de pièces
3.3- Caractère quantitatif continu :
Étant donné que les modalités du caractère quantitatif sont infinies, on doit les regrouper dans
des classes pour les représenter dans un tableau :
Classes Effectifs (fréquences absolues)

[𝑒1 ; 𝑒2 [ 𝑛1
[𝑒2 ; 𝑒3 [ 𝑛2
[𝑒3 ; 𝑒4 [ 𝑛3
… …
[𝑒𝐾−1 ; 𝑒𝐾 [ 𝑛𝐾
Total N
Titre et source

9
STATISTIQUE DESCRIPTIVE ENA 2022

Exemple :
Modalités Effectifs (fréquences absolues)
[0; 4[ 20

[4; 6[ 60

[6; 8[ 90
[8; 10[ 100
[10; 12[ 70
[12; 14[ 70
[14; 16[ 40
[16; 20[ 20
Total 470

La répartition des étudiants selon les notes obtenues en statistique


Nb :
▪ Pour trouver le nombre de classes on utilise les formules suivantes :
- La formule de STURGE
𝑲 = 𝟏 + 𝟑, 𝟑𝒍𝒐𝒈𝟏𝟎 (𝑵)
- La formule de YULE
𝟒
𝑲 = 𝟐, 𝟓 √𝑵
Avec K le nombre de classes.
▪ Pour trouver l’amplitude des classes on utilise la formule suivante :
𝑿𝒎𝒂𝒙 −𝑿𝒎𝒊𝒏
𝒂𝒊 =
𝑲
On peut aussi avoir des classes d’amplitudes inégales.
Avec 𝑋𝑚𝑎𝑥 : le maximum des modalité et 𝑋𝑚𝑖𝑛 : le minimum des modalités.

3.4- La notion de fréquence relative :


On calcule pour les effectifs absolus, les fréquences relatives :
𝒏𝒊
𝒇𝒊 = et ∑ 𝒇𝒊 = 𝟏
𝒏
Qui représente les parts de l’effectif de chaque modalité 𝑛𝑖 dans l’effectif total n
Exemple :

10
STATISTIQUE DESCRIPTIVE ENA 2022

Classes effectifs Fréquence relative


[0 ; 500[ 366 0,674
[500 ; 1 000[ 92 0,169
[1000 ; 2 000[ 43 0,079
[2000 ; 5 000[ 25 0,046
[5000 ; 10 000[ 8 0,015
[10 000 ; 50 000[ 8 0,015
[50 000 𝑒𝑡 +[ 1 0,002
total 543 1,00

Exercice 3
- Le gérant d’un magasin vendant des articles de consommation courante a relevé pour un article
particulier qui semble connaître une très forte popularité, le nombre d’articles vendus par jour.
Son relevé a porté sur les ventes des mois de Mars et Avril, ce qui correspond à 52 jours de
vente. Le relevé des observations se présente comme suit :
7 13 8 10 9 12 10 8 9 10 6 14 7 15 9 11 12 11 12 5 14 11 8 10 14 12 8 5 7 13 12 16 11 9 11 11
12 12 15 14 5 14 9 9 14 13 11 10 11 12 9 15.
1. De quel type est la variable statistique étudiée ?
2. Déterminer le tableau statistique en fonction des effectifs, des fréquences, des effectifs
cumulés et des fréquences cumulées.
Exercice 4
- Chez un fabriquant de tubes de plastiques, on a prélevé un échantillon de 100 tubes dont on a
mesuré le diamètre en décimètre.
1.94 2.20 2.33 2.39 2.45 2.50 2.54 2.61 2.66 2.85

1.96 2.21 2.33 2.40 2.46 2.51 2.54 2.62 2.68 2.87

2.07 2.26 2.34 2.40 2.47 2.52 2.55 2.62 2.68 2.90

2.09 2.26 2.34 2.40 2.47 2.52 2.55 2.62 2.68 2.91

2.09 2.28 2.35 2.40 2.48 2.52 2.56 2.62 2.71 2.94

2.12 2.29 2.36 2.41 2.49 2.52 2.56 2.63 2.73 2.95

2.13 2.30 2.37 2.42 2.49 2.53 2.57 2.63 2.75 2.99
2.14 2.31 2.38 2.42 2.49 2.53 2.57 2.65 2.76 2.99

2.19 2.31 2.38 2.42 2.49 2.53 2.59 2.66 2.77 3.09
2.19 2.31 2.38 2.42 2.50 2.54 2.59 2.66 2.78 3.12

11
STATISTIQUE DESCRIPTIVE ENA 2022

1. Identifier la population, les individus, le caractère et son type.


2. En utilisant la méthode de Yule puis de Sturge, établir le tableau statistique (Faites
débuter la première classe par la valeur 1.94).

Section 4 : Représentation graphique


Dans cette section, nous présenterons les graphiques des caractères qualitatifs, quantitatifs et
les fonctions de répartitions.
1- Les graphiques pour une distribution à caractère qualitatif.
Les distributions à caractère qualitatif sont représentées par : le diagramme en tuyaux d’orgue,
le diagramme circulaire ou semi circulaire.
a- Le diagramme en tuyaux d’orgue :
La représentation graphique d’un caractère qualitatif peut être réalisée par un diagramme en
tuyaux d’orgue, le diagramme représente un ensemble de rectangles de largeurs égales et les
hauteurs sont proportionnelles aux effectifs (fréquences).
Exemple :

La répartition des étudiants selon les niveaux de formation

12
STATISTIQUE DESCRIPTIVE ENA 2022

b- Le diagramme circulaire (en secteurs)


On peut représenter graphiquement un caractère qualitatif par un diagramme circulaire ou
diagramme en « camembert ».
Le principe de construction de ce diagramme est basé sur le fait que l’angle de chaque secteur
est proportionnel à la fréquence relative des individus de chaque modalité ;

𝜶𝒊 = 𝒇𝒊 × 𝟑𝟔𝟎
Exemple :
modalités effectif Fréquence

féminin 53 0,5889

masculin 37 0,4111

total 90 1

On a :
𝛼𝐹 = 0,5889 × 360
𝛼𝐹 = 212,004
𝛼𝑀 = 0,4111 × 360
𝛼𝑀 = 147,996

Le diagramme circulaire de la répartition des étudiants.

13
STATISTIQUE DESCRIPTIVE ENA 2022

2- Les graphiques pour la distribution à caractère quantitatif


On représente les distributions quantitatives discrètes par les diagrammes en bâton et les
distributions quantitatives continues par les histogrammes.
a- Le diagramme en bâtons :
Le diagramme en bâton est un diagramme qui permet de représenter graphiquement un
caractère quantitatif discret. Les modalités de la variable sont portées sur l’axe des abscisses et
les fréquences absolues ou relatives sont portées sur l’axe des ordonnées. Le principe de
construction de ce diagramme est basé sur le fait qu’à partir de chaque modalité on trace un
segment de droite à extrémité « ronde », et la hauteur de chaque segment est proportionnelle
aux fréquences.
Exemple : La répartition des logements selon le nombre des pièces.
Modalités Effectifs (fréquences absolues)
0 4

1 5

2 9

3 3

4 7

5 2

Total 30

Diagramme en bâton de la répartition des logements selon le nombre de pièce.

14
STATISTIQUE DESCRIPTIVE ENA 2022

b- Histogramme et polygone des fréquences


L’histogramme des fréquences est un graphique qui permet de représenter un caractère
quantitatif continu, il est constitué de rectangles juxtaposés dont les surfaces sont
proportionnelles aux fréquences.
Exemple : la répartition des employés selon les salaires annuels.

Modalités Effectifs fréquences


[15 000 ; 20 000[ 12 0,169
[20 000 ; 25 000[ 5 0,070
[25 0000 ; 30 000[ 5 0,070

[30 000 ; 35 000[ 10 0,141

[35 000 ; 40 000[ 30 0,423

[40 000 ; 45 000[ 6 0,085

[45 000; 50 000[ 3 0,420

Total 71 1

Représentation graphique de la réparation des employés selon les salaires


Le polygone des fréquences est une courbe qui relie les sommets des rectangles d’un
histogramme d’un caractère quantitatif continu.

15
STATISTIQUE DESCRIPTIVE ENA 2022

Remarque :
Lorsque les amplitudes des classes sont inégales la construction d’un histogramme des
fréquences, basée sur le principe de proportionnalité entre surfaces et fréquences, nécessite le
recours à des corrections pour respecter ce principe. On corrige les inégalités des amplitudes en
se référant à une amplitude de référence qui permet de corriger ses fréquences.
Classe 𝑛𝑖 𝑎𝑖 𝑑𝑖 𝑛𝑖𝑐
[100 − 150[ 120 50 2,4 240
[150 − 250[ 340 100 3,4 340
[250 − 300[ 200 50 4 400
[300 − 400[ 160 100 1,6 160
[400 − 500[ 120 100 1,2 120
[500 − 700[ 60 200 0,3 30
Total 1000 - - -
Répartition des employés selon les salaires mensuels.
Avec :
𝑎𝑖 : l’amplitude de la classe
𝑛𝑖
𝑑𝑖 = représente la densité des individus dans chaque classe.
𝑎𝑖

3- Fonction de répartition des caractères quantitatifs


La fonction de répartition est une fonction qui permet de calculer la proportion des individus
ayant une modalité inferieure à une modalité donnée.
Définition :
La fonction de répartition du caractère X est définie ainsi :

𝑭 ∶ 𝑹 → [𝟎, 𝟏]
𝑭(𝑿) → 𝒑(𝑿 ≤ 𝒙) la proportion des individus ayant des modalités ≤ à 𝑥

16
STATISTIQUE DESCRIPTIVE ENA 2022

a- Les fréquences cumulées


Pour calculer la fonction de répartition d’un caractère on doit calculer les fréquences cumulées
𝑭𝒊 = 𝒇 𝟏 + 𝒇 𝟐 + ⋯ + 𝒇 𝒊
X (modalité) Effectif (𝑁𝑖 ) Fréquence Fréquence relative
relative (𝑓𝑖 ) cumulée (𝐹𝑖 )

𝑋1 𝑛1 𝑓1 𝐹1 = 𝑓1

𝑋2 𝑛2 𝑓2 𝐹2 = 𝑓1 + 𝑓2

… … … …

𝑋𝑘 𝑛𝑘 𝑓4 𝐹𝑘 = 1

b- La représentation graphique de la fonction de répartition d’un caractère discret :


Considérons la répartition de 1500 ménages selon le nombre d’enfants, le tableau de répartition
est présenté ainsi :
𝑋𝑖 𝑓𝑖 𝐹𝑖

0 0,1726 0,1726

1 0,3047 0,4773

2 0,2849 0,7622

3 0,1480 0,9101

4 0,0899 1

TOTAL 1 -

Répartition des ménages selon le nombre d’enfants


La représentation graphique de la fonction de répartition doit passer par une courbe en
escalier :

17
STATISTIQUE DESCRIPTIVE ENA 2022

18
STATISTIQUE DESCRIPTIVE ENA 2022

c- La représentation graphique de la fonction de répartition d’un caractère


continu :
Considérons la répartition des salariés selon les salaires :
modalités Effectifs fréquences 𝐹𝑖 cumulées

[15 000, 20 000[ 12 0,169 0,169

[20 000, 25 000[ 5 0 ,070 0,239

[25 000, 30 000[ 5 0,070 0,310

[30 000, 35 000[ 10 0,141 0,451

[35 000, 40 000[ 30 0,423 0,873

[40 000, 45 000[ 6 0,085 0,958

[45 000, 50 000[ 3 0,420 1

Total 71 1 -

La représentation graphique est réalisée selon le principe d’une interpolation linéaire des
salaires dans chaque classe.

19
STATISTIQUE DESCRIPTIVE ENA 2022

Exercice 5
En vous référant au tableau statistique obtenu dans l’exercice 3 :
1. Tracer le diagramme des bâtonnés associé à la variable X.
2. Soit 𝐹𝑥 la fonction de répartition. Déterminer 𝐹𝑥 .
Exercice 6
En vous référant au tableau statistique obtenu dans l’exercice 4 :
1. Tracer l’histogramme de cette variable statistique.
2. Construire le polygone des fréquences
Exercice 7
Le tableau suivant donne la répartition selon le groupe sanguin de 40 individus pris au hasard
dans une population,
Groupes sanguins A B AB O

L’effectif 20 10 𝐴3 5

1. Déterminer la variable statistique et son type.


2. Déterminer l’effectif des personnes ayant un groupe sanguin AB.
3. Donner toutes les représentations graphiques possibles de cette distribution.

20
STATISTIQUE DESCRIPTIVE ENA 2022

CHAPITRE 2 : LES INDICATEURS DE TENDANCE CENTRALE ET DE


DISPERSION
Ce chapitre est composé de deux sections. La première section portera sur les indicateurs de
tendance centrale et la seconde portera sur les indicateurs de dispersion.
Section 1 : Calculs des mesures des tendances centrales
Dans cette section, il sera question du calcul : du mode, de la moyenne, de la médiane des
variables discrètes et continues.
1.1 : Le mode
Le mode correspond à la modalité la plus fréquente. Pour un caractère continu pour lequel les
données sont groupées en classes, la classe modale correspond à celle associée à l’effectif
(corrigé) le plus élevé ou graphiquement au plus haut rectangle de l’histogramme.
Dans ce cas le mode est calculé à partir du centre de la classe modale selon la méthode suivante
Exemple :

Si le mode appartient à la classe [𝒆𝒊 ; 𝒆𝒊+𝟏 [ alors :


𝒅𝟏
𝑴𝟎 = 𝒆𝒊 × ( × 𝒂𝒊 )
𝒅𝟏 +𝒅𝟐
1.1- La médiane
La médiane est la modalité qui divise la série des données statistiques en deux parties égales
après avoir ranger ces données en ordre croissant (ou décroissant).

21
STATISTIQUE DESCRIPTIVE ENA 2022

a- Cas d’un caractère discret :


Lorsqu’on possède la série des données brutes et distribution (non groupée), on doit ranger les
n observations en ordre croissant.

𝑵+𝟏 𝒊𝒆𝒎𝒆
Si n est impair, la médiane est la ( ) observation.
𝟐
Si n est pair, la médiane est habituellement définie comme étant le point milieu entre la
𝑵 𝒊𝒆𝒎𝒆 𝑵 𝒊𝒆𝒎𝒆
(𝟐) et la ( + 𝟏) observation.
𝟐
b- Cas d’un caractère continu :
La médiane est la modalité x tel que :

𝑭(𝑴𝒆 ) = 𝑷(𝑿 ≤ 𝑴𝒆 ) = 𝟎, 𝟓
Pour calculer la médiane on doit déterminer la classe médiane à partir des fréquences cumulées
croissantes, puis on calcule la valeur ponctuelle de la médiane selon l’hypothèse de l’uniformité
de la répartition des individus à l’intérieur de la classe médiane.

𝑴𝒆 ∈ [𝒆𝒊 , 𝒆𝒊+𝟏 [
𝑶,𝟓−𝑭𝒊−𝟏
𝑴𝒆 = 𝒆𝒊 + ( × 𝒂𝒊 )
𝑭𝒊 −𝑭𝒊−𝟏

Avec 𝒂𝒊 l’amplitude de la classe [𝒆𝒊 , 𝒆𝒊+𝟏 [


La médiane se caractérise par le fait que sa valeur n’est pas influencée par les observations
aberrantes ou les observations extrêmes.
Exemple :

22
STATISTIQUE DESCRIPTIVE ENA 2022

𝑴𝒆 ∈ [𝟑𝟓 𝟎𝟎𝟎, 𝟒𝟎 𝟎𝟎𝟎[


𝑶,𝟓−𝟎,𝟒𝟓𝟏
𝑴𝒆 = 𝟑𝟓 𝟎𝟎𝟎 + ( × 𝟓𝟎𝟎𝟎)
𝟎,𝟖𝟕𝟑−𝟎,𝟒𝟓𝟏
50% des salariés possèdent un salaire inférieur à la médiane.
1.2- Les quantiles
Les quantiles sont des indicateurs qui divisent la distribution en quatre parties égales.

Le premier quantile est indicateur noté 𝑸𝟏 tel que

𝑭(𝑸𝟏 ) = 𝑷(𝑿 ≤ 𝑸𝟏 ) = 𝟎, 𝟐𝟓
Si 𝑸𝟏 ∈ [𝒆𝒊 , 𝒆𝒊+𝟏 [
Alors
𝑶,𝟐𝟓−𝑭𝒊−𝟏
𝑸𝟏 = 𝒆𝒊 + ( × 𝒂𝒊 )
𝑭𝒊 −𝑭𝒊−𝟏

Le troisième quantile est indicateur noté 𝑸𝟑 tel que

𝑭(𝑸𝟑 ) = 𝑷(𝑿 ≤ 𝑸𝟑 ) = 𝟎, 𝟕𝟓
Si 𝑸𝟑 ∈ [𝒆𝒊 , 𝒆𝒊+𝟏 [
Alors

𝑶,𝟕𝟓−𝑭𝒊−𝟏
𝑸𝟑 = 𝒆𝒊 + ( × 𝒂𝒊 )
𝑭𝒊 −𝑭𝒊−𝟏

1.3- La moyennes :
La moyenne est un indicateur de tendance centrale qui permet de déterminer le centre de la
distribution, la moyenne arithmétique est la moyenne est la plus utilisée, mais il existe d’autres
types de moyennes utilisées dans le calcul de la tendance centrale de distributions statistiques
telles que la moyenne géométrique et la moyenne quadratique qui ne serons pas exposés dans
cours.
a- La moyenne arithmétique :
La moyenne arithmétique est la somme de toutes les données observées divisées par le nombre
des individus de l’échantillon.

23
STATISTIQUE DESCRIPTIVE ENA 2022

𝟏 𝒙𝟏 +𝒙𝟐 ….+𝒙𝒏
̅ = ∑𝒏𝒊=𝟏 𝒙𝒊 ou bien
𝒙
𝒏 𝒏
Si les données sont présentées dans un tableau statistique dans lequel chaque modalité est
associée à fréquence absolue ou relative alors on calcule la moyenne arithmétique pondérée
ainsi :
𝟏
̅ = ∑𝒌𝒊=𝟏 𝒏𝒊 𝒙𝒊 ou 𝒙
𝒙 ̅ = ∑𝒌𝒊=𝟏 𝒇𝒊 𝒙𝒊
𝒏
Exemple : calcule du nombre de pièce moyen à partir de la distribution des logements selon le
nombre des pièces :
𝑋𝑖 𝑛𝑖 𝑛𝑖 𝑥𝑖
0 4 0
1 5 5
2 9 18
3 3 9

4 7 28
5 2 10
Total 30 70

𝟏 𝟕𝟎
̅ = ∑𝒌𝒊=𝟏 𝒏𝒊 𝒙𝒊 =
𝒙 = 𝟐, 𝟑
𝒏 𝟑𝟎
Le nombre de pièces moyen par logement est égale à 2
Dans le cas d’un tableau d’un caractère continu on remplace 𝑋𝑖 par le centre de la classe

[𝑒𝑖 , 𝑒𝑖+1 [ noté 𝐶𝑖

𝒆𝒊 +𝒆𝒊+𝟏 ∑𝒌
𝒊=𝟏 𝒏𝒊 𝒄𝒊
𝑪𝒊 = ̅
et dans ce cas 𝒙 =
𝟐 𝒏
Calcule de salaire moyen
Calcul 𝑛𝑖 𝐶𝑖 𝑛𝑖 𝐶𝑖
[100 − 150[ 120 125 15000
[150 − 250[ 340 200 68000
[250 − 300[ 200 275 55000
[300 − 400[ 160 300 48000
[400 − 500[ 120 450,00 54000
[500 − 700[ 60 600,00 36000

24
STATISTIQUE DESCRIPTIVE ENA 2022

Total 1000 - 276000

𝟏
̅ = ∑𝒌𝒊=𝟏 𝒄𝒊 𝒙𝒊 = 𝟐𝟕𝟔
𝒙
𝒏
La moyenne arithmétique correspond au centre d’inertie ou centre de gravité de la distribution
puisqu’elle vérifie toujours cette égalité :

∑𝒏𝒊=𝟏(𝒙𝒊 − 𝒙
̅) = 𝟎
La moyenne arithmétique est un paramètre qui peut être influencé par les observations extrêmes
ou aberrantes.
Exercice 8
On observe 100 fois le nombre d’arrivées (variable X) de clients à un bureau de poste pendant
un intervalle de temps (10 minutes) et on obtient les valeurs suivantes :
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6

1- Dresser le tableau statistique de la distribution de la variable X (effectifs cumulés, …).


2- Calculer les valeurs de tendance centrale de la distribution : la moyenne, le mode et les
trois quartiles Q1, Q2 et Q3.
Exercice 9
On dispose des résultats d’une enquête concernant les loyers annuels des appartements dans un
quartier de la ville.
Montant du loyer (x 1000) Effectifs
[𝟒; 𝟔[ 20
[𝟒; 𝟖[ 40
[𝟖; 𝟏𝟎[ 80
[𝟏𝟎; 𝟏𝟓[ 30
[𝟏𝟓; 𝟐𝟎[ 20
[𝟐𝟎; 𝟑𝟎[ 10

1. Compléter le tableau statistique (valeurs centrales, effectifs cumulés, fréquence,


fréquences cumulés)
2. Déterminez les valeurs de tendance centrale de la distribution : moyenne, mode et les
quartiles

25
STATISTIQUE DESCRIPTIVE ENA 2022

Section 2 : Les paramètres de dispersion


Pour analyser une distribution on peut utiliser en plus des indicateurs de tendance centrale,
telles que la médiane ou la moyenne, d’autres indicateurs qui permettent de mesurer la
dispersion ou l’éparpillement de la série dans le but de bien décrire la distribution d’une
variable. Par exemple, les deux séries d’observations suivantes : -20, -10, 0, 10, 20 -2000, -
1000, 0, 1000, 2000 Possèdent la même moyenne et la même médiane (0) mais se diffèrent
selon un autre indicateur qui mesure l’écart de ces observations par rapport à la valeur centrale.
On va présenter dans cette partie les mesures de dispersion les plus utilisées : l’étendue, l’écart
interquartile, la variance, l’écart-type et le coefficient de variation.
2.1- L’étendue :
L’étendue est un paramètre qui mesure l’écart entre la valeur la plus élevée et la valeur la plus
faible de la distribution :

𝑬 = 𝑿𝒎𝒂𝒙 − 𝑿𝒎𝒊𝒏
2.2- l’écart interquartile :
L’intervalle interquartile est l’intervalle [𝑄1 ; 𝑄3 [ , cet intervalle contient 50% des observations.
L’écart interquartile est l’amplitude de l’intervalle interquartile : 𝐸𝐼𝑄 = 𝑄3 − 𝑄1
L’écart interquartile est un indicateur qui a l’avantage d’écarter les observations extrêmes.
2.3- L’écart type :
L’écart type est l’indicateur de dispersion le plus utilisé et le plus simple à interpréter. Il permet
de comparer les distributions dont la tendance centrale est identique. Il donne la variation
moyenne de la distribution autour de la moyenne arithmétique. Pour calculer l’écart type on
doit d’abord calculer la variance de X qui est égale à la somme des carrés des écarts à la
moyenne divisée par l’effectif n, par la suite l’écart-type est égal à la racine de la variance.
La variance de X est calculée ainsi :
Pour des données brutes la variance est égale à :
𝟏
𝝈𝟐𝒙 = ∑𝒏𝒊=𝟏(𝒙𝒊 − 𝒙
̅)𝟐
𝒏
Le développement de cette formule permet de donner une formule plus simple à manipuler dans
le calcul pratique de la variance.
𝟏
𝑽(𝑿) = 𝝈𝟐𝒙 = ∑𝒏𝒊=𝟏 𝒙𝟐𝒊 − 𝒙
̅𝟐
𝒏

Lorsque les données sont groupées alors :


𝟏
𝝈𝟐𝒙 = ∑𝒏𝒊=𝟏 𝒏𝒊 (𝒙𝒊 − 𝒙
̅)𝟐
𝒏
𝟏
𝝈𝟐𝒙 = ∑𝒏𝒊=𝟏 𝒏𝒊 𝒙𝟐𝒊 − 𝒙
̅𝟐
𝒏

26
STATISTIQUE DESCRIPTIVE ENA 2022

- Exemple de calcul de la variance pour un caractère discret :


𝑋𝑖 𝑛𝑖 𝑛𝑖 𝑥𝑖 𝑋𝑖2 𝑛𝑖 𝑋𝑖2

0 4 0 0 0

1 5 5 1 5
2 9 18 4 36
3 3 9 9 27

4 7 28 16 112

5 2 10 25 50

Total 30 70 - 230
La répartition des logements selon le nombre des pièces
𝟏 𝟐𝟑𝟎
𝝈𝟐𝒙 = ∑𝒏𝒊=𝟏 𝒏𝒊 𝒙𝟐𝒊 − 𝒙
̅𝟐 = − (𝟐, 𝟑𝟑𝟑)𝟐 = 𝟐, 𝟐𝟐𝟑
𝒏 𝟑𝟎

D’où : 𝝈𝒙 = √𝝈𝟐𝒙 = √𝟐, 𝟐𝟐𝟑 = 𝟏, 𝟒𝟒


- Exemple de calcule d’un caractère continu
Classe 𝑛𝑖 𝐶𝑖 𝑛𝑖 𝐶𝑖 𝐶𝑖2 𝑛𝑖 𝐶𝑖2

[100 − 150[ 120 125 15000 15625 1875000

[150 − 250[ 340 200 68000 40000 13600000

[250 − 300[ 200 275 55000 75625 15125000

[300 − 400[ 160 300 48000 90000 14400000

[400 − 500[ 120 450 54000 202500 24300000

[500 − 700[ 60 600 36000 360000 21600000

Total 1000 - 276000 - 90900000

La répartition des salariés selon le salaire mensuel

27
STATISTIQUE DESCRIPTIVE ENA 2022

𝟏 𝟗𝟎𝟗𝟎𝟎𝟎𝟎𝟎
𝝈𝟐𝒙 = ∑𝒏𝒊=𝟏 𝒏𝒊 𝑪𝟐𝒊 − 𝒙
̅𝟐 = − (𝟐𝟕𝟔)𝟐 = 𝟏𝟒𝟕𝟐𝟒
𝒏 𝟏𝟎𝟎𝟎

D’où : 𝝈𝒙 = √𝝈𝟐𝒙 = √𝟏𝟒𝟕𝟐𝟒 = 𝟏𝟐𝟏, 𝟑𝟒𝟐𝟓


Exercice 10
En vous référant au tableau statistique de la variable X obtenu dans l’exercice 8 :
1. Calculer les valeurs de la dispersion de la distribution : variance, l’écart type et
l’intervalle interquartile.
2. Tracer le diagramme en bâtons.
Exercice 11
En vous référant au tableau statistique de la variable X obtenu dans l’exercice 9 :
1. Mesurez la dispersion de la distribution au moyen de : l’étendue, l’écart type et de
l’intervalle interquartile
2. Tracez l’histogramme

28
STATISTIQUE DESCRIPTIVE ENA 2022

Exercice 2

c. Donner l’histogramme correspond à cette série statistique.


d. Tracer la courbe cumulative des fréquences.

29
STATISTIQUE DESCRIPTIVE ENA 2022

EXERCICE 3

30
STATISTIQUE DESCRIPTIVE ENA 2022

Bibliographie :
Bernard G. (2011) : Introduction à la méthode statistique, 6e édition DUNOLD
Grais B. (1992) : statistiques descriptives coll économie Module, DUNOD.
Goldfarb B, Pardoux C (1999) « Introduction à la méthode statistique » 2e édition, DUNO

Livre

HACCOUN, R.et COUSINEAU, D., (2010), Statistiques : Concepts et application, Deuxième


édition revue et augmentée, Québec, Canada, Les presses de l’université de Montréal ;

LETHIELLEUX, M., (2016), Statistique Descriptive en 27 chiffres, 8e édition, Paris, France,


Dunod ;

SIBY, H., (2017), Introduction à la statistique et aux Probabilités, Québec, Canada, Loze-Dion
édition.

31

Vous aimerez peut-être aussi