Statistique Univariee
Statistique Univariee
Statistique Univariee
Fax: (226) 25 30 25 60
Université Joseph KI-ZERBO E-mail : directeur @issp.bf
03 BP 7118 Ouagadougou 03 Site Internet : http://www.issp.bf
BURKINA FASO
Centre d’excellence régional de l’Union E conomique et Monétaire Ouest Africaine
STATISTIQUE UNIVARIEE
Le cours a pour but d’initier les étudiants aux principes de base de la statistique
et les caractéristiques d’une variable statistique.
Le cours vise principalement à introduire et faire méditer les concepts fondamentaux et méthodes
élémentaires de la statistique pour permettre un apprentissage autonome ultérieur de méthodes
complémentaires;
On veut développer le sens critique nécessaire lors de la mise en œuvre et de l’interprétation d’un
traitement statistique. Pour cela, on introduira et utilisera un cadre mathématique rigoureux. Nous
fournirons autant d’exemples et de figures nécessaires afin d’obtenir une meilleure compréhension
du cours;
A l’issue de la formation, les étudiants doivent maîtriser les principales notions de la statistique
descriptive, être capables de produire et interprétés des tableaux et des indicateurs de synthèse
statistique d’une ou plusieurs série de données. En particulier, le cours aborde les questions
suivantes :
Concepts de base ;
Typologie des variables ;
Étude d’une variable qualitative ;
Étude d’une variable quantitative discrète ;
Étude d’une variable quantitative continue ;
Caractéristiques de tendance centrale et utilité ;
Caractéristiques de dispersion et utilité ;
Pour chacune des notions, des exemples concrets seront abordés avec des travaux pratiques.
Chapitre 1 : Concepts de base
1. Définition
La statistique est la science qui a pour objet de recueillir, organiser, classer, présenter et interpréter les
données. La statistique (science) est à distinguer d’une statistique (généralement employée au pluriel) qui
désigne un chiffre ou une collection de chiffres se rapportant à un sujet quelconque et élaborés grâce à des
outils et des méthodes statistiques.
L’objet de la statistique est l’étude des faits pour prendre des décisions. Elle utilise des outils mathématiques
pour étudier les propriétés numériques des ensembles de faits nombreux. Elle permet de :
décrire les caractéristiques d’une population ainsi que les relations entre les critères qui caractérisent
la population. Exemple : décrire le lien entre l’ancienneté des employés et leur salaire ;
Pour un pays, par exemple, la statistique permet de mesurer des agrégats afin de connaître la
situation actuelle d’un phénomène (conjoncture économique), son évolution dans le temps, de
prévoir son état futur (prévision des recettes de l’Etat), de comparer des entités, de décider de
l’action à mener.
la statistique mathématique dont l’objet est de formuler les lois à partir d’échantillons et de sous-
ensembles d’une population statistique.
Chapitre 1 : Concepts de base
3. Définition des concepts usuels de la statistique
L’ensemble sur lequel porte une étude statistique est appelé « population ». Chaque élément de cet
ensemble est appelé « individu » ou « unité statistique ».
Remarque :
On emploiera les termes population et individu aussi bien lorsqu’il s’agit d’un ensemble d’êtres
humains (les salariés d’une entreprise) ou d’objets inanimés ou bien d’un ensemble plus ou moins
abstrait comme l’ensemble des accidents de la route au cours d’une période donnée.
La population étudiée doit être définie de façon précise pour que tous les intervenants qui
concourent à l’observation, au traitement, à l’analyse ou à l’utilisation de l’information statistique en
aient la même compréhension.
Chapitre 1 : Concepts de base
3. Définition des concepts usuels de la statistique
3.1. Population et individu
Exemples :
La population du Burkina Faso au 1er janvier 2015: Préciser si les burkinabé de l’étranger et les
étrangers vivant au BF en font partie.
Il est souvent difficile voire impossible de mener une étude statistique sur une population toute entière. On
choisit alors de travailler sur une partie de cette population. La sous-population choisie est appelée
échantillon. La population initiale d’où est tiré l’échantillon est la population mère.
La taille d’un échantillon (ou d’une population) est le nombre d’unités statistiques qui le
composent.
Chapitre 1 : Concepts de base
3.3. Variable statistique ou caractère
C’est le critère ou la propriété suivant lequel on étudie la population statistique.
Exemple :
La variable statistique prend des valeurs différentes pour les individus de la population. Les valeurs
possibles d’une variable statistique sont ses modalités.
Variable qualitative : les modalités sont non mesurables. Elles sont généralement représentées par des
noms qui traduisent des états.
Exemple :
Couleurs des yeux : Bleu/Noir/Vert/Marron
Situation matrimoniale :
Marié/Non marié
Marié/Célibataire/Divorcé/Veuf
Appréciation d’un cours par les étudiants : Mauvais/Bon/Très Bon
Chapitre 1 : Concepts de base
3.4. Types de variables statistiques
Variable qualitative :
Remarque
Les modalités peuvent être représentées par des chiffres qui représentent des codes (codage) et non
une mesure.
Exemple: Situation matrimoniale : 1 = Marié 2 = celibataire 3 =Divorcé 4 = Veuf/veuves
Variable qualitative nominale : les modalités ne présentent aucun ordre, aucune hiérarchie entre
elles.
Exemple : situation matrimoniale, couleur des yeux
Variable qualitative ordinale : les modalités respectent un certain ordre
Exemple : Appréciation d’un cours : Mauvais < Bon < Très bon
Catégorie socio professionnelle dans une entreprise : Personnel de soutien, cadre moyen, cadre
supérieur
Chapitre 1 : Concepts de base
La variable statistique "couleur de maisons d’un quartier" est-elle :
Exercice 1:
qualitative
quantitative
Solution : Pour le premier cas, la variable
discrète statistique est qualitative. Pour le
continue deuxième cas, la variable statistique est
quantitative continue. Pour le troisième
La variable statistique "revenu brut" est-elle : cas, la variable statistique est quantitative
qualitative discrète.
quantitative
discrète
continue
La variable statistique "nombre de maisons vendues par ville" est-elle :
qualitative
quantitative
discrète
continue
Chapitre 1 : Concepts de base
Exercice 2: Parmi ces assertions, préciser celles qui sont vraies, celles qui sont fausses.
1. On appelle variable, une caractéristique que l’on étudie.
2. La tâche de la statistique descriptive est de recueillir des données.
3. La tâche de la statistique descriptive est de présenter les données sous forme de
tableaux, de graphiques et d’indicateurs statistiques.
4. En Statistique, on classe les variables selon différents types.
5. Les valeurs des variables sont aussi appelées modalités.
6. Pour une variable qualitative, chaque individu statistique ne peut avoir qu’une seule
modalité.
7. Pour faire des traitements statistiques, il arrive qu’on transforme une variable
quantitative en variable qualitative.
8. La variable quantitative poids d’automobile peut être reclassée en compacte,
intermédiaire et grosse.
9. En pratique, lorsqu’une variable quantitative discrète prend un grand nombre de valeurs
distinctes, on la traite comme continue.
Chapitre 1 :
Concepts de •Exercice 3 - Proposer des exemples de variable quantitative transformée en
variable qualitative. Préciser les modalités de cette dernière
base
Chapitre 1 :
Concepts de
base
Exercice 4
- Pour chacune des variables suivantes, préciser si elle est
qualitative, quantitative discrète ou quantitative continue,
(a) Revenu annuel.
(b) Citoyenneté
(c) Distance
(d) Taille
(e) Lieu de résidence
(f) Âge
(g) Couleur des yeux
(h) Nombre de langues parlées.
4.1. Recensement
Chapitre 1 : C’est une méthode exhaustive, c'est-à-dire que toute la
Le déroulement d’une enquête statistique peut être résumé en quatre (4) grandes étapes :
simultanément observées sur le entreprise de 10 personnes : 112,0 ; 100,0 ; 215,2 ; 156,0 ; 100,2 ;
de classes peut conduire à des regroupements dans une même classe des
Fréquence :
données Arial)
Aligner les chiffres à droite sans coller à la bordure du tableau ;
Centrer verticalement les chiffres ;
Utiliser les séparateurs de milliers pour les chiffres pour les valeurs
3.4. Quelques règles de
présentation d’un tableau dépassant 1 000 ;
statistique Harmoniser le nombre de chiffres après la virgule à l’intérieur de
chaque colonne ;
Limiter le nombre de chiffres après la virgule en fonction du degré de
précision requis (en général un ou deux chiffres après la virgule) ;
Utiliser de préférence un chiffre après la virgule pour les valeurs en
pourcentage.
Les tableaux doivent être en pleine page s’ils ont suffisamment de
colonnes ou sur la moitié de la page s’ils n’ont que quelques colonnes.
Les colonnes, hors celle de l’intitulé doivent avoir une largeur identique.
Chapitre 2 :
Présentation des
données
La représentation graphique permet de renseigner
immédiatement sur l’allure générale de la distribution. Elle
4. Représentation graphique
facilite l’interprétation des données.
Le type de graphique à utiliser pour représenter une série
statistique dépend de la nature discrète ou continue de la
variable.
Chapitre 2 :
Présentation des Exemple : Graphique en bâtonnets de la distribution du nombre
d’enfants à charge des employés d’une entreprise.
données
4.1. Le diagramme en bâtons et 0.30
0.20
Fréquence
0.15
0.05
discrètes.
0.00
Dans le cas du diagramme en bâtons, les 0 1 2 3 4 5 6 7 10
Nombre d'enfants
modalités de la variable sont
représentées par des bâtonnets ou des Dans le cas du diagramme circulaire ou par secteurs, chaque
modalité est représentée par une portion de disque proportionnelle
rectangles (tuyaux d’orgue) dont les à l’effectif de la modalité (secteur). Par conséquent chaque secteur
a un angle au centre proportionnel à l’effectif de la modalité qu’il
hauteurs sont proportionnelles aux représente.
effectifs des modalités.
Chapitre 2 : Situation
matrimoniale
Code Effectif Fréquence
Angle
(déférés)
données Divorcé
Veuf
3
4
6
3
0,15
0,08
54,0
27,0
Total 40 1,00 360,0
Graphique : Représentation par le diagramme circulaire de l’état
4.1. Le diagramme en bâtons et matrimonial des détenus d’une prison
le diagramme circulaire Veuf
Divorcé
Exemple : Etat matrimonial Marié
Célibataire
Chapitre 2 : Remarque
Présentation des L’angle de chaque modalité se calcule de la façon suivante
données et
Remarque :
4.1. Le diagramme en bâtons et
Le diagramme en secteurs circulaires permet mieux
le diagramme circulaire
que le diagramme en bâtons de visualiser la part
relative de chaque modalité dans l’ensemble de la
population.
Etats-Unis France
Secteurs d'activités
Tableau de calcul
Etats-Unis France
Secteurs d'activités
Transport,
commerce,
service France
Trans-
port,
com-
merce,
service Etats-Unis
Le graphique ci-dessus fait ressortir à la fois les structures internes de l’emploi en France
et aux Etats-Unis et permet de comparer les deux structures. On constate : dans les deux
cas une forte prédominance du secteur des services suivi de l’industrie et de l’agriculture.
Cependant, le secteur de l’agriculture regroupe une plus forte proportion de population en
France qu’aux Etats-Unis.
Chapitre 2 : Tableau 8 : Salaire mensuel des travailleurs de l’entreprise X en
janvier 2008
données [ 50 ; 100 [
[ 100 ; 150 [
2
5
20
50
[ 150 ; 200 [ 2 20
4.2. Histogramme et polygone de fréquences [ 200 ; 250 [ 1 10
Total 10 100
Ils sont utilisés dans le cas des variables continus.
Graphique 2 :
a. Histogramme Histogramme de
la distribution du
C’est la représentation graphique de la distribution
salaire mensuel
des effectifs ou des fréquences d’une variable des travailleurs de
statistique continue. A chaque classe de valeurs l’entreprise X en
janvier 2008
de la variable portée en abscisse, on fait
correspondre un rectangle basé sur cette classe.
Exemple 1 :
Chapitre 2 :
Tableau 9 : Salaires mensuels des employés de l’entreprise Y au 31
Présentation des décembre 2007
données Classe de salaire ݊
݂ ܽ ݂
[800, 1000[ 26 18,57 200 9,29
[1000, 1100[ 33 23,57 100 23,57
4.2. Histogramme et polygone de fréquences [1100, 1200[ 64 45,71 100 45,71
[1200, 1300[ 7 5,00 100 5,00
Remarque : Les rectangles de l’histogramme ont [1300, 1500[ 10 7,14 200 3,57
des surfaces proportionnelles aux effectifs des Total 140 100,00
Tel que est la proportion d’individus dont la valeur observée deest inférieure à .
La courbe cumulative se construit à partir des fréquences cumulées
croissantes.
Chapitre 2 : Présentation des données
a. Courbe cumulative d’une variable discrète.
Dans le cas d’une variable discrète, la courbe cumulative se présente comme une courbe en
escalier puisque la fonction de répartition est dans ce cas une fonction constante par intervalles.
Exemple :
Dans le cas de la variable continue, la courbe des fréquences cumulées est une
courbe continue joignant les points de coordonnées dans un repère orthogonal où
est la borne supérieure de la classe etest la fréquence cumulée à la classe .
Remarques :
Remarque :
Le tracé de la courbe cumulative de la variable continue fait l’hypothèse d’une
répartition uniforme des individus à l’intérieur des classes.
La courbe cumulative permet de déterminer graphiquement, pour tout nombre réel ,
la proportion d’individus dont la valeur pour la variable est inférieure à , (voir graphe
ci-dessus).
4.3. Autres types de représentation graphique
Les cartogrammes
La pyramide des âges
Chapitre 3 : Caractéristiques de tendance centrale
Chapitre 3 : Caractéristiques de tendance centrale
Nombre
Effectif Fréquence
Exemple 1 : Langue maternelle d'enfants
Langue 0 5 0,25
Effectifs Fréquence (%)
maternelle
1 5 0,25
Mooré 7 46,6
2 2 0,10 Il y a deux modes : 0 et 1.
Dioula 3 20,0
Français 1 6,7 3 1 0,05
Dafing 1 6,7 4 2 0,10
Gourmantché 1 6,7 5 1 0,05
Foulfoudé 2 13,3 6 1 0,05
Total 15 100,0 7 2 0,10
10 1 0,05
Dans ce cas, le mode est Total 20 1,00
Mooré.
Chapitre 3 : Caractéristiques de tendance centrale
1.3. Cas des données groupées (variables continues)
Lorsque les données sont groupées en classes, on détermine d’abord la classe modale.
Exemple : Salaires mensuels des employés de l’entreprise Y au 31 décembre 2007
2. La médiane
2.1. Définition
C’est la valeur qui sépare une série d’observations ordonnées en ordre croissant ou décroissant,
en deux parties comportant le même nombre d’observations. On la désigne par la notation.
2.2. Méthode de calcul – cas général
Présenter les données sous forme de série. Lorsque les données sont présentées sous
forme de tableau de distribution, les convertir en série.
Ordonner la série par ordre croissant ou décroissant.
Déterminer si la série comprend un nombre pair ou impair d’unités statistiques.
Chapitre 3 : Caractéristiques de tendance centrale
2. La médiane
2.2. Méthode de calcul – cas général
Soit N le nombre d’observations :
Cas où N est impair : Dans ce cas la médiane est la valeur qui occupe le rang dans la série ordonnée.
Exemple : Série S = 2 ; 4 ; 4 ; 6 ; 7 ; 8 ; 10 ; 10 ; 12 Ici, la médiane est égale à 7.
Cas où N est pair : Dans ce cas la médiane est la moyenne des valeurs de rangs et
Exemple : S = 0 ; 1 ; 1 ; 2 ; 2 ; 3 ; 3 ; 3 ; 4 ; 5
Chapitre 3 : Caractéristiques de tendance centrale
NB : La classe médiane est celle dont la fréquence cumulée est ≥ 50 % et dont la classe précédente à
une fréquence cumulée < 50 %.
Si on note la médiane, la borne inférieure de la classe médiane, la fonction
de répartition de la variable, et la fréquence de la classe médiane, on a alors
est la fréquence cumulée à la classe précédant la classe médiane, la
fréquence cumulée à la classe médiane et :
-
Remarque :
Si les fréquences sont exprimées en % on a : -
Chapitre 3 : Caractéristiques de tendance centrale
Avec = effectif de la classe médiane et = effectif cumulé à la classe précédant la classe médiane.
1 2
𝑭 (𝑸¿ ¿ 𝟏)= =25 % ¿𝑭 (𝑸¿ ¿ 𝟐)= =50 % ¿𝑭 (𝑸¿ ¿ 𝟑)= 3 =75 % ¿
4 4 4
𝑖
De même
𝑭 ( 𝑫¿ ¿ 𝒊)=
10
𝑝𝑜𝑢𝑟 𝑖= 1, 2 , , , , 9 ¿
9
Chapitre 3 : Caractéristiques de tendance centrale
4. La moyenne arithmétique
4.1. Définition :
La moyenne arithmétique d’un ensemble de données est la somme des valeurs obtenues divisée
par le nombre d’observations. Elle est notée pour une variable notée .
Il existe deux façons courantes de calculer la moyenne arithmétique.
4.2. Moyenne arithmétique simple :
Sa formule est :
Les sont les valeurs observées et est le nombre d’observations ou la taille de la population.
Cette formule est utilisée dans le cas où les données sont présentées sous forme de série.
Chapitre 3 : Caractéristiques de tendance centrale
Nombre X𝑥
𝑁𝑖
Effectif 𝑁 𝑖 Fréquence 𝑁 𝑖𝑥
X 𝑖 𝑖
𝑖 d'enfants 𝑥𝑖 𝑁
1 0 5 0,25 0 0,00
2 1 5 0,25 5 0,25
3 2 2 0,1 4 0,20
4 3 1 0,05 3 0,15
5 4 2 0,1 8 0,40
6 5 1 0,05 5 0,25
7 6 1 0,05 6 0,30
8 7 2 0,1 14 0,70
9 10 1 0,05 10 0,50
Total 20 1 2,75
Chapitre 3 : Caractéristiques de tendance centrale
4.4. Calcul de la moyenne dans le cas des données groupées (variables continues)
Dans le cas où les données sont groupées par classes, on fait l’hypothèse que chaque
observation à l’intérieur d’une classe a une valeur égale au centre de la classe. Ce qui
constitue bien sûr une approximation.
Elle est utilisée dans le cas d’une variable positive (strictement >0). Sa formule est :
Chapitre 3 : Caractéristiques de tendance centrale
Exemple : Une banque propose à ses clients des taux d’intérêt sur épargne de la façon suivante : 3 %
à la 1ère année ; 3,5 % les 2ème et 3ème années et 4 % au-delà de la 3ème année.
Quel est le taux d’intérêt moyen annuel d’un placement au bout de la 6ème année ?
Résolution :
Soit le montant initial placé et , le montant de la somme épargnée au bout de la année et le
montant au bout des 6 ans. Soit ,,,,, , les taux d’intérêt annuels et le taux moyen annuel. On a :
Chapitre 3 : Caractéristiques de tendance centrale
Quel est pour l’ensemble des six villes le nombre moyen de médecin par habitant ?
Chapitre 3 : Caractéristiques de tendance centrale
1. L’étendue
1.1. Définition :
2. Intervalle interquartile
2.1. Définition
C’est la différence entre le et le quartile.
Remarque :
On peut aussi calculer l’écart absolu moyen à partir de la médiane
3.2. Interprétation, avantages et inconvénients
L’écart absolu moyen mesure la dispersion des valeurs observées d’une variable statistique autour
d’une valeur centrale. Une valeur faible de l’écart absolu moyen traduit une faible dispersion des
valeurs autour de la valeur centrale. Cependant, la comparaison de cette caractéristique pour deux
séries est difficile car sa valeur dépend de l’ordre de grandeur (échelle ou unité de mesure) des
observations.
Chapitre 4 : Les caractéristiques de dispersion
4. Variance et écart-type 4.2. Interprétation, avantages et inconvénients
4.1. Définition :
La variance est la moyenne des écarts L’écart-type et la variance mesurent la dispersion
(élevés au carré) des valeurs observées par de la variable autour de la moyenne. Ainsi, des
rapport à la moyenne arithmétique de la valeurs élevées (respectivement faibles) de ces
série. On la note pour une variable notée . caractéristiques traduisent une grande
(respectivement faible) dispersion des valeurs
autour de la moyenne.
[74,5; 80,5[ 8
Total 100
Chapitre 4 : Les caractéristiques de dispersion
5. Les coefficients de variation 5.2. Interprétation, avantages et inconvénients
Contrairement aux autres indicateurs de dispersion, le
coefficient de variation est sans unité de mesure. On l’exprime
5.1. Définition : souvent en pourcentage.
Le coefficient de variation de l’écart-type est le Du fait qu’elle est sans unité, le coefficient de variation
rapport entre l’écart-type et la moyenne de la présente l’avantage de ne pas être sensible à l’ordre de
distribution. On le note grandeur (ou à l’unité de mesure) de la variable mais
seulement à la dispersion des valeurs autour de la moyenne.
Ainsi on peut l’utiliser pour comparer la dispersion de deux
séries dont les ordres de grandeur (ou les unités de mesure)
sont différents.
Un coefficient de variation élevé (respectivement faible) traduit
une grande (respectivement faible) dispersion de la variable
De façon analogue, on définit le coefficient de autour de la moyenne.
L’appréciation du niveau (faible ou élevé) du coefficient de
variation de l’intervalle interquartile par : variation est laissée aux soins de l’utilisateur. Cependant une
valeur du CV supérieure à 10 % doit susciter des questions
𝐼𝑄 𝑄3 − 𝑄 1 quant à la représentativité de la moyenne comme
𝐶𝑉 𝜎 = = caractéristique de tendance centrale.
𝑀𝑒 𝑄2
Merci