Rappel de Statistiques
Rappel de Statistiques
Rappel de Statistiques
Master 2 QUALITE
Prolégomènes
à toutes études statistiques…
Statistiques
La statistique descriptive est un
instrument qui permet de donner un
sens à l’information recueillie.
Décision
Dégager les caractéristiques
essentielles qui se dissimulent dans
Risque une masse de données
Variables qualitatives :
Elles prennent des états appelés MODALITES ou niveaux,
dans un ensemble quelconque
Population Echantillon
L’échantillon est
La population est La statistique par
une partie
La statistique l’ensemble des
représentative de inférence permet
données issues du
descriptive la population de tirer des
processus étudié
étudiée
définit la conclusions sur la
population population en
dans son étudiant un
intégralité La moyenne est
notée μ et l’écart échantillon
type σ
REPRÉSENTATION GRAPHIQUE
Avant de réaliser une analyse statistique, il est nécessaire de savoir traiter
les données au préalable pour en tirer les caractéristiques principales et
pour les représenter graphiquement
2. Calculer les
caractéristiques de base
15
100
90 10
80
5
70
60
0
50 1.5 4.5 7.5 10.5 13.5 16.5 19.5
40
30
20
10
0
0 3 6 9 12 15 18 20
LES PRINCIPAUX INDICATEURS STATISTIQUES
Indicateurs de tendance centrale
Donnent une idée de l'ordre de grandeur des valeurs de la série et indiquent la position où semblent se
rassembler les valeurs
Indicateurs de dispersion ou de variabilité
Quantifient les fluctuations des valeurs autour de la valeur centrale et permettent d'apprécier
l'étalement des valeurs
Nbre
Variabilité
individus
taille
Tendance centrale
LES INDICATEURS DE TENDANCE CENTRALE
Exemples :
Mode = 8 et
Mode = 15 (ensemble bimodal)
LES INDICATEURS DE TENDANCE CENTRALE
Exemples :
28, 90, 34, 15, 87, 68, 20, 10, 102, 48, 72, 32, 89
10, 15, 20, 28, 32, 34, 48, 68, 72, 87, 89, 90, 102 Médiane = 48
128, 564, 208, 346, 763, 256, 480, 121, 432, 312 Médiane = 329
121, 128, 208, 256, 312, 346, 432, 480, 564, 763
Interprétation : c’est la valeur qui partage en 2 une population : il y a autant de valeurs plus
grandes que de valeurs plus petites
LES INDICATEURS DE TENDANCE CENTRALE
Exemple
28, 90, 34, 15, 87, 68, 20, 10, 102, 48, 72, 32, 89 Moyenne = 695/13 = 53.46153..=53.5
LES INDICATEURS DE TENDANCE CENTRALE
Il est important de comparer la moyenne et la médiane pour s’assurer une
meilleure interprétation des données
Exemple : distribution des salaires mensuels nets de prélèvements pour l’ensemble des agents selon le
sexe et le groupe socioprofessionnel en 2005
Salaire médian Salaire moyen
En euros En euros
Hommes 2097 2312
On peut dire que la moitié des
Cadres 2508 2774
Professions
agents de l’état était payé moins de
1818 1896 2097 € en 2005 et donc que plus de
intermédiaires
la moitié était payé en dessous du
Employés ou ouvriers 1673 1722
salaire moyen annoncé à 2312 €
Femmes 1863 1994
Cadres 2101 2262
Professions
1732 1771 Quand on analyse une population,
intermédiaires
il est plus intéressant d’interpréter
Employés ou ouvriers 1451 1489
les résultats à l’aide la médiane
Ensemble 1947 2127 qu’avec la moyenne : le salaire
Cadres 2236 2465 médian est plus vraisemblable que
Professions le salaire moyen
1763 1822
intermédiaires
Employés ou ouvriers 1540 1600
LES INDICATEURS DE TENDANCE CENTRALE
Exemple
28, 90, 34, 15, 87, 68, 20, 10, 102, 48, 72, 32, 89
Exemple 13, 15, 8, 6, 16, 8, 10, 12, 10, 15, 14, 15, 9
XMax = 16 XMin = 6
Etendue = XMax - XMin = 10
Exemple
X 28 90 34 15 87 68 20 10 102 48 72 32 89
X -X -25.5 36,5 -19,5 38,5 33,5 14,5 -33,5 -43,5 48,5 -5,5 18,5 21,5 35,5
X -X 25,5 36,5 19,5 38,5 33,5 14,5 33,5 43,5 48,5 5,5 18,5 21,5 35,5
25,5 + 36,5 + ... + 21,5 + 35,5 = 374,5 Ecart absolu moyen = 374,5 / 13 =
28,8
LES INDICATEURS DE DISPERSION
Variance = moyenne des carrés des écarts des observations à
leur moyenne.
1 n
Dans le cas d’une série de n mesures : ( X i )2
2
n i 1
élevé au carré évite aux écarts de signe contraire de s'annuler (comme la valeur absolue), mais accentue
l'influence des valeurs extrêmes.
Donne une idée de la variation des observations autour d’une valeur centrale (la moyenne
arithmétique)
On ne peut comparer les dispersions que si les valeurs sont dans les mêmes unités,
d'où l'utilité du coeff. de variation : CV = (s / X) *100
= dispersion en % de la moyenne (indépendant de l'unité)
donne une bonne idée de l’homogénéité d’une distribution (= CV est faible, + la série est homogène)
LES INDICATEURS DE DISPERSION
Répartition d’une population A Répartition d’une population B
60 60
50 50
μ = 4.1 μ = 4.1
40 40
σ2 = 0.49 σ2 = 4.38
30 30
20 20
10 10
0 0
1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 5 6 7 8 9 10 11
Population A
μ = 15
σ=2
Population B
μ = 15
σ=6
LES INDICATEURS DE DISPERSION
Généralement, on veut étudier les propriétés d'ensembles comportant de nombreux
éléments (individus). La réunion de tous les éléments (individus) constitue la population.
variance =
1 n Règle GBS : lorsque le nombre
2
s
n 1 i 1
( X i )2 d’observations est supérieur à 20-
30, la différence d’un
Ecart-Type = échantillonnage avec la population
1 n n’est que de 5%. La différence
s
n 1 i 1
( X i )2
devient minime pour plus de 100
observations
LES INDICATEURS DE DISPERSION
La boite de dispersion ou boite à moustache comprend :
- un rectangle central dont les arêtes verticales représentent les
valeurs du premier et du troisième quartile, la longueur de la boite est
égale à l'intervalle interquartile.
Q2
Min Q1 Q3 Max
LES INDICATEURS DE DISPERSION
Répartition d’un échantillon A
Modélisation
Modélisation
Transformation
mathématique
LES PRINCIPAUX INDICATEURS STATISTIQUES
Choix des bornes : est-ce la borne inférieure ou la borne supérieure qui dot être incluse dans l’intervalle ?
En général, ce choix n’a pas d’importance, sauf si les bornes présentent des effectifs importants, ou par
exemple, si dans un cas, il faut inclure le 0 dans la 1ère classe alors il faut mettre obligatoirement la borne
inférieure dans l’intervalle.
D’autre part, lorsque les intervalles sont grands, le choix de la borne inférieure ou supérieure incluse dans
l’intervalle n’a pratiquement pas d’influence.
REPRÉSENTATION DES DONNÉES
Précautions :
- utiliser des intervalles de largeur constante
- ne pas choisir d ’intervalles ouverts
- pas de rupture dans les échelles
- nb d ’intervalles correct
-ne pas vouloir mettre trop d ’informations à la fois
90
80
70
60
50 Est
40 Ouest
30 Nord
20
10
0
15 20 25 30
REPRÉSENTATION DES DONNÉES
Diagramme en bâtons : Lorsque la variable quantitative est discontinue ou
discrète, la représentation graphique de la distribution de fréquences
s’effectue à l’aide d’un diagramme en bâtons.
10
9
8
7
6 •Par exemple, dans une fabrication, on
5 dénombre le nombre défauts sur chaque
4
3
pièce
2 • la distribution de fréquences
1 représente le nb de pièces en fonction du
0
1 2 3 4 5 6
nb de défauts.
REPRÉSENTATION DES DONNÉES
Histogramme : Lorsque la variable quantitative est continue, les valeurs
observées sont généralement dénombrées suivant une distribution en classes
et la représentation graphique prendra alors la forme d’un histogramme.
L'histogramme est constitué de rectangles juxtaposés dont chacune des bases est
égale à l'intervalle de chaque classe et dont la hauteur est telle que la surface soit
proportionnelle à la fréquence (absolue ou relative) de la classe correspondante.
25
20
0
1.5 4.5 7.5 10.5 13.5 16.5 19.5
REPRÉSENTATION DES DONNÉES
Dans le cas d'une distribution par classe, la fréquence absolue d'une classe
correspondra au nombre d'observations dont les résultats appartiennent à
cette classe.
fi (%) = f * 100 / N
REPRÉSENTATION DES DONNÉES
Polygone de fréquences :représentation de la distribution de fréquences sous
forme de courbes.
Il est obtenu en joignant les milieux des sommets de chaque rectangle de l'histogramme
par des segments de droite.
25
20
15
10
0
1.5 4.5 7.5 10.5 13.5 16.5 19.5
REPRÉSENTATION DES DONNÉES
Courbes de fréquences cumulées: permettent de faire correspondre à une
valeur quelconque de la série, le nombre d’observations qui lui sont inférieures
(ou supérieures).
100
90
• On détermine une succession de points dont les 80
abscisses correspondent aux limites supérieures des
Fréquences
70
classes, sauf pour le premier point (dont la valeur de
l’abscisse est 0) et dont les ordonnées sont égales aux 60
100
• On détermine une succession de points dont les 90
abscisses correspondent aux limites inférieures des 80
Ces graphes permettent de dire que près de 40 % des étudiants ont une note inférieure à 9
(courbe croissante) et environ 35 % des étudiants ont une note supérieure à 12 (courbe
décroissante).
CARACTÉRISTIQUES DE FORME
X = médiane = mode