Rappel de Statistiques

Magalie Claeys-Bruno
Master 2 QUALITE
Prolégomènes
à toutes études statistiques…
Que représentent les statistiques

Quels mots associez-vous
Quel est l’objectif des statistiques
Avez-vous déjà manipulé des statistiques
On utilise les statistiques pour DECRIRE le passé et le présent,
et chercher à EXTRAPOLER pour prendre les bonnes décisions
pour le futur
Données
Statistiques
La statistique descriptive est un
instrument qui permet de donner un
sens à l’information recueillie.
Décision
 Dégager les caractéristiques
essentielles qui se dissimulent dans
Risque une masse de données
Variables qualitatives :
Elles prennent des états appelés MODALITES ou niveaux,
dans un ensemble quelconque
-Nominale : Nature du solvant, Type d’additif, Pays…
-Ordonnée : ensemble de ses modalités est ordonné :

un peu, beaucoup, passionnément…
Variables quantitatives :
variables que l’on peut exprimées numériquement
-Continue : elle peut prendre n’importe quelle valeur

dans un intervalle défini ou infini,
Ex: dimensions (longueurs, largeurs), temps, devises…
-Discrète : elle peut prendre que quelques valeurs dans

un intervalle défini ou infini.
Ex : Nombres de défauts, nombre de pièces produites…
STATISTIQUE PAR INFÉRENCE
On utilise très souvent la statistique par inférence en utilisant des échantillons
2 collectes des données possibles
Population Echantillon
L’échantillon est
La population est La statistique par
une partie
La statistique l’ensemble des
représentative de inférence permet
données issues du
descriptive la population de tirer des
processus étudié
étudiée
définit la conclusions sur la
population population en
dans son étudiant un
intégralité La moyenne est
notée μ et l’écart échantillon
type σ
REPRÉSENTATION GRAPHIQUE
Avant de réaliser une analyse statistique, il est nécessaire de savoir traiter
les données au préalable pour en tirer les caractéristiques principales et
pour les représenter graphiquement
1. Trier les données
2. Calculer les
caractéristiques de base
3. Représenter les données 25
sous forme de graphiques

20
15
100
90 10
80
5
70
60
0
50 1.5 4.5 7.5 10.5 13.5 16.5 19.5
40
30
20
10
0
0 3 6 9 12 15 18 20
LES PRINCIPAUX INDICATEURS STATISTIQUES
Indicateurs de tendance centrale
 Donnent une idée de l'ordre de grandeur des valeurs de la série et indiquent la position où semblent se
rassembler les valeurs
Indicateurs de dispersion ou de variabilité
 Quantifient les fluctuations des valeurs autour de la valeur centrale et permettent d'apprécier
l'étalement des valeurs
Nbre
Variabilité
individus
taille
Tendance centrale
LES INDICATEURS DE TENDANCE CENTRALE
mode = Valeur la plus fréquente dans l'ensemble des

valeurs prises par la variable quantitative
Exemples :
36, 37, 38, 40, 42, 38, 37, 41, 38, 38

Mode = 38 (ensemble unimodal)
9, 15, 8, 6, 16, 18, 8, 13, 15, 14, 15, 8
Mode = 8 et
Mode = 15 (ensemble bimodal)
médiane = Observation du milieu dans la distribution

ordonnée des valeurs de la variable
Exemples :
28, 90, 34, 15, 87, 68, 20, 10, 102, 48, 72, 32, 89
10, 15, 20, 28, 32, 34, 48, 68, 72, 87, 89, 90, 102 Médiane = 48
128, 564, 208, 346, 763, 256, 480, 121, 432, 312 Médiane = 329
121, 128, 208, 256, 312, 346, 432, 480, 564, 763
Interprétation : c’est la valeur qui partage en 2 une population : il y a autant de valeurs plus
grandes que de valeurs plus petites
moyenne arithmétique = somme des valeurs/nbre de

valeurs
1 n
Dans le cas d’une série de n mesures :   X   Xi
n i 1
Elle permet d’identifier la valeur autour de laquelle les observations sont

réparties (résume l’ensemble des observations en un seul nombre).
moyenne de grandeur
 tient compte de toutes les valeurs, donc a l’inconvénient d’être affectée par
des valeurs extrêmes, appelées valeurs aberrantes.
Exemple
28, 90, 34, 15, 87, 68, 20, 10, 102, 48, 72, 32, 89 Moyenne = 695/13 = 53.46153..=53.5

Il est important de comparer la moyenne et la médiane pour s’assurer une
meilleure interprétation des données
Exemple : distribution des salaires mensuels nets de prélèvements pour l’ensemble des agents selon le
sexe et le groupe socioprofessionnel en 2005
Salaire médian Salaire moyen
En euros En euros
Hommes 2097 2312
On peut dire que la moitié des
Cadres 2508 2774
Professions
agents de l’état était payé moins de
1818 1896 2097 € en 2005 et donc que plus de
intermédiaires
la moitié était payé en dessous du
Employés ou ouvriers 1673 1722
salaire moyen annoncé à 2312 €
Femmes 1863 1994
Cadres 2101 2262
Professions
1732 1771 Quand on analyse une population,
intermédiaires
il est plus intéressant d’interpréter
les résultats à l’aide la médiane
Ensemble 1947 2127 qu’avec la moyenne : le salaire
Cadres 2236 2465 médian est plus vraisemblable que
Professions le salaire moyen
1763 1822
intermédiaires
moyenne géométrique = La moyenne géométrique est

obtenue en prenant la racine Nième du produit de
toutes les valeurs prises par la variable quantitative.
moyenne géométrique de x = (x1 . x2 ...... xN) 1/N

xg = [ i xi ] 1/ N
Exemple
28, 90, 34, 15, 87, 68, 20, 10, 102, 48, 72, 32, 89
Moyenne géométrique = (1.5267*1021)1/13 = 42.61

LES INDICATEURS DE TENDANCE
quartile : Valeurs divisant l'ensemble des valeurs ordonnées
prises par la variable quantitative en quatre parties égales.
(caractéristique de position)
Dans le cas d’une série de n mesures : X1, X2, ……XN
Quartile(p) = XJ+1 + g(Xj+2 – Xj+1)
J= partie entière (N-1)*p

G = partie fractionnaire (N-1)*p
Avec p = 0.25 pour le premier quartile
= 0.50 pour le deuxième quartile (médiane)
= 0.75 pour le troisième quartile
Exemple
28, 90, 34, 15, 87, 68, 20, 10, 102, 48, 72, 32, 89
premier quartile Q1 = 28
deuxième quartile = médiane Q2 = 48
troisième quartile Q3 = 87
LES INDICATEURS DE DISPERSION
 quantifient les fluctuations des valeurs autour de la valeur
centrale et permettent d’apprécier l’étalement des valeurs.
Etendue = différence entre la valeur maximale et la valeur

minimale de toutes les valeurs prises par la variable
quantitative
 ne tient compte que des valeurs extrêmes de la série et est indépendante du

nombre d’observations.
 indicateur utilisé en contrôle de la qualité pour donner une idée de la
dispersion du procédé en prélevant des échantillons de taille réduite.
Exemple 13, 15, 8, 6, 16, 8, 10, 12, 10, 15, 14, 15, 9
XMax = 16 XMin = 6
Etendue = XMax - XMin = 10
On désigne souvent l'étendue par la lettre R : R = 10

Ecart absolu moyen : Pour chaque valeur prise par la variable

quantitative, on calcule l'écart par rapport à la moyenne
arithmétique, on fait la somme des valeurs absolues des écarts
et on divise celle-ci par le nombre de valeurs.
 dispersion autour de la moyenne
On prend les valeurs absolues  éviter aux écarts de signe contraire de

s'annuler,
On divise par N  éliminer l'influence du nb de valeurs prises en compte
Exemple
X 28 90 34 15 87 68 20 10 102 48 72 32 89
X -X -25.5 36,5 -19,5 38,5 33,5 14,5 -33,5 -43,5 48,5 -5,5 18,5 21,5 35,5
X -X 25,5 36,5 19,5 38,5 33,5 14,5 33,5 43,5 48,5 5,5 18,5 21,5 35,5
25,5 + 36,5 + ... + 21,5 + 35,5 = 374,5 Ecart absolu moyen = 374,5 / 13 =
28,8
Variance = moyenne des carrés des écarts des observations à
leur moyenne.
1 n
Dans le cas d’une série de n mesures :    ( X i   )2
2
n i 1
élevé au carré  évite aux écarts de signe contraire de s'annuler (comme la valeur absolue), mais accentue
l'influence des valeurs extrêmes.
Ecart-type = racine carrée de la variance.

1 n exprimé dans les mêmes
Dans le cas d’une série de n mesures   
n i 1
( X i   )2 unités que la variable
 Donne une idée de la variation des observations autour d’une valeur centrale (la moyenne
arithmétique)
On ne peut comparer les dispersions que si les valeurs sont dans les mêmes unités,
 d'où l'utilité du coeff. de variation : CV = (s / X) *100
 = dispersion en % de la moyenne (indépendant de l'unité)
 donne une bonne idée de l’homogénéité d’une distribution (= CV est faible, + la série est homogène)
Répartition d’une population A Répartition d’une population B
60 60
50 50
μ = 4.1 μ = 4.1
40 40
σ2 = 0.49 σ2 = 4.38
30 30
20 20
10 10
0 0
1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 5 6 7 8 9 10 11
Population A
μ = 15
σ=2
Population B
μ = 15
σ=6
Généralement, on veut étudier les propriétés d'ensembles comportant de nombreux
éléments (individus). La réunion de tous les éléments (individus) constitue la population.
Il est difficile de travailler sur la population entière ; on choisit donc d'extraire de la

population un sous-ensemble, appelé échantillon. Il est conseillé d'extraire ce sous-
ensemble d'une façon aléatoire, pour qu'il soit le plus représentatif possible de la
population.
Pour un échantillon, le calcul de la variance est un peu différent :
variance =
1 n Règle GBS : lorsque le nombre
2
s  
n  1 i 1
( X i   )2 d’observations est supérieur à 20-
30, la différence d’un
Ecart-Type = échantillonnage avec la population
1 n n’est que de 5%. La différence
s  
n  1 i 1
( X i   )2
devient minime pour plus de 100
observations
La boite de dispersion ou boite à moustache comprend :
- un rectangle central dont les arêtes verticales représentent les
valeurs du premier et du troisième quartile, la longueur de la boite est
égale à l'intervalle interquartile.
- les moustaches sont les 2 traits partant de chaque côté de cette

boîte et limitées par les valeurs extrêmes.
- très souvent, on représente, par un trait pointillé, la valeur de la

médiane.
Q2
Min Q1 Q3 Max
Répartition d’un échantillon A
Modélisation
Répartition d’un échantillon B
Modélisation
Transformation
mathématique
Echelle de mesure Tendance position Mesure de dispersion
Variable nominale - Le mode
Variable ordinale -Le mode -L'intervalle interquartile

-La médiane
-Q1, Q3
Variable quantitative -Le mode -L'étendue, écart absolu moyen

-La médiane -L'écart type, variance
- La moyenne -Le coefficient de variation
-Q1, Q3 -L'intervalle interquatile
Moyenne par matière Jean Pierre Jean et pierre
Français 13.2 8.7 ont la même
moyenne
Anglais 11.7 6.2
Allemand 13.5 10.3
L’écart type de Jean
Histoire 11.0 11.1
est de 0.82, celui de
Mathématiques 12.0 18.0 Pierre est de 4.18
Physique 12.6 17.2
Biologie 11.8 15.5
Moyenne 12.4 12.3
2/3 des notes de Jean sont comprises
Ecart type 0.82 4.18
entre 11.5 et 13.1. Il est beaucoup plus
20
régulier que Pierre
18
16
14
12
10
8
Pour Pierre, la moyenne
6 n’a pas de sens, il y a en
4
2
fait deux modes (lettre/
0 science)
Moyenne par matière Jean Pierre
Français 13.2 8.7
Anglais 11.7 6.2
Allemand 13.5 10.3
Histoire 11.0 11.1
Mathématiques 12.0 18.0
Physique 12.6 17.2
Biologie 11.8 15.5
Moyenne 12.4 12.3
2/3 des notes de Jean sont comprises
Ne regarder que la moyenne est risqué car cela efface la variation
Ecart type 0.82 4.18
entre 11.5 et 13.1. Il est beaucoup plus
20
régulier que Pierre
18
16 ou la répartition autour de cette moyenne
14
12
10
8
6
4
2
0
REPRÉSENTATION DES DONNÉES
Séparation en classes :
Quand le nombre d'éléments est élevé, on a intérêt à répartir les éléments en différentes classes. Le
nombre de classes, en général doit être compris entre 6 et 12. L'objectif est de rendre claire la
présentation des données.
La règle de Sturges permet d'avoir une indication sur le nombre de classes que l'on doit
choisir : k  1 + 3,322 log10 N
Nombre d'observations Nombre de classes
10 4
10 < N  22 5
22 < N  44 6
44 < N  90 7
90 < N  180 8
180 < N  360 9
360 < N  720 10
720 < N  1000 11
N = nb d’observations, E = étendue = Xmax – Xmin , Amplitude des classes = E/nb de classes  …
Choix des bornes : est-ce la borne inférieure ou la borne supérieure qui dot être incluse dans l’intervalle ?
En général, ce choix n’a pas d’importance, sauf si les bornes présentent des effectifs importants, ou par
exemple, si dans un cas, il faut inclure le 0 dans la 1ère classe alors il faut mettre obligatoirement la borne
inférieure dans l’intervalle.
D’autre part, lorsque les intervalles sont grands, le choix de la borne inférieure ou supérieure incluse dans
l’intervalle n’a pratiquement pas d’influence.
Précautions :
- utiliser des intervalles de largeur constante
- ne pas choisir d ’intervalles ouverts
- pas de rupture dans les échelles
- nb d ’intervalles correct
-ne pas vouloir mettre trop d ’informations à la fois
90
80
70
60
50 Est
40 Ouest
30 Nord
20
10
0
15 20 25 30
Diagramme en bâtons : Lorsque la variable quantitative est discontinue ou
discrète, la représentation graphique de la distribution de fréquences
s’effectue à l’aide d’un diagramme en bâtons.
Le diagramme en bâtons est construit en portant en abscisse les valeurs de la variable

discontinue ou discrète et en traçant parallèlement à l'axe des ordonnées un bâton de
longueur proportionnelle à la fréquence (absolue ou relative) de chaque valeur de la
variable.
10
9
8
7
6 •Par exemple, dans une fabrication, on
5 dénombre le nombre défauts sur chaque
4
3
pièce
2 • la distribution de fréquences
1 représente le nb de pièces en fonction du
0
1 2 3 4 5 6
nb de défauts.
Histogramme : Lorsque la variable quantitative est continue, les valeurs
observées sont généralement dénombrées suivant une distribution en classes
et la représentation graphique prendra alors la forme d’un histogramme.
L'histogramme est constitué de rectangles juxtaposés dont chacune des bases est
égale à l'intervalle de chaque classe et dont la hauteur est telle que la surface soit
proportionnelle à la fréquence (absolue ou relative) de la classe correspondante.
25
20
Par exemple, on mesure le diamètre

15
d’un fruit et on représente le nb
d’individus dans des intervalles de 10
diamètre.
5
0
1.5 4.5 7.5 10.5 13.5 16.5 19.5
FREQUENCE : La fréquence associée à une valeur d'une variable est le

nombre de fois que cette valeur se rencontre dans l'ensemble observé.
Dans le cas d'une distribution par classe, la fréquence absolue d'une classe
correspondra au nombre d'observations dont les résultats appartiennent à
cette classe.
La fréquence relative associée à une valeur est obtenue en faisant le rapport

entre la fréquence absolue correspondant à cette valeur et le nombre total de
valeurs qui ont été observées.
fi (%) = f * 100 / N
Polygone de fréquences :représentation de la distribution de fréquences sous
forme de courbes.
Il est obtenu en joignant les milieux des sommets de chaque rectangle de l'histogramme
par des segments de droite.
25
20
15
10
0
1.5 4.5 7.5 10.5 13.5 16.5 19.5
Courbes de fréquences cumulées: permettent de faire correspondre à une
valeur quelconque de la série, le nombre d’observations qui lui sont inférieures
(ou supérieures).
100
90
• On détermine une succession de points dont les 80
abscisses correspondent aux limites supérieures des
Fréquences
70
classes, sauf pour le premier point (dont la valeur de
l’abscisse est 0) et dont les ordonnées sont égales aux 60
cumulées fréquences cumulées croissantes correspondant aux

classes.
50
40
croissantes 30
• Fcc (%) =  i fi (%) (i = 1, .. , N) 20

10
0
0 3 6 9 12 15 18 20
100
• On détermine une succession de points dont les 90
abscisses correspondent aux limites inférieures des 80
Fréquences classes, sauf pour le dernier point et dont les ordonnées

sont égales aux fréquences cumulées décroissantes
70
60
cumulées correspondant aux classes. 50

40
décroissantes • Fcd (%) = 100 -  i fi (%) (i = 1, .. , N)

30
20
10
0
0 3 6 9 12 15 18 20
Ces graphes permettent de dire que près de 40 % des étudiants ont une note inférieure à 9
(courbe croissante) et environ 35 % des étudiants ont une note supérieure à 12 (courbe
décroissante).
CARACTÉRISTIQUES DE FORME
X = médiane = mode
Distribution symétrique : Une distribution est symétrique si

les valeurs de la variable quantitative sont également dispersées
de part et d'autre d'une valeur centrale.
Coefficient d'asymetrie : Le coefficient d'asymétrie est une mesure

descriptive qui permet de caractériser le degré de symétrie (coefficient de
Pearson) :
Sk 
3 X  médiane  ou 3 X  mod e 
s
S 
k
s
Sk > 0 : asymétrie positive Sk < 0 : asymétrie négative
X > médiane > mode X < médiane < mode

Rappel de Statistiques

Transféré par

Droits d'auteur :

Formats disponibles

Rappel de Statistiques

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rappel de Statistiques

Transféré par

Droits d'auteur :

Formats disponibles

Magalie Claeys-Bruno

Que représentent les statistiques

-Nominale : Nature du solvant, Type d’additif, Pays…

-Ordonnée : ensemble de ses modalités est ordonné :

-Continue : elle peut prendre n’importe quelle valeur

-Discrète : elle peut prendre que quelques valeurs dans

2 collectes des données possibles

1. Trier les données

3. Représenter les données 25

sous forme de graphiques

mode = Valeur la plus fréquente dans l'ensemble des

36, 37, 38, 40, 42, 38, 37, 41, 38, 38

9, 15, 8, 6, 16, 18, 8, 13, 15, 14, 15, 8

médiane = Observation du milieu dans la distribution

moyenne arithmétique = somme des valeurs/nbre de

Elle permet d’identifier la valeur autour de laquelle les observations sont

moyenne géométrique = La moyenne géométrique est

moyenne géométrique de x = (x1 . x2 ...... xN) 1/N

Moyenne géométrique = (1.5267*1021)1/13 = 42.61

Dans le cas d’une série de n mesures : X1, X2, ……XN

Quartile(p) = XJ+1 + g(Xj+2 – Xj+1)

J= partie entière (N-1)*p

Etendue = différence entre la valeur maximale et la valeur

 ne tient compte que des valeurs extrêmes de la série et est indépendante du

On désigne souvent l'étendue par la lettre R : R = 10

Ecart absolu moyen : Pour chaque valeur prise par la variable

On prend les valeurs absolues  éviter aux écarts de signe contraire de

Ecart-type = racine carrée de la variance.

Il est difficile de travailler sur la population entière ; on choisit donc d'extraire de la

Pour un échantillon, le calcul de la variance est un peu différent :

- les moustaches sont les 2 traits partant de chaque côté de cette

- très souvent, on représente, par un trait pointillé, la valeur de la

Répartition d’un échantillon B

Echelle de mesure Tendance position Mesure de dispersion

Variable nominale - Le mode

Variable ordinale -Le mode -L'intervalle interquartile

Variable quantitative -Le mode -L'étendue, écart absolu moyen

N = nb d’observations, E = étendue = Xmax – Xmin , Amplitude des classes = E/nb de classes  …

Le diagramme en bâtons est construit en portant en abscisse les valeurs de la variable

Par exemple, on mesure le diamètre

FREQUENCE : La fréquence associée à une valeur d'une variable est le

La fréquence relative associée à une valeur est obtenue en faisant le rapport

cumulées fréquences cumulées croissantes correspondant aux

• Fcc (%) =  i fi (%) (i = 1, .. , N) 20

Fréquences classes, sauf pour le dernier point et dont les ordonnées

cumulées correspondant aux classes. 50

décroissantes • Fcd (%) = 100 -  i fi (%) (i = 1, .. , N)

Distribution symétrique : Une distribution est symétrique si

Coefficient d'asymetrie : Le coefficient d'asymétrie est une mesure

Sk > 0 : asymétrie positive Sk < 0 : asymétrie négative

X > médiane > mode X < médiane < mode

Vous aimerez peut-être aussi