Rappel de Statistiques

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 32

Magalie Claeys-Bruno

Master 2 QUALITE
Prolégomènes
à toutes études statistiques…

Que représentent les statistiques


Quels mots associez-vous
Quel est l’objectif des statistiques
Avez-vous déjà manipulé des statistiques
On utilise les statistiques pour DECRIRE le passé et le présent,
et chercher à EXTRAPOLER pour prendre les bonnes décisions
pour le futur
Données

Statistiques
La statistique descriptive est un
instrument qui permet de donner un
sens à l’information recueillie.
Décision
 Dégager les caractéristiques
essentielles qui se dissimulent dans
Risque une masse de données
Variables qualitatives :
Elles prennent des états appelés MODALITES ou niveaux,
dans un ensemble quelconque

-Nominale : Nature du solvant, Type d’additif, Pays…

-Ordonnée : ensemble de ses modalités est ordonné :


un peu, beaucoup, passionnément…
Variables quantitatives :
variables que l’on peut exprimées numériquement

-Continue : elle peut prendre n’importe quelle valeur


dans un intervalle défini ou infini,
Ex: dimensions (longueurs, largeurs), temps, devises…

-Discrète : elle peut prendre que quelques valeurs dans


un intervalle défini ou infini.
Ex : Nombres de défauts, nombre de pièces produites…
STATISTIQUE PAR INFÉRENCE
On utilise très souvent la statistique par inférence en utilisant des échantillons

2 collectes des données possibles

Population Echantillon

L’échantillon est
La population est La statistique par
une partie
La statistique l’ensemble des
représentative de inférence permet
données issues du
descriptive la population de tirer des
processus étudié
étudiée
définit la conclusions sur la
population population en
dans son étudiant un
intégralité La moyenne est
notée μ et l’écart échantillon
type σ
REPRÉSENTATION GRAPHIQUE
Avant de réaliser une analyse statistique, il est nécessaire de savoir traiter
les données au préalable pour en tirer les caractéristiques principales et
pour les représenter graphiquement

1. Trier les données

2. Calculer les
caractéristiques de base

3. Représenter les données 25

sous forme de graphiques


20

15
100

90 10
80
5
70

60
0
50 1.5 4.5 7.5 10.5 13.5 16.5 19.5
40

30

20

10

0
0 3 6 9 12 15 18 20
LES PRINCIPAUX INDICATEURS STATISTIQUES
Indicateurs de tendance centrale
 Donnent une idée de l'ordre de grandeur des valeurs de la série et indiquent la position où semblent se
rassembler les valeurs
Indicateurs de dispersion ou de variabilité
 Quantifient les fluctuations des valeurs autour de la valeur centrale et permettent d'apprécier
l'étalement des valeurs

Nbre
Variabilité
individus

taille
Tendance centrale
LES INDICATEURS DE TENDANCE CENTRALE

mode = Valeur la plus fréquente dans l'ensemble des


valeurs prises par la variable quantitative

Exemples :

36, 37, 38, 40, 42, 38, 37, 41, 38, 38


Mode = 38 (ensemble unimodal)

9, 15, 8, 6, 16, 18, 8, 13, 15, 14, 15, 8

Mode = 8 et
Mode = 15 (ensemble bimodal)
LES INDICATEURS DE TENDANCE CENTRALE

médiane = Observation du milieu dans la distribution


ordonnée des valeurs de la variable

Exemples :
28, 90, 34, 15, 87, 68, 20, 10, 102, 48, 72, 32, 89
10, 15, 20, 28, 32, 34, 48, 68, 72, 87, 89, 90, 102 Médiane = 48

128, 564, 208, 346, 763, 256, 480, 121, 432, 312 Médiane = 329
121, 128, 208, 256, 312, 346, 432, 480, 564, 763

Interprétation : c’est la valeur qui partage en 2 une population : il y a autant de valeurs plus
grandes que de valeurs plus petites
LES INDICATEURS DE TENDANCE CENTRALE

moyenne arithmétique = somme des valeurs/nbre de


valeurs
1 n
Dans le cas d’une série de n mesures :   X   Xi
n i 1

Elle permet d’identifier la valeur autour de laquelle les observations sont


réparties (résume l’ensemble des observations en un seul nombre).
moyenne de grandeur
 tient compte de toutes les valeurs, donc a l’inconvénient d’être affectée par
des valeurs extrêmes, appelées valeurs aberrantes.

Exemple
28, 90, 34, 15, 87, 68, 20, 10, 102, 48, 72, 32, 89 Moyenne = 695/13 = 53.46153..=53.5

LES INDICATEURS DE TENDANCE CENTRALE
Il est important de comparer la moyenne et la médiane pour s’assurer une
meilleure interprétation des données

Exemple : distribution des salaires mensuels nets de prélèvements pour l’ensemble des agents selon le
sexe et le groupe socioprofessionnel en 2005
Salaire médian Salaire moyen
En euros En euros
Hommes 2097 2312
On peut dire que la moitié des
Cadres 2508 2774
Professions
agents de l’état était payé moins de
1818 1896 2097 € en 2005 et donc que plus de
intermédiaires
la moitié était payé en dessous du
Employés ou ouvriers 1673 1722
salaire moyen annoncé à 2312 €
Femmes 1863 1994
Cadres 2101 2262
Professions
1732 1771 Quand on analyse une population,
intermédiaires
il est plus intéressant d’interpréter
Employés ou ouvriers 1451 1489
les résultats à l’aide la médiane
Ensemble 1947 2127 qu’avec la moyenne : le salaire
Cadres 2236 2465 médian est plus vraisemblable que
Professions le salaire moyen
1763 1822
intermédiaires
Employés ou ouvriers 1540 1600
LES INDICATEURS DE TENDANCE CENTRALE

moyenne géométrique = La moyenne géométrique est


obtenue en prenant la racine Nième du produit de
toutes les valeurs prises par la variable quantitative.

moyenne géométrique de x = (x1 . x2 ...... xN) 1/N


xg = [ i xi ] 1/ N

Exemple

28, 90, 34, 15, 87, 68, 20, 10, 102, 48, 72, 32, 89

Moyenne géométrique = (1.5267*1021)1/13 = 42.61


LES INDICATEURS DE TENDANCE
quartile : Valeurs divisant l'ensemble des valeurs ordonnées
prises par la variable quantitative en quatre parties égales.
(caractéristique de position)

Dans le cas d’une série de n mesures : X1, X2, ……XN

Quartile(p) = XJ+1 + g(Xj+2 – Xj+1)

J= partie entière (N-1)*p


G = partie fractionnaire (N-1)*p
Avec p = 0.25 pour le premier quartile
= 0.50 pour le deuxième quartile (médiane)
= 0.75 pour le troisième quartile
Exemple
28, 90, 34, 15, 87, 68, 20, 10, 102, 48, 72, 32, 89
premier quartile Q1 = 28
deuxième quartile = médiane Q2 = 48
troisième quartile Q3 = 87
LES INDICATEURS DE DISPERSION
 quantifient les fluctuations des valeurs autour de la valeur
centrale et permettent d’apprécier l’étalement des valeurs.

Etendue = différence entre la valeur maximale et la valeur


minimale de toutes les valeurs prises par la variable
quantitative

 ne tient compte que des valeurs extrêmes de la série et est indépendante du


nombre d’observations.
 indicateur utilisé en contrôle de la qualité pour donner une idée de la
dispersion du procédé en prélevant des échantillons de taille réduite.

Exemple 13, 15, 8, 6, 16, 8, 10, 12, 10, 15, 14, 15, 9
XMax = 16 XMin = 6
Etendue = XMax - XMin = 10

On désigne souvent l'étendue par la lettre R : R = 10


LES INDICATEURS DE DISPERSION

Ecart absolu moyen : Pour chaque valeur prise par la variable


quantitative, on calcule l'écart par rapport à la moyenne
arithmétique, on fait la somme des valeurs absolues des écarts
et on divise celle-ci par le nombre de valeurs.
 dispersion autour de la moyenne

On prend les valeurs absolues  éviter aux écarts de signe contraire de


s'annuler,
On divise par N  éliminer l'influence du nb de valeurs prises en compte

Exemple
X 28 90 34 15 87 68 20 10 102 48 72 32 89
X -X -25.5 36,5 -19,5 38,5 33,5 14,5 -33,5 -43,5 48,5 -5,5 18,5 21,5 35,5
X -X 25,5 36,5 19,5 38,5 33,5 14,5 33,5 43,5 48,5 5,5 18,5 21,5 35,5

25,5 + 36,5 + ... + 21,5 + 35,5 = 374,5 Ecart absolu moyen = 374,5 / 13 =
28,8
LES INDICATEURS DE DISPERSION
Variance = moyenne des carrés des écarts des observations à
leur moyenne.
1 n
Dans le cas d’une série de n mesures :    ( X i   )2
2
n i 1
élevé au carré  évite aux écarts de signe contraire de s'annuler (comme la valeur absolue), mais accentue
l'influence des valeurs extrêmes.

Ecart-type = racine carrée de la variance.


1 n exprimé dans les mêmes
Dans le cas d’une série de n mesures   
n i 1
( X i   )2 unités que la variable

 Donne une idée de la variation des observations autour d’une valeur centrale (la moyenne
arithmétique)

On ne peut comparer les dispersions que si les valeurs sont dans les mêmes unités,
 d'où l'utilité du coeff. de variation : CV = (s / X) *100
 = dispersion en % de la moyenne (indépendant de l'unité)
 donne une bonne idée de l’homogénéité d’une distribution (= CV est faible, + la série est homogène)
LES INDICATEURS DE DISPERSION
Répartition d’une population A Répartition d’une population B
60 60

50 50
μ = 4.1 μ = 4.1
40 40
σ2 = 0.49 σ2 = 4.38
30 30

20 20

10 10

0 0
1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 5 6 7 8 9 10 11

Population A
μ = 15
σ=2

Population B
μ = 15
σ=6
LES INDICATEURS DE DISPERSION
Généralement, on veut étudier les propriétés d'ensembles comportant de nombreux
éléments (individus). La réunion de tous les éléments (individus) constitue la population.

Il est difficile de travailler sur la population entière ; on choisit donc d'extraire de la


population un sous-ensemble, appelé échantillon. Il est conseillé d'extraire ce sous-
ensemble d'une façon aléatoire, pour qu'il soit le plus représentatif possible de la
population.

Pour un échantillon, le calcul de la variance est un peu différent :

variance =
1 n Règle GBS : lorsque le nombre
2
s  
n  1 i 1
( X i   )2 d’observations est supérieur à 20-
30, la différence d’un
Ecart-Type = échantillonnage avec la population
1 n n’est que de 5%. La différence
s  
n  1 i 1
( X i   )2
devient minime pour plus de 100
observations
LES INDICATEURS DE DISPERSION
La boite de dispersion ou boite à moustache comprend :
- un rectangle central dont les arêtes verticales représentent les
valeurs du premier et du troisième quartile, la longueur de la boite est
égale à l'intervalle interquartile.

- les moustaches sont les 2 traits partant de chaque côté de cette


boîte et limitées par les valeurs extrêmes.

- très souvent, on représente, par un trait pointillé, la valeur de la


médiane.

Q2

Min Q1 Q3 Max
LES INDICATEURS DE DISPERSION
Répartition d’un échantillon A

Modélisation

Répartition d’un échantillon B

Modélisation

Transformation
mathématique
LES PRINCIPAUX INDICATEURS STATISTIQUES

Echelle de mesure Tendance position Mesure de dispersion

Variable nominale - Le mode

Variable ordinale -Le mode -L'intervalle interquartile


-La médiane
-Q1, Q3

Variable quantitative -Le mode -L'étendue, écart absolu moyen


-La médiane -L'écart type, variance
- La moyenne -Le coefficient de variation
-Q1, Q3 -L'intervalle interquatile
LES PRINCIPAUX INDICATEURS STATISTIQUES
Moyenne par matière Jean Pierre Jean et pierre
Français 13.2 8.7 ont la même
moyenne
Anglais 11.7 6.2
Allemand 13.5 10.3
L’écart type de Jean
Histoire 11.0 11.1
est de 0.82, celui de
Mathématiques 12.0 18.0 Pierre est de 4.18
Physique 12.6 17.2
Biologie 11.8 15.5
Moyenne 12.4 12.3
2/3 des notes de Jean sont comprises
Ecart type 0.82 4.18
entre 11.5 et 13.1. Il est beaucoup plus
20
régulier que Pierre
18
16
14
12
10
8
Pour Pierre, la moyenne
6 n’a pas de sens, il y a en
4
2
fait deux modes (lettre/
0 science)
LES PRINCIPAUX INDICATEURS STATISTIQUES
Moyenne par matière Jean Pierre
Français 13.2 8.7
Anglais 11.7 6.2
Allemand 13.5 10.3
Histoire 11.0 11.1
Mathématiques 12.0 18.0
Physique 12.6 17.2
Biologie 11.8 15.5
Moyenne 12.4 12.3
2/3 des notes de Jean sont comprises
Ne regarder que la moyenne est risqué car cela efface la variation
Ecart type 0.82 4.18
entre 11.5 et 13.1. Il est beaucoup plus
20
régulier que Pierre
18
16 ou la répartition autour de cette moyenne
14
12
10
8
6
4
2
0
REPRÉSENTATION DES DONNÉES
Séparation en classes :
Quand le nombre d'éléments est élevé, on a intérêt à répartir les éléments en différentes classes. Le
nombre de classes, en général doit être compris entre 6 et 12. L'objectif est de rendre claire la
présentation des données.
La règle de Sturges permet d'avoir une indication sur le nombre de classes que l'on doit
choisir : k  1 + 3,322 log10 N
Nombre d'observations Nombre de classes
10 4
10 < N  22 5
22 < N  44 6
44 < N  90 7
90 < N  180 8
180 < N  360 9
360 < N  720 10
720 < N  1000 11

N = nb d’observations, E = étendue = Xmax – Xmin , Amplitude des classes = E/nb de classes  …

Choix des bornes : est-ce la borne inférieure ou la borne supérieure qui dot être incluse dans l’intervalle ?
En général, ce choix n’a pas d’importance, sauf si les bornes présentent des effectifs importants, ou par
exemple, si dans un cas, il faut inclure le 0 dans la 1ère classe alors il faut mettre obligatoirement la borne
inférieure dans l’intervalle.
D’autre part, lorsque les intervalles sont grands, le choix de la borne inférieure ou supérieure incluse dans
l’intervalle n’a pratiquement pas d’influence.
REPRÉSENTATION DES DONNÉES

Précautions :
- utiliser des intervalles de largeur constante
- ne pas choisir d ’intervalles ouverts
- pas de rupture dans les échelles
- nb d ’intervalles correct
-ne pas vouloir mettre trop d ’informations à la fois

90
80
70
60
50 Est
40 Ouest
30 Nord
20
10
0
15 20 25 30
REPRÉSENTATION DES DONNÉES
Diagramme en bâtons : Lorsque la variable quantitative est discontinue ou
discrète, la représentation graphique de la distribution de fréquences
s’effectue à l’aide d’un diagramme en bâtons.

Le diagramme en bâtons est construit en portant en abscisse les valeurs de la variable


discontinue ou discrète et en traçant parallèlement à l'axe des ordonnées un bâton de
longueur proportionnelle à la fréquence (absolue ou relative) de chaque valeur de la
variable.

10
9
8
7
6 •Par exemple, dans une fabrication, on
5 dénombre le nombre défauts sur chaque
4
3
pièce
2 • la distribution de fréquences
1 représente le nb de pièces en fonction du
0
1 2 3 4 5 6
nb de défauts.
REPRÉSENTATION DES DONNÉES
Histogramme : Lorsque la variable quantitative est continue, les valeurs
observées sont généralement dénombrées suivant une distribution en classes
et la représentation graphique prendra alors la forme d’un histogramme.

L'histogramme est constitué de rectangles juxtaposés dont chacune des bases est
égale à l'intervalle de chaque classe et dont la hauteur est telle que la surface soit
proportionnelle à la fréquence (absolue ou relative) de la classe correspondante.

25

20

Par exemple, on mesure le diamètre


15
d’un fruit et on représente le nb
d’individus dans des intervalles de 10
diamètre.
5

0
1.5 4.5 7.5 10.5 13.5 16.5 19.5
REPRÉSENTATION DES DONNÉES

FREQUENCE : La fréquence associée à une valeur d'une variable est le


nombre de fois que cette valeur se rencontre dans l'ensemble observé.

Dans le cas d'une distribution par classe, la fréquence absolue d'une classe
correspondra au nombre d'observations dont les résultats appartiennent à
cette classe.

La fréquence relative associée à une valeur est obtenue en faisant le rapport


entre la fréquence absolue correspondant à cette valeur et le nombre total de
valeurs qui ont été observées.

fi (%) = f * 100 / N
REPRÉSENTATION DES DONNÉES
Polygone de fréquences :représentation de la distribution de fréquences sous
forme de courbes.
Il est obtenu en joignant les milieux des sommets de chaque rectangle de l'histogramme
par des segments de droite.

25

20

15

10

0
1.5 4.5 7.5 10.5 13.5 16.5 19.5
REPRÉSENTATION DES DONNÉES
Courbes de fréquences cumulées: permettent de faire correspondre à une
valeur quelconque de la série, le nombre d’observations qui lui sont inférieures
(ou supérieures).
100
90
• On détermine une succession de points dont les 80
abscisses correspondent aux limites supérieures des
Fréquences
70
classes, sauf pour le premier point (dont la valeur de
l’abscisse est 0) et dont les ordonnées sont égales aux 60

cumulées fréquences cumulées croissantes correspondant aux


classes.
50
40
croissantes 30

• Fcc (%) =  i fi (%) (i = 1, .. , N) 20


10
0
0 3 6 9 12 15 18 20

100
• On détermine une succession de points dont les 90
abscisses correspondent aux limites inférieures des 80

Fréquences classes, sauf pour le dernier point et dont les ordonnées


sont égales aux fréquences cumulées décroissantes
70
60

cumulées correspondant aux classes. 50


40

décroissantes • Fcd (%) = 100 -  i fi (%) (i = 1, .. , N)


30
20
10
0
0 3 6 9 12 15 18 20

Ces graphes permettent de dire que près de 40 % des étudiants ont une note inférieure à 9
(courbe croissante) et environ 35 % des étudiants ont une note supérieure à 12 (courbe
décroissante).
CARACTÉRISTIQUES DE FORME
X = médiane = mode

Distribution symétrique : Une distribution est symétrique si


les valeurs de la variable quantitative sont également dispersées
de part et d'autre d'une valeur centrale.

Coefficient d'asymetrie : Le coefficient d'asymétrie est une mesure


descriptive qui permet de caractériser le degré de symétrie (coefficient de
Pearson) :
Sk 
3 X  médiane  ou 3 X  mod e 
s
S 
k
s

Sk > 0 : asymétrie positive Sk < 0 : asymétrie négative

X > médiane > mode X < médiane < mode

Vous aimerez peut-être aussi