Statistique
Statistique
Statistique
INTRODUCTION
La statistique est la science qui permet de recueillir des données, les
traiter (dépouiller), les analyser et les interpréter en vue de prendre des
décisions. La statistique permet d’avoir en outre une idée claire d’une
activité donnée. On conçoit alors qu’elle puisse être dangereuse si
l’étude est basée par des erreurs d’observation ou d’interprétations.
Pour l’étude des statistiques il est nécessaire de définir quelque notion
de base
I-VOCABULAIRE
a) La Population
La population est l’analyse des individus sur lesquels porte l’étude
statistique par exemple les étudiants de IDA à HETEC
b) Individus
Est un élément d’une population on l’appelé aussi unité statistique
c) Echantillons
C’est une partie de la population considérée. C’est un ensemble
d’individu représentatif d’une population
d) Données
Se sont les infos recueillis auprès des enquêtés
e) La fréquence
Elle se note « f » s’exprime en pourcentage ou en décimale, c’est le
rapport de l’effectif lié à une modalité par l’effectif total
F=effigie a modalité /eff_total… (en décimale)0
F= (eff_lié a mobalité/eff_total) X 100… (en pourcentage)
f) Effectif
Il en existe 4 :
- effectif lié à une modalité(ni)
- effectif total(N)
- effectif croissant cumulé croissant(ECC)
-effectif cumulé décroissant(ECD)
i) Notion de caractères
Il existe trois types de caractères qu’on peut regrouper en 2 grands
groupes (carates qualitatif et caractères quantitatif)
-caractères qualitatif : c’est un caractère dont les modalités ne sont pas
mesurables
Exemple ; une étude menée sur la matière préférée d’un étudiant
-le caractère quantitatif discret : c’est un caractère dont les modalités
sont des nombres réels
Exemple ; l’Age d’un étudiant, les notes
- le caractère quantitatifs continus : une série statistiques est à
caractères quantitatif continu lorsque c’est modalités sont exprimé
sous formes d’intervalles
Exemple : une étude concernant le nombre d’enfant d’un mariage
etc….
j) Le sondage
C’est une petite enquête menée auprès d’une population pour recueillir
des infos
1-Caractres Qualitatif
Lorsque le caractère est qualitatif on peut représenter la série par
-UN diagramme circulaire ou semi-circulaire
La mesure de chaque secteur angulaire est proportionnelle à l’effectif
ajouté
-UN diagramme en bande : chaque classe est représentée par un
rectangle de même largeur est de longueur proportionnel à l’effectif
donc à la fréquence aussi
APPLICATION :
Lors d’une enquête auprès des étudiants de IDA1 a HETEC
concernant leur préférence en matière de musique on a enregistré les
réponses suivantes
Z=zouk, R=RnB, D=jazz S=slow A=coupé décalé
Z,
R,Z,Z,D,A,S,A,S,S,A,S,Z,R,R,A,A,A,Z,,R,A,A,A,Z,R,A,R,A,R,A,A
1)quelle est la population étudiée
2) quelle est le caractère
3) préciser les modalités
4)dresser de tableau des effectifs
5) dresser le tableau des fréquences
RESOLUTION :
1) population :
Ce sont les étudiants de IDA1 à HETEC
2) Caractères :
Le caractère étudié est qualitatif
3)les Modalités
Zouk, RnB, Jazz, Slow, Coupé décalé
4) Tableau
Préférenc ZOUK RnB JAZZ SLOW Coupé Totale
e Décalé
Musicale
Effectif 6 8 1 4 13 32
ECC 6 14 15 19 32
ECD 32 26 18 17 13
Fréquence 0,1875 0,25 0,03125 0,125 0,40625 1
Mesure 33,75° 45° 5,625° 22,5° 73,125° 180°
En Degré
APPLICATION
On donne la distribution de 1000 personnes habitant à Bouaké le
01/05/15 et de nationalité ivoirienne suivant la pointure de leurs
chaussures.
Pointure 38,0 39,0 40,0 40,5 41,0 42,0 44,0
Xi
Effectifs 100 150 250 150 120 200 30
Ni
1-qu’elle est la population mère étudier préciser l’échantillon
2-qu’elle est le caractère
3-preciser les modalités
4-dresser le tableau des fréquences cumuler et décroissante
5-construire le diagramme en bâton et en-déduire le polygone des
effectifs
RESOLUTION
1- C’est la population ivoirienne de Bouaké
Echantillon : 1000 personnes ivoirienne habitant à Bouaké
2- Quantitatif discret
3- Modalité=valeur de Xi
38,0 ; 39,0 ; 40,0 ; 40,5 ; 41,0 ; 42,0 ; 44,0
4- Tableau
Pointure 38,0 39,0 40,0 40,5 41,0 42,0 44,0 Total
Xi
Effectif 100 150 250 150 120 200 30 1000
Ni
Fréquence 10 15 25 15 12 20 3 100
En %
FCC en 10 25 50 65 77 97 100
%
FCD en 100 90 75 50 35 23 3
%
5- Diagramme
Voir ma tete
RESOLUTION
1-le caractère est quantitatif continu
2-modalité : [0 :20[, [20 ;40[, [40 ;60[, [60 ;100[, [100 ;140[,
[140 ;200[
3-tableau
Temps en [0 :2 [20 ;4 [40 ;6 [60 ;10 [100 ;14 [140 ;20 Tot
min 0[ 0[ 0[ 0[ 0[ 0[ al
Effectif 35 41 30 12 5 2 125
Fréquenc 28 32,8 24 9,6 4 1,6 100
e en %
FCC 28 60,8 84,8 94,4 98,4 100
ECD 100 72 39,2 15,2 5,6 1,6
Centre 10 30 50 80 120 170
D’interva
lle
X/ = nici/N
X/ = (35*10) +(41*30) +(30*50) +(12*80) +(5*120) +(2*170) /125
X/ = 4980/125
X/ = 39,84 min
39 min 50 s 4 centième
45
40
35
30
25
20
15
10
0
Catégorie 1
1- Paramètres de disposition
Il s’agit du mode, moyenne, médiane, quartile et du décile.
Les paramètre de position sont des valeurs numériques qui ‘’résume’’
une série statistique en caractérisant l’ordre de grandeur des
observations. Ils s’expriment dans la même unité que les observations.
a- Le mode
Le mode est la modalité qui a l’effectif maximal
b- La moyenne
Se note X/ = nci/N pour les caractères quantitatifs discrets et
X/=nici/N pour les caractères quantitatifs continus.
c- La médiane
La médiane d’une série statistique est le terme(modalité) partagent la
série statistique en 2 groupes de même effectif.
Pour les caractères quantitatifs discrets
- Construire le tableau des ECC et des ECD
- Déterminer la modalité x1 correspondant au 1er ECC >= N/2
- Déterminer la modalité x2 correspondant au 1er ECD >= N/2
- La médiane est Me = (x1+x2) /2
Pour les caractères quantitatifs continus
- Construire le polygone des FCC
- La médiane est l’abscisse du point du polygone dont l’ordonné
est 0,5 ou 50%
d- Les quartiles
Le 1 quartile est noté Q1, le 3e quartile est noté Q3.
er
On considère une série dont les valeurs sont ordonnées (ranger dans
l’ordre croissant).
- On appel 1er quartile d’une série statistique la plus petite valeur
Q1 des termes de la série pour lesquels au moins ¼ ou 25% des
données sont <= Q1.
- On appel 3e quartile d’une série statistique la plus petite valeur
Q3 des termes de la série pour laquelle au moins ¾ ou 75% des
données sont <= Q3.
- On appel intervalle inter quartile l’intervalle noté [Q1 ; Q3].
- On appel écart inter quartile le nombre réel Q3-Q1.
APPLICATION
Soit la série 10, 12, 8, 14, 20, 16, 17, 18, 22, 14, 16, 16
Déterminer le 1er et 3e quartile
RESOLUTION
La série n’est pas ordonnés donc ordonnons :
8, 10, 12, 14, 14, 16, 16, 16, 17, 18, 20, 22
La série compte 12 termes
RQ1= 12*(1/4) =3 donc le 1er quartile est le 3e termes qui est 12 donc
Q1=12
RQ2=12*(3/4) =9 donc le 3e quartile est le 9e termes qui est 17 donc
Q3=17
e- Les déciles
Le premier est noté d1 le neuvième décile est noté d9. On considère
une suite dont les valeurs sont ordonnées (rangé dans l’ordre
croissant). On appel premier décile d’une série statique, la plus petite
valeur d1 des termes de la série pour laquelle au moins 1/10 ou 10%
des dyn étés sont inférieurs ou égales à d1. On appelle neuvième
décile ; la plus petite valeur des termes de la série au moins 90% des
données sont inférieures ou égale à d9
On appel intervalle inter-décile ; l’intervalle d1-d9 et aussi l’écart
inter-décile, le nombre réel d9-d1.
Application
Les 35 élevés d’une classe incomposé et le tableau ci-dessous donne la
répartition des différentes notes
2 4 5 6 9 11 12 14 15 16 18 Notes
1 3 2 2 06 4 4 5 3 3 2 Eff
Note 2 4 5 6 8 11 12 14 15 16 18
Eff 1 3 2 2 6 4 4 5 3 3 2
ECC 1 4 6 8 14 18 2 27 30 33 35
EC 35 34 31 29 27 21 17 13 8 5 2
D
N=35 N/2=35/2=17.5
Le premier ECC>=N/2 est 18 qui correspond à la modalité
x1=11
Le premier ECD>=N/2 est 21 qui correspond à la modalité
x2=11
Me= x1+x2/2=11+11/2=11
2) Indice de disposition
Les paramètres de disposition sont des nombres qui mesure la
disposition de valeurs observé autour d’un paramètre ou indicateur de
position ce sont : la variance, l’écart type et l’étendu
a) Variance
La variance est la moyenne arithmétique des carrés des écarts de
valeurs de la variable à moyenne arithmétique. Il se note
V=1/N ∑ ni (Xi-X) ²
b) Ecart type
L’écart type est la racine de la variance
∂=√V
c) Etendu
L’étendu est la différence entre la valeur initiale et la valeur final
E=Vf-Vi
Application
On a relevé le prix de vente d’un CD et le nombre de CD vendu chez
un fournisseur. Les résultats forment une série statistique à une
variable donner dans le tableau suivant
Prix de 15 16 17 18 19 Total
vente en
£
Nombre 83 48 32 20 17 200
de CD
Résolution
1) Les valeurs sont : 15,16,17,18,19.
2) Le mode de la série est : 15 car il correspond à l’effectif
maximal
3)
a) La moyenne est :
X=∑NiXi/N
X=3240/200=16.2
b) Variance
V=1/N ∑ Ni(Xi-X)²
Prix de 15 16 17 18 19 Total
vente
en €
Nombre 83 48 32 20 17 200
de CD
Ni
NiXi 1245 768 544 360 323 3240
Xi-X -1.2 -0.2 0.8 1.8 2.8
Ni(Xi- 119.52 1.92 2048 64.8 133.28 340
X)²
V=340/200=34/20=1.7
c) Ecart type
∂= √V
∂=√1.7=1.3
Application2
Un relevé des durées de communications téléphoniques
effectue dans un central téléphonique à fournir les
informations consignés dans le tableau suivant : l’unité de
durée est la minute.
Intervalle [0 ;2[ [2 ;4[ [4 ;6[ [6 ;8[ [8 ;10[ [10 ;12[ Total
de durée
Effectif 14 16 25 15 17 13 100
ni
Ci 1 3 5 7 9 11
Ni ci 14 48 125 105 153 143 588
Ci-X -4.88 -2.88 -0.88 1.12 3.12 5.12
ni(Ci)² 333.4016 132.7104 19.36 18.816 165.4848 340.1872 1010.56
1) Calculer la durée moyenne
2) La variance, l’écart type
Résolution
1) Calculons la durée moyenne d’appel
X =∑ni ci /N
X =588/100=5.88
5minutes ou 52 s 8 centième
2) La variance
V=1/N ∑ ni (ci-x) ²
V=1010.56/100=10.1056
Ecart type
∂=√V
=√10.1056
∂ =3.17
IV) Série statique a deux variable
1) Nuage de point – point moyen
Defintion1
Une série statistique double (x ; y) est constitué de n couple de
nombre (x1 ; y1) (x2 ; y2) …… (xn ; yn).
Le nuage de point associer à cette série est l’ensemble des n
points M (xi ; yi)
Remarque
Il faut au préalable avoir disposé correctement les axes de
coordonnées (le point de coordonnées 00 ne doit pas forcement
figuré sur les axes)
Definition2
Le point moyen G du nuage est le pont associé à la série
statistique double (x ; y) est le point de coordonnées (x ;y)
X=1/n∑xi
Y=1/n∑yi
Résolution
1) Représentation Point moyen
Valeur des Y
250
200
150
100
50
0
0 1 2 3 4 5 6 7 8 9
x= 1+2+3+4+5+6/6=3.5
y=70+90+115+140+170+220/6=134.16
G (3.5 ;134.16)
Rang xi 1 2 3 4 5 6 21
Nombre 70 90 115 140 170 220 805
d’adhérent
yi
XY 70 180 345 560 1850 1320 3325
X² 1 4 9 16 25 36 91
Y² 4900 8100 13225 19600 28900 48400 123125
Y=ax+b
a=cov(x ;y)/Vx
cov (x ;y)=xy-x.y
=3325/6-(3.5*134.16)
cov(x ;y)=84.8
Vx= x²-(x)²
=91/6-(3.5) ²
Vx =2.91
a=84.60/2.91=29.072
y=29.072x+b
b=y-29.072x=134.16-29.072*3.5=32.40
y=29.072x+32.40
Pour x=1→y=61.47
3) Calculons
r=cov(x ;y)/√Vx.Vy
Vy=y²-y²
Vy=123125/6-(124.16) ²=2521.927
r=34.66/√2.91*2521.927
=84.66√7338.807
=84.66/85.66
=0.98
r est très proche de 1 donc à une très forte corrélation
Exercice 1
Tableau à double entrée
X Y X² Y² xy
0 398 0 158404 0
1 451 1 203401 451
2 423 4 178929 846
3 501 9 251001 1503
4 673 16 452929 2692
5 956 25 913936 4780
6 1077 36 1159929 6462
7 1285 49 1651225 8995
8 1427 64 2036329 11416
9 1490 81 2220100 13410
45 8681 285 9226183 50555
0
1-a/ nuage des points
1-b/ coordonnée de G
G+ (x/ ; y/)
x/= 45/10 = 4,5
y/= 8681/10 = 8,681
G (4,5 ; 8,6)
2-a/ajustement de Mayer
Année 90 91 92 93 94
Rang xi 0 1 2 3 4
Dépense yi 398 451 423 501 673
G1 (x/1 ; y/1)
x/1= (0+1+2+3+4)/5 =2 y/1= (389+451+423+501+673)/5 =489,2
G1 (2 ; 489,2)
Année 95 96 97 98 99
Rang xi 5 6 7 8 9
Dépense yi 956 1077 1285 1427 1490
2-b/ équation
On a : y=ax + b
A= (y/2 – y/1) / (x/2 – x/1) = (1247 – 489,2) / (7 – 2) =151,56
Y=151,56x + b b= y/1 – 151,56x
=489,2 – (151,56*2)
b= 186,1
Donc y= 151,56x + 186,1
3-b/représentation
Pour x=0 y=241,3
Pour y=0 x=1,73
La somme des résidus S1 < S2 donc l’ajustement par la méthode des moindres
carrées est plus précis que la méthode de Mayer.
4-a/ complétons
Ti 1,386 1,609 1,792 1,945 2,079 2,197
Yi 673 956 1077 1285 1427 1490
4-b/ équation de la droite y en t par la méthode des moindres carrées
Ti 1,386 1,609 1,792 1,945 2,079 2,197 T=11,007
Yi 673 956 1077 1285 1427 1490 6908
T² 1,921 2,588 3,207 3,783 4,322 4,826 20,647
T 632,77 1538,20 1928,90 2499,32 2966,73 3273,5 13139,47
Y 8 4 7 5 3 3 7
Y= at + y
a=cov(t ; y)/Vy avec cov(t ; y)=som ty/N – t/y/
or
t/ = som t/N t/=11,007/6 =1,834
y/= som y/N y/=6908/6 =1151,339
b=y/ - at/
= 1151,333 – (1017,766*1,834)
= - 715,250
Donc Y= 1017,766t -715,250
4-c/ prévision en 2005
IL YA FAUTE ICI
2005 correspond au rang 15 t=15
Y= 1017,766*15 – 715,250 = 14551,24
5-a/ complétons
X 0 1 2 3 4 5 6
Zi 55,98 6,11 6,04 6,21 6,51 6,86 6,98
Z= ax + b
a=cov(x ; z)/Vx avec cov(x ; z)=∑ xz/N – x z
or
x/ = ∑ x/N x/=21/7 =3
z/= ∑ z/N z/=44.76/ 7=6.394
b=z- ax
= 6.349-(0.012*3)
=6.33
Donc z=0.02x+6.33
Alors y= e0.02x +e 6.33
5-c/Ajustement
L’année 2000 correspond au rang 11
D’où Y=e0.02*11+e6.33=699.244
70000
60000
50000
40000
30000
20000
10000
0
0 2 4 6 8 10 12 14
2) Multiplicatif
b) Modèles stochastiques
Ils ne seront pas envisagés dans ce cours il est possible de
modélisé la série des résidus Et par des modèles aléatoires.
Une partie importante de l’analyse des séries chronologiques
est consacré aux modèles linéaires et de nombreux logiciels de
statistiques proposent des procédures basées sur ces méthodes
(il s’agit de SPSS, SAS, Sphinx…)
4)Ajustement paramétrique
Nous supposerons dans ce paragraphe que le modèle ne
comporte plus de saisonnalité : la série a été au préalable
corrigé des variations saisonnières. Pour le modèle Aditif
on a donc : Yt=Ft+Et.
Une famille importante de méthode d’ajustement est
constituée par les modèles paramétriques, on supposera que
le tendance Ft de la série est une courbe d’équation Ft=Fө(t)
ou Ө est un paramètre ainsi après l’examen graphique de la
série on doit choisir
Puis on ajuste la ou les courbes retenues aux données en
cherchant une valeur de ө
a) Droite
On parle d’ajustement linéaire. La variation de Y est
proportionnelle à celle de t donc Fө(t)=at+b Ө (a ; b)
b) Parabole
fө ( t )=a t 2+ bt+c avec Ө=(a ; b ; c )
c) Courbe polynomiale
Fө(t)= ap.tp + ap-1.tp-1+…+a1.t1+a0
∞
nπx nπx
f ө (t)+ fө ( t )=af ( x )=∑ an cos
n=1
( L
+b n sin
L )
avec Ө=a0 ;a1 … ;ap
d) Courbe exponentielle
Fө(t)=ae bt +c avec Ө=(a ;b ;c)
e) Courbe logarithmique
fө ( t )=alnt +b avec Ө=(a ; b)
f) Hyperbole
1
fө ( t )= avec Ө=¿ b)
at+b
g) Courbe logistique
1
f ө (t )= −at
be +c
h) Courbe de Gompertz
at+ c
f ө (t )=eb e
4) Quelques représentations
LINEAIRE
Valeur des Y
6
0
0 1 2 3 4 5 6 7
LOGARITHMIQUE
Valeur des Y
90
80
70
60
50
40
30
20
10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5
PRABOLE
TENDANCE POLYMONIALE
EXPONENTIELLE
Application
La série y t représente les montants rapporter par l’industrie
automobile au trésor public Belge en millier de Francs
t 70 71 72 73 74 75 76 77 78
yt 32 38 48 52 61 73 80 84 95
RESOLUTION
t yt t. y t t² yt ²
1970 32 63040 3880900 1024
1971 38 74898 3884841 1444
1972 48 94656 3888784 2304
1973 52 102596 3892729 2704
1974 61 120414 3896676 3721
1975 73 144175 3900625 5329
1976 80 158080 3904576 6400
1977 84 166068 3905529 7056
1978 95 187910 3912484 9025
17766 563 1111837 35070144 39007 Total
1- Nuage de point
Valeur des Y
100
90
80
70
60
50
40
30
20
10
0
0 2 4 6 8 10 12
Calcule G
t=∑t/N=17766/9=1974
yt=∑yt/N=563/9=62.55
G(1974 ; 62.55)
Cov(t ;yt)=1111827/9 – (1974*62.55)=63.74
a=63.74/6.66=9.57
b=yt-at=62.55-(9.57*1974)=-18828.5
y=9.57t-18828.5