Statistique

Télécharger au format docx, pdf ou txt
Télécharger au format docx, pdf ou txt
Vous êtes sur la page 1sur 28

STATISTIQUE DESCRIPTIVE

INTRODUCTION
La statistique est la science qui permet de recueillir des données, les
traiter (dépouiller), les analyser et les interpréter en vue de prendre des
décisions. La statistique permet d’avoir en outre une idée claire d’une
activité donnée. On conçoit alors qu’elle puisse être dangereuse si
l’étude est basée par des erreurs d’observation ou d’interprétations.
Pour l’étude des statistiques il est nécessaire de définir quelque notion
de base
I-VOCABULAIRE

a) La Population
La population est l’analyse des individus sur lesquels porte l’étude
statistique par exemple les étudiants de IDA à HETEC

b) Individus
Est un élément d’une population on l’appelé aussi unité statistique

c) Echantillons
C’est une partie de la population considérée. C’est un ensemble
d’individu représentatif d’une population

d) Données
Se sont les infos recueillis auprès des enquêtés

e) La fréquence
Elle se note « f » s’exprime en pourcentage ou en décimale, c’est le
rapport de l’effectif lié à une modalité par l’effectif total
F=effigie a modalité /eff_total… (en décimale)0
F= (eff_lié a mobalité/eff_total) X 100… (en pourcentage)

f) Effectif
Il en existe 4 :
- effectif lié à une modalité(ni)
- effectif total(N)
- effectif croissant cumulé croissant(ECC)
-effectif cumulé décroissant(ECD)

g) Notion d’amplitude d’une classe


Pour une classe [a ; b [l’amplitude A= / b-a/
NB ; On parle d’amplitude dans les séries statistiques à caractères
continues

h) Centre d’une classe


Le centre d’une classe est le nombre réel notée CI et Ci=(a+b) /2

i) Notion de caractères
Il existe trois types de caractères qu’on peut regrouper en 2 grands
groupes (carates qualitatif et caractères quantitatif)
-caractères qualitatif : c’est un caractère dont les modalités ne sont pas
mesurables
Exemple ; une étude menée sur la matière préférée d’un étudiant
-le caractère quantitatif discret : c’est un caractère dont les modalités
sont des nombres réels
Exemple ; l’Age d’un étudiant, les notes
- le caractère quantitatifs continus : une série statistiques est à
caractères quantitatif continu lorsque c’est modalités sont exprimé
sous formes d’intervalles
Exemple : une étude concernant le nombre d’enfant d’un mariage
etc….

j) Le sondage
C’est une petite enquête menée auprès d’une population pour recueillir
des infos

II- REPRESENTATION GRAPHIQUE D’UNE SERIE


STATISTIQUE

1-Caractres Qualitatif
Lorsque le caractère est qualitatif on peut représenter la série par
-UN diagramme circulaire ou semi-circulaire
La mesure de chaque secteur angulaire est proportionnelle à l’effectif
ajouté
-UN diagramme en bande : chaque classe est représentée par un
rectangle de même largeur est de longueur proportionnel à l’effectif
donc à la fréquence aussi

APPLICATION :
Lors d’une enquête auprès des étudiants de IDA1 a HETEC
concernant leur préférence en matière de musique on a enregistré les
réponses suivantes
Z=zouk, R=RnB, D=jazz S=slow A=coupé décalé
Z,
R,Z,Z,D,A,S,A,S,S,A,S,Z,R,R,A,A,A,Z,,R,A,A,A,Z,R,A,R,A,R,A,A
1)quelle est la population étudiée
2) quelle est le caractère
3) préciser les modalités
4)dresser de tableau des effectifs
5) dresser le tableau des fréquences

RESOLUTION :
1) population :
Ce sont les étudiants de IDA1 à HETEC
2) Caractères :
Le caractère étudié est qualitatif
3)les Modalités
Zouk, RnB, Jazz, Slow, Coupé décalé
4) Tableau
Préférenc ZOUK RnB JAZZ SLOW Coupé Totale
e Décalé
Musicale
Effectif 6 8 1 4 13 32
ECC 6 14 15 19 32
ECD 32 26 18 17 13
Fréquence 0,1875 0,25 0,03125 0,125 0,40625 1
Mesure 33,75° 45° 5,625° 22,5° 73,125° 180°
En Degré

1- Caractère quantitatif discret


Dans une étude ou les modalités sont à caractère quantitatif discret la
représentation graphique de cette série statistique est données par un
diagramme en bâton ou encore un polygone des effectifs. Le polygone
des effectifs s’obtient en reliant les sommés de chaque bâton.

APPLICATION
On donne la distribution de 1000 personnes habitant à Bouaké le
01/05/15 et de nationalité ivoirienne suivant la pointure de leurs
chaussures.
Pointure 38,0 39,0 40,0 40,5 41,0 42,0 44,0
Xi
Effectifs 100 150 250 150 120 200 30
Ni
1-qu’elle est la population mère étudier préciser l’échantillon
2-qu’elle est le caractère
3-preciser les modalités
4-dresser le tableau des fréquences cumuler et décroissante
5-construire le diagramme en bâton et en-déduire le polygone des
effectifs

RESOLUTION
1- C’est la population ivoirienne de Bouaké
Echantillon : 1000 personnes ivoirienne habitant à Bouaké
2- Quantitatif discret
3- Modalité=valeur de Xi
38,0 ; 39,0 ; 40,0 ; 40,5 ; 41,0 ; 42,0 ; 44,0
4- Tableau
Pointure 38,0 39,0 40,0 40,5 41,0 42,0 44,0 Total
Xi
Effectif 100 150 250 150 120 200 30 1000
Ni
Fréquence 10 15 25 15 12 20 3 100
En %
FCC en 10 25 50 65 77 97 100
%
FCD en 100 90 75 50 35 23 3
%

5- Diagramme
Voir ma tete

2- Caractère quantitatif continu


Dans une étude ou les modalités sont à caractère quantitatif continu on
utilise un histogramme
Formule : N/2=R=Me
Me-
APPLICATION
On à relever dans une entreprise de 125 employés le temps en minute
consacrer à la pratique d’un sport par semaine.
Temps [0 :20 [20 ;40 [40 ;60 [60 ;100 [100 ;140 [140 ;200
en [ [ [ [ [ [
Minute
Effecti 35 41 12 5 2
f
Ni

1-presicer le caractère et les modalités


2-dresser le tableau des fréquences, des ECC et ECD
3-Calculez le temps moyen consacré à la pratique d’un sport par
semaine

RESOLUTION
1-le caractère est quantitatif continu
2-modalité : [0 :20[, [20 ;40[, [40 ;60[, [60 ;100[, [100 ;140[,
[140 ;200[
3-tableau
Temps en [0 :2 [20 ;4 [40 ;6 [60 ;10 [100 ;14 [140 ;20 Tot
min 0[ 0[ 0[ 0[ 0[ 0[ al
Effectif 35 41 30 12 5 2 125
Fréquenc 28 32,8 24 9,6 4 1,6 100
e en %
FCC 28 60,8 84,8 94,4 98,4 100
ECD 100 72 39,2 15,2 5,6 1,6
Centre 10 30 50 80 120 170
D’interva
lle

X/ = nici/N
X/ = (35*10) +(41*30) +(30*50) +(12*80) +(5*120) +(2*170) /125
X/ = 4980/125
X/ = 39,84 min
39 min 50 s 4 centième

45

40

35

30

25

20

15

10

0
Catégorie 1

Série 1 Série 2 Série 3 serie 4 serie 5 seria 6

III- INDICATEUR D’UNE SERIE STATISTIQUE

On distingue 2 types de paramètres indicateur :


Les paramètres de position et de disposition

1- Paramètres de disposition
Il s’agit du mode, moyenne, médiane, quartile et du décile.
Les paramètre de position sont des valeurs numériques qui ‘’résume’’
une série statistique en caractérisant l’ordre de grandeur des
observations. Ils s’expriment dans la même unité que les observations.
a- Le mode
Le mode est la modalité qui a l’effectif maximal

REMARQUE : pour une série statistique présentant un regroupement


en classe on n’appel classe modale toute classe d’effectif maximal. Et
le centre de cette classe modale est appelé mode de la série.

Exemple dans l’exercice précédent la classe modale est [20 ;40[car


elle correspond à l’effectif maximal : le mode est (20+40) /2=30

b- La moyenne
Se note X/ = nci/N pour les caractères quantitatifs discrets et
X/=nici/N pour les caractères quantitatifs continus.

c- La médiane
La médiane d’une série statistique est le terme(modalité) partagent la
série statistique en 2 groupes de même effectif.
 Pour les caractères quantitatifs discrets
- Construire le tableau des ECC et des ECD
- Déterminer la modalité x1 correspondant au 1er ECC >= N/2
- Déterminer la modalité x2 correspondant au 1er ECD >= N/2
- La médiane est Me = (x1+x2) /2
 Pour les caractères quantitatifs continus
- Construire le polygone des FCC
- La médiane est l’abscisse du point du polygone dont l’ordonné
est 0,5 ou 50%

d- Les quartiles
Le 1 quartile est noté Q1, le 3e quartile est noté Q3.
er

On considère une série dont les valeurs sont ordonnées (ranger dans
l’ordre croissant).
- On appel 1er quartile d’une série statistique la plus petite valeur
Q1 des termes de la série pour lesquels au moins ¼ ou 25% des
données sont <= Q1.
- On appel 3e quartile d’une série statistique la plus petite valeur
Q3 des termes de la série pour laquelle au moins ¾ ou 75% des
données sont <= Q3.
- On appel intervalle inter quartile l’intervalle noté [Q1 ; Q3].
- On appel écart inter quartile le nombre réel Q3-Q1.

APPLICATION
Soit la série 10, 12, 8, 14, 20, 16, 17, 18, 22, 14, 16, 16
Déterminer le 1er et 3e quartile

RESOLUTION
La série n’est pas ordonnés donc ordonnons :
8, 10, 12, 14, 14, 16, 16, 16, 17, 18, 20, 22
La série compte 12 termes
RQ1= 12*(1/4) =3 donc le 1er quartile est le 3e termes qui est 12 donc
Q1=12
RQ2=12*(3/4) =9 donc le 3e quartile est le 9e termes qui est 17 donc
Q3=17

e- Les déciles
Le premier est noté d1 le neuvième décile est noté d9. On considère
une suite dont les valeurs sont ordonnées (rangé dans l’ordre
croissant). On appel premier décile d’une série statique, la plus petite
valeur d1 des termes de la série pour laquelle au moins 1/10 ou 10%
des dyn étés sont inférieurs ou égales à d1. On appelle neuvième
décile ; la plus petite valeur des termes de la série au moins 90% des
données sont inférieures ou égale à d9
On appel intervalle inter-décile ; l’intervalle d1-d9 et aussi l’écart
inter-décile, le nombre réel d9-d1.
Application
Les 35 élevés d’une classe incomposé et le tableau ci-dessous donne la
répartition des différentes notes
2 4 5 6 9 11 12 14 15 16 18 Notes
1 3 2 2 06 4 4 5 3 3 2 Eff

1) Le caractère étudié est quantitatif discret


2) Calcul des quartiles
a) Le premier quartile
Rq1=11*1/4=2.75=3
Donc le1er quartile est le 3e termes d’où rq1=5
b) 3e quartile
Rq3=11*3/4=8.25=9
Donc le 3e quartile est le 9e terme d’où Rq3=15
3) Calculons
a) Le 1er décile
Rd1=11*1/10=1.1=2 donc le 1er décile est le 2e terme d’où
d1=4
b) Le 3e décile
Rd3=16
4) Calculons la médiane
1er méthode
La série est ordonnées et composé de 11 terme donc impaire.
2n+1=11
n=5
n+1=6
d’où la modalité est le 6e terme qui correspond à 11 Me=11.
2e méthode

Note 2 4 5 6 8 11 12 14 15 16 18
Eff 1 3 2 2 6 4 4 5 3 3 2
ECC 1 4 6 8 14 18 2 27 30 33 35
EC 35 34 31 29 27 21 17 13 8 5 2
D

N=35 N/2=35/2=17.5
Le premier ECC>=N/2 est 18 qui correspond à la modalité
x1=11
Le premier ECD>=N/2 est 21 qui correspond à la modalité
x2=11
Me= x1+x2/2=11+11/2=11

2) Indice de disposition
Les paramètres de disposition sont des nombres qui mesure la
disposition de valeurs observé autour d’un paramètre ou indicateur de
position ce sont : la variance, l’écart type et l’étendu

a) Variance
La variance est la moyenne arithmétique des carrés des écarts de
valeurs de la variable à moyenne arithmétique. Il se note
V=1/N ∑ ni (Xi-X) ²
b) Ecart type
L’écart type est la racine de la variance
∂=√V
c) Etendu
L’étendu est la différence entre la valeur initiale et la valeur final
E=Vf-Vi

Application
On a relevé le prix de vente d’un CD et le nombre de CD vendu chez
un fournisseur. Les résultats forment une série statistique à une
variable donner dans le tableau suivant

Prix de 15 16 17 18 19 Total
vente en
£
Nombre 83 48 32 20 17 200
de CD

1) Quel sont les différentes valeurs de la série


2) Quel est le mode de la série
3) Calculer la moyenne, la variance et l’écart type
4) Que représente ses nombres (moy et écart type)

Résolution
1) Les valeurs sont : 15,16,17,18,19.
2) Le mode de la série est : 15 car il correspond à l’effectif
maximal
3)
a) La moyenne est :
X=∑NiXi/N
X=3240/200=16.2

b) Variance
V=1/N ∑ Ni(Xi-X)²

Prix de 15 16 17 18 19 Total
vente
en €
Nombre 83 48 32 20 17 200
de CD
Ni
NiXi 1245 768 544 360 323 3240
Xi-X -1.2 -0.2 0.8 1.8 2.8
Ni(Xi- 119.52 1.92 2048 64.8 133.28 340
X)²

V=340/200=34/20=1.7

c) Ecart type
∂= √V
∂=√1.7=1.3

La moyenne :16.2 représente le prix d’un CD


L’écart type :1.3 représente l’écart type entre les différents
prix de vente et les prix de ventes moyens.

Application2
Un relevé des durées de communications téléphoniques
effectue dans un central téléphonique à fournir les
informations consignés dans le tableau suivant : l’unité de
durée est la minute.
Intervalle [0 ;2[  [2 ;4[ [4 ;6[ [6 ;8[ [8 ;10[ [10 ;12[ Total
de durée
Effectif 14 16 25 15 17 13 100
ni
Ci 1 3 5 7 9 11
Ni ci 14 48 125 105 153 143 588
Ci-X -4.88 -2.88 -0.88 1.12 3.12 5.12
ni(Ci)² 333.4016 132.7104 19.36 18.816 165.4848 340.1872 1010.56
1) Calculer la durée moyenne
2) La variance, l’écart type
Résolution
1) Calculons la durée moyenne d’appel
X =∑ni ci /N
X =588/100=5.88
5minutes ou 52 s 8 centième
2) La variance
V=1/N ∑ ni (ci-x) ²
V=1010.56/100=10.1056

Ecart type
∂=√V
=√10.1056
∂ =3.17
IV) Série statique a deux variable
1) Nuage de point – point moyen
Defintion1
Une série statistique double (x ; y) est constitué de n couple de
nombre (x1 ; y1) (x2 ; y2) …… (xn ; yn).
Le nuage de point associer à cette série est l’ensemble des n
points M (xi ; yi)
Remarque
Il faut au préalable avoir disposé correctement les axes de
coordonnées (le point de coordonnées 00 ne doit pas forcement
figuré sur les axes)

Definition2
Le point moyen G du nuage est le pont associé à la série
statistique double (x ; y) est le point de coordonnées (x ;y)
X=1/n∑xi
Y=1/n∑yi

2) Ajustement affine : méthode des moindres carrées


Théorème
Soit une série statique à deux variables (x ; y) représenter par le
nuage de point Mi (xi ; yi) 1≤i≤n. il existe une unique droite (D)
d’équation y=ax+b rendant minimal la somme des résidus
S=∑(yi-y) ²=∑(MiPi)²
Cette droite vérifie deux conditions :
-elle passe par le point moyen G (x ; y)
-elle à pour coefficient directeur
a=cov(x ;y)/Vx (pour la droite de représentation de y en x)
avec cov(x ;y)=xy-x.y et Vx= x²-(x)²
remarque : pour la droite de représentation de x en y
on a : x=a’y+b’
avec a’=cov(x ;y)/Vy avec Vy=Y²-(Y)²

3) Coefficient de corrélation linéaire


On appel coefficient de corrélation linéaire le nombre réelle
entre x et y et qui est noté par r = cov(x ;y)/∂x.∂y
Propriété
Le coefficient de corrélation linéaire vérifie la relation -1≤r≤1.
La corrélation est forte en x et y lorsque |r|≤0.86 →-0.86≤r≤0.86.
Application
Le tableau suivant donne l’évolution du nombre d’adhérant à un
club de basket de 2008 à 2013
Année 2008 2009 2010 2011 2012 2013
Rang xi 1 2 3 4 5 6
Nombre 70 90 115 140 170 220
d’adhérent
yi

1) Représenter le nuage de point


2) Calculer les coordonnées du point moyen G
3) Ecrie l’équation de la droite de régression de y en x
4) Calculer le coefficient de corrélation linéaire
Que peut-on conclure entre les variable x et y

Résolution
1) Représentation Point moyen
Valeur des Y
250

200

150

100

50

0
0 1 2 3 4 5 6 7 8 9

2) Point moyen G (x ; y)

x= 1+2+3+4+5+6/6=3.5
y=70+90+115+140+170+220/6=134.16
G (3.5 ;134.16)

Année 2008 2009 2010 2011 2012 2013 total

Rang xi 1 2 3 4 5 6 21
Nombre 70 90 115 140 170 220 805
d’adhérent
yi
XY 70 180 345 560 1850 1320 3325
X² 1 4 9 16 25 36 91
Y² 4900 8100 13225 19600 28900 48400 123125

Y=ax+b
a=cov(x ;y)/Vx

cov (x ;y)=xy-x.y
=3325/6-(3.5*134.16)
cov(x ;y)=84.8

Vx= x²-(x)²
=91/6-(3.5) ²
Vx =2.91

a=84.60/2.91=29.072
y=29.072x+b

b=y-29.072x=134.16-29.072*3.5=32.40

y=29.072x+32.40
Pour x=1→y=61.47

3) Calculons
r=cov(x ;y)/√Vx.Vy
Vy=y²-y²
Vy=123125/6-(124.16) ²=2521.927
r=34.66/√2.91*2521.927
=84.66√7338.807
=84.66/85.66
=0.98
r est très proche de 1 donc à une très forte corrélation

TD : STATISTIQUE A DEUX VARIABLE

Exercice 1
Tableau à double entrée
X Y X² Y² xy
0 398 0 158404 0
1 451 1 203401 451
2 423 4 178929 846
3 501 9 251001 1503
4 673 16 452929 2692
5 956 25 913936 4780
6 1077 36 1159929 6462
7 1285 49 1651225 8995
8 1427 64 2036329 11416
9 1490 81 2220100 13410
45 8681 285 9226183 50555
0
1-a/ nuage des points
1-b/ coordonnée de G
G+ (x/ ; y/)
x/= 45/10 = 4,5
y/= 8681/10 = 8,681
G (4,5 ; 8,6)

2-a/ajustement de Mayer
Année 90 91 92 93 94
Rang xi 0 1 2 3 4
Dépense yi 398 451 423 501 673

G1 (x/1 ; y/1)
x/1= (0+1+2+3+4)/5 =2 y/1= (389+451+423+501+673)/5 =489,2
G1 (2 ; 489,2)

Année 95 96 97 98 99
Rang xi 5 6 7 8 9
Dépense yi 956 1077 1285 1427 1490

G2 (x/2 ; y/2) G2 (7 ; 1247)


x/2= (5+6+7+8+9)/5 =7 y/2= (956+1077+1285+1427+1490)/5 =1247
le point G appartient effectivement à (G1 G2)

2-b/ équation
On a : y=ax + b
A= (y/2 – y/1) / (x/2 – x/1) = (1247 – 489,2) / (7 – 2) =151,56
Y=151,56x + b  b= y/1 – 151,56x
=489,2 – (151,56*2)
b= 186,1
Donc y= 151,56x + 186,1

2-c/ somme des carrées des résidus


Année 90 91 92 93 94 95 96 97 98 99 total
Rang xi 0 1 2 3 4 5 6 7 8 9
Dépense 39 45 423 501 673 956 107 128 142 149
yi 8 1 7 5 7 0
(yi – y)² 44 12 438 1953 1424 146 340 144 807 361 1022
90 84 5,08 8,44 2,03 ,41 ,77 2,48 ,69 6,81 67,27
1,6 5,
1 95

2-d/ prévision pour 2005


2005 correspond au rang xi=15
D’où y= 151,56*15 + 186,10 = 2459,5

3-a/ équation de la droite y en x


Y= mx + p
M= cov(x ; y)/Vx avec cov(x ; y)= (som xy)/N – x/y/
= 1149,05/8,25 = 50555/10 – (45*868,1)
=139,27  139,3 = 1149,05

V(x)=som x²/N –x/²


= 285/10 – 4,5²
= 8,25
P= y/ - mx/
= 8681 – (139,3*4,5)
=241,3
Donc Y= 139,27x + 241,3

3-b/représentation
Pour x=0  y=241,3
Pour y=0  x=1,73

3-c/somme des carrées


Année 9 91 92 93 94 95 96 97 98 99 total
0
Rang xi 0 1 2 3 4 5 6 7 8 9
Dépense 3 451 423 501 673 956 10 128 142 14
yi 9 77 5 7 90
8
(yi – y)² 2 495 938 2502 1575 331 0, 470 508 25 9453
4 6,16 9,61 7,24 0,27 ,24 01 5,96 3,69 0,03
5
5
4
,
8
9

La somme des résidus S1 < S2 donc l’ajustement par la méthode des moindres
carrées est plus précis que la méthode de Mayer.

3-d/ prévision sur 2005


2005 correspond au rang xi=15
D’où Y= 139,3*15 + 241,3 =2330,8

4-a/ complétons
Ti 1,386 1,609 1,792 1,945 2,079 2,197
Yi 673 956 1077 1285 1427 1490
4-b/ équation de la droite y en t par la méthode des moindres carrées
Ti 1,386 1,609 1,792 1,945 2,079 2,197 T=11,007
Yi 673 956 1077 1285 1427 1490 6908
T² 1,921 2,588 3,207 3,783 4,322 4,826 20,647
T 632,77 1538,20 1928,90 2499,32 2966,73 3273,5 13139,47
Y 8 4 7 5 3 3 7

Y= at + y
a=cov(t ; y)/Vy avec cov(t ; y)=som ty/N – t/y/
or
t/ = som t/N  t/=11,007/6 =1,834
y/= som y/N  y/=6908/6 =1151,339

donc cov(t ; y)=13139,477/ 6 – (1,834*1151,339)


= 78,368
Et Vy= som t²/N – t/²
= 20,647/6 – (1,834) ²
= 0,077
a= 78,368/0,077
= 1017,766

b=y/ - at/
= 1151,333 – (1017,766*1,834)
= - 715,250
Donc Y= 1017,766t -715,250
4-c/ prévision en 2005
IL YA FAUTE ICI
2005 correspond au rang 15  t=15
Y= 1017,766*15 – 715,250 = 14551,24

4-d/ traçons y=f(x)


Y= 1017,766*ln(x) – 715,250

5-a/ complétons
X 0 1 2 3 4 5 6
Zi 55,98 6,11 6,04 6,21 6,51 6,86 6,98

5-b/ équation de z en x par la méthode des moindres carrées


X 0 1 2 3 4 5 6 Total
Zi 5,98 6,11 6,04 6,21 6,51 6,86 6,98 44.76
Xi² 0 1 4 9 16 25 36 91
Zi² 35,760 37,332 36,481 38,564 42,380 47,058 48,720 286,296
xz 0 6,11 12,08 18,63 26,04 31,43 41,88 136,17

Z= ax + b
a=cov(x ; z)/Vx avec cov(x ; z)=∑ xz/N – x z
or
x/ = ∑ x/N  x/=21/7 =3
z/= ∑ z/N  z/=44.76/ 7=6.394

donc cov(x ; z)=136.17/7-(3*6.394)


= 0.270
Et Vx= ∑ x²/N – x/²
= 91/7-3²
= 22
a= 0.270/22=0.012

b=z- ax
= 6.349-(0.012*3)
=6.33
Donc z=0.02x+6.33
Alors y= e0.02x +e 6.33

5-c/Ajustement
L’année 2000 correspond au rang 11
D’où Y=e0.02*11+e6.33=699.244

IV) SERIE CHRONOLOGIQUES


1) Définition
Une série chronologique {yt} t € T est une suite d’observation
indexé par un ensemble ordonné. T € {t1 ; t2 ; t3… ; tn}.
Remarque
Une série chronologique se définie aussi comme une série
statistique bidimensionnel (t ; yt) avec t € T, ou la première
composante du couple (t) est le temps et la deuxième
composante est une variable numérique yt prenant ses valeurs
aux instants (t). Les valeurs de la première composante (t) sont
rangées dans l’ordre chronologique, ce qui confère à la série
statistique (t ; yt) des propriétés particulières. Pour indiquer
cette chronologie, les points du nuage de points (t ; yt) sont
reliés entre eux par des segments de droites.
Remarque 2
Une série chronologique set encore appelé chronique ou série
temporaire.
Ces séries se rencontrent en économie. Ex : dans l’étude de
l’évolution d’indice (chambre de commerce, bourse…), la
consommation d’un bien, les dépenses allouées à un bien.
En démographie par exemple l’étude de la croissance de la
population ; la population urbaine ; rurale d’un pays ou le
comportement de la famille : les membres du ménage, le
mariage.
En épidémiologie : personne atteintes de tuberculose, teste de
VIH, syndrome grippaux.
La météorologie : le climat (pluie), de débit des cours d’eaux, la
température.
Activités humaines : évolution des salaires en fonction du
temps, le trafic téléphonique, le trafic routier.
On supposera dans la suite que les dates sont équidistantes et
donc nous adopterons la notation simplifiée pour l’ensemble
d’indice T € {t1 ; t2…tn} et donc pour la série yt {yt}
t={1,2,3,..n}. En pratique la série chronologique yt est donnée
sous forme d’un tableau bidimensionnel ou la date peut être
remplacer par le numéro d’observation (t).
2) Présentation
t 1 2 3 4 5 6 7 8 9 10 11 12
Date 01/17 20/17 03/17 04/17 05/17 06/17 07/17 08/17 09/17 10/17 11/17 12/17
yt 53888 41835 44224 51768 68655 71641 57772 73634 46692 51288 49238 36121

Ce tableau nous montre le nombre mensuel de teste VIH


pratiquer en 2017.

On considère qu’une série (yt) est la résultante de différente


composante fondamentale :
- La tendance ou trend (ft) représente l’évolution à long terme de
la série (yt) étudié : elle traduit le comportement moyen de la
série.
- La composante saisonnière ou saisonnalité (st) correspond à un
phénomène qui se répète à intervalle de temps régulier
(périodique). En général ‘est un phénomène saisonnier d’où le
terme de variation saisonnière. La composante saisonnière est
donc périodique de période (p) et il suffit de connaitre ces petites
(p) première valeur : (s1, s2,…,sp). (Par périodicité : st=st+p).
- La composante résiduelle ou bruit ou résidu (Et) :ce sont des
fluctuations irrégulière, en général de faible intensité mais de
nature aléatoire. On parle aussi d’alea (Et)
3) Modélisation
a) Model de décomposition déterministe
1) Aditif
Yt=Ft+St+Et = A avec t{1,2,3…n}
Dans le model aditif l’amplitude de la composition
saisonnière et du bruit reste constante au cour du temps.
Ceci se traduit graphiquement par des fluctuations autour de
la tendance d’amplitude constante.
Hypothèse : pour des raisons d’unicité d’écriture de la
décomposition A on suppose que ∑Sj=0 et ∑Et=0 ainsi on
est assuré que les composantes St et Et sont centrées et
donc toute l’information concernant la tendance c.-à-d. le
comportement moyen est uniquement content de la
composante Ft
Valeur des Y
80000

70000

60000

50000

40000

30000

20000

10000

0
0 2 4 6 8 10 12 14

2) Multiplicatif

Yt = Ft.St.Et avec t € {1… ;n}.


Dans ce modelé l’amplitude de la composante saisonnière
et du bruit ne sont plus des constantes au cours du temps.
Elles varient au cours du temps proportionnellement à la
tendance Ft.
Hypothèse : pour assurer la cohésion dans l’écriture de
décomposition ; Yt = Ft.St.Et=B on suppose que
∑Sj=p et 1/n ∑Ei=1.

b) Modèles stochastiques
Ils ne seront pas envisagés dans ce cours il est possible de
modélisé la série des résidus Et par des modèles aléatoires.
Une partie importante de l’analyse des séries chronologiques
est consacré aux modèles linéaires et de nombreux logiciels de
statistiques proposent des procédures basées sur ces méthodes
(il s’agit de SPSS, SAS, Sphinx…)
4)Ajustement paramétrique
Nous supposerons dans ce paragraphe que le modèle ne
comporte plus de saisonnalité : la série a été au préalable
corrigé des variations saisonnières. Pour le modèle Aditif
on a donc : Yt=Ft+Et.
Une famille importante de méthode d’ajustement est
constituée par les modèles paramétriques, on supposera que
le tendance Ft de la série est une courbe d’équation Ft=Fө(t)
ou Ө est un paramètre ainsi après l’examen graphique de la
série on doit choisir
Puis on ajuste la ou les courbes retenues aux données en
cherchant une valeur de ө
a) Droite
On parle d’ajustement linéaire. La variation de Y est
proportionnelle à celle de t donc Fө(t)=at+b Ө (a ; b)
b) Parabole
fө ( t )=a t 2+ bt+c avec Ө=(a ; b ; c )
c) Courbe polynomiale
Fө(t)= ap.tp + ap-1.tp-1+…+a1.t1+a0

nπx nπx
f ө (t)+ fө ( t )=af ( x )=∑ an cos
n=1
( L
+b n sin
L )
avec Ө=a0 ;a1 … ;ap
d) Courbe exponentielle
Fө(t)=ae bt +c avec Ө=(a ;b ;c)
e) Courbe logarithmique
fө ( t )=alnt +b avec Ө=(a ; b)
f) Hyperbole
1
fө ( t )= avec Ө=¿ b)
at+b
g) Courbe logistique
1
f ө (t )= −at
be +c
h) Courbe de Gompertz
at+ c

f ө (t )=eb e
4) Quelques représentations
LINEAIRE

Valeur des Y
6

0
0 1 2 3 4 5 6 7

LOGARITHMIQUE
Valeur des Y
90

80

70

60

50

40

30

20

10

0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5

PRABOLE

TENDANCE POLYMONIALE
EXPONENTIELLE

Application
La série y t représente les montants rapporter par l’industrie
automobile au trésor public Belge en millier de Francs
t 70 71 72 73 74 75 76 77 78
yt 32 38 48 52 61 73 80 84 95

1- Représenter le nuage de point


2- Ecrire l’équation de la droite par la méthode des moindres
carrés

RESOLUTION

t yt t. y t t² yt ²
1970 32 63040 3880900 1024
1971 38 74898 3884841 1444
1972 48 94656 3888784 2304
1973 52 102596 3892729 2704
1974 61 120414 3896676 3721
1975 73 144175 3900625 5329
1976 80 158080 3904576 6400
1977 84 166068 3905529 7056
1978 95 187910 3912484 9025
17766 563 1111837 35070144 39007 Total

1- Nuage de point
Valeur des Y
100

90

80

70

60

50

40

30

20

10

0
0 2 4 6 8 10 12

2- Ecrire l’équation de la droite


Y=at+b
cov (t ; yt)
=a=
√V ( x ) . V ( y )
∑ t . yt
 cov ( t ; yt )=
N
−t . y

 Calcule G
t=∑t/N=17766/9=1974
yt=∑yt/N=563/9=62.55

G(1974 ; 62.55)

Cov(t ;yt)=1111827/9 – (1974*62.55)=63.74

V(t)=∑t²/N – (t)²=35070144/9 – (1974)²=6.66

a=63.74/6.66=9.57

b=yt-at=62.55-(9.57*1974)=-18828.5

y=9.57t-18828.5

Vous aimerez peut-être aussi