Une Introduction A La Methodologie de Box Et Jenki
Une Introduction A La Methodologie de Box Et Jenki
Une Introduction A La Methodologie de Box Et Jenki
RÉSUMÉ :
Cette note initie l'utilisateur débutant à la mise en œuvre des procédures du
module Séries chronologiques du logiciel SPSS pour Windows correspondant à la
méthodologie de Box et Jenkins pour la modélisation à partir de processus ARIMA.
Cette mise en œuvre concerne l'analyse et la prévision du prix des produits agricoles, en
particulier celui du blé tendre. Le listage de chaque procédure d’analyse statistique est
commenté par la présentation du formulaire et l’interprétation des résultats obtenus.
La classe des modèles ARIMA [Box et Jenkins, 1976] a été introduite pour
reconstituer le comportement de processus soumis à des chocs aléatoires 4 au cours du
temps : entre deux observations successives d’une série de mesures portant sur l’activité
du processus, un événement aléatoire appelé perturbation vient affecter le
L’identification
La première étape dans la méthodologie proposée par Box et Jenkins concerne la
décomposition retenue de la série chronologique selon les trois types de processus en
spécifiant les trois paramètres p, d et q du modèle ARIMA(p,d,q). On suppose à cet
instant que toute composante saisonnière a été éliminée de la série chronologique, les
modèles avec saisonnalité impliquant la spécification d’un autre ensemble de paramètres
qui seront abordés ultérieurement.
L’identification des processus autorégressifs et de moyennes mobiles susceptibles
d’expliquer le comportement de la série temporelle suppose de vérifier tout d’abord la
stationnarité de la série puisque les processus de base, qu’ils soient autorégressifs ou de
moyennes mobiles, sont essentiellement stationnaires en raison des contraintes pesant sur
leurs paramètres. Un processus est dit faiblement stationnaire si son espérance et sa
variance sont constantes et si sa covariance ne dépend que de l’intervalle de temps :
6Un bruit blanc est un processus stationnaire dont les accroissements sont indépendants et stationnaires.
Le modèle du « bruit blanc » constitue la référence pour les résidus d’un modèle correctement spécifié.
L’estimation
La procédure Arima du module SPSS Séries chronologiques permet selon un
algorithme rapide d’estimation du maximum de vraisemblance [Mélard, 1984] d’estimer
les coefficients du modèle que vous avez identifié au préalable en fournissant les
paramètres p, q et d. L’exécution de la procédure ajoute de nouvelles séries
chronologiques représentant les valeurs ajustées ou prédites par le modèle, les résidus
(erreurs d’ajustement) et les intervalles de confiance de l’ajustement à votre fichier de
données courant. Ces séries pourront être utilisées dans une nouvelle itération de type
identification-estimation-diagnostic.
Le diagnostic
Dans cette étape finale du triptyque identification-estimation-diagnostic de la
méthode de Box et Jenkins, les principales vérifications à effectuer portent sur les
éléments suivants :
• les valeurs des fonctions d’autocorrélation et d’autocorrélation partielle de la série des
résidus doivent être toutes nulles ; si les autocorrélations d’ordre 1 ou 2 diffèrent
significativement de 0, alors la spécification (p,d,q) du modèle ARIMA est
probablement inadaptée ; cependant, une ou deux autocorrélations d’ordre supérieur
peuvent par aléas dépasser les limites de l’intervalle de confiance à 95 % ;
• les résidus ne doivent présenter aucune configuration déterministe : leurs
caractéristiques doivent correspondre à celle d’un bruit blanc. Une statistique
couramment utilisée pour tester un bruit blanc est le Q’ de Box et Ljung, connue
également comme la statistique de Box et Pierce modifiée. La valeur du Q’ peut être
vérifiée sur une base comprise entre un quart et la moitié des observations et ne doit
pas être significative pour que l’hypothèse du bruit blanc puisse être conservée pour la
série des résidus. Cette vérification peut facilement être effectuée en utilisant la
procédure SPSS Autocorrelation qui donne la statistique de Box et Ljung ainsi que sa
significativité à chaque pas du décalage dans le corrélogramme de la fonction
d’autocorrélation.
Les données, extraites d’un rapport de stage effectué au SCEES sur la prévision
du prix des produits agricoles [Cadilhac et Martinot, 2000], concernent donc le rapport
des moyennes mensuelles des relevés hebdomadaires du prix de marché au niveau de
prix d’intervention fixé pour la campagne de commercialisation du blé tendre pour la
période allant de la campagne 1990/91 à la campagne 1998/99. Les relevés
hebdomadaires du prix de marché s’entendent « Départ Eure et Loire » (27).
Saisie des données
S’agissant d’une seule série mensuelle dont l’empan est limité, on peut utiliser les
fonctionnalités de gestion des données offertes par SPSS pour Windows afin de créer le
fichier des données qui sera exploité par la suite. Pour créer cette série temporelle, il
convient de se positionner après le lancement du logiciel dans la fenêtre de l’éditeur des
données et d’effectuer un double-clic sur l’entête de la première colonne (var).
Cette opération ouvre la boîte de dialogue Définir une variable comme suit :
Il suffit alors d’indiquer le nom choisi pour la série dans la boîte textuelle Nom de la
variable et de cliquer sur le bouton OK, pour que la première colonne de l’éditeur de
données s’affiche avec le nom de variable choisi et que la première cellule de cette
colonne s'affiche en surbrillance. On peut alors taper la première valeur numérique de la
série (99,13) et valider cette saisie avec la touche Entrée pour passer à la ligne suivante,
en répétant le procédé jusqu’à la dernière valeur de la série.
pour ouvrir la boîte de dialogue. Afin d’obtenir un graphique temporel, il suffit alors de
transférer la variable blet27 (blé tendre) avec le bouton associé à la liste de variables et de
sélectionner la variable year_ comme étiquette de l’axe des temps. On obtient ainsi un
graphique temporel donnant l’allure générale de la série :
130
120
110
100
Blé tendre
90
80
JA 19
JU 19
JA 19
JU 19
JU
JA 19
JU 19
JA 19
JU 19
JA 19
JU 19
JA 19
JU 19
JA 19
JU 19
JA 19
JU 19
JA 19
JU 19
N 97
N 98
N 90
N 91
N 92
N 93
N 94
N 95
N 96
L 98
L 99
L
L 91
L 92
L 93
L 94
L 95
L 96
L 97
19
99
Date
Blé tendre
1,0
,5
0,0
-,5
Limites de confiance
ACF
-1,0 Coefficient
1 3 5 7 9 11 13 15
2 4 6 8 10 12 14 16
Numéro de décalage
Les analyses ultérieures à ce filtrage des observations (l’option par défaut Filtrées n’a
pas été modifiée pour les observations non sélectionnées) porteront seulement sur
l’ensemble des observations sélectionnées, soit les 36 premières valeurs de la série. Les
valeurs filtrées (inactivées) possèdent un marquage spécifique ainsi que le montre
l’extrait ci-après du fichier des données.
,5
0,0
-,5
Limites de confiance
ACF
-1,0 Coefficient
1 3 5 7 9 11 13 15
2 4 6 8 10 12 14 16
Numéro de décalage
Après validation de ces choix, les observations actives vont du mois de juillet
1993 au mois d’août 1999. Les analyses porteront donc désormais sur les cinq dernières
campagnes de commercialisation ainsi qu’en témoigne ci-après le marquage des
observations effectué au niveau des numéros de séquence. Pour cette seconde analyse, on
peut envisager d’étendre le calcul des coefficients d’autocorrélation avec des ordres de
décalage plus élevés pour être en mesure de percevoir d’éventuels phénomènes
périodiques. Il suffit d’augmenter l’ordre du décalage (par exemple, sur 48 mois au lieu
,5
0,0
-,5
Limites de confiance
ACF
-1,0 Coefficient
1 7 13 19 25 31 37 43
4 10 16 22 28 34 40 46
Numéro de décalage
10
-10
Blé tendre
-20
1993 1994 1995 1995 1996 1997 1997 1998 1999
1994 1994 1995 1996 1996 1997 1998 1998 1999
Blé tendre
1,0
,5
0,0
-1,0 Coefficient
1 5 9 13 17 21 25 29 33
3 7 11 15 19 23 27 31 35
Numéro de décalage
Transforme: différence (1)
Blé tendre
1,0
,5
0,0
ACF partiel
-1,0 Coefficient
1 5 9 13 17 21 25 29 33
3 7 11 15 19 23 27 31 35
Numéro de décalage
Transforme: différence (1)
La Variable dépendante (à expliquer) est la variable Yt , soit blet27 (blé tendre) et l’ordre
de différenciation du filtre aux différences est d = 1 . Le seul paramètre à estimer de la
>Warning # 16445
>Since there is no seasonal component in the model, the seasonality
of the
>data will be ignored.
MODEL: MOD_7
Model Description:
Variable: BLET27
Regressors: NONE
Non-seasonal differencing: 1
No seasonal component in model.
Parameters:
CONSTANT ________ < value originating from estimation >
95,00 percent confidence intervals will be generated.
Split group number: 1 Series length: 74
No missing data.
Melard's algorithm will be used for estimation.
FINAL PARAMETERS:
Number of residuals 73
Standard error 3,0300279
Log likelihood -184,00826
AIC 370,01651
SBC 372,30697
Analysis of Variance:
DF Adj. Sum of Squares Residual Variance
Residuals 72 661,03699 9,1810694
Validation du modèle
Rappelons qu’un bruit blanc est un processus {ε t , t ∈ Z }strictement stationnaire
si et seulement si, sur n’importe quel sous-ensemble de temps {t1 , t 2 , K , t n }, les variables
{ }
aléatoires ε t1 , ε t2 , K, ε tn sont indépendantes et identiquement distribuées (iid). Donc,
tous les coefficients d’autocorrélations de ce processus doivent être nuls ρ k = 0, ∀k ≥ 1 .
Le corrélogramme empirique des réalisations d’un tel processus aléatoire apparaît donc
comme plat (coefficients empiriques d’autocorrélation proches de 0 rk ≈ 0 , aux
fluctuations d’échantillonnage près). Il existe une batterie très complète de tests
spécifiquement construits pour valider ou invalider l’hypothèse du bruit blanc
[Bourbonnais et Terraza, 1998]. D’autre part, un certain nombre de vérifications peuvent
être également réalisées graphiquement.
Si le modèle est correctement spécifié, l’ajustement réalisé selon ce modèle
(variable FIT_1) doit suivre les évolutions de la série empirique (blet27); une première
vérification graphique consiste à projeter sur un même diagramme les valeurs observées
et les valeurs prédites sur un intervalle de validation. Pour ce faire, il convient de réserver
avant estimation cet intervalle de validation qui dans le cas présent porte sur le court
terme du mois de mai 1999 au mois d’août 1999, soit 4 mois, en définissant l’intervalle
d’estimation du mois de juillet 1993 au mois d’avril 1999 comme suit :
100
Blé tendre
90
Fit for BLET27 from
Date
12
10
4
Sigma = 3,06
2 Moyenne = 0,0
0 N = 69,00
-10,0 -8,0 -6,0 -4,0 -2,0 0,0 2,0 4,0 6,0 8,0
-9,0 -7,0 -5,0 -3,0 -1,0 1,0 3,0 5,0 7,0
Auto- Stand.
Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 Box-Ljung Prob.
+----+----+----+----+----+----+----+----+
1 ,044 ,118 . I* . ,137 ,711
2 -,105 ,117 . **I . ,949 ,622
3 ,029 ,116 . I* . 1,013 ,798
4 -,066 ,115 . *I . 1,339 ,855
5 -,096 ,114 . **I . 2,038 ,844
6 ,099 ,113 . I** . 2,796 ,834
7 -,141 ,112 .***I . 4,376 ,736
8 -,035 ,112 . *I . 4,476 ,812
9 ,010 ,111 . * . 4,485 ,877
10 ,095 ,110 . I** . 5,235 ,875
11 ,100 ,109 . I** . 6,075 ,868
12 ,278 ,108 . I***.** 12,710 ,390
13 -,222 ,107 ****I . 17,034 ,198
14 -,061 ,106 . *I . 17,361 ,237
15 ,052 ,105 . I* . 17,604 ,284
16 -,075 ,104 . *I . 18,118 ,317
17 -,105 ,103 . **I . 19,165 ,319
18 ,063 ,102 . I* . 19,550 ,359
19 -,100 ,101 . **I . 20,526 ,364
20 ,109 ,100 . I** . 21,722 ,356
21 ,248 ,099 . I***.* 28,003 ,140
22 -,049 ,098 . *I . 28,254 ,167
23 -,182 ,097 ****I . 31,785 ,105
24 ,068 ,096 . I* . 32,284 ,120
25 ,004 ,095 . * . 32,286 ,150
26 ,052 ,094 . I* . 32,595 ,174
27 ,053 ,093 . I* . 32,926 ,200
28 -,059 ,091 . *I . 33,338 ,224
29 -,083 ,090 . **I . 34,176 ,233
30 ,035 ,089 . I* . 34,331 ,268
31 -,098 ,088 . **I . 35,581 ,261
32 -,003 ,087 . * . 35,583 ,303
33 ,051 ,086 . I* . 35,935 ,333
34 -,290 ,085 ***.**I . 47,747 ,059
35 -,063 ,083 . *I . 48,312 ,066
36 ,121 ,082 . I**. 50,495 ,055
Box G.E.P. et Jenkins G.M. 1976. Time Series Analysis : Forecasting and Control, Holden-Day,
San Francisco.
Box G.E.P. et Pierce D.A. 1970. « Distribution of Residual Autocorrelations in Autoregressive
Moving Average Time Series Models », Journal of the American Statistical
Association, vol. 65 .
Bourbonnais R. et Terraza M. 1998. Analyse des séries temporelles en économie, PUF, Paris, 274
p.
Cadilhac F. et Martinot A. 2000 « Projet de fin d’études : prévision de prix de produits
agricoles », DAF / SCEES/ Ministère de l’Agriculture et de la Pêche, 129 p.
David M. et Michaud J.C. (1989) La prévision, approche empirique d'une méthode statistique,
Masson.
Lejeune M. 1997, Statistique, cours B7 : séries chronologiques, Collection des cours du CNAM,
63 p.
Ljung G.M. et Box G.E.P. 1978. « On a Measure of the Lack of Fit in Time Series Models »,
Biometrika, vol. 65, pp. 297-303.
Mélard G. 1984. « A Fast Algorithm for the Exact Likelihood of Autoregressive-Moving
Average Models », Applied Statistics, vol. 33 n°1, pp. 104-119.
Nelson C.R. et Plosser C. 1982. « Trends and Random Walks in Macroeconomics Time Series :
Some Evidence and Applications », Journal of Monetary Economics, vol. 10.
SPSS Inc. 1994. SPSS Trends 6.1, SPSS Inc., Chicago, 356 p.
Walter C. et Scheps R. 1998. « Marchés financiers, hasard et prévisibilité », Les sciences de la
prévision , Seuil, Paris, pp. 125-146.