EconometrieL3 2016
EconometrieL3 2016
EconometrieL3 2016
Support de Cours
Licence 3 Economie-Gestion
Année 2016-2017
∗
Benjamin Montmartin .
4 septembre 2016
∗
GREDEG, CNRS UMR 7321 - Université Nice Sophia-Antipolis, e-mail : [email protected]
1
Table des matières
1 Introduction 3
1.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Les diérents types de données . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 La méthode économétrique . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Le modèle linéaire simple 6
2.1 Le modèle linéaire simple et ses hypothèses . . . . . . . . . . . . . . . . . 6
2.2 L'estimateur des MCO et ses propriétés . . . . . . . . . . . . . . . . . . . 7
2.2.1 Les estimateurs des coecients de régression (a et b) . . . . . . . 7
2.2.2 Variance des estimateurs . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.3 L'estimateur du coecient σ 2 . . . . . . . . . . . . . . . . . . . . 11
2.3 Analyse de la variance et coecient de détermination . . . . . . . . . . . 12
2.3.1 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 Coecient de détermination . . . . . . . . . . . . . . . . . . . . . 12
2.4 Les tests statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.1 La statistique de Student . . . . . . . . . . . . . . . . . . . . . . 13
2.4.2 Test sur la valeur d'un coecient . . . . . . . . . . . . . . . . . . 14
2.4.3 Test de signicativité d'un paramètre . . . . . . . . . . . . . . . . 15
2.4.4 Intervalle de conance pour la partie aléatoire . . . . . . . . . . . 16
2.4.5 Signicativité globale d'un modèle et test de Fisher . . . . . . . . 16
2.5 La prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3 Le modèle linéaire multiple 19
3.1 Le modèle et ses hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.1 Ecriture du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.2 Les hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 Les estimateurs et leurs propriétés . . . . . . . . . . . . . . . . . . . . . . 21
3.2.1 Estimation des coecients de la régression et propriétés des estima-
teurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.2 Estimation du coecient de la partie aléatoire . . . . . . . . . . . 23
3.3 Analyse de la variance et coecient de détermination . . . . . . . . . . . 23
3.3.1 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.2 Le coecient de détermination . . . . . . . . . . . . . . . . . . . 24
3.4 Les tests statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4.1 Les tests individuels . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4.2 Généralisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4.3 Contraintes linéaires sur les coecients . . . . . . . . . . . . . . . 26
3.5 La prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2
4 Les moindres carrés généralisés 29
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Le Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.3 Estimation du modèle pour V connue . . . . . . . . . . . . . . . . . . . . 31
4.3.1 Estimation des coecients de la régression et propriétés des estima-
teurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3.2 Estimation du coecient de la partie aléatoire . . . . . . . . . . . 32
4.4 Estimation du modèle lorsque V est inconnue . . . . . . . . . . . . . . . . 33
4.5 Une illustration : un modèle avec hétéroscédasticité des erreurs . . . . . . 33
4.5.1 Spécication du modèle et estimation . . . . . . . . . . . . . . . . 33
4.5.2 Les Tests d'hétéroscédasticité . . . . . . . . . . . . . . . . . . . . 34
5 Introduction à l'économétrie des séries temporelles 37
5.1 Les Processus Aléatoires Stationnaires et les Processus ARMA . . . . . . . 37
5.1.1 Séries Temporelles . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.1.2 Indices descriptifs d'une série temporelle . . . . . . . . . . . . . . 38
5.1.3 Méthode économétrique et gestion de la tendance et des saisonalités 39
5.1.4 Les principaux modèles stationaires . . . . . . . . . . . . . . . . . 43
5.2 Les tests de stationarité ou Unit root Tests . . . . . . . . . . . . . . . . . 45
6 Annexe-Rappels 49
3
1 Introduction
1.1 Présentation
Y = AK α Lβ
Cette forme de fonction de production d'une rme est la plus couramment utilisée
dans les modèles théoriques. On peut vouloir tester la pertinence de cette fonction pour
appréhender le niveau de production des rmes industrielles par exemple. Dans ce cas précis,
l'économétrie va nous permettre :
1) d'estimer le pouvoir explicatif de ce modèle théorique, i.e, est-ce que cette fonction
explique correctement le niveau de production des rmes industrielles ?
2) d'estimer les coecients α et β , c'est à dire la valeur des élasticités de la production
par rapport à chacun des facteurs de production.
3) de pouvoir tester la validité des hypothèses des modèles théoriques concernant les
rendements d'échelle en réalisant des tests statistiques : les rendements d'échelle sont-ils
croissants (α + β > 1), constants (α + β = 1) ou décroissants (α + β < 1).
4
1.2 Les diérents types de données
L'estimation de modèles économétriques nécessite des données observables. Classique-
ment, on distingue trois catégories de données :
1) Données transversales ou en coupe instantanée
Dans ce cas, la base de données va contenir des informations sur N agents (ménage,
pays, entreprise,...) à une date donnée. Dans le case de l'exemple 1, cela correspondra à
une base de données du type :
Y1 K1 L 1
Y2 K2 L 2
. . .
. . .
. . .
YN KN L N
5
Y1,1 K1,1 L1,1
Y1,2 K1,2 L1,2
. . .
. . .
. . .
Y1,T K1,T L1,T
Y2,1 K2,1 L2,1
. . .
. . .
. . .
YN,T KN,T LN,T
Modèle
économétrique
Estimation
Tests
Prévisions
6
Dans un premier temps, on va utiliser la théorie économique, la modélisation mathé-
matique et l'outil statistique an de spécier un modèle économétrique adéquat. Après
cette étape, on va chercher à estimer les paramètres du modèle et, pour ce faire, choisir
les méthodes de calculs les plus appropriées an d'obtenir des estimateurs statistiquement
ecaces. Un estimateur de b noté b̂ est dit ecace si E(b̂) = b et si V (b̂) est
la variance minimale parmi tous les estimateurs sans biais.. Après avoir estimé le
modèle, on passe aux tests du modèle en utilisant plusieurs outils statistiques an de vérier
la conformité des résultats empiriques obtenus avec le sous bassement théorique envisagé.
Finalement la dernière étape (qui n'est pas toujours pertiente et/ou justiée) consiste à
exploiter le modèle à des ns de prévision et à élaborer un schéma de politique économique
dans le domaine étudié.
7
H4) V (i ) = E(2i ) = σ 2 , ∀i 6= s ⇒ la variance est la même pour tout les i , on dit que
les perturbations sont homoscédastiques.
Cov(i , s ) = E(i , s ) = 0 ⇒ la perturbation i n'est pas inuencée par la perturbation
s . Dans le cas d'une série temporelle, cela signie que la perturbation à une période n'est
pas inuencée par la perturbation à une autre période, i.e., un choc qui s'est produit à une
période n'a pas d'inuence sur ce qui se passe dans les périodes suivantes.
H5) i ∼ N (0, σ 2 ) ⇒ les erreurs sont indépendentes et identiquement distribuées selon la
loi normale. Cette hypothèse de normalité est nécessaire pour réaliser des tests statistiques
sur la base des distributions normale, de Student et de Fisher.
H6) Cov(xi , i ) = 0 ⇒ Cette hypoyhèse rend compte de l'indépendance entre la partie
systématique et la partie aléatoire du modèle
On considère le modèle donné par l'équation (1). Pour estimer les paramètres a et b du
modèle, on dispose d'un échantillon de données de la forme :
y 1 x1
y 2 x2
. .
. .
. .
y N xN
Notons que chaque observation d'un individu peut-être représentée par un couple (yi , xi ).
Représenté dans un plan (x, y), on obtient un nuage de points.
8
yi
∧ ∧ ∧
y i = a+ b xi
∧
a ∧
b
xi
Le problème est le suivant : comment choisir les valeurs de a et b tel qu'une droite de
la forme y = a + bxi passe le plus près possible de tous les points du nuage ? Les valeurs
estimées de aPet b notées â et b̂ seront donc les valeurs qui minimisent la somme des carrés
des résidus ( 2i ). Pour déterminer â et b̂, nous devons chercher les solutions de la fonction
objectif suivante :
(2)
X X
min (2i ) = min (yi − a − bxi )2 = min S
a,b a,b a,b
⇔ â = y − b̂x (3)
9
∂S X
= −2 xi (yi − â − b̂xi ) = 0
∂b
En insérant (3) dans cette expression, on obtient :
X X
⇔ xi (yi − y) = b̂ xi (xi − x)
P P
xi (yi − y) − x(yi − y)
⇔ b̂ = P P
xi (xi − x) − x(xi − x)
P
(yi − y)(xi − x)
⇔ b̂ = P (4)
(xi − x)2
• Variance de b̂
An de déterminer la variance de b̂, il est utile de réécrire (4). Pour cela, notons que :
X X X X
(yi − y)(xi − x) = xi y i − y xi − x yi + N xy
X
= xi yi − N xy
X
= (xi − x)yi
Notons que
X X
(xi − x)yi = (xi − x)(a + bxi + i )
X X X
= (xi − x)a + b (xi − x)xi + (xi − x)i
X X
=b (xi − x)2 + (xi − x)i
10
Car (xi − x) = 0 et que (xi − x)xi = (xi − x)2
P P P
• Variance de â
P ! P
yi yi
V (â) = V (y − b̂x) = V − b̂x =V + V b̂x
N N
Comme V (yi ) = V (i ) et que V (x) = 0, on a :
σ2 x2 σ 2
V (â) = +P (7)
N (xi − x)2
11
2.2.3 L'estimateur du coecient σ2
Nous avons estimé deux paramètres du modèle linéaire simple. Néanmoins, pour pouvoir
calculer la variance des estimateurs, nous devons connaître σ 2 , i.e., la variance des résidus.
Nous ne connaissons pas cette valeur, il nous faut donc l'estimer. La variance des résidus
estimés est donnée par :
X X X X
V( ˆi ) = E( ˆ2 ) − E( ˆ)2 = E(ˆ2 )
On sait que
ˆi = yi − ŷi = a + bxi + i − â − b̂xi
= a + bxi + i − y + b̂x − b̂xi
= a + bxi + i − a − bx − + b̂x − b̂xi
= i − − (xi − x)(b̂ − b)
donc on a
ˆ2i = (i − )2 + (xi − x)2 (b̂ − b)2 − 2(xi − x)(b̂ − b)(i − )
et X X X X
ˆ2i = (i − )2 + (b̂ − b)2 (xi − x)2 − 2(b̂ − b) (xi − x)(i − )
En utilisant le fait que 2 = N 2 = N −1 2i , i = N −1 2i et que (i − ) =
P P P P
X X X X X X
ˆ2i = 2i +N −1 2i −2N −1 2i +(b̂−b)2 (xi −x)2 −2(b̂−b) (xi −x)[ˆi +(b̂−b)(xi −x)]
X X X
2(b̂ − b) (xi − x)[ˆi + (b̂ − b)(xi − x)] = 2(b̂ − b) (xi − x)ˆi + 2(b̂ − b)2 (xi − x)2
donc
X X X X X X
ˆ2i = 2i + N −1 2i − 2N −1 2i − (b̂ − b)2 (xi − x)2 − 2(b̂ − b) (xi − x)ˆi
X X
E( ˆ2i ) = N σ 2 + σ 2 − 2σ 2 − (xi − x)2 E((b̂ − b)2 )
12
X
E( ˆ2i ) = N σ 2 + σ 2 − 2σ 2 − σ 2 = (N − 2)σ 2
donc on a :
E [ ˆ2i ] = (N − 2)σ 2
P
13
2.4 Les tests statistiques
Dans le modèle de régression, on postule l'existence d'une corrélation entre les variables
x et y , i.e., on considère qu'il existe une relation causale entre ces deux variables. Il est de
ce fait légitime à travers l'échantillon considéré de conrmer ou d'inrmer empiriquement
l'inuence de la variable x sur la variable y . Pour cela, nous allons faire appel à l'hypothèse
i ∼ N (0, σ 2 ). Cette hypothèse implique que :
En utilisant les résultats (13) et (14), les statistiques suivantes vont suivre une loi normale
centrée réduite :
â − a b̂ − b
p ∼ N (0, 1) q ∼ N (0, 1)
V (â) V (b̂)
14
Cependant, on ne peut pas directement calculer cet intervalle de conance. En eet, on ne
peut pas déterminer V (b̂) car on ne connaît pas la valeur de σ 2 , c.f. (6). Pour résoudre ce
problème, on fait appel à la statistique suivante :
σ̂ 2
(N − 2) ∼ χ2N −2
σ2
On sait que si on a deux variables aléatoires telles que : X ∼ N (0, 1) et Y ∼ χ2N alors
T = √X ∼ tN . En appliquant, ce résultat à notre statistique, on a :
Y /N
√b̂−b
V (b̂)
q ∼ tN −2
2
(N − 2) σ̂σ2 /(N − 2)
Les coecients testés prennent des valeurs réelles particulières selon la théorie écono-
mique. Dans ce cas on teste la validité de ces hypothèses par le test suivant :
H0 : Bi = m
H1 : Bi 6= m
15
où Bi ∈ {a, b} est un paramètre du modèle et m, la valeur du paramètre que l'on souhaite
tester. Voici les diérentes étapes du test :
1) On xe un risque d'erreur de première espèce α (en pratique on choisit α = 5%)
2) On calcule la statistique de Student donnée par l'expression (15) notée t∗c
3) On compare la valeur obtenue avec la valeur lue dans la table de la loi de Student notée
ttab . Cette valeur correspond à la valeur de la loi de Student à (N − 2) degré de liberté
avec un risque d'erreur de α%.
4) Décision du test statistique :
• Si | t∗c |> ttab , on rejette l'hypothèse H0
• Si | t∗c |< ttab , on accepte H0.
H1 : Bi 6= 0
16
2.4.4 Intervalle de conance pour la partie aléatoire
!
(N − (k + 1))σ̂ 2 2 (N − (k + 1))σ̂ 2
P ≤ σ ≤ =1−α
χ21− α χ2α
2 2
donc l'intervalle de conance de σ 2 avec un risque de première espèce α est donné par :
" #
2 2
(N − (k + 1))σ̂ (T − (k + 1))σ̂
IC(σ 2 ) = ;
χ21− α χ2α
2 2
Pour rendre compte de la signicativité globale d'un modèle, il faut dans un premier
temps présenter le tableau d'analyse de la variance :
Source de variation des
P carrés 2 degré de liberté carrés moyens
P
Régression SCE=P (ŷi − y) 1 SCE/1
Résidu SCR= P(yi − ŷi )2 N-2 SCR/N − 2
Totale SCT= (yi − y)2 N-1
Pour tester la signicativité globale du modèle, on utilise le test de Fisher. L'objectif de ce
test est de déterminer si le modèle explique ou non le phénomène étudié. Plus précisément,
on teste l'hypothèse que l'ensemble des coecients soient nuls à l'exception de la constante,
c'est à dire :
H0 : b = 0
H1 : b 6= 0
17
Etant donné que SCE ∼ χ21 et SCR ∼ χ2N −2 , on utilise la statistique suivante :
SCE
R2
F = 1
SCR
= (N − 2) ∼ F (1, N − 2) (17)
N −2
1 − R2
2.5 La prévision
Un des objectifs de l'économétrie est de servir à des ns de prévision. Par exemple, si
on réalise une modélisation économétrique des ventes d'une entreprise au cours du temps
et que l'ajustement linéaire est bon (R2 élevé), on peut souhaiter utiliser cet outil pour
prévoir les ventes futures de l'entreprise. Cela pourrait lui permettre de gérer de façon plus
optimale son outil de production, ses besoins en main-d'oeuvre et ses stocks.
Bien évidemment, pour discuter la qualité de sa prévision, l'économètre doit être capable
d'évaluer l'erreur de prévision. Cette erreur de prévision est notée ∗i = Yi∗ − Ŷi . La valeur
prévue de Y notée Yi∗ suit une loi normale d'espérance a + bx∗i où x∗i est la valeur future
de la variable explicative, i.e, Yi∗ ∼ N (a + bx∗i , σ 2 ).
L'espérance de l'erreur de prévision est :
E(∗i ) = E(a + bx∗i + i − â − b̂x∗i ) = E(i ) = 0
Remarquons que la valeur de Yi∗ dépend de l'erreur de prévision alors que la valeur de
Ŷi dépend des erreurs observées pour les autres individus/périodes. Par conséquent on a
Yi∗ ⊥Ŷi . On a donc V (∗i ) = V (Yi∗ ) + V (Ŷi ). Par hypothèse des MCO, on a V (Yi∗ ) = σ 2
et on peut écrire :
V (∗i ) = σ 2 + V (â + b̂x∗i ) = σ 2 + V (â) + (x∗i )2 V (b̂) + 2x∗i Cov(â, b̂)
18
En utilisant le fait que Cov(â, b̂) = cov(y − b̂x, b̂), Cov(c + X, Y ) = Cov(X, Y ) et que
Cov(aX, Y ) = aCov(X, Y ), on peut écrire que :
σ2
Cov(â, b̂) = −xCov(b̂, b̂) = −xV (b̂) = −x P
(xi − x)2
En réintroduisant cette dernière expression dans V (∗i ), on obtient :
(x∗ − x)2
1
V (∗i ) =σ 2
1+ + i
N N V (X)
De là on déduit que :
(x∗i − x)2
1
∗i = Yi∗ 2
− Ŷi ∼ N 0, σ 1 + +
N N V (X)
donc
Y ∗ − Ŷi
Z=q i ∼ N (0, 1)
V (Yi∗ − Ŷi )
Comme dans le modèle linéaire simple, on a :
σ̂ 2
(N − 2) ∼ χ2N −2
σ2
on sait que
Yi∗ − Ŷi
U=r h i ∼ tN −2
2 1 (x∗i −x)2
σ 1+ N
+ N V (X)
Dès lors, on détermine l'intervalle de conance pour notre prévision Yi∗ de la façon
suivante :
Yi∗ − Ŷi
P −tα/2 ≤
r h i ≤ tα/2
=1−α
2 1 (x∗i −x)2
σ 1 + N + N V (X)
⇔
s s !
∗ ∗
2
2
1 (x − x) 1 (x − x)
P Ŷi − tα/2 σ2 1 + + i ≤ Yi∗ ≤ Ŷi + tα/2 σ 2 1 + + i = 1−α
N N V (X) N N V (X)
On en déduit l'intervalle de conance de notre prévision :
" s s #
(x∗i (x∗i
1 − x)2 1 − x)2
IC(Yi∗ ) = Ŷi − tα/2 σ2 1 + + ; Ŷi + tα/2 σ2 1 + +
N N V (X) N N V (X)
19
3 Le modèle linéaire multiple
• Introduction
On envisage un modèle plus général que dans le chapitre précédent. La forme fonction-
nelle adoptée reste linéaire, seulement plusieurs variables peuvent intervenir pour décrire le
comportement de la variable expliquée. Le modèle linéaire multiple est une extension du
modèle linéaire simple à un nombre k > 1 de variables explicatives. Considérons à nouveau
l'exemple 1, à savoir une fonction de production Cobb-Douglas :
Y = AK α Lβ
Notons que l'avantage de log-linéariser une fonction est que les paramètres de la régression
deviennent des élasticités. En conséquence, en supposant que α = 0.5, cela implique qu'une
augmentation de 1% de la quantité de capital augmente la production de 0,5%. Dans ce
modèle, il y a, en plus de la constante, deux variables explicatives. La méthode du chapitre
1 ne nous permet pas d'estimer un tel modèle. Nous allons maintenant décrire la méthode
permettant d'estimer un modèle avec k > 1 variables explicatives (hors constante).
20
y1 1 x11 x21 . . xk1 b0 1
y2 1 x12 x22 . . xk2 b1 2
. . . .
= +
. . . .
. . . .
yN 1 x1N x2N . . xkN bk N
On va donc avoir à estimer k + 1 paramètres relatifs à la partie systématique du modèle et
un paramètre relatif à la partie aléatoire (σ 2 ).
H1) E() = 0
H2) V () = E[( − E())( − E()) ] = E( ) = σ 2 IN
0 0
Par conséquent, comme pour le modèle linéaire simple, on suppose E(2i ) = σ 2 et E(i s ) =
Cov(i s ) = 0
H3) ∼ N (0, σ 2 IN )
H4) La matrice des variables explicatives X est une matrice certaine (exogène)
H5) Rg(X) = k + 1 < N ⇒ les k colonnes qui composent la matrice X sont des vecteurs
linéairement indépendants. En eet, si Rg(X) < k+1, cela signie qu'il existe au moins une
variable explicative dont le vecteur colonne peut s'écrire comme une combinaison linéaire
des autres vecteurs. Cette condition assure l'absence d'un problème de multicolinéarité
stricte (corrélation parfaite entre au moins deux variables).
H6) Cov(X, ) = 0 ⇒ la covariance entre la partie systématique et celle aléatoire est nulle.
21
3.2 Les estimateurs et leurs propriétés
Etant donné que la structure fondamentale du modèle n'a pas été modiée, la méthode
des MCO reste la méthode de calcul la plus appropriée permettant d'obtenir un vecteur B̂
ecient. Comme pour le modèle linéaire simple, la fonction objectif est :
X X
min ˆ2i = min (yi − b0 − b1 x1i − ... − bk xki )2
b0 ,...,bk b0 ,...,bk
Pour trouver les valeurs estimées des paramètres, il faut satisfaire les conditions du premier
ordre : P 2
∂( ˆi )
= 0, j = 0, ..., k
∂bj
C'est à dire que nous devons résoudre un système de P = k + 1 équations à P inconnues.
Une manière plus rapide pour calculer les estimateurs est d'écrire le modèle sous forme
matricielle (sous forme d'un système d'équations). La fonction objectif devient :
0
X
min 2i = min 0 = min(Y − XB) (Y − XB)
B B B
0 0 0
= min(Y − B X )(Y − XB)
B
0 0 0 0 0 0
= min(Y Y − Y XB − B X Y + B X XB)
B
0 0 0 0 0
= min(Y Y − 2B X Y + B X XB)
B
= min S(B)
B
22
Note : Dénition d'un estimateur non biaisé et ecace
On dit qu'un estimateur de m noté m̂ est dit sans biais ssi E(m̂) = m.
Suposons que nous ayons N estimateurs non biaisés de m notés : m̂1 , m̂2 , ...m̂n , N =
1, ..., n. On appelle estimateur ecace / estimateur BLUE l'estimateur non biaisé dont
la variance est minimale. Supposons trois estimateurs non biaisés de m notés m̂1 , m̂2 , m̂3
et que V (m̂1 ) < V (m̂2 ) < V (m̂3 ). L'estimateur le plus ecace de m est m̂1 .
Montrons que l'estimateur des MCO est sans biais :
0 0
E(B̂) = E[(X X)−1 X Y ]
0 0
= E[(X X)−1 X (XB + )]
0 0 0 0
= E[(X X)−1 X XB + (X X)−1 X )]
0 0
= E[B + (X X)−1 X )]
0 0
= E(B) + (X X)−1 X E()
=B
0
V (B̂) = E[(B̂ − B)(B̂ − B) ]
0 0 0 0 0
= E[(X X)−1 X ((X X)−1 X ) ]
0 0 0 0
= E[(X X)−1 X X(X X)−1 ]
0 0 0 0
= (X X)−1 X E( )X(X X)−1
0 0 0
= (X X)−1 X σ 2 IN X(X X)−1
0
= σ 2 (X X)−1
de Gauss-Markov, sous les hypothèses H1 à H6, il n'existe pas d'estimateur linéaire sans
biais des coecients B ayant une variance plus petite que celle des estimateurs des moindres
carrés. On dit que l'estimateur des MCO est BLUE (Best Linear Unbiaised Estimator), ou
ecace. C'est l'estimateur le plus précis de l'ensemble des estimateurs linéaires sans biais
de B .
23
3.2.2 Estimation du coecient de la partie aléatoire
Comme pour le modèle linéaire simple, pour calculer la variance des coecients estimés
B̂ , nous devons connaître σ 2 . Or, on ne connaît pas σ 2 et il faut donc l'estimer. Comme
pour le modèle linéaire multiple, on a :
0 0 0
V (ˆ) = E(ˆ ˆ) = E[T r(ˆˆ )] = T r(E[ˆˆ ]) = T r(V ar(ˆ)) = T r(σ 2 PX ⊥)
0 0
ˆ ˆ = (Y − X B̂) (Y − X B̂)
0 0 0 0 0
= Y Y − 2B̂ X Y + B̂ X X B̂
0 0 0 0 0
= Y Y − 2B̂ X Y + B̂ X Y
0 0 0
= Y Y − B̂ X Y
L'analyse de la variance est une procédure statistique qui consiste à reproduire le modèle
linéaire multiple en termes de variation. Cela permet d'apprécier la qualité de l'ajustement
linéaire en calculant le coecient de détermination noté R2 et de donner une idée sur la
signicativité globale du modèle. On note par convention :
Variation totale (SCT) = Variation liée à la régression (SCE) + Variation résiduelle (SCR)
24
Ce qui correspond à :
(22)
X X X
(yi − y)2 = (ŷi − y)2 + (yi − ŷi )2
Pour rendre compte de la signicativité globale d'un modèle, il faut présenter le tableau
d'analyse de la variance :
Source de variation des carrés degré de liberté carrés moyens
P
Régression SCE=Ŷ Ŷ − N Y k
0 2
SCE/k
Résidu SCR=Y Y − B X Y N-(k+1)
0 0 0
SCR/N − (k + 1)
Totale SCT=Y Y − N Y N-1
0 2
0 0 0
SCE SCR Y Y −B X Y
R2 = =1− =1− 2
SCT SCT Y 0Y − NY
Si le R2 est une statistique simple et intuitive qui apporte une information importante
sur la qualité du modèle, il convient de préciser ses limites. La première est que le R2 est
fortement sensible aux transformations du vecteur Y (il va varier si on passe en logarithme,
en taux de croissance,...). La seconde est que le R2 augmente toujours quand on intro-
duit une variable de plus, même si cette dernière a un très faible pouvoir explicatif. Par
conséquent, le R2 ne sera pas approprié pour comparer des modèles entre eux. Or, il arrive
parfois que l'on désire comparer plusieurs équations de régression multiple comportant la
même variable expliquée mais dont les équations dièrent soit par le nombre d'observations
soit par le nombre de variables explicatives. Le coecient ajusté noté R permet de tenir
2
compte du nombre de degrés de liberté associé à la SCR qui diminue au fur et à mesure
qu'une nouvelle variable explicative est introduite dans le modèle. Ce coecient est donné
par :
2 SCR N −1
R =1− ×
N − (k + 1) SCT
ou
N −1
(23)
2
R = 1 − (1 − R2 )
N − (k + 1)
Si on compare deux modèles, on prendra celui qui a le R le plus élevé. Néanmoins cette
2
statistique peut-être insusante pour guider le modélisateur dans son choix des variables
25
explicatives (doit-on préféré un modèle avec 12 variables explicatives au lieu de 4 si le R
2
Comme pour le modèle linéaire simple, les tests individuels sont élaborés à partir d'une
statistique distribuée selon la loi de Student. On peut par exemple, tester la valeur d'un des
paramètres estimés :
H0 : bj = m
H1 : bj 6= m
En utilisant la statistique :
b̂j − m
tc = q ∼ tN −(k+1)
V̂ (b̂j )
ˆ b̂0 , b̂1 )
V̂ (b̂0 ) Cov( . . ˆ b̂0 , b̂k )
Cov(
. V̂ (b̂1 ) . . .
0
V̂ (B̂) = σ̂ 2 (X X)−1 = . . . . .
. . . V̂ (b̂j ) .
. . . . V̂ (b̂k )
26
Finalement, les tests d'égalité simple ainsi que la construction des intervalles de conance
pour les coecients bj et pour σ sont traités de la même manière que pour le modèle linéaire
simple. La seule diérence concerne le degré de liberté (on passe de N − 2 à N − (k + 1)).
3.4.2 Généralisation
La généralisation du modèle nous permet d'envisager d'autres tests. On pourrait postuler
certaines relations linéaires qui existent entre deux ou plusieurs paramètres du modèle. Par
exemple, on pourrait souhaiter tester :
H0 : ρb0 + βb1 = c
H1 : ρb0 + βb1 6= c
Notons que l'on peut réécrire ces contraintes sous forme matricielle :
27
b0
1 −1 0 0
= 0
b 1
0 0 1 −1 b2 0
b3
avec B̂N C l'estimateur des MCO sans contrainte (estimation classique) et B̂C l'estima-
teur des MCO sous contrainte. Notons que B̂N C reste un estimateur sans biais, que les
contraintes CB = c correspondent au non à la réalité, dès lors que les hypothèses H1 à H6
sont respectées. L'estimateur B̂C permet d'améliorer la précision de l'estimation lorsque les
contraintes sont justiées. En revanche, si les contraintes ne correspondent pas à la réalité,
B̂C est biaisé. Nous devons par conséquent tester la validité des contraintes.
2) Test de validité des contraintes
Dans ce cas, on va chercher à savoir quel est le modèle le plus approprié :
H0 : Y = XB +
s.c CB = c
H1 : Y = XB +
2 2
RN C − RC N − (k + 1)
= 2
× ∼ F(r,N −(k+1))
1 − RN C r
28
La décision se prend alors de la façon suivante :
- si | Fc |> Ftab alors on rejette H0, on prend le modèle non contraint
- si | Fc |< Ftab alors on accepte H0, on prend le modèle contraint
H1 : ∃bi 6= 0, ∀i = 1, ..., k
Notons que les contraintes posées par H0 peuvent se réécrire sous forme matricielle comme :
1 0 0 . . b1 0
0 1 0 . . b2 0
. = .
. . . . .
. . . . . . .
0 0 . 0 1 bk 0
c'est à dire
Ck×k Bk×1 = ck×1
En appliquant la statistique utilisée pour le cas général, on a :
2 2
RN C − RC N − (k + 1)
Fc = 2
×
(1 − RN C ) r
Mais cette expression peut se simplier puisque RC2 = 0 car le modèle contraint implique
un modèle qui n'a aucun pouvoir explicatif. On peut donc utiliser la statistique simpliée
suivante : 2
RN C N − (k + 1)
Fc = 2
× ∼ F (k, N − (k + 1))
(1 − RN C ) k
La décision se prend alors de la façon suivante :
• si | Fc |> Ftab alors on rejette H0, le modèle est globalement signicatif
• si | Fc |< Ftab alors on accepte H0, le modèle est globalement non signicatif
29
3.5 La prévision
De manière analogue au modèle linéaire simple, on peut calculer un intervalle de
conance d'une prévision réalisée avec un modèle linéaire multiple. A partir des valeurs
prévues des variables explicatives notées = (x1∗ , x2∗ , ..., xk∗ ) et de la prévision donnée
0
W
par Ŷi = b̂0 + b̂k xk∗ , on dénit l'intervalle de conance de la prévision donné par :
P
h p p i
Ic(Yi∗ ) = Ŷi − tα/2 σ 2 (1 + W 0 (X 0 X)−1 W ); Ŷi + tα/2 σ 2 (1 + W 0 (X 0 X)−1 W )
4.1 Introduction
La méthodologie développée dans les deux premiers chapitres présente l'estimation et le
traitement statistique d'un modèle linéaire en se basant sur un ensemble d'hypothèses. C'est
à partir de cet ensemble d'hypothèses que nous sommes parvenus à proposer la principale
méthode de calcul, les MCO qui fournissent des estimateurs BLUE. Parfois certaines de
ces hypothèses paraissent restrictives et le modélisateur se trouve obligé d'apporter des
modications pour alléger ces hypothèses er les rendrent plus réalistes.
Dans ce chapitre, on cherche à savoir ce qu'il se passe lorsque l'hypothèse V () = σ 2 IN
n'est pas vériée. Souvent sur des données en coupe transversale (données individuelles),
on a besoin de tenir compte d'une hétérogénéité du comportement. Si on tient à faire
apparaître cet eet au niveau de la partie aléatoire du modèle, les erreurs ne peuvent plus
être homoscédastiques mais seront plutôt hétéroscédastiques. Cela signie que la variance
résiduelle dépend de l'observation considérée. Par conséquent, dans la suite du chapitre,
nous remplaçons l'hypothèse H2 par :
V (i ) = σi2 , ∀i = 1, ..., N (25)
D'autres problèmes peuvent apparaître comme l'autocorrélation ou la non dépendance
des erreurs. Cela caractérise beaucoup plus les modèles qui traitent de séries temporelles.
En présence d'autocorrélation, l'hypothèse d'indépendance des erreurs (H2) est modiée de
la façon suivante :
30
Usuellement, on associe le problème d'hétéroscédasticité au modèle en coupe instanta-
née quoi que ces deux phénomènes existent dans les deux types de données.
4.2 Le Modèle
On considère le modèle linéaire multiple suivant :
Y = XB +
Nous modions l'hypothèse H2 faite dans le chapitre précédent par H2∗ :
V (i ) = σi2
E(i , s ) = σis
Ce changement d'hypothèse rend la méthode des MCO non appropriée. En eet, la matrice
de var/cov des erreurs ne s'écrit plus σ 2 IN . Avec l'hypothèse H2∗ , on a :
21 1 2
2
. . 1 N σ1 σ12 . . σ1N
2 1 22 . . . σ21 σ22 . . .
= . = Ω 6= σ IN
0
2
.
E( ) = E . . . . . . . .
. . . . . . . . . .
N 1 . . . 2N σN 1 . . . σN2
Remarque : Le fait de supposer que Ω est connue constitue une hypothèse restrictive
et souvent non réaliste dans diérentes applications. D'un autre côté, supposer que Ω est
totalement inconnue entraîne un problème d'identication qui n'admet pas de solution. Pour
contourner ce problème, on va supposer que Ω peut-être exprimée à un terme multiplicatif
près (σ 2 ) en fonction d'une matrice symétrique et dénie positive V de forme connue ou
qui dépend d'un nombre réduit de paramètres inconnus. Plus précisément, on écrit que :
(27)
0
E( ) = Ω = σ 2 V
L'application des MCO sur cette nouvelle structure induit des erreurs car la matrice des
var/cov de B̂ n'est plus égale à σ 2 (X X)−1 . En eet :
0
0
V (B̂M CO ) = E[(B̂M CO − B)(B̂M CO − B) ]
0 0 0 0 0
= E[(X X)−1 X ((X X)−1 X ) ]
0 0 0 0
= E[(X X)−1 X X(X X)−1 ]
0 0 0 0
= (X X)−1 X E( )X(X X)−1
0 0 0
= (X X)−1 X σ 2 V X(X X)−1
0 0 0 0
= σ 2 (X X)−1 X V X(X X)−1 6= σ 2 (X X)−1
31
Par conséquent l'estimateur des MCO B̂M CO = (X X)−1 X Y n'est plus BLUE. Certes, il
0 0
demeure un estimateur non biaisé de B mais sa variance n'est plus minimale. De ce fait,
les conclusions des tests ne sont plus valides et les prévisions ne seront plus optimales.
Les eorts menés à n de fournir de nouveaux estimateurs BLUE ont donné naissance
à une procédure d'estimation générale appelée méthode des moindres carrés généralisés
(MCG). L'idée consiste à transformer le modèle en vue de ramener l'hypothèse H2∗ à sa
forme initiale H2. En eet, si la matrice V est connue, on peut identier une matrice de
transformation régulière P qui vérie la relation suivante :
(28)
0 0
P V P = I ⇔ P P = V −1
La relation donnée par (28) est de première importance car la transformation du modèle
de départ par la matrice P permet d'obtenir des résidus transformés qui vérie les hypothèses
classiques des MCO. En eet, multiplions le modèle Y = XB + par P :
P Y = P XB + P
Ỹ = X̃B + ˜
32
Par conséquent, l'estimateur des MCG est donné par :
0 0
B̂M CG = (X̃ X̃)−1 X̃ Ỹ
0 0
= [(P X) P X]−1 (P X) P Y
0 0 0 0 (29)
= (X P P X)−1 X P P Y
0 0
= (X V −1 X)−1 X V −1 Y
Montrons à présent que cet estimateur est BLUE. Pour cela, nous vérions dans un premier
temps que B̂M CG est non biaisé :
0 0
E(B̂M CG ) = E[(X V −1 X)−1 X V −1 (XB + )]
0 0
= B + (X V −1 X)−1 X V −1 E()
=B
L'estimateur des moindres carrés généralisés est un estimateur ecace (non biaisé et de
variance minimale).
Comme pour le modèle linéaire multiple, une estimation non biaisée de la partie aléatoire
est donnée par :
0 0
2 SCR ˆ˜ ˆ˜ ˆ V −1 ˆ
σ̂ = = =
N − (k + 1) N − (k + 1) N − (k + 1)
33
avec
0 0
SCR = ˆ˜ ˆ˜ = (Ỹ − X̃ B̂) (Ỹ − X̃ B̂)
0 0 0 0 0
= Ỹ Ỹ − 2B̂ X̃ Ỹ + B̂ X̃ X̃ B̂
0 0 0 0 0 0 0
= Ỹ Ỹ − 2B̂ X̃ Ỹ + B̂ X̃ X̃(X̃ X̃)−1 X̃ Ỹ
0 0 0 0 0
= Ỹ Ỹ − 2B̂ X̃ Ỹ + B̂ X̃ Ỹ
0 0 0
= Ỹ Ỹ − B̂ X̃ Ỹ
0 0 0 0 0
= Y P P Y − B̂ X P P Y
0 0 0
= Y V −1 Y − B̂ X V −1 Y
Lorsque la matrice de var/cov des erreurs est inconnue, le plus judicieux est d'utiliser des
structures particulières relativement simple de V . Dans la suite, nous présentons la situation
la plus couramment utilisée sur des données en coupe transversale, à savoir, l'hétéroscédas-
ticité.
34
cas le plus couramment rencontré dans les applications empiriques, celui où la variance des
erreurs est supposée corrélée à une variable w connue. De manière plus général, on modie
l'hypothèse H2 des MCO par :
V (i ) = σ 2 wi et Cov(i , s ) = 0 (31)
C'est à dire que l'on suppose une matrice de var/cov des erreurs diagonale :
w1 0 . . 0
0 w2 . . .
0
V () = E( ) = σ 2
. . . . .
. . . wi .
0 . . . wN
En appliquant la méthode des MCO sur le modèle transformé, on obtient l'estimateur des
MCG de B̂ qui prend la forme particulière suivante :
0 0
B̂M CG = (X V −1 X)−1 X V −1 Y
1 −1 1
w1
0 . 0 w1
0 . 0
00 1 1
w2
. . 0
0
w2
. .
B̂M CG =
X 0
X X Y
. . . 0 . . .
1 1
0 . . wN
0 . . wN
H1 : σi2 6= σ 2
35
Le test se réalise en trois étapes :
1) On classe les observations de l'échantillon considéré selon l'ordre croissant de la
variable xk
2) On omet de l'échantillon c observations centrales et on divise le reste en deux sous-
échantillon de même taille ((N − c)/2). Généralement, le nombre de valeurs centrales retiré
de l'échantillon est environ égal au quart de l'ensemble des observations
3) On eectue des estimations séparées par les MCO sur les deux sous-échantillons.
Sous l'hypothèse nulle d'homoscédasticité des erreurs, le rapport des variations résiduelles
respectives permet d'établir la statistique suivante :
N −c
− (k + 1)
SCR2 2 N −c N −c
Fc = N −c × ∼F − (k + 1); − (k + 1)
2
− (k + 1) SCR1 2 2
• Le Test de White
Ce test est plus général que le test précédent dans le sens où il n'impose aucune forme
à priori de l'hétéroscédasticité. Comme pour le test précédent, on cherche à savoir si :
H0 : σi2 = σ 2 ,
∀i
H1 : σi2 6= σ 2
X X X
2i = b0 + bk xki + λk x2ki + µkl xki xli + νi
k k k6=l
36
La statistique du test de White repose sur le calcul du coecient de détermination R2
tiré de la régression ci-dessus. Sous l'hypothèse nulle d'homoscédasticité des erreurs, on
montre que :
χ2c = N R2 ∼ χ2P
où P représente le nombre de régresseurs dans l'équation, i.e, P = 2k + k(k−1)
2
La règle de décision est habituelle :
• si χ2α < χ2c < χ21− α alors on accepte H0 (les erreurs sont homoscédastiques)
2 2
• si χ2c < χ2α ou χ2c > χ21− α alors on rejete H0 (les erreurs sont hétéroscédastiques)
2 2
37
5 Introduction à l'économétrie des séries temporelles
38
Une série temporelle (ou série chronologique) à temps discret est une suite réelle nie yt ,
t = 1, ..., T , où t représente le temps (en minute, jour, année...). Un des objectifs principaux
de l'étude d'une série temporelle est la prévision des réalisations futures (prévoir l'évolution
de la vente d'un produit pour ajuster au mieux les moyens de production, prévoir l'évolution
d'un marché nancier,...).
Tendances et composantes saisonnières
On parle de tendance lorsque la série yt , t = 1, ..., T peut s'écrire, à une erreur d'ajus-
tement t près, comme une combinaison linéaire de m fonctions du temps, choisies a priori
(par exemple fonction puissance, exponentielle, logarithmique...) :
m
(32)
X
yt = αj fj (t) + t
j=1
yt = st + t (33)
où st est périodique, c'est-à-dire st+T = st , avec T la période (supposée entière). Lorsque
la période est de 6 mois ou 1 an, on parle généralement de composante saisonnière.
39
Indices de dépendance
• L'auto-covariance empirique d'ordre 1 renseigne sur la dépendance entre deux données
successives :
t=T −1
1
(36)
X
2
σ̂ (1) = (yt − y)(yt+1 − y)
T − 1 t=1
• L'auto-covariance empirique d'ordre 2 renseigne sur la dépendance entre deux données
écartées de deux pas de temps :
t=T −2
1
(37)
X
2
σ̂ (2) = (yt − y)(yt+2 − y)
T − 2 t=1
• Les auto-corrélations empiriques sont les quotients des covariances empiriques et de
la variance empirique
σ̂(h)
ρ̂(h) = (38)
σ̂(0)
Ce sont les auto-corrélations empiriques que nous utiliserons pour caractériser la dépen-
dance entre les variables.
Une série temporelle yt , t = 1, ..., T est l'observation des T premières réalisations d'un
processus stochastique Yt . C'est ce processus que l'on cherche désormais à modéliser. Pour
cela, la démarche suivante doit être adoptée :
- représenter graphiquement la série an de repérer les tendances et saisonnalités,
- estimer et supprimer les tendances et saisonnalités (partie déterministe du processus sto-
chastique),
- choisir un modèle pour les résidus (partie aléatoire du processus stochastique) et l'estimer,
- prédire les réalisations futures à l'aide de ce modèle.
Dénitions
• bruit blanc
Un processus de bruit blanc est une suite de variables aléatoires Yt indépendantes,
d'espérance et de variance constantes. Si l'espérance est nulle, le bruit blanc est centré, et
si les variables aléatoires sont gaussiennes, le bruit blanc est gaussien.
40
• Processus stationnaire
Un processus aléatoire Yt est stationnaire s'il est d'espérance constante :
E[Yt ] = µ, ∀t
et si les covariances sont stables par translation dans le temps, c'est-à-dire, pour tout
h:
où f (t) est une fonction qui dépend du temps et t est un processus stationnaire. Ainsi, ce
processus est rendu stationnaire en lui enlevant sa tendance déterministe :
Yt − f (t) = t est stationaire
Le processus t peut être modélisé par un processus ARM A(p, q) stationnaire (le bruit blanc
étant un cas particulier). f (t) est une fonction déterministe, par exemple f (t) = a + bt (cas
le plus couramment retenu), mais on pourrait aussi considérer, entre autres, une tendance
quadratique f (t) = a + bt + ct2 .
Une première conséquence économique d'un processus TS est qu'un choc imprévu (t )
n'a pas d'eet persistant sur le processus puisqu'il ne peut pas modier sa partie tendancielle
(sa croissance), qui est ici exogène. Il n'aura donc d'eet que sur la partie cyclique, supposée
être stationnaire, donc son eet sera forcément temporaire. Une deuxième conséquence
économique est que la décomposition tendance-cycle est naturelle dans ce cas : la tendance
est donnée par f(t) et le cycle par les écarts de la série à sa tendance, soit t . Les deux
composantes ne sont pas corrélées.
• Processus non stationnaire stochastique
On dit que le processus Yt est caractérisé par une non stationnarité stochastique, ou
encore que le processus Yt est DS (Dierence stationnary) si le processus diérencié une
fois 4Yt = Yt − Yt−1 est stationnaire. On parle aussi de processus intégré d'ordre 1, on
note Yt ∼ I(1) :
41
4Yt = t
Les exemples les plus connus de processus I(1) sont, d'une part, la marche aléatoire
pure :
Yt = Yt−1 + t
et, d'autre part, la marche aléatoire avec dérive :
Yt = c + Yt−1 + t
Une première conséquence importante (d'avoir un processus DS) est qu'un choc im-
prévu (t ) à une date donnée inuence la tendance et le futur du processus. Le processus
est caractérisé par de la persistance des chocs ou de l'hystérèse. Autrement dit, un choc
temporaire à une date donnée a un eet permanent sur le niveau du processus puisque le
processus ne rejoindra jamais sa valeur initiale suite à ce choc. Une deuxième conséquence
est que la décomposition tendance-cycle n'est plus explicite dans cette formulation.
Estimation paramétrique de la tendance (trend)
Nous supposons que la série temporelle étudiée soit la réalisation d'un processus sto-
chastique composé d'une tendance déterministe mt et d'une partie aléatoire t (supposée
de moyenne nulle) :
Yt = mt + t
Une hypothèse que nous pouvons formuler sur la tendance déterministe est celle de linéarité :
mt = a + bt
On peut donc estimer la tendance à chaque temps t en calculant la moyenne sur les
observations étant dans une fenêtre de largeur 2q + 1 autour de t : c'est ce que l'on appelle
une estimation par moyenne mobile.
42
Tendance et saisonnalité
Supposons désormais que le processus ne comporte pas uniquement une tendance, mais
également une saisonnalité :
Yt = mt + st + t
avec st une fonction T-périodique. Dans ce cas, le principe d'estimation est (en simpliant
légèrement) le suivant : on estime la tendance moyenne sur une période, puis on estime
la composante saisonnière en moyennant sur toutes les périodes les écarts à la tendance
moyenne de la période.
Elimination de la tendance et de la saisonnalité par la méthode des
diérences
Cette méthode permet de supprimer la tendance et la saisonnalité d'une série temporelle
sans les estimer. Soit 4T l'opérateur qui associe (Yt − Yt−T ) à Yt :
4T Yt = (Yt − Yt−T )
On note 4 l'opérateur 41 et 4kT l'opérateur 4kT qui est égal à 4T ◦ ... ◦ 4T (k fois).
En appliquant k fois 4, on élimine la tendance. Il est important de remarquer que si
l'on applique 4t quelque soit t, le résultat est le même quant à l'élimination de la tendance.
Comme en pratique il n'est pas évident de connaître le degré k, on appliquera l'opérateur
4 jusqu'à ce que la moyenne du processus soit nulle (k sera généralement 1, 2 ou 3).
Soit un processus admettant une tendance mt et une saisonnalité, de période T :
Yt = mt + st + t .
Dans ce cas,
4T Yt = (mt − mt−T ) + (t − t−T )
est un processus désaisonnalisé. De plus, si la tendance du processus est linéaire, elle est
également supprimée.
Test sur la série résiduelle
L'objectif des techniques présentées dans le point précédent est d'obtenir une série
stationnaire (ou tout au moins le plus stationnaire possible), et en particulier sans tendance
ou saisonnalité. L'étape suivante consiste à modéliser la série résiduelle obtenue. La première
chose à faire est donc de tester s'il y a dépendance entre les termes de cette série. Si ce
n'est pas le cas, on dit que la série résiduelle (stationnaire) est un bruit blanc. Si la série
résiduelle obtenue après désaisonalisation et élimination de la tendance, est un bruit blanc,
il n'est donc pas utile d'aller plus loin dans la modélisation si ce n'est d'estimer la moyenne
et variance du bruit blanc.
43
• Tester la présence d'un bruit blanc
1) Par l'étude de la fonction d'auto-corrélation empirique : Lorsque T est assez grand, les
auto-corrélations d'un bruit blanc sont approximativement indépendantes et√de loi ℵ(0,√1).
Ainsi, 95% des auto-corrélations devraient se trouver dans l'intervalle [−1.96/ n, 1.96/ n],
et en traçant les 40 premières auto-corrélations il ne devrait pas y en avoir plus de 2 voir 3
en dehors de ces limites.
2) A l'aide du test du portemanteau : Plutôt que de regarder si chaque auto-corrélation
est dans les bornes de l'intervalle précédent, nous considérons la statistique dénie par la
somme des h premières auto-corrélations au carré :
h
X
Q=T ρ̂2 (j)
j=1
dont la distribution est mieux approximée que la précédente par une loi du Khi-2 à h degrés
de liberté.
44
linéaire de son passé pj=1 aj Yt−j , qui peut être vue comme la prédiction de Yt à partir des
P
p dernières observations passées.
où les j sont des bruits blancs centrés de variance σ 2 . Précisons deux éléments : (1) un
processus moyenne mobile est nécessairement centré et (2) un processus auto-régessif est un
processus moyenne mobile d'ordre inni, et réciproquement un processus moyenne mobile
est un processus auto-régressif d'ordre inni.
Les processus mixtes ARM Ap,q
Cette classe plus générale de modèles dénit des processus sous la forme d'une ré-
currence auto-régressive avec un second membre de type moyenne mobile. Un processus
auto-régressif moyenne mobile d'ordres p et q est de le forme :
p q
X X
Yt = ak Yt−k + bj t−j
k=1 j=1
45
Les critères de choix de modèles les plus courants sont :
• le critère AIC (Akaïke Information Criterion), qui sera généralement préféré si l'objectif
de l'étude est de faire de la prévision.
• le critère BIC (Bayesian Information Criterion) sera quant à lui généralement préféré
si l'objectif de l'étude est de s'ajuster à la série observée.
Les modèles ayant la plus petite valeur du critère devront être choisis.
H0 :φ = 1
H1 :φ < 1
dans le modèle
Yt = φYt−1 + t
avec t bruit blanc ∼ ℵ(0, σ 2 ). L'hypothèse nulle correspond au cas de marche aléatoire
pure (processus DS, I(1)) et l'hypothèse alternative correspond au cas d'un modèle AR(1)
stationnaire. Pour mener ce test, on calcule la statistique de Student, mais attention, cette
statistique ne suit plus sous l'hypothèse nulle une loi de Student, puisque, sous l'hypothèse
nulle, le processus est non stationnaire de type DS et les propriétés asymptotiques ne sont
plus standards. Ainsi, la diérence avec un test standard repose sur les valeurs critiques à
utiliser pour conclure sur le test. On ne peut plus utiliser 1.96 comme valeur critique pour
un test à 5%. Il faut utiliser les valeurs critiques, qui ont été retabulées par Dickey et Fuller.
Ce test ne répond pas aux attentes de détection du type de non stationnarité dans les
variables économiques, d'une part parce que l'hypothèse de processus TS n'est pas présente
46
et d'autre part parce que les séries économiques sont caractérisées par de l'autocorréla-
tion, qui conduira la plupart du temps à rejeter l'hypothèse de bruit blanc dans le test
ci-dessus. Pour prendre en compte, d'une part la présence d'autocorrélation dans les sé-
ries économiques, et, d'autre part, l'hypothèse de tendance déterministe, on préfère le test
Dickey-Fuller augmenté.
Le test de Dickey-Fuller augmenté
C'est une version généralisée du test Dickey-Fuller pour des modèles plus complexes de
séries temporelles. Pour prendre en compte, d'une part la présence d'autocorrélation dans
les séries économiques, et, d'autre part, l'hypothèse de tendance déterministe, on mène les
tests de racine unitaire dans les trois régressions suivantes :
p
X
(1) 4Yt = ρYt + α + βt + φj 4Yt−j + t
j=1
p
X
(2) 4Yt = ρYt + α + φj 4Yt−j + t
j=1
p
X
(3) 4Yt = ρYt + φj 4Yt−j + t
j=1
avec p le nombre de retards à ajouter dans la régression an de prendre en compte l'auto-
corrélation et donc de "blanchir" les résidus.
Le test ADF consiste alors à tester :
H0 : ρ = 0
contre
H1 : ρ < 0
dans les modèles (1), (2) et (3).
• Dans le modèle (1) :
4Yt est I(0) + T (il a une tendance déterministe et l'ecart à cette tendance déterministe
suit un modèle AR(p) stationnaire) sous H0, c'est-à-dire que Yt est I(1) + T 2 . Sous H1,
Yt a une tendance déterministe et l'écart à cette tendance déterministe suit un modèle AR
stationnaire, on note I(0) + T , soit un processus TS.
• Dans le modèle (2) :
4Yt est I(0) + C (il suit un modèle AR(p) stationnaire non centré) sous H0, c'est-à-dire
47
que Yt est I(1) + T . Sous H1, Yt suit un modèle AR stationnaire non centré, on note
I(0) + C .
4Yt = ρYt + α + βt + t
L'hpothèse nulle est donc H0 : ρ < 0 contre l'hypothèse alternative H1 : ρ = 0.
Stratégie de test de racine unitaire
48
1) On choisit le nombre de retards p à introduire dans la régression : on peut, pour cela,
choisir l'ordre p de l'AR(p) pour la variable Yt sur la base des autocorrélations partielles de
Yt , et sur la base de la signicativité du dernier retard de l'AR introduit dans la régression,
tout en vériant que le résidu est bien un bruit blanc.
2) On teste la racine unitaire H0 : ρ = 0 dans le modèle le plus général (3) :
p
X
4Yt = ρYt + α + βt + φj 4Yt−j + t
j=1
49
6 Annexe-Rappels
0 0 0
• (AB) = B A
(A−1 ) = (A )−1 si A est inversible
0 0
•
• (AB)−1 = B −1 A−1 si A et B sont inversibles
tr(A) = ni=1 aii i.e. somme des valeurs diagonales de la matrice
P
•
• tr(λA) = λtr(A)
• Si A2 = A alors la matrice est dit idempotente
Soit X une variable aléatoire déni sur R
xf (x)dx où f (x) représente la densité de probabilité de X
R +∞
• E(X) = −∞
R +∞
• E(g(x)) = −∞ g(x)f (x)dx
R +∞
• E(x2 ) = −∞ x2 f (x)dx
• f (x, y) = f (x)f (y) ssi x, y sont deux variables aléatoires indépendantes
• E(aX + b) = aE(X) + b
• E(X + Y ) = E(X) + E(Y )
• E(XY ) = E(X)E(Y ) ssi X, Y sont deux variables aléatoires indépendantes
• V (X) = E[(X − E(X))2 ] = E(X 2 ) − E(X)2
• V (aX + b) = a2 V (X)
2) La loi de Student
Soit une variable aléatoire X ∼ N (0, 1) et une variable aléatoire Y ∼ χ2n alors
X
Z=p ∼ tn
Y /n
2) La loi de Fisher
Soit deux variables aléatoires X1 ∼ χ2p et X2 ∼ χ2n indépendantes alors
X1 /p
Z= ∼ F (p, q)
X2 /q
51