EconometrieL3 2016

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 51

Econométrie

Support de Cours
Licence 3 Economie-Gestion
Année 2016-2017


Benjamin Montmartin .

4 septembre 2016


GREDEG, CNRS UMR 7321 - Université Nice Sophia-Antipolis, e-mail : [email protected]

Document à destination des étudiants de L3 ECO-GESTION. Interdiction de diusion.

1
Table des matières

1 Introduction 3
1.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Les diérents types de données . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 La méthode économétrique . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Le modèle linéaire simple 6
2.1 Le modèle linéaire simple et ses hypothèses . . . . . . . . . . . . . . . . . 6
2.2 L'estimateur des MCO et ses propriétés . . . . . . . . . . . . . . . . . . . 7
2.2.1 Les estimateurs des coecients de régression (a et b) . . . . . . . 7
2.2.2 Variance des estimateurs . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.3 L'estimateur du coecient σ 2 . . . . . . . . . . . . . . . . . . . . 11
2.3 Analyse de la variance et coecient de détermination . . . . . . . . . . . 12
2.3.1 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 Coecient de détermination . . . . . . . . . . . . . . . . . . . . . 12
2.4 Les tests statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.1 La statistique de Student . . . . . . . . . . . . . . . . . . . . . . 13
2.4.2 Test sur la valeur d'un coecient . . . . . . . . . . . . . . . . . . 14
2.4.3 Test de signicativité d'un paramètre . . . . . . . . . . . . . . . . 15
2.4.4 Intervalle de conance pour la partie aléatoire . . . . . . . . . . . 16
2.4.5 Signicativité globale d'un modèle et test de Fisher . . . . . . . . 16
2.5 La prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3 Le modèle linéaire multiple 19
3.1 Le modèle et ses hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.1 Ecriture du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.2 Les hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 Les estimateurs et leurs propriétés . . . . . . . . . . . . . . . . . . . . . . 21
3.2.1 Estimation des coecients de la régression et propriétés des estima-
teurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.2 Estimation du coecient de la partie aléatoire . . . . . . . . . . . 23
3.3 Analyse de la variance et coecient de détermination . . . . . . . . . . . 23
3.3.1 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.2 Le coecient de détermination . . . . . . . . . . . . . . . . . . . 24
3.4 Les tests statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4.1 Les tests individuels . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4.2 Généralisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4.3 Contraintes linéaires sur les coecients . . . . . . . . . . . . . . . 26
3.5 La prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2
4 Les moindres carrés généralisés 29
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Le Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.3 Estimation du modèle pour V connue . . . . . . . . . . . . . . . . . . . . 31
4.3.1 Estimation des coecients de la régression et propriétés des estima-
teurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3.2 Estimation du coecient de la partie aléatoire . . . . . . . . . . . 32
4.4 Estimation du modèle lorsque V est inconnue . . . . . . . . . . . . . . . . 33
4.5 Une illustration : un modèle avec hétéroscédasticité des erreurs . . . . . . 33
4.5.1 Spécication du modèle et estimation . . . . . . . . . . . . . . . . 33
4.5.2 Les Tests d'hétéroscédasticité . . . . . . . . . . . . . . . . . . . . 34
5 Introduction à l'économétrie des séries temporelles 37
5.1 Les Processus Aléatoires Stationnaires et les Processus ARMA . . . . . . . 37
5.1.1 Séries Temporelles . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.1.2 Indices descriptifs d'une série temporelle . . . . . . . . . . . . . . 38
5.1.3 Méthode économétrique et gestion de la tendance et des saisonalités 39
5.1.4 Les principaux modèles stationaires . . . . . . . . . . . . . . . . . 43
5.2 Les tests de stationarité ou Unit root Tests . . . . . . . . . . . . . . . . . 45
6 Annexe-Rappels 49

3
1 Introduction

1.1 Présentation

L'économétrie peut se dénir comme l'application des méthodes de statistiques inféren-


tielles à l'étude des phénomènes économiques et sociaux. L'objectif premier de l'économétrie
est de tester les résultats des modèles théoriques en économie c'est à dire de donner un
contenu empirique à la théorie économique an de vérier sa plausibilité. L'unité de base
en analyse économétrique est le modèle. Un modèle est une représentation simpliée du
monde réel. L'économétrie vise à établir des relations de cause à eet entre les variables.
Bien évidemment, l'outil économétrique est aujourd'hui utilisé bien au delà de cette fonc-
tion première (prévisions, évaluation,...). Pour résumer, les deux fonctions essentielles de
l'économétrie sont :
- tester les théories économiques
- évaluer les paramètres en jeu dans les relations économiques et plus spéciquement
leur ampleur

Exemple 1 : La fonction de production Cobb-Douglas

Y = AK α Lβ
Cette forme de fonction de production d'une rme est la plus couramment utilisée
dans les modèles théoriques. On peut vouloir tester la pertinence de cette fonction pour
appréhender le niveau de production des rmes industrielles par exemple. Dans ce cas précis,
l'économétrie va nous permettre :
1) d'estimer le pouvoir explicatif de ce modèle théorique, i.e, est-ce que cette fonction
explique correctement le niveau de production des rmes industrielles ?
2) d'estimer les coecients α et β , c'est à dire la valeur des élasticités de la production
par rapport à chacun des facteurs de production.
3) de pouvoir tester la validité des hypothèses des modèles théoriques concernant les
rendements d'échelle en réalisant des tests statistiques : les rendements d'échelle sont-ils
croissants (α + β > 1), constants (α + β = 1) ou décroissants (α + β < 1).

4
1.2 Les diérents types de données
L'estimation de modèles économétriques nécessite des données observables. Classique-
ment, on distingue trois catégories de données :
1) Données transversales ou en coupe instantanée
Dans ce cas, la base de données va contenir des informations sur N agents (ménage,
pays, entreprise,...) à une date donnée. Dans le case de l'exemple 1, cela correspondra à
une base de données du type :
 
Y1 K1 L 1
 Y2 K2 L 2 
 
 . . . 
 
 . . . 
 
 . . . 
YN KN L N

où Yi représente le niveau de production de la rme industrielle i, Ki représente le nombre


d'unités de capital utilisé par la rme industrielle i et Li le nombre d'unités de travail utilisé
par la rme i, i = 1, ..., N .
2) Données temporelles ou en séries chronologiques
Ici, la base de données va contenir des informations concernant un agent sur plusieurs
périodes. Dans le cas de l'exemple 1, cela correspondra à une base de données du type :
 
Y1 K1 L 1
 Y2 K2 L 2 
 
 . . . 
 
 . . . 
 
 . . . 
YT KT L T

où Yi représente le niveau de production de la rme industrielle à la date i, Ki représente


le nombre d'unités de capital utilisé par la rme industrielle à la date i et Li le nombre
d'unités de travail utilisé par la rme à la date i, i = 1, ..., T .
3) Données de panel (individuelles et temporelles)
Ici, la base de données va contenir des informations concernant N agents sur plusieurs
périodes (c'est la combinaison des deux précédentes). Dans le case de l'exemple 1, cela
correspondra à une base de données du type :

5
 
Y1,1 K1,1 L1,1
 Y1,2 K1,2 L1,2 
 
 . . . 
 
 . . . 
 
 . . . 
 
 Y1,T K1,T L1,T 
 
 Y2,1 K2,1 L2,1 
 
 . . . 
 
 . . . 
 
 . . . 
YN,T KN,T LN,T

où Yi,t représente le niveau de production de la rme i à la date t, Ki,t représente le nombre


d'unités de capital utilisé par la rme i à la date t et Li,t le nombre d'unités de travail utilisé
par la rme i à la date t, i = 1, ..., N et t = 1, ..., T .

1.3 La méthode économétrique

Théories Modèles Outils des statistiques


économiques mathématiques inférentielles

Modèle
économétrique

Estimation

Tests

Prévisions

6
Dans un premier temps, on va utiliser la théorie économique, la modélisation mathé-
matique et l'outil statistique an de spécier un modèle économétrique adéquat. Après
cette étape, on va chercher à estimer les paramètres du modèle et, pour ce faire, choisir
les méthodes de calculs les plus appropriées an d'obtenir des estimateurs statistiquement
ecaces. Un estimateur de b noté b̂ est dit ecace si E(b̂) = b et si V (b̂) est
la variance minimale parmi tous les estimateurs sans biais.. Après avoir estimé le
modèle, on passe aux tests du modèle en utilisant plusieurs outils statistiques an de vérier
la conformité des résultats empiriques obtenus avec le sous bassement théorique envisagé.
Finalement la dernière étape (qui n'est pas toujours pertiente et/ou justiée) consiste à
exploiter le modèle à des ns de prévision et à élaborer un schéma de politique économique
dans le domaine étudié.

2 Le modèle linéaire simple

Dans ce chapitre, nous allons présenter la méthode de base de l'analyse économétrique.


On étudie ici le cadre le plus simple où le modèle ne comporte qu'une seule variable ex-
plicative. Ce modèle constitue un point de départ nécessaire pour la compréhension de la
procédure économétrique en matière d'estimation, de test et de prévision.

2.1 Le modèle linéaire simple et ses hypothèses


Le modèle linéaire simple est donné par :
yi = a + bxi + i i = 1, 2, ..., N (1)
yi est la variable que l'on cherche à expliquer, xi est la variable explicative du modèle, i
représente les résidus ou le terme d'erreur. a et b sont les paramètres à estimer. On appelle
a + bxi la partie systématique du modèle et i est la partie aléatoire du modèle.

• Les hypothèses du modèle

H1) E(i ) = 0, ∀i ⇒ en moyenne le terme d'erreur est nul


H2) xi est une variable certaine (non stochastique)
H3) V (xi ) = N1 Ni=1 (xt − x)2 6= 0 ⇒ la variance de x est non nulle, i.e., les observations
P
xi ne prennent pas toutes la même valeur.

7
H4) V (i ) = E(2i ) = σ 2 , ∀i 6= s ⇒ la variance est la même pour tout les i , on dit que
les perturbations sont homoscédastiques.
Cov(i , s ) = E(i , s ) = 0 ⇒ la perturbation i n'est pas inuencée par la perturbation
s . Dans le cas d'une série temporelle, cela signie que la perturbation à une période n'est
pas inuencée par la perturbation à une autre période, i.e., un choc qui s'est produit à une
période n'a pas d'inuence sur ce qui se passe dans les périodes suivantes.
H5) i ∼ N (0, σ 2 ) ⇒ les erreurs sont indépendentes et identiquement distribuées selon la
loi normale. Cette hypothèse de normalité est nécessaire pour réaliser des tests statistiques
sur la base des distributions normale, de Student et de Fisher.
H6) Cov(xi , i ) = 0 ⇒ Cette hypoyhèse rend compte de l'indépendance entre la partie
systématique et la partie aléatoire du modèle

2.2 L'estimateur des MCO et ses propriétés


2.2.1 Les estimateurs des coecients de régression (a et b)

On considère le modèle donné par l'équation (1). Pour estimer les paramètres a et b du
modèle, on dispose d'un échantillon de données de la forme :
 
y 1 x1
 y 2 x2 
 
 . . 
 
 . . 
 
 . . 
y N xN

Notons que chaque observation d'un individu peut-être représentée par un couple (yi , xi ).
Représenté dans un plan (x, y), on obtient un nuage de points.

8
yi

∧ ∧ ∧
y i = a+ b xi


a ∧
b

xi

Le problème est le suivant : comment choisir les valeurs de a et b tel qu'une droite de
la forme y = a + bxi passe le plus près possible de tous les points du nuage ? Les valeurs
estimées de aPet b notées â et b̂ seront donc les valeurs qui minimisent la somme des carrés
des résidus ( 2i ). Pour déterminer â et b̂, nous devons chercher les solutions de la fonction
objectif suivante :
(2)
X X
min (2i ) = min (yi − a − bxi )2 = min S
a,b a,b a,b

Les solutions de ce programme sont :


â = y − b̂x (3)
P
(yi − y)(xi − x)
b̂ = P (4)
(xi − x)2

Preuve résultats (3) et (4) :


En utilisant les conditions du premier ordre, on obtient :
∂S X
= −2 (yi − â − b̂xi ) = 0
∂a
X
⇔ yi = N â + b̂N x

⇔ â = y − b̂x (3)

9
∂S X
= −2 xi (yi − â − b̂xi ) = 0
∂b
En insérant (3) dans cette expression, on obtient :
X X
⇔ xi (yi − y) = b̂ xi (xi − x)

En utilisant le fait que x(zi − z) = 0 ∀ la variable zi considérée :


P

P P
xi (yi − y) − x(yi − y)
⇔ b̂ = P P
xi (xi − x) − x(xi − x)
P
(yi − y)(xi − x)
⇔ b̂ = P (4)
(xi − x)2

Les expressions (3) et (4) sont appelées équations normales du modèle.

2.2.2 Variance des estimateurs

• Variance de b̂
An de déterminer la variance de b̂, il est utile de réécrire (4). Pour cela, notons que :
X X X X
(yi − y)(xi − x) = xi y i − y xi − x yi + N xy
X
= xi yi − N xy
X
= (xi − x)yi

Par conséquent, on peut réécrire (4) comme


P
(xi − x)yi
b̂ = P
(xi − x)2

Notons que
X X
(xi − x)yi = (xi − x)(a + bxi + i )
X X X
= (xi − x)a + b (xi − x)xi + (xi − x)i
X X
=b (xi − x)2 + (xi − x)i

10
Car (xi − x) = 0 et que (xi − x)xi = (xi − x)2
P P P

Par conséquent en utilisant ce dernier résultat, on peut réécrire (4) comme


P
(xi − x)i
b̂ = b + P (5)
(xi − x)2

Par conséquent, la variance de b̂ est donnée par :


(xi − x)2 σ2
P
V (b̂) = P V (i ) = P (6)
(xi − x)4 (xi − x)2

• Variance de â
P ! P 
yi yi  
V (â) = V (y − b̂x) = V − b̂x =V + V b̂x
N N
Comme V (yi ) = V (i ) et que V (x) = 0, on a :
σ2 x2 σ 2
V (â) = +P (7)
N (xi − x)2

Notons également que l'on peut réécrire â comme :


â = y − b̂x = a + bx +  − b̂x
= a − (b̂ − b)x +  (8)
P
(xi − x)i
=a− P x+
(xi − x)2

Notons qu'en utilisant les nouvelles expressions de â et b̂, il vient de manière


évidente que ces estimateurs sont sans biais, i.e, E(â) = a et E(b̂) = b. 0n
pourrait également montrer que ce sont les estimateurs linéaires de variance
minimale. On dit alors que les estimateurs des MCO sous les hypothèses H1-H6
sont BLUE.

11
2.2.3 L'estimateur du coecient σ2

Nous avons estimé deux paramètres du modèle linéaire simple. Néanmoins, pour pouvoir
calculer la variance des estimateurs, nous devons connaître σ 2 , i.e., la variance des résidus.
Nous ne connaissons pas cette valeur, il nous faut donc l'estimer. La variance des résidus
estimés est donnée par :

X X X X
V( ˆi ) = E( ˆ2 ) − E( ˆ)2 = E(ˆ2 )
On sait que
ˆi = yi − ŷi = a + bxi + i − â − b̂xi
= a + bxi + i − y + b̂x − b̂xi
= a + bxi + i − a − bx −  + b̂x − b̂xi
= i −  − (xi − x)(b̂ − b)

donc on a
ˆ2i = (i − )2 + (xi − x)2 (b̂ − b)2 − 2(xi − x)(b̂ − b)(i − )
et X X X X
ˆ2i = (i − )2 + (b̂ − b)2 (xi − x)2 − 2(b̂ − b) (xi − x)(i − )
En utilisant le fait que 2 = N 2 = N −1 2i , i  = N −1 2i et que (i − ) =
P P P P

[ˆi + (b̂ − b)(xi − x)], on obtient :

X X X X X X
ˆ2i = 2i +N −1 2i −2N −1 2i +(b̂−b)2 (xi −x)2 −2(b̂−b) (xi −x)[ˆi +(b̂−b)(xi −x)]

On peut décomposer le dernier élément de l'équation précédente en deux :

X X X
2(b̂ − b) (xi − x)[ˆi + (b̂ − b)(xi − x)] = 2(b̂ − b) (xi − x)ˆi + 2(b̂ − b)2 (xi − x)2

donc
X X X X X X
ˆ2i = 2i + N −1 2i − 2N −1 2i − (b̂ − b)2 (xi − x)2 − 2(b̂ − b) (xi − x)ˆi

En utilisant le fait que E( E(ˆ2i ) = N σ 2 , on peut écrire que :


ˆ2i ) =
P P

X X
E( ˆ2i ) = N σ 2 + σ 2 − 2σ 2 − (xi − x)2 E((b̂ − b)2 )

Comme E((b̂ − b)2 ) = V̂b̂ = σ 2 ( (xi − x)2 )−1 , il vient :


P

12
X
E( ˆ2i ) = N σ 2 + σ 2 − 2σ 2 − σ 2 = (N − 2)σ 2
donc on a :
E [ ˆ2i ] = (N − 2)σ 2
P

Par conséquent, un estimateur non biaisé de σ 2 est :


ˆ2i
P
2
σ̂ = (9)
N −2

2.3 Analyse de la variance et coecient de détermination

2.3.1 Analyse de la variance


L'analyse de la variance est une procédure statistique qui consiste à reproduire le modèle
linéaire simple en termes de variation. Cela permet d'apprécier la qualité de l'ajustement
linéaire en calculant le coecient de détermination noté R2 et de donner une idée sur la
signicativité globale du modèle. On note par convention :
Variation totale (SCT) = Variation expliquée par la régression (SCE) + Variation
résiduelle (SCR)
Ce qui correspond à :
(10)
X X X
(yi − y)2 = (ŷi − y)2 + (yi − ŷi )2

Remarquons que (yi − ŷi )2 = ˆ2i


P P

2.3.2 Coecient de détermination


Le coecient de détermination correspond à la part de la variation totale qui est expli-
quée par le modèle :
SCE SCR
R2 = =1− (11)
SCT SCT
Si le coecient de détermination tend vers 1, l'ajustement linéaire est de bonne qualité
alors que s'il tend vers 0, il est de mauvaise qualité. L'interprétation de ce coecient est très
simple. Supposons R2 = 0.9, cela signie que 90% de la variation totale de y est expliquée
par le modèle. Nous verrons dans le prochain chapitre les limites de cet indicateur.

13
2.4 Les tests statistiques

2.4.1 La statistique de Student

Dans le modèle de régression, on postule l'existence d'une corrélation entre les variables
x et y , i.e., on considère qu'il existe une relation causale entre ces deux variables. Il est de
ce fait légitime à travers l'échantillon considéré de conrmer ou d'inrmer empiriquement
l'inuence de la variable x sur la variable y . Pour cela, nous allons faire appel à l'hypothèse
i ∼ N (0, σ 2 ). Cette hypothèse implique que :

E(yi ) = E(a + bxi + i ) = a + bxi

V (yi ) = E[(yi − E(a + bxi + i ))2 ] = E(2i ) = V (i ) = σ 2


donc on a
y ∼ N (a + bxi , σ 2 ) (12)
On déduit également des résultats précédents :
â ∼ N (a, V (â)) (13)
b̂ ∼ N (b, V (b̂)) (14)

En utilisant les résultats (13) et (14), les statistiques suivantes vont suivre une loi normale
centrée réduite :
â − a b̂ − b
p ∼ N (0, 1) q ∼ N (0, 1)
V (â) V (b̂)

En se xant, une marge d'erreur de α%, on peut déterminer un intervalle de conance


concernant la valeur des paramètres. Choisissons le paramètre b par exemple. On a dans ce
cas : " #
b̂ − b
P − Zα/2 ≤ q ≤ Zα/2 = 1 − α
V (b̂)
" q q #
P b̂ − Zα/2 V (b̂) ≤ b ≤ b̂ + Zα/2 V (b̂) = 1 − α

donc l'intervalle de conance pour la valeur de b avec une erreur de α% est :


" q q #
IC(b̂) = b̂ − Zα/2 V (b̂); b̂ + Zα/2 V (b̂)

14
Cependant, on ne peut pas directement calculer cet intervalle de conance. En eet, on ne
peut pas déterminer V (b̂) car on ne connaît pas la valeur de σ 2 , c.f. (6). Pour résoudre ce
problème, on fait appel à la statistique suivante :
σ̂ 2
(N − 2) ∼ χ2N −2
σ2
On sait que si on a deux variables aléatoires telles que : X ∼ N (0, 1) et Y ∼ χ2N alors
T = √X ∼ tN . En appliquant, ce résultat à notre statistique, on a :
Y /N

√b̂−b
V (b̂)
q ∼ tN −2
2
(N − 2) σ̂σ2 /(N − 2)

En remplaçant (6) dans cette expression, on obtient :


b̂ − b
t∗c = q ∼ tN −2 (15)
V̂ (b̂)
avec
ˆ2
P
2 i
σ̂
V̂ (b̂) = P = P N −2
(16)
(xi − x)2 (xi − x)2

Bien évidemment, on peut montrer la même chose pour le paramètre a en utilisant


les expressions correspondantes. La loi de Student a une densité de probabilité symétrique
comme la loi normale mais elle est plus aplatie avec des queues de distribution plus épaisses.
Notons également que la limite d'une loi de Student lorsque le nombre de degré de liberté
tend vers l'inni est une loi normale centrée réduite. Par conséquent, lorsque N → ∞,
on peut utiliser une loi normale à la place de la loi de Student. Nous allons maintenant
présenter quelques tests statistiques.

2.4.2 Test sur la valeur d'un coecient

Les coecients testés prennent des valeurs réelles particulières selon la théorie écono-
mique. Dans ce cas on teste la validité de ces hypothèses par le test suivant :

 H0 : Bi = m

H1 : Bi 6= m

15
où Bi ∈ {a, b} est un paramètre du modèle et m, la valeur du paramètre que l'on souhaite
tester. Voici les diérentes étapes du test :
1) On xe un risque d'erreur de première espèce α (en pratique on choisit α = 5%)
2) On calcule la statistique de Student donnée par l'expression (15) notée t∗c
3) On compare la valeur obtenue avec la valeur lue dans la table de la loi de Student notée
ttab . Cette valeur correspond à la valeur de la loi de Student à (N − 2) degré de liberté
avec un risque d'erreur de α%.
4) Décision du test statistique :
• Si | t∗c |> ttab , on rejette l'hypothèse H0
• Si | t∗c |< ttab , on accepte H0.

On peut également utiliser une approche alternative en déterminant l'intervalle de


conance de la valeur du paramètre testé. Dans ce cas, si la valeur assignée au paramètre
(m) appartient à l'intervalle de conance, on accepte H0 et inversement.

2.4.3 Test de signicativité d'un paramètre

Contrairement au cas précédent, ici, on cherche à savoir si le paramètre est statistique-


ment signicatif, i.e., s'il est signicativement diérent de 0.

 H0 : Bi = 0

H1 : Bi 6= 0

Voici les diérentes étapes du test :


1) On xe un risque d'erreur de première espèce α (en pratique on choisit α = 5%)
2) On calcule la statistique de Student donnée par l'expression (15) notée t∗c
3) On compare la valeur obtenue avec la valeur lue dans la table de la loi de Student notée
ttab . Cette valeur correspond à la valeur de la loi de Student à (N − 2) degré de liberté
avec un risque d'erreur de α%.
4) Décision du test statistique :
• Si | t∗c |> ttab , on rejette l'hypothèse H0
• Si | t∗c |< ttab , on accepte H0.

16
2.4.4 Intervalle de conance pour la partie aléatoire

On peut construire un intervalle de conance pour le paramètre de la partie aléatoire


en utilisant la distribution suivante :
σ̂ 2
(N − (k + 1)) ∼ χ2N −(k+1)
σ2
An de construire l'intervalle de conance, on dénit un risque de première espèce α :
!
(N − (k + 1))σ̂ 2
P χ2α ≤ ≤ χ21− α =1−α
2 σ2 2

!
(N − (k + 1))σ̂ 2 2 (N − (k + 1))σ̂ 2
P ≤ σ ≤ =1−α
χ21− α χ2α
2 2

donc l'intervalle de conance de σ 2 avec un risque de première espèce α est donné par :
" #
2 2
(N − (k + 1))σ̂ (T − (k + 1))σ̂
IC(σ 2 ) = ;
χ21− α χ2α
2 2

2.4.5 Signicativité globale d'un modèle et test de Fisher

Pour rendre compte de la signicativité globale d'un modèle, il faut dans un premier
temps présenter le tableau d'analyse de la variance :
Source de variation des
P carrés 2 degré de liberté carrés moyens
P
Régression SCE=P (ŷi − y) 1 SCE/1
Résidu SCR= P(yi − ŷi )2 N-2 SCR/N − 2
Totale SCT= (yi − y)2 N-1
Pour tester la signicativité globale du modèle, on utilise le test de Fisher. L'objectif de ce
test est de déterminer si le modèle explique ou non le phénomène étudié. Plus précisément,
on teste l'hypothèse que l'ensemble des coecients soient nuls à l'exception de la constante,
c'est à dire :

 H0 : b = 0

H1 : b 6= 0

17
Etant donné que SCE ∼ χ21 et SCR ∼ χ2N −2 , on utilise la statistique suivante :
SCE
R2
F = 1
SCR
= (N − 2) ∼ F (1, N − 2) (17)
N −2
1 − R2

Voici les diérentes étapes du test :


1) On xe un risque d'erreur de première espèce α (en pratique on choisit α = 5%)
2) On calcule la statistique de Fisher donnée par l'expression (17) notée Fc∗
3) On compare la valeur obtenue avec la valeur lue dans la table de la loi de Fisher notée
Ftab .
4) Décision du test statistique :
• Si | Fc∗ |> Ftab , on rejette l'hypothèse H0
• Si | Fc∗ |< Ftab , on accepte H0.

2.5 La prévision
Un des objectifs de l'économétrie est de servir à des ns de prévision. Par exemple, si
on réalise une modélisation économétrique des ventes d'une entreprise au cours du temps
et que l'ajustement linéaire est bon (R2 élevé), on peut souhaiter utiliser cet outil pour
prévoir les ventes futures de l'entreprise. Cela pourrait lui permettre de gérer de façon plus
optimale son outil de production, ses besoins en main-d'oeuvre et ses stocks.
Bien évidemment, pour discuter la qualité de sa prévision, l'économètre doit être capable
d'évaluer l'erreur de prévision. Cette erreur de prévision est notée ∗i = Yi∗ − Ŷi . La valeur
prévue de Y notée Yi∗ suit une loi normale d'espérance a + bx∗i où x∗i est la valeur future
de la variable explicative, i.e, Yi∗ ∼ N (a + bx∗i , σ 2 ).
L'espérance de l'erreur de prévision est :
E(∗i ) = E(a + bx∗i + i − â − b̂x∗i ) = E(i ) = 0

La variance de l'erreur de prévision est :


V (∗i ) = V (Yi∗ − Ŷi )

Remarquons que la valeur de Yi∗ dépend de l'erreur de prévision alors que la valeur de
Ŷi dépend des erreurs observées pour les autres individus/périodes. Par conséquent on a
Yi∗ ⊥Ŷi . On a donc V (∗i ) = V (Yi∗ ) + V (Ŷi ). Par hypothèse des MCO, on a V (Yi∗ ) = σ 2
et on peut écrire :
V (∗i ) = σ 2 + V (â + b̂x∗i ) = σ 2 + V (â) + (x∗i )2 V (b̂) + 2x∗i Cov(â, b̂)

18
En utilisant le fait que Cov(â, b̂) = cov(y − b̂x, b̂), Cov(c + X, Y ) = Cov(X, Y ) et que
Cov(aX, Y ) = aCov(X, Y ), on peut écrire que :
σ2
Cov(â, b̂) = −xCov(b̂, b̂) = −xV (b̂) = −x P
(xi − x)2
En réintroduisant cette dernière expression dans V (∗i ), on obtient :
(x∗ − x)2
 
1
V (∗i ) =σ 2
1+ + i
N N V (X)
De là on déduit que :
(x∗i − x)2
  
1
∗i = Yi∗ 2
− Ŷi ∼ N 0, σ 1 + +
N N V (X)
donc
Y ∗ − Ŷi
Z=q i ∼ N (0, 1)
V (Yi∗ − Ŷi )
Comme dans le modèle linéaire simple, on a :
σ̂ 2
(N − 2) ∼ χ2N −2
σ2
on sait que
Yi∗ − Ŷi
U=r h i ∼ tN −2
2 1 (x∗i −x)2
σ 1+ N
+ N V (X)

Dès lors, on détermine l'intervalle de conance pour notre prévision Yi∗ de la façon
suivante :  
 Yi∗ − Ŷi 
P −tα/2 ≤
 r h i ≤ tα/2 
=1−α
2 1 (x∗i −x)2
σ 1 + N + N V (X)

s s  !
∗ ∗
 2
 2
1 (x − x) 1 (x − x)
P Ŷi − tα/2 σ2 1 + + i ≤ Yi∗ ≤ Ŷi + tα/2 σ 2 1 + + i = 1−α
N N V (X) N N V (X)
On en déduit l'intervalle de conance de notre prévision :
" s s #
(x∗i (x∗i
  
1 − x)2 1 − x)2
IC(Yi∗ ) = Ŷi − tα/2 σ2 1 + + ; Ŷi + tα/2 σ2 1 + +
N N V (X) N N V (X)

19
3 Le modèle linéaire multiple

• Introduction
On envisage un modèle plus général que dans le chapitre précédent. La forme fonction-
nelle adoptée reste linéaire, seulement plusieurs variables peuvent intervenir pour décrire le
comportement de la variable expliquée. Le modèle linéaire multiple est une extension du
modèle linéaire simple à un nombre k > 1 de variables explicatives. Considérons à nouveau
l'exemple 1, à savoir une fonction de production Cobb-Douglas :
Y = AK α Lβ

que l'on peut log-linéariser


log(Y ) = log(A) + αlog(K) + βlog(L)

Notons que l'avantage de log-linéariser une fonction est que les paramètres de la régression
deviennent des élasticités. En conséquence, en supposant que α = 0.5, cela implique qu'une
augmentation de 1% de la quantité de capital augmente la production de 0,5%. Dans ce
modèle, il y a, en plus de la constante, deux variables explicatives. La méthode du chapitre
1 ne nous permet pas d'estimer un tel modèle. Nous allons maintenant décrire la méthode
permettant d'estimer un modèle avec k > 1 variables explicatives (hors constante).

3.1 Le modèle et ses hypothèses

3.1.1 Ecriture du modèle

Soit un modèle linéaire de la forme :


yi = b0 + b1 x1i + b2 x2i + ... + bk xki + i , i = 1, ..., N

On peut le représenter sous forme matricielle comme :

YN ×1 = XN ×(k+1) B(k+1)×1 + N ×1 (18)


ou encore

20
       
y1 1 x11 x21 . . xk1 b0 1
 y2  1 x12 x22 . . xk2  b1   2 
       
 .  . .  . 
 =  + 


 .  .  .  . 
       
 .  .  .  . 
yN 1 x1N x2N . . xkN bk N
On va donc avoir à estimer k + 1 paramètres relatifs à la partie systématique du modèle et
un paramètre relatif à la partie aléatoire (σ 2 ).

3.1.2 Les hypothèses

H1) E() = 0
H2) V () = E[( − E())( − E()) ] = E( ) = σ 2 IN
0 0

c'est à dire que l'on suppose que :


21
   2   
1 2 . . 1 N σ 0 . . 0 1 0 . . 0
 2 1
 22 . . 2 N   0 σ2
  . . 0 
0 1
 . . 0

 . . . . . =. . . . .  = σ2  . . . . .
 
V () = E 
 .

 . . . .  .
  . . . . 
. .
 . . .

 . . . . .   . . . . .  . . . . .
2
N 1 N 2 . . N 0 0 . . σ2 0 0 . . 1

Par conséquent, comme pour le modèle linéaire simple, on suppose E(2i ) = σ 2 et E(i s ) =
Cov(i s ) = 0

H3)  ∼ N (0, σ 2 IN )
H4) La matrice des variables explicatives X est une matrice certaine (exogène)
H5) Rg(X) = k + 1 < N ⇒ les k colonnes qui composent la matrice X sont des vecteurs
linéairement indépendants. En eet, si Rg(X) < k+1, cela signie qu'il existe au moins une
variable explicative dont le vecteur colonne peut s'écrire comme une combinaison linéaire
des autres vecteurs. Cette condition assure l'absence d'un problème de multicolinéarité
stricte (corrélation parfaite entre au moins deux variables).
H6) Cov(X, ) = 0 ⇒ la covariance entre la partie systématique et celle aléatoire est nulle.

21
3.2 Les estimateurs et leurs propriétés

3.2.1 Estimation des coecients de la régression et propriétés des estimateurs

Etant donné que la structure fondamentale du modèle n'a pas été modiée, la méthode
des MCO reste la méthode de calcul la plus appropriée permettant d'obtenir un vecteur B̂
ecient. Comme pour le modèle linéaire simple, la fonction objectif est :
X X
min ˆ2i = min (yi − b0 − b1 x1i − ... − bk xki )2
b0 ,...,bk b0 ,...,bk

Pour trouver les valeurs estimées des paramètres, il faut satisfaire les conditions du premier
ordre : P 2
∂( ˆi )
= 0, j = 0, ..., k
∂bj
C'est à dire que nous devons résoudre un système de P = k + 1 équations à P inconnues.
Une manière plus rapide pour calculer les estimateurs est d'écrire le modèle sous forme
matricielle (sous forme d'un système d'équations). La fonction objectif devient :
0
X
min 2i = min 0  = min(Y − XB) (Y − XB)
B B B
0 0 0
= min(Y − B X )(Y − XB)
B
0 0 0 0 0 0
= min(Y Y − Y XB − B X Y + B X XB)
B
0 0 0 0 0
= min(Y Y − 2B X Y + B X XB)
B
= min S(B)
B

Les conditions de premier ordre impliquent :


 
0
 ∂S(B) 
∂b0
 .  . 
  
.

∂S  .  
   0 0
= 0 ⇔  ∂S(B)  =  . 
 ⇔ −2X Y + 2X X B̂ = 0
∂B  ∂bj    
  .
 .   .
∂S(B)
∂bk 0

Par conséquent, l'estimateur des MCO est donné par :


(19)
0 0
B̂ = (X X)−1 X Y

22
Note : Dénition d'un estimateur non biaisé et ecace

On dit qu'un estimateur de m noté m̂ est dit sans biais ssi E(m̂) = m.
Suposons que nous ayons N estimateurs non biaisés de m notés : m̂1 , m̂2 , ...m̂n , N =
1, ..., n. On appelle estimateur ecace / estimateur BLUE l'estimateur non biaisé dont
la variance est minimale. Supposons trois estimateurs non biaisés de m notés m̂1 , m̂2 , m̂3
et que V (m̂1 ) < V (m̂2 ) < V (m̂3 ). L'estimateur le plus ecace de m est m̂1 .
Montrons que l'estimateur des MCO est sans biais :

0 0
E(B̂) = E[(X X)−1 X Y ]
0 0
= E[(X X)−1 X (XB + )]
0 0 0 0
= E[(X X)−1 X XB + (X X)−1 X )]
0 0
= E[B + (X X)−1 X )]
0 0
= E(B) + (X X)−1 X E()
=B

Calculons maintenant la variance de l'estimateur B̂ :

0
V (B̂) = E[(B̂ − B)(B̂ − B) ]
0 0 0 0 0
= E[(X X)−1 X ((X X)−1 X ) ]
0 0 0 0
= E[(X X)−1 X  X(X X)−1 ]
0 0 0 0
= (X X)−1 X E( )X(X X)−1
0 0 0
= (X X)−1 X σ 2 IN X(X X)−1
0
= σ 2 (X X)−1

Comme dans le modèle linéaire simple, on retrouve dans la variance de B̂ la variance de


, σ 2 , et X X , c'est à dire la quantité d'information apportée par X . D'après le Théorème
0

de Gauss-Markov, sous les hypothèses H1 à H6, il n'existe pas d'estimateur linéaire sans
biais des coecients B ayant une variance plus petite que celle des estimateurs des moindres
carrés. On dit que l'estimateur des MCO est BLUE (Best Linear Unbiaised Estimator), ou
ecace. C'est l'estimateur le plus précis de l'ensemble des estimateurs linéaires sans biais
de B .

23
3.2.2 Estimation du coecient de la partie aléatoire

Comme pour le modèle linéaire simple, pour calculer la variance des coecients estimés
B̂ , nous devons connaître σ 2 . Or, on ne connaît pas σ 2 et il faut donc l'estimer. Comme
pour le modèle linéaire multiple, on a :
0 0 0
V (ˆ) = E(ˆ ˆ) = E[T r(ˆˆ )] = T r(E[ˆˆ ]) = T r(V ar(ˆ)) = T r(σ 2 PX ⊥)

Comme PX ⊥ est la matrice de la projection orthogonale sur un espace de dimension


(N − (k + 1)), on a :
(20)
0
E(ˆ ˆ) = (N − (k + 1))σ 2
Par conséquent, un estimateur sans biais de σ 2 est donné par :
0
E(ˆ ˆ)
σ̂ 2 = (21)
N − (k + 1)
Notons que E( ) = SCR = Y Y − B̂ X Y , en eet :
0 0 0 0

0 0
ˆ ˆ = (Y − X B̂) (Y − X B̂)
0 0 0 0 0
= Y Y − 2B̂ X Y + B̂ X X B̂
0 0 0 0 0
= Y Y − 2B̂ X Y + B̂ X Y
0 0 0
= Y Y − B̂ X Y

3.3 Analyse de la variance et coecient de détermination

3.3.1 Analyse de la variance

L'analyse de la variance est une procédure statistique qui consiste à reproduire le modèle
linéaire multiple en termes de variation. Cela permet d'apprécier la qualité de l'ajustement
linéaire en calculant le coecient de détermination noté R2 et de donner une idée sur la
signicativité globale du modèle. On note par convention :
Variation totale (SCT) = Variation liée à la régression (SCE) + Variation résiduelle (SCR)

24
Ce qui correspond à :
(22)
X X X
(yi − y)2 = (ŷi − y)2 + (yi − ŷi )2

Pour rendre compte de la signicativité globale d'un modèle, il faut présenter le tableau
d'analyse de la variance :
Source de variation des carrés degré de liberté carrés moyens
P

Régression SCE=Ŷ Ŷ − N Y k
0 2
SCE/k
Résidu SCR=Y Y − B X Y N-(k+1)
0 0 0
SCR/N − (k + 1)
Totale SCT=Y Y − N Y N-1
0 2

3.3.2 Le coecient de détermination

0 0 0
SCE SCR Y Y −B X Y
R2 = =1− =1− 2
SCT SCT Y 0Y − NY
Si le R2 est une statistique simple et intuitive qui apporte une information importante
sur la qualité du modèle, il convient de préciser ses limites. La première est que le R2 est
fortement sensible aux transformations du vecteur Y (il va varier si on passe en logarithme,
en taux de croissance,...). La seconde est que le R2 augmente toujours quand on intro-
duit une variable de plus, même si cette dernière a un très faible pouvoir explicatif. Par
conséquent, le R2 ne sera pas approprié pour comparer des modèles entre eux. Or, il arrive
parfois que l'on désire comparer plusieurs équations de régression multiple comportant la
même variable expliquée mais dont les équations dièrent soit par le nombre d'observations
soit par le nombre de variables explicatives. Le coecient ajusté noté R permet de tenir
2

compte du nombre de degrés de liberté associé à la SCR qui diminue au fur et à mesure
qu'une nouvelle variable explicative est introduite dans le modèle. Ce coecient est donné
par :
2 SCR N −1
R =1− ×
N − (k + 1) SCT
ou
N −1
(23)
2
R = 1 − (1 − R2 )
N − (k + 1)
Si on compare deux modèles, on prendra celui qui a le R le plus élevé. Néanmoins cette
2

statistique peut-être insusante pour guider le modélisateur dans son choix des variables

25
explicatives (doit-on préféré un modèle avec 12 variables explicatives au lieu de 4 si le R
2

est légèrement plus élevé ?). De plus, à l'instar du R2 , le R présente l'inconvénient de ne


2

pas pouvoir s'interpréter à partir de l'équation d'analyse de la variance. En outre, il peut


être négatif si :
N − (k + 1)
1 − R2 >
N −1

3.4 Les tests statistiques

3.4.1 Les tests individuels

Comme pour le modèle linéaire simple, les tests individuels sont élaborés à partir d'une
statistique distribuée selon la loi de Student. On peut par exemple, tester la valeur d'un des
paramètres estimés : 
 H0 : bj = m

H1 : bj 6= m

En utilisant la statistique :
b̂j − m
tc = q ∼ tN −(k+1)
V̂ (b̂j )

où V̂ (b̂j ) est la jieme composante sur la diagonale principale de la matrice de va-


riance/covariance estimée :

 
ˆ b̂0 , b̂1 )
V̂ (b̂0 ) Cov( . . ˆ b̂0 , b̂k )
Cov(
 . V̂ (b̂1 ) . . .
 

0
V̂ (B̂) = σ̂ 2 (X X)−1 = . . . . .
 

 
 . . . V̂ (b̂j ) . 
. . . . V̂ (b̂k )

La décision se prend alors de la façon suivante :


- si | tc |> ttab alors on rejette H0
- si | tc |< ttab alors on accepte H0

26
Finalement, les tests d'égalité simple ainsi que la construction des intervalles de conance
pour les coecients bj et pour σ sont traités de la même manière que pour le modèle linéaire
simple. La seule diérence concerne le degré de liberté (on passe de N − 2 à N − (k + 1)).

3.4.2 Généralisation
La généralisation du modèle nous permet d'envisager d'autres tests. On pourrait postuler
certaines relations linéaires qui existent entre deux ou plusieurs paramètres du modèle. Par
exemple, on pourrait souhaiter tester :

 H0 : ρb0 + βb1 = c

H1 : ρb0 + βb1 6= c

Pour réaliser ce test, on utilise la statistique suivante :


ρb̂0 + β b̂1 − c
tc = q ∼ tN −(k+1)
V̂ (ρb̂0 + β b̂1 )

V̂ (ρb̂0 + β b̂1 ) = ρ2 V̂ (b̂0 ) + β 2 V̂ (b̂1 ) + 2ρβcov(b̂0 , b̂1 )

La décision se prend alors de la façon suivante :


- si | tc |> ttab alors on rejette H0
- si | tc |< ttab alors on accepte H0

3.4.3 Contraintes linéaires sur les coecients


L'idée ici est de tester s'il existe une ou plusieurs contraintes linéaires liant les coecients
bj entre eux. Considérons le modèle suivant :
yi = b0 + b1 x1i + b2 x2i + b3 x3i + i
Avec ce modèle, on pourrait vouloir tester :


 H0 : b0 − b1 =0
b2 − b3 =0


 H1 : b 0 − b1 6= 0
b2 − b3 6= 0

Notons que l'on peut réécrire ces contraintes sous forme matricielle :

27
 
  b0  
1 −1 0 0 
 = 0
b 1

0 0 1 −1 b2  0
b3

Cas général à r contraintes


1) Estimation d'un modèle sous contrainte
La fonction objectif s'écrit :
0 0
min S =   = (Y − XB) (Y − XB)
B
s.c Cr×k Bk×1 = cr×1
La résolution de ce problème d'optimisation est donnée par :
0 −1
h i
(24)
0 0 0
B̂C = B̂N C − (X X)−1 C C(X X)−1 C (C B̂N C − c)

avec B̂N C l'estimateur des MCO sans contrainte (estimation classique) et B̂C l'estima-
teur des MCO sous contrainte. Notons que B̂N C reste un estimateur sans biais, que les
contraintes CB = c correspondent au non à la réalité, dès lors que les hypothèses H1 à H6
sont respectées. L'estimateur B̂C permet d'améliorer la précision de l'estimation lorsque les
contraintes sont justiées. En revanche, si les contraintes ne correspondent pas à la réalité,
B̂C est biaisé. Nous devons par conséquent tester la validité des contraintes.
2) Test de validité des contraintes
Dans ce cas, on va chercher à savoir quel est le modèle le plus approprié :


 H0 : Y = XB + 
s.c CB = c



H1 : Y = XB + 

Pour réaliser ce test, on utilise la statitique suivante :


h i−1
0 0 0
(C B̂N C − c) C(X X)−1 C (C B̂N C − c)
Fc = ∼ F(r,N −(k+1))
rσ̂ 2

SCRC − SCRN C ddlN C


= × ∼ F(r,N −(k+1))
ddlC − ddlN C SCRN C

2 2
RN C − RC N − (k + 1)
= 2
× ∼ F(r,N −(k+1))
1 − RN C r

28
La décision se prend alors de la façon suivante :
- si | Fc |> Ftab alors on rejette H0, on prend le modèle non contraint
- si | Fc |< Ftab alors on accepte H0, on prend le modèle contraint

c) Le test de Fisher : un exemple de tests de contraintes linéaires


Remarquons que le test de Fisher (test de signicativité globale) vu au chapitre précé-
dent est simplement un cas particulier de test avec contraintes linéaires sur les coecients.
Plus précisément, l'idée est de tester l'hypothèse que tous les coecients soient nuls sauf
la constante : 
 H0 : b1 = b2 ... = bk = 0

H1 : ∃bi 6= 0, ∀i = 1, ..., k

Notons que les contraintes posées par H0 peuvent se réécrire sous forme matricielle comme :
     
1 0 0 . . b1 0
0 1 0 . . b2  0
 .  = .
     
. . . . .
     
. . . . .  .  .
0 0 . 0 1 bk 0
c'est à dire
Ck×k Bk×1 = ck×1
En appliquant la statistique utilisée pour le cas général, on a :
2 2
RN C − RC N − (k + 1)
Fc = 2
×
(1 − RN C ) r

Mais cette expression peut se simplier puisque RC2 = 0 car le modèle contraint implique
un modèle qui n'a aucun pouvoir explicatif. On peut donc utiliser la statistique simpliée
suivante : 2
RN C N − (k + 1)
Fc = 2
× ∼ F (k, N − (k + 1))
(1 − RN C ) k
La décision se prend alors de la façon suivante :
• si | Fc |> Ftab alors on rejette H0, le modèle est globalement signicatif
• si | Fc |< Ftab alors on accepte H0, le modèle est globalement non signicatif

Remarque : Il n'y a pas d'équivalence entre un test de Fisher examinant (simultané-


ment) si l'ensemble des paramètres sont non signicatifs et un ensemble de tests de Student
examinant de manière individuelle, la signicativité de chaque paramètre.

29
3.5 La prévision
De manière analogue au modèle linéaire simple, on peut calculer un intervalle de
conance d'une prévision réalisée avec un modèle linéaire multiple. A partir des valeurs
prévues des variables explicatives notées = (x1∗ , x2∗ , ..., xk∗ ) et de la prévision donnée
0
W
par Ŷi = b̂0 + b̂k xk∗ , on dénit l'intervalle de conance de la prévision donné par :
P

h p p i
Ic(Yi∗ ) = Ŷi − tα/2 σ 2 (1 + W 0 (X 0 X)−1 W ); Ŷi + tα/2 σ 2 (1 + W 0 (X 0 X)−1 W )

4 Les moindres carrés généralisés

4.1 Introduction
La méthodologie développée dans les deux premiers chapitres présente l'estimation et le
traitement statistique d'un modèle linéaire en se basant sur un ensemble d'hypothèses. C'est
à partir de cet ensemble d'hypothèses que nous sommes parvenus à proposer la principale
méthode de calcul, les MCO qui fournissent des estimateurs BLUE. Parfois certaines de
ces hypothèses paraissent restrictives et le modélisateur se trouve obligé d'apporter des
modications pour alléger ces hypothèses er les rendrent plus réalistes.
Dans ce chapitre, on cherche à savoir ce qu'il se passe lorsque l'hypothèse V () = σ 2 IN
n'est pas vériée. Souvent sur des données en coupe transversale (données individuelles),
on a besoin de tenir compte d'une hétérogénéité du comportement. Si on tient à faire
apparaître cet eet au niveau de la partie aléatoire du modèle, les erreurs ne peuvent plus
être homoscédastiques mais seront plutôt hétéroscédastiques. Cela signie que la variance
résiduelle dépend de l'observation considérée. Par conséquent, dans la suite du chapitre,
nous remplaçons l'hypothèse H2 par :
V (i ) = σi2 , ∀i = 1, ..., N (25)
D'autres problèmes peuvent apparaître comme l'autocorrélation ou la non dépendance
des erreurs. Cela caractérise beaucoup plus les modèles qui traitent de séries temporelles.
En présence d'autocorrélation, l'hypothèse d'indépendance des erreurs (H2) est modiée de
la façon suivante :

Cov(i , s ) = E(i , s ) = σis 6= 0, ∀i 6= s (26)

30
Usuellement, on associe le problème d'hétéroscédasticité au modèle en coupe instanta-
née quoi que ces deux phénomènes existent dans les deux types de données.

4.2 Le Modèle
On considère le modèle linéaire multiple suivant :
Y = XB + 
Nous modions l'hypothèse H2 faite dans le chapitre précédent par H2∗ :
V (i ) = σi2
E(i , s ) = σis
Ce changement d'hypothèse rend la méthode des MCO non appropriée. En eet, la matrice
de var/cov des erreurs ne s'écrit plus σ 2 IN . Avec l'hypothèse H2∗ , on a :

21 1 2
  2 
. . 1 N σ1 σ12 . . σ1N
 2 1 22 . . .   σ21 σ22 . . . 
= .  = Ω 6= σ IN
0
    2
 .
E( ) = E  . . . .  . . . . 

 . . . . .   . . . . . 
N 1 . . . 2N σN 1 . . . σN2

Remarque : Le fait de supposer que Ω est connue constitue une hypothèse restrictive
et souvent non réaliste dans diérentes applications. D'un autre côté, supposer que Ω est
totalement inconnue entraîne un problème d'identication qui n'admet pas de solution. Pour
contourner ce problème, on va supposer que Ω peut-être exprimée à un terme multiplicatif
près (σ 2 ) en fonction d'une matrice symétrique et dénie positive V de forme connue ou
qui dépend d'un nombre réduit de paramètres inconnus. Plus précisément, on écrit que :
(27)
0
E( ) = Ω = σ 2 V
L'application des MCO sur cette nouvelle structure induit des erreurs car la matrice des
var/cov de B̂ n'est plus égale à σ 2 (X X)−1 . En eet :
0

0
V (B̂M CO ) = E[(B̂M CO − B)(B̂M CO − B) ]
0 0 0 0 0
= E[(X X)−1 X ((X X)−1 X ) ]
0 0 0 0
= E[(X X)−1 X  X(X X)−1 ]
0 0 0 0
= (X X)−1 X E( )X(X X)−1
0 0 0
= (X X)−1 X σ 2 V X(X X)−1
0 0 0 0
= σ 2 (X X)−1 X V X(X X)−1 6= σ 2 (X X)−1

31
Par conséquent l'estimateur des MCO B̂M CO = (X X)−1 X Y n'est plus BLUE. Certes, il
0 0

demeure un estimateur non biaisé de B mais sa variance n'est plus minimale. De ce fait,
les conclusions des tests ne sont plus valides et les prévisions ne seront plus optimales.
Les eorts menés à n de fournir de nouveaux estimateurs BLUE ont donné naissance
à une procédure d'estimation générale appelée méthode des moindres carrés généralisés
(MCG). L'idée consiste à transformer le modèle en vue de ramener l'hypothèse H2∗ à sa
forme initiale H2. En eet, si la matrice V est connue, on peut identier une matrice de
transformation régulière P qui vérie la relation suivante :
(28)
0 0
P V P = I ⇔ P P = V −1

4.3 Estimation du modèle pour V connue


4.3.1 Estimation des coecients de la régression et propriétés des estimateurs

La relation donnée par (28) est de première importance car la transformation du modèle
de départ par la matrice P permet d'obtenir des résidus transformés qui vérie les hypothèses
classiques des MCO. En eet, multiplions le modèle Y = XB +  par P :
P Y = P XB + P 
Ỹ = X̃B + ˜

Appliquons la méthode des MCO à ce modèle transformé. La fonction objectif consiste


toujours à minimiser la somme des carrés des résidus :
0
min(Ỹ − X̃B) (Ỹ − X̃B)
B
0 0 0 0 0 0
⇔ min(Ỹ Ỹ − Ỹ X̃B − B X̃ Ỹ + B X̃ X̃B)
B
0 0 0 0 0
⇔ min(Ỹ Ỹ − 2B X̃ Ỹ + B X̃ X̃B)
B
⇔ min S(B)
B

Les conditions de premier ordre impliquent :


∂S 0 0
= 0 ⇔ −2X̃ Ỹ + 2X̃ X̃B = 0
∂B

32
Par conséquent, l'estimateur des MCG est donné par :
0 0
B̂M CG = (X̃ X̃)−1 X̃ Ỹ
0 0
= [(P X) P X]−1 (P X) P Y
0 0 0 0 (29)
= (X P P X)−1 X P P Y
0 0
= (X V −1 X)−1 X V −1 Y

Montrons à présent que cet estimateur est BLUE. Pour cela, nous vérions dans un premier
temps que B̂M CG est non biaisé :
0 0
E(B̂M CG ) = E[(X V −1 X)−1 X V −1 (XB + )]
0 0
= B + (X V −1 X)−1 X V −1 E()
=B

Calculons maintenant la matrice de var/cov de B̂M CG :


0
V (B̂M CG ) = E[(B̂M CG − E(B̂M CG ))(B̂M CG − E(B̂M CG )) ]
0 0 0 0 0
= E[(X V −1 X)−1 X V −1 )(X V −1 X)−1 X V −1 ) ]
0 0 0 0 0
= (X V −1 X)−1 X V −1 E( )(V −1 ) X(X V −1 X)−1
0 0 0 0
= (X V −1 X)−1 X V −1 σ 2 V (V −1 ) X(X V −1 X)−1
0 0 0 0
= σ 2 (X V −1 X)−1 X (V −1 ) X(X V −1 X)−1
0
= σ 2 (X V −1 X)−1 < V (B̂M CO )

L'estimateur des moindres carrés généralisés est un estimateur ecace (non biaisé et de
variance minimale).

4.3.2 Estimation du coecient de la partie aléatoire

Comme pour le modèle linéaire multiple, une estimation non biaisée de la partie aléatoire
est donnée par :
0 0
2 SCR ˆ˜ ˆ˜ ˆ V −1 ˆ
σ̂ = = =
N − (k + 1) N − (k + 1) N − (k + 1)

33
avec
0 0
SCR = ˆ˜ ˆ˜ = (Ỹ − X̃ B̂) (Ỹ − X̃ B̂)
0 0 0 0 0
= Ỹ Ỹ − 2B̂ X̃ Ỹ + B̂ X̃ X̃ B̂
0 0 0 0 0 0 0
= Ỹ Ỹ − 2B̂ X̃ Ỹ + B̂ X̃ X̃(X̃ X̃)−1 X̃ Ỹ
0 0 0 0 0
= Ỹ Ỹ − 2B̂ X̃ Ỹ + B̂ X̃ Ỹ
0 0 0
= Ỹ Ỹ − B̂ X̃ Ỹ
0 0 0 0 0
= Y P P Y − B̂ X P P Y
0 0 0
= Y V −1 Y − B̂ X V −1 Y

4.4 Estimation du modèle lorsque V est inconnue


La démarche proposée précédemment devient plus complexe lorsque V est totalement ou
partiellement inconnue. La meilleure procédure préconisée est celle des MCG en deux étapes.
Dans un premier temps, on cherche à obtenir un estimateur convergent de V en exploitant
les résidus estimés des MCO. Dans un second temps, on utilise l'estimateur des MCG en
remplaçant la matrice V par l'estimateur convergent V̂ . Par conséquent, l'estimateur des
moindres carrés quasi-généralisés (MCQG) de B est :
(30)
0 0
B̂M CQG = (X V̂ −1 X)−1 X V̂ −1 Y

Lorsque la matrice de var/cov des erreurs est inconnue, le plus judicieux est d'utiliser des
structures particulières relativement simple de V . Dans la suite, nous présentons la situation
la plus couramment utilisée sur des données en coupe transversale, à savoir, l'hétéroscédas-
ticité.

4.5 Une illustration : un modèle avec hétéroscédasticité des


erreurs
4.5.1 Spécication du modèle et estimation

La prise en compte du problème d'hétéroscédasticité ne peut être formulé d'une manière


unique. Chaque cas pratique peut constituer une situation particulière. On retiendra ici le

34
cas le plus couramment rencontré dans les applications empiriques, celui où la variance des
erreurs est supposée corrélée à une variable w connue. De manière plus général, on modie
l'hypothèse H2 des MCO par :
V (i ) = σ 2 wi et Cov(i , s ) = 0 (31)
C'est à dire que l'on suppose une matrice de var/cov des erreurs diagonale :
 
w1 0 . . 0
 0 w2 . . . 
0  
V () = E( ) = σ 2 
 . . . . . 

 . . . wi . 
0 . . . wN

En appliquant la méthode des MCO sur le modèle transformé, on obtient l'estimateur des
MCG de B̂ qui prend la forme particulière suivante :
0 0
B̂M CG = (X V −1 X)−1 X V −1 Y
  1  −1 1 
w1
0 . 0 w1
0 . 0
 00 1 1
w2
. .   0
0
w2
. . 
B̂M CG = 
X  0
  X X  Y
. . .   0 . . . 
1 1
0 . . wN
0 . . wN

On appel l'estimateur B̂ utilisant cette forme particulière de la matrice de var/cov des


erreurs, l'estimateur des moindres carrés pondérés.

4.5.2 Les Tests d'hétéroscédasticité

• Le Test de Goldeld et Quandt


Ce test n'est applicable que si l'un des régresseurs est la cause de l'hétéroscédasticité. De
ce fait on postule l'existence d'une dépendance entre un régresseur quelconque du modèle
et la variance des erreurs. Ceci autorise à formuler :
σi2 = σ 2 x2ki
L'objectif de ce test est de savoir si les termes d'erreurs sont homoscédastiques ou hétéros-
cédastiques
 H0 : σi2 = σ 2 ,

∀i

H1 : σi2 6= σ 2

35
Le test se réalise en trois étapes :
1) On classe les observations de l'échantillon considéré selon l'ordre croissant de la
variable xk
2) On omet de l'échantillon c observations centrales et on divise le reste en deux sous-
échantillon de même taille ((N − c)/2). Généralement, le nombre de valeurs centrales retiré
de l'échantillon est environ égal au quart de l'ensemble des observations
3) On eectue des estimations séparées par les MCO sur les deux sous-échantillons.
Sous l'hypothèse nulle d'homoscédasticité des erreurs, le rapport des variations résiduelles
respectives permet d'établir la statistique suivante :

N −c
− (k + 1)
 
SCR2 2 N −c N −c
Fc = N −c × ∼F − (k + 1); − (k + 1)
2
− (k + 1) SCR1 2 2

SCR1 indique la variation résiduelle estimée à partir du premier échantillon et SCR2 la


variation résiduelle estimée du second échantillon. La règle de décision est habituelle :
1) si Fc < Ftab alors on accepte H0 (les erreurs sont homoscédastiques)
2) si Fc > Ftab alors on rejete H0 (les erreurs sont hétéroscédastiques)

• Le Test de White
Ce test est plus général que le test précédent dans le sens où il n'impose aucune forme
à priori de l'hétéroscédasticité. Comme pour le test précédent, on cherche à savoir si :
 H0 : σi2 = σ 2 ,

∀i

H1 : σi2 6= σ 2

Ce test se réalise en deux étapes :


1) On estime le modèle par les MCO.
2) On régresse les résidus estimés par les MCO sur l'ensemble des régresseurs, leur carré
et leur produit.

X X X
2i = b0 + bk xki + λk x2ki + µkl xki xli + νi
k k k6=l

36
La statistique du test de White repose sur le calcul du coecient de détermination R2
tiré de la régression ci-dessus. Sous l'hypothèse nulle d'homoscédasticité des erreurs, on
montre que :
χ2c = N R2 ∼ χ2P
où P représente le nombre de régresseurs dans l'équation, i.e, P = 2k + k(k−1)
2
La règle de décision est habituelle :
• si χ2α < χ2c < χ21− α alors on accepte H0 (les erreurs sont homoscédastiques)
2 2

• si χ2c < χ2α ou χ2c > χ21− α alors on rejete H0 (les erreurs sont hétéroscédastiques)
2 2

37
5 Introduction à l'économétrie des séries temporelles

5.1 Les Processus Aléatoires Stationnaires et les Processus ARMA


5.1.1 Séries Temporelles

38
Une série temporelle (ou série chronologique) à temps discret est une suite réelle nie yt ,
t = 1, ..., T , où t représente le temps (en minute, jour, année...). Un des objectifs principaux
de l'étude d'une série temporelle est la prévision des réalisations futures (prévoir l'évolution
de la vente d'un produit pour ajuster au mieux les moyens de production, prévoir l'évolution
d'un marché nancier,...).
 Tendances et composantes saisonnières
On parle de tendance lorsque la série yt , t = 1, ..., T peut s'écrire, à une erreur d'ajus-
tement t près, comme une combinaison linéaire de m fonctions du temps, choisies a priori
(par exemple fonction puissance, exponentielle, logarithmique...) :
m
(32)
X
yt = αj fj (t) + t
j=1

→ La tendance est linéaire lorsque yt = αt + β + t .


→ La tendance est polynomiale lorsque yt = α1 tp + α2 tp−1 + ... + α0 + t

On parle de composante périodique lorsque la série yt , t = 1, ..., T peut se décomposer


en :

yt = st + t (33)
où st est périodique, c'est-à-dire st+T = st , avec T la période (supposée entière). Lorsque
la période est de 6 mois ou 1 an, on parle généralement de composante saisonnière.

5.1.2 Indices descriptifs d'une série temporelle

 Moment d'ordre 1 : Indice de tendance centrale


Usuellement on utilise la moyenne empirique :
t=T
1X
y= yt (34)
T t=1

 Moment d'ordre 2 : Indice de dispersion


On utilise la variance empirique :
t=T
1X
2
σ̂ (0) = [yt − y]2 (35)
T t=1

39
   Indices de dépendance
• L'auto-covariance empirique d'ordre 1 renseigne sur la dépendance entre deux données
successives :
t=T −1
1
(36)
X
2
σ̂ (1) = (yt − y)(yt+1 − y)
T − 1 t=1
• L'auto-covariance empirique d'ordre 2 renseigne sur la dépendance entre deux données
écartées de deux pas de temps :
t=T −2
1
(37)
X
2
σ̂ (2) = (yt − y)(yt+2 − y)
T − 2 t=1
• Les auto-corrélations empiriques sont les quotients des covariances empiriques et de
la variance empirique
σ̂(h)
ρ̂(h) = (38)
σ̂(0)
Ce sont les auto-corrélations empiriques que nous utiliserons pour caractériser la dépen-
dance entre les variables.

5.1.3 Méthode économétrique et gestion de la tendance et des saisonalités

Une série temporelle yt , t = 1, ..., T est l'observation des T premières réalisations d'un
processus stochastique Yt . C'est ce processus que l'on cherche désormais à modéliser. Pour
cela, la démarche suivante doit être adoptée :
- représenter graphiquement la série an de repérer les tendances et saisonnalités,
- estimer et supprimer les tendances et saisonnalités (partie déterministe du processus sto-
chastique),
- choisir un modèle pour les résidus (partie aléatoire du processus stochastique) et l'estimer,
- prédire les réalisations futures à l'aide de ce modèle.

 Dénitions
• bruit blanc
Un processus de bruit blanc est une suite de variables aléatoires Yt indépendantes,
d'espérance et de variance constantes. Si l'espérance est nulle, le bruit blanc est centré, et
si les variables aléatoires sont gaussiennes, le bruit blanc est gaussien.

40
• Processus stationnaire
Un processus aléatoire Yt est stationnaire s'il est d'espérance constante :

E[Yt ] = µ, ∀t
et si les covariances sont stables par translation dans le temps, c'est-à-dire, pour tout
h:

Cov[Yt , Yt+h ] = σ(h), ∀t


On appelle fonction d'auto-covariance du processus stationnaire la suite σ(h), et fonction
d'auto-corrélation du processus stationnaire la suite ρ(h) = σ(h)/σ(0) .
• Processus non stationnaire déterministe
On dit que le processus Yt est caractérisé par une non stationnarité déterministe, ou
encore que le processus Yt est TS (Trend stationary) s'il peut s'écrire :
Yt = f (t) + t

où f (t) est une fonction qui dépend du temps et t est un processus stationnaire. Ainsi, ce
processus est rendu stationnaire en lui enlevant sa tendance déterministe :
Yt − f (t) = t est stationaire
Le processus t peut être modélisé par un processus ARM A(p, q) stationnaire (le bruit blanc
étant un cas particulier). f (t) est une fonction déterministe, par exemple f (t) = a + bt (cas
le plus couramment retenu), mais on pourrait aussi considérer, entre autres, une tendance
quadratique f (t) = a + bt + ct2 .
Une première conséquence économique d'un processus TS est qu'un choc imprévu (t )
n'a pas d'eet persistant sur le processus puisqu'il ne peut pas modier sa partie tendancielle
(sa croissance), qui est ici exogène. Il n'aura donc d'eet que sur la partie cyclique, supposée
être stationnaire, donc son eet sera forcément temporaire. Une deuxième conséquence
économique est que la décomposition tendance-cycle est naturelle dans ce cas : la tendance
est donnée par f(t) et le cycle par les écarts de la série à sa tendance, soit t . Les deux
composantes ne sont pas corrélées.
• Processus non stationnaire stochastique
On dit que le processus Yt est caractérisé par une non stationnarité stochastique, ou
encore que le processus Yt est DS (Dierence stationnary) si le processus diérencié une
fois 4Yt = Yt − Yt−1 est stationnaire. On parle aussi de processus intégré d'ordre 1, on
note Yt ∼ I(1) :

41
4Yt = t
Les exemples les plus connus de processus I(1) sont, d'une part, la marche aléatoire
pure :

Yt = Yt−1 + t
et, d'autre part, la marche aléatoire avec dérive :
Yt = c + Yt−1 + t

Une première conséquence importante (d'avoir un processus DS) est qu'un choc im-
prévu (t ) à une date donnée inuence la tendance et le futur du processus. Le processus
est caractérisé par de la persistance des chocs ou de l'hystérèse. Autrement dit, un choc
temporaire à une date donnée a un eet permanent sur le niveau du processus puisque le
processus ne rejoindra jamais sa valeur initiale suite à ce choc. Une deuxième conséquence
est que la décomposition tendance-cycle n'est plus explicite dans cette formulation.
 Estimation paramétrique de la tendance (trend)
Nous supposons que la série temporelle étudiée soit la réalisation d'un processus sto-
chastique composé d'une tendance déterministe mt et d'une partie aléatoire t (supposée
de moyenne nulle) :
Yt = mt + t
Une hypothèse que nous pouvons formuler sur la tendance déterministe est celle de linéarité :
mt = a + bt

Pour estimer un trend linéaire, il sut d'appliquer la méthode des MCO vu


aux chapitres précédents.
 Estimation non paramétrique de la tendance : moyenne mobile
Supposons que la tendance mt soit linéaire dans un petit intervalle [t − q, t + q] autour
de t. Dans ce cas, un bon estimateur de la tendance est la moyenne sur cet intervalle :
t=q
1 X
m̂t = yt+k
2q + 1 k=−q

On peut donc estimer la tendance à chaque temps t en calculant la moyenne sur les
observations étant dans une fenêtre de largeur 2q + 1 autour de t : c'est ce que l'on appelle
une estimation par moyenne mobile.

42
 Tendance et saisonnalité
Supposons désormais que le processus ne comporte pas uniquement une tendance, mais
également une saisonnalité :
Yt = mt + st + t
avec st une fonction T-périodique. Dans ce cas, le principe d'estimation est (en simpliant
légèrement) le suivant : on estime la tendance moyenne sur une période, puis on estime
la composante saisonnière en moyennant sur toutes les périodes les écarts à la tendance
moyenne de la période.
   Elimination de la tendance et de la saisonnalité par la méthode des
diérences
Cette méthode permet de supprimer la tendance et la saisonnalité d'une série temporelle
sans les estimer. Soit 4T l'opérateur qui associe (Yt − Yt−T ) à Yt :
4T Yt = (Yt − Yt−T )

On note 4 l'opérateur 41 et 4kT l'opérateur 4kT qui est égal à 4T ◦ ... ◦ 4T (k fois).
En appliquant k fois 4, on élimine la tendance. Il est important de remarquer que si
l'on applique 4t quelque soit t, le résultat est le même quant à l'élimination de la tendance.
Comme en pratique il n'est pas évident de connaître le degré k, on appliquera l'opérateur
4 jusqu'à ce que la moyenne du processus soit nulle (k sera généralement 1, 2 ou 3).
Soit un processus admettant une tendance mt et une saisonnalité, de période T :
Yt = mt + st + t .

Dans ce cas,
4T Yt = (mt − mt−T ) + (t − t−T )
est un processus désaisonnalisé. De plus, si la tendance du processus est linéaire, elle est
également supprimée.
 Test sur la série résiduelle
L'objectif des techniques présentées dans le point précédent est d'obtenir une série
stationnaire (ou tout au moins le plus stationnaire possible), et en particulier sans tendance
ou saisonnalité. L'étape suivante consiste à modéliser la série résiduelle obtenue. La première
chose à faire est donc de tester s'il y a dépendance entre les termes de cette série. Si ce
n'est pas le cas, on dit que la série résiduelle (stationnaire) est un bruit blanc. Si la série
résiduelle obtenue après désaisonalisation et élimination de la tendance, est un bruit blanc,
il n'est donc pas utile d'aller plus loin dans la modélisation si ce n'est d'estimer la moyenne
et variance du bruit blanc.

43
• Tester la présence d'un bruit blanc
1) Par l'étude de la fonction d'auto-corrélation empirique : Lorsque T est assez grand, les
auto-corrélations d'un bruit blanc sont approximativement indépendantes et√de loi ℵ(0,√1).
Ainsi, 95% des auto-corrélations devraient se trouver dans l'intervalle [−1.96/ n, 1.96/ n],
et en traçant les 40 premières auto-corrélations il ne devrait pas y en avoir plus de 2 voir 3
en dehors de ces limites.
2) A l'aide du test du portemanteau : Plutôt que de regarder si chaque auto-corrélation
est dans les bornes de l'intervalle précédent, nous considérons la statistique dénie par la
somme des h premières auto-corrélations au carré :
h
X
Q=T ρ̂2 (j)
j=1

D'après la remarque précédente sur la normalité des auto-corrélations, la statistique


Q suit une loi du Khi-2 à h degrés de liberté. Il est donc possible de construire un test
qui consistera à rejeter l'hypothèse nulle (la série est un bruit blanc) si Q est supérieur
au quantile du Khi-2 à h degrés de liberté. Ljung et Box (1978) ont amélioré ce test en
considérant la statistique
h
X ρ̂2 (j)
QLB = T (T + 2)
j=1
T −j

dont la distribution est mieux approximée que la précédente par une loi du Khi-2 à h degrés
de liberté.

5.1.4 Les principaux modèles stationaires

 Les processus auto-régressifs ARp


Les premiers modèles que nous présentons sont les processus auto-régressifs, construits
à partir de l'idée que l'observation au temps t s'explique linéairement par les observations
précédentes.
On dit que Yt est un processus auto-régressif d'ordre p (centré) s'il s'écrit :
p
X
Yt = t + aj Yt−j
j=1

où t est un bruit blanc centré de variance σ 2 . L'observation Yt au temps t est alors la


somme d'un choc aléatoire à l'instant t, t , indépendant de l'historique,et d'une fonction

44
linéaire de son passé pj=1 aj Yt−j , qui peut être vue comme la prédiction de Yt à partir des
P
p dernières observations passées.

 Les processus en moyenne mobile M Aq


La seconde catégorie de modèles classiques regroupe les processus en moyenne mobile.
On appelle moyenne mobile (Moving Average) d'ordre q un processus de la forme :
Yt = t + b1 t−1 + .... + bq t−q

qui est équivalent à :


q
X
Yt = bj t−j , b0 = 1
j=0

où les j sont des bruits blancs centrés de variance σ 2 . Précisons deux éléments : (1) un
processus moyenne mobile est nécessairement centré et (2) un processus auto-régessif est un
processus moyenne mobile d'ordre inni, et réciproquement un processus moyenne mobile
est un processus auto-régressif d'ordre inni.
 Les processus mixtes ARM Ap,q
Cette classe plus générale de modèles dénit des processus sous la forme d'une ré-
currence auto-régressive avec un second membre de type moyenne mobile. Un processus
auto-régressif moyenne mobile d'ordres p et q est de le forme :
p q
X X
Yt = ak Yt−k + bj t−j
k=1 j=1

où les j sont des bruits blanc centrés de variance σ 2 .


 Choix des modèles
L'étude de la matrice des variances/covariances ainsi que des corrélations partielles
peut conduire à identier certaines hypothèses sur la nature du modèle. Une fois quelques
modèles choisis, et leur paramètres estimés, des critères vont être utilisés pour choisir le
modèle qui eectue le meilleur compromis entre :
• ajustement à la série de données,
• complexité du modèle : Il est en eet très important de prendre en compte ce compro-
mis, car si on ne s'intéressait qu'à coller au mieux aux données, on serait tenter de choisir
un modèle ARMA avec un très grand nombre de paramètres. Or, plus il y a de paramètres,
plus il faut de données pour les estimer. Et donc pour un nombre d'observations xé de la
série, plus le modèle sera complexe, moins bien seront estimés les paramètres.

45
Les critères de choix de modèles les plus courants sont :
• le critère AIC (Akaïke Information Criterion), qui sera généralement préféré si l'objectif
de l'étude est de faire de la prévision.

• le critère BIC (Bayesian Information Criterion) sera quant à lui généralement préféré
si l'objectif de l'étude est de s'ajuster à la série observée.
Les modèles ayant la plus petite valeur du critère devront être choisis.

5.2 Les tests de stationarité ou Unit root Tests


Les tests de racine unitaire testent si une série temporelle est non-stationaire en utilisant
un modèle autorégressif. La plupart des tests de racine unitaire suppose sous Ho l'existence
d'une racine unitaire.
 Le test de Dickey-Fuller
Un test de non stationnnarité largement utilisé et répandu est le test de racine unitaire
proposé par Dickey et Fuller en 1979. L'hypothèse nulle du test est la présence de racine
unitaire, soit la non stationnarité de type stochastique. Le test consiste à tester :

H0 :φ = 1
H1 :φ < 1

dans le modèle
Yt = φYt−1 + t
avec t bruit blanc ∼ ℵ(0, σ 2 ). L'hypothèse nulle correspond au cas de marche aléatoire
pure (processus DS, I(1)) et l'hypothèse alternative correspond au cas d'un modèle AR(1)
stationnaire. Pour mener ce test, on calcule la statistique de Student, mais attention, cette
statistique ne suit plus sous l'hypothèse nulle une loi de Student, puisque, sous l'hypothèse
nulle, le processus est non stationnaire de type DS et les propriétés asymptotiques ne sont
plus standards. Ainsi, la diérence avec un test standard repose sur les valeurs critiques à
utiliser pour conclure sur le test. On ne peut plus utiliser 1.96 comme valeur critique pour
un test à 5%. Il faut utiliser les valeurs critiques, qui ont été retabulées par Dickey et Fuller.
Ce test ne répond pas aux attentes de détection du type de non stationnarité dans les
variables économiques, d'une part parce que l'hypothèse de processus TS n'est pas présente

46
et d'autre part parce que les séries économiques sont caractérisées par de l'autocorréla-
tion, qui conduira la plupart du temps à rejeter l'hypothèse de bruit blanc dans le test
ci-dessus. Pour prendre en compte, d'une part la présence d'autocorrélation dans les sé-
ries économiques, et, d'autre part, l'hypothèse de tendance déterministe, on préfère le test
Dickey-Fuller augmenté.
 Le test de Dickey-Fuller augmenté
C'est une version généralisée du test Dickey-Fuller pour des modèles plus complexes de
séries temporelles. Pour prendre en compte, d'une part la présence d'autocorrélation dans
les séries économiques, et, d'autre part, l'hypothèse de tendance déterministe, on mène les
tests de racine unitaire dans les trois régressions suivantes :

p
X
(1) 4Yt = ρYt + α + βt + φj 4Yt−j + t
j=1
p
X
(2) 4Yt = ρYt + α + φj 4Yt−j + t
j=1
p
X
(3) 4Yt = ρYt + φj 4Yt−j + t
j=1

avec p le nombre de retards à ajouter dans la régression an de prendre en compte l'auto-
corrélation et donc de "blanchir" les résidus.
Le test ADF consiste alors à tester :
H0 : ρ = 0
contre
H1 : ρ < 0
dans les modèles (1), (2) et (3).
• Dans le modèle (1) :
4Yt est I(0) + T (il a une tendance déterministe et l'ecart à cette tendance déterministe
suit un modèle AR(p) stationnaire) sous H0, c'est-à-dire que Yt est I(1) + T 2 . Sous H1,
Yt a une tendance déterministe et l'écart à cette tendance déterministe suit un modèle AR
stationnaire, on note I(0) + T , soit un processus TS.
• Dans le modèle (2) :
4Yt est I(0) + C (il suit un modèle AR(p) stationnaire non centré) sous H0, c'est-à-dire

47
que Yt est I(1) + T . Sous H1, Yt suit un modèle AR stationnaire non centré, on note
I(0) + C .

• Dans le modèle (3) :


4Yt est I(0) (il suit un modèle AR(p) stationnaire centré) sous H0, c'est-à-dire que Yt est
I(1). Sous H1, Yt suit un modèle AR stationnaire, on note Yt I(0).
Comme les valeurs critiques dépendent de la présence ou non d'une constante ou d'une
tendance (ddl), cela implique que le test de racine unitaire doit être mené dans le "bon"
modèle. Ainsi, une possibilité de mettre en oeuvre les tests de racine unitaire est de procéder
de manière emboîtée, selon la stratégie suivante : on teste la racine unitaire dans le modèle
le plus général, puis on teste si le modèle utilisé pour mener le test était pertinent. Si tel
n'est pas le cas, on doit mener à nouveau le test de racine unitaire dans le modèle contraint,
etc.
 Le test de Phillips-Perron
Phillips-Perron (1988) proposent une méthode non paramétrique pour corriger la pré-
sence d'autocorrélation, sans avoir à ajouter des endogènes retardées comme dans la mé-
thode ADF (méthode plus robuste en cas d'erreurs MA notamment). La procédure de test
consiste à tester l'hypothèse de racine unitaire H0 : ρ = 0 dans les modèles suivants :

(1) 4Yt = ρYt + α + βt + t


(2) 4Yt = ρYt + α + t
(3) 4Yt = ρYt + t

La statistique de test de Phillips-Perron (PP) est une statistique de student corrigée de


la présence d'autocorrélation par la prise en compte d'une estimation de la variance de long
terme de t , robuste à la présence d'autocorrélation et d'hétéroscédasticité.
 Le test de KPSS (Kwiatkowski-Phillips-Schmidt-Shin )
Contrairement aux tests de racine unitaire précédents, KPSS proposent un test où
l'hypothèse nulle est celle de la stationarité contre l'hypothèse alternative d'une racine
unitaire. Le test considère le modèle suivant :

4Yt = ρYt + α + βt + t
L'hpothèse nulle est donc H0 : ρ < 0 contre l'hypothèse alternative H1 : ρ = 0.
 Stratégie de test de racine unitaire

48
1) On choisit le nombre de retards p à introduire dans la régression : on peut, pour cela,
choisir l'ordre p de l'AR(p) pour la variable Yt sur la base des autocorrélations partielles de
Yt , et sur la base de la signicativité du dernier retard de l'AR introduit dans la régression,
tout en vériant que le résidu est bien un bruit blanc.
2) On teste la racine unitaire H0 : ρ = 0 dans le modèle le plus général (3) :
p
X
4Yt = ρYt + α + βt + φj 4Yt−j + t
j=1

• Si on accepte H0 (la racine unitaire), alors on va tester ensuite H0 : ρ = 0 et β = 0.


Si on accepte H0, alors on passe à l'étape 3. Si on rejette H0, on conclut que le processus
est I(1) + T 2 (tout en sachant que cette conclusion est peu crédible économiquement, et
qu'elle cache peut être le cas d'une tendance déterministe plus complexe que lineaire)
• Si on rejette H0 (rejet de la racine unitaire), alors le processus est stationnaire, mais on
doit aller tester la pertinence d'avoir tester la racine unitaire dans un modèle avec tendance
en testant la signicativité de la tendance (par un student normal) dans le modèle suivant :
p
X
4Yt = ρYt + α + βt + φj 4Yt−j + t
j=1

Si on accepte H0 : β = 0, alors il est recommandé de passer à l'etape 3. Si on rejette


H0 : β = 0, on conclut que le processus est I(0) + T .
3) On teste la racine unitaire H0 : ρ = 0 dans le modèle (2) :
p
X
4Yt = ρYt + α + φj 4Yt−j + t
j=1

49
6 Annexe-Rappels

Notons A(m,n) une matrice à m lignes et n colonnes composée d'éléments aij


Notons A(n,m) la matrice transposée de Am,n
0

0 0 0
• (AB) = B A
(A−1 ) = (A )−1 si A est inversible
0 0

• (AB)−1 = B −1 A−1 si A et B sont inversibles
tr(A) = ni=1 aii i.e. somme des valeurs diagonales de la matrice
P

• tr(λA) = λtr(A)
• Si A2 = A alors la matrice est dit idempotente
Soit X une variable aléatoire déni sur R
xf (x)dx où f (x) représente la densité de probabilité de X
R +∞
• E(X) = −∞
R +∞
• E(g(x)) = −∞ g(x)f (x)dx
R +∞
• E(x2 ) = −∞ x2 f (x)dx
• f (x, y) = f (x)f (y) ssi x, y sont deux variables aléatoires indépendantes
• E(aX + b) = aE(X) + b
• E(X + Y ) = E(X) + E(Y )
• E(XY ) = E(X)E(Y ) ssi X, Y sont deux variables aléatoires indépendantes
• V (X) = E[(X − E(X))2 ] = E(X 2 ) − E(X)2
• V (aX + b) = a2 V (X)

Si X et Y sont deux variables aléatoires indépendantes alors on a :


⇒ V (X + Y ) = V (X) + V (Y )
⇒ V (aX + bY ) = a2 V (X) + b2 V (Y )
⇒ V (X − Y ) = V (X) + V (Y )
⇒ Cov(X, Y ) = 0

Si X et Y sont deux variables aléatoires quelconques :


⇒ V (X + Y ) = V (X) + V (Y ) + 2cov(X, Y )
⇒ Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y )
⇒ V ( ni=1 Xi ) = ni=1 V (Xi ) + 2 i j cov(Xi , Xj )
P P P P

Le coecient de corrélation entre deux variables est déni par :


50
Cov(X, Y ) σXY
ρ= p =
V (X)V (Y ) σX σY

Les Lois statistiques usuelles utilisées en économétrie :


1) La loi normale
Si X ∼ N (µ, σ 2 ), alors la fonction de densité de X est donnée par :
!
1 1
fX (x) = √ exp − 2 (X − µ)2
σ 2π 2σ
et on peut écrire que d'après le théorème de la limite centrale :
X −µ
Z= ∼ N (0, 1)
σ
Soit X1 ∼ N (µ1 , σ12 ) et X2 ∼ N (µ2 , σ22 ), alors
• si X1 , X2 non indépendantes, on a X1 + X2 ∼ N (µ1 + µ2 , σ12 + σ22 + 2σ12 )
• si X1 , X2 indépendantes, on a X1 + X2 ∼ N (µ1 + µ2 , σ12 + σ22 )
2) La loi Khi-deux
Soit une variable aléatoire X ∼ N (0, 1) alors
Z = X 2 ∼ χ21
Soit N variables aléatoires X1 ∼ N (0, 1),...,Xn ∼ N (0, 1) indépendantes alors
N
X
Z= Xi2 ∼ χ2n
i=1

2) La loi de Student
Soit une variable aléatoire X ∼ N (0, 1) et une variable aléatoire Y ∼ χ2n alors
X
Z=p ∼ tn
Y /n

2) La loi de Fisher
Soit deux variables aléatoires X1 ∼ χ2p et X2 ∼ χ2n indépendantes alors
X1 /p
Z= ∼ F (p, q)
X2 /q

51

Vous aimerez peut-être aussi