Guía CERO para Datos de Panel. Un Enfoque Práctico
Guía CERO para Datos de Panel. Un Enfoque Práctico
Guía CERO para Datos de Panel. Un Enfoque Práctico
Resumen
El incremento del nmero y contenido de las bases de datos, junto con el avance en las
tcnicas economtricas, ha facilitado el desarrollo de estudios cada vez ms sofisticados de los
fenmenos econmicos, permitiendo asistir ms apropiadamente a los responsables de la
elaboracin de las polticas pblicas y empresarios. Sin embargo, estas herramientas se han
tornado cada vez ms complejas, demandando un alto grado de conocimiento terico y
prctico para poder implementarlas. La metodologa de Datos de Panel es una de las ms
usadas en los ltimos tiempos en el mbito de la economa y los negocios. Su riqueza reside en
que permite trabajar simultneamente varios periodos de tiempo y los efectos individuales, y a
su vez, tratar el problema de la endogeneidad. A pesar de las ventajas de esta tcnica, existen
diversos obstculos para su implementacin, tanto metodolgicos como operativos. Esta gua
pretende colaborar con investigadores y profesionales que buscan llevar a cabo estudios
utilizando Datos de Panel, ofreciendo una pauta para manejar y analizar datos, en forma
conjunta con revisar sus fundamentos y ofrecer diversos ejemplos.
NDICE
1.
Introduccin .......................................................................................................................... 4
2.
3.
2.2.1.
2.2.2.
2.2.3.
2.2.4.
2.2.5.
2.2.6.
5.2.
5.2.1.
5.2.2.
5.2.3.
5.2.4.
5.2.5.
7.
Referencias .......................................................................................................................... 59
1. Introduccin
Muchas investigaciones en el rea econmica requieren la aplicacin de un anlisis
emprico. Para conseguir tal fin, una de las tcnicas ms usada durante dcadas ha sido
la regresin linear simple, la cual permite explicar un fenmeno econmico (variable
dependiente) a travs de un conjunto de factores (variables independientes).
Los trabajos impulsados dcadas atrs han utilizado el mtodo de Mnimos Cuadrados
Ordinarios (MCO u OLS por sus siglas en ingls), sin embargo esta metodologa
presenta algunas crticas: primero, no permite el estudio de los efectos individuales
(Castellacci, 2008) y segundo, los estimadores son inconsistentes y pueden ser
insesgados cuando tratemos de analizar varios periodos de tiempo y efectos
individuales. Aun as, han servido de base para muchos estudios de gran relevancia
para la teora econmica. Para solucionar algunos de los problemas descritos
anteriormente, en las ltimas dcadas la metodologa de Datos de Panel se ha hecho
muy popular debido a que esta tcnica tiene en cuenta los efectos fijos de los
individuos que pueden ocasionar comportamientos no aleatorios de las variables, y las
series de tiempo cuyos datos tienen su propia dinmica que debe ser estudiada.
Existen dos tipos de anlisis con datos de panel: Estticos y Dinmicos. Los primeros,
fciles de aplicar con los actuales paquetes estadsticos, permiten evaluar un conjunto
de variables como explicativas de algn fenmeno en estudio y determinar as si el
conjunto de datos presentan efectos individuales fijos o variables. Sin embargo, este
tipo de tcnica tambin presenta una serie de carencias, dentro de las cuales se
encuentra la incapacidad de tratar adecuadamente el problema de la endogeneidad,
por lo que no es posible analizar desde una perspectiva evolucionista la dependencia
del pasado o el proceso acumulativo (Dosi, 1988). Habida cuenta de este problema, los
paneles dinmicos son recomendados por diversos investigadores ya que permiten
incorporar en el modelo una estructura endgena, mediante la integracin de efectos
pasados a travs de variables instrumentales. Esta gua, permite abordar de una forma
prctica los anlisis de paneles estticos y dinmicos, y a la vez entrega una serie de
recomendaciones y ejemplos A continuacin podemos encontrar 5 secciones. La
primera ofrece una breve referencia a los principales conceptos que soportan el
anlisis de Datos de Panel. La segunda introduce al usuario en estas tcnicas y ayuda a
discriminar el tipo de modelo y el estimador a emplear. La seccin 4 entrega en detalle
los procedimientos a seguir para llevar a cabo estimaciones de modelos utilizando
Datos de panel. En la parte 5 la gua presenta una serie de recomendaciones para
aplicar esta metodologa. Finalmente la seccin 6 contiene las referencias de la
literatura empleada.
2. Conceptos bsicos
En este apartado se introducen algunos conceptos necesarios para abordar el trabajo
de anlisis economtrico usando un panel de datos.
a) Regresin lineal
Una regresin lineal queda representada como aparece en la siguiente ecuacin:
Yi = 0 + 11 + +
Condiciones
Media del error es Nula:
( ) = 0
= 1
Varianza Constante:
( ) = 2
= 1n
Covarianza Nula:
( ) = 0
entre ellas. Por el contrario, el modelo dinmico incorpora la relacin entre la variable
dependiente y las independientes de manera bidireccional, y a su vez, la relacin de
dependencia entre las variables independientes.
d) Heterocedasticidad y Homocedasticidad
En estadstica un modelo presenta heterocedasticidad si la varianza de los errores de la
muestra no es constante. Por el contrario, el modelo es homocedstico si la varianza
de los errores es la misma para toda la muestra. En la figura siguiente se pueden
observar grficamente las diferencias:
Figura 1. Esquema grfico del concepto de heterocedasticidad y homocedasticidad
e) Endogeneidad
Desde una perspectiva economtrica, la endogeneidad se define como la existencia de
correlacin entre la variable dependiente y el trmino de error. Bajo una visin
econmica, el trmino hace referencia a la relacin causal entre las variables, las
cuales quedan explicadas dentro del modelo (Mileva, 2007).
En especial, la endogeneidad causada por la relacin bidireccional entre el fenmeno
que queremos explicar y sus variables explicativas fue el principal problema que se
intent resolver con los modelos de regresin a travs de paneles dinmicos, pues el
tradicional mtodo de uso de variables instrumentales (proxy) no permita dar una
completa respuesta a este problema. El primer paso fue incluir la variable dependiente
como explicativa. Debido a que no es posible incorporarla directamente por problemas
de correlacin, los autores clsicos de paneles dinmicos, como Arellano y Bond
(1991), Arellano y Bover (1995), y Blunder y Bond (1998), lograron identificar
instrumentos adecuados para este tipo de anlisis, usando los retardos de la variable
dependiente (Y) como regresor(es) ( ).
depende de , y a la vez depende de
6
Donde,
: variable dependiente del individuo i en el tiempo t
: variable dependiente del individuo i en tiempo t-1
: constante del modelo
: coeficiente de la variable i
: variable dependiente i en el tiempo t
Variable endgena Es aquella que est determinada dentro del modelo, es decir existe
causalidad en ambos sentidos (Xi Yi; YiXi).
(1 , ) 0
Siendo:
1 : La variable endgena
: los errores del modelo
las variables independientes se produce porque Xit est determinada por su condicin
pasada (Xi t-n).
Adems, tambin podra ocurrir que exista relacin entre las variables independientes,
lo que quedara reflejado mediante un coeficiente de correlacin alto entre ellas, lo
que dara lugar a multicolinealidad.
Variable predeterminada:
Son variables que se determinan fuera del modelo y con anterioridad al actual
momento. El valor futuro de la variable puede estar correlacionado con el trmino de
error del modelo pero no con su retardo. Este tipo de variables estn relacionadas con
la variable independiente.
(1 , ) 0 <
Siendo:
1 : La variable endgena
: los errores del modelo
s-t: distintos periodos de tiempo
id 1
id 1
id 2
id 2
id 3
id 3
E
8
7
6
id 1
id 2
id 3
Datos Panel
3
2
0
Cabe recordar que dentro de esta ltima tcnica, datos de panel, existen dos grandes
mtodos: Paneles Estticos y Paneles Dinmicos, cuya principal diferencia radica en la
capacidad y forma de tratar la endogeneidad de las variables, como se ver en los
captulos siguientes.
10
11
Para trabajar con datos de panel, las bases de datos deben estar construidas de la
siguiente manera:
En las columnas, tienen que aparecer cada una de las variables objeto del
anlisis.
En las filas, se recogen los individuos en los distintos periodos de tiempo.
Adems, hay que aadir dos columnas, una indicando el ao (o perodo) de cada
observacin (year en el ejemplo de la figura 3)1 y otra que identifique los individuos (id
en el ejemplo de la figura 3)2.
A continuacin se representa la estructura de los datos para ser analizados bajo la
metodologa de Datos de Panel (figura 3).
Figura 3. Plantilla para ordenar los datos en Panel. Formato Long
Individ
Ind1-10
Ind1-11
Ind1-12
Ind1-13
Ind1-13+n
Ind2-10
Ind2-11
Ind2-12
Ind2-13
Ind2-13-n
Ind3-10
Ind3-11
Ind3-12
Ind3-13
Ind3-13-n
Indn-10
Indn-11
Indn-12
Indn-13
Indn-13-n
Year
2010
2011
2012
2013
2013+n
2010
2011
2012
2013
2013+n
2010
2011
2012
2013
2013+n
2010
2011
2012
2013
2013+n
Id
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
4
4
4
4
4
Var1
Var2
Var3
Var4
Var5
Varn
El ejemplo anterior muestra una base de datos del tipo Long, que es utilizada por Stata
para el anlisis de datos de panel. Sin embargo, muchas bases de datos estn
construidas en el formato Wide, el cual emplea una columna para cada ao y variable,
y una fila para cada individuo, como se observa en la figura siguiente (figura 4).
1
2
12
var2_n
varn_n
Stata permite pasar de formato Wide a Long y viceversa pero solo variable a variable.
Para ello se emplea el comando reshape.
13
id (strongly balanced)
year, 95 to 99
1 unit
14
4.2.
15
Los efectos individuales ( ) pueden ser tratados como aleatorios o fijos. Para poder
llevar a cabo esta estimacin, se asume que los son constantes a lo largo del
tiempo.
1. Efectos aleatorios
Para tratar los efectos aleatorios se emplea el Mtodo Generalizado de Momentos
(MGM), que es una extensin ms eficiente de MCO.
Este estimador asume la condicin de que los efectos individuales no estn
correlacionados con las variables explicativas el modelo, es decir:
( , ) = 0
Siendo,
=Efectos individuales
X= Variables explicativas
Por ello, los efectos individuales se suman al trmino de error, quedando el modelo
definido como:
= + ( + )
2. Efectos fijos
Para tratar los efectos fijos se emplea el estimador intragrupos (within), el cual asume
que el efecto individual est correlacionado con las variables explicativas. Este
supuesto relaja la condicin impuesta por el estimador de efectos aleatorios, tratando
el efecto individual separadamente del trmino de error.
( , ) 0
El modelo queda representado como sigue:
= + +
Este estimador tiene la ventaja de que permite conocer los separadamente, lo que
contribuye a entender de mejor forma el modelo. Adems, evita una sobrestimacin
del parmetro , lo que ocurre cuando se aplica el estimador de efectos aleatorios.
Desventajas del estimador de efectos fijos:
16
1. Elimina informacin del modelo, por lo que ante este riesgo a veces es
necesario asumir la condicin de efectos aleatorios.
2. El estimador de efectos fijos es menos eficiente que el de efectos aleatorios,
siendo ambos consistentes.
3. En el caso de que tengamos variables constantes en el tiempo, el estimador de
efectos fijos no puede estimar los de estas variables, a menos que se utilice el
estimador de Hausman y Taylor (comando xthtaylor). Por el contrario, el
estimador de efectos aleatorios si permite calcular los de este tipo de
variables.
Una forma alternativa de abordar este tipo de anlisis es a travs de la construccin de
dummies para cada efecto individual que queramos conocer y controlar. De esta forma
el estimador MCO entregar separadamente los de estos efectos.
Para decidir cul es el estimador esttico (fijo o variable) ms adecuado para nuestro
modelo emplearemos el Test de Hausman. Este test compara los obtenidos por
medio del estimador de efectos fijos y efectos aleatorios, identificando si las
diferencias entre ellos son o no significativas.
Por tanto, primero se debe estimar por el mtodo menos eficiente pero consistente
(efectos fijos) y posteriormente por el estimador eficiente y consistente (efectos
aleatorios). En ambos casos la matriz de pesos debe ser homocedstica.
Este test calcula su estadstico a partir de las diferencias entre los ponderados por la
varianza.
La hiptesis nula comprueba la existencia de no correlacin entre los y las variables
explicativas.
Ho: No diferencia sistemtica entre los coeficientes
La interpretacin de este test quedara como sigue:
Criterio de rechazo
Si la Prob>chi2 es mayor a 0.05 rechazo Ho, es decir, no hay correlacin entre los
efectos individuales y las variables explicativas, lo que indica que el estimador
17
5
6
18
19
Ejemplo 1:
El ejemplo 1 muestra la salida de una estimacin utilizando paneles estticos; fijos y
aleatorios, y el test que permite la seleccin entre ambos.
xtreg vardep var1 var2 var3 var4 var5 var6 var7, fe
20
Number of obs
Number of groups
=
=
231
33
R-sq:
7
7.0
7
within = 0.8880
between = 0.9577
overall = 0.9521
corr(u_i, Xb)
F(7,191)
Prob > F
= -0.9588
vardep
Coef.
var1
var2
var3
var4
var5
var6
var7
_cons
.0202028
.0008267
.0021287
.0065644
.0364941
.0043909
.0710379
2.020736
sigma_u
sigma_e
rho
.04299151
.00323677
.99436358
Std. Err.
.0024939
.0017831
.0008556
.0024005
.0076725
.0008097
.0051512
.0780141
8.10
0.46
2.49
2.73
4.76
5.42
13.79
25.90
P>|t|
0.000
0.643
0.014
0.007
0.000
0.000
0.000
0.000
=
=
216.39
0.0000
.025122
.0043438
.0038163
.0112993
.0516278
.005988
.0811985
2.174616
42.77
La salida anterior es una estimacin por efectos fijos, sin la opcin vce(robust), ya que
solo as es posible calcular el Test de Hausman.
De la salida anterior, es importante destacar lo siguiente: el test F de los efectos
individuales que permite rechazar la hiptesis nula de que los efectos individuales son
iguales a 0 (Prob>F=0.000), justificando de esta forma un anlisis que considere los
efectos individuales.9
Si los efectos individuales son iguales entre los individuos debiramos descartar la opcin de datos de
panel y utilizar un MCO.
21
Number of obs
Number of groups
=
=
231
33
R-sq:
7
7.0
7
within = 0.8693
between = 0.9654
overall = 0.9629
Coef.
var1
var2
var3
var4
var5
var6
var7
_cons
.0232875
.003527
.0039026
.003862
.0334484
.0057653
.0433229
2.472417
sigma_u
sigma_e
rho
.00799778
.00323677
.8592622
Wald chi2(7)
Prob > chi2
Std. Err.
.0026374
.0015317
.0006186
.0023366
.006816
.0007847
.0012061
.0259252
P>|z|
8.83
2.30
6.31
1.65
4.91
7.35
35.92
95.37
0.000
0.021
0.000
0.098
0.000
0.000
0.000
0.000
=
=
2344.03
0.0000
.0284567
.006529
.005115
.0084417
.0468075
.0073032
.0456869
2.523229
Esta salida es una estimacin por efectos aleatorios, sin la opcin vce(robust) con el
mismo objetivo anterior.
Rho indica la proporcin de los efectos conjuntos ( + ) que provienen de los
efectos individuales. En el ejemplo, el 85.9% del error compuesto del modelo se debe a
los efectos individuales.
. hausman fe re
Coefficients
(b)
(B)
fe
re
var1
var2
var3
var4
var5
var6
var7
.0202028
.0008267
.0021287
.0065644
.0364941
.0043909
.0710379
(b-B)
Difference
.0232875
.003527
.0039026
.003862
.0334484
.0057653
.0433229
-.0030847
-.0027003
-.0017739
.0027024
.0030457
-.0013744
.027715
sqrt(diag(V_b-V_B))
S.E.
.
.000913
.0005911
.0005502
.0035227
.0001998
.005008
Ho:
22
xtreg vardep var1 var2 var3 var4 var5 var6 var7, fe vce(robust)
. xtreg vardep var1 var2 var3 var4 var5 var6 var7, fe vce(robust)
Fixed-effects (within) regression
Group variable: id
Number of obs
Number of groups
=
=
231
33
R-sq:
7
7.0
7
within = 0.8880
between = 0.9577
overall = 0.9521
corr(u_i, Xb)
F(7,32)
Prob > F
= -0.9588
=
=
90.63
0.0000
Coef.
var1
var2
var3
var4
var5
var6
var7
_cons
.0202028
.0008267
.0021287
.0065644
.0364941
.0043909
.0710379
2.020736
sigma_u
sigma_e
rho
.04299151
.00323677
.99436358
Robust
Std. Err.
.0053116
.0018095
.0009144
.0041423
.015223
.0014128
.0116051
.166512
t
3.80
0.46
2.33
1.58
2.40
3.11
6.12
12.14
P>|t|
0.001
0.651
0.026
0.123
0.023
0.004
0.000
0.000
.0310222
.0045125
.0039913
.015002
.0675023
.0072687
.0946768
2.35991
Ejemplo 2
Ejemplo de estimacin con variables instrumentales.
xtivreg vardep var1 var2 var3(var4=var5), fe
23
Number of obs
Number of groups
=
=
231
33
R-sq:
7
7.0
7
within = 0.2156
between = 0.3932
overall = 0.3187
corr(u_i, Xb)
vardep
Coef.
var4
var1
var2
var3
_cons
.0732154
.0363368
.0032061
.0004476
3.20709
sigma_u
sigma_e
rho
.08451083
.00849997
.98998528
Instrumented:
Instruments:
Wald chi2(4)
Prob > chi2
= -0.8181
Std. Err.
.0111016
.0061664
.0047458
.0027074
.0362826
6.60
5.89
0.68
0.17
88.39
P>|z|
0.000
0.000
0.499
0.869
0.000
=
=
3.42e+07
0.0000
.0949741
.0484227
.0125076
.0057541
3.278202
154.61
Prob > F
= 0.0000
var4
var1 var2 var3 var5
SS
df
MS
Model
Residual
.733018371
56.2668087
1
229
.733018371
.245706588
Total
56.9998271
230
.247825335
var4
Coef.
var5
_cons
.3519882
-1.338499
Std. Err.
.2037882
.4699643
t
1.73
-2.85
24
Number of obs
F( 1,
229)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0.085
0.005
=
=
=
=
=
=
231
2.98
0.0855
0.0129
0.0085
.49569
.7535279
-.4124924
A continuacin, se presenta una serie de pruebas que son recomendables realizar para
detectar si existe heterocedasticidad y autocorrelacin en el modelo, para ver si el
modelo de datos de panel estticos se prefiere al pool de datos, o para incorporar
dummies de tiempo en el modelo.
1. Prueba de autocorrelacin de Wooldridge, donde la hiptesis nula indica que
no hay autocorrelacin de primer orden. Se ejecuta mediante la siguiente
sintaxis.
xtserial11 vardep var2 var3, output
Si se rechaza, esto es F<0.000 hay un problema de autocorrelacin que es
necesario corregir. Para solucionarlo se puede usar el comando xtregar12
xtregar vardep var1 var2 var3, fe13
5. Prueba de heterocedasticidad de Wald
Este test permite comprobar la heterocedasticidad del modelo. Para comprobarlo
es necesario descargarse el comando xttest314 y ejecutarlo despus de la opcin
de efectos fijos.
xtreg vardep var1 var2 var3, fe
xttest3
Si rechazamos H0 indica que hay heterocedasticidad. Para solucionar este
problema podemos usar el comando xtgls15 o el comando xtpcse16, que a su vez
corrige por la autorcorrelacin.
xtgls vardep var1 var2 var3, p(h) c(ar1)
xtpcse vardep var1 var2 var3, het c(ar1)
6. Test de Breusch y Pagan. Este test indica si los efectos estticos se prefieren al
pool de datos, mediante la comparacin de los efectos aleatorios con el pool de
10
25
datos. Para aplicarlo hay que descargar el comando xttest017 y tiene que ser
ejecutado justo despus de los efectos aleatorios:
xtreg vardep var1 var2 var3, re
xttest0
Si rechazamos H0, esto es P<0.05 indica que los datos de panel estticos son
preferentes al pool de datos.
7.
Efectos temporales (Two-way fixed effects). Es posible utilizar
variables dicotmicas de tiempo para que capturen los efectos comunes
a todos los individuos durante un periodo de tiempo, como podra ser
una crisis. Para ello se usa la siguiente sintaxis:
xi:xtreg vardep var1 var2 var3, i.year, fe
Para probar la significancia conjunta de estas las variables dicotmicas temporales
se utiliza el testparm18.
testpar_Iyear_1990 - _Iyear_2014
4.3.
17
18
26
La endogeneidad puede ser tratada a travs de diferentes vas, sin embargo una de las
formas ms habitualmente empleada es a travs de variables instrumentales
expresadas como retardos de la variable endgena.
Dependiendo del estimador que empleemos, los retardos pueden ser formulados
como diferencias o niveles.
19
Xtabond2 no es un comando oficial de STATA 11, sino que es una versin aportada por Roodman
(2006).
27
1 = 2 1
Ecuaciones en niveles
= 1
1 = 2*
*Lo anterior indica que el instrumento de Yt-1 es Yt-2
Frmulas del System GMM
= ,1 + +
= +
( ) = ( ) = ( ) = 0
Donde:
es la variable dependiente del individuo i en el tiempo t
es la variable independiente del individuo i en el tiempo t
xtivreg: este comando permite hacer estimaciones con variables endgenas por medio
de (proxy) como instrumento.
xtbond (Arellano y Bond, 1991): este comando realiza la regresin con variables
endgenas utilizando sus diferencias (Difference GMM).
xtdpdsys: (Arellano y Bover, 1995) este comando lleva a cabo la regresin con
variables endgenas utilizando como instrumentos sus diferencias y niveles (Difference
and System GMM)
xtabond2: desarrollado por Roodman (2006) al igual que el anterior, utiliza ecuaciones
con variables en niveles y en diferencias para instrumentalizar las variables endgenas.
xtdpd: Comando para hacer regresiones con variables endgenas utilizando como
instrumentos las diferencias y/o los niveles. Segn Camern (2009) este comando
permite corregir el modelo en el caso de la presencia de medias mviles, lo que se
28
1. Test de Sargan
Este test es adecuado cuando la estimacin se ha hecho considerando la matriz de
pesos homocedstica, como es el caso de One step. Es necesario destacar que si la
estimacin se realiza con One step y adems con la opcin vce(robust), entonces, este
test no se puede ejecutar (solo es factible sin la opcin vce(robust)).
El comando usado en Stata para este test es: estat sargan y se emplea como
postestimacin del modelo. Por defecto en xtabond y xtdpdsys solo es posible usar el
test de Sargan.
29
2. Test de Hansen
Este test permite detectar la sobreidentificacin del modelo cuando se ha empleado la
matriz de pesos heterocedstica en la estimacin, es decir es vlido para estimaciones
con Two step y opcin vce(robust)).
Cuando utilizamos el comando xtabond2, este test es reportado directamente.
La Hiptesis nula de este test es igual a la de Sargan test.
H0= Las restricciones de sobreidentificacin son vlidas.
Autocorrelacin
Heterocedasticidad
4.3.6. Procedimiento
Como hemos indicado, existen dos maneras de realizar las estimaciones de modelos
con variables endgenas: estimacin con variables instrumentales (proxy) y por medio
de estimadores GMM.
La eleccin del mtodo a utilizar estar basada en el tipo de instrumentos disponibles.
Si disponemos de proxys que renan las caractersticas deseadas, las usaremos como
instrumentos en el tratamiento de las variables endgenas. Por el contrario, en el caso
de que no existan adecuados proxys como instrumentos deberemos usar sus retardos
a travs del estimador GMM.
Si deseamos incluir el efecto endgeno del modelo, es decir la variable dependiente
retardada como regresor, la opcin sera GMM.
Modelizacin
En este apartado se explicar la sintaxis y la interpretacin de los comandos y sus
resultados: xtabond, xtdpdsys y xtabond2.
31
Comando xtabond
Para regresiones que empleen el comando xtabond distinguiremos entre modelos con
variables exgenas, predeterminadas o endgenas, y modelos que combinen estos
tipos de variables.
Paso2
xtabond vardep var1 var2 var3, lags(#) vce(robust) twostep
estat abond
Siendo: var1, var2 y varn, variables independientes exgenas
20
32
Paso 2
xtabond vardepend var1 var2 var3, lags(#) twostep vce(robust) pre(var4, var5,
lagstructur(#,#))
estat abond
Siendo: var1, var2 y va3, variables independientes exgenas y var4, var5 variables
independiente predeterminadas.
Paso 2
xtabond vardepend var1 var2 var3, lags(#) twostep vce(robust) endog(var6, var7,
lagstructur(#,#))
estat abond
Otras combinaciones
Las modelos permiten combinaciones de los diferentes tipos de variables
independientes: exgenas, predeterminada y endgenas, debiendo ser asignada cada
variable en una sola categora.
33
xtabond vardepend var1 var2 var3, lags(#) twostep vce(robust) pre(var4, var5,
lagstructur(#,#)) endog(var6, var7, lagstructur(#,#))
Las restricciones de las variables (lags) pueden ser asignadas a un grupo o a cada
variable.
xtabond vardepend var1 var2 var3, lags(#) twostep vce(robust) endog(var6, var7,
lagstructur(1,.)) endog(var8, lagstructur(2,2))
Siendo: var1, var2 y var3, variables independientes exgenas y var6, var7 var8 variables
independiente endgenas
Comando xtdpdsys
Para regresiones que empleen el comando xtdpdsys, procederemos de la siguiente
forma:
xtdpdsys vardep var1 var2, lags(#) twostep vce(robust) pre(var4, var5, lagstructur(#,#))
endog(var6, var7, lagstructur(#,#))
Siendo: var1, var2 y var3, variables independientes exgenas, var4 y var5 variables
predeterminadas, y var6, var7 var8 variables independiente endgenas
34
Comando xtabond2
A pesar de que Stata ha incorporado estimadores que utilizan instrumentos en niveles
y diferencias (xtdpdsys y xtdpd), el comando xtabond2 mantiene algunas ventajas con
respecto a los anteriores, tales como la posibilidad de excluir el retardo de la variable
dependiente como regresor, adems de mayores alternativas en el tratamiento de las
variables.
Como ya se ha mencionado, xtabond solo estima con instrumentos en diferencias, lo
cual reduce el nmero de instrumentos posibles de utilizar. Por su parte, xtabond2
adems de utilizar las diferencias, tambin emplea los niveles, lo cual incrementa el
tamao de la matriz (sistema de ecuaciones) y el nmero de instrumentos por cada
variable. Debido a lo anterior, el primero (xtabond) es ms recomendable para
muestra de tiempo grande, mientras que el segundo (xtabond2) funciona mejor para
muestras de tiempo pequeas, ya que al incorporar los instrumentos en niveles,
reduce la prdida de informacin, aunque podra generar sobreidentificacin.
xtabond2 puede utilizar en su sintaxis tanto la estimacin con instrumentos en
diferencias y en niveles (gmmstyle), como solo en diferencias (comando eq(diff)) o solo
en niveles (comando eq(level)).
Para llevar a cabo las estimaciones en Stata con xtabond2, la programacin se divide
en dos partes. La primera identifica las variables (Qu analizaremos?) y la segunda
corresponde al cmo sern tratadas las variables independientes (endgenas,
predeterminadas o exgenas) y bajo qu restricciones. Ambas secciones van separadas
por una coma.
Se introducen las variables partiendo por la dependiente y luego la(s)
independiente(s). En caso de que necesitemos incorporar la variable dependiente
como regresor, sta debe ir especificada entre la dependiente y las independientes,
bajo la sintaxis de l.vardep, para el primer retardo de la variable dependiente, l(#) para
retardos superiores, o combinaciones de ambos. Este mismo tipo de estructura se
utiliza para especificar las variables independientes a travs de sus retardos.
Hay dos formas de introducir las instrucciones de cmo tratar las variables:
a. Gmmstyle 21o gmm: para variables endgenas o predeterminadas
b. ivstyle o iv: para variables exgenas.
21
Para escribir gmmgstyle en STATA usamos gmm seguido de las variables endgenas, esto es,
gmm(var1, var2, var3). Este mismo criterio aplica para ivstyle.
35
1. gmm(l.(var6 var7))
2. gmm(var6 var7, lag(2 .))
3. gmm(l.(var6 var7, lag(1 .))
En los ejemplos que siguen se usa la primera alternativa:
xtabond2 vardep l.vardep var6 var7), gmm (l.vardep, lag (# #) gmm(l.var6 var7) robust
twostep
En el caso de que en las restricciones de las variables tratadas como endgenas (var6 y
var7) utilicemos retardos superiores a los indicados (lag(3 .) o superiores) la variable
sigue siendo considerada endgena para el modelo.
Las variables independientes pueden tratarse empleando 1 o ms retardos, esto se
indica en la primera parte de la ecuacin (ejemplo: si queremos tratarlas con retardo
debe indicarse con el comando l., ej: l.(var6), lo que significa que las var6 ser
analizada usando su primer retardo. Adems su tratamiento tambin puede ser como
predeterminado, endgeno o exgeno.
La sintaxis quedara de la siguiente forma:
Usando solo el primer retardo
xtabond2 vardep l.vardep l.(var6 var7), gmm (l.vardep, lag (# #) gmm(l.(var6 var7))
robust twostep
Usando el primer y segundo retardo
Si por el contrario, deseamos utilizar en nuestra estimacin el primer y segundo
retardo de la variable independiente, quedara como sigue:
xtabond2 vardep l.vardep l(1/2).(var6 var7), gmm (l.vardep, lag (# #) gmm(l.(var6
var7)) robust twostep
En este caso existe una combinacin en el tratamiento de las variables, siendo las var1
var2 var3 exgenas, var4 var5 predeterminadas y var6 var7 endgenas, usando el
primer retardo.
37
(Las barras /// sirven para hacer un salto de lnea en Stata sin que se pierda la
continuidad en la secuencia de programacin).
Restricciones adicionales
Ejemplo:
xtabond2 vardep l.vardep var1 var2 var3 var4 var5 l.(var6 var7), ///
gmm(l.vardep, lag (2 2) collapse) ///
iv(var1 var2 var3) ///
gmm(var4 var5, collapse) ///
gmm(l.(var6 var7, eq(diff)) robust twostep noconstant ///
retardada con lag(2 2) y collapsada. Por otro lado, var4 y var5 estn tratadas como
predeterminadas collapsadas, y var6 var7 son endgenas y se estn utilizando solo las
ecuaciones en diferencias. Finalmente la estimacin no considerar la constante.
Test de Hansen
Como hemos mencionado, este test est solo disponible para xtabond2 y se reporta
directamente cuando estimamos a travs de este comando. Adems, se recomienda
cuando trabajamos con la matriz de errores heterocedstica (Two step).
La interpretacin del test de Hansen se realiza de la siguiente manera:
Hiptesis nula (dem Sargan)
Ho: las restricciones de sobreidentificacin son vlidas
El criterio de rechazo
Prob>chi2 0.05 (5%)
Warnning
Prob>chi2 = 1(100%)
Si el valor es igual o cercano a 1, no significa que los instrumentos sean vlidos sino
que probablemente no se est cumpliendo las propiedades asintticas del test
(Roodman, 2009), en cuyo caso debemos rechazar la Ho, al igual que cuando el valor
es < 0.05.
Recomendacin
El valor de Prob>chi2 debe estar situado en el siguiente intervalo
0.05 Prob>chi2<0.8
Segn, Roodman (2009) sera ptimo encontrar la Prob>chi2 en el siguiente intervalo
0.1 Prob>chi2<0.25
En el caso de que el valor de la Prob>chi2 se encuentre fuera del intervalo, el modelo
debe ser analizado con precaucin, pues podra estar sobreidentificado, siendo
necesario agregar restricciones.
Comandos en Stata:
1. Test de Sargan: estat sargan
Usndolo despus de la estimacin con One step
40
22
41
Recomendaciones
4.3.8. Tips
Estos tips han sido extrados desde Mileva (2007), Roodman (2009), adems de las
experiencias empricas de los autores de esta guia.
En este apartado distinguiremos entre Tips para: (1) Paneles GMM en general
(xtabond, xtdpdsys y xtaond2) y (2) Tips especficos para xtabond2.
42
43
4.4.
En este apartado se ofrecen una serie de los ejemplos de paneles dinmicos. Para ello
se usar un caso para el anlisis con xtabond y xtdpdsys y tres ejemplos para el
comando xtabond2.
Number of obs
Number of groups
Obs per group:
Number of instruments =
=
=
51
17
min =
avg =
max =
3
3
3
=
=
304.52
0.0000
Wald chi2(3)
Prob > chi2
One-step results
vardep
Coef.
vardep
L1.
Std. Err.
.5451245
.0615707
var1
var3
.003336
-.1939186
.0050603
.0839586
P>|z|
8.85
0.000
.4244481
.6658009
0.66
-2.31
0.510
0.021
-.0065821
-.3584744
.0132541
-.0293628
El ejemplo anterior muestra los resultados de una estimacin con difference GMM,
One step (por defecto), considerando vardep como variable dependiente, y como
variables explicativas el retardo de vardep (variable endgena) y var1 y var2 (variables
exgenas). Adems, se ha incorporado el comando noconstant para que la estimacin
no sea calculada con el trmino constante.
La muestra est compuesta por 51 observaciones y 17 grupos (individuos). El nmero
de instrumentos usados en la estimacin es igual a 8, siendo este nmero inferior al
nmero de grupos, lo que da indicios de que no debieran existir problemas de
sobreidentificacin.
No tiene sentido en este caso analizar la significancia de los coeficientes de las
variables ya que, como se ha venido argumentando siempre es preferible la opcin
Two step y vce(robust) para mejorar la eficiencia. Esta estimacin solo ha sido
realizada para postestimar el test de Sargan.
44
estat sargan
. estat sargan
Sargan test of overidentifying restrictions
H0: overidentifying restrictions are valid
chi2(5)
Prob > chi2
=
=
7.506046
0.1856
La prob> chi2 del test de Sargan (test de sobreidentificacin) es igual a 0.1856 lo que es
mayor que 0.05. Esto indica H0 no se rechaza, por lo que las restricciones de
sobreidentificacin son vlidas y, por tanto, los instrumentos utilizados para la
estimacin son correctos.
Number of obs
Number of groups
Obs per group:
Number of instruments =
=
=
51
17
min =
avg =
max =
3
3
3
=
=
32.97
0.0000
Wald chi2(3)
Prob > chi2
Two-step results
(Std. Err. adjusted for clustering on ica)
WC-Robust
Std. Err.
vardep
Coef.
vardep
L1.
.6027618
.1876604
var1
var3
.0020771
-.1868614
.0049239
.1276013
P>|z|
3.21
0.001
.2349543
.9705694
0.42
-1.46
0.673
0.143
-.0075736
-.4369553
.0117278
.0632324
45
estat abond
. estat abond
Arellano-Bond test for zero autocorrelation in first-differenced errors
Order
1
2
Prob > z
-.36093
1.2524
0.7182
0.2104
H0: no autocorrelation
Number of obs
Number of groups
Obs per group:
Number of instruments =
12
=
=
51
17
min =
avg =
max =
3
3
3
=
=
259.86
0.0000
Wald chi2(3)
Prob > chi2
Two-step results
(Std. Err. adjusted for clustering on ica)
WC-Robust
Std. Err.
vardep
Coef.
vardep
L1.
.5654174
.0901613
var3
var1
.0381789
.0012381
.209067
.0060108
P>|z|
6.27
0.000
.3887044
.7421303
0.18
0.21
0.855
0.837
-.3715849
-.0105428
.4479427
.013019
Number of obs
Number of groups
Obs per group:
Number of instruments =
16
=
=
51
17
min =
avg =
max =
3
3
3
=
=
67.66
0.0000
Wald chi2(3)
Prob > chi2
Two-step results
(Std. Err. adjusted for clustering on ica)
WC-Robust
Std. Err.
vardep
Coef.
vardep
L1.
.5655598
.0846262
var3
var1
-.0471795
.0021778
.0958539
.0068772
P>|z|
6.68
0.000
.3996954
.7314241
-0.49
0.32
0.623
0.751
-.2350496
-.0113013
.1406906
.0156569
En este caso var3 ha sido tratada como predeterminada sin poner restricciones, lo que
incrementa el nmero de instrumentos.
Number of obs
Number of groups
Obs per group:
Number of instruments =
12
=
=
68
17
min =
avg =
max =
4
4
4
=
=
57943.32
0.0000
Wald chi2(3)
Prob > chi2
Two-step results
vardep
Coef.
Std. Err.
vardep
L1.
.9807195
.0587436
var1
var3
_cons
.0106537
-.4958859
.9624618
.0038595
.060886
5.677702
P>|z|
16.69
0.000
.8655842
1.095855
2.76
-8.14
0.17
0.006
0.000
0.865
.0030893
-.6152202
-10.16563
.0182182
-.3765515
12.09055
47
estat sargan
. estat sargan
Sargan test of overidentifying restrictions
H0: overidentifying restrictions are valid
chi2(8)
Prob > chi2
=
=
3.774949
0.8768
twostep
Number of obs
Number of groups
Obs per group:
Number of instruments =
12
=
=
68
17
min =
avg =
max =
4
4
4
=
=
2139.59
0.0000
Wald chi2(3)
Prob > chi2
Two-step results
WC-Robust
Std. Err.
vardep
Coef.
vardep
L1.
.9807195
.3357206
var1
var3
_cons
.0106537
-.4958859
.9624618
.0264802
.1540212
24.79639
P>|z|
2.92
0.003
.3227193
1.63872
0.40
-3.22
0.04
0.687
0.001
0.969
-.0412466
-.7977618
-47.63758
.0625541
-.1940099
49.5625
48
. estat sargan
A diferencia
de laofanterior
estimacin,
en esta ltima hemos incorporado la opcin
Sargan test
overidentifying
restrictions
H0: overidentifying restrictions are valid
vce(robust) que
realiza
el clculo
contest
la matriz
de pesos heterocedstica.
cannot
calculate
Sargan
with vce(robust)
chi2(8)
Prob > chi2
estat abond
=
=
.
.
Prob > z
.69632
-.27936
0.4862
0.7800
H0: no autocorrelation
El test de Arellano y Bond muestra que para el segundo orden no hay correlacin serial
de los errores y por tanto, Ho no se rechaza, lo que permite inferir que la
endogeneidad ha sido tratada adecuadamente en el modelo.
xtabond2
Ejemplo 1
xtabond2 Vardep l.Vardep l.(var1 var2 var3) var4 var5 var6 var7, gmm(l.Vardep)
gmm(l.(var1 var2 var3)) gmm(var4 var5) iv(var6 var7) robust twostep
. xtabond2 Vardep l.Vardep l.(var1 var2 var3) var4 var5 var6 var7, gmm(l.Vardep) gmm(l.(var1 var2 var
> 3)) gmm(var4 var5) iv(var6 var7) robust twostep artest(2)
Favoring speed over space. To switch, type or click on mata: mata set matafavor space, perm.
Warning: Number of instruments may be large relative to number of observations.
Warning: Two-step estimated covariance matrix of moments is singular.
Using a generalized inverse to calculate optimal weighting matrix for two-step estimation.
Difference-in-Sargan statistics may be negative.
Dynamic panel-data estimation, two-step system GMM
Group variable: id
Time variable : year
Number of instruments = 130
Wald chi2(8) = 48616.09
Prob > chi2
=
0.000
Number of obs
Number of groups
Obs per group: min
avg
max
Corrected
Std. Err.
Vardep
Coef.
Vardep
L1.
.9771125
.0359486
var1
L1.
-.0022753
var2
L1.
.002381
var3
L1.
var4
var5
var6
var7
_cons
198
33
6
6.00
6
P>|z|
27.18
0.000
.9066545
1.04757
.0020396
-1.12
0.265
-.0062729
.0017224
.0026863
0.89
0.375
-.002884
.007646
-.0011169
.001226
-0.91
0.362
-.0035198
.0012859
-.0006205
.0009532
.0026386
.0008161
.0318833
.0004026
.001894
.0046711
.0006034
.0818426
-1.54
0.50
0.56
1.35
0.39
0.123
0.615
0.572
0.176
0.697
-.0014096
-.002759
-.0065165
-.0003666
-.1285253
.0001685
.0046655
.0117938
.0019988
.1922919
=
=
=
=
=
49
-2.40
-1.67
Pr > z =
Pr > z =
0.016
0.094
0.000
1.000
50
Ejemplo 2
xtabond2 Vardep l.Vardep var1 var2 var3 var4 var6 var7, gmm(l.vardep, lag(1 1))
gmm(var1 var2, collapse) iv(var3 var4 var5 var6 var7) robust twostep
. xtabond2 Vardep l.Vardep var1 var2 var3 var4 var5 var6 var7, gmm(l.Vardep, lag (1 1
> )) gmm(var1 var2, collapse) iv(var3 var4 var5 var6 var7) robust twostep
Favoring speed over space. To switch, type or click on mata: mata set matafavor space
> , perm.
Warning: Two-step estimated covariance matrix of moments is singular.
Using a generalized inverse to calculate optimal weighting matrix for two-step esti
> mation.
Difference-in-Sargan statistics may be negative.
Dynamic panel-data estimation, two-step system GMM
Group variable: id
Time variable : year
Number of instruments = 30
Wald chi2(8) = 40108.63
Prob > chi2
=
0.000
Number of obs
Number of groups
Obs per group: min
avg
max
Corrected
Std. Err.
P>|z|
=
=
=
=
=
198
33
6
6.00
6
Vardep
Coef.
Vardep
L1.
.9215161
.063568
14.50
0.000
.796925
1.046107
var1
var2
var3
var4
var5
var6
var7
_cons
.0102567
.002995
.0003887
.000135
-.0007416
-.0004157
.0011585
.1802162
.0030295
.0028396
.0007755
.0004844
.0014002
.0024315
.000629
.164076
3.39
1.05
0.50
0.28
-0.53
-0.17
1.84
1.10
0.001
0.292
0.616
0.780
0.596
0.864
0.065
0.272
.0043189
-.0025705
-.0011312
-.0008145
-.003486
-.0051813
-.0000743
-.1413667
.0161945
.0085605
.0019086
.0010845
.0020028
.00435
.0023913
.5017992
-2.51
-0.92
Pr > z =
Pr > z =
0.012
0.360
0.000
0.103
La prueba de Wald seala que el modelo est correctamente estimado y que las
variables en conjunto explican adecuadamente la variable dependiente.
Por tanto, tomando en cuenta los estadsticos analizados, este modelo cumple con las
condiciones requeridas. Sin embargo, se recomendara seguir mejorando el modelo,
pues es probable que no todas las variables estn adecuadamente expresadas
Finalmente, concluimos que este modelo rene las condiciones necesarias para ser
aceptado como vlido.
Condicin 1: Validez de los instrumentos (Test Hansen=Aceptable)
0.1 (prob>chi2=0.103) 0.25
El valor es ptimo, aunque tambin se aceptara que sea superior a 0.25, siempre y
cuando sea inferior a 0.80.
Condicin 2: Autocorrelacinz= -2.51 Ar(1)= 0.012
z=-0.92 Ar(2)=0.36
Condicin 3: Nmero de instrumentos < nmero de grupos
52
Ejemplo 3
xtabond2 vardep l.(var1 var2 var3 var4 var5 var6 var7), gmm(var1 var2 var3 var4 var5
var6 var7, collapse eq(diff)) robust twostep
. xtabond2 vardep l.(var1 var2 var3 var4 var5 var6 var7), gmm(var1 var2 var3 var4 var5 var6 var7,
> collapse eq(diff)) robust twostep
Favoring speed over space. To switch, type or click on mata: mata set matafavor space, perm.
Warning: Number of instruments may be large relative to number of observations.
Warning: Two-step estimated covariance matrix of moments is singular.
Using a generalized inverse to calculate optimal weighting matrix for two-step estimation.
Difference-in-Sargan statistics may be negative.
Dynamic panel-data estimation, two-step system GMM
Group variable: id
Time variable : year
Number of instruments = 43
Wald chi2(7) =
309.05
Prob > chi2
=
0.000
Number of obs
Number of groups
Obs per group: min
avg
max
Corrected
Std. Err.
vardep
Coef.
var1
L1.
.010191
.0051105
var2
L1.
.0824361
var3
L1.
var4
L1.
=
=
=
=
=
198
33
6
6.00
6
P>|z|
1.99
0.046
.0001746
.0202074
.0180862
4.56
0.000
.0469878
.1178843
-.0002977
.0024909
-0.12
0.905
-.0051797
.0045843
.0014213
.0012378
1.15
0.251
-.0010048
.0038474
var5
L1.
.0055398
.0047159
1.17
0.240
-.0037033
.0147829
var6
L1.
.0256558
.0185012
1.39
0.166
-.0106058
.0619175
var7
L1.
.0058867
.0017399
3.38
0.001
.0024765
.0092968
_cons
1.886316
.2522068
7.48
0.000
1.391999
2.380632
1.18
-1.45
Pr > z =
Pr > z =
0.236
0.146
0.000
0.778
53
1. Seleccin de variables
La seleccin de variables a incluir en el modelo depender de la informacin que la
literatura especializada pueda entregar, y por tanto del tipo modelo que se intente
estimar y del fenmeno que se desee explicar.
No obstante, estadsticamente el anlisis del tipo factorial permite realizar la seleccin
de variables acorde al poder explicativo de cada una de ellas y la agrupacin de las
mismas. A pesar de esto, en muchos casos podemos seguir teniendo mltiples
opciones, por lo que se recomienda hacer un anlisis de correlacin entre ellas, con el
fin de excluir las variables que tengan un mismo comportamiento (deberamos esperar
una correlacin menor o igual a 0.70, aunque no existe un criterio exacto).
Recomendamos que la seleccin final de las variables se realice usando paneles
estticos, pues este anlisis es ms simple y requiere menos tiempo que paneles
dinmicos, entregando una buena orientacin de las variables que efectivamente
podran explicar el fenmeno en estudio.
Sin Lags
(1 .)
(2 .)
(3 .)
(1 .)
(2 .)
(3 .)
(. 1)
(. 2)
(. 3)
(. 1)
(. 2)
(. 3)
(1 1)
(2 2)
(3 3)
(1 1)
(2 2)
(3 3)
(1 2)
(1 3)
(1 2)
(1 3)
(2 1)
(2 3)
(2 1)
(2 3)
(3 1)
(3 2)
(3 1)
(3 2)
Se pueden agregar dos cuadros que incluyan las restricciones de eq(diff) o eq(level),
adems de las combinaciones presentadas en el cuadro anterior.
S los estadsticos se comportan correctamente, nos indicara que existe indicios de
endogeneidad en el modelo y que esta puede ser tratada por medio del GMM system.
Adems, los resultados nos permiten seleccionar la combinacin de restricciones que
impondremos al retardo de Y en el modelo extendido (aquel que incluye las variables
independientes).
Cabe mencionar, que en modelos dinmicos la variable Y retardada tiene
habitualmente un poder explicativo superior que el resto de las variables
independientes, por lo cual, el tratamiento de sus restricciones por separado, se hace
an ms necesario.
Es recomendable elegir una combinacin de restricciones que presente el menor
nmero de instrumentos posibles cuando tenemos sospechas de que nuestro modelo
pueda ser fcilmente sobreidentificado, debido a que el resto de las variables
explicativas aportarn tambin sus propios instrumentos.
Posteriormente, debiramos estimar el modelo incorporando el resto de las variables
independientes. Una recomendacin importante es tratar estas variables en grupos:
55
Equation difference
Equation level
Equation level
Lags
Sin Lags
Sin Lags
Equation diff
(1 .)
(2 .)
(3 .)
(1 .)
(2 .)
(3 .)
(1 .)
(2 .)
(3 .)
(1 .)
(2 .)
(3 .)
(. 1)
(. 2)
(. 3)
(. 1)
(. 2)
(. 3)
(. 1)
(. 2)
(. 3)
(. 1)
(. 2)
(. 3)
(1 1)
(2 2)
(3 3)
(1 1)
(2 2)
(3 3)
(1 1)
(2 2)
(3 3)
(1 1)
(2 2)
(3 3)
(1 2)
(1 3)
(1 2)
(1 3)
(1 2)
(1 3)
(1 2)
(1 3)
(2 1)
(2 3)
(2 1)
(2 3)
(2 1)
(2 3)
(2 1)
(2 3)
(3 1)
(3 2)
(3 1)
(3 2)
(3 1)
(3 2)
(3 1)
(3 2)
Lags
Sin Lags
Sin Lags
Equation diff
Sin Lags
(1 .)
(2 .)
(3 .)
(1 .)
(2 .)
(3 .)
(1 .)
(2 .)
(3 .)
(1 .)
(2 .)
(3 .)
(. 1)
(. 2)
(. 3)
(. 1)
(. 2)
(. 3)
(. 1)
(. 2)
(. 3)
(. 1)
(. 2)
(. 3)
(1 1)
(2 2)
(3 3)
(1 1)
(2 2)
(3 3)
(1 1)
(2 2)
(3 3)
(1 1)
(2 2)
(3 3)
(1 2)
(1 3)
(1 2)
(1 3)
(1 2)
(1 3)
(1 2)
(1 3)
(2 1)
(2 3)
(2 1)
(2 3)
(2 1)
(2 3)
(2 1)
(2 3)
(3 1)
(3 2)
(3 1)
(3 2)
(3 1)
(3 2)
(3 1)
(3 2)
De los anlisis anteriores sern seleccionadas aquellas estimaciones en las que los test
de Sargan/Hansen y Arellano y Bond se comporten acorde a los criterios sealados.
Esto nos permite conocer si nuestras variables son de naturaleza exgena, endgena o
predeterminada, adems de la restriccin que debemos utilizar.
Como tercer paso, es probable que algunas de las variables que han sido incorporadas
en un determinado grupo tengan un comportamiento mejor si son tratadas de una
56
forma distinta. Por ello, procedemos a tratar variable a variable de manera diferente.
Es decir, si el grupo de variables ha sido inicialmente tratado como endgeno,
tomaremos una a una como exgena, e introducindose el resto como endgenas.
Para ello podemos utilizar el esquema que se presenta a continuacin (figura 7).
Figura 7. Tratamiento individualizado de las variables independientes
Tratamiento indiviualizado de las Xs
De: exgenas
A: endgenas /predeterminada
Var 1
Var2
Var3
Var4
Var5
Var6
Varn
Tambin es posible hacer combinaciones de variables con retardo (L) y variables sin
retardo, lo que aumenta el nmero de combinaciones posibles.
Finalmente, se pueden hacer combinaciones de todas las alternativas que en el paso 3
han aprobado la condicin impuesta por los estadsticos. Es decir, por ejemplo,
podemos tener tres variables exgenas, una endgena retardada, y dos
predeterminadas.
Cualquier alternativa en el tratamiento de las variables que finalmente seleccionemos
debe estar respaldada en la literatura pertinente.
Gran parte de las recomendaciones entregadas anteriormente pueden ser tambin
aplicadas para el estimador xtabond y xtdpdsys, poniendo atencin en las opciones y
comandos que estos tienen.
57
3. Como presentar los resultados obtenidos por medio de estimaciones con datos
de panel
A continuacin, se presenta una propuesta para reportar los resultados de las
estimaciones (figura 8). El formato ha sido elaborado sobre la base de lo que
comnmente se observa en publicaciones cientficas.
Figura 8. Propuesta para presentar los resultados
Datos de Panel Estticos
Coef
SE
Var1
Var2
Var3
Var4
Var5
Var6
Var7
Varn
_cons
Hausman
chi2
Prob>Chi2
Within
Overall
Between
Observations
Individuos
Static Panel Data Robust SE in parentheses
SE
Dependent t-1
Var1
Var2
Var3
Var4
Var5
Var6
Varn
_cons
Hansen
Test Chi-Square
Ar(1)
Ar(2)
Observaciones/grupos
Prob>chi2
z
z
N/n
Instrumentos
GMM- Dinamic Panel data- Two Step- Robust standard errors in parentheses
58
6. Referencias
LVAREZ, I. y MARN, R., 2010. Entry modes and national systems of innovation.
Journal of International Management, 16(4), pp. 340-353.
APARICIO, J., Y MRQUES, J., 2005. Diagnstico y especificacin de modelos de panel
en Stata 8. Divisin de Estudios Polticos CIDE.
ARELLANO, M. y BOND, S., 1991. Some tests of specification for panel data: Monte
Carlo evidence and an application to employment equations. The Review of Economic
Studies, 58(2), pp. 277-297.
ARELLANO, M. y BOVER, O., 1995. Another look at the instrumental variable estimation
of error-components models. Journal of Econometrics, 68(1), pp. 29-51.
ARELLANO, M. y BOVER, O., 1990. La econometra de datos de panel. Investigaciones
Econmicas (segunda poca), 14(1), pp. 3-45.
BAUM, C.F., SCHAFFER, M.E. y STILLMAN, S., 2003. Instrumental variables and GMM:
Estimation and testing. Stata Journal, 3(1), pp. 1-31.
BLUNDELL, R. y BOND, S., 1998. Initial conditions and moment restrictions in dynamic
panel data models. Journal of Econometrics, 87(1), pp. 115-143.
BOND, S.R., 2002. Dynamic panel data models: a guide to micro data methods and
practice. Portuguese Economic Journal, 1(2), pp. 141-162.
CAMERON, A.C. y TRIVEDI, P.K., 2009. Microeconometrics using Stata. Stata Press
College Station, TX.
CASTELLACCI, F., 2008. Technology clubs, technology gaps and growth trajectories.
Structural Change and Economic Dynamics, 19(4), pp. 301-314.
DE ARCE, R. y MAHA, R., 2001. Conceptos bsicos sobre la heterocedasticidad en el
modelo bsico de regresin lineal. Tratamiento con E-Views. Disponible en
https://www.uam.es/ana.delsur/pdf/heterocedasticidad.pdf
DOSI, G., 1988. Sources, procedures, and microeconomic effects of innovation. Journal
of economic literature, pp. 1120-1171.
GALVAO, A. y MONTES-ROJAS, G., 2009. Instrumental variables quantile regression for
panel data with measurement errors. Department of Economics Discussion Paper
Series, 9(06).
HOECHLE, D., 2007. Robust standard errors for panel regressions with cross-sectional
dependence. Stata Journal, 7(3), pp. 281.
59
MILEVA, E., 2007. Using Arellano-Bond Dynamic Panel GMM Estimators in Stata.
Tutorial, Fordham University, New York.
MONTERO. R (2005): Test de Hausman. Documentos de Trabajo en Economa
Aplicada. Universidad de Granada. Espaa
ROODMAN, D., 2006. How to do xtabond2: An introduction to difference and system
GMM in Stata. Center for Global Development working paper, (103).
ROODMAN, D., 2009. A note on the theme of too many instruments. Oxford Bulletin of
Economics and Statistics, 71(1), pp. 135-158.
ROODMAN, D., 2012. xtabond2: Stata module to extend xtabond dynamic panel data
estimator. Statistical Software Components.
SARGAN, J.D., 1958. The estimation of economic relationships using instrumental
variables. Econometrica: Journal of the Econometric Society, pp. 393-415.
SCHMIDHEINY, K., 2014. Instrumental Variables. Short Guides to Microeconometrics.
60
61