Cap 10 y 13 Gujarati Final
Cap 10 y 13 Gujarati Final
Cap 10 y 13 Gujarati Final
UNIVERSIDAD DE CUENCA
FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS
CAPÍTULOS 10 Y 13
(DAMODAR GUJARATI)
INTEGRANTES:
Adriana Bermeo
Jessica Carrión
Suley Naranjo
Marcela Palacios
CURSO: EC 05-01
MULTICOLINEALIDAD
En los datos de series de tiempo, puede ser que las regresoras del modelo compartan una
tendencia común; es decir, que todas aumenten o disminuyan a lo largo del tiempo. Por ejemplo,
en la regresión del total del consumo sobre el ingreso, la riqueza y la población, las regresoras
ingreso, riqueza y población tal vez todas crezcan con el tiempo a una tasa aproximadamente
igual, con lo cual se presentaría la colinealidad entre dichas variables.
4. Un modelo sobre determinado. (el modelo tiene más variables explicativas que el número de
observaciones).
∀𝑖 = 1,2,3 … , 𝑛
Se dice que existe una relación lineal exacta entre las variables explicativas del mismo siempre
que
∃𝜆𝑖 ≠ 0 ∀𝑖 = 1,2,3 … , 𝑛
𝜆1 𝜆𝑘
𝑋2𝑖 = 𝑋 − ⋯ − 𝑋𝑘𝑖
𝜆2 1𝑖 𝜆2
𝜆1 𝜆𝑘 1
𝑋2𝑖 = − 𝑋1𝑖 − ⋯ − 𝑋𝑘𝑖 − 𝑣𝑖
𝜆2 𝜆2 𝜆2
CONSECUENCIAS DE LA MULTICOLINEALIDAD
El único efecto de la multicolinealidad tiene que ver con la dificultad de obtener los coeficientes
estimados con errores estándar pequeños.
En los casos de casi o alta multicolinealidad es probable que se presenten las siguientes
consecuencias:
2. Los intervalos de confianza tienden a ser mucho más amplios, lo cual propicia una aceptación
más fácil de la “hipótesis nula cero”.
5. Los estimadores de MCO y sus errores estándar son sensibles a pequeños cambios en los
datos.
𝑛 𝑛 𝑛
2
∑ 𝑥2𝑖 − ∑ 𝑥1𝑖 𝑥2𝑖 ∑ 𝑦𝑖 𝑥1𝑖
𝛽̂ 1
( 1) = 𝑖=1
𝑛
𝑖=1
𝑛
𝑖=1
𝑛
𝛽̂2 ∑𝑛𝑖 𝑥1𝑖
2 ∑𝑛 2 𝑛 2
𝑖 𝑥2𝑖 − (∑𝑖=1 𝑥1𝑖 𝑥2𝑖 ) 2
− ∑ 𝑥1𝑖 𝑥2𝑖 ∑ 𝑥1𝑖 ∑ 𝑦𝑖 𝑥2𝑖
[ 𝑖=1 𝑖=1 ] [ 𝑖=1 ]
𝑛 𝑛
2 ∑𝑛𝑖=1 𝑦𝑖 𝑥1𝑖
∑ 𝑥2𝑖 0 ∑ 𝑦𝑖 𝑥1𝑖
𝛽̂ 1 ∑𝑛 𝑥 2
( 1) = 𝑛 2 𝑛 2 𝑖=1
𝑛
𝑖=1
𝑛 = 𝑛 𝑖 1𝑖
̂
𝛽2 ∑𝑖 𝑥1𝑖 ∑𝑖 𝑥2𝑖 ∑𝑖=1 𝑦𝑖 𝑥2𝑖
2
0 ∑ 𝑥1𝑖 ∑ 𝑦𝑖 𝑥2𝑖 [ ∑𝑛𝑖=1 𝑥2𝑖
2
]
[ 𝑖=1 ] [ 𝑖=1 ]
y
𝑛
2
∑ 𝑥2𝑖 0 1
̂ 𝜎̂𝑢2 ∑𝑛 𝑥 2
𝑉𝑎𝑟 − ̂ (𝛽̂ ) =
𝑐𝑜𝑣 𝑛 𝑛
𝑖=1
𝑛 = 𝜎̂𝑢2 𝑖=1 1𝑖
2 2
∑𝑖 𝑥1𝑖 ∑𝑖 𝑥2𝑖 1
2
0 ∑ 𝑥1𝑖 [∑𝑛𝑖=1 𝑥2𝑖
2
]
[ 𝑖=1 ]
En el caso de que la relación lineal entre las variables consideradas fuese exacta
𝑋2 = 𝜆𝑋1
El denominador de la matriz de betas sería igual a cero y no sería posible la estimación del
modelo. Se particularizaría en una expresión indeterminada como
𝑛 𝑛 𝑛
2
∑ 𝑥2𝑖 − ∑ 𝑥1𝑖 𝑥2𝑖 ∑ 𝑦𝑖 𝑥1𝑖
𝛽̂ 1 0
( 1) = 𝑖=1
𝑛
𝑖=1
𝑛
𝑖=1
𝑛 =
𝛽̂2 ∑𝑛𝑖 𝑥1𝑖
2 ∑𝑛 2 𝑛 2 0
𝑖 𝑥2𝑖 − (∑𝑖=1 𝑥1𝑖 𝑥2𝑖 ) 2
− ∑ 𝑥1𝑖 𝑥2𝑖 ∑ 𝑥1𝑖 ∑ 𝑦𝑖 𝑥2𝑖
[ 𝑖=1 𝑖=1 ] [ 𝑖=1 ]
Mientras que las varianzas y desviaciones típicas de las betas aumentarían indefinidamente.
𝑛 𝑛
2 2
∑ 𝜆2 𝑥1𝑖 ∑ 𝜆2 𝑥1𝑖
̂ 𝜎̂𝑢2 𝑖=1 𝑖=1
𝑉𝑎𝑟 − ̂ (𝛽̂ ) =
𝑐𝑜𝑣 2 𝑛 𝑛
𝜆2 ∑𝑛𝑖 𝑥1𝑖
2
− 𝜆2 (∑𝑛𝑖=1 𝑥 21𝑖 ) 2 2
− ∑ 𝜆𝑥1𝑖 ∑ 𝑥1𝑖
[ 𝑖=1 𝑖=1 ]
𝑛 𝑛
2 2
∑ 𝜆2 𝑥1𝑖 ∑ 𝜆2 𝑥1𝑖
𝜎̂𝑢2 𝑖=1 𝑖=1
= 𝑛 𝑛
0
2 2
− ∑ 𝜆𝑥1𝑖 − ∑ 𝜆𝑥1𝑖
[ 𝑖=1 𝑖=1 ]
En la práctica ante una situación de este tipo no sería posible separar las influencias individuales
de 𝑋1 𝑦 𝑋2 sobre la muestra considerada. La estimación de Beta 1 representa la tasa promedio de
cambio que experimenta la variable dependiente cuando 𝑋1 Se incrementa unitariamente
permaneciendo 𝑋2 constante.
𝑋2 = 𝜆𝑋1 + 𝑣𝑖 ∀𝑖 = 1,2,3 … , 𝑛
∑ 𝑥𝑗𝑖 𝑣𝑖 = 0
𝑖=1
𝛽̂1
( )
𝛽̂2
𝑛 𝑛 𝑛 𝑛
2
𝜆 2
∑ 𝑥1𝑖 + ∑ 𝑣𝑖2 − ∑ 𝑥1𝑖 𝑥2𝑖 ∑ 𝑦𝑖 𝑥1𝑖
1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
= 2 𝑛 𝑛 𝑛 𝑛
∑𝑛𝑖 𝑥1𝑖
2
(𝜆2 ∑𝑛𝑖=1 𝑥1𝑖
2
+ ∑𝑛𝑖=1 𝑣𝑖2 ) − (𝜆 ∑𝑛𝑖=1 𝑥1𝑖
2
) 2 2
−𝜆 ∑ 𝑥1𝑖 ∑ 𝑥1𝑖 𝜆 ∑ 𝑦𝑖 𝑥1𝑖 + ∑ 𝑦𝑖 𝑣𝑖
[ 𝑖=1 𝑖=1 ] [ 𝑖=1 𝑖=1 ]
Y
̂
𝑉𝑎𝑟 − ̂ (𝛽̂ )
𝑐𝑜𝑣
𝑛 𝑛
2
∑(𝜆𝑥1𝑖 + 𝑣𝑖 ) − ∑ 𝑥1𝑖 (𝜆𝑥1𝑖 + 𝑣𝑖 )
𝜎̂𝑢2 𝑖=1 𝑖=1
= 2 𝑛 𝑛
∑𝑛𝑖 𝑥1𝑖
2 ∑𝑛𝑖=1(𝜆𝑥1𝑖 + 𝑣𝑖 )2 − (∑𝑛𝑖=1 𝑥1𝑖 (𝜆𝑥1𝑖 + 𝑣𝑖 )) 2
− ∑ 𝑥1𝑖 (𝜆𝑥1𝑖 + 𝑣𝑖 ) ∑ 𝑥1𝑖
[ 𝑖=1 𝑖=1 ]
Obsérvese que si fuese suficientemente pequeño reflejarían una situación de una colinealidad
casi perfecta entre las variables 𝑋1 𝑦 𝑋2 .
3. Regresiones auxiliares.
La multicolinealidad es la existencia de relaciones lineales entre las variables explicativas del
modelo. La regresión de cada variable explicativa 𝑋𝑗 en función del resto de regresores,
(calculando el correspondiente coeficiente de determinación) permitirá averiguar qué regresor
depende linealmente del resto de variables explicativas. Cada regresión se denomina regresión
auxiliar a la regresión principal, teniendo en cuenta la relación entre el estadístico F-Snedecor y
el coeficiente de determinación,
𝑅𝑥2𝑗… 𝑥1 𝑥2 …𝑥𝑘
(𝑘 − 1)
𝐹 ∗𝑗 =
(1 − 𝑅𝑥2𝑗… 𝑥1 𝑥2 …𝑥𝑘 )
(𝑛 − 𝑘)
Siendo el estadístico prueba particularizado, bajo hipótesis nula 𝐻0 = 𝑅𝑥2𝑗… 𝑥1 𝑥2 …𝑥𝑘 =0, a
la regresión auxiliar.
̂ 𝑱 ).
4. Factor de agrandamiento de la varianza 𝑭𝑨𝑽 (𝜷
Siendo la razón entre la varianza observada y la que habría sido en el caso de la variable 𝑋𝑗
considerada estuviera incorrelada con el resto de regresores del modelo. El 𝐹𝐴𝑉 (𝛽̂𝐽 ) muestra en
qué medida aumenta la varianza del estimador 𝛽̂𝑗 , como consecuencia de la no ortogonalidad de
las variables explicativas del modelo,
1
̂ 𝑱) =
𝑭𝑨𝑽 (𝜷
(1 − 𝑅𝑗2 )
5. El número de condición.
Siendo la raíz cuadrada de la razón, entre las raíces características mayor y menor de la
matriz X´X,
𝜆𝑚á𝑥
𝑥(𝑋) = √
𝜆𝑚𝑖𝑛
Soluciones a la multicolinealidad
Transformación de variables
Con el problema de la multicolinealidad se presenta en una muestra en forma de serie
temporal, la tendencia, aproximadamente común, una de las variables explicativas podrá ser la
causa de dicho problema. En una situación de este tipo, la utilización de variables en forma de
primeras diferencias puede hacer disminuir el grado de correlación entre los regresores del
modelo.
Las soluciones de este tipo, deben utilizarse con suma cautela, ya que pueden constituir
el origen de otro tipo de problemas econométricos. La transformación que utiliza las primeras
diferencias constituye el origen de algunos problemas adicionales. El término de error que
aparece en el modelo transformado puede no satisfacer alguna de las hipótesis básicas del
modelo de regresión, en concreto la independencia serial de los residuos mínimo-cuadráticos.
Con una solución de este tipo se reducen los grados de libertad, al perderse una observación en
el proceso de diferenciación, debiendo tener en cuenta en muestras de pequeñas. Además, el
procedimiento de diferenciación no puede ser el adecuado en muestras de corte transversal,
donde no existe un ordenamiento lógico de las observaciones.
Otras transformaciones propuestas serían la consideración de las tasas de crecimiento,
en vez de utilizar los valores absolutos de las variables, proporciones, transformaciones
logarítmicas etc. Al proponer transformaciones se debe valorar su contenido económico.
CAPÍTULO 10
Comando: ls Y C X2 X3
La única diferencia entre las tablas 10.3 y 10.4 es que se intercambiaron el tercer y el cuarto
valores de X3. Con la información de la tabla 10.4 ahora obtenemos la regresión 10.5.7
Comando: ls Y C X2 X3
Como resultado de un ligero cambio en los datos vemos que β̂2, antes estadísticamente
significativo en un nivel de significancia de 10%, deja ahora de serlo aun en ese nivel.
Mientras que en (10.5.7) es −0.0282, un aumento superior a tres veces su valor inicial
En forma similar, los errores estándar de β̂2 y β̂3 aumentan entre las dos regresiones, síntoma
característico de la colinealidad. Esto se confirma con las regresiones (10.5.6) y (10.5.7). En la
primera regresión, la suma de los dos coeficientes parciales de las pendientes es 0.4493, en tanto
que en la segunda regresión dicha suma es 0.4284, prácticamente la misma.
EJEMPLO 10.1 Gasto de consumo en relación con el ingreso y la riqueza
Datos: Considere los datos hipotéticos de la tabla 7.4, sobre gasto de consumo Y, ingreso X2 y
riqueza X3. (A9:C19)
La tabla 10.5 contiene datos hipotéticos sobre consumo, ingreso y riqueza. Si suponemos que el
gasto de consumo se relaciona linealmente con el ingreso y la riqueza, entonces, con base en la
tabla 10.5, obtenemos la regresión 10.6.1:
Comando: ls Y C X2 X3
La regresión (10.6.1) muestra que el ingreso y la riqueza explican en conjunto alrededor de 96%
de la variación en los gastos de consumo. A pesar de esto, ningún coeficiente de las pendientes es
estadísticamente significativo de manera individual. Además, no sólo la variable riqueza es
estadísticamente no significativa, sino que también tiene el signo incorrecto. A priori, se
esperaría una relación positiva entre el consumo y la riqueza.
Es interesante observar este resultado desde un punto de vista geométrico. Para ello con base en
la regresión (10.6.1) se establecieron intervalos de confianza individuales a 95% de confianza
para β2 y β3.
Procedimiento:
Se obtiene finalmente:
y gráficamente:
Como muestran estos intervalos, cada uno de ellos, en forma individual, incluye el valor de cero.
Por tanto, individualmente podemos aceptar la hipótesis de que las dos pendientes parciales son
cero. Pero cuando establecemos el intervalo de confianza conjunto para probar la hipótesis de
que β2=β3= 0, esa hipótesis no puede aceptarse, pues el intervalo de confianza conjunto, en
realidad una elipse, no incluye el origen. Como ya señalamos, cuando la colinealidad es alta, no
son confiables las pruebas sobre las regresoras individuales; en tales casos, la prueba F global es
la que mostrará si Y está relacionada con las diversas regresoras. El ejemplo muestra en forma
muy evidente lo que hace la multicolinealidad. El hecho de que la prueba F sea significativa, pero
los valores t de X2 y X3 no sean significativos individualmente implica que las dos variables están
tan correlacionadas que es imposible aislar el impacto individual del ingreso o de la riqueza
sobre el consumo.
Haciendo la regresión de X3 sobre X2 (10.6.3):
Comando: ls X3 C X2
Comando: ls Y C X2
En (10.6.1), la variable ingreso no era estadísticamente significativa, mientras que ahora es muy
significativa. Si en lugar de efectuar la regresión de Y sobre X2 lo hacemos sobre X3, obtenemos la
regresión 10.6.5.
Comando: ls Y C X3
Se observa que la riqueza tiene ahora un impacto significativo sobre el gasto de consumo,
mientras que en (10.6.1) no tenía ninguno. Las regresiones (10.6.4) y (10.6.5) muestran con toda
claridad que, en situaciones de extrema multicolinealidad, eliminar la variable altamente
colineal con frecuencia provoca que la otra variable X se torne estadísticamente significativa.
Este resultado sugiere que una forma de evadir la colinealidad extrema es eliminar la variable
colineal.
Se concluye este capítulo con el análisis de los datos recopilados por Longley. Aunque se
obtuvieron originalmente para evaluar la exactitud de cálculo de los mínimos cuadrados
estimados de varios paquetes de software, los datos Longley. Se convirtieron u ejemplo para
ilustar diversos problemas econométricos incluyendo la multicolinealidad.
Datos: Los datos se reproducen en la tabla 10.7 y son series de tiempo para el periodo 1947-
1962, donde Y= número de personas con trabajo (en miles), X1= índice implícito de deflación de
precios para el PIB, X2= PIB (en millones de dólares), X3= número de desempleados (en miles),
X4= número de personas enlistadas en las fuerzas armadas, X5= población no institucionalizada
mayor de 14 años y X6= año (igual a 1 para 1947, 2 para 1948 y 16 para 1962).
Si el objetivo es predecir Y con base en las seis variables X, se obtienen los siguientes resultados
Comando: ls Y c X1 X2 X3 X4 X5 X6
A primera vista, dichos resultados sugerirían que se tiene un problema de colinealidad, pues el
valor R2 es muy alto; sin embargo, unas cuantas variables son estadísticamente no significativas
(X1, X2, y X5), lo cual constituye un síntoma característico de multicolinealidad.
Finalmente se obtiene:
Esta tabla suministra lo que se llama matriz de correlación. En la tabla, las entradas de la
diagonal principal (las que van desde la esquina superior izquierda hacia la esquina inferior
derecha) suministran la correlación de una variable consigo misma, la cual por definición
siempre es 1; además, las entradas fuera de la diagonal principal son las parejas de correlaciones
entre las variables X. El primer renglón de esta tabla proporciona la correlación de X 1 con las
otras variables X. Como se ve, varias de estas correlaciones a pares son muy altas, lo cual sugiere
que quizá haya un grave problema de colinealidad.
Con objeto de aclarar más la naturaleza del problema de la multicolinealidad, observe las
regresiones auxiliares; es decir, la regresión de cada variable X sobre las restantes variables X.
Para ahorrar espacio, se presentarán sólo los valores R2 obtenidos con base en esas regresiones,
las cuales se listan en la tabla 10.10. Como los valores R2 de las regresiones auxiliares son muy
altos (con la posible excepción de la regresión de X4) sobre las restantes variables X, al parecer
existe un grave problema de colinealidad. La misma información se obtiene a partir de los
factores de tolerancia. Como ya mencionamos, mientras más cercano a cero esté el factor de
tolerancia, mayor será la evidencia de colinealidad.
Para ello se toman los datos obtenidos en cada regresión, para adjuntar en una tabla resumen,
en la que los términos de tolerancia vienen dados por 1- R2
Tabla 10.10
Al aplicar la regla práctica de Klein observamos que los valores R2 obtenidos de las regresiones
auxiliares exceden el valor general R2 (es decir, el que se obtuvo de la regresión de Y sobre todas
las variables X), que es igual a 0.9954, en 3 de 6 regresiones auxiliares, lo cual de nuevo sugiere
que sin duda los datos Longley están plagados del problema de multicolinealidad. A propósito, si
aplica la prueba F dada en (10.7.3), se debe verificar que todos los valores R2 dados en las tablas
anteriores son estadística y significativamente diferentes de cero.
Ahora que establecimos que existe un problema de multicolinealidad, ¿qué acciones correctivas
pueden llevarse a cabo? Reconsidere el modelo original. En primer lugar, el PIB puede
expresarse no en términos nominales, sino en términos reales, lo cual se realiza al dividir el PIB
nominal entre el índice de deflación del precio implícito.
En tercer lugar, no hay ninguna razón de peso para incluir X3, el número de personas
desempleadas; quizá la tasa de desempleo fuese una mejor medida de las condiciones del
mercado de trabajo; sin embargo, no hay ningún dato al respecto. Por consiguiente, eliminamos
la variable X3. Con estos cambios obtenemos los siguientes resultados de la regresión
(PIB_REAL= PIB real):
Comando: ls Y C X2_REAL X4 X5
Aunque R2 disminuyó un poco en comparación con la R2 original, aún es muy alta. Ahora todos
los coeficientes estimados son significativos y sus signos tienen sentido desde el punto de vista
económico.
CAPÍTULO 13
PRUEBAS DE DIAGNOSTICO.
1. Ser adecuado para los datos; es decir, las predicciones basadas en el modelo
deben ser lógicamente posibles.
2. Ser consistente con la teoría; es decir, debe tener un sentido económico
pertinente.
3. Tener regresoras exógenas débiles; es decir, las variables explicativas, o
regresoras, no deben estar correlacionadas con el término de error.
4. Mostrar constancia en los parámetros; es decir, los valores de los parámetros
deben ser estables. De otra forma el pronóstico se dificultará.
5. Exhibir coherencia en los datos; es decir, los residuos estimados a partir del
modelo deben ser puramente aleatorios.
6. Ser inclusivo; es decir, el modelo debe abarcar o incluir todos los modelos
contendientes, en el sentido de que debe poder explicar sus resultados. En
resumen, otros modelos no pueden ser mejores que el elegido.
1. Omisión de una variable relevante: una vez formulado el modelo con base en la
teoría pertinente, no se aconseja eliminar una variable de dicho modelo.
2. Inclusión de una variable innecesaria: el mejor enfoque es incluir sólo las
variables explicativas que, en teoría, influyan directamente en la variable
dependiente y no se hayan tomado en cuenta en otras variables incluidas.
3. Adopción de la forma funcional incorrecta: Para determinar si la incompetencia
del modelo se debe a uno o más problemas están algunos métodos, como el
examen de residuos, Durbin-Watson, entre otros.
4. Errores de medición.
5. Especificación incorrecta del término de error estocástico.
6. Suposición de que el término de error está normalmente distribuido.
Los primeros cuatro tipos de error son errores de especificación del modelo, pues
lo que se tiene en mente es un modelo “verdadero”, sin embargo, no estimamos el
modelo correcto.
En los errores de especificación incorrecta del modelo, donde, ni siquiera se sabe
cuál es el verdadero modelo. Por lo que existe cierto tipo de controversia.
1. Subajuste de un modelo.
2. Sobreajuste de un modelo.
𝑌𝑖 = 𝛽1 − 𝛽2 𝑋2𝑖 + 𝑢𝑖 (13.3.6)
1. Todos los estimadores de MCO de los parámetros del modelo “incorrecto” son
insesgados y consistentes.
2. La varianza del error 𝜎 2 está correctamente estimada.
3. Los procedimientos usuales de intervalos de confianza y de pruebas de hipótesis
conservan su validez.
4. Las α estimadas por lo general serán ineficientes, es decir, sus varianzas
generalmente serán más grandes que las de las 𝛽̂ del verdadero modelo.
Estimación:
Al hacer la regresión de la mortalidad infantil (MI) sobre el PIB per cápita (PIBPC)
y sobre la tasa de alfabetización de las mujeres (TAM), es decir
𝑀𝐼𝑖 = 𝛼1 + 𝛼2 𝑃𝐼𝐵𝑃𝐶𝑖 + 𝑢𝑖
Comando: ls MI C PIBPC
𝑌𝑖 = 𝛼1 − 𝛼2 𝑋2𝑖 + 𝑣𝑖 (13.3.2)
Nos preguntamos ¿el coeficiente del PIB, 𝛼2 del modelo “incorrecto”, suministrará un
estimado insesgado del verdadero impacto del PIBPC sobre MI, mismo que está dado
por 𝛽2 en el modelo correcto, sabiendo que se ha omitido la variable 𝑋3(TAM) del
modelo?
Para ilustrarlo, considere la verdadera función del costo total, donde Y=costo
total y X=producción:
𝑌𝑖 = λ1 + λ2 𝑋𝑖 + 𝑢3𝑖 (13.4.6)
Se puede ver cómo se comportan los residuos estimados en los tres modelos. En
la siguiente gráfica: a medida que nos movemos de izquierda a derecha, es decir, a
medida que nos acercamos a la verdad, no sólo los residuos son más pequeños sino,
asimismo, éstos no presentan los giros cíclicos pronunciados asociados con modelos mal
especificados.
La utilidad de examinar la gráfica de residuos es entonces clara: si hay errores de
especificación, los residuos presentan patrones distinguibles.
El estadístico d de Durbin-Watson
𝑌𝑖 = λ1 + λ2 𝑋𝑖 + 𝑢3𝑖
Si graficamos los residuos 𝑢̂𝑖 obtenidos de esta regresión frente a 𝑌̂𝑖 , la estimación
de Yi de este modelo, obtenemos la gráfica:
𝑌𝑖 = β1 + β2 𝑋𝑖 + β3 𝑋𝑖2 + β4 𝑋𝑖3 + 𝑢𝑖
Del ejemplo ilustrativo, tenemos los siguientes resultados (errores estándar entre
paréntesis):
El valor F es muy significativo, lo cual indica que el modelo está mal especificado.
Por supuesto, llegamos a la misma conclusión con el examen visual de los residuos como
también con el valor d de Durbin-Watson. Debe añadirse que, en vista de que 𝑌̂𝑖 es
estimada, se trata de una variable aleatoria y, por tanto, las pruebas de significancia
habituales aplican si la muestra es razonablemente grande.
(13.4.11)
(13.4.12)
(13.4.13)
donde Y es el costo total y X es la producción.
(13.4.14)
Considere los datos de la Tabla 7.4 sobre Producción de un bien (X) y su costo de
producción total (Y) en el corto plazo. (A7:B17)
Para ilustrar lo anterior, suponga que la verdadera función del costo total se describe
de la siguiente manera,
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝛽3 𝑋𝑖2 + 𝛽4 𝑋𝑖3 + 𝑢𝑖
𝑌𝑖 = 𝛼1 + 𝛼2 𝑋𝑖 + 𝛼3 𝑋𝑖2 + 𝑢2𝑖
𝑌𝑖 = 𝜆1 + 𝜆2 𝑋𝑖 + 𝑢3𝑖
veamos cómo se comportan los residuos estimados en los tres modelos a partir de los
resultados obtenidos del paquete estadístico EViews10:
Procedimiento:
El estadístico 𝒅 de Durbin-Watson
2.
̂𝑖 (columna Fitted) como
3. A continuación, copiar y pegar tanto los valores de los 𝑌
de los 𝑢̂𝑖 (columna Residual) en un empty group.
4. Dar nombre a las series, ir a view y seleccionar Graph…
5. Elegir el tipo de grafico “XY Line” .
Debe añadirse que, en vista de que 𝑌̂𝑖 es estimada, se trata de una variable aleatoria y,
por tanto, las pruebas de significancia habituales aplican si la muestra es
razonablemente grande. Una ventaja de RESET es que es fácil de aplicar, pues no
requiere la especificación del modelo alterno. Sin embargo, ésta también es su
desventaja, pues saber que el modelo está mal especificado no necesariamente ayuda a
elegir una opción mejor.
2
Aplicando la prueba 𝑀𝐿, es decir 𝑛𝑅 2 ~ 𝒳(𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑐𝑖𝑜𝑛𝑒𝑠) aunque el
Sin embargo, las varianzas estimadas son más grandes que en el caso en el cual
no existen errores de medición.
Considerando:
𝑋𝑖 = 𝑖𝑛𝑔𝑟𝑒𝑠𝑜 𝑎𝑐𝑡𝑢𝑎𝑙
𝑌𝑖 = 𝑌𝑖∗ + 𝜀𝑖
𝑌𝑖 = (𝛼 + 𝛽𝑋𝑖 + 𝜇𝑖 ) + 𝜀𝑖
𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + (𝜇𝑖 + 𝜀𝑖 )
(2) 𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝑣𝑖
Considerando:
(1) 𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖∗ + 𝜇𝑖
𝑌𝑖 = 𝑔𝑎𝑠𝑡𝑜 𝑑𝑒 𝑐𝑜𝑛𝑠𝑢𝑚𝑜 𝑎𝑐𝑡𝑢𝑎𝑙
𝑋𝑖 = 𝑋𝑖∗ + 𝑤𝑖
𝑌𝑖 = 𝛼 + 𝛽(𝑋𝑖 − 𝑤𝑖 ) + 𝜇𝑖
(2) 𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝑧𝑖
𝑐𝑜𝑣(𝑧𝑖 , 𝑋𝑖 ) = −𝛽𝜎𝑤2
1. Se puede suponer que si 𝜎𝑤2 es pequeña comparada con 𝜎𝑥2 no existe problema y
se procede a la estimación usual MCO.
Sin embargo en la práctica no es fácil medir 𝜎𝑤2 o 𝜎𝑥2 y por consiguiente no se
puede juzgar sus magnitudes.
2. Usar variables instrumentales o representadas que aunque están altamente
correlacionadas con las variables explicativas no están correlacionadas con los
términos de error ecuacional y de medición.
En realidad, no hay respuesta convincente al problema de los errores de estimación y es
por ello que es crucial que la medición de los datos sea los más precisa posible.
Resultando:
Es útil diferenciar entre modelos anidados y no anidados una vez se haya hecho la
prueba de especificación. Para distinguirlos, considere los siguientes modelos:
Decimos que el modelo B está anidado en el modelo A porque es un caso especial del
modelo A, el modelo A se reduce al modelo B si estimamos el modelo de A y rechazamos
la hipótesis de que los β4 = β5 = 0 con la prueba F o con la prueba t.
Los modelos C y D son no anidados porque no puede derivarse uno como caso especial
del otro, ya que pues el modelo C no contiene a 𝑍3𝑖 , y el modelo D no contiene a 𝑋2𝑖.
Los modelos D y E son no anidados, pues no se puede derivar uno como caso especial del
otro.
Comando: ls Y_ C X_
mientras que si utilizamos 𝑌𝑖 en lugar de 𝑌𝑖 *, obtenemos
Comando: ls Y C X_
Como indican estos resultados y de acuerdo con la teoría, los coeficientes estimados
continúan siendo iguales. El único efecto de los errores de medición en la variable
dependiente es que los errores estándar estimados de los coeficientes tienden a ser más
grandes, lo cual se aprecia con claridad.
Comando: ls Y_ C X
Estos resultados están de acuerdo con la teoría: cuando hay errores de medición en
la(s) variable(s) explicativa(s), los coeficientes estimados están sesgados. Por fortuna,
en este ejemplo el sesgo es relativamente pequeño; de la fórmula del límite de
probabilidad de 𝛽 es evidente que el sesgo depende de 𝜎𝑤2 /𝜎𝑋∗
2
, y en la generación de la
información supusimos que 𝜎𝑤2 = 36 y 𝜎𝑋∗
2
= 3667, con lo que redujimos el factor de
sesgo, alrededor de 0.98% ( 36/3 667).
1) el método de discriminación
Método de discriminación
Cuando ambos modelos tienen la misma variable dependiente, podemos elegir entre dos
(o más) modelos con base en algún criterio de bondad de ajuste, como:
𝑅2
𝑅 2 Ajustada
el criterio de información de Akaike (CIA)
el criterio de información de Schwarz (CIS)
el criterio Cp de Mallows.
Método de discernimiento
Sin embargo, surgen problemas con este procedimiento de prueba. En primer lugar, si
las X y las Z están demasiado correlacionadas, entonces es muy probable que una o más
de las λ sean en lo individual estadísticamente insignificantes. En este caso, no hay
forma de decidir si el modelo C o el D es el correcto. En segundo lugar, la elección de la
hipótesis de referencia puede determinar el resultado de la elección del modelo sobre
todo si hay una gran multicolinealidad en las regresoras rivales.
La prueba J de Davidson-MacKinnon
Otro problema con la prueba J es que cuando se utiliza el estadístico t para probar la
significancia de la variable Y estimada en los modelos, el estadístico t tiene la
distribución normal estándar sólo para muestras grandes. Por consiguiente, la prueba J
quizá no sea muy poderosa (en el sentido estadístico) para muestras pequeñas, pues
tiende a rechazar la hipótesis.
la prueba Cox
la prueba JA
la prueba P
la prueba de inclusión Mizon-Richard
El modelo A establece que el GCPP depende del IPDP en el periodo actual y previo;
este modelo es un ejemplo de modelo de rezago distribuido. El modelo B postula que el
GCPP depende del IPDP actual y del GCPP del periodo anterior; este modelo representa
el modelo autorregresivo.
Modelo A:
Comando: ls GCPP C IPDP IPDP(-1)
Modelo B:
Si se tuviese que elegir entre estos dos modelos con base en el método de
discriminación, según el criterio 𝑅 2 , quizá se elegiría el modelo B porque es un poco
más alto que el A. Además, en el modelo B ambas variables son estadísticamente
significativas en lo individual, en tanto que en el A sólo el IPDP actual es
estadísticamente significativo (aunque puede haber un problema de colinealidad). Sin
embargo, para efectos predictivos no existe mucha diferencia entre los dos valores
estimados de 𝑅 2 .
2. Utilizar los valores estimados del GCPP en el paso 1 como una regresora
incondicional en el modelo A, y estimamos el nuevo modelo:
̂ 𝑡𝐵 + 𝑢𝑡
𝐺𝐶𝑃𝑃𝑡 = 𝛼1 + 𝛼2 𝐼𝑃𝐷𝑃𝑡 + 𝛼3 𝐼𝑃𝐷𝑃𝑡−1 + 𝛼4 𝐺𝐶𝑃𝑃
Todo lo anterior muestra que ningún modelo es particularmente útil para explicar el
comportamiento del gasto de consumo personal per cápita en Estados Unidos de 1970 a
2005.
El criterioR2
Se define como
SCE SCR
R2 = = 1−
SCT SCT
Surgen varios problemas con R2 . En primer lugar, mide la bondad de ajuste dentro de la
muestra, por lo cual no hay garantía de que pronosticará bien las observaciones fuera de
la muestra. En segundo lugar, al comparar dos o más valores de R2 , la variable
dependiente debe ser la misma. En tercer lugar, es que una R2 no puede disminuir
cuando se agregan más variables al modelo.
𝐑𝟐 𝐚𝐣𝐮𝐬𝐭𝐚𝐝𝐚
La idea de imponer una penalización por añadir regresoras al modelo se desarrolló más
en el criterio CIA, el cual se define como:
O también
Al comparar dos o más modelos, se preferirá el que tenga el menor valor CIA. Una
ventaja del CIA es que resulta útil para la predicción fuera de la muestra de un modelo
de regresión.
al igual que en CIA, CIS sirve para comparar el desempeño del pronóstico dentro de la
muestra y fuera de la muestra de un modelo.
Criterio Cp de Mallows
C.P. Mallows elaboró el siguiente criterio para seleccionar modelos, conocido como
criterio Cp:
Al elegir un modelo de acuerdo con el criterio, se debe buscar un modelo con un valor
bajo de Cp, aproximadamente igual que p. En otras palabras, si seguimos el principio de
parsimonia, elegiremos un modelo con p regresoras (p < k) que proporcione un ajuste
adecuado a los datos.
Al reducir la suma de cuadrado residual (SCR), los MCO dan igual ponderación a cada
observación en la muestra. Pero cada una de éstas quizá no tenga igual efecto en los
resultados de la regresión debido a la presencia de tres tipos de puntos de datos
especiales, llamados valores atípicos, puntos de apalancamiento y puntos de influencia.
Un valor atípico puede definirse como una observación con un “gran residuo”. El residuo
representa la diferencia (positiva o negativa) entre el valor real de la regresada y su
valor estimado.
Suponga que primero utilizamos los datos de un periodo t y estimamos la función, para
obtener los estimados de β1 y β2 . Luego utilizamos los datos de t +1 y de nuevo
estimamos la función para obtener los estimados de los dos parámetros. Continuamos
añadiendo así puntos de datos sobre Y y X hasta agotar la muestra. Como es de
imaginarse, cada regresión proporciona un nuevo conjunto de estimaciones para los
parámetros.
+ 𝛽9 𝑆𝑖𝑛𝑑𝑗 + 𝑢𝑖
Debido a que las variables hispano, estado civil y raza tienen insignificancia estadística
individual se las elimina y se corre la regresión nuevamente:
3. Conocerás el contexto.
5. No idolatrarás la complejidad.