Prueba # 2 Econometria 2016 Sección 6 - PAUTA

Econometría UAI, Prof.
Eduardo Fajnzylber
ECONOMETRIA – Prof. Eduardo Fajnzylber

Prueba # 2 – Viernes 10 de junio 2016 – Sección 6 - PAUTA
NOMBRE DEL ALUMNO Y FIRMA:
Pregunta 1 (Máximo 20 puntos)

POR FAVOR, NO DE VUELTA ESTA HOJA HASTA QUE SE LE INDIQUE
Instrucciones Generales:
1. Tiene 120 minutos para responder esta prueba, dividida en 100 puntos.
3. Sólo el profesor puede responder dudas de enunciado, y sólo en voz alta desde el
puesto.
4. Se permite el uso de calculadoras, siempre y cuando no cuenten con dispositivos de
comunicación.
5. En caso de copia, se sancionará de acuerdo a lo estipulado en el programa del curso.
Buena Suerte!
Fórmulas:
En el modelo de regresión lineal múltiple (MRLM), se tiene

𝑌 = 𝑋𝛽 + 𝜀
En que 𝐸[𝜀|𝑋] = 0, 𝑉𝑎𝑟[𝜀|𝑋] = 𝜎 2 𝐼𝑁 , la matriz 𝑋, de dimensión 𝑁 × 𝐾 es de rango completo
por columnas y el vector 𝛽, de dimensión 𝐾 × 1 representa el conjunto de coeficientes que
se desea estimar.
La fórmula para el estimador de Mínimos Cuadrados Ordinarios (MCO) de 𝛽 es:

𝛽̂ = (𝑋′𝑋)−1 𝑋 ′ 𝑌 𝑉𝑎𝑟(𝛽̂ |𝑋) = 𝜎 2 (𝑋′𝑋)−1
Un estimador de 𝜎 2 en el modelo anterior es:
̂2
∑𝑁 ̂𝑖 2
𝑖=1 𝜀 𝑆𝑅𝐶 𝑌′𝑀𝑋 𝑌
𝜎 = = =
𝑁−𝐾 𝑁−𝐾 𝑁−𝐾
Donde
𝑀𝑋 = 𝐼𝑁 − 𝑋(𝑋′𝑋)−1 𝑋 ′ = 𝐼𝑁 − 𝑃𝑋
2
La fórmula para el 𝑅 de la regresión anterior es
𝑆𝐸𝐶 𝑆𝑅𝐶 𝑌′𝑀𝑋 𝑌 𝑌′𝑀𝑋 𝑌
𝑅2 = =1− =1− =1−
𝑆𝑇𝐶 𝑆𝑇𝐶 𝑌′(𝐼𝑁 − 𝐴)𝑌 1
𝑌′ (𝐼𝑁 − 𝑁 11′) 𝑌
Los valores predichos y los residuos del modelo se pueden obtener a partir de las matrices
𝑃𝑋 y 𝑀𝑋 de acuerdo a 𝑌̂ = 𝑃𝑋 𝑌 𝑦 𝜀̂ = 𝑀𝑋 𝑌
El estimador MCO de un subconjunto de los coeficientes puede obtenerse de acuerdo a
̂1 = (𝑋1 ′𝑀𝑋 𝑋1 )−1 𝑋1 ′𝑀𝑋 𝑌

𝛽 2 2
1/14
Econometría UAI, Prof. Eduardo Fajnzylber
Pregunta 1 – Repaso conceptual (20 puntos)
a) Para demostrar la efectividad de una droga en enfrentar el dolor de cabeza, se suelen

utilizar experimentos en los que se escoge aleatoriamente entre la población participante
en el estudio a un grupo de individuos a quienes se les proporciona la droga y a otro a
quienes se les entrega un placebo (una pastilla idéntica a la droga pero que no contiene
ningún principio activo). Un colega propone estimar el impacto de la droga a partir del
siguiente modelo de regresión lineal simple:
𝐷𝑂𝐿𝑂𝑅𝑖 = 𝛼0 + 𝛼1 𝐷𝑅𝑂𝐺𝐴𝑖 + 𝜀𝑖
Donde 𝐷𝑂𝐿𝑂𝑅𝑖 representa el nivel de dolor del individuo i, 30 minutos después de haber
tomado la pastilla y 𝐷𝑅𝑂𝐺𝐴𝑖 corresponde a una variable dummy igual a 1 si la persona en
cuestión recibió la droga y 0 si recibió el placebo.
(i) ¿Cree usted que el modelo le permitiría a usted obtener un estimador

consistente del impacto de la droga? Justifique. (5 puntos)
(ii) ¿Qué ventaja(s) podría tener agregar variables adicionales al modelo (como
edad y sexo)? ¿Qué desventaja(s) podría acarrear? Justifique (5 puntos)
b) Usted estima, a partir de una muestra de gran tamaño, un modelo de regresión lineal
para el logaritmo de los salarios de los trabajadores chilenos en función del género, nivel
educacional y experiencia potencial. Un colega le sugiere incluir además una variable que
corresponde al último dígito del RUT del trabajador (antes del dígito verificador).
Suponiendo que dicho número es prácticamente aleatorio, explique cuál puede ser la
consecuencia de incluir esta variable en la regresión en términos del sesgo y la varianza
del coeficiente que representa el retorno a la educación. Justifique. (10 puntos)
Respuesta pregunta 1: (utilice la parte posterior de esta hoja, si es necesario):
a)
i) El modelo propuesto debería entregar un estimador consistente del impacto de la droga, en la

medida en que se cumple el supuesto más importante: la variable independiente, al ser definida en
forma aleatoria, no puede estar correlacionada con otras características no observadas del
individuo. (5 puntos)
Nota: se pueden mencionar también las otras propiedades necesarias (modelo lineal y ausencia de
multicolinealidad perfecta)
ii) Incluir variables adicionales al modelo podría eventualmente disminuir la varianza del estimador
de MCO de 𝛼1 , en la medida en que las variables agregadas aportan poder predictivo al modelo y
no están muy correlacionadas con la variable independiente de interés. Esta última condición está
garantizada por la aleatoriedad con que fue definida la variable DROGA.
̂2 ) disminuya al agregar dichas

Más precisamente, se requiere que la varianza estimada del error ( 𝜎
variables. Esto se puede ver en la siguiente ecuación: (5 puntos)
2/14
𝜎̂2
̂ (𝛼
𝑉𝑎𝑟 ̂|𝑋)
1 =
̂ (𝐷𝑅𝑂𝐺𝐴𝑖 ) ∙ (1 − 𝑅 2 DROGA,Otras variables )
𝑁 ∙ 𝑉𝑎𝑟
𝑆𝑅𝐶⁄
= 𝑁−𝐾
̂
𝑁 ∙ 𝑉𝑎𝑟(𝐷𝑅𝑂𝐺𝐴𝑖 ) ∙ (1 − 𝑅 2 DROGA,Otras variables )
b) Agregar una variable al modelo, incluso si ésta es totalmente irrelevante (como en este
caso) no puede introducir un sesgo en los coeficientes estimados de las otras variables (y
en particular, no puede sesgar el coeficiente correspondiente al retorno a la educación).
(5 puntos)
Sin embargo, si la variable es irrelevante (o intrusa), podría implicar que la varianza del
coeficiente estimado sea superior. Nuevamente esto se puede ver en la fórmula siguiente:
𝜎̂2
̂ (𝛽̂
𝑉𝑎𝑟 𝐸𝐷𝑈𝐶 |𝑋) =
̂ (𝐸𝐷𝑈𝐶𝑖 ) ∙ (1 − 𝑅 2 EDUC,Otras variables )
𝑁 ∙ 𝑉𝑎𝑟
𝑆𝑅𝐶⁄
= 𝑁−𝐾
̂
𝑁 ∙ 𝑉𝑎𝑟(𝐸𝐷𝑈𝐶𝑖 ) ∙ (1 − 𝑅 2 EDUC,Otras variables )
Una variable intrusa (virtualmente aleatoria) no afectará la varianza por el lado del
denominador (pues no estaría correlacionada con la variable educación) pero sí
aumentaría la varianza por el lado del numerador de la expresión anterior, en la medida
en que su incorporación tendería a aumentar 𝜎̂2 , pues no disminuiría SRC en forma
significativa pero sí implicaría perder un grado de libertad (N-K sería una unidad menor).
(5 puntos)
3/14
Pregunta 2 – Peso corporal y velocidad entre atletas V2.0 (60 puntos)
Para analizar la relación existente entre el peso corporal y el desempeño en competencia,

contamos con una base de datos de todos los corredores varones de carreras de 100
metros realizadas en el año 2015, obtenidos de la International Association of Athletics
Federations. La base de datos incluye la siguiente información:
 mark es la mejor marca obtenida por el corredor en las carreras de 100 metros que
corrió en el 2015, medida en segundos. height es la altura del corredor, medida
en metros y weight es el peso del corredor, medido en cientos de kilogramos.
weight2 es weight elevado al cuadrado.
 cleader es una variable dummy que toma el valor 1 si el corredor es de Jamaica o
USA y 0 si es que es de otro pais.
 height_cleader es la interaccion entre height y cleader, es decir, height *
cleader.
La tabla a continuación muestra el resultado de la estimación de 6 modelos estimados a

partir de esta base de datos. Los primeros 5 modelos tienen como variable dependiente la
variable mark. En el sexto modelo, la variable dependiente corresponde a los residuos del
modelo 5, elevados al cuadrado.
Modelo 1 Modelo 2 Modelo 3 Modelo 4 Modelo 5 Modelo 6

VARIABLES IND. VD = mark VD = mark VD = mark VD = mark VD = mark VD = res2
height -0.110 0.0472 0.0538 0.0304 0.207 -0.0120
(0.120) (0.144) (0.145) (0.143) (0.165) (0.0266)
weight -0.259 -1.237 -0.872 -1.380 0.304
(0.126) (1.452) (1.436) (1.445) (0.233)
weight2 0.632 0.427 0.764 -0.183
(0.934) (0.923) (0.930) (0.150)
cleader -0.0461 0.883 -0.0122
(0.0170) (0.446) (0.0718)
height_cleader -0.518 0.0111
(0.248) (0.0400)
Constante 10.35 10.26 10.63 10.53 10.40 -0.0914
(0.214) (0.219) (0.579) (0.571) (0.570) (0.0918)
Número de obs. 212 211 211 211 211 211
R cuadrado 0.004 0.025 0.027 0.061 0.080 0.057
Errores estándar entre paréntesis.
Responda las siguientes preguntas. En las preguntas que involucren un test de
hipótesis, utilice un nivel de significancia de 5% y sea claro respecto a la hipótesis nula y
alternativa, el estadístico utilizado, la distribución de este estadístico bajo la hipótesis
nula, el resultado y la conclusión del test.
4/14
a) Utilizando el modelo (1), realice un test sobre la significancia individual del

coeficiente de height. Entregue un valor aproximado (o rango) para el valor-p
asociado a este test. Calcule además el intervalo de confianza al 95% de confianza
para este coeficiente. (10 puntos)
b) El modelo (1) no incluye entre sus regresores a la variable weight. ¿Significa ésto
que el coeficiente estimado para height será insesgado? Sobrestimará el
verdadero efecto marginal? Lo subestimará? Justifique (4 puntos)
c) A partir del modelo (2) ¿puede usted inferir el signo de la correlación entre height
y weight? Justifique conceptual y matemáticamente su respuesta. (4 puntos)
d) ¿Qué se busca al incluir weight2 en el modelo (3)? Explique conceptual y
matemáticamente. A partir de los resultados de dicho modelo, calcule el valor de
weight para el cual se espera la mejor marca (la más baja), condicional en
height. (6 puntos)
e) A partir del modelo (3) ¿es posible saber si weight tiene alguna influencia sobre
mark, sólo mirando el estadistico T asociado a la variable weight? ¿Por qué?
Explique y realice un test que permita, a partir del modelo (3), analizar si el peso
del corredor tiene alguna influencia sobre su desempeño. (10 puntos)
f) Interprete conceptual y matemáticamente el resultado del coeficiente de cleader
en el modelo (4). A partir de los resultados de dicho modelo, grafique la relación
estimada entre weight (eje X) y el valor predicho por el modelo (eje Y) cuando la
altura es igual a 1.80 m y en forma separada para los corredores de Jamaica o USA
(una funcion) y para el caso del resto de los corredores (otra funcion). Utilice los
coeficientes estimados para calcular el valor de los interceptos y presente una
expresión que describa el valor de la pendiente para las dos funciones estimadas.
(10 puntos)
g) ¿Qué se busca al incluir height_cleader en el modelo (5)? Explique conceptual y
matemáticamente. ¿Qué se puede concluir mirando el signo del coeficiente
estimado de height_cleader? Explique. (6 puntos)
h) El modelo (6) muestra los resultados de una regresión entre el residuo que se
obtiene del modelo (5) elevado al cuadrado (res2) y todas las variables explicativas
incluidas en el modelo (5). ¿Qué tipo de test se puede implementar a partir de este
modelo auxiliar? Implemente el test al 5% de significancia, indicando las hipótesis
nula y alternativa, el valor del estadístico utilizado, el resultado y la conclusión
obtenida. ¿Qué implicancia tiene este resultado para efectos del modelo (5)? (10
puntos)
5/14
Respuesta pregunta 2 (utilice la parte posterior de esta hoja, si es necesario):
a) Contraste de significancia: 𝐻0 : 𝛽𝐻𝑒𝑖𝑔ℎ𝑡 = 0 vs. 𝐻1 : 𝛽𝐻𝑒𝑖𝑔ℎ𝑡 ≠ 0. (2 puntos)
Usamos el estadístico
̂
𝛽𝐻𝑒𝑖𝑔ℎ𝑡 −0.110
𝑇= = = −0.917
̂ )
𝑠𝑒(𝛽𝐻𝑒𝑖𝑔ℎ𝑡 0.120
La distribución del estadístico bajo la hipótesis nula es una T con 210 grados de libertad.
(2 puntos)
El valor crítico al 95% de confianza es en este caso VC=1.971. Como el valor absoluto del
estadístico es menor que el valor crítico, no podemos rechazar H0, es decir no podemos
afirmar que la variable height es significativa al 95% de confianza. (2 puntos)
Mirando la fila correspondiente en la tabla, podemos ver que el valor P se encuentra entre
30% y 40% (pues el estadístico se encuentra entre las columnas correspondientes a 15%
y 20%. (2 puntos)
El intervalo de confianza corresponde a (2 puntos)
𝐼𝐶 = −0.110 ± 0.120 ∗ 1.971 = [−0.34652; 0,12652]
b) Para que el coeficiente esté sesgado como consecuencia de la ausencia de weight, se

requiere que: (2 puntos)
 La variable omitida (weight) afecte a la variable dependiente. Como se ve en la

regresión (2) éste parece ser el caso (en forma negativa).
 La variable omita esté correlacionada con la variable independiente de interés
(height), condicional en las otras variables. Claramente la altura y el peso de las
personas estén fuertemente correlacionados (en forma positiva).
Por lo anterior, se esperaría que el coeficiente de height esté sesgado y en forma

negativa, es decir estaríamos subestimando el verdadero efecto de la altura sobre
las marcas. (2 puntos)
c) Siguiendo con la respuesta a la parte (b) al comparar los modelos (1) y (2), se puede
apreciar que el coeficiente asociado a la variable height aumenta al incluir la variable
weight. Dado este aumento en el coeficiente y que el modelo (2) sugiere que el peso
afecta negativamente las marcas, podemos inferir que la variable weight (que está
omitida del modelo (1)) está positivamente correlacionada con la variable height. (4
puntos)
6/14
d) La inclusión de la variable weight2 permite que el efecto del peso sobre el dese
mpeño en competencia sea no lineal. Matemáticamente, el efecto marginal del peso
sobre la marca (ceteris paribus) estaría dado por: (3 puntos)
𝜕𝑀𝑎𝑟𝑘
= 𝛽𝑤𝑒𝑖𝑔ℎ𝑡 + 2 ∙ 𝛽𝑤𝑒𝑖𝑔ℎ𝑡 2 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡
𝜕𝑊𝑒𝑖𝑔ℎ𝑡
Por lo tanto, este modelo permite que el efecto sea constante (lo que ocurriría si 𝛽𝑤𝑒𝑖𝑔ℎ𝑡 2 =
0), decreciente (𝛽𝑤𝑒𝑖𝑔ℎ𝑡 2 < 0) o creciente (𝛽𝑤𝑒𝑖𝑔ℎ𝑡 2 > 0) en el peso.
A partir de la expresión anterior, podemos ver que la mejor marca (la menor marca)
ocurrirá cuando el peso corresponda a lo siguiente:
𝜕𝑀𝑎𝑟𝑘 𝛽𝑤𝑒𝑖𝑔ℎ𝑡 1.237

= 𝛽𝑤𝑒𝑖𝑔ℎ𝑡 + 2 ∙ 𝛽𝑤𝑒𝑖𝑔ℎ𝑡 2 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡 = 0 → 𝑤𝑒𝑖𝑔ℎ𝑡 = − = = 0.9786
𝜕𝑊𝑒𝑖𝑔ℎ𝑡 2 ∙ 𝛽𝑤𝑒𝑖𝑔ℎ𝑡 2 2 ∙ 0.632
Es decir cuando el peso sea aproximadamente 97.86 kilogramos. (3 puntos)
e) Para ver si weight tiene alguna influencia sobre la marca, a partir del modelo (3), no
basta con analizar solamente la significancia de la variable weight. Es necesario testear
en forma conjunta de que los 2 coeficientes (el de weight y el de weight2) son iguales a
cero. (2 puntos)
El test sería entonces el siguiente: (2 puntos)
𝐻0 : 𝛽𝑤𝑒𝑖𝑔ℎ𝑡 = 𝛽𝑤𝑒𝑖𝑔ℎ𝑡2 = 0 vs. 𝐻1 : 𝛽𝑤𝑒𝑖𝑔ℎ𝑡 ≠ 0 o 𝛽𝑤𝑒𝑖𝑔ℎ𝑡 2 ≠ 0.
Usamos el estadístico F, aplicando la expresión en función de los R2 de los modelos

restringido (modelo 1) y no restringido (modelo 3): (2 puntos)
2
(𝑅𝑁𝑅 − 𝑅𝑅2 )/2 (0.027 − 0.004)/2
𝐹= 2 = = 2.4466
(1 − 𝑅𝑁𝑅 )/(𝑁 − 𝐾) (1 − 0.027)/(211 − 4)
La distribución del estadístico bajo la hipótesis nula es una F con 2 grados de libertad en
el numerador y 207 grados de libertad en el denominador. (2 puntos)
El valor crítico al 95% de confianza es en este caso VC=3.040. Como el estadístico es

menor que el valor crítico, no podemos rechazar H0, es decir no podemos afirmar que la
variable weight afecta el desempeño (controlando por la altura), al 95% de confianza. (2
puntos)
f) El coeficiente que compaña a la variable dummy cleader representa una diferencia de

interceptos, es decir, la diferencia en el desempeño entre los corredores de los países líder
(USA y Jamaica) con respecto al resto de los países, controlando por la altura, el peso y
el peso al cuadrado. Específicamente, el coeficiente estimado es -0.0461 puede
interpretarse como que los corredores de los países líder tienen marcas que son, en
7/14
promedio, 0.0461 segundos inferiores a las de los otros países, controlando por la altura,
el peso y el peso al cuadrado. (4 puntos)
Los modelos predichos, para los 2 tipos de corredores, entre la marca y el peso (cuando la
altura es de 1.8 metros) son los siguientes:
̂ = (10.53 − 0.0461 + 0.0304 ∙ 1.8) − 0.872 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡 + 0.427 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡 2

𝑃𝑎𝑖𝑠𝑒𝑠 𝑙𝑖𝑑𝑒𝑟: 𝑚𝑎𝑟𝑘
= 10.53862 − 0.872 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡 + 0.427 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡 2
̂ = (10.53 + 0.0304 ∙ 1.8) − 0.872 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡 + 0.427 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡 2

𝑃𝑎𝑖𝑠𝑒𝑠 𝑁𝑂 𝑙𝑖𝑑𝑒𝑟: 𝑚𝑎𝑟𝑘
= 10.58472 − 0.872 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡 + 0.427 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡 2
Podemos ver que los modelos son paralelos, pero con distintos interceptos. Además, la
pendiente de la curva está dada por
𝜕𝑀𝑎𝑟𝑘
= −0.872 + 2 ∙ 0.427 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡 = −0.872 + 0.854 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡
𝜕𝑊𝑒𝑖𝑔ℎ𝑡
Es decir, la pendiente inicial es negativa, es cero en cierto momento y luego crece en

forma cuadrática. La curva para los países líder es ligeramente inferior (0.0461 segundos
más abajo) que para el resto: (6 puntos)
10.8
10.7
10.6
10.58472
10.5
10.53862
10.4
Marca en segundos
10.3
10.2
10.1
10
9.9
Pendiente
9.8
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5
Peso en cientos de kilogramos
marca_lideres marca_NO_lideres
g) La inclusión de height_cleader en el modelo (5) permite que la relación entre la

altura y el desempeño sea distinta para los corredores de los países líderes y los
corredores del resto de los países incluidos en la muestra. En otras palabras, por tratarse
de una interacción entre una variable dummy y una variable continua, el coeficiente
8/14
asociado se interpreta como una diferencia de pendientes (o diferencia de efectos

marginales) entre los corredores del grupo líder menos el resto de los países. (3 puntos)
En este caso el coeficiente estimado, -0.518, sugiere que el efecto marginal de la altura
sobre el desempeño es inferior en el primer grupo respecto al segundo. (3 puntos)
h) El modelo (6) corresponde a una versión del test de heterocedasticidad de Breusch-

Pagan, en el que se regresionan los residuos al cuadrado del modelo principal estimado
mediante MCO en función de las mismas variables independientes del modelo principal. Lo
que se desea testear es si al menos alguna de las variables explicativas tiene poder
predictivo sobre la varianza. (2 puntos)
Específicamente, el test a realizar es el siguiente (donde los coeficientes 𝛿 corresponden a

los parámetros del modelo (6)): (2 puntos)
𝐻0 : 𝛿ℎ𝑒𝑖𝑔ℎ𝑡 = 𝛿𝑤𝑒𝑖𝑔ℎ𝑡 = 𝛿𝑤𝑒𝑖𝑔ℎ𝑡 2 = 𝛿𝑐𝑙𝑒𝑎𝑑𝑒𝑟 = 𝛿ℎ𝑒𝑖𝑔ℎ𝑡𝑐𝑙𝑒𝑎𝑑𝑒𝑟 = 0 (ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑)
𝐻1 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 1 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑒𝑠 ≠ 0 (ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑)
Usamos el estadístico F, que corresponde al test de significancia de la regresión del

modelo (6):
𝑅 2 /5 0.057/5
𝐹= = = 2.4783
(1 − 𝑅 2 )/(𝑁 − 6) (1 − 0.057)/(211 − 6)
La distribución del estadístico bajo la hipótesis nula es una F con 5 grados de libertad en
el numerador y 205 grados de libertad en el denominador. (2 puntos)
El valor crítico al 95% de confianza es en este caso VC=2.258. Como el estadístico es

mayor que el valor crítico, rechazamos H0 en favor de H1, es decir, al 95% de confianza,
existe evidencia de heterocedasticidad. (2 puntos)
Lo anterior implica que el modelo (5) tiene un problema de heterocedasticidad, por lo que
es necesario ya sea utilizar errores robustos a este problema o plantear un modelo para la
heterocedasticidad y obtener el estimador de Mínimos Cuadrados Generalizados (MCG). (2
puntos)
9/14
Pregunta 3 – Predicción (20 puntos)
A continuación se presenta el output de Stata asociado a un modelo de regresión lineal

para el logaritmo del precio de un automóvil en función de una medida de eficiencia
(millas por galón, mpg), el tamaño del portamaleta (trunk, medido en metros cúbicos) y el
tamaño interior del vehículo (headroom, medida en pulgadas). Las 3 variables están
expresadas en desviaciones con respecto a algún número en particular (mpg-10, trunk-
10, headroom-1).
Source SS df MS Number of obs = 74

F( 3, 70) = 9.26
Model 3.18936411 3 1.06312137 Prob > F = 0.0000
Residual 8.03416898 70 .114773843 R-squared = 0.2842
Adj R-squared = 0.2535
Total 11.2235331 73 .153747029 Root MSE = .33878
lnprice Coef. Std. Err. t P>|t| [95% Conf. Interval]
mpg_10 -.0296502 .0084344 -3.52 0.001 -.0464721 -.0128283

trunk_10 .0247281 .0138568 1.78 0.079 -.0029083 .0523646
headroom_1 -.1157832 .062605 -1.85 0.069 -.2406449 .0090785
_cons 9.113486 .1646694 55.34 0.000 8.785063 9.441909
a) Interprete el valor estimado para la constante y para la variable (mpg-10). (5 puntos)

b) Calcule el intervalo de predicción para el logaritmo del precio de un vehículo que ofrece
10 millas por galón, con 10 metros cúbicos de portamaleta y 1 pulgada de tamaño
interior. (7.5 puntos)
Ayuda: “Root MSE” se refiere a la raíz del error cuadrático medio, es decir 𝜎̂.
c) Prediga el precio del vehículo con las características anteriores. (7.5 puntos)
Respuesta pregunta 3:
a) La constante de este modelo se interpreta como el valor predicho para el logaritmo del
precio, cuando las variables independientes son todas iguales a cero. En esto caso ello
implica que el logaritmo del precio es igual a 9.1134 cuando mpg=10, trunk=10 y
headroom=1. En otras palabras, corresponde al valor predicho para el logaritmo del precio
de un automóvil con 10 millas por galón, 10 metros cúbicos de portamaletas y 1 pulgada
de espacio interior. (2.5 puntos)
El coeficiente que acompaña la variable (mpg-10) debe interpretarse de la siguiente

manera: el precio de un automóvil cae en 2.96% por cada unidad adicional de la variable
mpg, es decir por cada milla-por-galón que entregue el automóvil, controlando por el
tamaño de la maleta y el espacio interior. (2.5 puntos)
10/14
b) Como se mencionó en la pregunta anterior, la constante (9.1135) corresponde

justamente a la predicción para el logaritmo del precio cuando mpg=10, trunk=10 y
headroom=1. (2.5 puntos)
El intervalo de predicción corresponde entonces a lo siguiente:
𝐼𝑃 = 9.1135 ± VC ∙ √𝑉𝑎𝑟(𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒
̂ ̂2
)+𝜎
El valor critico al 95% de confianza, asociado a una distribución T con 70 grados de

libertad (74-4) corresponde a 1.994. (0.5 puntos)
Asimismo, la varianza de la constante estimada se obtiene del error estándar reportado:

̂ ) = 0.16466942 = 0.02712. (1 punto)
𝑉𝑎𝑟(𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒
Por último, la varianza estimada del modelo corresponde a: 𝜎̂2 = 0.338782 = 0.11477 (1
punto)
Por lo tanto, el intervalo de predicción está dado por: (2.5 puntos)
𝐼𝑃 = 9.1135 ± 1.994 ∙ √0.02712 + 0.11477 = [8.36239; 9.8646]
c) Para predecir el precio del vehículo, no basta con aplicar la función exponencial a la
constante del modelo, pues es necesario aplicar un factor de ajuste, originado en el hecho
de que la esperanza de la exponencial del error del modelo en logaritmo es, en general,
superior a 1. En este caso, la fórmula de ajuste que es posible aplicar directamente a
partir del modelo de regresión estimado es aquella que involucra la exponencial de la
mitad de la varianza del error del modelo. (7.5 puntos)
̂ 0 = 𝑒𝑥𝑝(9.113486) ∙ 𝑒𝑥𝑝(𝜎̂2 ⁄2) = 𝑒𝑥𝑝(9.113486) ∙ 𝑒𝑥𝑝(0.11477⁄2) = 9076.8818 ∙ 1.0591

𝑃𝑟𝑒𝑐𝑖𝑜
= 9613.3255
̂0=
Nota: Restar 4 puntos si el alumno responde sin aplicar el factor de ajuste (𝑃𝑟𝑒𝑐𝑖𝑜
𝑒𝑥𝑝(9.113486) = 9076.8818)
11/14
Valores críticos,
Distribución T-student
P = Probabilidad cola derecha – Distribución T-Student

Grados
libertad 40% 35% 30% 25% 20% 15% 10% 5% 2.5% 1% 0.5% 0.1% 0.05%
2 0.289 0.445 0.617 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.92 22.33 31.60
3 0.277 0.424 0.584 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.84 10.21 12.92
4 0.271 0.414 0.569 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604 7.173 8.610
5 0.267 0.408 0.559 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032 5.893 6.869
10 0.260 0.397 0.542 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169 4.144 4.587
65 0.254 0.387 0.527 0.678 0.847 1.045 1.295 1.669 1.997 2.385 2.654 3.220 3.447
66 0.254 0.387 0.527 0.678 0.847 1.045 1.295 1.668 1.997 2.384 2.652 3.218 3.444
67 0.254 0.387 0.527 0.678 0.847 1.045 1.294 1.668 1.996 2.383 2.651 3.216 3.442
68 0.254 0.387 0.527 0.678 0.847 1.044 1.294 1.668 1.995 2.382 2.650 3.214 3.439
69 0.254 0.387 0.527 0.678 0.847 1.044 1.294 1.667 1.995 2.382 2.649 3.213 3.437
70 0.254 0.387 0.527 0.678 0.847 1.044 1.294 1.667 1.994 2.381 2.648 3.211 3.435
71 0.254 0.387 0.527 0.678 0.847 1.044 1.294 1.667 1.994 2.380 2.647 3.209 3.433
72 0.254 0.387 0.527 0.678 0.847 1.044 1.293 1.666 1.993 2.379 2.646 3.207 3.431
73 0.254 0.387 0.527 0.678 0.847 1.044 1.293 1.666 1.993 2.379 2.645 3.206 3.429
74 0.254 0.387 0.527 0.678 0.847 1.044 1.293 1.666 1.993 2.378 2.644 3.204 3.427
…
200 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.653 1.972 2.345 2.601 3.131 3.340
201 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.652 1.972 2.345 2.601 3.131 3.340
202 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.652 1.972 2.345 2.600 3.131 3.339
203 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.652 1.972 2.345 2.600 3.131 3.339
204 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.652 1.972 2.345 2.600 3.131 3.339
205 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.652 1.972 2.345 2.600 3.130 3.339
206 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.652 1.972 2.345 2.600 3.130 3.338
207 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.652 1.971 2.344 2.600 3.130 3.338
208 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.652 1.971 2.344 2.600 3.130 3.338
209 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.652 1.971 2.344 2.600 3.130 3.338
210 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.652 1.971 2.344 2.599 3.129 3.337
211 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.652 1.971 2.344 2.599 3.129 3.337
212 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.652 1.971 2.344 2.599 3.129 3.337
213 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.652 1.971 2.344 2.599 3.129 3.337
214 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.652 1.971 2.344 2.599 3.129 3.337
215 0.254 0.386 0.525 0.676 0.843 1.039 1.286 1.652 1.971 2.344 2.599 3.129 3.336
…
1000 0.253 0.385 0.525 0.675 0.842 1.037 1.282 1.646 1.962 2.330 2.581 3.098 3.300
12/14
Valores críticos al 5% de
significancia,
p=5%
Distribución F
VC
Grados de libertad del numerador

Grados de
libertad del
denominador 1 2 3 4 5 6 7 8 9 10 11 12 13
2 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371 19.385 19.396 19.405 19.413 19.419
3 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845 8.812 8.786 8.763 8.745 8.729
4 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 5.999 5.964 5.936 5.912 5.891
5 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 4.772 4.735 4.704 4.678 4.655
10 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 3.020 2.978 2.943 2.913 2.887
65 3.989 3.138 2.746 2.513 2.356 2.242 2.154 2.084 2.027 1.980 1.939 1.904 1.874
66 3.986 3.136 2.744 2.511 2.354 2.239 2.152 2.082 2.025 1.977 1.937 1.902 1.871
67 3.984 3.134 2.742 2.509 2.352 2.237 2.150 2.080 2.023 1.975 1.935 1.900 1.869
68 3.982 3.132 2.740 2.507 2.350 2.235 2.148 2.078 2.021 1.973 1.932 1.897 1.867
69 3.980 3.130 2.737 2.505 2.348 2.233 2.145 2.076 2.019 1.971 1.930 1.895 1.865
70 3.978 3.128 2.736 2.503 2.346 2.231 2.143 2.074 2.017 1.969 1.928 1.893 1.863
71 3.976 3.126 2.734 2.501 2.344 2.229 2.142 2.072 2.015 1.967 1.926 1.891 1.861
72 3.974 3.124 2.732 2.499 2.342 2.227 2.140 2.070 2.013 1.965 1.924 1.889 1.859
73 3.972 3.122 2.730 2.497 2.340 2.226 2.138 2.068 2.011 1.963 1.922 1.887 1.857
74 3.970 3.120 2.728 2.495 2.338 2.224 2.136 2.066 2.009 1.961 1.921 1.885 1.855
…
204 3.887 3.040 2.649 2.416 2.258 2.143 2.055 1.984 1.926 1.877 1.836 1.800 1.768
205 3.887 3.040 2.649 2.416 2.258 2.143 2.054 1.984 1.926 1.877 1.836 1.800 1.768
206 3.887 3.040 2.648 2.415 2.258 2.143 2.054 1.984 1.926 1.877 1.835 1.799 1.768
207 3.887 3.040 2.648 2.415 2.258 2.143 2.054 1.983 1.925 1.877 1.835 1.799 1.768
208 3.887 3.039 2.648 2.415 2.257 2.142 2.054 1.983 1.925 1.876 1.835 1.799 1.767
209 3.886 3.039 2.648 2.415 2.257 2.142 2.054 1.983 1.925 1.876 1.835 1.799 1.767
210 3.886 3.039 2.648 2.415 2.257 2.142 2.053 1.983 1.925 1.876 1.834 1.799 1.767
211 3.886 3.039 2.647 2.414 2.257 2.142 2.053 1.982 1.924 1.876 1.834 1.798 1.767
212 3.886 3.038 2.647 2.414 2.257 2.142 2.053 1.982 1.924 1.876 1.834 1.798 1.767
1000 3.851 3.005 2.614 2.381 2.223 2.108 2.019 1.948 1.889 1.840 1.798 1.762 1.730
13/14

Prueba # 2 Econometria 2016 Sección 6 - PAUTA

Cargado por

Copyright:

Formatos disponibles

Prueba # 2 Econometria 2016 Sección 6 - PAUTA

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Prueba # 2 Econometria 2016 Sección 6 - PAUTA

Cargado por

Copyright:

Formatos disponibles

Econometría UAI, Prof.

ECONOMETRIA – Prof. Eduardo Fajnzylber

NOMBRE DEL ALUMNO Y FIRMA:

Pregunta 1 (Máximo 20 puntos)

En el modelo de regresión lineal múltiple (MRLM), se tiene

La fórmula para el estimador de Mínimos Cuadrados Ordinarios (MCO) de 𝛽 es:

El estimador MCO de un subconjunto de los coeficientes puede obtenerse de acuerdo a

̂1 = (𝑋1 ′𝑀𝑋 𝑋1 )−1 𝑋1 ′𝑀𝑋 𝑌

Pregunta 1 – Repaso conceptual (20 puntos)

a) Para demostrar la efectividad de una droga en enfrentar el dolor de cabeza, se suelen

(i) ¿Cree usted que el modelo le permitiría a usted obtener un estimador

Respuesta pregunta 1: (utilice la parte posterior de esta hoja, si es necesario):

i) El modelo propuesto debería entregar un estimador consistente del impacto de la droga, en la

̂2 ) disminuya al agregar dichas

Pregunta 2 – Peso corporal y velocidad entre atletas V2.0 (60 puntos)

Para analizar la relación existente entre el peso corporal y el desempeño en competencia,

La tabla a continuación muestra el resultado de la estimación de 6 modelos estimados a

Modelo 1 Modelo 2 Modelo 3 Modelo 4 Modelo 5 Modelo 6

a) Utilizando el modelo (1), realice un test sobre la significancia individual del

Respuesta pregunta 2 (utilice la parte posterior de esta hoja, si es necesario):

a) Contraste de significancia: 𝐻0 : 𝛽𝐻𝑒𝑖𝑔ℎ𝑡 = 0 vs. 𝐻1 : 𝛽𝐻𝑒𝑖𝑔ℎ𝑡 ≠ 0. (2 puntos)

El intervalo de confianza corresponde a (2 puntos)

𝐼𝐶 = −0.110 ± 0.120 ∗ 1.971 = [−0.34652; 0,12652]

b) Para que el coeficiente esté sesgado como consecuencia de la ausencia de weight, se

 La variable omitida (weight) afecte a la variable dependiente. Como se ve en la

Por lo anterior, se esperaría que el coeficiente de height esté sesgado y en forma

𝜕𝑀𝑎𝑟𝑘 𝛽𝑤𝑒𝑖𝑔ℎ𝑡 1.237

Es decir cuando el peso sea aproximadamente 97.86 kilogramos. (3 puntos)

El test sería entonces el siguiente: (2 puntos)

𝐻0 : 𝛽𝑤𝑒𝑖𝑔ℎ𝑡 = 𝛽𝑤𝑒𝑖𝑔ℎ𝑡2 = 0 vs. 𝐻1 : 𝛽𝑤𝑒𝑖𝑔ℎ𝑡 ≠ 0 o 𝛽𝑤𝑒𝑖𝑔ℎ𝑡 2 ≠ 0.

Usamos el estadístico F, aplicando la expresión en función de los R2 de los modelos

El valor crítico al 95% de confianza es en este caso VC=3.040. Como el estadístico es

f) El coeficiente que compaña a la variable dummy cleader representa una diferencia de

̂ = (10.53 − 0.0461 + 0.0304 ∙ 1.8) − 0.872 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡 + 0.427 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡 2

̂ = (10.53 + 0.0304 ∙ 1.8) − 0.872 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡 + 0.427 ∙ 𝑤𝑒𝑖𝑔ℎ𝑡 2

Es decir, la pendiente inicial es negativa, es cero en cierto momento y luego crece en

g) La inclusión de height_cleader en el modelo (5) permite que la relación entre la

asociado se interpreta como una diferencia de pendientes (o diferencia de efectos

h) El modelo (6) corresponde a una versión del test de heterocedasticidad de Breusch-

Específicamente, el test a realizar es el siguiente (donde los coeficientes 𝛿 corresponden a

𝐻0 : 𝛿ℎ𝑒𝑖𝑔ℎ𝑡 = 𝛿𝑤𝑒𝑖𝑔ℎ𝑡 = 𝛿𝑤𝑒𝑖𝑔ℎ𝑡 2 = 𝛿𝑐𝑙𝑒𝑎𝑑𝑒𝑟 = 𝛿ℎ𝑒𝑖𝑔ℎ𝑡𝑐𝑙𝑒𝑎𝑑𝑒𝑟 = 0 (ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑)

𝐻1 : 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 1 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑒𝑠 ≠ 0 (ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑)

Usamos el estadístico F, que corresponde al test de significancia de la regresión del

El valor crítico al 95% de confianza es en este caso VC=2.258. Como el estadístico es

Pregunta 3 – Predicción (20 puntos)

A continuación se presenta el output de Stata asociado a un modelo de regresión lineal

Source SS df MS Number of obs = 74

lnprice Coef. Std. Err. t P>|t| [95% Conf. Interval]

mpg_10 -.0296502 .0084344 -3.52 0.001 -.0464721 -.0128283

a) Interprete el valor estimado para la constante y para la variable (mpg-10). (5 puntos)

El coeficiente que acompaña la variable (mpg-10) debe interpretarse de la siguiente

b) Como se mencionó en la pregunta anterior, la constante (9.1135) corresponde

El intervalo de predicción corresponde entonces a lo siguiente:

El valor critico al 95% de confianza, asociado a una distribución T con 70 grados de

Asimismo, la varianza de la constante estimada se obtiene del error estándar reportado:

Por lo tanto, el intervalo de predicción está dado por: (2.5 puntos)

𝐼𝑃 = 9.1135 ± 1.994 ∙ √0.02712 + 0.11477 = [8.36239; 9.8646]

̂ 0 = 𝑒𝑥𝑝(9.113486) ∙ 𝑒𝑥𝑝(𝜎̂2 ⁄2) = 𝑒𝑥𝑝(9.113486) ∙ 𝑒𝑥𝑝(0.11477⁄2) = 9076.8818 ∙ 1.0591

P = Probabilidad cola derecha – Distribución T-Student