Regresion Lineal Múltiple: Parte II

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 34

Regresion Lineal Múltiple

Parte II

Jorge Rodríguez

Econometría, Abril 2021


Outline

1. Inferencia en el modelo de regresion múltiple (cap 7)


1.1 Test de hipótesis e intervalos de confianza sobre βj .
1.2 Tests de hipótesis conjuntos.
1.3 Presentación resultados y análisis de regresión
Tests de hipótesis e intervalos de confianza sobre βj
Tests de hipótesis sobre βj

Yi = β0 + β1 X1i + β2 X2i + · · · + βk Xki + ui


Test de hipótesis:

H0 : βj = βj,o
H1 : βj 6= βj,0

Necesitamos:
I Estadístico (t)
I Nivel de significancia α
I Comparar con valor crítico
I p-value.
Distribución muestral y errores standar (SE(βbj ))

0  
I Sea β
b = βb0 βb1 . . . βbk y
0 
Xi = 1 X1i . . . Xki
I En muestras grandes, podemos aproximar la distribución de β:
b
b ∼ N (β, Σ b)
β β

I Σβb: matrix de varianzas y covarianzas (k + 1) × (k + 1)


h  0
i−1  0
h  0
i−1
Σβb = E X i X i E u2i X i X i E X i X i

I Diagonal (j, j): varianza estimada de βbj


I Fuera de diagonal (j, s): covarianza estimada de βbj y βbs .
Tests de hipótesis sobre βj

Estadístico t:

βbj − βj,0
t=
b
SE(βbj )
Se puede demostrar:
d
t → X ∼ N (0, 1)
b

En muestras grandes, podemos usar probabilidades de una normal


estándar para inferencia estadística.
Tests de hipótesis sobre βj

Dos opciones:
1. Comparar b
t con tcritico que depende de α.
2. Calcular p-value.
p-value = 2Φ(− b
t )
p-value para t = 0.9

.4
.3
Densidad
.2
.1
0

-1.96 -0.9 0.9 1.96


p-value para t = −3.1

.4
.3
Densidad
.2
.1
0

-3.1 -1.96 1.96 3.1


Tests de hipótesis de una cola sobre β1 : α = 5%, N (0, 1)

.4
.3
Densidad
.2

95%
.1
0

-1.645 0
Ejemplo: Test Scores y Class Size

En SW, los resultados incluyendo SEs son:

\ = 698.9 − 2.28 × ST R
T estScore
(10.4) (0.52)

\ = 698.9 − 1.10 × ST R − 0.650 × P ctEL


T estScore
(8.7) (0.43) (0.031)

Suponga:

H0 : β1 = 0
H1 : β1 6= 0
Ejemplo: Test Scores y Class Size

βb1 − β1,0 2.28


t=
b =− = −4.4 < −1.96 (valor critico de N (0, 1))
SE(β1 )
b 0.52

βb1 − β1,0 1.10


t=
b =− = −2.55 < −1.96 (valor critico de N (0, 1))
SE(βb1 ) 0.43
Intervalos de confianza sobre βj

βbj − βj
t= ∼ N (0, 1)
SE(βbj )

P rob(−tα/2 < t < tα/2 ) = 1 − α

P rob(−tα/2 × SE(βbj ) < βbj − βj < tα/2 × SE(βbj )) = 1 − α

Luego, un intervalo de confianza para βj :

P rob(βbj − tα/2 × SE(βbj ) < βj < βbj + tα/2 × SE(βbj )) = 1 − α


Ejemplo: Test Scores y Class Size
En SW, los resultados incluyendo SEs son:

\ = 698.9 − 2.28 × ST R
T estScore
(10.4) (0.52)

\ = 698.9 − 1.10 × ST R − 0.650 × P ctEL


T estScore
(8.7) (0.43) (0.031)

Intervalo de confianza: [βb1 − 1.96 × SE(βb1 ), βb1 + 1.96 × SE(βb1 )]

[−2.28 − 1.96 × 0.52, −2.28 + 1.96 × 0.52] = [−3.2992, −1.2608]


[−1.10 − 1.96 × 0.43, −1.10 + 1.96 × 0.43] = [−1.9428, −0.2572]

Rechazamos H0 si β1,0 cae fuera de este intervalo, dado


α = 5%.
Tests de hipótesis conjuntos
Ejemplo: Test Scores y Class Size

\ = 698.9 − 1.10 × ST R − 0.650 × P ctEL


T estScore
(8.7) (0.43) (0.031)

I H0 : β1 = 0 vs H1 : β1 =
6 0: bt1 = −1.1/0.43 = 2.56 ⇒
Rechazo
I H0 : β2 = 0 vs H1 : β2 =6 0: b
t2 = −0.650/0.031 = 20.9 ⇒
Rechazo

Podemos afirmar que β1 6= 0 y β2 6= 0 con α = 5%?


Por qué no testeamos un coeficiente a la vez?

I H0 : β1 = 0 y β2 = 0.
I Supongamos que estadísticos t1 y t2 son independientes
I ¿Cual es la probabilidad de que rechacemos la nula cuando
esta es cierta (α)?

t2 ≤ 1.96) = 0.952 = 0.9025



t1 ≤ 1.96 y b
P r( b

I Luego, α = 1 − 0.9025 = 9.75%


I Intuitivamente: ante muchos tests, probabilidad de rechazar
(por suerte) va aumentando

I Si estadísticos t1 y t2 son dependientes, problema podría ser


peor.
Tests de hipótesis conjunto

H0 : βj = βj,0 , βm = βm,0 , ...para un total de q restricciones


H1 : al menos una restricción no se cumple bajo H0

I q restricciones: imponemos un valor específico a un coeficiente.


I Método:
1. Estadístico con cierta distribución.
2. p-values o valores críticos.
Estadístico F con q restricciones

I H0 : βj = βj,0 , βm = βm,0 , ... puede escribirse como:

Rβ = r

I R: matriz que selecciona qué coeficiente están restringidos


I β: vector de pendientes
I r: vector con valores βj,0 .
I Estadístico F :
0
h i−1
F = (Rβb − r) RΣ b b R0 (Rβb − r)/q
β

I También acomoda tests individuales, con varios coeficientes:


H0 : β1 + 2β2 = −β3 .
Estadístico F con q restricciones

I Distribución F (Fq,n−k−1 ) es la distribución de una variable


aleatoria definida como (W/q)/(V /(n − k − 1)) donde
W ∼ χq y V ∼ χn−k−1 .
I Para ello, necesitamos que u
bi ∼ N
I Resultado para muestras grandes (independiente de
distribución de errores):
d
F → χ2q /q ≡ Fq,∞

I Valores críiticos (ver appendix de Stock & Watson):


I χ2q /q
I Fq,∞
Distribución Fq,n

.8
.6
Densidad
.4
.2
0

0 1 2 3 4

F4,10 F4,25
F4,50 F4,100
Estadístico F con 2 restricciones

I Suponga H0 : β1 = 0, β2 = 0 (q = 2). Entonces


!
1 t21 + t22 − 2bρt1 ,t2 t1 t2
F =
2 1 − ρb2t1 ,t2

I Si unos de los tests individuales se rechaza, no implica


necesariamente que la hipótesis conjunta tambiíen.
I Si q = 1, entonces F = t2 .
I Cuando tests están correlacionados, estadístico F ajusta por
ρbt1 ,t2 .
Homoscedasticidad versus Heteroscedasticidad

I Al igual que el modelo simple, problema se remite a cálculo de


SEs.
I Robusta:
h  0
i−1  0
h  0
i−1
Σβb = E X i X i E u2i X i X i E X i X i

I Bajo homoscedasticidad:
h  0
i−1
Σβb = σ 2 E X i X i

I En ambos casos:
0
h i−1
F = (Rβb − r) RΣ b b R0 (Rβb − r)/q
β
F y R2

I Qué tan importante son las q restricciones para explicar


V ar(Y )?
I Al relajar q restricciones (ej., incluyendo más variables en la
regresión), SSR baja
I Sube R2
I Luego, F y R2 están relacionados
I Al incluir variables, si R2 sube “mucho”, puede ser señal de que
coeficientes asociados a variables incluidas son conjuntamente
significantivos
F y R2

Si hay homoscedasticidad :

(SSRrestricted − SSRunrestricted ) /q
F =
SSRunrestricted /(n − kunrestricted − 1)

2 2

Runrestricted − Rrestricted /q
F = 2
(1 − Runrestricted )/(n − kunrestricted − 1)
Ejemplo: Test Scores y Class Size

\ = 649.6 − 0.29 × ST R − 0.656 × P ctEL + 3.87 × Expn, R2 = 0.4366


T estScore
(15.5) (0.48) (0.032) (1.59)

\ = 664.7 − 0.671 × P ctEL,


T estScore R2 = 0.4149
(1.0) (0.032)

Bajo homoscedasticidad, q = 2.
(0.4366 − 0.4149)/2
F = = 8.01
(1 − 0.4366)/(420 − 3 − 1)

⇒Rechazo al 1% (valor critico es 4.61).


Ejemplo: Test Scores y Class Size

I Bajo heteroscedasticidad: F = 5.43.

Asumir erróneamente homoscedasticidad tiene altos costos


Presentación de resultados y análisis de regresión
Cómo escribir un informe/estudio econométrico

I El objetivo final: estudio de efectos causales


I Mejor presentado en forma de pregunta (ver ejemplo abajo).

1. Un estudio econométrico empieza detallando marco


institucional y datos
2. Enunciamos “estrategia de identificación”
I Identificación: estrategia para obtener un estimador de
efectos causales
I Para nuestros efectos, el efecto causal no está identificado
cuando E[u | X] 6= E[u]
I Esta sección puede referirse también a “metodología”,
“estrategia empírica”, etc; en mi opininón, si alude a efectos
causales es mejor.
Cómo escribir un informe/estudio econométrico

3. Resultados
I Presentación estimaciones
I Discusión de números e implicancias.
4. Conclusiones
I Volver a pregunta original.
Ejemplo: Colegios y Salarios

I Objetivo del estudio


I Aumentan tus salarios futuros asistir a un colegio privado?
I Datos en Contreras, Rodriguez y Urzua (2020)
I Tipo de colegio, II medio.
I Escolaridad padres e ingreso familiar
I Salarios ~10 años después
I Marco institucional: Chile
I Contexto: marcadas diferencias en calidad de educación.
Estrategia de identificación

Asumiremos independencia condicional: al incluir controles, variable


de interés es independiente de errores

Salariosi = β0 + βppag Di + Xi0 β + ui

Donde
(
1 estudio en colegio privado-pagado
Di =
0 en cualquier otro caso

Xi0 β = βesc EscM adre + βing IngF am

E[ui | Di , EscM adre, IngF am] = E[ui | EscM adre, IngF am]
Resultados

Table: Efecto de asistir a colegio privado sobre salarios


(1) (2) (3)
Asiste a privado (Di ) 233.6*** 102.2*** 86.6***
(6.8) (6.7) (8.0)
Escolaridad madre X X
Ingreso familiar X
R2 1.1% 1.2% 2.1%
N obs 11,395 11,395 11,395
Notas: *, **, *** indican significancia el 10, 5, y 1%.
Ejercicios

Ejercicios.
I Del libro Stock & Watson: Review the Concepts (todos),
7.1, 7.2, 7.3(a), 7.4(a), 7.6, 7.8, 7.10.

También podría gustarte