I2 2017 Pauta

EYP2305/EYP230I- Análisis de Regresión
PAUTA Interrogación 2
Profesora : Marı́a José Garcı́a
Ayudante : Gabriela Toledo
Fecha : 4 de octubre de 2017
1. Considere la matriz de proyección H = X(XT X)−1 XT .
a) [3.0p] Muestre que:

(i) 0 ≤ hii ≤ 1
Solución:
Se sabe que H es idempotente, es decir:
    Pn 
h11 h12 ... h1n h11 h12 ... h1n i=1 h1i hi1
 h21 h22 ... h2n  h21 h22 ... h2n   
H = H2 =  = ,
    
.. .. ..  .. .. .. ..
 . . ... .  . . ... .   . 
Pn
hn1 hn2 ... hnn hn1 hn2 ... hnn i=1 hni hin
Pn
por lo tanto, hii = j=1 hij hji , pero sabemos que H es simétrica, por lo que hij = hji .
Entonces,
n
X
hii = h2ij ,
j=1
cuyo valor es siempre ≥ 0.

Además,
X
hii = h2ii + h2ij ,
i6=j
| {z }
≥0
hii ≥ h2ii
=⇒ h2ii − hii ≤ 0
hii (hii − 1) ≤ 0, pero sabemos que hii ≥ 0
| {z }
≤0
=⇒ hii − 1 ≤ 0
hii ≤ 1
Por lo tanto, 0 ≤ hii ≤ 1.
1
(ii) −0,5 ≤ hij ≤ 0,5
Solución:
X
hii = h2ii + h2ij ,
i6=j
| {z }
X
hii = h2ii + h2ij + h2ir
j6=i r6=i,r6=j
| {z }
≥0
Entonces,
hii ≥ h2ii + h2ij ,
j6=i
hii − h2ii ≥ h2ij ,

j6=i
h (1 − h ) ≥ h2ij , ya vimos que 0 ≤ hii ≤ 1

| ii {z ii} j6=i
toma su mayor
valor en hii = 0,5
Por lo tanto,

1 1
1− ≥ h2ij ,
2 2 j6=i
1
≥ h2ij ,
4 j6=i
1 1
− ≥ hij ≥
2 j6=i 2
b) [3.0p] Muestre que si la matriz X tiene una columna constante, entonces hii > n1 .
Hint:
Sea X = (X1n×r : X2n×(p−r) ) con r(X1) = r y r(X2) = p − r.
−1
Sea H1 = X1 X1T X1 X1T la proyección con respecto a X1.
La matriz W = (I − H1) X2 es la proyección de X2 sobre el complemento ortogonal de X1.

−1 T
Entonces, H2 = W WT W W .
Luego, HX = H1 + H2, es decir, la matriz de proyección H se puede descomponer en la suma

de dos o más matrices de proyeción.
Solución:
Ordenemos la matriz de diseño X de manera de especificar primero la columna asociada a la
constante y luego, las (p − 1) columnas restantes,
X = (1 : X1) .
Utilizando la información del Hint, tenemos que:
−1 T
H1 = 1 1T 1 1 ,
1
1 1T n×n .

=
n
2
Construimos la matriz W,
W = (I − H1) X,

1 T

= I− 11 X.
n
Por lo tanto,
−1
H2 = W WT W WT
HX = H1 + H2
Sabemos que los elementos de la diagonal de HX van a ser los elementos de la diagonal de H1
más los de la diagonal de H2.
1
La diagonal de H1 está formada por n, por lo que:
(1) (2)
hX
ii = hii + hii .
1 (2)
= + hii
n |{z}
≥0
Por lo tanto,
1
hii > .
n
2. a) [3.0p] En un modelo de regresión, muestre que:

n
X n
X
Ŷi (Yi − Ŷi ) = Xi (Yi − Ŷi ) = 0
i=1 i=1
Explique la interpretación geométrica de este resultado.
Solución:
n
X
Ŷi (Yi − Ŷi ) = (HY)T (I − H)Y
i=1
= YT H (I − H) Y
= YT (H − H) Y
= 0
Interpretación: la sumatoria es el producto punto entre el vector de valores predichos y el vector
de errores. Ambos vectores pertenecen a planos ortogonales entre sı́, por lo tanto el producto
punto es cero.
n
X
Xi (Yi − Ŷi ) = XT (I − H)Y
i=1
= XT (I − H) Y
−1 T
= XT − XT X XXT X Y
= 0
3
Interpretación: corresponde al producto punto entre una columna de X y los errores. Estos
vectores pertenecen a planos ortogonales, luego su producto punto es cero.
b) La salida computacional del Anexo 1, contiene los resultados de un modelo con 4 regresores
(X1, X2, X3, X4) y 10 observaciones.
En base a ella, responda las siguientes preguntas, indicando claramente los cálculos realizados
y la información utilizada.
(i) [1.0p] ¿En qué orden sugerirı́a incorporar las variables al modelo? Justifique.
Solución:
En base a la matriz de correlación entre los regresores y la respuesta, ingresarı́a las va-
riables en orden de correlación decreciente con Y . Las ingresarı́a en el siguiente orden:
X4, X3, X1, X2.
(ii) [1.0p] En base a la matriz de correlaciones entre las variables, indique qué variable(s) cree
que resultará(n) significativa(s) en el modelo.
Solución:
Si bien todas las variables tienen una alta correlación con la respuesta, observamos tam-
bién que la correlación entre ellas tambiés es muy alta. Esto indica que todas ellas están
aportando información similar al modelo, por lo que probablemente con una sola de ellas
se logre explicar la respuesta Y .
(iii) [1.0p] ¿Cuál es el coeficiente de correlación entre Y y X3? ¿Cuál es el coeficiente de corre-
lación parcial entre Y y X3 dado X4? Explique las similitudes o diferencias encontradas.
Solución:
Corr (Y, X3) = −0,78 y Corr (Y, X3 | X4) = 0,37.
Estos valores son muy diferentes, lo que indica que ambas variables “explican” o aportan
la misma información sobre Y , por lo que una vez que está considerada X4, el aporte de
X3 baja considerablemente.
Esto se puede corroborar con la correlación observada entre X3 y X4, cuyo valor es de
−0,84.
3. Un investigador en una fundación cientı́fica quiso evaluar la relación entre los sueldos anuales de los
matemáticos (Y , en miles de dólares) y un ı́ndice de calidad del trabajo (X1 ), número de años de
experiencia (X2 ) y un ı́ndice de éxito en las publicaciones (X3 ).
Los análisis correspondientes a una muestra de 24 matemáticos se muestran en el Anexo 2.
a) [0.5p] Escriba el modelo y sus supuestos.

Solución:
Yi = β0 + β1 X1 + β2 X2 + β3 X3 + i , i = 1, . . . , 24.
i.i.d.
i ∼ N (0, σ 2 )
Equivalentemente,
Y = Xβ +
∼ N24 0, σ 2 I

4
b) [1.0p] Construya la tabla ANOVA correspondiente a este ajuste.
Solución:
Fuente de Grados de Sumas de Medias Test F
Variación libertad Cuadrados Cuadráticas
Regresión 3 627.816 209.272 68.1124
Error 20 61.443 3.072
Total 23 689.259
c) [1.0p] Realice un test estadı́stico para evaluar la significancia del ajuste. Escriba las hipótesis,
valor del estadı́stico y su conclusión. Use α = 0,05.
Solución:
H0 : βi = 0, para todo i
H1 : algún βi 6= 0, i = 1, 2, 3
El estadı́stico correspondiente es:
M CReg 209,272
F0 = = = 68,1124,
M CE 3,072
el que se compara con el cuantil F(3,20),0,95 = 3,098.
Como F 0 > 3,098, rechazamos la hipótesis nula, es decir el ajuste es significativo, o en otras
palabras, al menos uno de los regresores es significativo.
d ) [1.5p] Estime β1 , β2 y β3 y analice la significancia de cada uno de ellos utilizando α = 0,05.

Escriba las hipótesis, valor del estadı́stico y su conclusión.
Solución:
Las hipótesis para analizar la significancia de los coeficientes son:
H0 : βi = 0, i = 1, 2, 3
H1 : βi 6= 0
β̂i
Bajo H0 , el estadśtico correspondientes es t0 = √ , i = 1, 2, 3, cuya distribución es
Var β̂i
t(24−4) = t(20) .
Con α = 0,05, rechazamos la hipótesis nula si t0 > t(20),0,975 , pero como no tenemos ese valor,
podemos resolverlo analizando el valor-p de cada uno de ellos, rechazando H0 si valor-p < 0,05.
A continuación se muestran los análisis para cada uno de los coeficientes.
β̂1 = 1,103 y t0 = 3,35.

Además, valor-p = 0,0032 < 0,05, por lo tanto, con un 95 % de confianza, el coeficiente β1
es significativo.
5
β̂2 = 0,322 y t0 = 8,66.
Además, valor-p ≈ 0 < 0,05, por lo tanto, con un 95 % de confianza, el coeficiente β2 es
significativo.
β̂3 = 1,289 y t0 = 4,32.
Además, valor-p = 0,0003 < 0,05, por lo tanto, con un 95 % de confianza, el coeficiente β3
es significativo.
e) [1.5p] Indique cómo contrastarı́a conjuntamente las hipótesis:

H0 : β2 = 3
β1 − β2 = 0
Describa los pasos a seguir y la información numérica que deberı́a considerar, pero no realice
los cálculos.
Solución:
Las hipótesis a contrastar corresponden a hipótesis de la forma:
H0 : Rβ = r
H1 : Rβ 6= r
Donde,
0 0 1 0 3
R= , r=
0 1 −1 0 0
Se debe calcular h iT −1 T −1 h i
b −r
Rβ R XT X R b − r /2
Rβ
F0 = ,
b2
σ
y compararlo con F(2,20),0,95 . Si F0 > F(2,20),0,95 , se rechaza H0 .
Para calcular el estadı́stico F0 tenemos que considerar la siguiente información:
   
17,85 1,304 −0,102 0,000 −0,122
 , XT X −1 =  −0,102 0,035 −0,002 −0,008 
 1,10
b2 = (1,753)2 = 3,072
 
β̂ = 
 0,32  0,000 −0,002
, σ
 0,000 0,000 
1,29 −0,122 −0,008 0,000 0,029
f ) [0.5p] En base a los análisis realizados, concluya qué variables son importantes al explicar el
sueldo anual de los matemáticos e interprete sus resultados en el contexto del problema.
Solución:
De acuerdo a los análisis realizados, podemos concluir con un 95 % de confianza que las variables
ı́ndice de calidad del trabajo (X1 ), número de años de experiencia (X2 ) e ı́ndice de éxito en las
publicaciones (X3 ) inciden positivamente en el sueldo anual de los matemáticos (Y en miles de
dólares).
En concreto podemos concluir con un 95 % de confianza, que:
por cada aumento de una unidad en el ı́ndice de calidad del trabajo, el sueldo anual
aumenta en 1,103 miles de dólares.
por un aumento de un año de experiencia, el sueldo anual aumenta en 0,322 miles de
dólares.
por cada aumento de una unidad en el ı́ndice de éxito en las publicaciones, el sueldo anual
aumenta en 1,289 miles de dólares.
6
Anexo 1
> cor(datos)
Y X1 X2 X3 X4
Y 1.0000000 0.7403059 0.6276185 -0.7800722 0.9776031
X1 0.7403059 1.0000000 0.9712365 -0.6684029 0.6519954
X2 0.6276185 0.9712365 1.0000000 -0.5978199 0.5268436
X3 -0.7800722 -0.6684029 -0.5978199 1.0000000 -0.8410100
X4 0.9776031 0.6519954 0.5268436 -0.8410100 1.0000000
> ajuste4 <- lm(X3 ~ X4)

> summary(ajuste4)
Call: lm(formula = X3 ~ X4) Residuals:

Min 1Q Median 3Q Max
-3.994 -3.084 -1.614 2.181 9.289
Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) 8.4724 1.8470 4.5872 0.0018
X4 -0.2239 0.0509 -4.3968 0.0023
Residual standard error: 4.503 on 8 degrees of freedom Multiple

R-Squared: 0.7073 F-statistic: 19.33 on 1 and 8 degrees of
freedom, the p-value is 0.002297
Correlation of Coefficients:
(Intercept)
X4 -0.6369
> ajuste5 <- lm(residuals(lm(Y ~ X4)) ~ residuals(lm(X3 ~ X4)))

> summary(ajuste5)
Call: lm(formula = residuals(lm(Y ~ X4)) ~ residuals(lm(X3 ~ X4)))

Residuals:
-10.23 -3.727 1.161 3.181 9.944
Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) 0.0000 2.0282 0.0000 1.0000
residuals(lm(X3 ~ X4)) 0.5669 0.5036 1.1256 0.2930
Residual standard error: 6.414 on 8 degrees of freedom Multiple

R-Squared: 0.1367 F-statistic: 1.267 on 1 and 8 degrees of
7
freedom, the p-value is 0.293
Correlation of Coefficients:
(Intercept)
residuals(lm(X3 ~ X4)) 0
> cor(residuals(lm(Y ~ X4)), residuals(lm(X3 ~ X4)))

[1] 0.3697634
> cor(residuals(lm(Y ~ X4)), residuals(lm(X4 ~ X3)))
[1] 0.3109747
> cor(residuals(lm(Y ~ X4)), residuals(lm(Y ~ X3)))
[1] 0.5857696
8
Anexo 2
> matematicos <- read.table("./R/matematicos.txt",header=T)

> names(matematicos)
[1] "Y" "X1" "X2" "X3"
> round(cor(matematicos),3)
Y X1 X2 X3
Y 1.000 0.667 0.859 0.558
X1 0.667 1.000 0.467 0.323
X2 0.859 0.467 1.000 0.254
X3 0.558 0.323 0.254 1.000
uno <- rep(1,length(Y))

X1 <- matematicos[,2]
X <- cbind(uno,X1,X2,X3)
Y <- matematicos[,1]
> round(solve((t(X)%*%X)),3)
uno X1 X2 X3
uno 1.304 -0.102 0.000 -0.122
X1 -0.102 0.035 -0.002 -0.008
X2 0.000 -0.002 0.000 0.000
X3 -0.122 -0.008 0.000 0.029
> matematicos.lm <- lm(Y ~ X1 + X2 + X3, data = matematicos)

> summary(matematicos.lm)
Call:
lm(formula = Y ~ X1 + X2 + X3, data = matematicos)
Residuals:
-3.2463 -0.9593 0.0377 1.1995 3.3089
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 17.84693 2.00188 8.915 2.10e-08 ***
X1 1.10313 0.32957 3.347 0.003209 **
X2 0.32152 0.03711 8.664 3.33e-08 ***
X3 1.28894 0.29848 4.318 0.000334 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.753 on 20 degrees of freedom

Multiple R-squared: 0.9109,Adjusted R-squared: 0.8975
F-statistic: 68.12 on 3 and 20 DF, p-value: 1.124e-10
9
> anova(matematicos.lm)
Analysis of Variance Table
Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
X1 1 306.732 306.732 99.843 3.206e-09 ***
X2 1 263.794 263.794 85.866 1.121e-08 ***
X3 1 57.290 57.290 18.648 0.0003342 ***
Residuals 20 61.443 3.072
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> qf(0.95,1,20)
[1] 4.351244
> qf(0.95,3,20)
[1] 3.098391
> qf(0.95,1,23)
[1] 4.279344
> qf(0.95,3,23)
[1] 3.027998
> qt(0.95,1)
[1] 6.313752
> qt(0.95,3)
[1] 2.353363
> qt(0.95,20)
[1] 1.724718
> qt(0.95,23)
[1] 1.713872
10

I2 2017 Pauta

Cargado por

Copyright:

Formatos disponibles

I2 2017 Pauta

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

I2 2017 Pauta

Cargado por

Copyright:

Formatos disponibles

EYP2305/EYP230I- Análisis de Regresión

1. Considere la matriz de proyección H = X(XT X)−1 XT .

a) [3.0p] Muestre que:

cuyo valor es siempre ≥ 0.

hii − h2ii ≥ h2ij ,

h (1 − h ) ≥ h2ij , ya vimos que 0 ≤ hii ≤ 1

La matriz W = (I − H1) X2 es la proyección de X2 sobre el complemento ortogonal de X1.

Luego, HX = H1 + H2, es decir, la matriz de proyección H se puede descomponer en la suma

2. a) [3.0p] En un modelo de regresión, muestre que:

Los análisis correspondientes a una muestra de 24 matemáticos se muestran en el Anexo 2.

a) [0.5p] Escriba el modelo y sus supuestos.

Regresión 3 627.816 209.272 68.1124

Error 20 61.443 3.072

d ) [1.5p] Estime β1 , β2 y β3 y analice la significancia de cada uno de ellos utilizando α = 0,05.

A continuación se muestran los análisis para cada uno de los coeficientes.

β̂1 = 1,103 y t0 = 3,35.

e) [1.5p] Indique cómo contrastarı́a conjuntamente las hipótesis:

X1 0.7403059 1.0000000 0.9712365 -0.6684029 0.6519954

X2 0.6276185 0.9712365 1.0000000 -0.5978199 0.5268436

X3 -0.7800722 -0.6684029 -0.5978199 1.0000000 -0.8410100

X4 0.9776031 0.6519954 0.5268436 -0.8410100 1.0000000

> ajuste4 <- lm(X3 ~ X4)

Call: lm(formula = X3 ~ X4) Residuals:

Residual standard error: 4.503 on 8 degrees of freedom Multiple

> ajuste5 <- lm(residuals(lm(Y ~ X4)) ~ residuals(lm(X3 ~ X4)))

Call: lm(formula = residuals(lm(Y ~ X4)) ~ residuals(lm(X3 ~ X4)))

Residual standard error: 6.414 on 8 degrees of freedom Multiple

> cor(residuals(lm(Y ~ X4)), residuals(lm(X3 ~ X4)))

> matematicos <- read.table("./R/matematicos.txt",header=T)

uno <- rep(1,length(Y))

> matematicos.lm <- lm(Y ~ X1 + X2 + X3, data = matematicos)

Residual standard error: 1.753 on 20 degrees of freedom

También podría gustarte