I2 2017 Pauta
I2 2017 Pauta
I2 2017 Pauta
PAUTA Interrogación 2
Profesora : Marı́a José Garcı́a
Ayudante : Gabriela Toledo
Fecha : 4 de octubre de 2017
=⇒ h2ii − hii ≤ 0
hii (hii − 1) ≤ 0, pero sabemos que hii ≥ 0
| {z }
≤0
=⇒ hii − 1 ≤ 0
hii ≤ 1
Por lo tanto, 0 ≤ hii ≤ 1.
1
(ii) −0,5 ≤ hij ≤ 0,5
Solución:
X
hii = h2ii + h2ij ,
i6=j
| {z }
X
hii = h2ii + h2ij + h2ir
j6=i r6=i,r6=j
| {z }
≥0
Entonces,
hii ≥ h2ii + h2ij ,
j6=i
b) [3.0p] Muestre que si la matriz X tiene una columna constante, entonces hii > n1 .
Hint:
Sea X = (X1n×r : X2n×(p−r) ) con r(X1) = r y r(X2) = p − r.
−1
Sea H1 = X1 X1T X1 X1T la proyección con respecto a X1.
2
Construimos la matriz W,
W = (I − H1) X,
1 T
= I− 11 X.
n
Por lo tanto,
−1
H2 = W WT W WT
HX = H1 + H2
Sabemos que los elementos de la diagonal de HX van a ser los elementos de la diagonal de H1
más los de la diagonal de H2.
1
La diagonal de H1 está formada por n, por lo que:
(1) (2)
hX
ii = hii + hii .
1 (2)
= + hii
n |{z}
≥0
Por lo tanto,
1
hii > .
n
n
X
Ŷi (Yi − Ŷi ) = (HY)T (I − H)Y
i=1
= YT H (I − H) Y
= YT (H − H) Y
= 0
Interpretación: la sumatoria es el producto punto entre el vector de valores predichos y el vector
de errores. Ambos vectores pertenecen a planos ortogonales entre sı́, por lo tanto el producto
punto es cero.
n
X
Xi (Yi − Ŷi ) = XT (I − H)Y
i=1
= XT (I − H) Y
−1 T
= XT − XT X XXT X Y
= 0
3
Interpretación: corresponde al producto punto entre una columna de X y los errores. Estos
vectores pertenecen a planos ortogonales, luego su producto punto es cero.
b) La salida computacional del Anexo 1, contiene los resultados de un modelo con 4 regresores
(X1, X2, X3, X4) y 10 observaciones.
En base a ella, responda las siguientes preguntas, indicando claramente los cálculos realizados
y la información utilizada.
(i) [1.0p] ¿En qué orden sugerirı́a incorporar las variables al modelo? Justifique.
Solución:
En base a la matriz de correlación entre los regresores y la respuesta, ingresarı́a las va-
riables en orden de correlación decreciente con Y . Las ingresarı́a en el siguiente orden:
X4, X3, X1, X2.
(ii) [1.0p] En base a la matriz de correlaciones entre las variables, indique qué variable(s) cree
que resultará(n) significativa(s) en el modelo.
Solución:
Si bien todas las variables tienen una alta correlación con la respuesta, observamos tam-
bién que la correlación entre ellas tambiés es muy alta. Esto indica que todas ellas están
aportando información similar al modelo, por lo que probablemente con una sola de ellas
se logre explicar la respuesta Y .
(iii) [1.0p] ¿Cuál es el coeficiente de correlación entre Y y X3? ¿Cuál es el coeficiente de corre-
lación parcial entre Y y X3 dado X4? Explique las similitudes o diferencias encontradas.
Solución:
Corr (Y, X3) = −0,78 y Corr (Y, X3 | X4) = 0,37.
Estos valores son muy diferentes, lo que indica que ambas variables “explican” o aportan
la misma información sobre Y , por lo que una vez que está considerada X4, el aporte de
X3 baja considerablemente.
Esto se puede corroborar con la correlación observada entre X3 y X4, cuyo valor es de
−0,84.
3. Un investigador en una fundación cientı́fica quiso evaluar la relación entre los sueldos anuales de los
matemáticos (Y , en miles de dólares) y un ı́ndice de calidad del trabajo (X1 ), número de años de
experiencia (X2 ) y un ı́ndice de éxito en las publicaciones (X3 ).
Yi = β0 + β1 X1 + β2 X2 + β3 X3 + i , i = 1, . . . , 24.
i.i.d.
i ∼ N (0, σ 2 )
Equivalentemente,
Y = Xβ +
∼ N24 0, σ 2 I
4
b) [1.0p] Construya la tabla ANOVA correspondiente a este ajuste.
Solución:
Fuente de Grados de Sumas de Medias Test F
Variación libertad Cuadrados Cuadráticas
Total 23 689.259
c) [1.0p] Realice un test estadı́stico para evaluar la significancia del ajuste. Escriba las hipótesis,
valor del estadı́stico y su conclusión. Use α = 0,05.
Solución:
H0 : βi = 0, para todo i
H1 : algún βi 6= 0, i = 1, 2, 3
El estadı́stico correspondiente es:
M CReg 209,272
F0 = = = 68,1124,
M CE 3,072
el que se compara con el cuantil F(3,20),0,95 = 3,098.
Como F 0 > 3,098, rechazamos la hipótesis nula, es decir el ajuste es significativo, o en otras
palabras, al menos uno de los regresores es significativo.
Con α = 0,05, rechazamos la hipótesis nula si t0 > t(20),0,975 , pero como no tenemos ese valor,
podemos resolverlo analizando el valor-p de cada uno de ellos, rechazando H0 si valor-p < 0,05.
5
β̂2 = 0,322 y t0 = 8,66.
Además, valor-p ≈ 0 < 0,05, por lo tanto, con un 95 % de confianza, el coeficiente β2 es
significativo.
β̂3 = 1,289 y t0 = 4,32.
Además, valor-p = 0,0003 < 0,05, por lo tanto, con un 95 % de confianza, el coeficiente β3
es significativo.
f ) [0.5p] En base a los análisis realizados, concluya qué variables son importantes al explicar el
sueldo anual de los matemáticos e interprete sus resultados en el contexto del problema.
Solución:
De acuerdo a los análisis realizados, podemos concluir con un 95 % de confianza que las variables
ı́ndice de calidad del trabajo (X1 ), número de años de experiencia (X2 ) e ı́ndice de éxito en las
publicaciones (X3 ) inciden positivamente en el sueldo anual de los matemáticos (Y en miles de
dólares).
En concreto podemos concluir con un 95 % de confianza, que:
por cada aumento de una unidad en el ı́ndice de calidad del trabajo, el sueldo anual
aumenta en 1,103 miles de dólares.
por un aumento de un año de experiencia, el sueldo anual aumenta en 0,322 miles de
dólares.
por cada aumento de una unidad en el ı́ndice de éxito en las publicaciones, el sueldo anual
aumenta en 1,289 miles de dólares.
6
Anexo 1
> cor(datos)
Y X1 X2 X3 X4
Y 1.0000000 0.7403059 0.6276185 -0.7800722 0.9776031
Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) 8.4724 1.8470 4.5872 0.0018
X4 -0.2239 0.0509 -4.3968 0.0023
Correlation of Coefficients:
(Intercept)
X4 -0.6369
Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) 0.0000 2.0282 0.0000 1.0000
residuals(lm(X3 ~ X4)) 0.5669 0.5036 1.1256 0.2930
7
freedom, the p-value is 0.293
Correlation of Coefficients:
(Intercept)
residuals(lm(X3 ~ X4)) 0
8
Anexo 2
> round(cor(matematicos),3)
Y X1 X2 X3
Y 1.000 0.667 0.859 0.558
X1 0.667 1.000 0.467 0.323
X2 0.859 0.467 1.000 0.254
X3 0.558 0.323 0.254 1.000
X <- cbind(uno,X1,X2,X3)
Y <- matematicos[,1]
> round(solve((t(X)%*%X)),3)
uno X1 X2 X3
uno 1.304 -0.102 0.000 -0.122
X1 -0.102 0.035 -0.002 -0.008
X2 0.000 -0.002 0.000 0.000
X3 -0.122 -0.008 0.000 0.029
Call:
lm(formula = Y ~ X1 + X2 + X3, data = matematicos)
Residuals:
Min 1Q Median 3Q Max
-3.2463 -0.9593 0.0377 1.1995 3.3089
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 17.84693 2.00188 8.915 2.10e-08 ***
X1 1.10313 0.32957 3.347 0.003209 **
X2 0.32152 0.03711 8.664 3.33e-08 ***
X3 1.28894 0.29848 4.318 0.000334 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
9
> anova(matematicos.lm)
Analysis of Variance Table
Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
X1 1 306.732 306.732 99.843 3.206e-09 ***
X2 1 263.794 263.794 85.866 1.121e-08 ***
X3 1 57.290 57.290 18.648 0.0003342 ***
Residuals 20 61.443 3.072
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> qf(0.95,1,20)
[1] 4.351244
> qf(0.95,3,20)
[1] 3.098391
> qf(0.95,1,23)
[1] 4.279344
> qf(0.95,3,23)
[1] 3.027998
> qt(0.95,1)
[1] 6.313752
> qt(0.95,3)
[1] 2.353363
> qt(0.95,20)
[1] 1.724718
> qt(0.95,23)
[1] 1.713872
10