4.3 Modelos - Lineales - 2 - DV
4.3 Modelos - Lineales - 2 - DV
4.3 Modelos - Lineales - 2 - DV
error = Y ∗ − Yˆ∗
E (error ) = E (Y ∗ ) − (Yˆ∗ ) = 0
1 (x ∗ − x̄ )2
V (error ) = V (Y ∗ ) + V (Yˆ∗ ) = σ 2 1+ +
n Sxx
.
tiene una distribución t-student con n − 2 grados de libertad. Por tanto, es posible
determinar un Intervalo de predicción de (1 − α)100% para Y cuando x = x ∗
r
1 (x ∗ − x̄ )2
βˆ0 + βˆ1 x ∗ ± tα/2 S 1+ +
n Sxx
Utilizando los datos y el modelo del ejemplo de los precios de venta de casas nuevas
para una sola familia, construir un intervalo de predicción de 95% para la mediana de
los precios de venta en 1980.
El modelo
√ que se obtuvo fue y = 21.61 + 4.84x y se calculo que x̄ = 4.5, Sxx = 42 y
S = 2.95 = 1.72. Por lo tanto el intervalo de predicción de 95% será:
r
1 (x ∗ − x̄ )2
βˆ0 + βˆ1 x ∗ ± tα/2 S 1+ +
n Sxx
r
1 (9 − 4.5)2
= 21.61 + 4.84(9) ± (2.45)(1.72) 1+ + ⇒ 65.17 ± 5.35
8 42
r
∗ 1 (x ∗ − x̄ )2
βˆ0 + βˆ1 x ± tα/2 S +
n Sxx
r
1 (x ∗ − x̄ )2
βˆ0 + βˆ1 x ∗ ± tα/2 S 1+ +
n Sxx
Figure 1:
Existen distintos tipos de formas de estudiar la relación entre dos tipos de variables.
Una de las más comunes es establecer una de tipo “causa-efecto” entre ellas. Desde el
punto de vista de variables aleatorias podemos agregar otras ideas.
3.0
2.5
2.0
x
pendiente positiva
Correlación = 0.9758752
Modelos lineales, parte 2
En R: Relación lineal con pendiente negativa
Relación lineal perfecta
2.0
1.5
1.0
0.5
y
0.0
−1.0
x
pendiente negativa
Correlación = -0.9774196
Modelos lineales, parte 2
En R: Mucho ruido
Relación lineal
6
5
4
y
3
2
1
x
Mucho ruido
Correlación = 0.5116338
Modelos lineales, parte 2
En R: Homoscedasticidad y Heterocedasticidad
Homoscedasticidad Heterocedasticidad
6
2
1
5
0
y
4
−1
3
−2
−3
x x
varianzas son constantes varianzas no son constantes
Relación no lineal
0
−5
y
−10
−15
−20
Correlación = 0.8319741
Modelos lineales, parte 2
Ejemplo en R
Hacemos el ejemplo de la mediana de los precios de las casas en R.
x = 1:8; y = c(27.6,32.6,35.9,39.3,44.2,48.8,55.7,62.9)
mod = lm(y~x)
summary(mod)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.82857 -1.60893 0.00714 1.19107 2.60000
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 21.6143 1.3698 15.78 4.11e-06 ***
## x 4.8357 0.2713 17.83 2.00e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.758 on 6 degrees of freedom
## Multiple R-squared: 0.9815, Adjusted R-squared: 0.9784
## F-statistic: 317.8 on 1 and 6 DF, p-value: 2.002e-06
Una manera fácil de realizar esta prueba es através de los asteriscos que acompañan el
p − valor , a medida que tenga más asteriscos significa que el coeficientes es más
significativo y puede ser comparado con cualquier valor de α (ver Signif. codes)
plot( x, y)
abline(a= mod$coefficients[1], b= mod$coefficients[2], col = 5)
60
55
50
45
y
40
35
30
1 2 3 4 5 6 7 8
x
Modelos lineales, parte 2
Análisis de los residuales
par(mfrow = c(2,2))
plot(mod)
2.0
Standardized residuals
8 8
2
Residuals
1.0
1
0
0.0
−1.0
4
−2
6 4
6
2.0
Standardized residuals
8
1.2
1
6
4
1.0
0.5
2 1
0.8
0.0
0.4
Al aplicar la función plot sobre el objeto que contiene la información del modelo
obtenemos 4 gráficos que nos ayudan para la validación del modelo. Estos gráficos son:
Valores predichos frente a residuos.
Gráfico Q-Q de normalidad.
Valores predichos frente a raíz cuadrada de los residuos estandarizados (en valor
absoluto).
Residuos estandarizados frente a leverages.
par(mfrow = c(2,2))
plot(mod)
2.0
Standardized residuals
8 8
2
Residuals
1.0
1
0
0.0
−1.0
4
−2
6 4
6
2.0
Standardized residuals
8
1.2
1
6
4
1.0
0.5
2 1
0.8
0.0
0.4
Los gráficos parecen indicar que los residuos son aleatorios, independientes y
homocedásticos.
Para verificar si los residuos sigan una distribución Normal, se puede realizar una prueba
de Kolmogorov-Smirnov
La prueba es
H0 : Los residuos provienen de una distribución Normal.
Ha : Los residuos no provienen de una distribución Normal.
ks.test(mod$residuals, "pnorm")
##
## One-sample Kolmogorov-Smirnov test
##
## data: mod$residuals
## D = 0.3194, p-value = 0.3168
## alternative hypothesis: two-sided
parece ser un buen ajuste para los datos suministrados, sin embargo, falta estudiar el R 2 .
Bandas de confianza y
predicción
100
90
predicted
80
70
60
9 10 11 12 13 14 15 16
Nuevos datos
Modelos lineales, parte 2
R2
El R-cuadrado (R 2 ) es una medida estadística de qué tan cerca están los datos de la
línea de regresión ajustada. También se conoce como coeficiente de determinación, o
coeficiente de determinación múltiple si se trata de regresión múltiple.
La definición de (R 2 ) es bastante sencilla: es el porcentaje de la variación en la variable
de respuesta que es explicado por un modelo lineal. Es decir:
2 SSE/[n − (k + 1)]
Raju =1−
SST/[n − 1]
En general, cuanto mayor es el R 2 , mejor se ajusta el modelo a los datos. Sin embargo,
hay condiciones importantes con respecto a esta pauta, pues se debe cumplir además
normalidad, homocedasticidad e independencia.
H0 : β0 = β1 = · · · = βk = 0
Ha : existe al menos un βi 6= 0
H0 : β1 = 0
Ha : β1 6= 0
Dicho de otra forma, tiene sentido un modelo lineal o una constante (y = β0 ) que
explique los datos?
En este ejemplo concreto, hay que destacar que el valor de R 2 es un valor alto.
También se puede inferir que β1 6= 0 ya que el p-valor correspondiente al contraste para
la variable x es pequeño. Observe que si β1 fuera 0, los valores de la variable y no
dependerían de los de la variable x y el modelo carecería de sentido. Por lo tanto,
hemos obtenido evidencia de que el modelo lineal puede ser válido.
anova(mod)
x = 1:10; y = c(26.3, 26.1, 24.7, 22.8, 22.1, 20.4, 19.0, 17.7, 19.3, 17.5)
mod2 = lm(y~x)
summary(mod2)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.240 -0.590 -0.040 0.625 1.420
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 27.42000 0.61349 44.70 6.93e-11 ***
## x -1.06000 0.09887 -10.72 5.04e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8981 on 8 degrees of freedom
## Multiple R-squared: 0.9349, Adjusted R-squared: 0.9268
## F-statistic: 114.9 on 1 and 8 DF, p-value: 5.036e-06
26
24
22
y
20
18
2 4 6 8 10
1.5
Standardized residuals
Standardized residuals
9 9
1.2
8
1.5
7
Residuals
0.5
0.8
0.5
−0.5
−0.5
0.4
7 7
−1.5
8
−1.5
0.0
8
Bandas de confianza y
predicción
Residuals vs Leverage
2
Standardized residuals
9 1
0.5
1
10
predicted
90
0
80
70
−1
0.5
Cook's
8 distance
60
E [Y |X = x ] = β0 + β1 x .
σY
β1 = ρ.
σX
n
X
(Xi − X̄ )(Yi − Ȳ ) r
i=1 Sxy Sxx
r = s = p = βˆ1 .
n n Syy
X X Sxx Syy
(Xi − X̄ )2 (Yi − Ȳ )2
i=1 i=1
βˆ1 − 0
T = √
S/ Sxx
√
r n−2
T = √
1 − r2
que por ser equivalente debe tener distribución t con n − 2 grados de libertad.
La siguiente tabla muestra la carga pico de energía eléctrica de una planta generadora
de electricidad y la temperatura alta diaria para una muestra aleatoria de 10 días.
Pruebe la hipótesis de que el coeficiente de correlación poblacional ρ entre la carga pico
de energía eléctrica y la temperatura alta es cero frente la hipótesis alternativa de que
ésta es positiva. Utilice α = 0.05. Determine el nivel de significancia alcanzado.
Se puede calcular que Sxx = 380.5, Syy = 1.92636 × 104 y Sxy = 2556, y por lo tanto
(r = Sxy/sqrt(Sxx*Syy))
## [1] 0.944093
(eT = r*sqrt(length(temp)-2)/sqrt(1-r^2))
## [1] 8.099688
##
## Call:
## lm(formula = CP ~ temp)
##
## Residuals:
## Min 1Q Median 3Q Max
## -28.724 -11.811 4.929 8.645 21.016
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -419.8491 76.0578 -5.52 0.00056 ***
## temp 6.7175 0.8294 8.10 3.99e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 16.18 on 8 degrees of freedom
## Multiple R-squared: 0.8913, Adjusted R-squared: 0.8777
## F-statistic: 65.6 on 1 and 8 DF, p-value: 3.994e-05
Modelos lineales, parte 2
Residuals vs Fitted Normal Q−Q Scale−Location
2
3
Standardized residuals
Standardized residuals
2 2 2
1.2
6
1
10
6
Residuals
0.8
0
−10
0.4
10
−1
−30
0.0
3
−2
120 160 200 240 −1.5 −0.5 0.5 1.5 120 160 200 240
Residuals vs Leverage
2
1
Standardized residuals
2
0.5
6
1
0
−1
0.5
1
3Cook's distance
−2
Leverage
Hasta ahora hemos trabajado con modelos simples, por lo que es “simple” conseguir
fórmulas cerradas para las estimaciones. Ahora para trabajar con modelos de regresión
múltiple nos apoyaremos de álgebra matricial para hacer este trabajo. Supongamos que
ahora cuando se realizan n observaciones independientes y1 , y2 , . . . , yn , y podemos
escribir a yi como:
y2
Y = .
. .
yn
x x11 x12 ... x1k
0
β1
β= .
. .
βk
ε
1
ε2
ε= .
. .
εn
Y = X β + ε.
(X 0 X )β̂ = X 0 Y
β̂ = (X 0 X )−1 X 0 Y
SSE = Y 0 Y − β̂ 0 X 0 Y
P
X X =0 Pn P x2i
xi xi
Así como
P
xi2
x̄
− h
c00 c01
i
(X 0 X )−1 = nSxx Sxx = .
x̄ 1 c10 c11
−
Sxx Sxx
Utilice los siguientes datos para estimar βˆ0 y βˆ1 , así como para encontrar una
estimación de σ 2 .
y x
3 -1
2 0
1 1
1 2
0.5 3
1 −1
h i 1 0 h 5 i
1 1 1 1 1 5
X0 X = 1 1 = .
−1 0 1 2 3 5 15
1 2
1 3
Por lo tanto
h i
3/10 −1/10
(X0 X)−1 = .
−1/10 1/10
3
h i 2 h 15/2 i
1 1 1 1 1
X0 Y = 1 = .
−1 0 1 2 3 3/2
1
0.5
h ih i h i
3/10 −1/10 15/2 2.1
β̂ = (X0 X)−1 X0 Y = =
−1/10 1/10 3/2 −0.6
y = 2.1 − 0.6x
SSE 0.4
S2 = = = 0.133.
n−2 3
https://fhernanb.github.io/libro_regresion/rls.html
https://rpubs.com/joser/RegresionSimple