4.3 Modelos - Lineales - 2 - DV

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 51

Modelos lineales, parte 2

Modelos lineales, parte 2


Predicción de un valor particular de Y

Si estamos interesados en un valor de Y cuando x = x ∗ , emplearíamos Yˆ∗ = βˆ0 + βˆ1 xˆ∗


como pronosticador de un valor particular de Y ∗ y tambien como estimador de E (Y ).

Si x = x ∗ , el error en predecir un valor particular de Y ∗ , usando Yˆ∗ como el


pronosticado, es la diferencia entre el valor real de Y ∗ y el valor pronosticado:

error = Y ∗ − Yˆ∗

Modelos lineales, parte 2


Se puede demostrar el error presenta distribucion normal con la siguiente media y
varianza:

E (error ) = E (Y ∗ ) − (Yˆ∗ ) = 0

Ya que, E (Yˆ∗ ) = βˆ0 + βˆ1 xˆ∗ = E (Y ∗ ).

 
1 (x ∗ − x̄ )2
V (error ) = V (Y ∗ ) + V (Yˆ∗ ) = σ 2 1+ +
n Sxx
.

Modelos lineales, parte 2


de donde;
Y ∗ − Yˆ∗
T = q
1 (x ∗ −x̄ )2
S 1+ n
+ Sxx

tiene una distribución t-student con n − 2 grados de libertad. Por tanto, es posible
determinar un Intervalo de predicción de (1 − α)100% para Y cuando x = x ∗

r
1 (x ∗ − x̄ )2
βˆ0 + βˆ1 x ∗ ± tα/2 S 1+ +
n Sxx

Modelos lineales, parte 2


Ejemplo

Utilizando los datos y el modelo del ejemplo de los precios de venta de casas nuevas
para una sola familia, construir un intervalo de predicción de 95% para la mediana de
los precios de venta en 1980.

Año Mediana del precio de venta (x1000)


1972 (1) $27.6
1973 (2) $32.6
1974 (3) $35.9
1975 (4) $39.3
1976 (5) $44.2
1977 (6) $48.8
1978 (7) $55.7
1979 (8) $62.9

Modelos lineales, parte 2


Solución

El modelo
√ que se obtuvo fue y = 21.61 + 4.84x y se calculo que x̄ = 4.5, Sxx = 42 y
S = 2.95 = 1.72. Por lo tanto el intervalo de predicción de 95% será:

r
1 (x ∗ − x̄ )2
βˆ0 + βˆ1 x ∗ ± tα/2 S 1+ +
n Sxx
r
1 (9 − 4.5)2
= 21.61 + 4.84(9) ± (2.45)(1.72) 1+ + ⇒ 65.17 ± 5.35
8 42

Modelos lineales, parte 2


Bandas de Confianza y Predicción

Hasta el momento hemos determinado que:


Intervalo de confianza de (1 − α)100% para E [Y ] = β0 + β1 x ∗ .

r
∗ 1 (x ∗ − x̄ )2
βˆ0 + βˆ1 x ± tα/2 S +
n Sxx

donde el valor tabulado de tα/2 tiene n − 2 grados de libertad.


Intervalo de predicción de (1 − α)100% para Y cuando x = x ∗

r
1 (x ∗ − x̄ )2
βˆ0 + βˆ1 x ∗ ± tα/2 S 1+ +
n Sxx

Modelos lineales, parte 2


Por lo que al calcular el intervalo de confianza y predicción para un conjunto de nuevos
valores de X obtenemos las bandas de confianza y predicción, respectivamente.

Figure 1:

Modelos lineales, parte 2


Relación entre variables

Existen distintos tipos de formas de estudiar la relación entre dos tipos de variables.
Una de las más comunes es establecer una de tipo “causa-efecto” entre ellas. Desde el
punto de vista de variables aleatorias podemos agregar otras ideas.

Modelos lineales, parte 2


En R: Relación lineal con pendiente positiva
Relación lineal perfecta
5.0
4.5
4.0
3.5
y

3.0
2.5
2.0

0.0 0.2 0.4 0.6 0.8 1.0

x
pendiente positiva

Correlación = 0.9758752
Modelos lineales, parte 2
En R: Relación lineal con pendiente negativa
Relación lineal perfecta
2.0
1.5
1.0
0.5
y

0.0
−1.0

0.0 0.2 0.4 0.6 0.8 1.0

x
pendiente negativa

Correlación = -0.9774196
Modelos lineales, parte 2
En R: Mucho ruido
Relación lineal
6
5
4
y

3
2
1

0.0 0.2 0.4 0.6 0.8 1.0

x
Mucho ruido

Correlación = 0.5116338
Modelos lineales, parte 2
En R: Homoscedasticidad y Heterocedasticidad

Homoscedasticidad Heterocedasticidad

6
2
1

5
0
y

4
−1

3
−2
−3

0 200 600 1000 0.0 0.4 0.8

x x
varianzas son constantes varianzas no son constantes

Modelos lineales, parte 2


En R: Relación no lineal

Relación no lineal
0
−5
y

−10
−15
−20

0.0 0.2 0.4 0.6 0.8 1.0

Correlación = 0.8319741
Modelos lineales, parte 2
Ejemplo en R
Hacemos el ejemplo de la mediana de los precios de las casas en R.
x = 1:8; y = c(27.6,32.6,35.9,39.3,44.2,48.8,55.7,62.9)
mod = lm(y~x)
summary(mod)

##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.82857 -1.60893 0.00714 1.19107 2.60000
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 21.6143 1.3698 15.78 4.11e-06 ***
## x 4.8357 0.2713 17.83 2.00e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.758 on 6 degrees of freedom
## Multiple R-squared: 0.9815, Adjusted R-squared: 0.9784
## F-statistic: 317.8 on 1 and 6 DF, p-value: 2.002e-06

Modelos lineales, parte 2


Salida del Summary

Residuals: resumen estadístico de los residuos (errores).


Coefficients: Valores estimados de los coeficientes del modelo. Además, se realiza una
prueba de hipótesis (H0 : βi = 0 versus Ha : βi 6= 0 con i = 0, 1), es decir, es
significativo el coeficiente para el modelo (Ha ) o no lo es (H0 ).

Una manera fácil de realizar esta prueba es através de los asteriscos que acompañan el
p − valor , a medida que tenga más asteriscos significa que el coeficientes es más
significativo y puede ser comparado con cualquier valor de α (ver Signif. codes)

Modelos lineales, parte 2


Salida del Summary

Por otro lado, de la salida anterior,



Std.Error = S cii ,
β̂i −0
t − value = √
S cii
con n − 2 grados de liberta y
Pr (> |t|) = p − valor .
q
SEE
Residual standard error: es un promedio de los residuos del modelo n−2
.

KMultiple R-squared, Adjusted R-squared y F-statistic serán explicados mas adelante.

Modelos lineales, parte 2


El ajuste de la recta propuesta a los datos es

plot( x, y)
abline(a= mod$coefficients[1], b= mod$coefficients[2], col = 5)

60
55
50
45
y

40
35
30

1 2 3 4 5 6 7 8

x
Modelos lineales, parte 2
Análisis de los residuales

par(mfrow = c(2,2))
plot(mod)

Residuals vs Fitted Normal Q−Q


3

2.0
Standardized residuals
8 8
2
Residuals

1.0
1
0

0.0
−1.0
4
−2

6 4
6

30 35 40 45 50 55 60 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage


Standardized residuals

2.0
Standardized residuals
8
1.2

1
6
4

1.0
0.5
2 1
0.8

0.0
0.4

Cook's distance 0.5


−1.5
0.0

30 35 40 45 50 55 60 0.0 0.1 0.2 0.3 0.4

Fitted values Leverage

Modelos lineales, parte 2


Análisis de los residuales (cont. . . )

Un aspecto importante cuando se trabaja con modelos de regresión lineal es la


comprobación de las hipótesis que deben de cumplirse para poder utilizar este tipo de
modelos. Estas suposiciones hacen referencia a los residuos y pueden resumirse en los
siguientes puntos:
Normalidad de los residuos.
Independencia de los residuos.
Homocedasticidad (igualdad de las varianzas de los residuos).
Linealidad de los residuos.

Modelos lineales, parte 2


Análisis de los residuales (cont. . . )

Al aplicar la función plot sobre el objeto que contiene la información del modelo
obtenemos 4 gráficos que nos ayudan para la validación del modelo. Estos gráficos son:
Valores predichos frente a residuos.
Gráfico Q-Q de normalidad.
Valores predichos frente a raíz cuadrada de los residuos estandarizados (en valor
absoluto).
Residuos estandarizados frente a leverages.

Modelos lineales, parte 2


Análisis de los residuales (cont. . . )

par(mfrow = c(2,2))
plot(mod)

Residuals vs Fitted Normal Q−Q


3

2.0
Standardized residuals
8 8
2
Residuals

1.0
1
0

0.0
−1.0
4
−2

6 4
6

30 35 40 45 50 55 60 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage


Standardized residuals

2.0
Standardized residuals
8
1.2

1
6
4

1.0
0.5
2 1
0.8

0.0
0.4

Cook's distance 0.5


−1.5
0.0

30 35 40 45 50 55 60 0.0 0.1 0.2 0.3 0.4

Fitted values Leverage

Modelos lineales, parte 2


Análisis de los residuales (cont. . . )

Los gráficos Residuals vs Fitted y Scale- Location se utilizan para contrastar


gráficamente la independencia, la homocedasticidad y la linealidad de los residuos.
Idealmente, los residuos deben estar aleatoriamente distribuidos a lo largo del
gráfico, sin formar ningún tipo de patrón.
El gráfico Normal Q-Q por su parte, se utiliza para contrastar la normalidad de los
residuos. Lo deseable es que los residuos estandarizados estén lo más cerca posible
a la línea punteada que aparece en el gráfico. Puede suceder que en las puntas (al
inicio y final de la recta) los puntos se alejen, esto no es grave.
El gráfico de residuos estandarizados frente a leverages (residuals vs Leverage) se
utiliza para detectar puntos con una influencia importante en el cálculo de las
estimaciones de los parámetros. En caso de detectarse algún punto fuera de los
límites que establecen las líneas discontinuas debe estudiarse este punto de forma
aislada para detectar, por ejemplo, si la elevada importancia de esa observación se
debe a un error.

Los gráficos parecen indicar que los residuos son aleatorios, independientes y
homocedásticos.
Para verificar si los residuos sigan una distribución Normal, se puede realizar una prueba
de Kolmogorov-Smirnov

Modelos lineales, parte 2


Análisis de los residuales (cont. . . )

La prueba es
H0 : Los residuos provienen de una distribución Normal.
Ha : Los residuos no provienen de una distribución Normal.

ks.test(mod$residuals, "pnorm")

##
## One-sample Kolmogorov-Smirnov test
##
## data: mod$residuals
## D = 0.3194, p-value = 0.3168
## alternative hypothesis: two-sided

Como el p − valor ≮ α, es decir, 0.3168 > 0.05, se acepta la hipótesis nula de


normalidad de los residuos de los datos.
Así, el modelo
Ŷ = 21.6143 + 4.8357x ,

parece ser un buen ajuste para los datos suministrados, sin embargo, falta estudiar el R 2 .

Modelos lineales, parte 2


A continuación se presenta las bandas de predicción y confianza
xn <- data.frame(x = 9:16)
Temp1 <- predict(mod,xn,interval="prediction")
Temp2 <- predict(mod,xn,interval='confidence')
matplot(xn$x,cbind(Temp1, Temp2[,-1]), lty = c(1,2,2,3,3), type="l",
ylab="predicted", xlab = "Nuevos datos",
main="Bandas de confianza y\n predicción")

Bandas de confianza y
predicción
100
90
predicted

80
70
60

9 10 11 12 13 14 15 16

Nuevos datos
Modelos lineales, parte 2
R2

El R-cuadrado (R 2 ) es una medida estadística de qué tan cerca están los datos de la
línea de regresión ajustada. También se conoce como coeficiente de determinación, o
coeficiente de determinación múltiple si se trata de regresión múltiple.
La definición de (R 2 ) es bastante sencilla: es el porcentaje de la variación en la variable
de respuesta que es explicado por un modelo lineal. Es decir:

Variación explicada SSR SST − SSE SSE


R2 = = = =1− .
Variación total SST SST SST

Una versión más precisa del R 2 se da con el Raju


2 , donde se divide SSE y SST por sus

respectivos grados de libertad.

2 SSE/[n − (k + 1)]
Raju =1−
SST/[n − 1]

Modelos lineales, parte 2


R 2 (cont .)

El R 2 siempre está entre 0 y 100%:


0% indica que el modelo no explica ninguna porción de la variabilidad de los datos
de respuesta en torno a su media.
100% indica que el modelo explica toda la variabilidad de los datos de respuesta en
torno a su media.

En general, cuanto mayor es el R 2 , mejor se ajusta el modelo a los datos. Sin embargo,
hay condiciones importantes con respecto a esta pauta, pues se debe cumplir además
normalidad, homocedasticidad e independencia.

Modelos lineales, parte 2


R 2 (cont .)

Para los modelos simples se analiza el R 2 ajustado (Adjusted R-squared) y en el caso


multiple, el R 2 multiple (Multiple R-squared).
En el ajuste anterior, el modelo es explicado por un 97.84% (Adjusted R-squared:
0.9784).

Por lo tanto el modelo ajustado es adecuado pues se satisface: normalidad,


homocedasticidad, independencia y el modelo es explicado por un 97.84% de los daros.

Modelos lineales, parte 2


ANOVA para modelos lineales

En general, en la última fila de la salida de summary, aparecen el valor del estadístico F ,


los grados de libertad, 1 y n-k-1, y el p − valor , en este orden, del siguiente contraste
ANOVA, en este caso k e el número de variables en el modelo múltiple:

H0 : β0 = β1 = · · · = βk = 0
Ha : existe al menos un βi 6= 0

En la regresión lineal simple, este contraste es equivalente al contraste para β1 dado en


la tabla Coefficients de summary, es decir,

H0 : β1 = 0
Ha : β1 6= 0

Dicho de otra forma, tiene sentido un modelo lineal o una constante (y = β0 ) que
explique los datos?

Modelos lineales, parte 2


ANOVA para modelos lineales

En este ejemplo concreto, hay que destacar que el valor de R 2 es un valor alto.
También se puede inferir que β1 6= 0 ya que el p-valor correspondiente al contraste para
la variable x es pequeño. Observe que si β1 fuera 0, los valores de la variable y no
dependerían de los de la variable x y el modelo carecería de sentido. Por lo tanto,
hemos obtenido evidencia de que el modelo lineal puede ser válido.

En R tambié se puede usar el comando anova

anova(mod)

## Analysis of Variance Table


##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x 1 982.13 982.13 317.82 2.002e-06 ***
## Residuals 6 18.54 3.09
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Modelos lineales, parte 2


Ajustando el ejemplo del número de casos de tuberculosis solo utilizando R.

x = 1:10; y = c(26.3, 26.1, 24.7, 22.8, 22.1, 20.4, 19.0, 17.7, 19.3, 17.5)
mod2 = lm(y~x)
summary(mod2)

##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.240 -0.590 -0.040 0.625 1.420
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 27.42000 0.61349 44.70 6.93e-11 ***
## x -1.06000 0.09887 -10.72 5.04e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8981 on 8 degrees of freedom
## Multiple R-squared: 0.9349, Adjusted R-squared: 0.9268
## F-statistic: 114.9 on 1 and 8 DF, p-value: 5.036e-06

Modelos lineales, parte 2


plot( x, y)
abline(a= mod2$coefficients[1], b= mod2$coefficients[2], col = 3)

26
24
22
y

20
18

2 4 6 8 10

Modelos lineales, parte 2


Residuals vs Fitted Normal Q−Q Scale−Location
9

1.5

Standardized residuals
Standardized residuals
9 9

1.2
8

1.5
7
Residuals

0.5

0.8
0.5
−0.5

−0.5

0.4
7 7

−1.5
8
−1.5

0.0
8

18 20 22 24 26 −1.5 −0.5 0.5 1.5 18 20 22 24 26

Fitted values Theoretical Quantiles Fitted values

Bandas de confianza y
predicción
Residuals vs Leverage
2
Standardized residuals

9 1

0.5
1

10
predicted

90
0

80
70
−1

0.5
Cook's
8 distance
60

0.00 0.10 0.20 0.30 9 11 13 15

Leverage Nuevos datos

Modelos lineales, parte 2


Correlación

Hasta ahora se han trabajado problemas donde la variable independiente es de valores


fijos (año, por ejemplo), sin embargo podría ser una variable aleatoria. Entonces si
tenemos un modelo Y = β0 + β1 x + ε ahora

E [Y |X = x ] = β0 + β1 x .

Modelos lineales, parte 2


En general si suponemos que (X , Y ) es un vector aleatorio que se distribuye normal
bivariable con E (X ) = µX , E (Y ) = µY , V (X ) = σX2 , V (Y ) = σY2 y con coeficiente de
cov (X ,Y )
correlación ρ = σX σY
, entonces se puede demostrar que

σY
β1 = ρ.
σX

Modelos lineales, parte 2


Uno de los detalles más importantes sería saber si X y Y son independientes, por lo que
podemos estar interesados es en saber si ρ = 0. Sea (X1 , Y1 ), (X2 , Y2 ), ..., (Xn , Yn ) una
muestra aleatoria de una distribución normal bivariable, entonces el estimador de
máxima verosimilitud de ρ está dado por la correlación muestral

n
X
(Xi − X̄ )(Yi − Ȳ ) r
i=1 Sxy Sxx
r = s = p = βˆ1 .
n n Syy
X X Sxx Syy
(Xi − X̄ )2 (Yi − Ȳ )2
i=1 i=1

Modelos lineales, parte 2


Entonces es claro que existe una relación directa entre los estimadores de ρ y β1 , por lo
tanto probar la hipótesis nula ρ = 0 es equivalente a probar la hipótesis nula β1 = 0, y
para ello se puede usar el estadístico

βˆ1 − 0
T = √
S/ Sxx

que tiene distribución t con n − 2 grados de libertad. Se puede demostrar que es


equivalente al estadístico


r n−2
T = √
1 − r2

que por ser equivalente debe tener distribución t con n − 2 grados de libertad.

Modelos lineales, parte 2


Ejemplo

La siguiente tabla muestra la carga pico de energía eléctrica de una planta generadora
de electricidad y la temperatura alta diaria para una muestra aleatoria de 10 días.
Pruebe la hipótesis de que el coeficiente de correlación poblacional ρ entre la carga pico
de energía eléctrica y la temperatura alta es cero frente la hipótesis alternativa de que
ésta es positiva. Utilice α = 0.05. Determine el nivel de significancia alcanzado.

Día Temperatura alta Carga pico


1 95o F 214
2 82o F 152
3 90o F 156
4 81o F 129
5 99o F 254
6 100o F 266
7 93o F 210
8 95o F 204
9 93o F 213
10 87o F 150

Modelos lineales, parte 2


Solución

Se puede calcular que Sxx = 380.5, Syy = 1.92636 × 104 y Sxy = 2556, y por lo tanto

(r = Sxy/sqrt(Sxx*Syy))

## [1] 0.944093

(eT = r*sqrt(length(temp)-2)/sqrt(1-r^2))

## [1] 8.099688

En este caso lo que queremos probar es H0 : ρ = 0 frente a Ha : ρ > 0, por lo que


nuestra región de rechazo debe ser T > tα = t0.05 = 1.86 para una distribución t con 8
grados de libertad, por lo que claramente rechazamos la hipótesis nula, en favor de que
el coeficiente de correlación es positivo. Más aún el nivel de significancia es
P(t > 8.0997) = 0, es decir que solo aceptaríamos H0 para un nivel de 0.

Modelos lineales, parte 2


En R
CP = c(214,152,156,129,254,266,210,204,213,150)
temp = c(95,82,90,81,99,100,93,95,93,87)

mod3 = lm(CP ~ temp)


summary(mod3)

##
## Call:
## lm(formula = CP ~ temp)
##
## Residuals:
## Min 1Q Median 3Q Max
## -28.724 -11.811 4.929 8.645 21.016
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -419.8491 76.0578 -5.52 0.00056 ***
## temp 6.7175 0.8294 8.10 3.99e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 16.18 on 8 degrees of freedom
## Multiple R-squared: 0.8913, Adjusted R-squared: 0.8777
## F-statistic: 65.6 on 1 and 8 DF, p-value: 3.994e-05
Modelos lineales, parte 2
Residuals vs Fitted Normal Q−Q Scale−Location

2
3

Standardized residuals
Standardized residuals
2 2 2

1.2
6

1
10
6
Residuals

0.8
0
−10

0.4
10

−1
−30

0.0
3

−2
120 160 200 240 −1.5 −0.5 0.5 1.5 120 160 200 240

Fitted values Theoretical Quantiles Fitted values

Residuals vs Leverage
2

1
Standardized residuals

2
0.5
6
1
0
−1

0.5
1
3Cook's distance
−2

0.0 0.1 0.2 0.3 0.4

Leverage

Modelos lineales, parte 2


Ajuste del modelo lineal mediante matrices

Hasta ahora hemos trabajado con modelos simples, por lo que es “simple” conseguir
fórmulas cerradas para las estimaciones. Ahora para trabajar con modelos de regresión
múltiple nos apoyaremos de álgebra matricial para hacer este trabajo. Supongamos que
ahora cuando se realizan n observaciones independientes y1 , y2 , . . . , yn , y podemos
escribir a yi como:

yi = β0 + β1 xi1 + β2 xi2 + ... + βk xik + εi

donde xij es el valor de la j-ésima variable independiente de la i-ésima observación.

Modelos lineales, parte 2


Entonces se pueden definir
 y 
1

 y2 
Y = . 
. .
yn
 x x11 x12 ... x1k

0

 x0 x21 x22 ... x2k


X = .

. .. .. .. 
. . . .
x0 xn1 xn2 ... xnk
 β 
0

 β1 
β= . 
. .
βk
 ε 
1
ε2 
ε= . 

. .
εn

Modelos lineales, parte 2


Entonces de forma matricial podemos escribir las ecuaciones como:

Y = X β + ε.

Entonces se puede demostrar que las ecuaciones de mínimos cuadrados son:

(X 0 X )β̂ = X 0 Y

Y la solución para un modelo lineal general

β̂ = (X 0 X )−1 X 0 Y

Igualmente la suma de los errores cuadrados se calcula como:

SSE = Y 0 Y − β̂ 0 X 0 Y

Modelos lineales, parte 2


Además, si queremos ajustar un modelo simple, entonces se puede demostrar que

 P 
X X =0 Pn P x2i
xi xi

Así como

 P
xi2


− h
c00 c01
i
(X 0 X )−1 =  nSxx Sxx = .
x̄ 1 c10 c11

Sxx Sxx

Modelos lineales, parte 2


Ejemplo

Utilice los siguientes datos para estimar βˆ0 y βˆ1 , así como para encontrar una
estimación de σ 2 .

y x
3 -1
2 0
1 1
1 2
0.5 3

Modelos lineales, parte 2


Solución

Es fácil calcular que

 
1 −1
h i 1 0  h 5 i
1 1 1 1 1  5
X0 X =  1 1 = .
−1 0 1 2 3  5 15
1 2

1 3

Por lo tanto

h i
3/10 −1/10
(X0 X)−1 = .
−1/10 1/10

 
3
h i 2  h 15/2 i
1 1 1 1 1
X0 Y =  1 = .
−1 0 1 2 3 3/2
1
 
0.5

Modelos lineales, parte 2


Por lo tanto los estimadores son

h ih i h i
3/10 −1/10 15/2 2.1
β̂ = (X0 X)−1 X0 Y = =
−1/10 1/10 3/2 −0.6

Entonces el modelo será

y = 2.1 − 0.6x

Modelos lineales, parte 2


 
3
  2  h 2.1 i h 15/2 i
SSE = Y0 Y−β 0 X0 Y = 3 2 1 1 0.5  1 − = 0.4.
−0.6 3/2
1
 
0.5

Por lo tanto, el estimador de la varianza es

SSE 0.4
S2 = = = 0.133.
n−2 3

Modelos lineales, parte 2


Funciones adicionales para modelos lineales

Figure 2: Funciones adicionales

Modelos lineales, parte 2


Recomendaciones

Revisar las páginas web:

https://fhernanb.github.io/libro_regresion/rls.html

https://rpubs.com/joser/RegresionSimple

Modelos lineales, parte 2

También podría gustarte