4.3 Modelos - Lineales - 2 - DV

Modelos lineales, parte 2

Predicción de un valor particular de Y
Si estamos interesados en un valor de Y cuando x = x ∗ , emplearíamos Yˆ∗ = βˆ0 + βˆ1 xˆ∗

como pronosticador de un valor particular de Y ∗ y tambien como estimador de E (Y ).
Si x = x ∗ , el error en predecir un valor particular de Y ∗ , usando Yˆ∗ como el

pronosticado, es la diferencia entre el valor real de Y ∗ y el valor pronosticado:
error = Y ∗ − Yˆ∗

Se puede demostrar el error presenta distribucion normal con la siguiente media y
varianza:
E (error ) = E (Y ∗ ) − (Yˆ∗ ) = 0
Ya que, E (Yˆ∗ ) = βˆ0 + βˆ1 xˆ∗ = E (Y ∗ ).

1 (x ∗ − x̄ )2
V (error ) = V (Y ∗ ) + V (Yˆ∗ ) = σ 2 1+ +
n Sxx
.

de donde;
Y ∗ − Yˆ∗
T = q
1 (x ∗ −x̄ )2
S 1+ n
+ Sxx
tiene una distribución t-student con n − 2 grados de libertad. Por tanto, es posible
determinar un Intervalo de predicción de (1 − α)100% para Y cuando x = x ∗
r
1 (x ∗ − x̄ )2
βˆ0 + βˆ1 x ∗ ± tα/2 S 1+ +
n Sxx

Ejemplo
Utilizando los datos y el modelo del ejemplo de los precios de venta de casas nuevas
para una sola familia, construir un intervalo de predicción de 95% para la mediana de
los precios de venta en 1980.
Año Mediana del precio de venta (x1000)

1972 (1) $27.6
1973 (2) $32.6
1974 (3) $35.9
1975 (4) $39.3
1976 (5) $44.2
1977 (6) $48.8
1978 (7) $55.7
1979 (8) $62.9

Solución
El modelo
√ que se obtuvo fue y = 21.61 + 4.84x y se calculo que x̄ = 4.5, Sxx = 42 y
S = 2.95 = 1.72. Por lo tanto el intervalo de predicción de 95% será:
r
1 (x ∗ − x̄ )2
βˆ0 + βˆ1 x ∗ ± tα/2 S 1+ +
n Sxx
r
1 (9 − 4.5)2
= 21.61 + 4.84(9) ± (2.45)(1.72) 1+ + ⇒ 65.17 ± 5.35
8 42

Bandas de Confianza y Predicción
Hasta el momento hemos determinado que:

Intervalo de confianza de (1 − α)100% para E [Y ] = β0 + β1 x ∗ .
r
∗ 1 (x ∗ − x̄ )2
βˆ0 + βˆ1 x ± tα/2 S +
n Sxx
donde el valor tabulado de tα/2 tiene n − 2 grados de libertad.

Intervalo de predicción de (1 − α)100% para Y cuando x = x ∗
r
1 (x ∗ − x̄ )2
βˆ0 + βˆ1 x ∗ ± tα/2 S 1+ +
n Sxx

Por lo que al calcular el intervalo de confianza y predicción para un conjunto de nuevos
valores de X obtenemos las bandas de confianza y predicción, respectivamente.
Figure 1:

Relación entre variables
Existen distintos tipos de formas de estudiar la relación entre dos tipos de variables.
Una de las más comunes es establecer una de tipo “causa-efecto” entre ellas. Desde el
punto de vista de variables aleatorias podemos agregar otras ideas.

En R: Relación lineal con pendiente positiva
Relación lineal perfecta
5.0
4.5
4.0
3.5
y
3.0
2.5
2.0
0.0 0.2 0.4 0.6 0.8 1.0
x
pendiente positiva
Correlación = 0.9758752
En R: Relación lineal con pendiente negativa
Relación lineal perfecta
2.0
1.5
1.0
0.5
y
0.0
−1.0
0.0 0.2 0.4 0.6 0.8 1.0
x
pendiente negativa
Correlación = -0.9774196
En R: Mucho ruido
Relación lineal
6
5
4
y
3
2
1
0.0 0.2 0.4 0.6 0.8 1.0
x
Mucho ruido
En R: Homoscedasticidad y Heterocedasticidad
Homoscedasticidad Heterocedasticidad
6
2
1
5
0
y
4
−1
3
−2
−3
0 200 600 1000 0.0 0.4 0.8
x x
varianzas son constantes varianzas no son constantes

En R: Relación no lineal
Relación no lineal
0
−5
y
−10
−15
−20
0.0 0.2 0.4 0.6 0.8 1.0
Ejemplo en R
Hacemos el ejemplo de la mediana de los precios de las casas en R.
x = 1:8; y = c(27.6,32.6,35.9,39.3,44.2,48.8,55.7,62.9)
mod = lm(y~x)
summary(mod)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.82857 -1.60893 0.00714 1.19107 2.60000
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 21.6143 1.3698 15.78 4.11e-06 ***
## x 4.8357 0.2713 17.83 2.00e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.758 on 6 degrees of freedom
## Multiple R-squared: 0.9815, Adjusted R-squared: 0.9784
## F-statistic: 317.8 on 1 and 6 DF, p-value: 2.002e-06

Salida del Summary
Residuals: resumen estadístico de los residuos (errores).

Coefficients: Valores estimados de los coeficientes del modelo. Además, se realiza una
prueba de hipótesis (H0 : βi = 0 versus Ha : βi 6= 0 con i = 0, 1), es decir, es
significativo el coeficiente para el modelo (Ha ) o no lo es (H0 ).
Una manera fácil de realizar esta prueba es através de los asteriscos que acompañan el
p − valor , a medida que tenga más asteriscos significa que el coeficientes es más
significativo y puede ser comparado con cualquier valor de α (ver Signif. codes)

Salida del Summary
Por otro lado, de la salida anterior,

√
Std.Error = S cii ,
β̂i −0
t − value = √
S cii
con n − 2 grados de liberta y
Pr (> |t|) = p − valor .
q
SEE
Residual standard error: es un promedio de los residuos del modelo n−2
.
KMultiple R-squared, Adjusted R-squared y F-statistic serán explicados mas adelante.

El ajuste de la recta propuesta a los datos es
plot( x, y)
abline(a= mod$coefficients[1], b= mod$coefficients[2], col = 5)
60
55
50
45
y
40
35
30
1 2 3 4 5 6 7 8
x
Análisis de los residuales
par(mfrow = c(2,2))
plot(mod)
Residuals vs Fitted Normal Q−Q

3
2.0
Standardized residuals
8 8
2
Residuals
1.0
1
0
0.0
−1.0
4
−2
6 4
6
30 35 40 45 50 55 60 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
Fitted values Theoretical Quantiles
Scale−Location Residuals vs Leverage

2.0
8
1.2
1
6
4
1.0
0.5
2 1
0.8
0.0
0.4
Cook's distance 0.5

−1.5
0.0
30 35 40 45 50 55 60 0.0 0.1 0.2 0.3 0.4
Fitted values Leverage

Análisis de los residuales (cont. . . )
Un aspecto importante cuando se trabaja con modelos de regresión lineal es la

comprobación de las hipótesis que deben de cumplirse para poder utilizar este tipo de
modelos. Estas suposiciones hacen referencia a los residuos y pueden resumirse en los
siguientes puntos:
Normalidad de los residuos.
Independencia de los residuos.
Homocedasticidad (igualdad de las varianzas de los residuos).
Linealidad de los residuos.

Al aplicar la función plot sobre el objeto que contiene la información del modelo
obtenemos 4 gráficos que nos ayudan para la validación del modelo. Estos gráficos son:
Valores predichos frente a residuos.
Gráfico Q-Q de normalidad.
Valores predichos frente a raíz cuadrada de los residuos estandarizados (en valor
absoluto).
Residuos estandarizados frente a leverages.

par(mfrow = c(2,2))
plot(mod)
Residuals vs Fitted Normal Q−Q

3
2.0
8 8
2
Residuals
1.0
1
0
0.0
−1.0
4
−2
6 4
6
30 35 40 45 50 55 60 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
Fitted values Theoretical Quantiles
Scale−Location Residuals vs Leverage

2.0
8
1.2
1
6
4
1.0
0.5
2 1
0.8
0.0
0.4
Cook's distance 0.5

−1.5
0.0
30 35 40 45 50 55 60 0.0 0.1 0.2 0.3 0.4
Fitted values Leverage

Los gráficos Residuals vs Fitted y Scale- Location se utilizan para contrastar

gráficamente la independencia, la homocedasticidad y la linealidad de los residuos.
Idealmente, los residuos deben estar aleatoriamente distribuidos a lo largo del
gráfico, sin formar ningún tipo de patrón.
El gráfico Normal Q-Q por su parte, se utiliza para contrastar la normalidad de los
residuos. Lo deseable es que los residuos estandarizados estén lo más cerca posible
a la línea punteada que aparece en el gráfico. Puede suceder que en las puntas (al
inicio y final de la recta) los puntos se alejen, esto no es grave.
El gráfico de residuos estandarizados frente a leverages (residuals vs Leverage) se
utiliza para detectar puntos con una influencia importante en el cálculo de las
estimaciones de los parámetros. En caso de detectarse algún punto fuera de los
límites que establecen las líneas discontinuas debe estudiarse este punto de forma
aislada para detectar, por ejemplo, si la elevada importancia de esa observación se
debe a un error.
Los gráficos parecen indicar que los residuos son aleatorios, independientes y
homocedásticos.
Para verificar si los residuos sigan una distribución Normal, se puede realizar una prueba
de Kolmogorov-Smirnov

La prueba es
H0 : Los residuos provienen de una distribución Normal.
Ha : Los residuos no provienen de una distribución Normal.
ks.test(mod$residuals, "pnorm")
##
## One-sample Kolmogorov-Smirnov test
##
## data: mod$residuals
## D = 0.3194, p-value = 0.3168
## alternative hypothesis: two-sided
Como el p − valor ≮ α, es decir, 0.3168 > 0.05, se acepta la hipótesis nula de

normalidad de los residuos de los datos.
Así, el modelo
Ŷ = 21.6143 + 4.8357x ,
parece ser un buen ajuste para los datos suministrados, sin embargo, falta estudiar el R 2 .

A continuación se presenta las bandas de predicción y confianza
xn <- data.frame(x = 9:16)
Temp1 <- predict(mod,xn,interval="prediction")
Temp2 <- predict(mod,xn,interval='confidence')
matplot(xn$x,cbind(Temp1, Temp2[,-1]), lty = c(1,2,2,3,3), type="l",
ylab="predicted", xlab = "Nuevos datos",
main="Bandas de confianza y\n predicción")
Bandas de confianza y
predicción
100
90
predicted
80
70
60
9 10 11 12 13 14 15 16
Nuevos datos
R2
El R-cuadrado (R 2 ) es una medida estadística de qué tan cerca están los datos de la
línea de regresión ajustada. También se conoce como coeficiente de determinación, o
coeficiente de determinación múltiple si se trata de regresión múltiple.
La definición de (R 2 ) es bastante sencilla: es el porcentaje de la variación en la variable
de respuesta que es explicado por un modelo lineal. Es decir:
Variación explicada SSR SST − SSE SSE

R2 = = = =1− .
Variación total SST SST SST
Una versión más precisa del R 2 se da con el Raju

2 , donde se divide SSE y SST por sus
respectivos grados de libertad.
2 SSE/[n − (k + 1)]
Raju =1−
SST/[n − 1]

R 2 (cont .)
El R 2 siempre está entre 0 y 100%:

0% indica que el modelo no explica ninguna porción de la variabilidad de los datos
de respuesta en torno a su media.
100% indica que el modelo explica toda la variabilidad de los datos de respuesta en
torno a su media.
En general, cuanto mayor es el R 2 , mejor se ajusta el modelo a los datos. Sin embargo,
hay condiciones importantes con respecto a esta pauta, pues se debe cumplir además
normalidad, homocedasticidad e independencia.

R 2 (cont .)
Para los modelos simples se analiza el R 2 ajustado (Adjusted R-squared) y en el caso

multiple, el R 2 multiple (Multiple R-squared).
En el ajuste anterior, el modelo es explicado por un 97.84% (Adjusted R-squared:
0.9784).
Por lo tanto el modelo ajustado es adecuado pues se satisface: normalidad,

homocedasticidad, independencia y el modelo es explicado por un 97.84% de los daros.

ANOVA para modelos lineales
En general, en la última fila de la salida de summary, aparecen el valor del estadístico F ,

los grados de libertad, 1 y n-k-1, y el p − valor , en este orden, del siguiente contraste
ANOVA, en este caso k e el número de variables en el modelo múltiple:
H0 : β0 = β1 = · · · = βk = 0
Ha : existe al menos un βi 6= 0
En la regresión lineal simple, este contraste es equivalente al contraste para β1 dado en

la tabla Coefficients de summary, es decir,
H0 : β1 = 0
Ha : β1 6= 0
Dicho de otra forma, tiene sentido un modelo lineal o una constante (y = β0 ) que
explique los datos?

ANOVA para modelos lineales
En este ejemplo concreto, hay que destacar que el valor de R 2 es un valor alto.
También se puede inferir que β1 6= 0 ya que el p-valor correspondiente al contraste para
la variable x es pequeño. Observe que si β1 fuera 0, los valores de la variable y no
dependerían de los de la variable x y el modelo carecería de sentido. Por lo tanto,
hemos obtenido evidencia de que el modelo lineal puede ser válido.
En R tambié se puede usar el comando anova
anova(mod)
## Analysis of Variance Table

##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x 1 982.13 982.13 317.82 2.002e-06 ***
## Residuals 6 18.54 3.09
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Ajustando el ejemplo del número de casos de tuberculosis solo utilizando R.
x = 1:10; y = c(26.3, 26.1, 24.7, 22.8, 22.1, 20.4, 19.0, 17.7, 19.3, 17.5)
mod2 = lm(y~x)
summary(mod2)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## -1.240 -0.590 -0.040 0.625 1.420
##
## Coefficients:
## (Intercept) 27.42000 0.61349 44.70 6.93e-11 ***
## x -1.06000 0.09887 -10.72 5.04e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##

plot( x, y)
abline(a= mod2$coefficients[1], b= mod2$coefficients[2], col = 3)
26
24
22
y
20
18
2 4 6 8 10

Residuals vs Fitted Normal Q−Q Scale−Location
9
1.5
9 9
1.2
8
1.5
7
Residuals
0.5
0.8
0.5
−0.5
−0.5
0.4
7 7
−1.5
8
−1.5
0.0
8
18 20 22 24 26 −1.5 −0.5 0.5 1.5 18 20 22 24 26
Fitted values Theoretical Quantiles Fitted values
Bandas de confianza y
predicción
Residuals vs Leverage
2
9 1
0.5
1
10
predicted
90
0
80
70
−1
0.5
Cook's
8 distance
60
0.00 0.10 0.20 0.30 9 11 13 15
Leverage Nuevos datos

Correlación
Hasta ahora se han trabajado problemas donde la variable independiente es de valores

fijos (año, por ejemplo), sin embargo podría ser una variable aleatoria. Entonces si
tenemos un modelo Y = β0 + β1 x + ε ahora
E [Y |X = x ] = β0 + β1 x .

En general si suponemos que (X , Y ) es un vector aleatorio que se distribuye normal
bivariable con E (X ) = µX , E (Y ) = µY , V (X ) = σX2 , V (Y ) = σY2 y con coeficiente de
cov (X ,Y )
correlación ρ = σX σY
, entonces se puede demostrar que
σY
β1 = ρ.
σX

Uno de los detalles más importantes sería saber si X y Y son independientes, por lo que
podemos estar interesados es en saber si ρ = 0. Sea (X1 , Y1 ), (X2 , Y2 ), ..., (Xn , Yn ) una
muestra aleatoria de una distribución normal bivariable, entonces el estimador de
máxima verosimilitud de ρ está dado por la correlación muestral
n
X
(Xi − X̄ )(Yi − Ȳ ) r
i=1 Sxy Sxx
r = s = p = βˆ1 .
n n Syy
X X Sxx Syy
(Xi − X̄ )2 (Yi − Ȳ )2
i=1 i=1

Entonces es claro que existe una relación directa entre los estimadores de ρ y β1 , por lo
tanto probar la hipótesis nula ρ = 0 es equivalente a probar la hipótesis nula β1 = 0, y
para ello se puede usar el estadístico
βˆ1 − 0
T = √
S/ Sxx
que tiene distribución t con n − 2 grados de libertad. Se puede demostrar que es

equivalente al estadístico
√
r n−2
T = √
1 − r2
que por ser equivalente debe tener distribución t con n − 2 grados de libertad.

Ejemplo
La siguiente tabla muestra la carga pico de energía eléctrica de una planta generadora
de electricidad y la temperatura alta diaria para una muestra aleatoria de 10 días.
Pruebe la hipótesis de que el coeficiente de correlación poblacional ρ entre la carga pico
de energía eléctrica y la temperatura alta es cero frente la hipótesis alternativa de que
ésta es positiva. Utilice α = 0.05. Determine el nivel de significancia alcanzado.
Día Temperatura alta Carga pico

1 95o F 214
2 82o F 152
3 90o F 156
4 81o F 129
5 99o F 254
6 100o F 266
7 93o F 210
8 95o F 204
9 93o F 213
10 87o F 150

Solución
Se puede calcular que Sxx = 380.5, Syy = 1.92636 × 104 y Sxy = 2556, y por lo tanto
(r = Sxy/sqrt(Sxx*Syy))
## [1] 0.944093
(eT = r*sqrt(length(temp)-2)/sqrt(1-r^2))
## [1] 8.099688
En este caso lo que queremos probar es H0 : ρ = 0 frente a Ha : ρ > 0, por lo que

nuestra región de rechazo debe ser T > tα = t0.05 = 1.86 para una distribución t con 8
grados de libertad, por lo que claramente rechazamos la hipótesis nula, en favor de que
el coeficiente de correlación es positivo. Más aún el nivel de significancia es
P(t > 8.0997) = 0, es decir que solo aceptaríamos H0 para un nivel de 0.

En R
CP = c(214,152,156,129,254,266,210,204,213,150)
temp = c(95,82,90,81,99,100,93,95,93,87)
mod3 = lm(CP ~ temp)

summary(mod3)
##
## Call:
## lm(formula = CP ~ temp)
##
## Residuals:
## -28.724 -11.811 4.929 8.645 21.016
##
## Coefficients:
## (Intercept) -419.8491 76.0578 -5.52 0.00056 ***
## temp 6.7175 0.8294 8.10 3.99e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
Residuals vs Fitted Normal Q−Q Scale−Location
2
3
2 2 2
1.2
6
1
10
6
Residuals
0.8
0
−10
0.4
10
−1
−30
0.0
3
−2
120 160 200 240 −1.5 −0.5 0.5 1.5 120 160 200 240
Fitted values Theoretical Quantiles Fitted values
Residuals vs Leverage
2
1
2
0.5
6
1
0
−1
0.5
1
3Cook's distance
−2
0.0 0.1 0.2 0.3 0.4
Leverage

Ajuste del modelo lineal mediante matrices
Hasta ahora hemos trabajado con modelos simples, por lo que es “simple” conseguir
fórmulas cerradas para las estimaciones. Ahora para trabajar con modelos de regresión
múltiple nos apoyaremos de álgebra matricial para hacer este trabajo. Supongamos que
ahora cuando se realizan n observaciones independientes y1 , y2 , . . . , yn , y podemos
escribir a yi como:
yi = β0 + β1 xi1 + β2 xi2 + ... + βk xik + εi
donde xij es el valor de la j-ésima variable independiente de la i-ésima observación.

Entonces se pueden definir
 y 
1
 y2 
Y = . 
. .
yn
 x x11 x12 ... x1k

0
 x0 x21 x22 ... x2k

X = .

. .. .. .. 
. . . .
x0 xn1 xn2 ... xnk
 β 
0
 β1 
β= . 
. .
βk
 ε 
1
ε2 
ε= . 

. .
εn

Entonces de forma matricial podemos escribir las ecuaciones como:
Y = X β + ε.
Entonces se puede demostrar que las ecuaciones de mínimos cuadrados son:
(X 0 X )β̂ = X 0 Y
Y la solución para un modelo lineal general
β̂ = (X 0 X )−1 X 0 Y
Igualmente la suma de los errores cuadrados se calcula como:
SSE = Y 0 Y − β̂ 0 X 0 Y

Además, si queremos ajustar un modelo simple, entonces se puede demostrar que
P
X X =0 Pn P x2i
xi xi
Así como
 P
xi2

x̄
− h
c00 c01
i
(X 0 X )−1 =  nSxx Sxx = .
x̄ 1 c10 c11
−
Sxx Sxx

Ejemplo
Utilice los siguientes datos para estimar βˆ0 y βˆ1 , así como para encontrar una
estimación de σ 2 .
y x
3 -1
2 0
1 1
1 2
0.5 3

Solución
Es fácil calcular que
 
1 −1
h i 1 0  h 5 i
1 1 1 1 1  5
X0 X =  1 1 = .
−1 0 1 2 3  5 15
1 2

1 3
Por lo tanto
h i
3/10 −1/10
(X0 X)−1 = .
−1/10 1/10
 
3
h i 2  h 15/2 i
1 1 1 1 1
X0 Y =  1 = .
−1 0 1 2 3 3/2
1
 
0.5

Por lo tanto los estimadores son
h ih i h i
3/10 −1/10 15/2 2.1
β̂ = (X0 X)−1 X0 Y = =
−1/10 1/10 3/2 −0.6
Entonces el modelo será
y = 2.1 − 0.6x

 
3
 2  h 2.1 i h 15/2 i
SSE = Y0 Y−β 0 X0 Y = 3 2 1 1 0.5  1 − = 0.4.
−0.6 3/2
1
 
0.5
Por lo tanto, el estimador de la varianza es
SSE 0.4
S2 = = = 0.133.
n−2 3

Funciones adicionales para modelos lineales
Figure 2: Funciones adicionales

Recomendaciones
Revisar las páginas web:
https://fhernanb.github.io/libro_regresion/rls.html
https://rpubs.com/joser/RegresionSimple

4.3 Modelos - Lineales - 2 - DV

Cargado por

Copyright:

Formatos disponibles

4.3 Modelos - Lineales - 2 - DV

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

4.3 Modelos - Lineales - 2 - DV

Cargado por

Copyright:

Formatos disponibles

Modelos lineales, parte 2

Modelos lineales, parte 2

Si estamos interesados en un valor de Y cuando x = x ∗ , emplearíamos Yˆ∗ = βˆ0 + βˆ1 xˆ∗

Si x = x ∗ , el error en predecir un valor particular de Y ∗ , usando Yˆ∗ como el

Modelos lineales, parte 2

Ya que, E (Yˆ∗ ) = βˆ0 + βˆ1 xˆ∗ = E (Y ∗ ).

Modelos lineales, parte 2

Modelos lineales, parte 2

Año Mediana del precio de venta (x1000)

Modelos lineales, parte 2

Modelos lineales, parte 2

Hasta el momento hemos determinado que:

donde el valor tabulado de tα/2 tiene n − 2 grados de libertad.

Modelos lineales, parte 2

Modelos lineales, parte 2

Modelos lineales, parte 2

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0

0.0 0.2 0.4 0.6 0.8 1.0

0 200 600 1000 0.0 0.4 0.8

Modelos lineales, parte 2

0.0 0.2 0.4 0.6 0.8 1.0

Modelos lineales, parte 2

Residuals: resumen estadístico de los residuos (errores).

Modelos lineales, parte 2

Por otro lado, de la salida anterior,

KMultiple R-squared, Adjusted R-squared y F-statistic serán explicados mas adelante.

Modelos lineales, parte 2

Residuals vs Fitted Normal Q−Q

30 35 40 45 50 55 60 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage

Cook's distance 0.5

30 35 40 45 50 55 60 0.0 0.1 0.2 0.3 0.4

Fitted values Leverage

Modelos lineales, parte 2

Un aspecto importante cuando se trabaja con modelos de regresión lineal es la

Modelos lineales, parte 2

Modelos lineales, parte 2

Residuals vs Fitted Normal Q−Q

30 35 40 45 50 55 60 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage

Cook's distance 0.5

30 35 40 45 50 55 60 0.0 0.1 0.2 0.3 0.4

Fitted values Leverage

Modelos lineales, parte 2

Los gráficos Residuals vs Fitted y Scale- Location se utilizan para contrastar

Modelos lineales, parte 2

Como el p − valor ≮ α, es decir, 0.3168 > 0.05, se acepta la hipótesis nula de

Modelos lineales, parte 2

Variación explicada SSR SST − SSE SSE

Una versión más precisa del R 2 se da con el Raju

respectivos grados de libertad.

Modelos lineales, parte 2

El R 2 siempre está entre 0 y 100%:

Modelos lineales, parte 2

Para los modelos simples se analiza el R 2 ajustado (Adjusted R-squared) y en el caso