Analisis de Regresion Resumen
Analisis de Regresion Resumen
Analisis de Regresion Resumen
FBA I 2011-2012
3. Coeficiente de regresión
5. El contraste de regresión
El objetivo de un modelo de regresión es tratar de explicar la relación que existe entre una
variable dependiente (variable respuesta) Y un conjunto de variables independientes (variables
explicativas) X1,..., Xn.
En un modelo de regresión lineal simple tratamos de explicar la relación que existe entre la
variable respuesta Y y una única variable explicativa X.
Ejemplo: En la muestra de la miel vamos a ver si existe relación lineal entre la acidez libre
(AcLib) y la acidez total (AcTot). Para ver si un modelo de regresión lineal tiene sentido,
comenzamos dibujando un diagrama de dispersión.
Mediante las técnicas de regresión de una variable Y sobre una variable X, buscamos una
función que sea una buena aproximación de una nube de puntos (xi,yi), mediante una curva del
tipo:
Yˆ f (X )
Y=α + β X +ε,
En donde es la ordenada en el origen (el valor que toma Y cuando X vale 0), es la pendiente
de la recta (e indica cómo cambia Y al incrementar X en una unidad) y una variable que
incluye un conjunto grande de factores, cada uno de los cuales influye en la respuesta sólo en
pequeña magnitud, a la que llamaremos error. X e Y son variables aleatorias, por lo que no se
puede establecer una relación lineal exacta entre ellas.
β = tg (ϕ )
ϕ
α
Para hacer una estimación del modelo de regresión lineal simple, trataremos de buscar una
recta de la forma:
αˆ βˆ X =+
Yˆ =+ a bX
Para esto utilizaremos el método de mínimos cuadrados. Este método consiste en minimizarla
suma de los cuadrados de los errores:
n n
∑ ∑ ( yi − yˆi )
2
=2
ie
=i 1 =i 1
Es decir, la suma de los cuadrados de las diferencias entre los valores reales observados (yi) y
los valores estimados ( yˆ i ).
Con este método, las expresiones que se obtiene para a y b son las siguientes:
S XY
a=
y − bx , b = 2
,
SX
∑x ∑y ∑( x − x ) ∑( y − y) ∑ ( xi − x )( yi − y )
2 2
i i i i
=x=i 1 =i 1
= , y = = 2
, S
X
i 1
==2
, S
Y
i 1
= =i 1
, S XY .
n n n n n
La cantidad b se denomina coeficiente de regresión de Y sobre X, lo denotamos por bY / X .
Ejemplo: Los estadísticos descriptivos anteriores para las variables AcTot y AcLib (acidez total y
acidez libre) son los siguientes:
= =
x 37.998, y 33.8727,
= =
S X2 90.786, SY2 85.459,
= =
S X 9.5282 SY 9.24439.
Para calcular la recta de regresión de X sobre Y se hace aproximando X por X̂ , del modo
X̂= a + bY
S XY
donde a=
x − by , b = 2
,
SY
3. El coeficiente de regresión
b) Si bY / X > 0 , esto nos indica que al aumentar el valor de X, también aumenta el valor de Y.
En el ajuste de regresión lineal de la acidez total sobre la acidez libre se obtenía el modelo:
Descomposición de la variabilidad:
2 2 2
yi y yˆi y yi yˆi
SCtot SCR SCres
r2
yˆi y
SCR
2 SCtot
yi y
5. El contraste de regresión
H0 : β = 0 H0 : ρ = 0
H1 : β ≠ 0 ⇔ H1 : ρ ≠ 0
En la tabla ANOVA del análisis de regresión el estadístico F nos permite realizar dicho contraste.
Ejemplo: En el modelo de regresión para explicar la Acidez Total en función de la Acidez Libre,
el análisis proporciona la siguiente tabla ANOVA:
Sr2
ANOVA
Suma de Media
cuadrados gl cuadrática F Sig.
Regres 5442.731 1 5442.73 759.92 .000
Resid 458.379 64 7.162
Total 5901.110 65
Dado que la significación (P-valor) asociada al valor del estadístico F es del 0%, rechazamos la
hipótesis nula de que β, o equivalentemente el coeficiente de correlación, sea nulo. Concluimos
pues que existe una relación de tipo lineal entre X e Y.
β = β *
Contraste H 0 : β ≠ β * Estadístico del contraste:
βˆ − β * s 1
s ( βˆ ) = r
t= que sigue bajo H 0 una t n − 2
s ( βˆ ) n sx
α = α * sr = error típico en la
Contraste H 0 : α ≠ α * estimación de la regresión(lo da el SPSS ) =
media cuadrática de los residuos
Estadístico del contraste:
αˆ − α * sr x2
t= que sigue bajo H 0 una t n − 2 s (αˆ )
= 1+ 2
s (αˆ ) n sx
Si aceptamos la hipótesis nula concluimos que no hay evidencias de que haya una
relación lineal entre las variables y el modelo, en principio, no es apropiado. Puede
haber una relación lineal en la población pero la muestra elegida no la detecta.
α 2 sr 1
IC para β : (β t n − 2
ˆ )
n sx
sr x2
IC para α : (αˆ t n − 2α 2
1+ 2 )
n sx
Nos puede interesar predecir el valor medio de la variable respuesta o bien el valor de la
variable respuesta para un valor x que no ha sido considerado en la muestra. El estimador
puntual es el mismo para las dos situaciones.
12
( x− x)
2
1
s=
( yˆ ) s r + 2 error típico de la estimación de la media de Y
n ∑ ( xi − x )
i
12
( − )
2
1 x x
( yˆ ) tαn−22s r + 2
n ∑ ( xi − x )
i
Intervalo de confianza para el valor de la respuesta para una nueva observación X=x:
12
(x − x)
2
1
( ) n−2 r
ˆ
y t α 2
s 1 + + 2
n ∑i i
( x − x )
c) Bandas de confianza
12
( − )
2
1 x x
( yˆ ) (2 F2,αn−2 )1 2s r + 2
n ∑ ( xi − x )
i
12
( − )
2
1 x x
( yˆ ) (2 F2,αn−2 )1 2s r 1 + + 2
n ∑ ( xi − x )
i
Recta ajustada
Banda de confianza
para valores medios
Banda de confianza
para cualquier Y
Riesgos de la extrapolación:
Los límites de confianza calculados mediante las expresiones anteriores son válidos únicamente
si el modelo es correcto. Un riesgo evidente de extrapolar el modelo fuera del rango de datos
mediante el cual se ha construido, es que la relación entre las variables deje de ser lineal.
Y=α + β X +ε,
por la recta
Yˆ= a + bX .
Para garantizar que esta aproximación es válida, se deben cumplir las siguientes condiciones:
3. Normalidad: para cada valor de la variable X, los residuos ei tienen distribución normal de
media cero.
Por lo tanto, para ver si un modelo de regresión lineal ajustado es válido, debemos comprobar
que se cumplen estas tres condiciones sobre los residuos.
Ejemplo. En el modelo de regresión ajustado para la acidez total sobre la acidez libre,
debemos comprobar la validez del mismo. Para eso veremos que se cumplen las hipótesis de
independencia, homocedasticidad y normalidad dos residuos.
Pruebas de normalidad
Kolmogorov-Smirnova Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Standardized ,107 66 ,061 ,959 66 ,027
Residual
a. Corrección de la significación de Lilliefors
i) Falta de independencia
Si después de efectuar la diagnosis del modelo vemos que no se cumplen algunas de sus
hipótesis básicas, podemos actuar de dos maneras:
Efectuar una transformación de los datos de manera que los datos ya cumplan todas las
hipótesis del modelo.
Buscar otro tipo de modelo de regresión que no requiera las hipótesis que se han
imcumplido, que ajuste adecuadamente a los datos y cuyas nuevas hipótesis sí sean
verificadas.
Lo más frecuente es intentar primero una transformación de los datos. Las transformaciones
más habituales son las de la familia transformaciones de Box-Cox.
Los supuestos que deben cumplirse para que el ajuste de un modelo de regresión lineal sea
adecuado son: independencia, igualdad de varianzas y normalidad de los residuos. Pero, ¿qué
ocurre cuando estos supuestos no se dan? ¿Cuál es el resultado que obtenemos?
Fijémonos en la gráfica siguiente (archivo datos_NS.sav). A simple vista, parecería que el ajuste
lineal es adecuado: la línea recta ajusta bastante bien la nube de puntos, y el coeficiente de
determinación es de 0.81.
Para un modelo de regresión lineal sobre estos datos, los resultados son los siguientes:
Veamos la normalidad:
Pruebas de normalidad
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Standardized ,136 200 ,000 ,776 200 ,000
Residual
a. Corrección de la significación de Lilliefors