Curso Ana Regres 2
Curso Ana Regres 2
Curso Ana Regres 2
ANÁLISIS DE REGRESIÓN
Marzo, 2007
1
Análisis de Regresión P. Reyes / Enero, 2007
CONTENIDO
4. TÓPICOS ADICIONALES
4.1 Calibración
4.2 Variables independientes cualitativas
4.3 Autocorrelación
4.4 Algunos usos interesantes de la regresión
2
Análisis de Regresión P. Reyes / Enero, 2007
1.1 Introducción
Parece que Sir Francis Galton (1822-1911) un antropólogo y metereológo británico fue
responsable de la introducción de la palabra “regresión”, mostró que si Y = “estatura
de los niños” y X = “estatura de los padres”, una ecuación de ajuste adecuada era
__ __
^ 2
Y Y ( X X ) . El artículo de Galton es fascinante como se cuenta en The Story of
3
the Statistics1, el método de mínimos cuadrados aparentemente fue descubierto por
Carl Frederick Gauss (1777-1855)2.
1
Stigler, S.M., The Story of the Statistics, Belknap Press, Harvard University, 1986, pp. 294-299
2
Placket, R.L., “Studies in the history of the probability and Statistics XXIX. The discovery of the method of
least squares,”, Bometrika, 59, 1972, pp. 239-251.
3
Análisis de Regresión P. Reyes / Enero, 2007
Control.
Y
*
* *
*** *
*** **
***
X
Y 0 1 X (1.1)
4
Análisis de Regresión P. Reyes / Enero, 2007
E ( y | x ) 0 1 x (1.1 a)
y su varianza es:
V ( y | x ) V ( 0 1 x ) 2 (1.1b)
n
S ( 0 , 1 ) ( yi 0 1 xi ) 2
i 1
Los estimadores de mínimos cuadrados de 0 y 1 por decir ˆ0 , ˆ1 debe satisfacer
es:
5
Análisis de Regresión P. Reyes / Enero, 2007
S n
2 ( yi 0 1 xi ) 0
0 ˆ0 , ˆ1 i 1
y
S n
2 ( yi 0 1 xi ) xi 0
1 ˆ0 , ˆ1 i 1
n n n
ˆ0 xi ˆ1 x 2 i yi xi
i 1 i 1 i 1
n n
xi yi
yi xi i 1 i 1
n
n
̂1 i 1
2
n
xi
x i i 1
n
i 1
2
n
Donde los promedios para X y para Y son los siguientes::
1 n 1 n
y yi
n i 1
x xi
n i 1
Aplicando el método de mínimos cuadrados del error, se obtiene el modelo que nos
da un valor estimado Y en función de X, denominado ecuación de predicción o de
regresión lineal, como sigue:
b0 ˆ 0
b1 ˆ1
6
Análisis de Regresión P. Reyes / Enero, 2007
^
Y b0 b1 X (1.2)
Donde:
n __ __
S xy X iYi n X Y
b1 i 1
(1.3)
S xx n __ 2
X
i 1
i
2
nX
__ __
b0 Y b1 X (1.4)
por tanto:
^ __ __
Y Y b1 ( X X ) (1.5)
__ __ __
Cuando X X se tiene el punto ( X ,Y ) que se encuentra en la línea ajustada y
representa el centro de gravedad de los datos.
Y X
10.98 35.3
11.13 29.7
12.51 30.8
8.4 58.8
9.27 61.4
8.73 71.3
6.36 74.4
8.5 76.7
7.82 70.7
9.14 57.5
8.24 46.4
12.19 28.9
11.88 28.1
7
Análisis de Regresión P. Reyes / Enero, 2007
9.57 39.1
10.94 46.8
9.58 48.5
10.09 59.3
8.11 70
6.83 70
8.88 74.5
7.68 72.1
8.47 58.1
8.86 44.6
10.36 33.4
11.08 28.6
8
Análisis de Regresión P. Reyes / Enero, 2007
El análisis de varianza es una herramienta que sirve para probar la adecuación del
modelo de regresión, para lo cual es necesario calcular las sumas de cuadrados
correspondientes.
SS E S b1 S XY
S2 YY (1.7)
n2 n2
Donde:
2
n
Yi
Yi i 1
n
2
SYY (1.8)
i 1 n
9
Análisis de Regresión P. Reyes / Enero, 2007
n n
n X i Yi
S XY X iYi i 1 i 1
(1.9)
i 1 n
^
La expresión ei Yi Y i es el residuo que expresa la diferencia entre el valor
Donde:
^ __ ^ __
Yi Y i Yi Y (Y i Y ) (1.10)
Yi
^ ei
__
Yi Yi Y
_
Y
línea ajustada
^
Y b0 b1 x
X
Xi
__
La cantidad (Yi Y ) es la desviación de la observación i-ésima respecto a la media.
__ ^ __ ^
(Yi Y ) 2 (Y i Y ) 2 (Yi Y i ) 2 (1.11)
10
Análisis de Regresión P. Reyes / Enero, 2007
Fuente df SS MS = SS/df Fc
Regresión 1 SSR b1S XY MS REG MSreg/s2 =MSreg/MSE
donde:
__
2
S XY (( X i X )Yi ) 2 (1.12)
__ __ 2
S XX ( X i X ) X n X
2
i
2
(1.13)
En este caso Fc = 45.5924 / 0.7923 = 57.24 y F de tablas F(1, 23, 0.95) es igual a
4.28, por tanto se rechaza H0 aceptando que existe una ecuación de regresión.
El área de la cola de Fc está descrita por el valor de p que debe ser menor o igual al
valor de , en este caso es casi cero.
11
Análisis de Regresión P. Reyes / Enero, 2007
1/ 2
__ 2
1 X
se(b0 ) MSE
X i2
S (1.14)
n ( X i X )
__
n S XX 2
MSE S
se(b1 ) (1.15)
S XX S XX
0.792
se(b1 ) 0.0105
7154.42
__ 2
^ 1 X
0 t a / 2 ,n 2 MSE (1.16)
n S XX
1/ 2
1
b0 t ( n 2,1 )
X i2 S (1.16a)
2 n (X X __
2
i )
12
Análisis de Regresión P. Reyes / Enero, 2007
1
t ( n 2,1 ). S
b1 2 (1.17)
__
i )2
( X X
(n 2) MSE / 2
( n 2) MSE
P 12 / 2,n 2 2 / 2,n 2 1
2
(n 2) MSE (n 2) MSE
2 (1.18)
/ 2 ,n 2
2
12 / 2,n 2
13
Análisis de Regresión P. Reyes / Enero, 2007
^
E (Y | X 0 ) Y0 b0 b1 X 0 (1.19)
^ MSE 1 ( x0 x ) 2
Y0 t a / 2,n2 (1.20b)
S XX n S xx
La variable aleatoria,
Y0 Yˆ0
14
Análisis de Regresión P. Reyes / Enero, 2007
__
1 ( X X )2
V ( ) 1
2 0
n S XX
__
2 __
1 ( X X ) 1 ( X X )2
Yˆ0 t / 2,n 2 MSE 1 0 ˆ
Y0 Y0 t / 2,n 2 MSE 1 0
(1.21
n S XX n S XX
Se puede generalizar para encontrar un intervalo de predicción del 100(1-)
porciento para la media de m observaciones futuras en X = Xo. Sea Ymedia la media
de las observaciones futuras en X = Xo. El intervalo de predicción estimado es:
__
2 __
1 1 ( X X ) 1 1 ( X X )2
Yˆ0 t / 2,n2 MSE 0 ˆ
Y0 Y0 t / 2,n2 MSE 0
m n S XX m n S XX
b0
t (1.22)
se(b0 )
15
Análisis de Regresión P. Reyes / Enero, 2007
b1
t0 para ( / 2, n 2) grados de libertad (1.23)
MSE
S XX
regresión lineal.
Del ejemplo:
b1 0.798
t 7.60
se(b1 ) 0.0105
Para una estimación conjunta de Beta0 y Beta1 en una región donde estemos
seguros con 100(1-alfa) porciento de que ambos estimados son correctos es:
n n
n( ˆ0 0 ) 2 2 xi ( ˆ0 0 )( ˆ1 1 ) x 2 i ( ˆ1 1 )
i 1 i 1
F , 2,n2
2MSE
16
Análisis de Regresión P. Reyes / Enero, 2007
Donde u , 2,n 2 es el punto de la cola superior alfa de la distribución del valor máximo
absoluto de dos variables aleatorias t-student cada una basada en n-2 grados de
libertad. Estos dan intervalos más cortos. Para el caso de alfa = 0.10, m=2,n=18 se
tiene de tablas (A.8):
t /(2 m ),n2 t0.025,18 2.101
^ 1 ( x x )2
E (Y X i ) YXi MSE i
n S xx
Note que los intervalos del máximo módulo t son más angostos que los de
Bonferroni. Sin embargo cuando m > 2 los intervalos de máximo módulo t se siguen
ampliando mientras que los de Bonferroni no dependen de m.
^ 1 ( x x )2
y xi YXi MSE 1 i
n S xx
17
Análisis de Regresión P. Reyes / Enero, 2007
1.2.10 Correlación
Las discusiones anteriores de análisis de regresión han asumido que X es una variable
controlable medida con un error despreciable y que Y es una variable aleatoria.
Muchas aplicaciones de análisis de regresión involucran situaciones donde tanto X
como Y son variables aleatorias y los niveles de X no pueden ser controlados. En este
caso se asume que las observaciones (Xi, Yi), i=1, 2,…,n son variables aleatorias
distribuidas conjuntamente. Por ejemplo suponiendo que se desea establecer la
relación entre los refrescos vendidos y la temperatura del día. Se asume que la
distribución conjunta de Y y X es la distribución normal divariada, que es:
1
1 y 2 x 2 y 1 x 2
2 2
f ( x, y ) exp 1
2
2 p
21 2 2(1 p ) 1 2
2
1 2
Donde 1 y 12 corresponden a la media y la varianza de Y, y 2 y 22 corresponden
a la media y la varianza de X y
E ( y 1 )( x 2 ) 12
1 2 1 2
Es el coeficiente de correlación entre Y y X. 12 es la covarianzade Y y X.
La distribución condicional de Y para un valor de X es:
1 1 y x 2
f ( y x) exp 0 1
212 2 12
Donde:
1
0 1 2
2
1
1
2
212 12 (1 2 )
La correlación es el grado de asociación que existe las variables X y Y, se indica por
el estadístico cuyo estimador es el coeficiente de correlación de la muestra r ó rxy.
Donde:
18
Análisis de Regresión P. Reyes / Enero, 2007
S XY
r (1.24)
S XX SYY
1/ 2
S
b1 YY r (1.25)
S XX
R2
( SS .de.la.regresión. por.b0 )
(Y Y ) 2
SSR
1
SSE
(1.27)
__
( SSTotal.corregido. para.la.media)
(Y Y )
i
2 Syy SYY
En el ejemplo:
R-Sq = 71.4% R-Sq(adj) = 70.2%
19
Análisis de Regresión P. Reyes / Enero, 2007
r n2
t0 (1.28)
1 r2
que sigue una distribución t con n-2 grados de libertad. Si t0 t / 2,n2 se rechaza la
Ho: = 0
H1: 0
0.9646 25 2
t0 17.55
1 0.9305
1 1 r
Z arctanh( r ) ln (1.29)
2 1 r
Con media
20
Análisis de Regresión P. Reyes / Enero, 2007
Z arctanh( )
y desviación estándar
1
Z2
n3
y rechazar si Z 0 Z / 2
Obteniéndose
1 1 r 1 1 0
z ( n 3)1 / 2 ln( ) ln( ) (1.31)
2 1 r 2 1 0
Z Z
tanh arctanhr / 2 tanh arctanhr / 2 (1.32)
n3 n3
21
Análisis de Regresión P. Reyes / Enero, 2007
1.92 1.96
tanh 2.0082 tanh 2.0082
22 22
1 1 r 1 1 1
1/ 2
ln z 1 ln (1.33)
2 1 r 2 n 3 2 1
22
Análisis de Regresión P. Reyes / Enero, 2007
Hay varios abusos comunes en el uso de la regresión que deben ser mencionados:
* *
* * * Sin A y B
* * * *
*B
X
Fig. 1.3 Dos observaciones con mucha influencia (A,B)
23
Análisis de Regresión P. Reyes / Enero, 2007
Y
*A *
* * *
**
* * *
** *
**
* * *
**
* *
24
Análisis de Regresión P. Reyes / Enero, 2007
Y 1 X
Dadas n observaciones (Yi, Xi), i = 1, 2, …., n, la función de mínimos cuadrados:
n
S ( 1 ) ( yi 1 xi ) 2
i 1
yx i i
̂1 i 1
n
x
i 1
2
i
yˆ ̂ i x
SS E SYY b1S XY y 2
i ˆ1 yi xi
2 MSE i 1 i 1
n 1 n 1 n 1
El intervalo de confianza (1-alfa) porciento para el coeficiente Beta1 es:
^ MSE MSE
1 t a / 2,n1 n
donde el error estándar es: se( ˆ1 ) n
xi2
i 1
x
i 1
2
i
x
i 1
2
i
25
Análisis de Regresión P. Reyes / Enero, 2007
2
MSE 1 n 0
^ x
Y0 t a / 2,n2
xi
2
i 1
Ambos el intervalo de confianza y el intervalo de predicción se amplían conforme se
incrementa Xo. El modelo asume que cuando Xo = 0, Y = 0.
Ejemplo 1.3
El tiempo requerido por un tendero para surtir su negocio de refrescos así como el
número de envases colocados se muestra en la siguiente tabla. En este caso si el
número de envases X = 0 entonces el tiempo Y = 0.
Tiempo Minutos Envases
Y X XY X2
10.15 25 253.75 625
2.96 6 17.76 36
3 8 24 64
6.88 17 116.96 289
0.28 2 0.56 4
5.06 13 65.78 169
9.14 23 210.22 529
11.86 30 355.8 900
11.69 28 327.32 784
6.04 14 84.56 196
7.57 19 143.83 361
1.74 4 6.96 16
9.38 24 225.12 576
0.16 1 0.16 1
1.84 5 9.2 25
Suma 1841.98 4575
26
Análisis de Regresión P. Reyes / Enero, 2007
Regression Plot
Y = -0.0937558 + 0.407107 X
10
Y
Regression
95% CI
0 10 20 30
yx i i
1841.98
ˆ1 i 1
n
0.4026
x 2 4575.00
i
i 1
yˆ 0.4026
MSE = 0.0893
27
Análisis de Regresión P. Reyes / Enero, 2007
Ro2 = 0.9883
El estadístico t para la prueba Ho: 1 = 0 es to = 91.13, por tanto el coeficiente es
significativo a un alfa de 0.01.
yˆ 0.0938 0.4026
28
Análisis de Regresión P. Reyes / Enero, 2007
Ejemplo 1.2:
Un motor se fabrica con dos partes. La resistencia al corte entre las dos partes (Y) es
una característica importante de calidad que se sospecha es función de la antigüedad
del propelente (X). Los datos se muestran a continuación:
Y X
2158.70 15.50
1678.15 23.75
2316.00 8.00
2061.30 17.00
2207.50 5.50
1708.30 19.00
1784.70 24.00
2575.00 2.50
2357.90 7.50
2256.70 11.00
2165.20 13.00
2399.55 3.75
1779.80 25.00
2336.75 9.75
1765.30 22.00
2053.50 18.00
2414.40 6.00
2200.50 12.50
2654.20 2.00
1753.70 21.50
Diagrama de dispersión
29
Análisis de Regresión P. Reyes / Enero, 2007
2600
Y
2100
1600
0 5 10 15 20 25
X
La figura sugiere que hay una relación estadística entre la resistencia al corte y
la antigüedad del propelente, y el supuesto de relación lineal parece ser razonable,
para estimar los parámetros del modelo se calcula Sxx y Sxy:
Sumas de cuadrados
Los cálculos en Excel son los siguientes:
Yi(Xi-
Y X Dif X¨2 Dif Y¨2 Xprom)
2158.70 15.50 4.57 747.61 4614.22
1678.15 23.75 107.90 205397.04 17431.78
2316.00 8.00 28.76 34092.85 -12419.55
2061.30 17.00 13.23 4908.05 7497.98
2207.50 5.50 61.82 5797.68 -17356.47
1708.30 19.00 31.78 178977.65 9630.54
1784.70 24.00 113.16 120171.42 18984.75
2575.00 2.50 117.99 196818.67 -27970.94
2357.90 7.50 34.37 51321.50 -13823.19
2256.70 11.00 5.58 15710.74 -5331.45
2165.20 13.00 0.13 1145.31 -784.89
2399.55 3.75 92.40 71927.22 -23065.67
1779.80 25.00 135.43 123592.68 20712.42
2336.75 9.75 13.05 42186.08 -8441.51
1765.30 22.00 74.61 133998.09 15247.78
2053.50 18.00 21.51 6061.79 9523.11
2414.40 6.00 54.21 80113.06 -17776.02
30
Análisis de Regresión P. Reyes / Enero, 2007
n __ 2
S xx X i2 n X = 1106.56
i 1
n __ 2
S yy Yi n Y = 1693737.60
2
i 1
n __
S xy X iYi n X Y = -41112.65
i 1
S xy X iYi n X Y
b1 i 1
=
S xx n __ 2
X
i 1
i
2
nX
S xy 41112.65
b1 37.15
S xx 1106.56
La constante bo se determina como sigue:
__ __
b0 Y b1 X = 21131.35
yˆ 2627.82 37.15
Y FITS1 RESI1
2158.70 2051.94 106.758
31
Análisis de Regresión P. Reyes / Enero, 2007
Propiedades de la regresión
Hay varias propiedades útiles del ajuste de mínimos cuadrados:
1. La suma de los residuos en cualquier modelo de regresión es siempre cero.
n n
( yi yˆ i ) ei 0
i 1 i 1
yi yˆ i
i 1 i 1
xe
i 1
i i 0
32
Análisis de Regresión P. Reyes / Enero, 2007
ye
i 1
i i 0
y (x i i x)
S xy
̂1 i 1
n
(x
S xx
i x )2
i 1
yˆ y ˆ1 ( x x )
En este caso el origen de los datos Xi se encuentra en su media,
33
Análisis de Regresión P. Reyes / Enero, 2007
b1
t0 para ( / 2, n 2) grados de libertad (1.23)
MSE
S XX
37.15
t0 3.029
166402.65
1106.56
regresión lineal.
Análisis de varianza
De
SSR b1S XY =(-37.15)(-41,112.65)=1,527,334.95
SSE SSYY b1S XY =166,402.65
Para probar la hipótesis Ho: 1=0 se usa el ANOVA con el estadístico Fo como sigue:
34
Análisis de Regresión P. Reyes / Enero, 2007
9244.59
se( ˆ1 ) 2.89
1106.56
El intervalo de confianza para el 95% donde se encuentra el valor verdadero del
coeficiente Beta1 es:
^
1 2.101* 2.89
43 22 1 31.08
35
Análisis de Regresión P. Reyes / Enero, 2007
^ 1 ( x0 x ) 2
Y0 t a / 2,n2 MSE
n S xx
^ 1 ( x0 13.3625) 2
Y0 (2.101) 9244.59
20 1106 .56
En Xo = 13.3625 se tiene:
2086.23 E ( y 13.3625) 2176.571
Regression Plot
Y = 2627.82 - 37.1536 X
2600
Y
2100
Regression
95% CI
1600
0 5 10 15 20 25
36
Análisis de Regresión P. Reyes / Enero, 2007
24 1657.35 1814.92
__
2 __
1 ( X X ) 1 ( X X )2
Yˆ0 t / 2,n 2 MSE 1 0 Y0 Yˆ0 t / 2,n 2 MSE 1 0
n S XX n S XX
Para el ejemplo, un intervalo de predicción del 95% para un valor futuro de la
resistencia al corte Y con un propelente de 10 semanas de antigüedad es:
1 (10 13.3625) 2
2256.32 (2.101) 9244.591 Y0
20 1106.56
1 (10 13.3625) 2
2256.32 (2.101) 9244.591
20 1106.56
que se simplifica a:
2048.32 y0 2464.32
37
Análisis de Regresión P. Reyes / Enero, 2007
Es el límite de la elipse.
Beta 0
Beta 1
38
Análisis de Regresión P. Reyes / Enero, 2007
Sea Xi = 10 y 18, los estimadores puntuales de estas observaciones futuras son Yest
x1 = 2256.282 psi y Yest x2 = 1959.050 psi, respectivamente. Para la regresión lineal
simple y m = 2 se tiene:
^ 1 ( xi x ) 2
y xi YXi MSE 1
n S xx
Coeficiente de determinación
Con los datos del ejemplo para la suma de cuadrados de la regresión y la suma de
cuadrados total se tiene:
SSR 1,527.334.95
R 2 0.9018
Syy 1,693,737.60
39
Análisis de Regresión P. Reyes / Enero, 2007
2.1 Introducción
Los principales supuestos que se hacen en el análisis de regresión lineal son los
siguientes:
1. La relación entre las variables Y y X es lineal, o al menos bien aproximada por una
línea recta.
2. El término de error tiene media cero.
3. El término de error tiene varianza constante 2.
4. Los errores no están correlacionados.
5. Los errores están normalmente distribuidos.
Los supuestos 4 y 5 implican que los errores son variables aleatorias independientes
y el supuesto 5 se requiere para pruebas de hipótesis y estimación de parámetros.
donde Yi son las observaciones reales y Y-gorro los valores estimados con la recta de
regresión.
Como los residuos son las diferencias entre las observaciones reales y las predichas
o estimadas, son una medida de la variabilidad no explicada por el modelo de
40
Análisis de Regresión P. Reyes / Enero, 2007
n __ 2 n
(ei e ) e i
2
SS E
i 1
i 1
MS E (2.2)
n2 n2 n2
En algunos casos es mejor trabajar con residuos estandarizados, que tienen media
cero y varianza unitaria aproximada.
ei
di ,....1 1,2,....., n (2.3)
MS E
Para el caso de n pequeña, donde se pueden tener diferencias apreciables en las
varianzas de los residuos, un método más apropiado de escalamiento es el de los
residuos estudentizados , donde se toma en cuenta la varianza de cada uno en lugar
de un promedio de las varianzas como en los residuos estandarizados. Para n grande,
ambos residuos son muy parecidos.
ei
ri , i = 1, 2, ........, n (2.4)
1 ( X X )2
MSE 1 i
n S XX
41
Análisis de Regresión P. Reyes / Enero, 2007
Observaciónes
Respuesta
Obs Yi X Fit SE Fit Residual St Residual
1 35.3 10.98 10.805 0.255 0.175 0.21
2 29.7 11.13 11.252 0.3 -0.122 -0.15
3 30.8 12.51 11.164 0.29 1.346 1.6
4 58.8 8.4 8.929 0.19 -0.529 -0.61
5 61.4 9.27 8.722 0.201 0.548 0.63
6 71.3 8.73 7.931 0.265 0.799 0.94
7 74.4 6.36 7.684 0.29 -1.324 -1.57
8 76.7 8.5 7.5 0.31 1 1.2
9 70.7 7.82 7.979 0.261 -0.159 -0.19
10 57.5 9.14 9.033 0.185 0.107 0.12
11 46.4 8.24 9.919 0.19 -1.679 -1.93
12 28.9 12.19 11.316 0.306 0.874 1.05
13 28.1 11.88 11.38 0.313 0.5 0.6
14 39.1 9.57 10.502 0.228 -0.932 -1.08
15 46.8 10.94 9.887 0.188 1.053 1.21
16 48.5 9.58 9.751 0.183 -0.171 -0.2
17 59.3 10.09 8.889 0.191 1.201 1.38
18 70 8.11 8.035 0.255 0.075 0.09
19 70 6.83 8.035 0.255 -1.205 -1.41
20 74.5 8.88 7.676 0.291 1.204 1.43
21 72.1 7.68 7.867 0.272 -0.187 -0.22
22 58.1 8.47 8.985 0.187 -0.515 -0.59
23 44.6 8.86 10.063 0.197 -1.203 -1.39
24 33.4 10.36 10.957 0.269 -0.597 -0.7
25 28.6 11.08 11.34 0.309 -0.26 -0.31
42
Análisis de Regresión P. Reyes / Enero, 2007
43
Análisis de Regresión P. Reyes / Enero, 2007
Se sugiere utilizar los residuos estandarizados, ya que son útiles para evaluar
normalidad, es decir que habrá normalidad si el 68% de los mismos se encuentran
entre –1 y +1 y el 95% entre –2 y +2, de otra forma habrá una violación de la
normalidad.
^
La gráfica de residuos contra los valores estimados y i puede identificar patrones
anormales o no lineales, indicando que tal vez se requiera agregar otra variable
regresora al modelo, o se requiera transformar las variables regresora o de respuesta.
También puede revelar outliers potenciales, si ocurren en los extremos, indican que la
varianza no es constante o que no hay relación lineal entre variables.
Para el caso del ejemplo 1.2 con los datos X y Y se tienen los residuos estandarizados
y estudentizados son:
Y X
2158.70 15.50
1678.15 23.75
2316.00 8.00
2061.30 17.00
2207.50 5.50
1708.30 19.00
1784.70 24.00
2575.00 2.50
2357.90 7.50
2256.70 11.00
2165.20 13.00
2399.55 3.75
1779.80 25.00
2336.75 9.75
1765.30 22.00
2053.50 18.00
2414.40 6.00
2200.50 12.50
2654.20 2.00
1753.70 21.50
44
Análisis de Regresión P. Reyes / Enero, 2007
Analysis of Variance
Source DF SS MS F P
Regression 1 1527483 1527483 165.38 0.000
Residual Error 18 166255 9236
Total 19 1693738
No replicates.
Cannot do pure error test.
Unusual Observations
Obs X Y Fit SE Fit Residual St Resid
5 5.5 2207.5 2423.5 31.3 -216.0 -2.38R
6 19.0 1708.3 1921.9 27.0 -213.6 -2.32R
45
Análisis de Regresión P. Reyes / Enero, 2007
50
-100
10
-200
1
-200 -100 0 100 200 1800 2000 2200 2400 2600
Residual Fitted Value
4.5
Frequency
0
Residual
3.0
-100
1.5
-200
0.0
-200 -150 -100 -50 0 50 100 2 4 6 8 10 12 14 16 18 20
Residual Observation Order
46
Análisis de Regresión P. Reyes / Enero, 2007
95
90
80
70
Percent
60
50
40
30
20
10
1
-3 -2 -1 0 1 2 3
Standardized Residual
1.0
0.5
Standardized Residual
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
1700 1800 1900 2000 2100 2200 2300 2400 2500 2600
Fitted Value
47
Análisis de Regresión P. Reyes / Enero, 2007
0
Deleted Residual
-1
-2
-3
1700 1800 1900 2000 2100 2200 2300 2400 2500 2600
Fitted Value
48
Análisis de Regresión P. Reyes / Enero, 2007
Residuals Versus X
(response is Y)
1.0
0.5
Standardized Residual
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
0 5 10 15 20 25
X
En este caso los residuos para los puntos 5 y 6 exceden de dos sigmas sin embargo
no muestran indicios de violación del modelo.
1.0
0.5
Standardized Residual
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
2 4 6 8 10 12 14 16 18 20
Observation Order
49
Análisis de Regresión P. Reyes / Enero, 2007
Los outliers deben ser investigados para ver si se puede hallar la razón de su
comportamiento anormal (medición incorrecta, equipo dañado, error de anotación). Si
se encuentra que se debe a un error se debe descartar de los datos. En otros casos
donde se encuentra una razón se debe mantener en la estimación del modelo.
50
Análisis de Regresión P. Reyes / Enero, 2007
Con los datos del ejemplo 1.2 si omitimos los puntos 5 y 6 que indican Outliers y
compramos nuevo modelo con el modelo anterior se tiene:
95
90
80
70
Percent
60
50
40
30
20
10
1
-3 -2 -1 0 1 2 3
Standardized Residual
51
Análisis de Regresión P. Reyes / Enero, 2007
1.0
Standardized Residual
0.5
0.0
-0.5
-1.0
-1.5
-2.0
Para el cálculo del error puro se requiere hacer réplicas verdaderas, por ejemplo medir
el coeficiente de inteligencia de dos personas con la misma estatura en vez de hacer
dos mediciones repetidas de la misma persona, o realizar dos experimentos en
diferente tiempo con la misma X y registrando el valor de la respuesta.
Suponiendo que se tienen m valores diferentes de Xj, con j=1,2....m, por tanto:
52
Análisis de Regresión P. Reyes / Enero, 2007
2
n1 __ n1
1 n1
u 1
(Y1u Y ) 2
u 1
Y Y1u
2
1u
n1 i 1
(2.5)
Reuniendo las sumas internas de cuadrados de todos los lugares donde se tomaron
réplicas se tiene el error puro total SS como:
m n1 __
SS.error. puro (Y ju Y j ) 2 (2.6)
j 1 u 1
m
ne n j m (2.7)
j 1
2 __
1
(Y ju Y j ) 2
u 1 2
(Y j1 Y j 2 ) 2 (2.8)
53
Análisis de Regresión P. Reyes / Enero, 2007
De esta forma la suma de cuadrados del error residual se divide en suma de cuadrados
de “falta de ajuste” y “error puro”.
__
^ __ ^
Yij Y i (Yij Y i ) (Yi Yi ) (2.11)
__
Donde Y i es el promedio de las ni observaciones en Xi.
m ni __
SS PE (Yij Y i ) 2 (2.12)
i 1 j 1 i
m __ ^
SS LOF ni (Y i Y i ) 2 (2.13)
i 1
SS LOF /( m 2) MS LOF
F0 (2.14)
SS PE / n m) MS PE
54
Análisis de Regresión P. Reyes / Enero, 2007
Hora Y X
12 2.3 1.3
23 1.8 1.3
7 2.8 2
8 1.5 2
17 2.2 2.7
22 3.8 3.3
1 1.8 3.3
11 3.7 3.7
19 1.7 3.7
20 2.8 4
5 2.8 4
2 2.2 4
21 3.2 4.7
15 1.9 4.7
18 1.8 5
3 3.5 5.3
6 2.8 5.3
10 2.1 5.3
4 3.4 5.7
9 3.2 6
13 3 6
14 3 6.3
16 5.9 6.7
55
Análisis de Regresión P. Reyes / Enero, 2007
56
Análisis de Regresión P. Reyes / Enero, 2007
Nivel de X Sserror.puro gl
1.3 0.125 1
1.4 0.845 1
3.3 2.00 1
3.7 2.000 1
4.7 0.845 1
6.0 0.020 1
4.0 0.240 2
5.3 0.980 2
Totales 7.055 10
Analysis of Variance
Source DF SS MS F P
Regression 1 5.4992 5.4992 7.56 0.012 sign. at 0.05%
Residual Error 21 15.2782 0.7275
Lack of Fit 11 8.2232 0.7476 1.06 0.468 not significant
Pure Error 10 7.0550 0.7055
Total correected 22 20.7774
57
Análisis de Regresión P. Reyes / Enero, 2007
En resumen, los pasos a tomar cuando se tienen observaciones replicadas son los
siguientes:
1. Obtener la recta de ajuste del modelo, con ANOVA incluyendo valores para la
regresión y el error residual. Todavía no hacer la prueba F.
2. Determinar la suma de cuadrados del error puro y dividir la suma de cuadrados del
error residual en suma de cuadrados de falta de ajuste y de error puro.
3. Realizar la prueba F para la “falta de ajuste”. Si no es significativo, no hay razón
para dudar de la adecuación del modelo, ir a paso 4. De otra forma parar el modelo
y buscar otras formas de mejorar el modelo en base a la observación del
comportamiento de los residuos.
4. Examinar los residuos para identificar si no se violan algunas reglas, si todo está
bien, usar el cuadrado medio del error residual S2 como un estimado de V(Y) = 2,
realizar la prueba F para toda la regresión, obtener bandas de confianza para la
media, evaluar R2, etc.
20.777 7.055
MaxR 2 0.6604
20.777
58
Análisis de Regresión P. Reyes / Enero, 2007
59
Análisis de Regresión P. Reyes / Enero, 2007
60
Análisis de Regresión P. Reyes / Enero, 2007
__
Nivel de X (Y
j ij Y i )2 Grados de libertad
________________________________________________.
1.0 1.1858 1
3.3 1.0805 1
4.0 11.2467 2
5.6 1.4341 2
6.0 0.6161 1 .
Total 15.5632 7
SS LOF SS E SS PE
61
Análisis de Regresión P. Reyes / Enero, 2007
Source DF SS MS F P
Regression 1 237.48 237.48 14.24 0.002
Residual Error 15 250.13 16.68
Lack of Fit 8 234.57 29.32 13.19 0.001 Significativa
Pure Error 7 15.56 2.22
Total 16 487.61
La pueba de DURBIN-WATSON
La prueba checa si los residuos tienen una dependencia secuencial en la cual cada
uno de los errores (residuos) está correlacionado con los anteriores y los posteriores.
La prueba se enfoca a las diferencias entre residuos sucesivos como sigue, usando el
estadístico de Durbin - Watson:
n n
d ( eu eu 1 ) 2 / eu
2
(2.17)
u 2 u 2
Donde:
1. 0 d 4
2.- Si los residuos sucesivos están correlacionados positivamente en serie, d será
casi 0.
62
Análisis de Regresión P. Reyes / Enero, 2007
1% 2.5% 5%
n dL dU dL dU dL dU
Outliers
Un outlier entre los residuos es aquel que es mucho más grande que el resto en valor
absoluto, encontrándose a 3, 4 o más desviaciones estándar de la media de los
residuos. El outlier indica un punto que no es común al resto de los datos y debe ser
examinado con cuidado. Algunas veces proporciona información vital sobre el
proceso.
63
Análisis de Regresión P. Reyes / Enero, 2007
Y 0 e 1 X (2.19)
ln Y ln 0 1 X ln
3
Montgomerey, Douglas C., Introduction to Linear Regression Analysis, John Wiley and Sons, Nueva York, 1992, pp. 90-91
64
Análisis de Regresión P. Reyes / Enero, 2007
1
Y 0 1
X
Y 0 1 X '
65
Análisis de Regresión P. Reyes / Enero, 2007
66
Análisis de Regresión P. Reyes / Enero, 2007
2.0
1.5
Y
1.0
0.5
0.0
2 3 4 5 6 7 8 9 10 11
X
0.2
0.0
Residual
-0.2
-0.4
-0.6
Analysis of Variance
Source DF SS MS F P
Regression 1 8.9183 8.91827 158.65 0.000
Error 23 1.2929 0.05621
Total 24 10.2112
67
Análisis de Regresión P. Reyes / Enero, 2007
El tratar de ajustar los datos, una recta no fue la mejor opción, por lo que se intenta
un modelo cuadrático, el cual se muestra a continuación.
1.5
Y
1.0
0.5
0.0
2 3 4 5 6 7 8 9 10 11
X
0.2
0.1
0.0
Residual
-0.1
-0.2
-0.3
0.5 1.0 1.5 2.0 2.5
Fitted Value
Analysis of Variance
Source DF SS MS F P
Regression 2 9.8554 4.92770 304.70 0.000
Error 22 0.3558 0.01617
Total 24 10.2112
68
Análisis de Regresión P. Reyes / Enero, 2007
Source DF SS F P
Linear 1 8.91827 158.65 0.000
Quadratic 1 0.93713 57.95 0.000
69
Análisis de Regresión P. Reyes / Enero, 2007
2.0 S 0.0993273
R-Sq 97.8%
R-Sq(adj) 97.7%
1.5
Y
1.0
0.5
0.0
Analysis of Variance
Source DF SS MS F P
Regression 1 9.9843 9.9843 1012.00 0.000
Residual Error 23 0.2269 0.0099
Total 24 10.2112
Unusual Observations
70
Análisis de Regresión P. Reyes / Enero, 2007
95
90
80
70
Percent
60
50
40
30
20
10
1
-0.2 -0.1 0.0 0.1 0.2
Residual
0.10
0.05
0.00
Residual
-0.05
-0.10
-0.15
-0.20
-0.25
0.0 0.5 1.0 1.5 2.0 2.5
Fitted Value
71
Análisis de Regresión P. Reyes / Enero, 2007
72
Análisis de Regresión P. Reyes / Enero, 2007
Y = - 0.7038 + 0.003464 X
Analysis of Variance
Source DF SS MS F P
Regression 1 97.094 97.0943 45.45 0.000
Error 23 49.136 2.1364
Total 24 146.231
Unusual Observations
Obs X Y Fit SE Fit Residual St Resid
8 2189 9.500 6.880 0.651 2.620 2.00R
73
Análisis de Regresión P. Reyes / Enero, 2007
6
Y
0
500 1000 1500 2000
X
95
90
80
70
Percent
60
50
40
30
20
10
1
-3 -2 -1 0 1 2 3
Standardized Residual
2
Standardized Residual
-1
-2
0 1 2 3 4 5 6 7
Fitted Value
74
Análisis de Regresión P. Reyes / Enero, 2007
Notar que “y” es la cuenta de kilowatts utilizados por un cliente en cierta hora, se
observa que la varianza aumenta conforme aumenta la media de los datos indicando
que sigue el modelo de Poisson, por tanto se puede transformar con la raiz cuadrada
de Y. como sigue:
75
Análisis de Regresión P. Reyes / Enero, 2007
2.5
2.0
Raiz(Y)
1.5
1.0
0.5
95
90
80
70
Percent
60
50
40
30
20
10
1
-1.0 -0.5 0.0 0.5 1.0
Residual
0.5
Residual
0.0
-0.5
76
Análisis de Regresión P. Reyes / Enero, 2007
Se observa una mejor distribución normal de los residuos por lo que el modelo es
adecuado. A continuación se muestra el análisis de varianza para el modelo:
Analysis of Variance
Source DF SS MS F P
Regression 1 8.5401 8.54008 41.36 0.000
Error 23 4.7496 0.20650
Total 24 13.2897
77
Análisis de Regresión P. Reyes / Enero, 2007
Yu 0 1 X u1 2 X u 2 ....... k X uk u (3.1)
representa el error aleatorio en Yu. Se asume que los errores u tienen las
características siguientes:
N
R( 0 , 1 ,..., k ) (Yu 0 1 X u1 2 X u 2 ..... uk ) 2
u 1
78
Análisis de Regresión P. Reyes / Enero, 2007
Y = X + = [1 : D] + (3.2)
Y es un vector N x 1.
X es una matriz de orden N x (k + 1), donde la primera columna es de 1’s.
es un vector de orden (k + 1) x 1.
es un vector de orden N x 1.
D es la matriz de Xij con i = 1, 2, ..., N; j = 1, 2, ......, k
X’X b = X’ Y (3.4)
79
Análisis de Regresión P. Reyes / Enero, 2007
Si los errores están normalmente distribuidos, entonces b se dice que está distribuido
como:
b N ( , ( X ' X ) 1 2 )
Sea x’p un vector (1 x p) vector cuyos elementos corresponden a una fila de la matriz
X, p = k + 1, entonces en la región experimental el valor de predicción de la
respuesta es:
80
Análisis de Regresión P. Reyes / Enero, 2007
^
Y ( x ) x' p b (3.9)
^
Var(Y ( x)) Var( x p b) x' p ( X ' X ) 1 x p 2 (3.10)
RESIDUOS
Los residuos se definen como la diferencia entre los valores reales observados y los
valores predichos para estos valores de respuesta usando el modelo de ajuste y
predicción, o sea:
^
ru Yu Y ( x u ), u 1,2,..., N (3.11)
ESTIMACIÓN DE
Para un modelo con p parámetros y teniendo N observaciones (N > p), la varianza se
estima como sigue:
81
Análisis de Regresión P. Reyes / Enero, 2007
n
SSE (Yi Yˆ ) 2 ei2 e' e
i 1
Como e = Y – X b, se tiene:
SSE (Y Xb)' (Y Xb) Y ' Y b' X ' Y Y ' Xb b' X ' Xb Y ' Y 2b' X ' Y b' X ' Xb (3.13)
La suma residual de cuadrados tiene n-p grados de libertad asociado con el ya que
se estiman p parámetros en el modelo de regresión. El cuadrado medio de los
residuos es:
SSE
s 2 MSE (3.15)
Np
Asumiendo que los errores son independientes y distribuidos normalmente con media
cero y desviación estándar 2 , por tanto las observaciones Yi también son
independientes y normalmente distribuidas. Cada uno de los estadísticos:
bj j
,... j 0,1,..., k (3.16)
S 2 C jj
Se distribuye con una distribución t con n-p grados de libertad, donde S2 es la varianza
del error de la ecuación (3.15). Por tanto un intervalo de confianza 100(1 - )% para
el coeficiente de regresión j, para j = 0, 1, ...., k es:
82
Análisis de Regresión P. Reyes / Enero, 2007
se(b j ) S 2C jj (3.18)
particular
Con varianza:
83
Análisis de Regresión P. Reyes / Enero, 2007
H 0 : 1 2 .... k 0 (3.22)
H 0 : j 0....... para.al.menos.una. j
SSR / k MSR
F0 con k = No. de variables regresoras (3.23)
SSE /( n k 1) MSE
N __
SST (Yu Y ) 2 con N-1 grados de libertad (3.24)
u 1
84
Análisis de Regresión P. Reyes / Enero, 2007
N ^ __
SSR (Y ( x u ) Y ) 2 con p (parámetros) – 1 grados de libertad (3.25)
u 1
N ^
SSE (Yu Y ( x u )) 2 con (N-1) – (p –1) grados de libertad (3.26)
u 1
(1' Y ) 2
SST Y ' Y (3.27)
N
(1' Y ) 2
SSR b' X ' Y (3.28)
N
Fuente de
variación SS df MS F0 .
H 0 : 1 2 ... k 0
H a : i 0, i 1,2,..., k
85
Análisis de Regresión P. Reyes / Enero, 2007
MSR SSR /( p 1)
F0 (3.30)
MSE SSE /( N p )
SSR
R2 (3.31)
SST
86
Análisis de Regresión P. Reyes / Enero, 2007
H0 : j 0 (3.32)
H1 : j 0
Si no se rechaza H0, indica que el regresor Xj puede ser excluido del modelo. El
estadístico de prueba para esta hipótesis es:
bj
t0 (3.33)
se (b j )
Y 0 1 X 1 2 X 2 3 X 3
87
Análisis de Regresión P. Reyes / Enero, 2007
1,1,1,1
1,1,1,1
1,1,1,1
1,1,1,1
X
1,1,1,1
1,1,1,1
1,1,1,1
1,1,1,1
88
Análisis de Regresión P. Reyes / Enero, 2007
Ejemplos:
Ejemplo 3.1 Un embotellador está analizando las rutas de servicio
de máquinas dispensadoras, está interesado en predecir la
cantidad de tiempo requerida por el chofer para surtir las
máquinas en el local (Y). La actividad de servicio incluye llenar
la máquina con refrescos y un mantenimiento menor. Se tienen como
variables el número de envases con que llena la máquina (X1) y
la distancia que tiene que caminar (X2). Se colectaron los datos
siguientes, y se procesaron con el paquete Minitab:
De manera matricial:
89
Análisis de Regresión P. Reyes / Enero, 2007
1's X1 X2
1 7 560
1 3 220
1 3 340
1 4 80
1 6 150
1 7 330
X 1 2 110
1 7 210
1 30 1460
1 5 605
1 16 688
1 10 215
1 4 255
1 6 462
1 9 448
1 10 776
1 6 200
1 7 132
1 3 36
1 17 770
1 10 140
1 26 810
1 9 450
1 8 635
1 4 150
X'
1's 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
X1 7 3 3 4 6 7 2 7 30 5 16 10 4 6 9 10 6 7 3 17 10 26 9 8
X2 560 220 340 80 150 330 110 210 1460 605 688 215 255 462 448 776 200 132 36 770 140 810 450 635
X'X
25 219 10,232
219 3,055 133,899
10,232 133,899 6,725,688
X'y
560
7,375
337,072
90
Análisis de Regresión P. Reyes / Enero, 2007
ˆ ( X ' X ) 1 X ' y
Con la función de Excel MINVERSA
(X'X)-1
0.113215186 -0.004449 -8.367E-05
-0.004448593 0.0027438 -4.786E-05
-8.36726E-05 -4.79E-05 1.229E-06
Betas est,
2.341231145
1.615907211
0.014384826
ANÁLISIS DE VARIANZA
Promedio
Grados de Suma de de F Valor
libertad cuadrados cuadrados Critico de F
Regresión 2 5550.81092 2775.405 261.235 4.6874E-16
Residuos 22 233.731677 10.62417
Total 24 5784.5426
91
Análisis de Regresión P. Reyes / Enero, 2007
Cov() = 2(X’X)-1
Si C = (X’X)-1
Y’_tiempo 16.68 11.5 12.03 14.88 13.75 18.11 8 17.83 79.24 21.5 40.33 21
13.5 19.75 24 29 15.35 19 9.5 35.1 17.9 52.32 18.75 19.83 10.75
SSE = y’y - ’ X’ y
SS E 233.732
S2 10.624
Np 25 3
Cálculo del error estándar de los coeficientes y del intervalo de confianza para =
0.05
se(b j ) S 2C jj
92
Análisis de Regresión P. Reyes / Enero, 2007
M8 = (X'X)-1
0.113215186 -0.004449 -8.367E-05
-0.004448593 0.0027438 -4.786E-05
-8.36726E-05 -4.79E-05 1.229E-06
1.26181 1 1.97001
1
X 0 8
275
2.34123
Yˆ0 X ' 0 b 1,8,2751.61591 19.22minutos
0.01438
1
Var (Yˆ0 ) S X '0 ( X ' X ) X 0 10.62391,8,275M 88 10.6239(0.05346) 0.56794
2 1
275
93
Análisis de Regresión P. Reyes / Enero, 2007
Que se reduce a:
17.66 Y0 20.78
Analysis of Variance
De ecuaciones 3.26 a 3.29
(559.6) 2
SST = 18,310.629 - = 5784.5426
25
(559.6) 2
SSR = 18,076.930 - = 5,550.8166
25
SSE = SST – SSR = 233.7260
MSR 2775.4083
F0 261.24
MSE 10.6239
F0.05, 2, 22 3.44
94
Análisis de Regresión P. Reyes / Enero, 2007
Analysis of Variance
Source DF SS MS F P
Regression 2 5550.8 2775.4 261.24 0.000
Residual Error 22 233.7 10.6
Total 24 5784.5
Source DF Seq SS
X1_envases 1 5382.4
X2_Distancia 1 168.4
Unusual Observations
New
Obs Fit SE Fit 95% CI 95% PI
1 19.224 0.757 (17.654, 20.795) (12.285, 26.164)
New
Obs X1_envases X2_Distancia
1 8.00 275
95
90
80
70
Percent
60
50
40
30
20
10
1
-3 -2 -1 0 1 2 3 4
Standardized Residual
95
Análisis de Regresión P. Reyes / Enero, 2007
H0 : 2 0
H1 : 2 0
b2 0.01438
t0 3.98
2
S C 22 (10.6239)( 0.00000123)
96
Análisis de Regresión P. Reyes / Enero, 2007
1
X 0 8 Xo’ = [1, 8, 275]
275
2.34123
Yˆ0 X '0 b 1, 8, 275 1.61591 19.22 min utos
0.01438
97
Análisis de Regresión P. Reyes / Enero, 2007
Los puntos h00 > hmax están fuera del elipsoide que encierra la RVH y son puntos de
extrapolación.
(X'X)-1
0.1132152 -0.004 -8E-05
-0.0044486 0.0027 -5E-05
-8.367E-05 -5E-05 1E-06
X1’(X’X)-1
primero
-
0.0352184 0.0120421 0.0003
Segundo
-
0.0814614 0.0067458 4E-05
X1’(X’X)-1x1
Observación X1_envases X2_Distancia hii
1 7 560 0.10180178
1 3 220 0.07070164
98
Análisis de Regresión P. Reyes / Enero, 2007
1 3 220 0.07070164
1 3 340 0.09874
1 4 80 0.08538
1 6 150 0.07501
1 7 330 0.04287
1 2 110 0.0818
1 7 210 0.06373
1 30 1460 0.49829 hmax
1 5 605 0.1963
1 16 688 0.08613
1 10 215 0.11366
1 4 255 0.06113
1 6 462 0.07824
1 9 448 0.04111
1 10 776 0.16594
1 6 200 0.05943
1 7 132 0.09626
1 3 36 0.09645
1 17 770 0.10169
1 10 140 0.16528
1 26 810 0.39158
1 9 450 0.04126
1 8 635 0.12061
1 4 150 0.06664
Los puntos para los cuales hoo sea mayor a hmax, se encuentran fuera del elipsoide,
generalmente entre menor sea el valor de hoo es más probable que se encuentre en
el elipsoide.
En la tabla la observación 9 tiene el valor mayor de hii. Como el problema solo tiene
dos regresores se puede examinar en un diagrama de dispersión como sigue:
99
Análisis de Regresión P. Reyes / Enero, 2007
30
25
20
X1_envases
15
10
0
0 200 400 600 800 1000 1200 1400 1600
X2_Distancia
Todos los puntos se encuentran dentro del rango de los regresores X1 y X2. El punto
a es de interpolación puesto que hoo <= hmax (0.05346 < 0.49829) todos los demás
son puntos de extrapolación ya que exceden a hmax, lo que se confirma en la gráfica
de dispersión.
100
Análisis de Regresión P. Reyes / Enero, 2007
101
Análisis de Regresión P. Reyes / Enero, 2007
La gráfica de eij* contra X ij se denomina Gráfica de residuo parcial. Esta gráfica sirve
para detectar Outliers y desigualdad de varianza, dado que muestra la relación entre
Y y el regresor Xj después de haber removido el efecto de los otros regresores Xi (I<>j),
es el equivalente de la gráfica de Y contra Xj en regresión múltiple.
Y X X ( j ) X j j (3.36)
eY |X ( j ) j e X j |X ( j ) (1 H ( j ) ) (3.37)
Estas gráficas pueden ser útiles para el análisis de la relación entre los regresores y
la disposición de los datos en el espacio X, donde pueden descubrirse puntos remotos
del resto de los datos y que tienen influencia en el modelo. Si se encuentra que las
variables regresoras están altamente correlacionadas, puede no ser necesario
incluirlas ambas en el modelo. Si dos o más regresores están altamente
102
Análisis de Regresión P. Reyes / Enero, 2007
Xi
**
** * *
** *
**
** *
**
***
Xj
Yˆ 5 X 1 1000 X 2 (3.38)
Donde Y esta medida en litros, X1 en mililitros y X2 en litros. Note que a pesar de que
b2 es mucho mayor que b1, su efecto en la variable de respuesta es idéntico. Por lo
anterior algunas veces es importante trabajar con regresores y variables de respuesta
con escala cambiada, de tal forma que produzcan coeficientes de regresión sin
dimensiones.
Existen dos técnicas para esto. La primera se denomina escala unitaria normal,
X ij X j
Z ij Con i = 1, 2, ......., n; j = 1, 2, ........., k (3.39)
Sj
Yi Y
Yi* Con i = 1, 2, ......., n (3.40)
Sy
103
Análisis de Regresión P. Reyes / Enero, 2007
X ij
Wij , i = 1, 2, ......, n; j = 1, 2, ........, k (3.43)
S jj
__
Y Y
Yi 0 i , i = 1, 2, ..........., n (3.44)
SYY
__
S jj ( X ij X j ) 2 (3.45)
Esta última es la suma de cuadrados corregida para el regresor Xj. En este caso cada
regresor Wj tiene media cero y longitud uno.
__
W j 0
n (3.46)
(Wij W j ) 2 1
i 1
104
Análisis de Regresión P. Reyes / Enero, 2007
..................
r1k , r2 k , r3k ....1
n __ __
( X ui X i )( X uj X j )
S ij
rij u 1
(3.49)
S ii S jj S ii S jj
De forma similar
r1Y
r
W ' Y 0 2Y
....
rKY
n __ __
( X uj X j )(Yu Y )
S jY
r jy u 1
(3.50)
S ii SYY S jj SYY
Si se utiliza la escala normal unitaria, la matriz Z’Z está relacionada con W’W como
sigue:
Por lo que no importa que método se utilice para escalamiento, ambos métodos
producen el mismo conjunto de coeficientes de regresión sin dimensiones b.
105
Análisis de Regresión P. Reyes / Enero, 2007
SYY
b j bˆ j j = 1, 2, ....., k (3.52)
S JJ
___ k ___
b0 Y b j X j (3.53)
j 1
Ejemplo 3.5
Calculando los coeficientes de correlación entre las diferentes
variables, se tiene:
Con Minitab:
Y_tiempo X1_envases
X1_envases 0.965
0.000
r12 = 0.824215
r1y = 0.964615
r2y = 0.891670
106
Análisis de Regresión P. Reyes / Enero, 2007
1.000000, 0.824215
W 'W
0.824215, 1.000000
Por tanto:
Yˆ 0 0.716267W1 0.301311W2
107
Análisis de Regresión P. Reyes / Enero, 2007
SSR
R2
SST
5550.816
R2 0.9596
5784.5426
__
Un índice más real es el índice ajustado R 2, que penaliza al
analista que incluye variables innecesarias en el modelo. Se
calcula como sigue:
__ 2
SSE /( N p) N 1
R 1 1 (1 R 2 )
SST /( N 1) Np
__ 2
25 1
R 1 (1 0.9596) 0.9559
25 3
ei
di , i = 1, 2, .........., n (3.54)
MSE
108
Análisis de Regresión P. Reyes / Enero, 2007
e = (I – H ) Y (3.55)
donde
e = (I – H) (3.55)
De esta forma los residuos tienen la misma transformación lineal para las
observaciones Y y para los errores .
Var(e) 2 ( I H ) (3.56)
V ( ei ) 2 (1 hii ) (3.57)
109
Análisis de Regresión P. Reyes / Enero, 2007
ei
ri , i = 1, 2, .........., n (3.58)
MSE (1 hii )
De tal forma que otra forma de escalamiento de residuos es transformar los residuos
n dependientes en n-p funciones ortogonales de los errores .
La suma de cuadrados del error de predicción (PRESS) propuesto por Allen (1971)
proporciona un escalamiento útil para los residuos. Para calcular PRESS, seleccione
una observación, por ejemplo (i), Ajuste el modelo de regresión a las observaciones
remanentes (N – 1), usando la ecuación para predecir la observación retenida (Yi).
Denotando el error de predicción como:
e( i ) Yi Yˆ( i ) (3.60)
110
Análisis de Regresión P. Reyes / Enero, 2007
Como:
ei
e( i ) (3.62)
1 hii
Entonces:
2
e N
PRESS = i (3.63)
i 1 1 hii
De esta forma se observa que los residuos asociados con valores altos de hii serán
puntos de alta influencia, donde si se excluyen mostrarán un ajuste pobre del
modelo.
2
Var(e( i ) ) (3.64)
1 hii
111
Análisis de Regresión P. Reyes / Enero, 2007
e( i ) ei
(3.65)
V (e( i ) ) 2 (1 hii )
R- STUDENT
Otro método para diagnosticar la presencia de outliers o puntos de alta influencia es
el residuo estudentizado R – Student donde la estimación de la varianza se hace
excluyendo la j-ésima observación, como sigue:
e( i )
ti , i = 1, 2, ..........., n (3.67)
S (2i ) (1 hii )
será más sensible a este punto. También ofrece una prueba más formal de prueba
de hipótesis de outliers, ya que se puede comparar todos los n valores de
| ti | .versus.t ( / 2 n ),n p 1 .
112
Análisis de Regresión P. Reyes / Enero, 2007
PRESS
edicción 1
2
RPr (3.68)
SYY
457.4
edicción 1 0.9209
2
RPr
5784.5426
Por lo que esperaríamos que este modelo explicara
aproximadamente el 92% de la variabilidad al predecir nuevas
observaciones, que se compara con el 95.96% de la variabilidad
en los datos originales explicados por el ajuste de mínimos
cuadrados.
4
Montgomery, Douglas C., Peck, Elizabeth A., Introduction to Linear Regression Analysis, 2º edition, John
Wiley and Sons, Nueva York, 1991, p. 176
113
Análisis de Regresión P. Reyes / Enero, 2007
Tabla de residuos
R Student
ei = Y - ri=ei/raiz(MSE(1- e(i)=ei/(1- [ei/(1-
hii Y_tiempo Fits =Yest Yest di=ei/Sigma hii)) hii) S(i)^2 hii)^2) ti
0.10180 16.68 21.7081 -5.0281 -1.5426 -1.6277 -5.5980 9.7897 31.3372 -1.8878
0.07070 11.5 10.3536 1.1464 0.3517 0.3648 1.2336 11.0627 1.5218 0.3847
0.09874 12.03 12.0798 -0.0498 -0.0153 -0.0161 -0.0552 11.1299 0.0031 -0.0174
0.08538 14.88 9.9556 4.9244 1.5108 1.5797 5.3840 9.8676 28.9879 1.7922
0.07501 13.75 14.1944 -0.4444 -0.1363 -0.1418 -0.4804 11.1199 0.2308 -0.1498
0.04287 18.11 18.3996 -0.2896 -0.0888 -0.0908 -0.3025 11.1259 0.0915 -0.0927
0.0818 8 7.1554 0.8446 0.2591 0.2704 0.9199 11.0931 0.8462 0.2882
0.06373 17.83 16.6734 1.1566 0.3548 0.3667 1.2353 11.0620 1.5260 0.3839
0.49829 79.24 71.8203 7.4197 2.2764 3.2138 14.7888 5.9049 218.7096 8.5921
0.1963 21.5 19.1236 2.3764 0.7291 0.8133 2.9568 10.7955 8.7429 1.0038
0.08613 40.33 38.0925 2.2375 0.6865 0.7181 2.4484 10.8692 5.9945 0.7768
0.11366 21 21.5930 -0.5930 -0.1819 -0.1933 -0.6691 11.1112 0.4477 -0.2132
0.06113 13.5 12.4730 1.0270 0.3151 0.3252 1.0939 11.0766 1.1966 0.3392
0.07824 19.75 18.6825 1.0675 0.3275 0.3411 1.1581 11.0712 1.3413 0.3625
0.04111 24 23.3288 0.6712 0.2059 0.2103 0.7000 11.1077 0.4900 0.2145
0.16594 29 29.6629 -0.6629 -0.2034 -0.2227 -0.7948 11.1050 0.6317 -0.2612
0.05943 15.35 14.9136 0.4364 0.1339 0.1380 0.4639 11.1204 0.2152 0.1434
0.09626 19 15.5514 3.4486 1.0580 1.1130 3.8159 10.5034 14.5614 1.2386
0.09645 9.5 7.7068 1.7932 0.5501 0.5788 1.9846 10.9606 3.9387 0.6306
0.10169 35.1 40.8880 -5.7880 -1.7757 -1.8736 -6.4432 9.3542 41.5145 -2.2227
0.16528 17.9 20.5142 -2.6142 -0.8020 -0.8778 -3.1318 10.7402 9.8082 -1.0460
0.39158 52.32 56.0065 -3.6865 -1.1310 -1.4500 -6.0592 10.0664 36.7137 -2.4484
0.04126 18.75 23.3576 -4.6076 -1.4136 -1.4437 -4.8059 10.0756 23.0963 -1.5463
0.12061 19.83 24.4029 -4.5729 -1.4029 -1.4961 -5.2000 9.9977 27.0403 -1.7537
0.06664 10.75 10.9626 -0.2126 -0.0652 -0.0675 -0.2278 11.1278 0.0519 -0.0707
PRESS 459.03907
114
Análisis de Regresión P. Reyes / Enero, 2007
Para la regresión lineal, la suma de cuadrados del error puro SSPE se calcula utilizando
respuestas replicadas en el mismo nivel de X. La suma de cuadrados del error o
residual se parte en un componente debido al error “puro” y un componente debido a
la falta de ajuste o sea:
SSE = SSPE + SSLOF
Daniel y Wood han sugerido un método para obtener un estimado del error
independiente del modelo donde no hay puntos repetidos exactos. El procedimiento
busca puntos en el espacio X que son “vecinos cercanos” es decir observaciones que
se han tomado con niveles cercanos de Xi1, Xi2, ..., Xik. Las respuestas Yi de tales
“vecinos cercanos” pueden ser consideradas como réplicas a usar para el cálculo del
error puro. Como una medida de la distancia entre dos puntos Xi1, Xi2, ..., Xik y Xj1, Xj2,
..., Xjk proponen el estadístico de suma de cuadrados ponderados de la distancia
como:
b j ( X ij X i ' j )
2
k
D
2
ii (3.69)
j 1 MSE
Los pares de puntos que tienen esta distancia pequeña son vecinos cercanos sobre
los cuales se puede calcular el error puro, y los que generan Dii2 1 están
El estimado del error puro se obtiene del rango de los residuos en el punto i e i’, como
sigue:
115
Análisis de Regresión P. Reyes / Enero, 2007
Ei | ei ei ' | (3.70)
Hay una relación entre el el rango de una muestra de una distribución normal y la
desviación estándar de la población. Para muestras de tamaño 2, la relación es:
R E
ˆ 0.886 E
d 2 1.128
adyacentes de Y-est. Repetir el procedimiento para los pares de puntos separados por
uno, dos o tres valores intermedios de Y-est. Lo cual producirá (4 N – 10) valores de
Dii2 .
4. Arreglar los (4 N –10) valores de Dii2 en orden ascendente. Sea Eu, u = 1, 2,..., 4N-
0.886 m
ˆ Eu
m u 1
No se deben incluir Eu para los cuales la suma de las distancias cuadradas
ponderadas sea muy grande.
116
Análisis de Regresión P. Reyes / Enero, 2007
Fits ei = Y -
Observ =Yest Yest X1 X2 Delta D2ii Ra Delta D2ii Ra Delta D2ii R Delta D2ii
7 7.1554 0.8446 2 110 0.9486 0.3524271 4.0798 1.0006243 0.3018 0.48143932 1.0572 1.01425787
19 7.7068 1.7932 3 36 3.1312 0.28348034 12 0.6468 0.6593958 2.0058 0.49889025 1.843 1.79993866
4 9.9556 4.9244 4 80 3.778 0.62751294 5.137 0.0954348 3 4.9742 1.56238413 3.8974 0.5964673
2 10.3536 1.1464 3 220 1.359 0.34120864 15 1.1962 0.2804614 11 0.1194 0.26963257 9 1.5908 2.30739963
25 10.9626 -0.2126 4 150 0.1628 0.94887491 1.2396 0.2147282 6 0.2318 0.98309549 0.649 1.0317867
3 12.0798 -0.0498 3 340 1.0768 0.38649146 0.3946 2.9150659 0.4862 2.59370393 3.4984 4.77501254
13 12.473 1.027 4 255 1.4714 1.19782372 0.5906 1.0420119 2.4216 2.50662458 0.1296 2.25140474
5 14.1944 -0.4444 6 150 0.8808 0.04869121 2 3.893 0.2520843 8 1.601 0.31588921 13 0.1548 0.87681193
17 14.9136 0.4364 6 200 3.0122 0.33583313 14 0.7202 0.2477215 7 0.726 0.57492644 0.6311 1.33694371
18 15.5514 3.4486 7 132 2.292 0.11849492 5 3.7382 0.763556 2.3811 2.36676288 1.0722 5.34054958
8 16.6734 1.1566 7 210 1.4462 0.28046136 10 0.0891 1.4826085 1.2198 4.02191377 3.7708 2.30739963
6 18.3996 -0.2896 7 330 1.3571 0.58513212 2.666 2.4560045 2.3246 2.9150659 0.3034 2.46954135
14 18.6825 1.0675 6 462 1.3089 0.64404848 3.6817 5.9517817 1.6605 5.12062274 6.0956 0.43282602
10 19.1236 2.3764 5 605 4.9906 10.3556494 2.9694 9.1067199 7.4045 1.02253537 1.7052 4.41245781
21 20.5142 -2.6142 10 140 2.0212 0.10955522 4 2.4139 5.6476165 3.2854 2.09339097 1.9934 2.1174639
12 21.593 -0.593 10 215 4.4351 4.53015326 1.2642 1.3031327 4.0146 1.32136265 3.9799 4.41874711
1 21.7081 -5.0281 7 560 5.6993 1.2274085 0.4205 1.2187609 0.4552 0.35532909 4.3652 3.12065966
15 23.3288 0.6712 9 448 5.2788 7.7906E-05 1 5.2441 0.926847 1.3341 2.34113183 1.5663 13.1647652
23 23.3576 -4.6076 9 450 0.0347 0.91235651 3.9447 2.3156566 6.8451 13.1461457 1.1804 17.7239198
24 24.4029 -4.5729 8 635 3.91 1.37030746 6.8104 15.784237 1.2151 20.2626427 0.8864 80.2272024
16 29.6629 -0.6629 10 776 2.9004 8.99868534 5.1251 12.043621 3.0236 62.9406265 8.0826 107.421739
11 38.0925 2.2375 16 688 8.0255 0.37673375 5.924 24.867275 5.1822 59.7793515
20 40.888 -5.788 17 770 2.1015 19.9388461 13.2077 50.808538
22 56.0065 -3.6865 26 810 11.106 12.1611961
9 71.8203 7.4197 30 1460
117
Análisis de Regresión P. Reyes / Enero, 2007
26 0.62751294
27 0.64404848
28 0.65939581
29 0.76355604
30 0.87681193
31 0.91235651
32 0.92684701
33 0.94887491
34 0.98309549
35 1.00062433
36 1.01425787
37 1.02253537
38 1.0317867
39 1.04201186 0.5907 1.983
40 1.19782372 1.4714 1.966
Desviación estándar
118
Análisis de Regresión P. Reyes / Enero, 2007
Diagnóstico de influyentes
A veces un pequeño grupo de puntos ejerce una influencia desproporcionada en el
modelo de regresión, se deben revisar con cuidado, si son valores “mal” tomados, se
deben eliminar, de otra forma se debe estudiar el porqué de su ocurrencia.
Puntos influyentes
Son observaciones remotas que tienen un apalancamiento desproporcionado
potencial en los parámetros estimados, valores de predicción, y estadísticas en
general.
119
Análisis de Regresión P. Reyes / Enero, 2007
Los puntos con valores grandes de Di tienen una influencia considerable en los
estimadores de mínimos cuadrados b. La magnitud de Di puede evaluarse
comparándola con F , p ,n p . Si Di F.5, p ,n p , entonces al borrar el punto i moverá a b al
límite del intervalo de confianza del 50% para con base en el conjunto de datos
completo. Como F.5, p ,n p 1 normalmente se considera que los puntos donde Di 1
tendrán influencia. Idealmente cada b(i ) deberá permanecer dentro de la banda del 10
Así Di está formado por un componente que refleja que tan bien se ajusta el modelo a
la i-ésima observación Yi y un componente que mide que tan lejos se encuentra el
punto del resto de los datos. Uno o ambos componentes pueden contribuir a un valor
grande de Di .
Por ejemplo para el caso de tiempos de entrega para la primera observación se tiene:
ri 2 h ii 1.6277 2 0.1018
Di 0.10009
p (1 hii ) 3 (1 0.1018)
120
Análisis de Regresión P. Reyes / Enero, 2007
Yˆi Yˆ( i )
DFFITS i , i 1,2,........., n (3.74)
S (2i ) hii
Computacionalmente se tiene:
1/ 2
h
DFFITS i ii ti (3.75)
1 hii
Donde ti es la R-student.
DFFITS i 2 p (3.76)
n
ˆ j ˆ j (i )
DFBETAS j ,i
S(2i )C jj
121
Análisis de Regresión P. Reyes / Enero, 2007
rj ,i ti
DFBETAS j ,i
rj ' rj 1 hii
Ejemplo de cálculo:
0.050736 0.074083 0.047866 0.03569 0.003797 0.069787 0.071028 0.096856 -0.02684 0.057011 -0.07023 0.035523 0.024493 0.082869
0.0127 -0.00568 -0.0101 -0.0012 -0.01415 0.002442 0.00844 0.00206 0.005344 0.016289 0.028124 -0.00129 -0.01289 -0.00065
-0.0003 3.81E-05 0.000197 3.58E-05 0.000391 -0.00013 -0.00026 -0.00018 4.84E-05 -0.00039 -0.00033 3.83E-05 0.000314 -9.1E-05
12 13 14 15 16 17 18 19 20 21 22 23 24 25
R'
0.03522 -0.012 0.00027
0.08146 -0.0067 4.3E-05
0.07142 -0.0125 0.00019
0.08873 0.0027 -0.0002
0.07397 0.00484 -0.0002
0.05446 -0.001 -1E-05
122
Análisis de Regresión P. Reyes / Enero, 2007
C
0.11322 -0.0044 -8E-05
-0.0044 0.00274 -5E-05
1.2E-
-8E-05 -5E-05 06
-1.991908828
123
Análisis de Regresión P. Reyes / Enero, 2007
Calculo de
Bo,i
r(0,1) = 0.035217
raiz(Cjj) 0.3364746
t1 = -1.8878
raiz(1-h11)
= 0.9477341
-
0.20848235
r(0,2) 0.0814608
raiz(Cjj) = 0.3364746
t2 = 0.3847
raiz(1-hii) = 0.9640021
0.09661409
r(0,3) = 0.0714204
raiz(Cjj) = 0.3364746
t3 = -0.0174
raiz(1-hii) = 0.9493471
-0.0038904
124
Análisis de Regresión P. Reyes / Enero, 2007
De acuerdo a los puntos de corte de DFFITS de 0.69, los puntos 9 y 22 excend este
valor por lo que se consideran influyentes.
Con base en el punto de corte de DFBETAS de 0.4, los puntos 9 y 22 tienen efectos
grandes sobre los tres parámetros. La eliminación del punto 9 da como resultado que
la respuesta estimada se desplace en en más de cuatro desviaciones estándar.
125
Análisis de Regresión P. Reyes / Enero, 2007
( S(2i ) ) p 1
COVRATIO
MS Rep s hii
Notar que [1/(1-hii)] es la relación de ( X (' i ) X (i ) ) 1 / ( X ' X ) 1 , por lo que un punto de alto
COVRATIOi 1 3 p / n o
Si se debería considerar el i-ésimo punto como influyente.
COVRATIOi 1 3 p / n
Ejemplo:
En el caso de los refrescos: el corte para COVRATIOi es 1+-3*3/25 o sea (0.64, 1.66),
se puede observar de la tabla que se salen los puntos 9 y apenas el 22.
126
Análisis de Regresión P. Reyes / Enero, 2007
Multicolinealidad
La multicolinealidad implica una dependencia cercana entre regresores (columnas de
la matriz X ), de tal forma que si hay una dependencia lineal exacta hará que la matriz
X’X se singular. La presencia de dependencias cercanamente lineales impactan
dramáticamente en la habilidad para estimar los coeficientes de regresión.
1
VIF j (3.77)
1 R 2j
con con todos los demás regresores. Si Xj es casi linealmente dependiente de algunos
de los otros regresores, entonces el coeficiente de determinación R j2 será cercano a
la unidad y el VIFj será muy grande, de tal forma que si es mayor a 10 implica que se
tienen serios problemas de multicolinealidad.
127
Análisis de Regresión P. Reyes / Enero, 2007
Y Y
X1 X2 X1 X2
X1 X2
5 20
10 20
5 30
10 30
5 20
10 20
5 30
10 30
1,0
X ' X ( X ' X ) 1
0,1
128
Análisis de Regresión P. Reyes / Enero, 2007
V (b1 ) V (b2 )
1
2
2
1.00000,0.824215 3.11841,2.57023
W 'W donde (W 'W ) 1
0.824215,1.00000 2.57023,3.11841
V (b1 ) V (b2 )
3.11841
2
2
129
Análisis de Regresión P. Reyes / Enero, 2007
4.1 Introducción
para estimar cualquier relación que sea lineal en los parámetros desconocidos .
Esto incluye a los modelos de regresión polinomial de segundo orden en una variable
y en dos variables. Los cuales son ampliamante utilizados en situaciones donde la
respuesta es curvilinea o muy compleja, pero que puede ser modelada por
polinomios en una región con pequeños rangos en las X’s.
Y 0 1 X 1 2 X 2 11 X 12 22 X 22 12 X 1 X 2
Y 0 1 X 2 X 2
130
Análisis de Regresión P. Reyes / Enero, 2007
Introducción
El análisis de regresión es usado para investigar y modelar las relaciones entre una
variable de respuesta y uno o más predictores. Minitab proporciona mínimos
cuadrados, mínimos cuadrados parciales, y procedimientos de regresión logística.
131
Análisis de Regresión P. Reyes / Enero, 2007
Tipo de Método de
Usar... Para... respuesta estimación
Regression Realizar regression simple, multiple o continua Mínimos
regression polynomial por mínimos cuadrados
cuadrados.
Stepwise Realizar regresión por pasos, selección de continua Mínimos
variables hacia adelante, o eliminación de cuadrados
variables hacia atrás para identificar un
conjunto útil de predictores.
Best Identificar subconjuntos de los predictores continua Mínimos
Subsets con base en el criterio R máximo. cuadrados
Multicolinearidad
132
Análisis de Regresión P. Reyes / Enero, 2007
133
Análisis de Regresión P. Reyes / Enero, 2007
134
Análisis de Regresión P. Reyes / Enero, 2007
Ejemplo:
PULSE.MTW
Pulso1 Pulso2 Corrió Fuma Sexo Estatura Peso Actividad
64 88 1 2 1 66 140 2
58 70 1 2 1 72 145 2
62 76 1 1 1 73.5 160 3
66 78 1 1 1 73 190 1
64 80 1 2 1 69 155 2
74 84 1 2 1 73 165 1
84 84 1 2 1 72 150 3
68 72 1 2 1 74 190 2
62 75 1 2 1 72 195 2
76 118 1 2 1 71 138 2
90 94 1 1 1 74 160 1
80 96 1 2 1 72 155 2
92 84 1 1 1 70 153 3
68 76 1 2 1 67 145 2
60 76 1 2 1 71 170 3
62 58 1 2 1 72 175 3
66 82 1 1 1 69 175 2
70 72 1 1 1 73 170 3
68 76 1 1 1 74 180 2
72 80 1 2 1 66 135 3
70 106 1 2 1 71 170 2
74 76 1 2 1 70 157 2
66 102 1 2 1 70 130 2
70 94 1 1 1 75 185 2
96 140 1 2 2 61 140 2
62 100 1 2 2 66 120 2
78 104 1 1 2 68 130 2
82 100 1 2 2 68 138 2
100 115 1 1 2 63 121 2
68 112 1 2 2 70 125 2
96 116 1 2 2 68 116 2
78 118 1 2 2 69 145 2
135
Análisis de Regresión P. Reyes / Enero, 2007
88 110 1 1 2 69 150 2
62 98 1 1 2 62.75 112 2
80 128 1 2 2 68 125 2
62 62 2 2 1 74 190 1
60 62 2 2 1 71 155 2
72 74 2 1 1 69 170 2
62 66 2 2 1 70 155 2
76 76 2 2 1 72 215 2
68 66 2 1 1 67 150 2
54 56 2 1 1 69 145 2
74 70 2 2 1 73 155 3
74 74 2 2 1 73 155 2
68 68 2 2 1 71 150 3
72 74 2 1 1 68 155 3
68 64 2 2 1 69.5 150 3
82 84 2 1 1 73 180 2
64 62 2 2 1 75 160 3
58 58 2 2 1 66 135 3
54 50 2 2 1 69 160 2
70 62 2 1 1 66 130 2
62 68 2 1 1 73 155 2
48 54 2 1 1 68 150 0
76 76 2 2 1 74 148 3
88 84 2 2 1 73.5 155 2
70 70 2 2 1 70 150 2
90 88 2 1 1 67 140 2
78 76 2 2 1 72 180 3
70 66 2 1 1 75 190 2
90 90 2 2 1 68 145 1
92 94 2 1 1 69 150 2
60 70 2 1 1 71.5 164 2
72 70 2 2 1 71 140 2
68 68 2 2 1 72 142 3
84 84 2 2 1 69 136 2
74 76 2 2 1 67 123 2
68 66 2 2 1 68 155 2
84 84 2 2 2 66 130 2
61 70 2 2 2 65.5 120 2
64 60 2 2 2 66 130 3
94 92 2 1 2 62 131 2
60 66 2 2 2 62 120 2
72 70 2 2 2 63 118 2
58 56 2 2 2 67 125 2
88 74 2 1 2 65 135 2
66 72 2 2 2 66 125 2
84 80 2 2 2 65 118 1
62 66 2 2 2 65 122 3
66 76 2 2 2 65 115 2
136
Análisis de Regresión P. Reyes / Enero, 2007
80 74 2 2 2 64 102 2
78 78 2 2 2 67 115 2
68 68 2 2 2 69 150 2
72 68 2 2 2 68 110 2
82 80 2 2 2 63 116 1
76 76 2 1 2 62 108 3
87 84 2 2 2 63 95 3
90 92 2 1 2 64 125 1
78 80 2 2 2 68 133 1
68 68 2 2 2 62 110 2
86 84 2 2 2 67 150 3
76 76 2 2 2 61.75 108 2
Corrida en Minitab:
7 Click Options.
Resultados:
137
Análisis de Regresión P. Reyes / Enero, 2007
Step 1 2
Constant 10.28 44.48
Corrió -19.1
T-Value -9.05
P-Value 0.000
S 13.5 9.82
R-Sq 37.97 67.71
R-Sq(adj) 37.28 66.98
Mallows C-p 103.2 13.5
PRESS 17252.4 9304.69
R-Sq(pred) 35.12 65.01
SUBC> Yes
Step 3
Constant 42.62
Pulso1 0.812
T-Value 8.88
P-Value 0.000
Corrió -20.1
T-Value -10.09
P-Value 0.000
Sexo 7.8
T-Value 3.74
P-Value 0.000
S 9.18
R-Sq 72.14
R-Sq(adj) 71.19
Mallows C-p 1.9
PRESS 8195.99
R-Sq(pred) 69.18
SUBC> No
MTB >
138
Análisis de Regresión P. Reyes / Enero, 2007
139
Análisis de Regresión P. Reyes / Enero, 2007
Este ejemplo usa seis predictores. Se requirío a Minitab intervenir para mostrar los
resultados.
La primera “página” de salida proporciona los resultados para los dos primeros
pasos. En el paso 1, la variable Pulso1 entró al modelo; en el paso 2, entró la
La salida por pasos está diseñada para presentar un resumen conciso de un número
de modelos ajustados.
140
Análisis de Regresión P. Reyes / Enero, 2007
Primero se evalúan los modelos que tienen un predictor, después los de dos
predictores, etcetera. En cada caso se muestra el mejor modelo.
Ejemplo:
El flujo de calor solar se mide ocmop parte de una prueba de energía térmica solar. Se
desea ver como se estima el flujo de calor con base en otras variables: aislamiento,
posición de puntos focales en el este, sur, y norte, y la hora del día. (datos de D.C.
Montgomery and E.A. Peck (1982). Introduction to Linear Regression Analysis. John Wiley &
Sons. p. 486).
141
Análisis de Regresión P. Reyes / Enero, 2007
Instrucciones de Minitab:
Response is Flujo_de_calor
A
i
s
l
a
m
i N
e E o H
n s S r o
Mallows t t u t r
Vars R-Sq R-Sq(adj) C-p S o e r e a
1 72.1 71.0 38.5 12.328 X
1 39.4 37.1 112.7 18.154 X
142
Análisis de Regresión P. Reyes / Enero, 2007
El modelo con todas las variables tiene la mayor R2 ajustada (87.7%), un valor
bajo de Cp de Mallows (6.0), y el menor valor de S (8.039).
El modelo de cuatro predictores con todas las variables excepto la Hora, tiene
un valor bajo de Cp (5.8), la S es ligeramente mayor (8.16) y la R2 ajustada en
ligeramente menor (87.3%).
El mejor modelo de tres predictores incluye Norte, Sur, y Este, con un valor de
Cp ligeramente más alto (7.6) y un valor menor de R2 ajustado.
El modelo con dos predictores podría ser considerado con el menor ajuste. Se
puede observar que el agregar la variable Este no mejora el ajuste del modelo.
Características de un modelo
de regression adecuado
143
Análisis de Regresión P. Reyes / Enero, 2007
· Agregar variable
defasada en tiempo (lag).
Los Residuales están Histograma de residuales · Transformar variables.
normalmente distribuidos.
Gráfica Normal de · Checar puntos atípicos.
residuales
Gráfica de Residuales vs
estimados (fits)
Prueba de Normalidad
Observations No usuales, Gráficas de Residuales · Transformar variables.
puntos atípicos o outliers.
Influyentes (Leverages) · Eliminar la observación
atípica.
Distancia de Cook's
DFITS
Datos mal condicionados (ill Factor de Inflación de · Remover predictor.
conditioned). Variance (VIF)
· Regresión de mínimos
Matriz de correlación de cuadrados parciales.
predictores
· Transformar variables.
144
Análisis de Regresión P. Reyes / Enero, 2007
2. Tratar de determinar las causas del problema. Puedes querer ver que tan sensible
es el modelo al problema. Por ejemplo, si se observa un Outlier, correr el modelo sin
esa observación, para ver como difieren los resultados.
La PLS ajusta variables de respuesta múltiple en un modelo simple. Dado que los
modelos PLS tratan las respuestas como multivariadas, los resultados pueden diferir
de si se tratan individualmente por separado. El modelo agrupa las respuestas
múltiples sólo si estan correlacionadas.
Ejemplo:
Un productor de vino quiere saber como la composición química del vino se relaciona
con las pruebas sensoriales. Se tienen 37 muestras, cada una descrita por 17
concentraciones elementales (Cd, Mo, Mn, Ni, Cu. Al, Ba, Cr, Sr, B, Mg, Si, Na, Ca,
P, K) y una medida del aroma del vino de un panel de catadores. Se quiere predecir
la media del aroma a partir de los 17 elementos y determinar si el modelo PLS es
adecuado, dado que la relaciónde muestras a predictores es baja. Los datos son de
I.E. Frank and B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic Origin
from Chemical Measurements by Partial Least-Squares Regression Modeling," Analytica
Chimica Acta, 162, 241251.
Archivo WineAroma.mtw
145
Análisis de Regresión P. Reyes / Enero, 2007
Cd Mo Mn Ni Cu Al Ba Cr Sr Pb B Mg Si Na Ca P K Aroma
0.005 0.044 1.51 0.122 0.83 0.982 0.387 0.029 1.23 0.561 2.63 128 17.3 66.8 80.5 150 1130 3.3
0.055 0.16 1.16 0.149 0.066 1.02 0.312 0.038 0.975 0.697 6.21 193 19.7 53.3 75 118 1010 4.4
0.056 0.146 1.1 0.088 0.643 1.29 0.308 0.035 1.14 0.73 3.05 127 15.8 35.4 91 161 1160 3.9
0.063 0.191 0.96 0.38 0.133 1.05 0.165 0.036 0.927 0.796 2.57 112 13.4 27.5 93.6 120 924 3.9
0.011 0.363 1.38 0.16 0.051 1.32 0.38 0.059 1.13 1.73 3.07 138 16.7 76.6 84.6 164 1090 5.6
0.05 0.106 1.25 0.114 0.055 1.27 0.275 0.019 1.05 0.491 6.56 172 18.7 15.7 112 137 1290 4.6
0.025 0.479 1.07 0.168 0.753 0.715 0.164 0.062 0.823 2.06 4.57 179 17.8 98.5 122 184 1170 4.8
0.024 0.234 0.91 0.466 0.102 0.811 0.271 0.044 0.963 1.09 3.18 145 14.3 10.5 91.9 187 1020 5.3
0.009 0.058 1.84 0.042 0.17 1.8 0.225 0.022 1.13 0.048 6.13 113 13 54.4 70.2 158 1240 4.3
0.033 0.074 1.28 0.098 0.053 1.35 0.329 0.03 1.07 0.552 3.3 140 16.3 70.5 74.7 159 1100 4.3
0.039 0.071 1.19 0.043 0.163 0.971 0.105 0.028 0.491 0.31 6.56 103 9.47 45.3 67.9 133 1090 5.1
0.045 0.147 2.76 0.071 0.074 0.483 0.301 0.087 2.14 0.546 3.5 199 9.18 80.4 66.3 212 1470 3.3
0.06 0.116 1.15 0.055 0.18 0.912 0.166 0.041 0.578 0.518 6.43 111 11.1 59.7 83.8 139 1120 5.9
0.067 0.166 1.53 0.041 0.043 0.512 0.132 0.026 0.229 0.699 7.27 107 6 55.2 44.9 148 854 7.7
0.077 0.261 1.65 0.073 0.285 0.596 0.078 0.063 0.156 1.02 5.04 94.6 6.34 10.4 54.9 132 899 7.1
0.064 0.191 1.78 0.067 0.552 0.633 0.085 0.063 0.192 0.777 5.56 110 6.96 13.6 64.1 167 976 5.5
0.025 0.009 1.57 0.041 0.081 0.655 0.072 0.021 0.172 0.232 3.79 75.9 6.4 11.6 48.1 132 995 6.3
0.02 0.027 1.74 0.046 0.153 1.15 0.094 0.021 0.358 0.025 4.24 80.9 7.92 38.9 57.6 136 876 5
0.034 0.05 1.15 0.058 0.058 1.35 0.294 0.006 1.12 0.206 2.71 120 14.7 68.1 64.8 133 1050 4.6
0.043 0.268 2.32 0.066 0.314 0.627 0.099 0.045 0.36 1.28 5.68 98.4 9.11 19.5 64.3 176 945 6.4
0.061 0.245 1.61 0.07 0.172 2.07 0.071 0.053 0.186 1.19 4.42 87.6 7.62 11.6 70.6 156 820 5.5
0.047 0.161 1.47 0.154 0.082 0.546 0.181 0.06 0.898 0.747 8.11 160 19.3 12.5 82.1 218 1220 4.7
0.048 0.146 1.85 0.092 0.09 0.889 0.328 0.1 1.32 0.604 6.42 134 19.3 125 83.2 173 1810 4.1
0.049 0.155 1.73 0.051 0.158 0.653 0.081 0.037 0.164 0.767 4.91 86.5 6.46 11.5 53.9 172 1020 6
0.042 0.126 1.7 0.112 0.21 0.508 0.299 0.054 0.995 0.686 6.94 129 43.6 45 85.9 165 1330 4.3
0.058 0.184 1.28 0.095 0.058 1.3 0.346 0.037 1.17 1.28 3.29 145 16.7 65.8 72.8 175 1140 3.9
0.065 0.211 1.65 0.102 0.055 0.308 0.206 0.028 0.72 1.02 6.12 99.3 27.1 20.5 95.2 194 1260 5.1
0.065 0.129 1.56 0.166 0.151 0.373 0.281 0.034 0.889 0.638 7.28 139 22.2 13.3 84.2 164 1200 3.9
0.068 0.166 3.14 0.104 0.053 0.368 0.292 0.039 1.11 0.831 4.71 125 17.6 13.9 59.5 141 1030 4.5
0.067 0.199 1.65 0.119 0.163 0.447 0.292 0.058 0.927 1.02 6.97 131 38.3 42.9 85.9 164 1390 5.2
0.084 0.266 1.28 0.087 0.071 1.14 0.158 0.049 0.794 1.3 3.77 143 19.7 39.1 128 146 1230 4.2
0.069 0.183 1.94 0.07 0.095 0.465 0.225 0.037 1.19 0.915 2 123 4.57 7.51 69.4 123 943 3.3
0.087 0.208 1.76 0.061 0.099 0.683 0.087 0.042 0.168 1.33 5.04 92.9 6.96 12 56.3 157 949 6.8
0.074 0.142 2.44 0.051 0.052 0.737 0.408 0.022 1.16 0.745 3.94 143 6.75 36.8 67.6 81.9 1170 5
0.084 0.171 1.85 0.088 0.038 1.21 0.263 0.072 1.35 0.899 2.38 130 6.18 101 64.4 98.6 1070 3.5
0.106 0.307 1.15 0.063 0.051 0.643 0.29 0.031 0.885 1.61 4.4 151 17.4 7.25 103 177 1100 4.3
0.102 0.342 4.08 0.065 0.077 0.752 0.366 0.048 1.08 1.77 3.37 145 5.33 33.1 58.3 117 1010 5.2
146
Análisis de Regresión P. Reyes / Enero, 2007
7 Click Graphs, luego seleccionar Model selection plot, Response plot, Std
Coefficient plot, Distance plot, Residual versus leverage plot, y Loading plot. No
seleccionar Coefficient plot. Click OK en cada una de las ventanas de diálogo.
PLS Regression: Aroma versus Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, ...
R2 Predictora
Es similar a la R2, la R2 predictora indica que tan bien estima el modelo las respuestas
a nuevas observaciones, mientras que la R2 sólo indica que tan bien el modelo se
ajusta a los datos. La R2 predictora puede evitar el sobreajuste del modelo y es más
útil que la R2 ajustada para comparar modelos dado que es calculada con
observaciones no incluidas en el cálculo del modelo.
147
Análisis de Regresión P. Reyes / Enero, 2007
148
Análisis de Regresión P. Reyes / Enero, 2007
- El modelo con dos componentes, seleccionado por validación cruzada, tiene una
R2 de 70.1% y una R2 de Predicción de 46.3%. El modelo de cuatro componentes
tiene una R2 predictora un poco menor, con una mayor R2, pero también se podría
utilizar.
- Comparando la R2 predictora del modelo PLS de dos componentes con la R2
predictora del modelo de mínimos cuadrados de 17 componentes, se puede ver
que el modelo PLS predice los datos mucho más exactamente que el modelo
completo. La R2 del modelo PLS de dos componentes es de 46%, mientreas que
el de 17 componentes es de solo 18%.
- La varianza de X indica la cantidad de varianza en los predictores que es explicada
por el modelo. En este ejemplo, el modelo de dos componentes explica el 36.7%
de la varianza en los predictores.
-
149
Análisis de Regresión P. Reyes / Enero, 2007
Esta gráfica muestra la tabla de “Model Selection and Validation. La línea vertical indica
que le modelo óptimo tiene dos componentes. Se puede observar que la habilidad
predictiva de todos los modelos con más de cuatro componentes, se reduce
significativamente, incluyendo el de 17 componententes con sólo 18%.
0.7
0.6
R-Sq
0.5
0.4
0.3
0.2
0.1
2 4 6 8 10 12 14 16
Components
Como los puntos muestran un patrón de línea recta, de abajo hacia arriba, la gráfica
de respuesta indica que el modelo ajusta los datos adecuadamente. A pesar de haber
diferencias entre las respuestas estimadas (fitted) y las de validación cruzada (cross-
validated indica que tan bien el modelo estima los datos, de modo que se puedan
omitir), ninguno es suficientemente severo para indicar puntos influyentes extremos.
3
3 4 5 6 7 8
Actual Response
150
Análisis de Regresión P. Reyes / Enero, 2007
0.2
Standardized Coefficients
0.1
0.0
-0.1
-0.2
-0.3
2 4 6 8 10 12 14 16
Predictors
0.2 Mg
Na Ni
0.1 Cu
Cd
0.0 Mn
Ba
-0.1 Sr
-0.2
Al
-0.3
-0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2
Component 1
151
Análisis de Regresión P. Reyes / Enero, 2007
6
Distance From Y
0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Distance From X
152
Análisis de Regresión P. Reyes / Enero, 2007
2
Standardized Residual
-1
-2
153
Análisis de Regresión P. Reyes / Enero, 2007
Hay tres procedimientos de regresión logística que se pueden utilizar para evaluar
las relaciones entre uno o más vareiables predoctoras y una respuesta categórica de
los tipos siguientes:
Tipo de
Variable Número de
categorias Características Ejemplos
Binary 2 Dos niveles Éxito, falla
Si, No
Ordinal 3 o más Orden natural de niveles Nada, moderado, severo
Fino, medio, grueso
Nominal 3 o más Niveles sin orden natural Azul negro, rojo, amarillo
Soleado, lluvioso, nublado
Tanto los métodos de regression logísticos como los métodos de mínimos cuadrados,
estiman los parámetros en el modelo de manera que el ajuste es optimizado. El de
mínimos cuadrados minimiza la suma de cuadrados de los errores para estimar los
parámetros, mientras que la regresión logística obtiene la máxima verosimilitud de los
parámetros usando un algoritmo iterativo de mínimos cuadrados reponderados.
5
Hair., Joseph Jr., Et. Al., Multivariate Data Analysis, Prentice Hall Internacional, Nueva Jersey, 1984, pp. 279-
325
154
Análisis de Regresión P. Reyes / Enero, 2007
P(y) = 1
P(y) = 0
Bajo Alto
155
Análisis de Regresión P. Reyes / Enero, 2007
156
Análisis de Regresión P. Reyes / Enero, 2007
P(evento)
e B 0 B1 X 1 B2 X 2 .... Bn X n
P(no evento)
Los coeficientes estimados (B0, B1, … Bn) son medidas reales de las posibilidades
en la relación de probabilidades. Como se expresan en logaritmos, al final se deben
regresar con las funciones de antilogaritmo de modo que se pueda el efecto en las
probabilidades de manera más fácil.
La medición global de que tan bien ajusta el modelo, similar a la menor suma de
cuadrados en la regresión múltiple, se da por el valor de verosimilitud (que es
realmente menos 2 veces el logaritmo del valor de verosimilitud = -2LL). Un modelo
ideal tendrá una verosimilitud de 1 y un -2LL de cero. Para determinar un “pseudos
R2” de la regresión logística se puede calcular como:
157
Análisis de Regresión P. Reyes / Enero, 2007
Ejemplo de Minitab
158
Análisis de Regresión P. Reyes / Enero, 2007
Bajo No 190
Bajo No 155
Bajo Si 170
Bajo No 155
Bajo No 215
Bajo Si 150
Bajo Si 145
Bajo No 155
Bajo No 155
Bajo No 150
Bajo Si 155
Bajo No 150
Alto Si 180
Bajo No 160
Bajo No 135
Bajo No 160
Bajo Si 130
Bajo Si 155
Bajo Si 150
Bajo No 148
Alto No 155
Bajo No 150
Alto Si 140
Bajo No 180
Bajo Si 190
Alto No 145
Alto Si 150
Bajo Si 164
Bajo No 140
Bajo No 142
Alto No 136
Bajo No 123
Bajo No 155
Alto No 130
Bajo No 120
Bajo No 130
Alto Si 131
Bajo No 120
Bajo No 118
Bajo No 125
Alto Si 135
Bajo No 125
Alto No 118
Bajo No 122
Bajo No 115
Bajo No 102
Bajo No 115
Bajo No 150
159
Análisis de Regresión P. Reyes / Enero, 2007
Bajo No 110
Alto No 116
Bajo Si 108
Alto No 95
Alto Si 125
Bajo No 133
Bajo No 110
Alto No 150
Bajo No 108
Corrida en Minitab:
5 Click Results. Seleccionar In addition, list of factor level values, tests for
terms with more than 1 degree of freedom, and 2 additional goodness-of-fit
tests. Click OK en cada uno de las ventanas de diálogo.
160
Análisis de Regresión P. Reyes / Enero, 2007
Response Information
Variable Value Count
Pulso en reposo Bajo 70 (Event)
Alto 22
Total 92
Información de los factores: muestra todos los factores del modelo, el número de
niveles para cada factor, y los valores de nivel de los factores. El nivel del factor que
se ha designado como nivel de referencia es la primera entrada en Values, el sujeto
no fuma.
Factor Information
Factor Levels Values
Fuma 2 No, Si
De la salida, se puede ver que los coeficientes estimados para ambos Fuma
(z=-2.16, p =0.031) y Peso (z= 2.04, p = 0.041), tienen valores p menores a
0.05 indicando que hay suficiente evidencia de que los coeficientes no sean
cero utilizando un alfa de 0.05.
El coeficiente estimado de -1.193 para Fuma, representa el cambio en el
logaritmo de P(pulso bajo/P(pulso alto) cuando el sujeto fuma comparado a
cuando no lo hace, con el covariado peso mantenido constante.
El coeficiente estimado de 0.025 para Peso representa el cambio en el
logaritmo de P(pulso bajo/P(pulso alto) con un incremento en peso de 1 libra,
con el factor Fuma mantenido constante.
161
Análisis de Regresión P. Reyes / Enero, 2007
Log-Likelihood = -46.820
Test that all slopes are zero: G = 7.574, DF = 2, P-Value = 0.023
162
Análisis de Regresión P. Reyes / Enero, 2007
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 40.8477 47 0.724
Deviance 51.2008 47 0.312
Hosmer-Lemeshow 4.7451 8 0.784
Brown:
General Alternative 0.9051 2 0.636
Symmetric Alternative 0.4627 1 0.496
163
Análisis de Regresión P. Reyes / Enero, 2007
individuo con pulso bajo tiene una probabilidad más alta de tener un pulso bajo;
es discordante si ocurre lo opuesto; y pareado si las probabilidades son iguales.
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures
Concordant 1045 67.9 Somers' D 0.38
Discordant 461 29.9 Goodman-Kruskal Gamma 0.39
Ties 34 2.2 Kendall's Tau-a 0.14
Total 1540 100.0
Las gráficas indican que dos observaciones no ajustan bien en el modelo (alto Delta
Chi cuadrado). Puede ser causado por un valor influeyente grande y/o un residuo alto
de Pearson, que fue el caso ya que los valores influyentes fueron menores 0.1.
164
Análisis de Regresión P. Reyes / Enero, 2007
Hosmer y Lemeshow indican que Delta Chi cuadrado o Delta Deviance mayores a
3.84 son grandes.
4
Delta Chi-Square
4
Delta Chi-Square
Si se seleccionar Editor > Brush, se marcan los puntos, y dando clic en ellos, se
identifican como valores de 31 y 66. Estos son individuos con un pulso en reposo
alto, queines no fuman, y quienes tienen menos peso que el promedio (peso
165
Análisis de Regresión P. Reyes / Enero, 2007
promedio = 116.136 libras). Se pueden hacer más investigaciones para ver por qué
el modelo no se ajustó a ellos.
166
Análisis de Regresión P. Reyes / Enero, 2007
Instrucciones:
1. Analyze > Regresión > Binary Logistic
2. Seleccionar en Dependent – Pulsorep; Covariates – Fuma Peso
3. Con el botón Categorical – Fuma > Continue
4. Con boitón Options Seleccionar Calsification Plots, Hosmer Goodness of fit, CI for
Exp(B) > Continue
5. OK
Logistic Regression
Case Processing Summary
Unweighted Cases(a) N Percent
Total 92 100.0
Unselected Cases 0 .0
Total 92 100.0
a If weight is in effect, see classification table for the total number of cases.
167
Análisis de Regresión P. Reyes / Enero, 2007
Bajo 0
Alto 1
Parameter coding
Frequency
(1)
No 64 1.000
FUMA
Si 28 .000
Predicted
PULSOREP
Bajo 70 0 100.0
PULSOREP
Step 0 Alto 22 0 .0
Score df Sig.
168
Análisis de Regresión P. Reyes / Enero, 2007
Chi-square df Sig.
Model Summary
Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square
1 7.561 8 .477
Expected Total
Observed Expected Observed
1 9 8.345 0 .655 9
2 10 9.591 1 1.409 11
3 8 9.322 3 1.678 11
4 7 7.379 2 1.621 9
5 6 7.119 3 1.881 9
Step 1
6 9 6.782 0 2.218 9
7 7 7.213 3 2.787 10
8 6 5.419 2 2.581 8
9 4 5.532 5 3.468 9
10 4 3.299 3 3.701 7
Classification Table(a)
169
Análisis de Regresión P. Reyes / Enero, 2007
Predicted
PULSOREP
Bajo 68 2 97.1
PULSOREP
Step 1 Alto 20 2 9.1
Step 1(a) PESO -.025 .012 4.169 1 .041 .975 .952 .999
Step number: 1
Observed Groups and Predicted Probabilities
16 ô ô
ó ó
ó ó
F ó ó
R 12 ô ô
E ó A ó
Q ó B ó
U ó B ó
E 8 ô B ô
N ó B B ó
C ó BA AA B ó
Y ó BAABA B A B A ó
4 ô BBBBB ABB A B A ô
ó B B BBBBBABBB B B B A ó
ó B B BBBBBBBBBABAB B B ó
ó B BBBBBBBBBBBBBBBBBAB BAA AB A A B B ó
Predicted òòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòò
Prob: 0 .25 .5 .75 1
Group: BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
Predicted Probability is of Membership for Alto
The Cut Value is .50
Symbols: B - Bajo
A - Alto
Each Symbol Represents 1 Case.
170
Análisis de Regresión P. Reyes / Enero, 2007
171
Análisis de Regresión P. Reyes / Enero, 2007
172
Análisis de Regresión P. Reyes / Enero, 2007
Corrida en Minitab:
5 Click Results. Seleccionar In addition, list of factor level values, tests for
terms with more than 1 degree of freedom, and 2 additional goodness-of-fit
tests. Click OK en cada uno de las ventanas de diálogo.
173
Análisis de Regresión P. Reyes / Enero, 2007
Binary Logistic Regression: X11 versus X1, X2, X3, X4, X5, X6, X7
Log-Likelihood = -12.479
Test that all slopes are zero: G = 109.645, DF = 7, P-Value = 0.000
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 41.5472 91 1.000
Deviance 24.9571 91 1.000
Hosmer-Lemeshow 2.0928 8 0.978
Brown:
General Alternative 2.5040 2 0.286
Symmetric Alternative 0.0018 1 0.966
Group
Value 1 2 3 4 5 6 7 8 9 10 Total
1
Obs 0 0 0 2 9 9 10 10 10 10 60
Exp 0.0 0.0 0.3 2.1 8.0 9.6 9.9 10.0 10.0 10.0
0
Obs 10 10 10 8 1 1 0 0 0 0 40
Exp 10.0 10.0 9.7 7.9 2.0 0.4 0.1 0.0 0.0 0.0
Total 10 10 10 10 10 10 10 10 10 10 100
174
Análisis de Regresión P. Reyes / Enero, 2007
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
20
15
Delta Chi-Square
10
20
15
Delta Chi-Square
10
175
Análisis de Regresión P. Reyes / Enero, 2007
Iteration Historya,b,c
Coefficien
-2 Log ts
Iteration likelihood Constant
Step 1 134.603 .400
0 2 134.602 .405
a. Constant is included in the model.
b. Initial -2 Log Likelihood: 134.602
c. Es timation terminated at iteration number 2 because
log-likelihood decreased by less than .010 percent.
Classification Tablea,b
Predicted
X11 Percentage
Observed .00 1.00 Correct
Step 0 X11 .00 0 40 .0
1.00 0 60 100.0
Overall Percentage 60.0
a. Constant is included in the model.
b. The cut value is .500
176
Análisis de Regresión P. Reyes / Enero, 2007
Score df Sig.
Step Variables X1 39.773 1 .000
0 X2 18.312 1 .000
X3 37.681 1 .000
X4 .142 1 .706
X5 4.821 1 .028
X6 .181 1 .670
X7 46.796 1 .000
Overall Statistics 66.959 7 .000
Iteration Historya,b,c,d
-2 Log Coefficients
Iteration likelihood Constant X1 X2 X3 X4 X5 X6 X7
Step 1 59.008 -1.327 .842 .489 .453 -.048 -.913 .347 -.570
1 2 38.779 -1.776 1.318 .850 .747 -.077 -1.409 .909 -1.126
3 29.850 -2.073 1.594 1.054 1.109 -.251 -1.481 1.659 -1.757
4 26.324 -1.986 1.518 .950 1.502 -.683 -.851 2.695 -2.403
5 25.175 -1.600 .871 .356 1.887 -1.383 .811 3.969 -2.965
6 24.965 -1.397 .216 -.226 2.149 -1.919 2.313 4.882 -3.307
7 24.957 -1.375 .081 -.345 2.212 -2.040 2.627 5.096 -3.387
8 24.957 -1.375 .076 -.349 2.215 -2.045 2.638 5.104 -3.390
a. Method: Enter
b. Constant is included in the model.
c. Initial -2 Log Likelihood: 134.602
d. Es timation terminated at iteration number 8 because log-likelihood decreased by less than .010 percent.
Chi-square df Sig.
Step 1 Step 109.645 7 .000
Block 109.645 7 .000
Model 109.645 7 .000
177
Análisis de Regresión P. Reyes / Enero, 2007
Model Summary
St ep Chi-square df Sig.
1 2.093 8 .978
Classification Tablea
Predicted
X11 Percentage
Observed .00 1.00 Correct
Step 1 X11 .00 38 2 95.0
1.00 2 58 96.7
Overall Percentage 96.0
a. The cut value is .500
178
Análisis de Regresión P. Reyes / Enero, 2007
Correlation Matrix
Constant X1 X2 X3 X4 X5 X6 X7
Step Constant 1.000 -.173 -.181 -.300 -.189 .146 .166 -.252
1 X1 -.173 1.000 .978 -.285 .516 -.987 -.426 .235
X2 -.181 .978 1.000 -.192 .454 -.980 -.372 .162
X3 -.300 -.285 -.192 1.000 -.701 .309 .717 -.746
X4 -.189 .516 .454 -.701 1.000 -.530 -.938 .631
X5 .146 -.987 -.980 .309 -.530 1.000 .430 -.279
X6 .166 -.426 -.372 .717 -.938 .430 1.000 -.716
X7 -.252 .235 .162 -.746 .631 -.279 -.716 1.000
Step number: 1
80
F
R 60
E
Q
U
E 40 1
N 1
C 1
Y 0 1
20 0 1
0 1
0 1
000 11 1
Predicted
Prob: 0 .25 .5 .75 1
Group: 000000000000000000000000000000111111111111111111111111111111
179
Análisis de Regresión P. Reyes / Enero, 2007
Este problema puede ser abordado con la Regresión Logística, donde la respuesta es
binaria (0,1) y no sigue una distribución normal con varianza constante.
En el modelo general:
6
Landau Sabine y Everitt Brian, Statistical Analysis USing SPSS, Chapman & Hall/ CRC, Chicago, EEUU.,
2004
180
Análisis de Regresión P. Reyes / Enero, 2007
Las tablas de contingencia para las diferentes variables son las siguientes (comando
Crosstabs…):
181
Análisis de Regresión P. Reyes / Enero, 2007
Las proporciones de supervivencia son mayores en las mujeres que en los hombres.
182
Análisis de Regresión P. Reyes / Enero, 2007
183
Análisis de Regresión P. Reyes / Enero, 2007
La curva Lowess (locally weighted regresión fit) permite revelar la relación entre las dos edades en vez
de asumir que es lineal
________________________________________________________________.
184
Análisis de Regresión P. Reyes / Enero, 2007
Para el caso que se está tratando de encontrar la relación entre edad y supervivencia
se tiene:
A pesar de que las tablas de contingencia y gráficas de dispersión son útiles para los
análisis iniciales, no describen las posibles confusiones o interacciones entre las
variables consideradas.
Los hombres tienden a tener un boleto de tercera clase que las mujeres.
Los hombres llevan menos hermanos que las mujeres.
La mediana de edad es decreciente con la clase baja de pasajeros.
El número de hermanos o esposa decrece con la edad.
El número de familiares directos se incrementa con la edad.
Para clarificar la presentación de los datos, se puede hacer una clasificación múltiple
de supervivencia de pasajeros dentro de estratos definidos por variables explicativas.
185
Análisis de Regresión P. Reyes / Enero, 2007
Para lo cual se categorizar las variables edad, parch y sibsp, formando nuevas
variables:
Age_cat para categorizar a los pasajeros en niños (<21 años) y adultos (>21
años).
Marital, para categorizar en cuatro estados civiles (1-Sin hermanos o esposa;
2-Con hermanos o esposa pero sin niños; 3- Sin hermanos o esposa pero con
niños; 4- Con hermanos o esposa y además con niños). Para generar estas
variables se pueden utilizar los comandos de SPSS Recode, Compute e If
Cases. También se usa el comando Crosstabs para generar la tabla de cinco
vías y Layer para indicar que forme celdas para cada combinación de las
variables.
186
Análisis de Regresión P. Reyes / Enero, 2007
187
Análisis de Regresión P. Reyes / Enero, 2007
Las conclusiones del estudio indican que para los pasajeros sin hermanos o
esposa o sin niños, a los cuales pertenecía el 60% de los pasajeros se observa
que:
Las mujeres con boleto de primera clase tenían una probabilidad mayor de
supervivencia.
Los hombres con boleto de tercera clase tenían menos probabilidad de
sobrevivir.
Los niños tuvieron mayor probabilidad de sobrevivir que los adultos.
Por omisión SPSS asume que las variables explicativas se miden en una
escala de intervalo. Para informar a SPSS que la variable pclass es
categórica, se le indica con el botón Categorical y se incluye en la ventana
Categorical Covariates. Esto hará que se generen las variables artificiales
188
Análisis de Regresión P. Reyes / Enero, 2007
SPSS inicia con ajustar un null model vgr. Un modelo que contiene sólo un
parámetro de intersección (ver Block 0: beginning block).
189
Análisis de Regresión P. Reyes / Enero, 2007
La primera parte de esta tabla es una “tabla de clasificación” para el modelo nulo, que
compara las predicciones de supervivencia realizadas con base en el modelo ajustado
con el estatus verdadero de supervivencia. Se pronostica a los pasajeros en la
categoría de supervivencia si sus probabilidades son superiores a 0.05 (la cuál puede
cambiarse en el diálogo Options), de manera que la proporción de no supervivencia
de 0.382 está por debajo del límite de 0.5 y así el modelo calsifica a los no
sobrevivientes con una exactitud del 61.8%.
190
Análisis de Regresión P. Reyes / Enero, 2007
relacionada significativamente con la clase del boleto del pasajero (Chi cuadrada =
127.9, p < 0.001), también se incluyen comparaciones entre las clases de pasajeros
con la categoría de referencia (tercera clase).
191
Análisis de Regresión P. Reyes / Enero, 2007
La tabla “Ominibus Test of Model” muestra la razón de verosimilitud (LR) o sea es una
prueba para evaluar los efectos de Pclass, de nuevo se detecta un efecto significativo
con Chi cuadrada = 127.8 y p < 0.001.
192
Análisis de Regresión P. Reyes / Enero, 2007
193
Análisis de Regresión P. Reyes / Enero, 2007
Habiendo analizado que todos los predoctores potenciales tienen asociación con la
supervivencia cuando se consideran de manera singular, el siguiente paso es estimar
sus efectos simultáneamente. De esta manera, se puede estimar el efecto para cada
uno, ajustado por el remanente. El modelo de regresión logística incluye en su
ventana de Covariates, las cuatro variables categóricas y los tres términos de edad
(con el botón Categorical). Los resultados se muestran a continuación:
194
Análisis de Regresión P. Reyes / Enero, 2007
Se puede notar que de la tabla “Case Processing Summary”, los casos incluidos en
el análisis se reduce a 1046 dado que falta información en la variable de edad para
263 pasajeros.
195
Análisis de Regresión P. Reyes / Enero, 2007
El modelo final de efectos principales contiene términos de edad, clase del boleto,
género, y número de hermanos/esposas, cada contribuye significativamente a un
nivel del 5% después de ajustar los otros términos del modelo.
Ahora se prueban los términos de interacción de dos vías, una por una, por medio de
la opción de bloqueo para agregar los términos de interacción de interés, a los
efectos principales significativos identificados previamente. Por ejemplo para Age y
Sex:
196
Análisis de Regresión P. Reyes / Enero, 2007
El primer término permite que el efecto del término lineal de Age varie con Sex, la
segunda hace lo mismo con el término cuadrático y Age.
197
Análisis de Regresión P. Reyes / Enero, 2007
198
Análisis de Regresión P. Reyes / Enero, 2007
Usar el comando Split File para organizar la salida en grupos definidos por
sibsp2.
Usar el comando Simple Scatterplot para producir una gráfica de dispersión
de ln_odds contra la edad con marcadores definidos por class.se.
199
Análisis de Regresión P. Reyes / Enero, 2007
200
Análisis de Regresión P. Reyes / Enero, 2007
201
Análisis de Regresión P. Reyes / Enero, 2007
La regression logística ordinal realiza una regresión con una variable de respuesta
ordinal. Las variables ordinales son variables categóricas que tienen tres o más niveles
posibles con un orden natural, tal como fuertemente en desacuerdo, desacuerdo, de
acuerdo, y fuertemente de acuerdo. Un modelo con uno o más predictores se ajusta
usando un algoritmo iterativo de mínimos cuadrados reponderado, para obtener los
estimados de los parámetros por máxima verosimilitud.
Se asumen líneas de regresión paralelas, y por tanto, se determina una sóla pendiente
para cada covariado. En situaciones donde este supuesto no es válido, la regresión
logística nominal es más apropiada, ya que genera funciones logit separadas.
Ejemplo:
202
Análisis de Regresión P. Reyes / Enero, 2007
1 1 56.00 3 2 39.00
2 1 40.00 3 1 34.50
1 2 48.00 2 1 47.50
2 1 46.50 1 2 42.00
2 2 72.00 2 2 45.50
2 2 31.00 2 2 38.50
1 1 48.00 2 1 36.50
2 2 36.50 2 2 37.50
2 2 43.75 3 1 38.50
2 1 34.25 2 2 47.00
2 1 41.25 2 2 39.75
2 2 41.75 1 1 60.00
2 2 45.25 2 2 41.00
2 1 43.50 2 1 41.00
2 2 53.00 3 1 30.00
3 1 38.00 2 2 45.00
2 2 59.00 2 2 51.00
2 1 52.50 2 2 35.25
2 2 42.75 1 2 40.50
2 2 31.50 2 2 39.50
2 2 43.50 3 2 36.00
2 2 40.00
Instrucciones de Minitab
4 Click Results. Seleccionar In addition, list of factor level values, and tests for
terms with more than 1 degree of freedom. Click OK en cada ventana de diálogo.
203
Análisis de Regresión P. Reyes / Enero, 2007
- Para factores numéricos, el nivel de referencia es el valor con el menor valor numérico.
- Para fechas, el nivel de referencia es el nivel con la fecha/hora más antigua.
- Para factores de texto, el nivel de referencia es el nivel que está primero en orden
alfabético.
Si ya se definió un valor de orden para un factor de texto, la regla por omisión es que se
designa el primer valor en el orden definido como valor de referencia.
La regression logística crea un conjunto de variables de diseño para cada uno de los factores
en el Modelo. Si hay k niveles, habrá k-1 variables de diseño y el nivel de referencia será
codificado con cero. Por ejemplo:
204
Análisis de Regresión P. Reyes / Enero, 2007
Minitab asigna el nivel de referencia como sigue dependiendo del tipo de datos:
- Para factores numéricos, el nivel de referencia es el valor con el mayor valor numérico.
- Para fechas, el nivel de referencia es el nivel con la fecha/hora más reciente.
- Para factores de texto, el nivel de referencia es el nivel que es último en orden alfabético.
Response Information
Factor Information
205
Análisis de Regresión P. Reyes / Enero, 2007
- Los valores etiquetados Const(1) y Const(2) son intersecciones estimadas para las
funciones logit de probabilidad acumuladas de supervivencia para <10 días, y para
10-30 días respectivamente.
- El coeficiente de 0.2015 para la región es el cambio estimado en la función logit
acumulativa del tiempo de supervivencia cuando la región es 2 comparada con la
región 1, con el covariado Nivel Toxico mantenido constante. Dado que el
coeficiente estimado es 0.685, no hay suficiente evidencia de que la región tenga
un efecto sobre el tiempo de supervivencia.
- Hay un coeficiente estimado para cada covariado, que da líneas paralelas para el
nivel del factor. En este caso, el coeficiente estimado para un covariado simple,
Nivel Toxico, es 0.121, con un valor p < 0.0005. El valor p indica que para la
mayoría de niveles alfa, hay evidencia suficiente para concluir que el nivel de
toxicidad afecta la supervivencia. El coeficiente positivo, y una tasa de posibilidades
mayor a uno, indica que los niveles de toxicidad más altos tienden a estar
asociados con menores valores de superviviencia. Específicamente, un incremento
de una unidad en la toxicidad del agua resulta en un 13% de incremento en las
posibilidades que la salamadra viva menos o igual a 10 días contra más de 30 días,
y que la salamandra viva menos que o igual a 30 días versus más que 30 días.
- Se muestra la verosimilitud logarítmica (log Likelihood) de las iteraciones de
máxima verosimilitud junto con el estadístico G. Este estadístico prueba la hipótesis
que todos los coeficientes asociados con los predictores son iguales a cero versus
al menos un coeficiente no es cero. En este caso G = 14.713 con un valor p de
0.001, indicando que hay suficiente evidencia para concluir que al menos uno de
los coeficientes estimados es diferente de cero.
Log-Likelihood = -59.290
Test that all slopes are zero: G = 14.713, DF = 2, P-Value = 0.001
206
Análisis de Regresión P. Reyes / Enero, 2007
Prueba de bondad de ajuste: muestra tanto las pruebas de Pearson como deviance.
En este ejemplo para Pearson se tiene un valor P de 0.463, y para la prueba de
deviance es 0.918, indicando que no hay suficiente evidencia para afirmar que el
modelo no ajusta los datos adecuadamente. Si el valor P es menor que el nivel de alfa
seleccionado, la prueba rechaza la hipótesis de que el modelo ajusta los datos
adecuadamente.
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 122.799 122 0.463
Deviance 100.898 122 0.918
207
Análisis de Regresión P. Reyes / Enero, 2007
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
208
Análisis de Regresión P. Reyes / Enero, 2007
Las variables nominales son variables categóricas que tienen tres o más niveles
posibles, sin un orden natural. Por ejemplo, los niveles en un estudio de gusto por la
comida, puede incluir: crujiente, fresca y firme (crunchy, mushy, and crispy).
Ejemplo:
209
Análisis de Regresión P. Reyes / Enero, 2007
Ciencias Exposición 12
Ciencias Discusión 12
Artes Exposición 12
Matemáticas Discusión 12
Matemáticas Discusión 12
Artes Exposición 12
Artes Discusión 13
Matemáticas Discusión 13
Artes Exposición 13
Artes Exposición 13
Matemáticas Discusión 13
Ciencias Discusión 13
Matemáticas Exposición 13
Artes Exposición 13
Instrucciones de Minitab:
4 Click Results. Seleccionar In addition, list of factor level values, and tests for
terms with more than 1 degree of freedom. Click OK en cada ventana de diálogo.
210
Análisis de Regresión P. Reyes / Enero, 2007
Factor Information
211
Análisis de Regresión P. Reyes / Enero, 2007
Predictor Upper
Logit 1: (math/science)
Constant
TeachingMethod
lecture 3.58
Age 2.49
Logit 2: (arts/science)
Constant
TeachingMethod
lecture 234.91
Age 8.66
212
Análisis de Regresión P. Reyes / Enero, 2007
Log-Likelihood = -26.446
Test that all slopes are zero: G = 12.825, DF = 4, P-Value = 0.012
Prueba de bondad de ajuste: muestra tanto las pruebas de Pearson como deviance.
En este ejemplo para Pearson se tiene un valor P de 0.730, y para la prueba de
deviance es 0.640, indicando que no hay suficiente evidencia para afirmar que el
modelo no ajusta los datos adecuadamente. Si el valor P es menor que el nivel de alfa
seleccionado, la prueba rechaza la hipótesis de que el modelo ajusta los datos
adecuadamente.
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 6.95295 10 0.730
Deviance 7.88622 10 0.640
213
Análisis de Regresión P. Reyes / Enero, 2007
BIBLIOGRAFÍA
Draper, Norman R., Smith, Harry, Applied Regression Analysis, John Wiley and
Sons, Inc., New York, 1998
214
Análisis de Regresión P. Reyes / Enero, 2007
a) La recta de regresión
Analysis of Variance
Source DF SS MS F P
Regression 1 178.09 178.09 31.10 0.000
Residual Error 26 148.87 5.73
Total 27 326.96 Ftablas=F1,26,0.05=4.23
R-Sq = 54.5%
215
Análisis de Regresión P. Reyes / Enero, 2007
Predicted Values
Fit StDev Fit 95.0%CI para media 95.0% PI p.valor futuro
7.738 0.473 ( 6.766; 8.710) ( 2.724; 12.752)
216
Análisis de Regresión P. Reyes / Enero, 2007
PROBLEMA 2.2
217
Análisis de Regresión P. Reyes / Enero, 2007
PROBLEMA 2.3
Calcular lo siguiente:
a) La recta de regresión
The regression equation is
Y1 = 607 - 21.4 X4
Source DF SS MS F P
Regression 1 10579 10579 69.61 0.000
Residual Error 27 4103 152
Total 28 14682 Ftablas=F1,27,.05=4.21
218
Análisis de Regresión P. Reyes / Enero, 2007
0.84882 27
t0 8.3427 Ttablas 0.025,27 = 2.052
1 0.7205
Unusual Observations
Obs X4 Y1 Fit StDev Fit Residual St Resid
22 17.6 254.50 229.99 3.28 24.51 2.06R
24 19.1 181.50 199.39 6.44 -17.89 -1.70 X
25 16.5 227.50 253.75 2.34 -26.25 -2.17R
R denotes an observation with a large standardized residual
X denotes an observation whose X value gives it large
influence.
219
Análisis de Regresión P. Reyes / Enero, 2007
PROBLEMA 2.7
a) Ecuación de regresión
The regression equation is
Y78 = 77.9 + 11.8 X78
Analysis of Variance
Source DF SS MS F P
Regressio 1 148.31 148.31 11.47 0.003
Residual 18 232.83 12.94
error
Total 19 381.15 Ftablas = F0.05,1,18=4.41
c) Calcular R^2
R-Sq = 38.9%
t0.025,18 = 2.101
b1 t*std dev (Predict.X78) =11.801 2.101* (3.485) =
4.47699 <= 1 <= 19.12301
Predicted Values
220
Análisis de Regresión P. Reyes / Enero, 2007
PROBLEMA 2.8
0.6237 18
t0 3.38527 Ttablas 0.025,18 = 2.101
1 0.389
PROBLEMA 2.9
a) Ecuación de regresión
Analysis of Variance
Source DF SS MS F P
Regressi 1 280590 280590 74122.78 0.000
Residual 10 38 4
error
Total 11 280627
Column Mean
Mean of X9 = 46.500; se incrementa en un grado
221
Análisis de Regresión P. Reyes / Enero, 2007
Predicted Values
Predicted Values
PROBLEMA 2.10
a) Encontrar el coeficiente de correlación r
0.999 10
t0 272.25 Ttablas 0.005,10 = 1.812
1 0.999
222
Análisis de Regresión P. Reyes / Enero, 2007
Y = X + = [1 : D] + (3.2)
X’X b = X’ Y (3.4)
B) VARIANZAS Y COVARIANZAS DE b
SSE (Y Xb)' (Y Xb) Y ' Y b' X ' Y Y ' Xb b' X ' Xb Y ' Y 2b' X ' Y b' X ' Xb
223
Análisis de Regresión P. Reyes / Enero, 2007
SSE
s 2 MSE (3.15)
Np
H 0 : 1 2 .... k 0 ; H a : i 0, i 1,2,..., k
Ho se rechazará si Ft >= Fo
Fuente de
variación SS df MS F0 .
Regresión SSR k= p-1 MSR MSR/MSE
Residuos SSE n–k–1= N-p MSE Ft=F,p-1,N-p
Total SST=SSR+SSE n – 1=k+(n-k+1)
Donde:
N __
SST (Yu Y ) 2 con N-1 grados de libertad (3.24)
u 1
N ^ __
SSR (Y ( x u ) Y ) 2 con p (parámetros) – 1 grados de libertad (3.25)
u 1
N ^
SSE (Yu Y ( x u )) 2 con (N-1) – (p –1) grados de libertad (3.26)
u 1
224
Análisis de Regresión P. Reyes / Enero, 2007
(1' Y ) 2
SST Y ' Y (3.27)
N
(1' Y ) 2
SSR b' X ' Y (3.28)
N
SSE Y 'Y b' X 'Y
H0 : j 0 H1 : j 0
Si no se rechaza Ho quiere decir que el regresor Xj puede ser excluido del modelo,
Ho es rechazada si t0 t / 2,n k 1 , donde:
bj
t0
se (b j )
225
Análisis de Regresión P. Reyes / Enero, 2007
FORMULAS
226
Análisis de Regresión P. Reyes / Enero, 2007
227
Análisis de Regresión P. Reyes / Enero, 2007
228
Análisis de Regresión P. Reyes / Enero, 2007
229
Análisis de Regresión P. Reyes / Enero, 2007
230
Análisis de Regresión P. Reyes / Enero, 2007
231
Análisis de Regresión P. Reyes / Enero, 2007
232
Análisis de Regresión P. Reyes / Enero, 2007
233
Análisis de Regresión P. Reyes / Enero, 2007
234
Análisis de Regresión P. Reyes / Enero, 2007
Bibliografía
[1] A. Agresti (1984). Analysis of Ordinal Categorical Data. John Wiley & Sons, Inc.
[2] A. Agresti (1990). Categorical Data Analysis. John Wiley & Sons, Inc.
[3] D.A. Belsley, E. Kuh, and R.E. Welsch (1980). Regression Diagnostics. John Wiley &
Sons, Inc.
[4] A. Bhargava (1989). "Missing Observations and the Use of the Durbin-Watson Statistic,"
Biometrik, 76, 828831.
[5] C.C. Brown (1982). "On a Goodness of Fit Test for the Logistic Model Based on Score
Statistics," Communications in Statistics, 11, 10871105.
[6] D.A. Burn and T.A. Ryan, Jr. (1983). "A Diagnostic Test for Lack of Fit in Regression
Models," ASA 1983 Proceedings of the Statistical Computing Section, 286290.
[8] R.D. Cook and S. Weisberg (1982). Residuals and Influence in Regression. Chapman
and Hall.
[9] N.R. Draper and H. Smith (1981). Applied Regression Analysis, Second Edition. John
Wiley & Sons, Inc.
[10] S.E. Fienberg (1987). The Analysis of Cross-Classified Categorical Data. The MIT
Press.
[11] I.E. Frank and J.H. Friedman (1993). "A Statistical View of Some Chemometrics
Regression Tool," Technometrics, 35, 109135.
[12] I.E. Frank and B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic
Origin from Chemical Measurements by Partial Least-Squares Regression Modeling,"
Analytica Chimica Acta, 162, 241251.
[13] M.J. Garside (1971). "Some Computational Procedures for the Best Subset Problem,"
Applied Statistics, 20, 815.
[15] P. Geladi and B. Kowalski (1986). "An Example of 2-Block Predictive Partial Least-
Squares Regression with Simulated Data," Analytica Chimica Acta, 185, 19-32.
235
Análisis de Regresión P. Reyes / Enero, 2007
[16] James H. Goodnight (1979). "A Tutorial on the Sweep Operator," The American
Statistician, 33, 149158.
[17] W.W. Hauck and A. Donner (1977). "Wald's test as applied to hypotheses in logit
analysis," Journal of the American Statistical Association, 72, 851-853.
[18] D.C. Hoaglin and R.E. Welsch (1978). "The Hat Matrix in Regression and ANOVA,"
The American Statistician, 32, 1722.
[19] R.R. Hocking (1976). "A Biometrics Invited Paper: The Analysis and Selection of
Variables in Linear Regression," Biometrics, 32, 149.
[21] D.W. Hosmer and S. Lemeshow (2000). Applied Logistic Regression. 2nd ed. John
Wiley & Sons, Inc.
[22] LINPACK (1979). Linpack User's Guide by J.J. Dongarra, J.R. Bunch, C.B. Moler, and
G.W. Stewart, Society for Industrial and Applied Mathematics, Philadelphia, PA.
[23] A. Lorber, L. Wangen, and B. Kowalski (1987). "A Theoretical Foundation for the PLS
Algorithm," Journal of Chemometrics, 1, 1931.
[24] J.H. Maindonald (1984). Statistical Computation. John Wiley & Sons, Inc.
[25] P. McCullagh and J.A. Nelder (1992). Generalized Linear Model. Chapman & Hall.
[27] D.C. Montgomery and E.A. Peck (1982). Introduction to Linear Regression Analysis.
John Wiley & Sons.
[28] J. Neter, W. Wasserman, and M. Kutner (1985). Applied Linear Statistical Models.
Richard D. Irwin, Inc.
[29] S.J. Press and S. Wilson (1978). "Choosing Between Logistic Regression and
Discriminant Analysis," Journal of the American Statistical Association, 73, 699-705.
[30] M. Schatzoff, R. Tsao, and S. Fienberg (1968). "Efficient Calculation of All Possible
Regressions," Technometrics, 10, 769779.
236
Análisis de Regresión P. Reyes / Enero, 2007
[34] P.F. Velleman, J. Seaman, and I.E. Allen (1977). "Evaluating Package Regression
Routines," ASA 1977 Proceedings of the Statistical Computing Section.
[35] S. Weisberg (1980). Applied Linear Regression. John Wiley & Sons, Inc.
[36] H. Wold (1975). "Soft Modeling by Latent Variables; the Nonlinear Iterative Partial
Least Squares Approach," in Perspectives in Probability and Statistics, Papers in Honour
of M.S. Bartlett, ed. J. Gani, Academic Press.
237