Regresión Lineal Simple
Regresión Lineal Simple
Regresión Lineal Simple
PRESENTADO A
EVERTH ANAYA COHEN. DOCENTE
ESTADÍSTICA II
INGENIERÍA INDUSTRIAL
FACULTAD DE INGENIERÍAS
CORPORACIÓN UNIVERSITARIA DEL CARIBE
CECAR©
KM 1 VÍA A COROZAL
2008-10-29
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
TABLA DE CONTENIDO
INTRODUCCIÓN
IV. OBJETIVOS ................................................................................................................ 4
V. REGRESIÓN LINEAL SIMPLE .................................................................................... 5
1. GENERALIDADES ....................................................................................................... 5
2. FUNCIÓN DE REGRESIÓN POBLACIONAL ............................................................... 6
3. FUNCIÓN DE REGRESIÓN MUESTRAL..................................................................... 7
4. PASOS PARA REALIZAR LA REGRESIÓN LINEAL SIMPLE ..................................... 7
5. DIAGRAMAS DE DISPERSIÓN ................................................................................... 8
6. ESTIMACIÓN DE LOS COEFICIENTES DEL MODELO............................................ 10
7. INTERPRETACIÓN DE LOS COEFICIENTES ESTIMADOS..................................... 17
8. DISTRIBUCIÓN DE PROBABILIDAD DEL ERROR ................................................... 18
9. PROPIEDADES DE LOS ESTIMADORES ................................................................. 19
10. INFERENCIAS SOBRE LOS ESTIMADORES ....................................................... 21
11. COEFICIENTE DE DETERMINACIÓN ( ) ........................................................... 24
12. COEFICIENTE DE CORRELACIÓN ....................................................................... 25
BIBLIOGRAFÍA
2
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
INTRODUCCIÓN
3
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
IV. OBJETIVOS
GENERAL.
ESPECÍFICOS.
4
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
1. GENERALIDADES.
Donde es la variable aleatoria que se tiene que predecir. Siempre se supondrá que el
valor promedio del error aleatorio es igual a cero. Esto equivale a suponer que el valor
promedio de , es igual al componente determinista del modelo.
Pero donde es una constante. Sin embargo, esto no significa que sea
exactamente igual a , sino que será igual a más o menos un error aleatorio. En
especial si se supone que se distribuye normalmente con promedio y varianza ,
entonces se puede formular el modelo probabilista , en el que el componente
aleatorio se distribuye normalmente con promedio y varianza .
5
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
Lo cual nos indica que el valor promedio de varía con . Como sabemos , son
coeficientes de regresión, donde es la ordenada en el origen de la recta y la
pendiente.
Para un valor dado de , los valores de se concentran alrededor del promedio de , lo
cual indica que se van a presentar algunas diferencias o desviaciones de un valor
individual de alrededor de su valor esperado, por lo tanto teniendo en cuenta la
sección anterior:
6
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
Donde:
Debido a que los valores observados no forman exactamente una línea recta, es
necesario elegir un método para estimar los coeficientes de regresión que haga
mínima la diferencia entre los valores observados y los estimados o ajustados, este
método es el de los mínimos cuadrados (generalmente usado).
7
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
5. DIAGRAMAS DE DISPERSIÓN.
Una vez especificadas las variables es necesario determinar la relación entre ellas, de
la cual se puede tener una idea general, graficando las variables. A partir de un
conjunto de observaciones de dos variables e sobre una muestra de individuos, se
puede representar estos datos sobre unos ejes coordenados , en un sistema de
coordenadas, en donde, en el eje de las abscisas se ubica la variable independiente y
en el de las ordenadas la variable dependiente; esta gráfica se llama nube de puntos o
diagrama de dispersión. Nos puede ayudar mucho en la búsqueda de un modelo que
describa la relación entre las dos variables. Entonces, el diagrama de dispersión se
obtiene representando cada observación como un punto en el plano cartesiano
En los casos y tenemos que las observaciones se encuentran sobre una recta.
En el primer caso, con pendiente negativa, que nos indica que a medida que
aumenta, la es cada vez menor y lo contrario en el segundo caso, en el que la
pendiente es positiva. En estos dos casos los puntos se ajustan perfectamente sobre la
recta, de manera que tenemos una relación funcional entre las dos variables, dada por
la ecuación de la recta.
En el caso los puntos se encuentran situados en una franja bastante estrecha que
tiene una forma bien determinada. No será una relación funcional, ya que los puntos no
se sitúan sobre una curva, pero sí que es posible asegurar la existencia de una fuerte
relación entre las dos variables. De todos modos, se observa que no se trata de una
relación lineal (la nube de puntos tiene forma de parábola).
En el caso ) no se tiene ningún tipo de relación entre las variables. La nube de puntos
no presenta una forma “tubular” bien determinada; los puntos se encuentran
absolutamente dispersos.
8
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
En los casos y se puede observar que sí existe algún tipo de relación entre las
dos variables. En el caso se puede ver un tipo de dependencia lineal con pendiente
negativa, ya que a medida que el valor de aumenta, el valor de disminuye. Los
puntos no están sobre una línea recta, pero se acercan bastante, de manera que
podemos pensar en una fuerte relación lineal. En el caso se observa una relación
lineal con pendiente positiva, pero no tan fuerte como la anterior.
Ejemplo de aplicación:
1 95 214
2 82 152
3 90 156
4 81 129
5 99 254
6 100 266
7 93 210
8 95 204
9 93 213
10 87 150
270
Contenido medio de alquitrán
250
230
210
190
170
150
130
110
80 85 90 95 100
Temperatura de entrada
9
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
Una vez que hemos hecho el diagrama de dispersión y después de observar una
posible relación lineal entre las dos variables, nos proponemos encontrar la ecuación de
la recta que mejor se ajuste a la nube de puntos. Esta recta se denomina recta de
regresión. Ahora bien, por supuesto son parámetros desconocidos. La línea
ajustada es una estimación de la línea que produce el modelo estadístico. Se debe
tener en cuenta que la línea no se conoce, sino que más bien,
es una noción conceptual simple de cómo se generaron los datos en el proceso
científico. Como resultado, la realización de , en realidad nunca se observa. Sin
embargo, se observa su residuo . A menudo la suma de los cuadrados de los residuos
se le llama suma de cuadrados de los errores aleatorios alrededor de la línea de
regresión.
Con el uso de la línea de regresión estimada o ajustada , cada par de
observaciones satisface la relación: entonces:
Teniendo en cuenta el ejemplo del ítem anterior. Como hipótesis se considera que el
modelo tiene la forma:
10
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
n
d ( SSE ) y)
2 ( yi 0
d y i 1
Simplificando,
n
2 yi 2n y 0
i 1
Despejando y,
n n
n
2 yi yi
2n y 2 yi y i 1 y i 1
y
i 1 2n n
Por tanto, el promedio muestral es el estimador que reduce al mínimo la suma de los
errores elevados al cuadrado, y se llama estimador de para cuadrados mínimos.
1 214
2 152
3 156
4 129
5 254
6 266
7 210
8 204
9 213
10 150
1948
y 194.8
10
y
n
SSE ( yi y ) 2 19263.6
i 1
De manera que, ya se sabe que ningún otro estimador de dará tan baja como
éste, porque es el estimador de mínimos cuadrados.
11
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
De modo que
n n
SSE ( yi y ) 2 ( yi x )2
0 1 i
i 1 i 1
n n n n
( SSE ) x) ( SSE )
2 ( yi 0 2( yi xi )
i 1
0 1 i
i 1 i 1
0 1
i 1
0 0
n n
2
2
( 2( yi n 0
1 xi ))
( SSE ) i 1 i 1
2 n 0 Hay un mínimo
2 2
0 0
n n n n
yi n 0
1 xi 0 1 yi n0
1 xi 1
i 1 i 1 i 1 i 1
Ahora se deriva parcialmente con respecto a , también tiene mínimo, luego, se iguala
a cero
n n n n
( SSE ) x)
2 xi ( yi 0 xi yi xi xi2 0
i 1
0 1 i
i 1
0
i 1
1
i 1
1
n n n
xi yi xi xi2 2
0 1
i 1 i 1 i 1
De despejamos
n n n n
yi xi yi xi
1 1
i 1 i 1 i 1 i 1 y x
0 0 0 1
n n n
12
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
Reemplazamos 0 en y hallamos
n n n
xi yi (y x) xi xi2
1 1
i 1 i 1 i 1
n n n n
n
xi yi xi xi n
xi yi i 1 i 1 i 1 i 1 xi2
1 1
i 1 n n i 1
n 2
n n
n
xi yi xi n
xi yi i 1 i 1 i 1
xi2
1
i 1 n n i 1
n n n
xi yi n xi yi n n n n n n
i 1 i 1 i 1
xi yi n xi yi xi yi n xi yi
n i 1 i 1 i 1 i 1 i 1 i 1 1
1 2 1 2 1 2
n n n n n n 1
xi n xi2 xi n xi2 xi n xi2
i 1 i 1 i 1 i 1 i 1 i 1
n
n n n n
n
xi yi n
xi yi
i 1 i 1 i 1 i 1
n n n
n xi yi n xi yi
i 1 n i 1 n
n xi yi xi yi
i 1 i 1 i 1
1 2 1 2 1 2
n n n n
2
n x i xi xi xi
n n
i 1 i 1 2 i 1 2 i 1
n x i n x
i
i 1 n i 1 n
n n
n
xi yi n n
i 1 i 1
xi yi ( xi x)( yi y) ( xi x)( yi y)
i 1 n i 1 i 1
1 2 n 1 n
n
2
xi ( xi x) ( xi x) 2
n i 1 i 1
i 1
xi2
i 1 n
SS xy
1
SS xx
13
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
n
( xi x)( yi y)
i 1
SS xy
1 n
; 0 y 1 x
SS xx
( xi x)2
i 1
( xi ) 2
1 95 214 20330 9025
2 82 152 12464 6724
3 90 156 14040 8100
4 81 129 10449 6561
5 99 254 25146 9801
6 100 266 26600 10000
7 93 210 19530 8649
8 95 204 19380 9025
9 93 213 19809 8649
10 87 150 13050 7569
915 1948 180798 84103 837225
n n
xi yi
i 1 i 1
SS xy ( xi x)( yi y) xi yi
i 1 i 1 n
(915)(1948)
180798 2556
10
n 2
n n
xi
2 2 i 1
SS xx ( xi x) x i
i 1 i 1 n
837225
84103 380.5
10
y
915
x 91.5 ; y 194.8
10
Entonces, las estimaciones de mínimos cuadrados son
14
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
SS xy 2556
1 6.7175
SS xx 380.5
y 1 x 194.8 (6.7175)(91.5) 419.85
0 0
Por tanto, la recta de regresión estimada está dada por
270
Contenido medio de alquitrán
15
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
Se puede observar que los errores son las distancias verticales entre los puntos
observados y la línea de predicción, ( ). Los valores predichos, el error ( )
y se muestran en la . La es . De esta manera se sabrá
que ninguna otra recta minimizará la tan pequeña como la hallada.
En forma de sinopsis, se ha definido la recta que mejor se ajusta como la que satisface
el método de los mínimos cuadrados. Esta recta es la denominada recta de los mínimos
cuadrados, y la ecuación se llama ecuación de predicción de mínimos cuadrados.
16
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
En los ítems anteriores se establecieron los dos primeros pasos del modelado de
regresión: se ha supuesto la forma de y empleado los datos de la muestra para
estimar los parámetros desconocidos en el modelo. La estimación de cuadrados
mínimos de es
n 2
SSE y ) SS
s2 , en la cual SSE ( yi i SS yy 1 xy
n 2 i 1
y
17
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
n 2
n 2 n
yi
2 i 1
SS yy ( yi yi ) y i
i 1 n i 1
En el ejemplo del contenido medio de alquitrán,
SSE 2093.43
s2 261.68
n 2 8
y s s2 261.68 16.18
a.
b.
c.
Se encuentra que,
n
( xi x)(Yi Y) n
1
E( 1 ) E i 1
n
E( 1 ) n
( xi x) E (Yi Y)
2 2 i 1
( xi x) ( xi x)
i 1 i 1
n
1
E( 1 ) ( xi x) E[( 0 x
1 i i ) ( 0 x
1 i i )]
SS xx i 1
n n
1 1
E( 1 ) ( xi x)[ 1 ( xi xi )] E( 1 ) ( xi x)[ 1 ( xi xi )]
SS xx i 1 SS xx i 1
18
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
SS xx
E( 1 ) 1 E( 1 ) 1
SS xx
n
( xi x)(Yi Y) n
1
2
Var ( 1 ) Var i 1
n
2
2
Var ( xi x)(Yi Y)
1 1 n
2 i 1
( xi x) ( xi x) 2
i 1 i 1
n n n
2 1
( xi x) 2 Var (Yi Y) ( xi x)( x j x)Cov (Yi Y ), (Y j Y)
1 SS xx2 i 1 i 1 j 1
Tenemos que
Var (Yi Y ) Var ( 0 x
1 i i ) ( 0 1 xi i ) Var (Yi Y ) Var ( i )
2 2 2
2 2
Var (Yi Y) 2
n n n
y
Cov (Yi Y ), (Y j Y) Cov ( i ), ( j ) Cov( i ) Cov( j ) Var ( )
2 2 2 2
Cov (Yi Y ), (Y j Y)
n n n n
Se han empleado los siguientes hechos:
2
a. Var ( i )
b. Cov( i , j ) 0, i j
n
i
i 1 1 n
n 2 2
c. Var ( ) Var Var ( i )
n n2 i 1 n2 n
j 2
j 1 Var ( i )
d. Cov( i , ) Cov i,
n n n
De esta forma,
19
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
n 2 n n 2
2 1 2 2
( xi x) ( ) ( xi x)( x j x)
1 SS xx2 i 1 n i 1 j 1 n
2 n 2 2 n
2 1 2
SS xx ( xi x) , utilizando ( xi x) 0
1 SS xx2 n i 1 SS xx i 1
n ( xi x)2
i 1
Comparándola con
20
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
SS xx
Se escoge ,
21
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
Anteriormente se calculó , y
Donde
22
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
En el ejemplo
23
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
Esto significa que la variabilidad muestral del contenido de alquitrán con respecto a su
promedio se reduce en cuando se modela el contenido de alquitrán como función
lineal de la temperatura de entrada diaria.
Se suele decir que X e Y tienen una relación positiva si los valores grandes de X están
aparejados con valores grandes de Y y valores pequeños de X, con valores pequeños
de Y. De manera análoga, se dice que X e Y tienen una relación negativa si los valores
grandes de X están aparejados con los valores pequeños de Y y los pequeños de X,
con grandes de Y.
24
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
No Existe Correlación.
25
CORPORACIÓN UNIVERSITARIA DEL CARIBE©
FACULTAD DE INGENIERÍAS
INGENIERÍA INDUSTRIAL V
CECAR© REGRESIÓN LINEAL SIMPLE
BIBLIOGRAFÍA
26