Regresion
Regresion
Regresion
de Y en funcin de X ms idneo. Donde, Y: produccin nacional de un subsector industrial, en millones de toneladas. X: tiempo Ao 1995 1996 1997 1998 1999 X 1 2 3 4 5 Y 1,25 5 11,25 20 30,5
1.- Ajuste de una funcin lineal: Y* = a + b X X 1 2 3 4 5 15 3 Y 1,25 5 11,25 20 30,5 68 13,6 X2 1 4 9 16 25 55 11 XY 1,25 10 33,75 80 152,5 277,5 55,5 Y2 Y* e=Y-Y* e2 1,56 -1,1 2,35 5,5225 25 6,25 -1,25 1,5625 126,56 13,6 -2,35 5,5225 400 20,95 -0,95 0,9025 930,25 28,3 2,2 4,84 1483,3 68 0 18,35 296,67 13,6 0 3,67
1/5
b=
S2 * S
Y 2 Y
= 1-
S2 e S
2 Y
= 1-
S 2 = ECM 1 = e
e
N
= 3,67
2.- Ajuste de una funcin parablica: Y* = a + b X + c X2 X 1 2 3 4 5 15 3 Y 1,25 5 11,25 20 30,5 68 13,6 X2 1 4 9 16 25 55 11 X3 1 8 27 64 125 225 X4 1 16 81 256 625 979 XY 1,25 10 33,75 80 152,5 277,5 55,5 X2Y Y* e=Y-Y* e2 1,25 1,18 0,07 0,0049 20 5,11 -0,11 0,0121 101,5 11,32 -0,07 0,0049 320 19,81 0,19 0,0361 762,5 30,58 -0,08 0,0064 1205 68 0 0,0644 13,6 0 0,0128
1/5
Y = Na + b X + c X XY = a X + b X + c X X Y = a X + b X + c X
2 2 2 3
68 = 5a + 15b + 55c 277,5 = 15a + 55b + 225c 1205 = 55a + 225b + 979c
b= 0,51 c= 1,14
S2 * S
Y 2 Y
= 1-
S2 e S
2 Y
= 1-
e =
N
= 0,01288
3.- Ajuste de una funcin potencial: Y* = a Xb En primer lugar linealizamos: lnY* = lna + b lnX X 1 2 3 4 5 15 3 Y 1,25 5 11,25 20 30,5 68 13,6 U=lnX 0 0,6931 1,0986 1,3863 1,6094 4,7875 0,9575 V=lnY 0,2231 1,6094 2,4203 2,9957 3,4177 10,666 2,1332 U2 0 0,4803 1,2069 1,9215 2,5901 6,1988 1,2397 V* = A + b U UV 0 1,1156 2,6590 4,1530 5,5006 13,428 2,6856 Y* 1,2557 4,9888 11,18 19,82 30,901 68,146 13,629 e=Y-Y*
-0,0057 0,0112 0,0697 0,1799 -0,4012 -0,1461 -0,0292
1/5
e 0
2
b=
A = V - b U = 2,1332
Deshacemos el cambio efectuado: a= antilnA = antiln 0,2277 = 1,2557 Por lo que el ajuste efectuado es: Y* = 1,2557 X 1,9902 Bondad del Ajuste:
ECM 3 =
e
N
= 0,0397
sino (lnY
- lnY * ) 2
, de ah que
e 0 .
4.- Ajuste de una funcin exponencial: Y* = a bX En primer lugar linealizamos: lnY* = lna + X lnb X 1 2 3 4 5 15 3 Y 1,25 5 11,25 20 30,5 68 13,6 V=lnY 0,2231 1,6094 2,4203 2,9957 3,4177 10,666 2,1332 X2 1 4 9 16 25 55 11 V* = A + B X e2 0,2798 1,2950 8,2944 3,3124 80,102 95,803 19,16
1/5
XV Y* e=Y-Y* 0,2231 1,7794 -0,529 3,2188 3,86 1,138 7,2609 8,37 2,88 11,983 18,18 1,82 17,088 39,45 -8,95 39,774 71,64 -3,641 7,9548 14,328 -0,728
e 0
B= S XV S
2 X
1/5 XV - X V 1/5 X X
2 2
Deshacemos los cambios efectuados: a= antilnA = antiln-0,1996 = 0,819 b= antilnB =antiln 0,7776 = 2,176 Por lo que el ajuste efectuado es: Y* = 0,819 . 2,176 X Bondad del Ajuste:
ECM 4
e =
N
= 19,16
La comparacin de la bondad de modelos de regresin mediante el coeficiente de determinacin slo es correcta cuando la variable dependiente no ha sido sometida a transformaciones no lineales (por ejemplo, una transformacin logartmica). En este ejercicio, mediante R2 slo podemos comparar la regresin lineal y la parablica. Por eso, para comparar los cuatro ajustes efectuados utilizamos el Error Cuadrtico Medio. El mejor ajuste resulta ser el parablico puesto que presenta el menor valor para el ECM.
ESTADSTICA ESTUDIO DE REGRESIN Y CORRELACION SIMPLE REGRESIN LINEAL MLTIPLE Introduccin Es evidente que lo ms econmico y rpido para modelar el comportamiento de una variable Y es usar una sola variable preeditora y usar un modelo lineal. Pero algunas veces es bastante obvio de que el comportamiento de Y es imposible que sea explicada en gran medida por solo una variable. Por ejemplo, es imposible tratar de explicar el rendimiento de un estudiante en un examen, teniendo en cuenta solamente el nmero de horas que se prepar para ella. Claramente, el promedio acadmico del estudiante, la carga acadmica que lleva, el ao de estudios, son tres de las muchas otras variables que pueden explicar su rendimiento. Tratar de explicar el comportamiento de Y con ms de una variable preeditora usando una funcional lineal es el objetivo de regresin lineal mltiple. Frecuentemente, uno no es muy familiar con las variables que estn en juego y basa sus conclusiones solamente en clculos obtenidos con los datos tomados. Es decir, si ocurre que el coeficiente de determinacin R 2 sale bajo (digamos menor de un 30%) , considerando adems que su valor no se ha visto afectado por datos anormales, entonces el modelo es pobre y para mejorarlo hay tres alternativas que frecuentemente se usan: a) Transformar la variable preeditora, o la variable de respuesta Y, o ambas y usar luego un modelo lineal. b) Usar regresin polinmica con una variable preeditora. c) Conseguir ms variables preeditoras y usar una regresin lineal mltiple. En el primer caso, se puede perder el tiempo tratando de encontrar la transformacin ms adecuada y se podra caer en overfitting, es decir, encontrar un modelo demasiado optimista, que satisface demasiado la tendencia de los datos tomados pero que es pobre para hacer predicciones debido a que tiene una varianza grande. En el segundo caso el ajuste es ms rpido, pero es bien fcil caer en overfitting y, adems se pueden crear muchos problemas de clculo ya que pueden surgir problemas de colinealidad, es decir relacin lineal entre los trminos del modelo polinomio. El tercer caso es tal vez la alternativa ms usada y conveniente. Tiene bastante analoga con el caso simple, pero requiere el uso de vectores y matrices. En el siguiente ejemplo se mostrar el uso interactivo de las tres alternativas a travs de seis modelos de regresin y servir como un ejemplo de motivacin para introducirnos en regresin lineal mltiple. El modelo de regresin lineal mltiple El modelo de regresin lineal mltiple con p variables predictoras y basado en n observaciones tomadas es de la forma:
para i = 1,2,.n. Escribiendo el modelo para cada una de las observaciones, ste puede ser considerado como un sistema de ecuaciones lineales de la forma
O sea, e X Y (2.2)
donde Y es un vector columna n dimensional, X es una matriz n x p', con p'=p+1, b es el vector de coeficientes de regresin a ser estimados, su dimensin es p' y e es un vector columna aleatorio de dimensin n Por ahora, las nicas suposiciones que se requieren son que E(e)=0 y que la matriz de varianza- covarianzas de los errores est dada por Var(e)= 2 In, donde In es la matriz identidad de orden n. OBJETIVO. El objetivo de este trabajo es poner en practica los conocimientos adquiridos en el curso de estadstica II, en el cual el tema a tratar es la regresin mltiple aplicada para obtener la relacin de informacin obtenida que favorezca en la situacin aplicada, ya sea para tomar decisiones ajustadas con respecto al problema. METODOLOGA. La informacin fue recabada por medio de la empresa Grupo Ortega, de acuerdo a los registro archivados, respecto a los fletes realizados en el ao 2001. Sobre los fletes mas distantes de su origen para evaluar perfectamente la informacin recabada. Posteriormente se efectu el estudio de regresin mltiple ayudndonos con el programa de statgraphic. PLANTEAMIENTO. En la mediana empresa con el nombre Grupo Ortega, dedicada al transporte de todo tipo con destinos a toda la Republica Mexicana, ubicada en la carretera Guadalajara Colima. Km. 3.49 en Ciudad Guzmn Jalisco, se realizo un estudio para saber si influyen los gastos en el transcurso del viaje, con la liquidacin del flete. Los gastos a evaluar son:
Combustible. Autopistas. Trabajos extramantenimiento. Viticos (Comidas, transporte u otros). Llamadas a oficina. Mantenimiento
En el cual la variable independiente es el gasto de Liquidacin. CONCLUSIN Con el estudio realizado podemos concluir que la relacin de los gastos efectuados en los viajes arrojo como resultado de relacin .63.23%, los cual no es buena relacin. Con el anlisis de comparativo nos dimos cuenta de que las variables afectan en la ecuacin de regresin pero no si significativamente, la variable que mas afecta en la ecuacin de regresin fue la del combustible ya que creemos que por que fue en mayor cantidad pero la influencia que tiene es mnima ya que la liquidacin total no varia mucho en los cambios de dicha variable.
30
Y (produccin)
20
10
0 1 2 3 4 5
X (tiempo)
30
Y (produccin) X (tiempo)
20
10
-10 1 2 3 4 5
X (tiempo)
X (tiempo)
muestra aleatoria simple de 15 familias cuyos resultados son los de la tabla adjunta (El gasto e ingreso est dado en cientos de miles de pesetas)
Gasto 0 43 0 31 0 32 0 46 1 25 0 44 0 52 0 29
' ' ' ' ' ' ' '
Ingreso 21 11 09 16 62 23 18 10
' ' ' ' ' ' ' '
Tamao 3 4 5 4 4 3 6 5
Gasto 1 29 0 35 0 35 0 78 0 43 0 47 0 38
' ' ' ' ' ' '
Ingreso 89 24 12 47 35 29 14
' ' ' ' ' ' '
Tamao 3 2 4 3 2 3 4
Por tanto
De donde
El modelo de regresin lineal que se obtiene es: A partir de esta ecuacin se obtienen las predicciones y los residuos asociados a las observaciones muestrales. Para la primera observacin se obtiene
Calculo de scR
Para la varianza,
~ 5 2253
' '
2 12
0 0903
'
(ingreso)
' 1 12
0 0099
'
Contrate H
10
(tamao)
' 2 12
0 0201
'
Contrate H
Tabla ANOVA Fuentes de Suma de Grados de Variacin Cuadrados libertad 1 3595 scE (por el modelo)
'
Varianzas
2 12 14
2 e
= 0 6797
'
0 0721
'
2 R
= 0 0060
'
1 4316
'
= 0 1023
'
El contraste conjunto de la F indica claramente la influencia del modelo en la variable respuesta. Por tanto, de los contrastes individuales y del conjunto se deduce la influencia de cada una de las dos variables regresoras y la influencia conjunta del modelo. Ahora se calcula el contraste individual de la F respecto a la variable x =tamao, contraste que es equivalente al contraste individual de la t. Para ello, se obtiene la regresin de la variable gasto respecto a la variable ingreso,
2
Varianzas
1
2 e
= 1 2716
'
11
scR
0 1600
'
13 14
2 R 2
= 0 0123
'
1 4316
'
= 0 1022
'
La variabilidad incremental debida a la variable dimetro es este valor indica lo que aumenta la variabilidad explicada por el modelo al introducir la variable tamao. Para contrastar la influencia o no de esta variable se utiliza el estadstico
que da el mismo p-valor que en el contraste individual de la t (hay pequeas diferencias por los resondeos). Clculo de los coeficientes de correlacin: El coeficiente de determinacin,
Este coeficiente es una medida de la relacin lineal existente entre las variables gasto e ingreso. Tambin se puede calcular a partir del coeficiente de determinacin de la siguiente regresin La tabla ANOVA del modelo es
Tabla ANOVA Fuentes de Variacin scE (ingreso) scR Suma de Grados de Varianzas Cuadrados libertad 2 1 2716 1 e = 1 2716 0 1600 13 R2 = 0 0123
' ' ' '
12
1 4316
'
14
= 0 1022
'
Anlogamente, el coeficiente de correlacin simple entre las variables gasto y tamao es,
= = 0 9496
'
= 0 974.
'
Otra forma ms compleja de calcular este coeficiente es la siguiente: se obtienen las siguientes regresiones y se guardan los residuos, Gasto = 0 6713 - 0 0363 tamao + e . Ingreso = 5 5923 - 07615 tamao + e . Ahora el coeficiente de correlacin parcial entre las variables gasto e ingreso se obtiene como el coeficiente de correlacin simple entre las variables e ye
' ' ' gasto.tamao ingreso.tamao ingreso.tamao
gasto.tamao
= = 0 9740,
'
este coeficiente mide la relacin entre las variables gasto e ingreso libres de la influencia de la variable tamao. Anlogamente se obtiene que
Estimar el gasto medio en alimentacin de una familia con unos ingresos de x = 3 0 y un tamao de x = 4. Esto es .
1 ' 2
hh
-1
13
= n =
h
= 0 07649
'
= 13 073
'
La familia Prez que tiene unos ingresos de x = 3 0 y un tamao de x = 4. Esto es qu gasto en alimentacin tendr?.
1 ' 2
= 0 0060 = 0 0803
' '
= 0 0065
'
Y un intervalo de prdiccin al 90% es Algunos grficos de inters que ayudan a resolver el problema son los siguientes:
Grficos parciales de las componentes
14
Grficos de residuos,
15
16