Regresion

Descargar como doc, pdf o txt
Descargar como doc, pdf o txt
Está en la página 1de 16

EJEMPLO DE REGRESIN LINEAL Y NO LINEAL A partir de las siguientes observaciones para 5 aos de las variables X e Y, ajstese el modelo de regresin

de Y en funcin de X ms idneo. Donde, Y: produccin nacional de un subsector industrial, en millones de toneladas. X: tiempo Ao 1995 1996 1997 1998 1999 X 1 2 3 4 5 Y 1,25 5 11,25 20 30,5

1.- Ajuste de una funcin lineal: Y* = a + b X X 1 2 3 4 5 15 3 Y 1,25 5 11,25 20 30,5 68 13,6 X2 1 4 9 16 25 55 11 XY 1,25 10 33,75 80 152,5 277,5 55,5 Y2 Y* e=Y-Y* e2 1,56 -1,1 2,35 5,5225 25 6,25 -1,25 1,5625 126,56 13,6 -2,35 5,5225 400 20,95 -0,95 0,9025 930,25 28,3 2,2 4,84 1483,3 68 0 18,35 296,67 13,6 0 3,67

1/5

b=

S XY 1/5 XY - X Y 55,5 - (3 13,6) 14,7 = = = = 7,35 2 S2 1/5 X 2 X 2 11 3 2 X

a = Y - b X =13,6 - 7,35 3 = - 8,45

Y* = -8,45 + 7,35 X Bondad del Ajuste: Coeficiente de determinacin: R = r


2
2 X Y

S2 * S
Y 2 Y

= 1-

S2 e S
2 Y

= 1-

3,67 = 0,9671 111,715

S 2 = 1/5 Y 2 Y 2 = 296,675 - 13,6 2 = 111,715 Y

S 2 = ECM 1 = e

e
N

= 3,67

2.- Ajuste de una funcin parablica: Y* = a + b X + c X2 X 1 2 3 4 5 15 3 Y 1,25 5 11,25 20 30,5 68 13,6 X2 1 4 9 16 25 55 11 X3 1 8 27 64 125 225 X4 1 16 81 256 625 979 XY 1,25 10 33,75 80 152,5 277,5 55,5 X2Y Y* e=Y-Y* e2 1,25 1,18 0,07 0,0049 20 5,11 -0,11 0,0121 101,5 11,32 -0,07 0,0049 320 19,81 0,19 0,0361 762,5 30,58 -0,08 0,0064 1205 68 0 0,0644 13,6 0 0,0128

1/5

Aplicando el mtodo de los mnimos cuadrados se obtiene el siguiente sistema de ecuaciones:

Y = Na + b X + c X XY = a X + b X + c X X Y = a X + b X + c X
2 2 2 3

68 = 5a + 15b + 55c 277,5 = 15a + 55b + 225c 1205 = 55a + 225b + 979c
b= 0,51 c= 1,14

Resolviendo este sistema se obtiene: a= -0,47

Y* = -0,47 + 0,51 X + 1,14 X2 Bondad del Ajuste: Coeficiente de determinacin: R =


S e = ECM 2
2

S2 * S
Y 2 Y

= 1-

S2 e S
2 Y

= 1-

0,01288 = 0,9998 111,715

e =
N

= 0,01288

3.- Ajuste de una funcin potencial: Y* = a Xb En primer lugar linealizamos: lnY* = lna + b lnX X 1 2 3 4 5 15 3 Y 1,25 5 11,25 20 30,5 68 13,6 U=lnX 0 0,6931 1,0986 1,3863 1,6094 4,7875 0,9575 V=lnY 0,2231 1,6094 2,4203 2,9957 3,4177 10,666 2,1332 U2 0 0,4803 1,2069 1,9215 2,5901 6,1988 1,2397 V* = A + b U UV 0 1,1156 2,6590 4,1530 5,5006 13,428 2,6856 Y* 1,2557 4,9888 11,18 19,82 30,901 68,146 13,629 e=Y-Y*
-0,0057 0,0112 0,0697 0,1799 -0,4012 -0,1461 -0,0292

1/5

e2 0,0000 0,0001 0,0049 0,0324 0,1610 0,1984 0,0397

e 0
2

b=

S UV 1/5 UV - U V 2,6856 - 0,9575 2,1332 = = = 1,9902 2 SU 1,2397 0,9575 2 1/5 U2 U 2


- 1,9902 0,9575 = 0,2277

A = V - b U = 2,1332

Deshacemos el cambio efectuado: a= antilnA = antiln 0,2277 = 1,2557 Por lo que el ajuste efectuado es: Y* = 1,2557 X 1,9902 Bondad del Ajuste:
ECM 3 =

e
N

= 0,0397

Ntese que al haber transformado la variable dependiente ya no se minimiza

sino (lnY

- lnY * ) 2

, de ah que

e 0 .

4.- Ajuste de una funcin exponencial: Y* = a bX En primer lugar linealizamos: lnY* = lna + X lnb X 1 2 3 4 5 15 3 Y 1,25 5 11,25 20 30,5 68 13,6 V=lnY 0,2231 1,6094 2,4203 2,9957 3,4177 10,666 2,1332 X2 1 4 9 16 25 55 11 V* = A + B X e2 0,2798 1,2950 8,2944 3,3124 80,102 95,803 19,16

1/5

XV Y* e=Y-Y* 0,2231 1,7794 -0,529 3,2188 3,86 1,138 7,2609 8,37 2,88 11,983 18,18 1,82 17,088 39,45 -8,95 39,774 71,64 -3,641 7,9548 14,328 -0,728

e 0
B= S XV S
2 X

1/5 XV - X V 1/5 X X
2 2

7,9548 - 2,1332 3 = 0,7776 11 3 2

A = V - b X = 2,1332 - 0,7776 3 = - 0,1996

Deshacemos los cambios efectuados: a= antilnA = antiln-0,1996 = 0,819 b= antilnB =antiln 0,7776 = 2,176 Por lo que el ajuste efectuado es: Y* = 0,819 . 2,176 X Bondad del Ajuste:
ECM 4

e =
N

= 19,16

La comparacin de la bondad de modelos de regresin mediante el coeficiente de determinacin slo es correcta cuando la variable dependiente no ha sido sometida a transformaciones no lineales (por ejemplo, una transformacin logartmica). En este ejercicio, mediante R2 slo podemos comparar la regresin lineal y la parablica. Por eso, para comparar los cuatro ajustes efectuados utilizamos el Error Cuadrtico Medio. El mejor ajuste resulta ser el parablico puesto que presenta el menor valor para el ECM.

ESTADSTICA ESTUDIO DE REGRESIN Y CORRELACION SIMPLE REGRESIN LINEAL MLTIPLE Introduccin Es evidente que lo ms econmico y rpido para modelar el comportamiento de una variable Y es usar una sola variable preeditora y usar un modelo lineal. Pero algunas veces es bastante obvio de que el comportamiento de Y es imposible que sea explicada en gran medida por solo una variable. Por ejemplo, es imposible tratar de explicar el rendimiento de un estudiante en un examen, teniendo en cuenta solamente el nmero de horas que se prepar para ella. Claramente, el promedio acadmico del estudiante, la carga acadmica que lleva, el ao de estudios, son tres de las muchas otras variables que pueden explicar su rendimiento. Tratar de explicar el comportamiento de Y con ms de una variable preeditora usando una funcional lineal es el objetivo de regresin lineal mltiple. Frecuentemente, uno no es muy familiar con las variables que estn en juego y basa sus conclusiones solamente en clculos obtenidos con los datos tomados. Es decir, si ocurre que el coeficiente de determinacin R 2 sale bajo (digamos menor de un 30%) , considerando adems que su valor no se ha visto afectado por datos anormales, entonces el modelo es pobre y para mejorarlo hay tres alternativas que frecuentemente se usan: a) Transformar la variable preeditora, o la variable de respuesta Y, o ambas y usar luego un modelo lineal. b) Usar regresin polinmica con una variable preeditora. c) Conseguir ms variables preeditoras y usar una regresin lineal mltiple. En el primer caso, se puede perder el tiempo tratando de encontrar la transformacin ms adecuada y se podra caer en overfitting, es decir, encontrar un modelo demasiado optimista, que satisface demasiado la tendencia de los datos tomados pero que es pobre para hacer predicciones debido a que tiene una varianza grande. En el segundo caso el ajuste es ms rpido, pero es bien fcil caer en overfitting y, adems se pueden crear muchos problemas de clculo ya que pueden surgir problemas de colinealidad, es decir relacin lineal entre los trminos del modelo polinomio. El tercer caso es tal vez la alternativa ms usada y conveniente. Tiene bastante analoga con el caso simple, pero requiere el uso de vectores y matrices. En el siguiente ejemplo se mostrar el uso interactivo de las tres alternativas a travs de seis modelos de regresin y servir como un ejemplo de motivacin para introducirnos en regresin lineal mltiple. El modelo de regresin lineal mltiple El modelo de regresin lineal mltiple con p variables predictoras y basado en n observaciones tomadas es de la forma:

para i = 1,2,.n. Escribiendo el modelo para cada una de las observaciones, ste puede ser considerado como un sistema de ecuaciones lineales de la forma

que puede ser escrita en forma matricial como

O sea, e X Y (2.2)
donde Y es un vector columna n dimensional, X es una matriz n x p', con p'=p+1, b es el vector de coeficientes de regresin a ser estimados, su dimensin es p' y e es un vector columna aleatorio de dimensin n Por ahora, las nicas suposiciones que se requieren son que E(e)=0 y que la matriz de varianza- covarianzas de los errores est dada por Var(e)= 2 In, donde In es la matriz identidad de orden n. OBJETIVO. El objetivo de este trabajo es poner en practica los conocimientos adquiridos en el curso de estadstica II, en el cual el tema a tratar es la regresin mltiple aplicada para obtener la relacin de informacin obtenida que favorezca en la situacin aplicada, ya sea para tomar decisiones ajustadas con respecto al problema. METODOLOGA. La informacin fue recabada por medio de la empresa Grupo Ortega, de acuerdo a los registro archivados, respecto a los fletes realizados en el ao 2001. Sobre los fletes mas distantes de su origen para evaluar perfectamente la informacin recabada. Posteriormente se efectu el estudio de regresin mltiple ayudndonos con el programa de statgraphic. PLANTEAMIENTO. En la mediana empresa con el nombre Grupo Ortega, dedicada al transporte de todo tipo con destinos a toda la Republica Mexicana, ubicada en la carretera Guadalajara Colima. Km. 3.49 en Ciudad Guzmn Jalisco, se realizo un estudio para saber si influyen los gastos en el transcurso del viaje, con la liquidacin del flete. Los gastos a evaluar son:

Combustible. Autopistas. Trabajos extramantenimiento. Viticos (Comidas, transporte u otros). Llamadas a oficina. Mantenimiento

En el cual la variable independiente es el gasto de Liquidacin. CONCLUSIN Con el estudio realizado podemos concluir que la relacin de los gastos efectuados en los viajes arrojo como resultado de relacin .63.23%, los cual no es buena relacin. Con el anlisis de comparativo nos dimos cuenta de que las variables afectan en la ecuacin de regresin pero no si significativamente, la variable que mas afecta en la ecuacin de regresin fue la del combustible ya que creemos que por que fue en mayor cantidad pero la influencia que tiene es mnima ya que la liquidacin total no varia mucho en los cambios de dicha variable.

Produccin observada en funcin del tiempo


40

30

Y (produccin)

20

10

0 1 2 3 4 5

X (tiempo)

Representacin de los 4 modelos de regresin


40

Y real y tericas (Produccin)

30

Y (produccin) X (tiempo)

20

Y*1 lineal X (tiempo)

10

Y*2 parbola X (tiempo) Y*3 potencial

X (tiempo) Y*4 exponencial

-10 1 2 3 4 5

X (tiempo)

X (tiempo)

Prctica 5.2. Problema resuelto de regresin lineal mltiple.


Problema 5. 4. Una desea estimar los gastos en alimentacin de una familia en base a la informacin que proporcionan las variables regresoras X =ingresos mensuales y X =nmero de miembros de la familia. Para ello se recoge una
1 2

muestra aleatoria simple de 15 familias cuyos resultados son los de la tabla adjunta (El gasto e ingreso est dado en cientos de miles de pesetas)
Gasto 0 43 0 31 0 32 0 46 1 25 0 44 0 52 0 29
' ' ' ' ' ' ' '

Ingreso 21 11 09 16 62 23 18 10
' ' ' ' ' ' ' '

Tamao 3 4 5 4 4 3 6 5

Gasto 1 29 0 35 0 35 0 78 0 43 0 47 0 38
' ' ' ' ' ' '

Ingreso 89 24 12 47 35 29 14
' ' ' ' ' ' '

Tamao 3 2 4 3 2 3 4

Datos del problema [ASCII] [spss-10] [sgplus-5]


8

Solucin Problema 5.4.

Los datos en forma matricial:

Con estos datos se obtiene

Por tanto

De donde

El modelo de regresin lineal que se obtiene es: A partir de esta ecuacin se obtienen las predicciones y los residuos asociados a las observaciones muestrales. Para la primera observacin se obtiene

Razonando as en todos los puntos muestrales se obtiene

Calculo de scR

Tambin se puede calcular la scR de la siguiente forma


= Y - XY = yi2 yyx yx = . . . = 5 7733 8 070 - 0 149 32 063 - 0 077 28 960 Se calculan los intervalos de confianza de los parmetros del modelo al 90%,
t t t 0 i 1 i 1i 2 i 2i ' ' ' ' ' ' t

Para la varianza,

~ 5 2253
' '

2 12

< 0 0034 <

< 21 0298 < 0 0138


' '

La varianza de los estimadores del modelo es

de donde se deduce que


V ar V ar V ar t
12

= 0 00816 = 0 000099 = 0 00040


' ' ' 0 '

= 0 0903 = 0 0099 = 0 0201


' ' ' 0 12

Intervalo de confianza para


.
' '

0 0903 <-0 160 - < t - 0 321 < < 0 001


0 ' 1

0 0903
'

Intervalo de confianza para


t
12

(ingreso)
' 1 12

0 0099 < 0 149 - < t 0 1314 < < 0 1666


' ' 1 '

0 0099
'

Contrate H

= 0, la variable ingreso no influye (contraste individual de la t)

10

Intervalo de confianza para


t
12

(tamao)
' 2 12

0 0201 < 0 077 - < t 0 0412 < < 0 1128


' ' 2 '

0 0201
'

Contrate H

= 0, la variable tamao no influye (contraste individual de la t)

Tabla Anova, de donde

Tabla ANOVA Fuentes de Suma de Grados de Variacin Cuadrados libertad 1 3595 scE (por el modelo)
'

Varianzas
2 12 14
2 e

= 0 6797
'

scR (Residual) scG (Global)

0 0721
'

2 R

= 0 0060
'

1 4316
'

= 0 1023
'

Con estos datos se obtiene el siguiente contraste conjunto de la F

El contraste conjunto de la F indica claramente la influencia del modelo en la variable respuesta. Por tanto, de los contrastes individuales y del conjunto se deduce la influencia de cada una de las dos variables regresoras y la influencia conjunta del modelo. Ahora se calcula el contraste individual de la F respecto a la variable x =tamao, contraste que es equivalente al contraste individual de la t. Para ello, se obtiene la regresin de la variable gasto respecto a la variable ingreso,
2

la tabla ANOVA de este modelo es


Tabla ANOVA Fuentes de Variacin scE (ingreso) Suma de Grados de Cuadrados libertad 1 2716
'

Varianzas
1
2 e

= 1 2716
'

11

scR

0 1600
'

13 14

(Residual) scG (Global)

2 R 2

= 0 0123
'

1 4316
'

= 0 1022
'

La variabilidad incremental debida a la variable dimetro es este valor indica lo que aumenta la variabilidad explicada por el modelo al introducir la variable tamao. Para contrastar la influencia o no de esta variable se utiliza el estadstico

que da el mismo p-valor que en el contraste individual de la t (hay pequeas diferencias por los resondeos). Clculo de los coeficientes de correlacin: El coeficiente de determinacin,

El coeficiente de correlacin mltiple

El coeficiente de determinacin corregido por el nmero de grados de libertad.

El coeficiente de correlacin simple entre las variables gasto e ingreso,

Este coeficiente es una medida de la relacin lineal existente entre las variables gasto e ingreso. Tambin se puede calcular a partir del coeficiente de determinacin de la siguiente regresin La tabla ANOVA del modelo es
Tabla ANOVA Fuentes de Variacin scE (ingreso) scR Suma de Grados de Varianzas Cuadrados libertad 2 1 2716 1 e = 1 2716 0 1600 13 R2 = 0 0123
' ' ' '

12

(Residual) scG (Global)

1 4316
'

14

= 0 1022
'

Anlogamente, el coeficiente de correlacin simple entre las variables gasto y tamao es,

Coeficiente de correlacin parcial entre las variables gasto e ingreso.


r
2

= = 0 9496
'

= 0 974.
'

Otra forma ms compleja de calcular este coeficiente es la siguiente: se obtienen las siguientes regresiones y se guardan los residuos, Gasto = 0 6713 - 0 0363 tamao + e . Ingreso = 5 5923 - 07615 tamao + e . Ahora el coeficiente de correlacin parcial entre las variables gasto e ingreso se obtiene como el coeficiente de correlacin simple entre las variables e ye
' ' ' gasto.tamao ingreso.tamao ingreso.tamao

gasto.tamao

= = 0 9740,
'

este coeficiente mide la relacin entre las variables gasto e ingreso libres de la influencia de la variable tamao. Anlogamente se obtiene que

Estimacin de la media condicionada.

Estimar el gasto medio en alimentacin de una familia con unos ingresos de x = 3 0 y un tamao de x = 4. Esto es .
1 ' 2

Aplicando el modelo de regresin Se calcula el valor de influencia asociado al dato


= =

hh

-1

13

= n =
h

= 0 07649
'

= 13 073
'

La varianza del estimador es Y un intervalo de confianza para m al 90% es


h

Prediccin de una observacin.

La familia Prez que tiene unos ingresos de x = 3 0 y un tamao de x = 4. Esto es qu gasto en alimentacin tendr?.
1 ' 2

Aplicando el modelo de regresin estimado La varianza de la prediccin es


V ar =
2 R

= 0 0060 = 0 0803
' '

= 0 0065
'

Y un intervalo de prdiccin al 90% es Algunos grficos de inters que ayudan a resolver el problema son los siguientes:
Grficos parciales de las componentes

14

Grficos de residuos,

15

16

También podría gustarte