8 Regresión Lineal Simple PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 17

Módulo 2:

Regresión Lineal Simple – Estimación de Costos Fijos y Variables

Módulo 2: Regresión Lineal Simple –


Estimación de Costos Fijos y Variables

Existen muchas situaciones en donde deseamos


predecir el valor de una variable (la variable dependiente)
dependiendo del valor de una o de más variables
independientes. En este capítulo discutiremos cómo
hacer este tipo de predicciones cuando existe una
variable independiente. Usaremos convencionalmente la
Y como variable dependiente y la X como variable
independiente. Aquí hay algunos ejemplos donde es
importante ser capaz de predecir la variable dependiente
respecto del valor de la variable independiente.

Página 1 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

Ejemplo 2.1
En la Figura 2.1 se nos da las ventas históricas de Microsoft (Véase el archivo
Microsoft.xls). ¿Podemos utilizar estos datos para predecir las ventas futuras?
Esto se conoce como ajustar una tendencia de datos.

Solución
La variable independiente (columna A) es usualmente el año (el primer año es año 1, el
segundo año es año 2, etc.) La variable dependiente (columna B) es las ventas. Los
datos para Microsoft se despliegan en la Figura 2.1. El año 1 es 1984 y las ventas
están expresadas en millones de dólares.

Figura 2.1

En la Figura 2.2 hemos ploteado estos datos. También hemos incluido una curva
ajusta bien los datos. La pendiente de la curva se incrementa a medida que el AÑO
crece, de tal forma que ninguna línea recta ajustaría bien estos datos tanto como la
curva en la Figura 2.2. (Recuerde que una línea recta posee una pendiente
constante). El crecimiento de Microsoft es un ejemplo del crecimiento exponencial
Retornaremos a este estudio de crecimiento exponencial en el Módulo 3.

Página 2 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

Ventas de Microsoft
y = 63.681e0.4171x
5000 R2 = 0.9967

Ventas (millones $)
4000
3000 Ventas
Expon. (Ventas)
2000
1000
0
0 5 10 15
Year

Figura 2.2

Ejemplo 2.2
El rendimiento de la mayoría de las acciones está muy precisamente ligado al retorno
del mercado. En finanzas, es muy importante tratar de predecir el rendimiento de
una acción (variable dependiente) con respecto al retorno del mercado (variable
independiente). Nótese que:

Rendimiento Anual = Precio Año Siguiente + Dividendo – Precio Año Anterior


Precio Año Anterior

En la Figura 2.3, hemos expuesto los retornos anuales de la acción de Eli Lilly
(archivo Lilly.xls) y el rendimiento anual del mercado para los años 1985-1994.
Usaremos la columna E para la variable independiente y la columna F para la variable
dependiente.

Figura 2.4

Página 3 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

En la Figura 2.4 hemos ploteado la línea que mejor ajusta estos datos (más sobre el
significado de “mejor ajuste” más adelante en el capítulo). Observamos que existe
una relación lineal entre el rendimiento del mercado y el rendimiento de Lilly, pero
que la gran dispersión de los puntos alrededor de la línea de mejor ajuste indica que
no tenemos una relación lineal “perfecta”. Otros factores además del rendimiento
del mercado deben de estar incidiendo sobre el rendimiento de Lilly.

Rendimiento de Lilly vs. Mercado

0.8

0.6
Rendimiento de Lilly

0.4

Series1
0.2 Linear (Series1)

0
-0.05 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

-0.2

-0.4
Rendimiento del Mercado

Figura 2.4

Ajustando una Línea Recta a los Datos

Ahora discutimos cómo ajustar una línea recta a los datos. El siguiente ejemplo nos
ayudará a iniciar.

Página 4 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

Ejemplo 2.3
Chipco es una pequeña empresa de manufactura de chips para computadoras. Esta
empresa desea ser capaz de predecir sus costos operativos mensuales como una
función del número de unidades producidas durante un mes. Han recolectado datos
para 16 meses mostrados en la Figura 2.5 (archivo Chipco.xls).

Figura 2.5

Determine una ecuación que pueda ser utilizada para predecir los
costos de producción mensual dadas las unidades producidas.

Solución
Al tratar de relacionar una variable a otra, siempre empezamos por construir un
diagrama de dispersión. Esto nos dirá si la relación lineal (o no lineal) es razonable.

Página 5 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

Ploteo de los Datos

Paso a Paso

• Paso 1: Seleccione el rango B3:C19

• Paso 2: Seleccione el Wizard de Gráficos y escoja la opción de Diagrama de


Dispersión X-Y (X-Y Scatterplot). (Opción 1).

Se obtendrá un diagrama de dispersión como el de la Figura 2.6.

Diagrama de Dispersión

200000

150000

100000 Total Costo

50000

0
0 200 400 600 800 1000
Unidades Producidas

Figura 2.6

Encontrando la Línea de Mínimos


Cuadrados

Página 6 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

La Figura 2.6 demuestra claramente que existe una fuerte relación lineal entre las
Unidades Producidas y el Costo Mensual. Cuando ajustamos una línea usando una
única variable independiente para predecir el valor de una variable dependiente,
estamos corriendo una regresión lineal simple. Ahora que hemos encontrado que
existe una relación lineal entre las Unidades Producidas y el Costo Mensual,
queremos encontrar la línea que “mejor” ajusta los datos ploteados en la Figura 2.6.
La mejor línea es usualmente definida como aquella línea que minimiza la suma del
cuadrado de las distancias verticales desde tal línea a los puntos de datos. (Piense
porqué no se querrían minimizar la suma de las distancias verticales de la línea a los
puntos!). Esta línea se llama de línea de mínimos cuadrados. Existen al menos tres
formas en que usted puede utilizar el Excel para encontrar la línea de mínimos
cuadrados. Por ahora, vamos a mostrar dos métodos:

Paso a Paso

• Paso 1: Seleccione el gráfico de dispersión y haga clic sobre los puntos de datos
hasta que estos queden seleccionados en amarillo.

• Paso 2: Ahora se puede seleccionar de la opción en Gráfico de Agregar Línea de


Tendencia.

• Paso 3: Chequee las cajas “Desplegar ecuación en el gráfico” y “Desplegar Valor de


R2”. Con esto, se obtendrá la Figura 2.7.

Diagrama de Dispersión y = 198.47x + 23644


R2 = 0.9717
250000
200000
Total Costo
150000 Linear (Total Costo)
100000 Linear (Total Costo)
50000
0
0 200 400 600 800 1000
Unidades Producidas

Ahora podemos observar la línea de mínimos cuadrados. Esta línea es:

Página 7 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

COSTO = 23,644 + 198.47 (UNIDADES PRODUCIDAS)

Esta línea tiene un valor de intersección de 23,644 y una pendiente de 198.47. Para
cualquier línea de mínimos cuadrados, la intersección es el valor predicho para Y (la
variable dependiente) cuando X (la variable independiente) se iguala a 0. En este
ejemplo, la intersección de $23,644 sería nuestra predicción de costos cuando se
manufacturan 0 unidades. Este es un estimado de los costos mensuales fijos de
operación de Chipco.

La pendiente de cualquier línea de mínimos cuadrados es el incremento predicho en Y


ante un incremento de una unidad den X. Para nuestro ejemplo la pendiente de
$194.87 se interpreta al decir que el costo variable de producir una unidad adicional
está estimado en $194.87.

Otro método para obtener la línea de mínimos cuadrados es la utilización de las


funciones =INTERCEPT() y =SLOPE().

• Paso 4: Para obtener la intersección de la línea de mínimos cuadrados para Chipco,


digite en la celda C22 la siguiente fórmula:

=INTERCEPT(C4:C19, B4:B19)

Excel retorna 23,468 (Véase la Figura 2.8)

Figura 2.8

• Paso 5: Para obtener la pendiente de la línea de mínimos cuadrados para Chipco,


digite en la celda C23 la siguiente fórmula:

= SLOPE(C4:C19, B4:B19)

Excel retorna 198.47 (Véase Figura 2.8)

Observe que el primer argumento en las funciones =INTERCEPT() y =SLOPE() es el rango en donde se
encuentra la serie de datos Y y el segundo argumento es en rango en donde se encuentra la serie de datos
X.

Página 8 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

Haciendo Predicciones con la Línea de


Mínimos Cuadrados

A continuación demostramos dos formas para utilizar la Línea de Mínimos Cuadrados


para realizar predicciones para el Costo Mensual (Véase Figura 2.9). Por ejemplo,
para el Mes 1:

COSTO PREDICHO = 23,643.8 + 198.47(500) = $122,876.35

Figura 2.9

Paso a Paso:

• Paso 1: En la celda E4 prediga el costo total de Mes 1 con la siguiente fórmula:

= $C$22 + $C$23*B4

Página 9 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

Al copiar esta fórmula al rango de celdas E4:E19, se computan las predicciones para
los meses 2 al 16. (Véase Figura 2.9)

• Paso 2: Excel contiene una función interna (=TREND()) que puede ser utilizada
para construir predicciones usando regresiones. =TREND es un tipo especial de
función, denominada función de arreglo. Para onstruir predicciones para los meses
1 al 16, mueva el cursor a la celda D4 y seleccione el rango donde se desea
posicionar los pronósticos (D4:D19). Ahora digite en la celda D4 la fórmula:

=TREND(C4:C19, B4:B19, B4:B19)

Teclee Ctrl + Shift + Enter (No solamente Enter!) y sus predicciones aparecerán en
el rango D4:D19. No se preocupe por las llaves ({}) Las llaves ({}) significan de que se
ha digitado una función de tipo arreglo. El primer argumento de =TREND es el rango
de las Y de los datos utilizados para ajustar la línea. El segundo argumento de
=TREND es el rango de las X de los datos utilizados para ajustar la línea. El tercer
rango es el rango de las X para los datos para los cuales se desean hacer las
predicciones.

Nótese que las columnas D y E son idénticas. (Así debería ser!)

Suponga que durante el mes 17, se produjeron 400 chips. ¿Cómo podemos
determinar la predicción del costo mensual? Podríamos usar, ya sea, cualquiera de los
siguientes caminos:

• Paso 3: Copie la fórmula de E19 en E20. Esto retornará una predicción de


$103,029.84.

• Paso 4: En la celda D20 digite la siguiente fórmula de arreglo:

=TREND(C4:C19, B4:B19, B20)

Después de teclear Ctrl + Shift +Enter, Excel retornará el valor de $103,029.84.

Página 10 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

No se debería utilizar una regresión para hacer pronósticos de valores de la variable independiente que
difieran grandemente con respecto a los valores observados. Por ejemplo, nuestra regresión probablemente
posea poca validez para predecir los costos durante un mes en que Chipco produzca 10,000 unidades. Esto
se debe a que los datos no incluyen ningún mes con un valor de producción similar.

Si se considera que una regresión deberá pasar por el punto (0,0), se puede lograr esto poniéndole un check
a la caja de INTERCEPT = 0 en la parte de Opciones de Inserción de Línea de Tendencia.

Análisis de Errores o Residuales

Un concepto importante en la evaluación de las predicciones es el error o residuo de


cada observación. Para cada observación, definimos el residual como “Residual de
Observación” = Valor Observado de Y – Valor Predicho de Y. Si tuviésemos una línea
perfectamente ajustando a todos los puntos, todos los residuales serían iguales a 0.
De esta forma, una línea “bien ajustada” debería tener la mayoría de sus residuales
cercanos a 0. Computamos los residuales para los datos de Chipco en el rango F4:F19
de la Figura 2.9.

Paso a Paso:

• Paso 1: Compute los residuales del mes 1 en la celda F4 con la fórmula

= C4 – D4

Al copiar esta fórmula al rango de celdas F5:F19 se computan los residuales para los
meses 2 hasta el 16.

Para cualquier línea de mínimos cuadrados, la sumatoria de los residuales será igual a
0 (¿Porqué es esto razonable?). Retornaremos a nuestra discusión de los residuales
cuando discutamos la precisión de los pronósticos realizados con una regresión.

Página 11 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

¿Qué tan bueno es el Ajuste?

La Figura 2.7 mostró un R2=.9717. ¿Qué significa esto? Para cualquier regresión
lineal simple, R2 es el porcentaje de variación en la variable dependiente (costo)
explicado por la variable independiente (unidades producidas). Esta variación en las
unidades producidas explica el 97.17% de la variación en los costos. Esto significa
que tan solo el 2.8% de la variación en el costo mensual no está explicado por la
variación en las unidades producidas. También podemos encontrar el valor de R2 con
la función =RSQ. Para el ejemplo de Chipco, al digitar en la celda C25 la fórmula:

=RSQ(C4:C19, B4:B19)

se obtiene el valor de 0.9717 (véase Figura 2.10)

Figura 2.10

¿Qué tan precisas son nuestras predicciones?

Cuando utilizamos una regresión lineal simple para predecir una variable dependiente,
una pregunta natural es cuán preciso es tal pronóstico. La clave para contestar esta
pregunta es se = error estándar de la estimación. se es una medida de la desviación
estándar de los residuales. Se da el caso que:

Para aproximadamente el 68% de las observaciones, los valores reales de la


variable dependiente se encontrarán a menos de se del valor predicho. (o bien
|Residual| <=se en el 68% de las veces).
Para aproximadamente el 95% de las observaciones, los valores reales de la
variable dependiente se encontrarán a menos de 2se del valor predicho. (o bien
|Residual| <=2se en el 95% de las veces).
Para aproximadamente el 99.7% de las observaciones, los valores reales de la
variable dependiente se encontrarán a menos de 3se del valor predicho. (o bien
|Residual| <=3se en el 99.7% de las veces).

En la figura 2.10 encontramos que se = 7262. Esto lo encontramos al digitar en la


celda C24 la fórmula:

Página 12 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

= STEYX(C4:C19, B4:B19)

Excel retorna se = 7262. En la columna F en la Figura 2.9 se muestra que para todas
las observaciones el costo real se encuentra dentro de 2Se = $14,524 respecto del
costo real mientras que en 11/16 (69%) de los costos predicho se encuentran Se de
los costos reales. Cualquier observación para la cual nuestra predicción se encuentre
más allá de 2Se se llama un dato extralimitado. Los datos extralimitados deben ser
examinados con mucho cuidado porque pueden representar información imprecisa o
pueden ser causados por factores que no están siendo considerados en la regresión.
Por ejemplo, un dato extralimitado en el lado alto pudo haber sido causado por una
huelga en la planta. Para nuestro ejemplo de Chipco, no se presentan datos
extralimitados.

Enunciados de Probabilidad respecto de la


Variable Dependiente

Dado el valor de la variable independiente, podemos inclusive realizar enunciados de


probabilidad respecto de los valores de la variable dependiente. La clave para
considerar es que si x = x0, entonces el valor real de y se distribuirá de una manera
aproximadamente normal con:

Promedio = Valor predicho de y cuando x = x0

Desviación estándar = se

Lo siguiente ilustra el uso de esta idea.

Ejemplo 2.1 (Continuado)


¿Durante un mes en que se produjeron 500 unidades, cuál es la
probabilidad de que los costos mensuales excedan los $145,000?

Página 13 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

Figura 2.11

Solución
En la celda B28 computamos (Véase Figura 2.11) el costo promedio cuando se
producen 500 unidades con la fórmula:

= A28 * 198.47 + 23644

Obtenemos un valor de $122,879. Ahora sabemos que durante un mes en que se


produzcan 500 unidades, el costo mensual seguirá una distribución normal con
promedio (en celda B28) de $122,879 y una desviación estándar (en celda C24) igual
a Se = 7,262. Ahora en la celda C28 obtenemos la probabilidad de que el costo
mensual se de, al menos, $145,000 con la fórmula:

= 1 – NORMDIST(145000, B28, C24, 1)

Obtenemos .001. ¡Esto nos dice que si producimos 500 unidades en el mes
y el costo se excede en más de $145,000 hay algo definitivamente mal!

La función Excel =NORMDIST(x, μ, σ, 1) retornará la probabilidad de que una variable normal aleatoria con
promedio μ y desviación estándar σ, asuma un valor igual o menor a x.

Página 14 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

Regresión con el Paquete de Herramientas


de Análisis: Prueba de Hipótesis en
Regresión

Al utilizar la opción de Regresión del Paquete de Herramientas de Análisis (Análisis


ToolPak) se nos provee con mucha más información acerca de la relación entre x y y.
Para ilustrar esto, aquí se muestra cómo ejecutar un análisis de regresión con el
Paquete de Herramientas de Análisis (Análisis ToolPak) para el ejemplo de Chipco
(Véase Figura 2.12).

Paso a Paso

• Paso 1: Seleccione las opciones: “Análisis de Datos”, “Herramientas”, “Regresión”.


(“Data Analysis”, “Tools”, “regression”)

• Paso 2: Seleccione el rango Y como C3:C19.

• Paso 3: Seleccione el rango X como B3:B19.

• Paso 4: Chequee la caja de “Etiquetas” (“Labels”)

• Paso 5: Chequee la caja de “Residuales” (“Residuals”)

• Paso 6: Chequee la opcion de “Nueva Hoja para Resultados” (“New Sheet box for
output”) (denominada la hoja de regresión).

En la celda B5 encontramos R2 = 0.9717. En la celda B7, encontramos Se = 7261.64.


En la celda B17 encontramos la intersección (23,643.8) para la regresión y en la celda
B18 encontramos la pendiente (198.47) para la regresión. En el rango C25:c40
obtenemos los residuos para las 16 observaciones. Las predicciones para las 16
observaciones se encuentran en el rango B25:B40.

Página 15 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

Página 16 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables

Examinando el Significado de la Relación


Lineal

El modelo de regresión lineal postula que:

Y = β0 + β1x + término de error (2.1)

Se asume que el término de error tiene un promedio de 0. Esto representa el hecho


de que los puntos se dispersen alrededor de la verdadera línea de regresión (β 0 +
β1x). Tal y como el promedio y la variancia de una variable aleatoria, β 0 y β1 son
parámetros incógnitos de población que nosotros tratamos de estimar. La
intersección de la línea de mínimos cuadrados es un estimado de β0 y la pendiente de
la línea de mínimos cuadrados es un estimado de β1. El análisis de regresión del
ANALISIS DE DATOS nos posibilita examinar las siguientes hipótesis:

H0: β1 = 0 (no hay regresión lineal significativa)


Ha: β1 ≠ 0 ( hay una regresión lineal significativa)
Nótese que si H0 es verdadera entonces (2.1) se convierte en Y = β0 + término de
error. Esto significaría que para todos los valores de x nuestra predicción de y sería
el mismo número (β0). Este es el significado de que no exista relación lineal. Para
escoger entre H0 y Ha observamos en el estadístico t en D18 (21.93) y en el
estadístico p (3.06E-12) en E18. Rechazamos H0 si el valor p es menor a σ = nivel de
significancia. Así que para cualquier nivel de significancia concluiríamos que existe
una relación lineal significativa entre unidades producidas y costo mensual. Esto es
consistente con lo cercano que se encuentran los puntos reales respecto de la línea
de mínimos cuadrados en la Figura 2.7. Para muestras de tamaño razonable (al menos
30 datos), un estadístico t que exceda 2 en valor absoluto será significativo a un
nivel de 0.05. Frecuentemente, en una regresión utilizamos σ = 0.10. Esto es para
evitar perder una posiblemente importante relación lineal.

Página 17 de 17

También podría gustarte