8 Regresión Lineal Simple PDF
8 Regresión Lineal Simple PDF
8 Regresión Lineal Simple PDF
Página 1 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
Ejemplo 2.1
En la Figura 2.1 se nos da las ventas históricas de Microsoft (Véase el archivo
Microsoft.xls). ¿Podemos utilizar estos datos para predecir las ventas futuras?
Esto se conoce como ajustar una tendencia de datos.
Solución
La variable independiente (columna A) es usualmente el año (el primer año es año 1, el
segundo año es año 2, etc.) La variable dependiente (columna B) es las ventas. Los
datos para Microsoft se despliegan en la Figura 2.1. El año 1 es 1984 y las ventas
están expresadas en millones de dólares.
Figura 2.1
En la Figura 2.2 hemos ploteado estos datos. También hemos incluido una curva
ajusta bien los datos. La pendiente de la curva se incrementa a medida que el AÑO
crece, de tal forma que ninguna línea recta ajustaría bien estos datos tanto como la
curva en la Figura 2.2. (Recuerde que una línea recta posee una pendiente
constante). El crecimiento de Microsoft es un ejemplo del crecimiento exponencial
Retornaremos a este estudio de crecimiento exponencial en el Módulo 3.
Página 2 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
Ventas de Microsoft
y = 63.681e0.4171x
5000 R2 = 0.9967
Ventas (millones $)
4000
3000 Ventas
Expon. (Ventas)
2000
1000
0
0 5 10 15
Year
Figura 2.2
Ejemplo 2.2
El rendimiento de la mayoría de las acciones está muy precisamente ligado al retorno
del mercado. En finanzas, es muy importante tratar de predecir el rendimiento de
una acción (variable dependiente) con respecto al retorno del mercado (variable
independiente). Nótese que:
En la Figura 2.3, hemos expuesto los retornos anuales de la acción de Eli Lilly
(archivo Lilly.xls) y el rendimiento anual del mercado para los años 1985-1994.
Usaremos la columna E para la variable independiente y la columna F para la variable
dependiente.
Figura 2.4
Página 3 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
En la Figura 2.4 hemos ploteado la línea que mejor ajusta estos datos (más sobre el
significado de “mejor ajuste” más adelante en el capítulo). Observamos que existe
una relación lineal entre el rendimiento del mercado y el rendimiento de Lilly, pero
que la gran dispersión de los puntos alrededor de la línea de mejor ajuste indica que
no tenemos una relación lineal “perfecta”. Otros factores además del rendimiento
del mercado deben de estar incidiendo sobre el rendimiento de Lilly.
0.8
0.6
Rendimiento de Lilly
0.4
Series1
0.2 Linear (Series1)
0
-0.05 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35
-0.2
-0.4
Rendimiento del Mercado
Figura 2.4
Ahora discutimos cómo ajustar una línea recta a los datos. El siguiente ejemplo nos
ayudará a iniciar.
Página 4 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
Ejemplo 2.3
Chipco es una pequeña empresa de manufactura de chips para computadoras. Esta
empresa desea ser capaz de predecir sus costos operativos mensuales como una
función del número de unidades producidas durante un mes. Han recolectado datos
para 16 meses mostrados en la Figura 2.5 (archivo Chipco.xls).
Figura 2.5
Determine una ecuación que pueda ser utilizada para predecir los
costos de producción mensual dadas las unidades producidas.
Solución
Al tratar de relacionar una variable a otra, siempre empezamos por construir un
diagrama de dispersión. Esto nos dirá si la relación lineal (o no lineal) es razonable.
Página 5 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
Paso a Paso
Diagrama de Dispersión
200000
150000
50000
0
0 200 400 600 800 1000
Unidades Producidas
Figura 2.6
Página 6 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
La Figura 2.6 demuestra claramente que existe una fuerte relación lineal entre las
Unidades Producidas y el Costo Mensual. Cuando ajustamos una línea usando una
única variable independiente para predecir el valor de una variable dependiente,
estamos corriendo una regresión lineal simple. Ahora que hemos encontrado que
existe una relación lineal entre las Unidades Producidas y el Costo Mensual,
queremos encontrar la línea que “mejor” ajusta los datos ploteados en la Figura 2.6.
La mejor línea es usualmente definida como aquella línea que minimiza la suma del
cuadrado de las distancias verticales desde tal línea a los puntos de datos. (Piense
porqué no se querrían minimizar la suma de las distancias verticales de la línea a los
puntos!). Esta línea se llama de línea de mínimos cuadrados. Existen al menos tres
formas en que usted puede utilizar el Excel para encontrar la línea de mínimos
cuadrados. Por ahora, vamos a mostrar dos métodos:
Paso a Paso
• Paso 1: Seleccione el gráfico de dispersión y haga clic sobre los puntos de datos
hasta que estos queden seleccionados en amarillo.
Página 7 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
Esta línea tiene un valor de intersección de 23,644 y una pendiente de 198.47. Para
cualquier línea de mínimos cuadrados, la intersección es el valor predicho para Y (la
variable dependiente) cuando X (la variable independiente) se iguala a 0. En este
ejemplo, la intersección de $23,644 sería nuestra predicción de costos cuando se
manufacturan 0 unidades. Este es un estimado de los costos mensuales fijos de
operación de Chipco.
=INTERCEPT(C4:C19, B4:B19)
Figura 2.8
= SLOPE(C4:C19, B4:B19)
Observe que el primer argumento en las funciones =INTERCEPT() y =SLOPE() es el rango en donde se
encuentra la serie de datos Y y el segundo argumento es en rango en donde se encuentra la serie de datos
X.
Página 8 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
Figura 2.9
Paso a Paso:
= $C$22 + $C$23*B4
Página 9 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
Al copiar esta fórmula al rango de celdas E4:E19, se computan las predicciones para
los meses 2 al 16. (Véase Figura 2.9)
• Paso 2: Excel contiene una función interna (=TREND()) que puede ser utilizada
para construir predicciones usando regresiones. =TREND es un tipo especial de
función, denominada función de arreglo. Para onstruir predicciones para los meses
1 al 16, mueva el cursor a la celda D4 y seleccione el rango donde se desea
posicionar los pronósticos (D4:D19). Ahora digite en la celda D4 la fórmula:
Teclee Ctrl + Shift + Enter (No solamente Enter!) y sus predicciones aparecerán en
el rango D4:D19. No se preocupe por las llaves ({}) Las llaves ({}) significan de que se
ha digitado una función de tipo arreglo. El primer argumento de =TREND es el rango
de las Y de los datos utilizados para ajustar la línea. El segundo argumento de
=TREND es el rango de las X de los datos utilizados para ajustar la línea. El tercer
rango es el rango de las X para los datos para los cuales se desean hacer las
predicciones.
Suponga que durante el mes 17, se produjeron 400 chips. ¿Cómo podemos
determinar la predicción del costo mensual? Podríamos usar, ya sea, cualquiera de los
siguientes caminos:
Página 10 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
No se debería utilizar una regresión para hacer pronósticos de valores de la variable independiente que
difieran grandemente con respecto a los valores observados. Por ejemplo, nuestra regresión probablemente
posea poca validez para predecir los costos durante un mes en que Chipco produzca 10,000 unidades. Esto
se debe a que los datos no incluyen ningún mes con un valor de producción similar.
Si se considera que una regresión deberá pasar por el punto (0,0), se puede lograr esto poniéndole un check
a la caja de INTERCEPT = 0 en la parte de Opciones de Inserción de Línea de Tendencia.
Paso a Paso:
= C4 – D4
Al copiar esta fórmula al rango de celdas F5:F19 se computan los residuales para los
meses 2 hasta el 16.
Para cualquier línea de mínimos cuadrados, la sumatoria de los residuales será igual a
0 (¿Porqué es esto razonable?). Retornaremos a nuestra discusión de los residuales
cuando discutamos la precisión de los pronósticos realizados con una regresión.
Página 11 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
La Figura 2.7 mostró un R2=.9717. ¿Qué significa esto? Para cualquier regresión
lineal simple, R2 es el porcentaje de variación en la variable dependiente (costo)
explicado por la variable independiente (unidades producidas). Esta variación en las
unidades producidas explica el 97.17% de la variación en los costos. Esto significa
que tan solo el 2.8% de la variación en el costo mensual no está explicado por la
variación en las unidades producidas. También podemos encontrar el valor de R2 con
la función =RSQ. Para el ejemplo de Chipco, al digitar en la celda C25 la fórmula:
=RSQ(C4:C19, B4:B19)
Figura 2.10
Cuando utilizamos una regresión lineal simple para predecir una variable dependiente,
una pregunta natural es cuán preciso es tal pronóstico. La clave para contestar esta
pregunta es se = error estándar de la estimación. se es una medida de la desviación
estándar de los residuales. Se da el caso que:
Página 12 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
= STEYX(C4:C19, B4:B19)
Excel retorna se = 7262. En la columna F en la Figura 2.9 se muestra que para todas
las observaciones el costo real se encuentra dentro de 2Se = $14,524 respecto del
costo real mientras que en 11/16 (69%) de los costos predicho se encuentran Se de
los costos reales. Cualquier observación para la cual nuestra predicción se encuentre
más allá de 2Se se llama un dato extralimitado. Los datos extralimitados deben ser
examinados con mucho cuidado porque pueden representar información imprecisa o
pueden ser causados por factores que no están siendo considerados en la regresión.
Por ejemplo, un dato extralimitado en el lado alto pudo haber sido causado por una
huelga en la planta. Para nuestro ejemplo de Chipco, no se presentan datos
extralimitados.
Desviación estándar = se
Página 13 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
Figura 2.11
Solución
En la celda B28 computamos (Véase Figura 2.11) el costo promedio cuando se
producen 500 unidades con la fórmula:
Obtenemos .001. ¡Esto nos dice que si producimos 500 unidades en el mes
y el costo se excede en más de $145,000 hay algo definitivamente mal!
La función Excel =NORMDIST(x, μ, σ, 1) retornará la probabilidad de que una variable normal aleatoria con
promedio μ y desviación estándar σ, asuma un valor igual o menor a x.
Página 14 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
Paso a Paso
• Paso 6: Chequee la opcion de “Nueva Hoja para Resultados” (“New Sheet box for
output”) (denominada la hoja de regresión).
Página 15 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
Página 16 de 17
Módulo 2:
Regresión Lineal Simple – Estimación de Costos Fijos y Variables
Página 17 de 17