Contenidos Semana 6
Contenidos Semana 6
Contenidos Semana 6
ESTADÍSTICA
SEMANA 6
Regresión lineal
Todos los derechos de autor son de la exclusiva propiedad de IACC o de los otorgantes de sus licencias. No está
permitido copiar, reproducir, reeditar, descargar, publicar, emitir, difundir, poner a disposición del público ni
utilizar los contenidos para fines comerciales de ninguna clase.
IACC
1
SEMANA 6 – ESTADÍSTICA
APRENDIZAJES ESPERADOS
El estudiante será capaz de resolver
ejercicios y problemas estadísticos,
empleando modelos de regresión lineal.
IACC
2
SEMANA 6 – ESTADÍSTICA
IACC
3
SEMANA 6 – ESTADÍSTICA
INTRODUCCIÓN
Uno de los principales objetivos de la estudiará el análisis que permite aproximar
estadística es el de predecir el valor de una los datos en un diagrama de dispersión,
variable conociendo el valor de otra con el llamado modelos de regresión.
fin de establecer una relación de
dependencia entre ellas. Existen varios modelos de regresión,
dependiendo de la forma que se adquieren
Así, se podría pensar que, si hay una línea o los datos dispersos en un diagrama de
curva en torno a la cual se agrupan los puntos. Se pueden encontrar modelos de
puntos de un diagrama (de dispersión), esta regresión lineal, exponencial y logarítmico,
ha de ser un valor cercano, una aproximación entre otros.
de los valores reales. En esta semana se
IACC
4
SEMANA 6 – ESTADÍSTICA
Ŷ a b x
Donde los factores no controlados que se consideran bajo el nombre de error aleatorio, ε. Este
factor provoca que la dependencia entre las variables dependiente (Y) e independiente (X) no sea
exacta y perfecta, si no que esté sujeta a la incertidumbre, es decir, idealmente tenga el menor
error posible (o en su defecto que tienda a cero).
Para determinar los coeficientes (cantidades) de a y b del modelo, se debe minimizar la suma de
los cuadrados de la diferencia entre Y e Yˆ . Debido a este proceso, este método de regresión es
llamado método de los mínimos cuadrados.
Desde el punto de vista estadístico, los modelos de regresión son curvas que minimizan el error.
En este sentido, se denomina error a la distancia que existe entre el dato observado y el dato
pronosticado por el modelo de regresión.
Las cantidades a y b que minimizan dicho error son los llamados coeficientes de regresión:
a Y b X S XY
b
S X2
IACC
5
SEMANA 6 – ESTADÍSTICA
Ejemplo 1:
Se tiene la siguiente población donde se estudiará la relación entre la altura de la madre y la altura
de su primer hijo:
Si se entiende que la altura de la madre es la variable independiente, ¿cuál sería la altura del
primer hijo si la altura de la madre es de 1,80 m?
S XY
b
S X2
S XY 0,00372
b 0,5027
S X2 0,00740
IACC
6
SEMANA 6 – ESTADÍSTICA
Yˆ 0,8503 0,5027 x
Coeficiente b:
La interpretación del coeficiente b se puede realizar de dos formas complementarias. El signo
indica si la relación es directa (signo positivo) o indirecta (signo negativo).
Por otro lado, se debe interpretar el número. En este caso, representa la razón de cambio entre las
variables, es decir, la variación de la variable Y, cuando la variable X aumenta en una unidad.
Considerando los resultados obtenidos anteriormente: se podría concluir que por cada unidad de
crecimiento de la variable X, la variable crece 0,5027. Esto representa en el problema que: si dos
madres poseen estaturas que se diferencian en un centímetro, las estaturas de sus hijos se
diferenciarán en medio centímetro.
Coeficiente a:
IACC
7
SEMANA 6 – ESTADÍSTICA
Del ejemplo anterior se podría preguntar: ¿cuánto explica la variable X a la variable Y?, es decir,
qué tan confiable es la predicción de un valor para la variable Y a partir de la variable X. La
respuesta a esta interrogante se encuentra en la bondad de ajuste1.
En un modelo de regresión lineal el grado de bondad de ajuste se establece a partir del coeficiente
de determinación, denotado por R2, que se calcula:
2 Donde:
S
R r
2 2
XY
XY s s
x y SXY es la covarianza entre las variables X e Y.
Ejemplo 2:
1
En la construcción del modelo de simulación es importante decidir si un conjunto de datos se ajusta
apropiadamente a una distribución específica de probabilidad. Al probar la bondad del ajuste de un
conjunto de datos, se comparan las frecuencias observadas (FO) realmente en cada categoría o intervalo de
clase con las frecuencias esperadas teóricamente (FE). Ver más en:
http://www.sites.upiicsa.ipn.mx/polilibros/portal/polilibros/p_terminados/SimSist/doc/SIMULACI-N-
128.htm
IACC
8
SEMANA 6 – ESTADÍSTICA
T° Litros agua
22 1.000
31 1.950
30 1.800
28 1.750
25 1.600
26 1.550
30 2.000
20 1.050
18 900
Solución:
S XY 1710,494
b 87,35
S X2 19,58025
IACC
9
SEMANA 6 – ESTADÍSTICA
Yˆ 721.556 87.35 x
a = -721,37. En el contexto del problema no tiene sentido, ya que si no hay temperatura, los
litros no pueden ser negativos.
El valor de r se obtiene:
S XY 1710,494
rXY 0,97014
s x s y 4,424958 398,453802
Por lo que existe una alta correlación lineal, con pendiente positiva.
Ejemplo 3:
Una empresa con el fin de realizar un estudio obtiene la siguiente información, sobre el sueldo de
sus trabajadores (en miles de $) y los años de servicio en la empresa. Observar los datos en la
siguiente tabla:
IACC
10
SEMANA 6 – ESTADÍSTICA
Años de servicio
Sueldo (miles de $)
5 10 12
100 – 200 0 1 3
200 – 300 1 0 4
300 – 400 2 3 5
400 – 500 4 5 7
De acuerdo con esta información, estimar los años de servicio de una persona que tiene un sueldo
de $320.000.
Solución:
12.550
Sueldo 358,571
35
353
Años 10,086
35
XY 124 .450
Sueldo* Años 3555 ,714
N 35
Se puede concluir que la relación es inversa, es decir, si los años aumentan, el sueldo disminuye.
Ahora la covarianza:
i i i
2
X 2 n X n 2
S2 i 4867 ,500 12 .550 10497 ,959
x N N 35 35
IACC
11
SEMANA 6 – ESTADÍSTICA
S
xy 60,833
a 0,006
2 10497,959
S
x
Entonces:
Se estima que una persona con un sueldo de $320.000 tiene aproximadamente 10 años de
servicio.
Una agencia de publicidad estudia el porcentaje de aumento de las ventas dado un aumento en el
porcentaje de los gastos de publicidad.
Principal observación: para realizar un gráfico, Excel reconoce a la primera columna como
variable X.
IACC
12
SEMANA 6 – ESTADÍSTICA
: % de aumento de ventas
% Aumento ventas
15
10
0
0 5 10 15
IACC
13
SEMANA 6 – ESTADÍSTICA
Luego, aparece un
menú, donde
automáticamente
está la opción del
modelo lineal (si se
tuviese que elegir
otro modelo se hace
clic sobre el que se
necesita en forma
específica).
IACC
14
SEMANA 6 – ESTADÍSTICA
Por último, ir
con el cursor al
final de este
menú y marcar
sobre las
siguientes
opciones:
“Presentar
ecuación en el
gráfico” y
“Presentar el
valor de R
cuadrado”.
IACC
15
SEMANA 6 – ESTADÍSTICA
Al hacer clic en
las opciones
anteriores
automáticamente
sobre el gráfico
aparece el
modelo de
regresión lineal,
además del
coeficiente de
determinación.
IACC
16
SEMANA 6 – ESTADÍSTICA
Ejemplo 3:
Suponga que usted como experto en estadística fue contratado con la Conaf para realizar un
estudio ambiental sobre la concentración de fosfato en la cuenca de un lago en mg/L y la
superficie afectada por el crecimiento de algas, utilizando los datos están en el archivo Excel:
“Datos ejemplo 3 semana 6.xlsx”.
Determine lo siguiente:
IACC
17
SEMANA 6 – ESTADÍSTICA
Solución:
IACC
18
SEMANA 6 – ESTADÍSTICA
Otro punto importante es considerar otros modelos de regresión, como son los modelos de línea
de tendencia exponencial y logarítmica. Para que aparezcan dichos modelos, en vez de elegir el
modelo lineal (en “Agregar línea de tendencia central”) se escoge exponencial o logarítmica, sin
olvidar marcar el ticket de la ecuación y el de R cuadrado, ya que permitirá saber qué modelo se
ajusta mejor a los datos. Si tomamos como ejemplo la misma base de datos tenemos:
IACC
19
SEMANA 6 – ESTADÍSTICA
Por lo que si se comparan los tres modelos, el modelo lineal es más confiable, es decir es el que
mejor se ajusta a los datos, ya que su coeficiente de determinación es mayor, por lo que en este
último las estimaciones serán más confiables.
COMENTARIO FINAL
En esta semana se aprendió a ocupar una de las ramas más aplicadas de las estadísticas. De aquí
se puede obtener una gran información de estimaciones, modelos y confiabilidad. De hecho, la
rama de la estadística que estudia esto es llamada inferencia, la que permite obtener una mayor
información de las variables y, por ende, de sus estimaciones, especialmente controlando el error
que se debe asumir como cero.
La invitación para usted como futuro profesional es seguir ejercitándose, creando modelos con
nuevas variables y formulado otras interrogantes que resolver, formando lo que se llama modelo
de regresión múltiple, y convertirse en un experto en esta materia, prestando invaluables
conclusiones en su trabajo diario.
IACC
20
SEMANA 6 – ESTADÍSTICA
REFERENCIAS
Anderson, D.; Sweeney, D. y Williams, T. (2008). Estadística para administración y economía, 10ª
Thomson Editores.
Levin, R.; Rubin, D.; Balderas, M.; Del Valle, J. C. y Gómez, R. (2004). Estadística para
IACC
21
SEMANA 6 – ESTADÍSTICA
IACC
22
SEMANA 6 – ESTADÍSTICA
IACC
23