U1 Regresion Lineal Simple y Correlacion

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 73

Estadística Administrativa II

Unidad 1
Regresion lineal simple y correlacion

TecNM SEPTIEMBRE 2020


Modelo de regresión simple
La regresión lineal simple examina la relación lineal entre dos
variables continuas: una respuesta (Y) y un predictor (X). Cuando
las dos variables están relacionadas, es posible predecir un valor
de respuesta a partir de un valor predictor con una exactitud
mayor que la asociada únicamente a las probabilidades.
Para establecer una relación cuantitativa X Y es necesario
disponer de cierta información muestral. Esta información
consiste de un conjunto de pares de observaciones de X y
Y , donde cada uno de estos pares pertenece a una
unidad elemental particular de la muestra.
Por ejemplo, suponga que el rendimiento de un proceso químico está
relacionado con la temperatura de operación, o la experiencia
profesional de los trabajadores y sus respectivos sueldos, las
estaturas y pesos de personas, la producción agraria y la cantidad de
fertilizantes utilizados, etc. Si mediante un modelo matemático es posible
describir tal relación, entonces este modelo puede ser usado para
propósitos de predicción, optimización o control.
Es claro que la variable de respuesta o variable dependiente es
la resistencia, por eso se denota con Y . Para tener una
idea de la relación que existe entre X y Y, los 14 pares de
datos son graficados en un diagrama de dispersión
El diagrama de dispersión es una grafica en la que cada punto trazado
representa un par de valores observados por las variables independiente y
dependiente. El valor de la variable independiente X, se traza en
relación con el eje horizontal y el valor de la variable dependiente Y,
en relación con el eje vertical. La naturaleza de la relación entre dos
variables puede tomar muchas formas, que van desde algunas
funciones matemáticas sencillas a otras en extremo complicadas. La
relación más elemental consiste en una línea recta o relación lineal.
De la inspección de este diagrama de dispersión se ve que
los puntos cercanos siguen una línea recta, lo que indica
que la suposición de linealidad entre las dos variables es
razonable.
La relación del modelo matemático adecuado tiene influencia
de la distribución de los valores y en el diagrama de
dispersión. Es sencillo ver esto si se examinan las siguientes
graficas.
Relación lineal positiva

Se observa que los valores de Y, en general, aumentan en forma


lineal cuando se incrementa X.
Relación lineal negativa

Cuando X crece, se observa que los valores de Y decrecen. Un ejemplo de


este tipo de relación puede ser el precio de un producto específico y la
cantidad de ventas.
Relación lineal nula

En la grafica se muestra un conjunto de datos en el que


existe muy poca o ninguna relación entre X Y. Para cada valor
de aparecen valores altos y bajos de Y.
Relación no lineal
Cuando los aumentos/disminuciones entre dos variables no se dan con la
misma intensidad existe una relacion no lineal. Existen determinadas
variables que por su carácter establecen relaciones que no son lineales.
Analisis de regresion lineal simple
Se refiere a encontrar la línea recta que mejor se ajuste a los
datos. El mejor ajuste puede definirse de varias maneras.
Quizá la más sencilla sea encontrar la línea recta para la cual
las dif erencias ent re los valores reales y los valores
pronosticados a partir de la recta ajustada de regresión
sean tan pequeñas como sea posible. Sin embargo, como
estas diferencias son positivas para algunas observaciones y
negativas para otras, en términos matemáticos se minimiza la
suma de los cuadrados de las diferencias.
Suponga que las variables X Y están relacionadas linealmente y
que para cada valor de X , la variable dependiente, Y, es una
variable aleatoria. Es decir, que cada observación de Y puede
ser descrita por el modelo.
Donde ε es un error aleatorio con media cero y varianza δ 2 . La
ecuacion es conocida como el modelo de regresión lineal simple.
Bajo el supuesto de que este modelo es adecuado y como el
valor esperado del error es cero. E(ε)=0, se puede ver que el
valor esperado de la variable Y, para cada valor de x, esta dado
por la linea recta:

E(Y / X)  0 1X
En donde B 0 y B 1 son parametros del modelo y son constantes
desconocidas. Por que es es necesario estimar los dos parametros.

B0 es el punto en el cual la linea recta intercepta o cruza el eje y.


B 1 es la pendiente de la linea, es decir, la cantidad en que se
incrementa o disminuye la variable Y por unidad que se incrementa X.
Supuestos
Para validar si un modelo de regresión lineal es bueno,
existen algunos "supuestos" estadísticos que el
modelo debe cumplir.
Supuesto de linealidad
Existe linealidad si se presenta una relación significativa entre la
variable que se quiere predecir y las otras variables. Puede usarse el
coeficiente "R cuadrado ajustado", para saber si existe linealidad
(mayor o igual a 0.7 suele ser "indicio" de linealidad).
Supuesto de independencia
Este supuesto asume que los residuos no están auto-correlacionados,
por lo cual son independientes. La autocorrelacion es cuando el residuo
en la predicción de un valor es afectado por el residuo en la predicción
del valor más cercano. Esta autocorrelacion suele presentarse en series
de tiempo.
Supuesto de residuos constante
Este supuesto asume que los residuos en las predicciones son constantes en cada
predicción (es decir, varianza constante). Este supuesto valida que los residuos no
aumenta ni disminuye cuando se predicen valores cada vez más altos o mas
p e q u e ñ o s . A e s t a c o n s t a n c i a e n l o s e r ro re s d e p re d i c c i ó n l e d i c e n
"homocedasticidad", y cuando los errores varían, le dicen "heterocedasticidad".
Supuesto de normalidad de residuos
Este supuesto asume que los residuos deben presentar una distribución normal, y
la ausencia de normalidad supone poca precisión en los intervalos de confianza
creados por el modelo.
Otras pruebas para validar el supuesto de normalidad son: prueba de
asimetría y kurtosis, prueba de chi-cuadrado, prueba de residuos
estandarizados, prueba de Kolmogorov-Smirnov-Liliefors, etc.
Determinación de la
ecuación de regresión.
Para determinar la relacion que existe entre las dos variables de
estudio se utiliza la ecuacion de la recta.

Yˆ  B0  B1 x
ó

Yˆ  a  bx
Se deben determinar los valores tanto de a como de b. para lo cual se hace
uso del metodo de Minimos cuadrados.

Es un procedimiento para encontrar la ecuacion de regresion estimada


usando datos de una muestra. Se emplean los datos de la muestra para
determinar los valores de a y b, que minimizan la suma de los cuadrados de
las desviaciones entre los valores observados de la variable independiente
x y los valores estimados de la variable dependiente y.
y

0
1 2 3 4 X
Las formulas para para determinar los valores de a y b son:

y  bx
a
n
nxy  xy
b
nx  x 
2 2
Ejemplo: Una empresa de mensajeria de entrega casa por casa, busca
mejorar su servicio. Desea establecer la relación que puede existir entre el
tiempo empleado y la distancia recorrida para la entrega de un determinado
producto.
Aplicando el modelo de regresion simple, es decir, las
formulas para calcular la ecuacion de la recta con a y b,
se puede realizar una tabla para facilitar los calculos.
Ejemplo a
 y  b x
n
n x y xy x2 Yˆ b
nx  y  xy
nx 2  x 
2
1 825 3.5
2 215 1
3 1070 4 Yˆ  a  bx
4 550 2
5 480 1 nx  y 
6 920 3
7 1350 4.5
xy 
8 325 1.5
nx 2 
9 670 3
10 1215 5 x 2

Σ
bx 
Ejemplo
 y  b x
a
n
nx  y  xy
b
nx 2  x 
2

Yˆ  a  bx
nx  y 
xy 
nx 2 
x 2 
bx 
Regresion lineal
6

0
0 200 400 600 800 1000 1200 1400 1600
Medidas de variación
En el estudio de la regresion lineal simple se
establece la relacion que existe entre dos variables,
la cual se presenta a traves de una recta. Pero existen
algunas variaciones y errores presentes en dicha
relacion.
El error estándar es una medida de la dispersión
de los datos observados con respecto a la recta
de regresión.
El error estándar se obtiene mediante la
siguiente formula:

2
y  ay  bxy
Se 
n2
La varianza de la variable separable se calcula:

2
2y 2
S y  y
n
Ejemplo

Retomando el ejemplo de la empresa de mensajería,


se calcula el error estándar y varianza.

y 2  ay  bxy
Se 
n2
99.75  0.1181 28.5  0.0036  26370
Se 
10  2

Se  0.48

y 2
99.75
 2.85
2 2
S y2   y2 S 
y
n 10
S y2  1.85
Cálculo de los coeficientes de
correlación y de determinación.
Para determinar si en base a la relacion
que existe entre dos variables es posible
realizar estimaciones con una presicion
aceptable se deben conocer los
coeficientes de determinacion y
correlacion.
Coeficiente de determinación R2

Un primer criterio para evaluar la calidad del


ajuste es observar la forma en que el modelo se
ajustó a los datos. En el caso de la regresión
lineal simple esto se distingue al observar si los
puntos tienden a ajustarse razonablemente bien a
la línea recta. Pero otro criterio más cuantitativo
es el que proporciona el coeficiente de determinación,
el cual está definido por:
Donde:
SCR  b  Sxy Suma de cuadrados de la regresion

x  y
Sxy  xy 
n

Syy  y 2 
y 2
Variabilidad total
n

Sxx  x 2

x 
2

n
Coeficiente de correlacion r

El coeficiente de correlación r mide la intensidad de la


relación lineal entre dos variables X Y. Si se tiene n pares
de datos de la forma (x,y), entonces este coeficiente se
obtiene de la siguiente manera:

Si r es próximo a -1, entonces tendremos una


relación lineal negativa fuerte, y si es próximo a cero,
entonces diremos que no hay correlación lineal, y
finalmente r es próximo a 1, entonces tendremos
una relación lineal positiva fuerte.
Coeficientes

Una forma de simplificar las operaciones


consiste en que si se calcula r, y se eleva al
cuadrado ese valor se obtiene R2. Por el
contrario se se obtiene R2 al sacar raiz
cuadrada se obtiene r.
Entonces:
2 2
R r
2
r R
Ejemplo
Continuando con el ejemplo de la empresa de
m e n s a j e r í a , s e ca l c u l a n l o s co ef i c i e nte s d e
correlacion y determinación. Para este ejemplo se
calculara R2 y se obtendra r al sacar raiz cuadada.

SCR  b  Sxy  0.0036  4653  16.68


xy 7620  28.5
Sxy  xy   26370   4653
n 10
2
Syy  y 
y 
2
 99.75 
28.52
 18.525
n 10
R 2  0.9005
r  0.9005  0.9489
Análisis Residual
El residual

El residual o error del valor estimado ei es la diferencia


entre los valores observados (Yi) y los valores estimados
(esperados) de la variable dependiente para un valor
dado de Xi.

ˆ
ei  Yi  Yi
Gráficamente, aparece un residuo en el diagrama de
dispersión como la distancia vertical entre un valor
observado de Y y la línea de predicción.
Analisis residual

Para realizar el analisis residual se evaluan los 4 supuestos


de regresion:
• linealidad: establece que la relación entre variables es
lineal.
• Independencia de errores: requiere que los errores (ei)
sean independientes unos de otros.
• Normalidad: requiere que los errores (e i ) se distribuyan
normalmente en cada valor de X.
• Igual varianza u homoscedasticidad: requiere que la
varianza de los errores (ei) sea constante para todos los
valores de X.
Ejemplo:
En base a los datos de la empresa de mensajeria, se
realiza el analisis residual.
Inferencias acerca de la
pendiente
¿La relación lineal entre las dos variables es
significativa? ¿Existe verdaderamente una relación
lineal entre las variables?

Para responder estas preguntas analicemos lo


siguiente:

Si b=0 entonces Y estimada=a y no dependería de X,


osea que no habría relación entre X y Y.
Para probar lo anterior, se realiza una prueba de
hipotesis sobre la pendiente:

H0: b=0
H1:b≠0
Para ello se utiliza en Analisis de varianza (ANOVA).
Fuentes de variaciòn
ANOVA

SCR  b  Sxy
x  y
Sxy  xy 
n

Syy  y 2 
y 2

Sxx  x 2 
x 2

n
Ejemplo

a= 0.0036
b= 0.1181
SC R  0.0036  4653  16.68
Sxy  4653
Syy  18.525

Sxx  7104300 
7620 
2
 1297860
10
Fuente de
GL SC CM Fc Ft
Variación
Regresión 1 16.68 16.68 72.52 7.57
Error 8 1.84 0.23
Total 9 18.525
Conclusión

Con un nivel de signigicancia del 5% se concluye que


dado que Fc=72.53>Ft=7.57 se rechaza la hipotesis
nula, lo cual indica que b es diferente de 0 y el
modelo de regresion lineal simple es valido para
realizar estimaciones.

Nota: como en el ejercicio no se especifica un nivel


de significancia, se toma el valor estandar de 5%.
Aplicaciones
Existen diversas aplicaciones para la regresión
lineal, en diferentes ámbitos como pueden ser
empresarial, científico, negocios, etc. Veamos
algunos ejemplos:
Análisis de línea de tendencias

La regresión lineal se utiliza en la creación de líneas


de tendencia, la cual utiliza los datos del pasado para
predecir el rendimiento o "tendencias" en el futuro.
Por lo general, las líneas de tendencia se utilizan en
el negocio para mostrar el movimiento de atributos
financieros o de producto a través del tiempo. Los
precios de acciones, del petróleo o las
especificaciones del producto pueden analizarse
utilizando líneas de tendencia.
Análisis de riesgos para inversionistas

El modelo de precios de activos de capital se


desarrolló utilizando el análisis de regresión lineal y
la medida común de volatilidad de una acción o de
una inversión es su beta (el cual se determina
utilizando la regresión lineal). La regresión lineal y su
uso es fundamental para evaluar el riesgo asociado
con la mayoría de los vehículos de inversión.
Control de calidad total

Los métodos de control de calidad utilizan con


frecuencia la regresión lineal para analizar las
especificaciones claves de un producto y otros
parámetros medibles de la calidad del producto u
organización (como el número de quejas de los
clientes a través del tiempo, etc).
Regresión lineal en recursos humanos

Los métodos de regresión lineal también se utilizan


para predecir los datos demográficos y tipos de
fuerzas laborales futuras para las grandes empresas.
Esto ayuda a las empresas a prepararse para las
necesidades de la fuerza laboral a través del
desarrollo de buenos planes de contratación y planes
de formación para los empleados existentes.
Predicción mediante regresion lineal

La escencia de la regresión lineal es realizar


predicciones o pronosticos. Es posible predecir
un valor de respuesta a partir de un valor
predictor con una exactitud mayor que la
asociada únicamente a las probabilidades. Para
ello se sugiere seguir los siguientes pasos.
Pasos

1. Determinar la ecuación del modelo (coeficientes


a y b).
2. Determinar coeficientes de determinación y
correlación (r y R^2).
3. Realizar el análisis residual.
4. Realizar la prueba de hipótesis.
5. Si el modelo es valido, realizar el pronostico
requerido.
Ejemplo de aplicación

Regresando al ejemplo de la empresa de


mensajería, se desea predecir el tiempo que
tardara en entregarse un determinado producto,
si la distancia es 1578 km.

En este caso ya se realizaron todos los pasos y el


modelo ha sido validado, por lo que se puede
hacer la predicción.
x y
825 3.5 3.08
215 1 0.89 b 0.0036
1070 4 3.95 a 0.1181

Yˆ  a  bX
550 2 2.09
480 1 1.84
Yˆ  0.1181  0.0036(1578)
920 3 3.42
1350 4.5 4.96 Yˆ  5.8
325 1.5 1.28
670 3 2.52
1215 se tardaria
En conlusión 5 4.47
5.8 hrs en entregar un determinado producto
si la distancia
predecir 1578 es 1578 km.

También podría gustarte