Regresión Lineal
Regresión Lineal
Regresión Lineal
17 REGRESIÓN
Y CORRELACIÓN
SIMPLE
OBJETIVOS
Al finalizar el Tema 17, el participante será capaz de:
1. Utilizar diagramas de dispersión para visualizar la
relación entre dos variables.
2. Identificar relaciones simples entre variables
3. Utilizar la ecuación de regresión para predecir valores
futuros.
4. Aplicar el análisis de correlación para describir el
grado hasta el cuál dos variables están relacionadas
linealmente entre si.
6. Realizar el diagnostico de la regresión
7. Medición de la autocorrelación
8. Realizar la estimación por intervalos
9. Realizar el análisis de varianza de la regresión
simple
CONTENIDO
1. El diagrama de dispersión
2. Las ecuaciones lineales simples
3. La regresión lineal simple
4. El error estándar de la estimación
5. El análisis de correlación
6. El diagnóstico de la regresión: al análisis residual
7. La estadística de Durbin-Watson
8. La estimación por intervalos
9. Análisis de varianza de la regresión simple.
17.1 El diagrama de dispersión
Y • Y Y
• •• • • • ••
•• •
•• • •• • • •
• •• • • • • ••
• ••
•• •• •• • • •
••• •
• •
X X X
(d) Curvilinea inversa (e) Lineal inversa (d) Ninguna relación
con más dispersión
Aplicación
El gerente de personal de la empresa
agroindustrial «Naranjillo» estudia la relación entre
los gastos y los salarios de su personal obrero.
Una muestra aleatoria de 10 obreros reveló los
siguientes datos en dólares por semana:
Empleado 1 2 3 4 5 6 7 8 9 10
Gastos 25 20 32 37 40 40 45 30 55 60
Salarios 28 25 35 40 45 50 50 35 70 80
Empleado 1 2 3 4 5 6 7 8 9 10
Gastos (y) 25 20 32 37 40 40 45 30 55 60
Salarios (x) 28 25 35 40 45 50 50 35 70 80
2do Paso: Encuentre los valores mínimos y máximos
para X e Y. Elija las escalas que se usarán en los
ejes horizontal y vertical, de manera que ambas
longitudes sean aproximadamente iguales, facilitando
la lectura del diagrama.
65
55
45
35
25
15
20 30 40 50 60 70 80 90
3er Paso: Registre los datos en el gráfico. Cuando
se obtengan los mismos valores en diferentes
observaciones, muestre estos puntos haciendo
círculos concéntricos (o), o registre el segundo punto
muy cerca del primero.
65
60
55
50
45
40
35
30
25
20
15
20 30 40 50 60 70 80 90
4to Paso: Agregue toda la información que
puede ser de utilidad para entender el diagrama,
tal como: título del diagrama, período de tiempo,
número de pares de datos, nombre de la variable
y unidades de cada eje, entre otros.
Relación entre Gastos y Salarios
65
60
55
50
Gastos ($)
45
40
35
30
25
20
15
20 30 40 50 60 70 80 90
Salarios ($)
17.2 Las ecuaciones lineales simples
1 4.5 -
2 6 1.5
3 7.5 1.5
4 9 1.5
5 10.5 1.5
El aumento en Y, cuando X varía en una unidad,
está dado por el coeficiente de X.
Ejemplo:
En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2
En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en 0,8
A) Tipos de Variables
En una ecuación como Y = 30 + 3X, el valor de Y
depende del valor que toma X, por eso a Y se le
llama variable dependiente, y a X se le llama
variable independiente.
Y = b0 + b 1 X
Variable Variable
Dependiente Independiente
B) Tipo de Relaciones
Cuando cambios en X provoca cambios en Y en
igual sentido (aumentos o disminuciones), las
variables están directamente relacionadas. Se
observa el signo +
Ejemplo: Y o
o
Y = 30 + 5X o
o
o o
o
o o
X
Cuando cambios en X, provoca variaciones en Y
en sentido inverso (X aumenta, Y disminuye o
viceversa), las variables están inversamente
relacionadas. Se observa en la ecuación el signo
-. Y
Ejemplo: o
Y = 20 - 3X
o o
o o
o
o
X
C) Grado de la ecuación:
La ecuación es de primer grado si la
variable independiente está elevada al
exponente 1. Su gráfica genera una línea
recta (por lo que también se le llama
ecuación lineal)
Ejemplo: Y = 30 + 4 X
Si la variable independiente está elevada a un
exponente diferente a 1, la ecuación toma el valor
del exponente. Su gráfica no es una línea recta.
Ejemplo:
X 1 2 3 4 5
Y 4 ,5 6 ,0 7 ,5 9 ,0 1 0 ,5
Los cinco pares de valores se diagraman de la
forma siguiente.
Y
12
11
10
. . (5,10.5)
9
8
7
6
. . (3,7.5)
(4,9)
5
4
3
2
.
(1,4.5)
(2,6)
1 2 3 4 5 X
E) Forma general:
La ecuación simple de primer grado tiene la
siguiente forma general
Y = b0 + b1 X
Donde:
b1: pendiente, o sea, el cambio en Y cuando X = 1.
b0: el valor autónomo, es decir, Y = b0 cuando X = 0.
En la gráfica es la intersección con el eje Y
Y
Ejemplo:
Y = 3 + 3.5X
.
b0 = 3
X
17.3 Regresión lineal simple
Es una técnica estadística que permite
determinar la mejor ecuación que represente la
relación entre dos variables relacionadas.
= error
Yi - Y
10
8
. Línea de
estimación
6
Ŷ
Min Y - Y
2
4 Error= -6
•
i
•
2
• . Error= 2
X
2 4 6 8 10 12 14
El método utiliza un sistema de ecuación llamado
ecuaciones normales, que tienen la siguiente
forma: n Salarios Gastos Xi Xi*Yi
2
1 28 25 784 700
Y nb + b X
0 1 2 25 20 625 500
XY b X b X
0 1
2 3
4
35
40
32
37
1225
1600
1120
1480
5 45 40 2025 1800
6 50 40 2500 2000
Para aplicar las fórmulas,
7 50 45 2500 2250
tenemos que confeccionar 8 35 30 1225 1050
un cuadro como el 9 70 55 4900 3850
Valor
observado
. Valor
40
45
50
37
40
40
70.519
78.399
86.279
estimado 50 45 86.279
35 30 62.639
70 55 117.799
xo X 80 60 133.559
17.4 Error estándar de estimación (Syx)
2
(Y - Ŷ)
Syx =
n2
14
x y Ŷ (Yi – Ŷi ) (Yi – Ŷi )2
19223 19223
Syx = 2402.875
10 2 8
S yx = 49,019
variacion explicada
r2
variacion total
r2 =
Ŷ - Y 2
Y - Y
2
i
9 5 7 14 10 45
Y=
5 5
Y = 9 unidades
2do Paso: Se calcula la variación total, es decir, la
sumatoria de las desviaciones de las ventas
observadas (Yi) con respecto a la media: Y - Y
2
i
2
y ȳ (y - ȳ) (y- ȳ)
25 38.4 -13.4 179.56
20 38.4 -18.4 338.56
32 38.4 -6.4 40.96
37 38.4 -1.4 1.96
40 38.4 1.6 2.56
40 38.4 1.6 2.56
45 38.4 6.6 43.56
30 38.4 -8.4 70.56
55 38.4 16.6 275.56
60 38.4 21.6 466.56
384 384 0 1422.4
Y Y Y Y Y Y 2
3er Paso: Se calcula la variación explicada, es
decir, la sumatoria de las desviaciones cuadráticas
entre las ventas esperadas y la venta media de la
muestra: Y - Y
2
(Ŷ - ȳ ) 2
Ŷi ȳ (Ŷi - ȳi) i i
Ŷ Y Ŷ Y Ŷ Y 2
4to Paso: Se compara la variación explicada y
la variación total.
r= r2
Sus valores oscilan entre -1 y 1
Cuando r es positivo, indica que X e Y
están directamente relacionados.
Cuando r es negativo, indica que X e Y
están inversamente relacionados.
El coeficiente r tiene el mismo signo que el
coeficiente b1 en la ecuación de regresión
Interpretación del coeficiente de
correlación de Pearson
r = 0,9644
r = 0,982
i = Yi - Ŷi
Podemos evaluar lo adecuado del modelo de
regresión ajustado mediante el gráfico de los
residuos (eje vertical) con respecto a los
correspondientes valores de Xi de la variable
independiente (eje horizontal).
el incremento de Residuos
0.8
0.6
gastos y los salarios.
0.4
No se observa una 0.2
tendencia. 0
0 5 10 15 20 25 30
Variable X 1
El análisis del gráfico nos brinda el criterio para
adoptar el modelo lineal o dejarlo de lado. Si fuese
así, podríamos probar con modelos no lineales como
el cuadrático, logaritmo o exponencial.
El análisis de residuos se complementa con el
cálculo de los residuos estandarizados (SRi), que
resultan de la división del residuo dividido por su
error estándar. i
SRi
S YX 1 hi
En donde
hi
1 Xi X 2
n
n
Xi2 n X
2
i 1
Los valores estandarizados nos permiten tomar en
cuenta la magnitud de los residuos en unidades
que reflejen la variación estandarizada alrededor
de la línea de regresión.
Análisis de los residuales
Observación Pronóstico para Y Residuos Residuos estándares
1 25.95597663 -0.955976635 -0.404770782
2 23.85866933 -3.858669326 -1.633802064
3 30.84969369 1.150306311 0.487052055
4 34.34520587 2.65479413 1.124068367
5 37.84071805 2.159281949 0.914263184
6 41.33623023 -1.336230232 -0.565774242
7 41.33623023 3.663769768 1.551279496
En el gráfico siguiente, los residuos estandarizados
fueron graficados en función de la variable
independiente (cantidad del complemento nutricional).
Se puede observar de que existe una dispersión
amplia en la gráfica de residuos, no existe un patrón
evidente o una relación entre los residuos
estandarizados y Xi . Los residuos parecen estar
equitativamente distribuidos por arriba y por debajo
de 0, para diferentes valores de X. Podemos concluir
que el modelo ajustado parece ser adecuado.
Residuos estándares
2
1.5
0.5
0
0 2 4 6 8 10 12
-0.5
-1
-1.5
-2
B. Evaluación de las suposiciones
a. Homoscedasticidad
b. Normalidad
D i 2
n
i
2
i 1
2
se estima mediante la siguiente formula:
n
Y 2
b 2SC
Y 2
n 1 x
S 2
i 1
n2
yx
-t0 t0
Pr( t 0 t t 0 )
b1 1
Pr t 0 t0 1
Sy x
SC x
Sy x S y x
Pr b1 t 0 1 b1 t 0 1
SCx SCx
B. Intervalo de confianza para 0
1 x
2
b0 0 , 2
n SC
x
b0 0 b0 0
t n2
Sb 0 1 x
2
Sy x
n SCx
donde:
Y Y
2
b 2 SC
2
n 0 x
S 2y x
n2
-t0 t0
Pr( t 0 t t 0 )
b
Pr t 0 0 0
t0 1
S
b0
Pr b0 t 0Sb0 0 b0 t 0Sb0 1
2 1
Ŷ N y / X0 ,
X0 X
2
n SCx
Pr ŷ t 0S ŷ y / X0 ŷ t 0S ŷ 1
donde:
1 X x
2
S ŷ S 2y x 0
n SC x
D. Intervalo de confianza para un valor
individual
Además de obtener una estimación de intervalo
de confianza para el valor promedio, a menudo
es importante tener la capacidad de predecir la
respuesta que se obtendría para un valor
individual.
1 X
Ŷ N y / X0 , 2 1 0
X
2
n SCx
El intervalo de predicción está estimando
un valor individual, no un parámetro.
Pr ŷ t 0S ŷ Y / X0 ŷ t 0S ŷ 1
donde:
2
1 X0 x
S ŷ S y x 1
2
n SC x
17.9 Análisis de varianza de la
regresión simple
El análisis de varianza es una técnica que
permite localizar las fuentes de variabilidad
que ayuden a explicar el comportamiento de
la variable dependiente.
2
Error
Experimental
Y2
n
b12SCx n 2 S2y x
Total SCtotal n 1
Asumiendo que existe una regresión lineal,
determine:
A.La ecuación de regresión e interprete los
coeficientes de regresión.
B.El intervalo de confianza para 1y para un valor
individual si X=3,8.
C.El cuadro de ANOVA para la regresión lineal
D.El valor de ŷ cuando X = 5,1
E.La prueba de hipótesis respectiva a partir del
ANOVA e interprete el resultado.
F.Estime el aumento de peso que puede darse se
consumen 6 Kg. del complemento nutricional
mediante un intervalo e interprete el resultado.
Solución
Primero se realizan los cálculos necesarios:
n 10
X 458 i
Y 384
i
X 23784
i
2
Y 16168
i
2
X Y 19550
i i
b0 Y b1 X
X iYi X Y
i i
19550
458384
b1 n 10 0.699
458
X i2 n i
2 2
X
23784
10
Yˆ 6,381 0,699 X
Interpretación:
b0: Es probable que un empleado de la empresa
reciba un salario de $6.381.
S yx S yx
Pr 0,699 t0,10 8 1 0.699 t0,10 8 1 0,10
SC x SC x
S yx S yx
Pr 0.699 1,86 1 1,57 1,86 0,90
52,987 52,987
16168
384
2
0,699 52.987
2
10 1422.4 25.890
2
S yx 174.56
8 8
S yx 13,212
13,212 13,212
Pr 0,699 1,86 1 0,699 1,86 0,90
52.987 52.987
SYˆ 2,505 1
1
3,80 45.82
14.690
10 52,987
F1-/2 F/2
0,0041 5,32
1 6 45.8
2
SYˆ 2,505 13,719
10 52,987
Pr 10,575 1,8613,719 Y X0
10,575 1,8613,719 0,90
Pr 14,942 Y X0
36,092 0,90
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.982194642
Coeficiente de determinación R^2 0.964706315
R^2 ajustado 0.960294604
Error típico 2.505038376
Observaciones 10
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de
libertad cuadrados los cuadrados F Valor crítico de F
1372.1982 218.669
Regresión 1 62 1372.198262 4426 4.30399E-07
50.201738
Residuos 8 14 6.275217267
Total 9 1422.4
Tienda 1 2 3 4 5
# de ventas 3 1 2 5 4
# de pedidos 9 5 7 14 10
Caso 1
Precio en soles 2.1 3.52 2.1 2.55 3.5 2 3.5 2.99 2.99 2.25
Ventas de Coca-Cola en
35 25 21 19 23 31 24 31 20 19
miles de soles
Caso 2
Los contadores con frecuencia estiman los
gastos generales basándose en el nivel de
producción. En la tabla que sigue se da la
información recabada sobre gastos generales y
las unidades producidas en 10 plantas y se
desea estimar una ecuación de regresión para
estimar gastos generales futuros.
Plantas 1 2 3 4 5 6 7 8 9 10
Gastos generales($) 300 1000 1100 1200 600 800 900 500 400 200
Unidades producidas 15 45 55 75 30 40 45 20 18 10
2
5. El coeficiente de correlación de muestra, r, no es nada más que r
y no podemos interpretar su significado directamente como un
porcentaje del mismo tipo
21. Una valor pequeño de r2 implica que no existe una relación de causa-
efecto significativa entre X y Y