Regresion Lineal y Multiple
Regresion Lineal y Multiple
Regresion Lineal y Multiple
Objetivos
Contenido
Análisis de Correlación ............................................................................................ 1
Regresión ................................................................................................................ 3
Ecuación de Regresión Lineal ............................................................................. 4
Análisis de Regresión Múltiple ........................................................................... 10
Coeficientes de Correlación Parcial y Múltiple ...................................................... 12
Pruebas de Hipótesis de Correlación y Regresión ................................................ 17
Referencias ........................................................................................................... 20
Análisis de Correlación
Es frecuente que estudiemos sobre una misma población los valores de dos o más
variables estadísticas distintas, con el fin de ver si existe alguna relación entre
ellas, es decir, si los cambios en una o varias de ellas influyen en los valores de la
variable dependiente. Si ocurre esto decimos que las variables están
correlacionadas o bien que hay correlación entre ellas. Este tipo de análisis
funcione bien cuando las variables estudiadas son continuas, no es adecuado usar
esta prueba con variables del tipo nominal.
1
2
entre dos variables. El valor del coeficiente de correlación puede tomar valores
desde menos uno hasta uno, -1 < r < 1, indicando que mientras más cercano a
uno sea el valor del coeficiente de correlación, en cualquier dirección, más fuerte
será la asociación lineal entre las dos variables. El coeficiente de correlación de
cálculo “r” es un estimador muestral del coeficiente poblacional Rho, .
Mientras más cercano a cero sea el coeficiente de correlación, este indicará que
más débil es la asociación entre ambas variables. Si es igual a cero se concluirá
que no existe relación lineal alguna entre ambas variables. Hay varias maneras de
equivalentes de calcular “r”, a continuación se muestran tres formas.
XY
r
XY
Siendo: “σXY” la covarianza de (X,Y) y “σX, σY” las desviaciones típicas de las
distribuciones de las variables independiente y dependiente respectivamente.
r
X X Y Y 2
X X 2 Y Y 2
2
X Y
3
XY
r
n
2 2
n
n
2 X 2 Y
X Y
Regresión
3
4
llegó a la conclusión de que los padres muy altos tenían una tendencia a tener
hijos que heredaban parte de esta altura, pero los datos revelaban también una
tendencia a regresar a la media.
Los tipos de regresión más comunes entre dos variables son las del tipo
polinómico como la regresión: lineal, cuadrática y cúbica. La primera regresión
genera una recta, las otras diferentes tipos de parábolas. Otros tipos de regresión
que se pueden usar con dos variables son la logarítmica y la exponencial, la
regresión logarítmica permite transformar una curva en una línea recta. Cuando
hay más de una variable independiente “x”, la regresión más utilizada en la
regresión múltiple. A continuación se expresan matemáticamente los diferentes
modelos comentados:
REGRESIÓN ECUACIÓN
Lineal y = b0 + b1 x
Logarítmica y = b0 + b1 Ln (x)
Exponencial y = b0 e (b1 x)
4
5
observados y los valores estimados " Yˆ ". Se debe notar que el valor observado
menos el valor estimado genera un residuo que llamaremos error, este residuo o
error, es la distancia que hay del valor observado a la recta de regresión. Se
yi yˆi i
deduce que el error de para cada dato se encuentra de la siguiente manera:
menos el valor estimado “ ŷi , esta es una distancia entre ambos valores y esta
E i 0
puede ser negativa o positiva y tienen la siguiente propiedad:
XY X Y
Yˆ
X
n
X2
2
X
n
Yˆ b1 X
XY n
X Y
X
X
b1 2
2 5
n
6
Yˆ Y b1X X
Como podemos escribir:
Yˆ Y b1 X b1 X
Que puede replantearse como:
De tal manera que la ordenada al origen, cuando “X” vale 0, “b 0”, queda definida
de la siguiente manera:
Yˆ b0 Y b1 X
Ejemplo de regresión correlación lineal:
Matemáticas 2 3 5 5 6 6 7 7 8 9
Español 2 2 5 5 6 7 5 8 7 10
6
7
Gráfico de Dispersión.
10
8
Español
2
2 4 6 7 9
Matemáticas
375 (58)57
2
r 10
0.919
378 58 10 381 57 10
2 2
Este valor de “r” de 0.919 nos dice que hay una alta correlación entre las notas de
matemáticas y español.
Para hacer la recta de regresión debemos calcular:
375 (58)57
b1 10 1.0673
378 58
2
10
7
8
Regresión simple
10
8
Español
1
2 4 6 7 9
Matemáticas
8
9
Gráfico QQ plot
1.51
0.63
-0.24
-1.12
-2.00
-2.00 -1.12 -0.24 0.63 1.51
Cuantiles de una Normal
Ejercicios:
a) Tomar el peso y la altura de 10 personas, hacer el gráfico de dispersión,
calcular el coeficiente de correlación y la recta de regresión de estos datos.
b) Hay una hipótesis de investigación que sugiere que el gasto en comida por
familia, expresado en C$ por mes, está influido directamente por el ingreso
familiar mensual en C$. Haga estudio de regresión y correlación de las dos
variables. Trabaje con calculadora.
9
10
Tabla de datos
Ingreso observado por Gasto observados en
familia, en cientos C$ alimentación, en cientos C$
30 21
34 26
17 5
26 19
29 18
18 7
32 23
32 25
10
11
� = �0 + �1 �1 + �2 �2 +. . . + �� ��
valor estimado.
Donde εik es el desvío o error de cada observación, este valor hace único a cada
dato.
11
12
Hay una sub población de “y” con distribución normal, para cada conjunto
de xi.
Las variancias de estas subpoblaciones de “y” de cada Xi son
homocedásticas, lo que quiere decir que estiman una misma varianza
poblacional.
Los valores de “y” son independientes entre sí.
En el caso de tres viables, la correlación parcial entre “Y” y “X 1”con un “X2” fijo se
denota “ryx1.x2”, y se calcula a partir de las correlaciones simples de la siguiente
manera:
i
suma de los cuadrados totales.
i
(Yˆ Y ) 2
ry. x1x2 ..xk 2
(Y Y )
Este coeficiente tiene una desventaja, su valor se incrementa cuando se
introducen nuevas variables independientes en el modelo, por tanto resulta
engañoso para el análisis.
13
14
1 ry2. x1 x2 x3 .....xk (1 ryx2 1 )(1 ryx2 2 . x1 )(1 ryx2 3 .x1 x2 )....(1 ryx2 k .x1 ....xk 1 )
ry. x1x2
2 2
1 rx21x 2
yx1 yx2
Se debe notar que en este ejemplo para hacer ry.x1.x2 es necesario calcular
previamente tres correlaciones simples de dos variables.
b0 b1 x1 b2 x2 yˆ
Se parte de la ecuación de regresión múltiple
b0 n b1 x1 b2 x2 yˆ
Y se construye un sistema de ecuaciones normales
b0 x1 b1 x12 b2 x2 x1 yˆx1
14
15
b0 x2 b1 x1 x2 b2 x22 yˆx2
(x
Si se plante la ecuación en términos de desviaciones respecto a la media
x x y 0 .
1
Para poder resolver una regresión múltiple se puede usar una calculadora de
mano que tenga incorporada la función de regresión y permita calcular
directamente suma de cuadrados y suma de productos de los valores de “x y”.
Para esto se deben utilizar las siguientes igualdades conocidas:
x) 2
x x x2 x x y y xy n
2 ( x y
n
Ejercicio: Hay una hipótesis que sugiere que el consumo de un producto dado,
expresado en unidades compradas por persona en un año está influido por: el
15
16
b0 y b1 x1 b2 x2
16
17
H1 : 0
n2
" t calculado" r
1 r2
Ejemplo con los datos del problema de regresión y correlación con las asignaturas
de “matemáticas y español” donde:
10 2
" t calculado" 0.915 6.59
1 .0.915 2
El valor 6.59 es mayor que el valor “t” de tabla de 2.3, por lo tanto se acepta como
era de esperar la hipótesis alternativa, Rho es diferente de 0.
H1 : no _ todos _ los _ 0
17
18
Y Y
�=
Regresión r2
2 k SC R CM R
y.x1 x 2 ..x k
GLRl CM El
Desviación, (1 r 2 ) Y Y n-k-1
2 SC E
y.x1 x 2 ..x k
error GLEl
Donde “k” es el número de variables independientes y el “n” número de individuos
a los cuales se les toma los datos.
18
19
H1 : i 0
Donde: t calculado
bi
S bi
x 2 ( x) 2 / n
CM error
Donde Sb i
Ejercicio
Se hizo un estudio correlación múltiple con 4 variables independientes, que se
cree sirven para caracterizar el valor de venta de un producto industrial. Las
variables independientes son “vida útil del producto”, “Resistencia del producto”,
“apreciación visual de la calidad” y “precio de costo del producto”. La variable
dependiente era “valor de venta”, fijado por los compradores. Se hizo la regresión
y el análisis de variancia de la regresión
Análisis de Variancia de la regresión
Modelo Suma de Grados de Cuadrado “F”
Cuadrados Libertad Medio
Regresión 18.5 4
Residual 12.0 20
Total 30.5 24
Nota: el valor F de tabla es 2.87
19
20
Referencias
Sifuentes, V.2002. Curso Análisis Multivariante aplicado a la industria pesquera.
IMARPE.
Daniel, W. 2006. Bioestadística. Base para el análisis de las ciencias de la salud
4ta Edic. Edit Limusa Wiley. 924 p
Little T y Hills, J. 1990. Métodos estadísticos para la investigación en la agricultura.
Edit Trillas. 270 pp.
Ross,S. 2002. Probabilidad y estadística para ingenieros. Ed Mc Graw Hill. 585 pp.
20