Regresion Lineal Multiple
Regresion Lineal Multiple
Regresion Lineal Multiple
En la regresión lineal múltiple tratamos de determinar la relación existente entre la variable dependiente
(Y) y dos o más variables independientes ( X1, X2, X3, ..., XK ) también llamadas variables regresoras.
En este caso la variable dependiente se ve afectada por los cambios que se le hagan a las variables
independientes en conjunto.
La relación entre las variables regresoras y la variable dependiente se establece mediante el modelo
general de regresión lineal múltiple:
Y 0 1 X 1 2 X 2 3 X 3 k X k
donde 0, 1, 2, ..., k son los parámetros del modelo ( se tienen k variables independientes y p
parámetros ).
En este caso 0 representa la ordenada en el origen, es decir, el punto donde el hiperplano corta al aje Y
(al haber más de dos variables independientes la relación queda representada por medio de un
hiperplano).
En general i representa el cambio esperado en Y por cada incremento unitario en X i, siempre y cuando
las demás variables independientes permanezcan constantes.
Por comodidad en la simplicidad de las operaciones, emplearemos en esta ocasión sólo dos variables
independientes. Quedará al lector utilizar más de dos variables independientes para futuras aplicaciones.
Al utilizar dos variables independientes, el modelo general de regresión lineal múltiple queda representado
por:
Y 0 1 X 1 2 X 2
donde:
0 representa el punto donde el plano corta al eje Y (ahora la relación entre las dos variables
independientes y Y está representada por un plano).
Y 0 1 X 1 2 X 2
X2
X1
ESTIMACION DE PARAMETROS
Para encontrar los estimadores de los parámetros del modelo, partiremos de una muestra aleatoria de
tamaño n para valores de X1, X2 y Y:
X1i X2i Yi
X11 X21 Y1
X12 X22 Y2
X13 X23 Y3
. . .
. . .
. . .
X1n X2n Yn
Al utilizar una muestra aleatoria para estimar los parámetros, incurriremos en un error en la estimación.
Debemos agregar dicho error al modelo de regresión lineal múltiple:
Y 0 1 X 1 2 X 2
Yi 0 1 X 1i 2 X 2i i
Y X
donde:
Y1 1 X11 X 21 1
Y 1 X X 22
2 12 0 2
. . . . .
Y X β 1 ε
. . . . .
2
. . . . .
Yn 1 X1n X 2n n
El método a utilizar en la estimación de los parámetros del modelo es el método de mínimos cuadrados.
Dicho método consiste en minimizar la función de mínimos cuadrados.
La función de mínimos cuadrados está dada por la letra L y es igual a la suma de todos los errores
elevados al cuadrado:
n
L i2
i 1
Si multiplicamos la transpuesta del vector por el mismo vector obtendremos la suma de los errores
elevados al cuadrado:
n
ε ε i2
i 1
L ε ε
ahora bien, si de la ecuación vectorial del modelo de regresión anterior despejamos el error:
ε Y Xβ
sustituyéndolo en L:
L ε ε Y Xβ Y Xβ
L
X Y X Xβ
ˆ 0
β ˆ
β
despejando β̂ :
ˆ X X 1 X Y
β
donde:
n n
n
n X 1i X 2i Yi
ˆ 0 n i1
n n
i1
n i1
β̂ ˆ 1 X X X1i X 2
X1i X 2i X Y X1i Yi
i1 1i
i1
ˆ 2 n n
i1 i1
n n
X 2i X 1i X 2i X 2i
2
X 2i Yi
i1 i1 i1 i1
De esta manera, el modelo de regresión lineal múltiple ajustado queda definido por:
ˆ
Y ˆ 0
ˆ 1 X1
ˆ 2 X2
PRUEBA DE SIGNIFICANCIA
La prueba de significancia del modelo nos permite determinar estadísticamente si las variables
independientes (en conjunto) tienen efecto o no sobre la variable dependiente.
Para realizar esta prueba se requiere descomponer la suma total de cuadrados, representada por Syy, en
dos componentes: SSR y SSE
Syy = SSR + SSE
Donde:
Syy es la suma total de cuadrados
SSR es la suma de cuadrados de la regresión
SSE es la suma de cuadrados del error
2
n
n
Yi
Syy Yi i1
2
i 1 n
2
n
Yi
SSR β X Y i1
n
H 0 : 1 2 0
Ha : i 0
En este caso, si el estadístico de prueba es mayor que el valor de tablas F , k, n – p, se rechaza la hipótesis
nula; concluiremos que la variable independiente está relacionada con al menos una de las variables
independientes.
Se pueden realizar pruebas individuales para analizar la relación entre la variable dependiente y cada una
de las variables independientes.
H0 : j 0
para j = 1, 2, ..., k
Ha : j 0
ˆj
t0
MSE C jj
1
n n
n X 1i X 2i
n i1
n n
i1
C 00 C 01 C 02
X X 1 X1i X 2
X1i X 2i C10 C11 C12
i1 i1
1i
i1
n n n C 20 C 21 C 22
X 2 i X 1i X 2i X 2i
2
i1 i 1 i1
El estadístico de prueba t0 anterior sigue una distribución t-student con v = n – p grados de libertad.
Se pueden también estimar los parámetros del modelo mediante intervalos de confianza.
Para cualquier parámetro, el intervalo de confianza de (1 – ) 100% está dado por la siguiente expresión:
ˆ j t ,n p
MSE C jj j ˆ j t ,n p
MSE C jj
2 2
para j = 0, 1, 2, ..., k
En cuanto a las conclusiones de los resultados obtenidos en los intervalos de confianza se aplica un
criterio semejante al empleado en la regresión lineal simple.
Como 0 indica un punto donde el plano cortará al eje Y, la conclusión del intervalo correspondiente no
debe presentar problema alguno a la hora del planteamiento.
Algo diferente resulta a la hora de concluir los intervalos de confianza para los demás parámetros:
Siempre y cuando j ≠ 0, las conclusiones para cualquier intervalo de confianza, de acuerdo al resultado
obtenido, serán las siguientes:
Ahora bien, Si el intervalo de confianza para j resulta a j b , no se puede afirmar que Xj tenga
efecto sobre la variable dependiente.
Como vimos anteriormente, el modelo de regresión lineal múltiple nos permite establecer la relación entre
la variable dependiente (Y) con más de una variables independientes (X1, X2, ..., Xk).
También podemos utilizar el modelo de regresión para encontrar el valor estimado de Y cuando X 1 = X1, 0 y
X2 = X2,0 (cuando hay dos variables independientes en el modelo). Basta introducir los valores
correspondientes de las variables independientes en el modelo:
ˆ0
Y ˆ 1 X1,0
ˆ 0 ˆ 2 X 2 ,0
En forma matricial:
ˆ
ˆ 0 X !0β
Y
donde
1
X 0 X1,0
X 2 , 0
Entonces, el intervalo de confianza de (1 – ) 100% para el valor esperado de Y está dado por la
expresión:
Yˆ 0 t
2
,np
1
MSE X !0 X X X 0 Y Yˆ 0 t
2
,np
MSE X !0 X X X 0
1
El intervalo de confianza de (1 – a) 100% para una observación futura de Y está dado por:
Yˆ 0 t
2
,np
1
MSE 1 X !0 X X X 0 Y0 Yˆ 0 t
2
,np
MSE 1 X !0 X X X 0
1
El coeficiente de determinación múltiple se representa mediante R 2. Toma valores entre 0 y 1. Entre más
se acerque a 1 el modelo es adecuado, ya que la mayor cantidad en la variabilidad de los datos se explica
mediante el modelo. A medida que el coeficiente se aproxime a cero el modelo deja de ser adecuado, ya
que cantidad de la variabilidad explicada mediante el modelo es pobre.
SSR
R2
Syy
De acuerdo al enunciado del ejercicio, Y representa a las utilidades, X1 representa a la demanda de catsup
nacional y X2 representa a la demanda de catsup importada.
El objetivo principal es establecer si las dos variables independientes tienen efecto o no sobre las
utilidades del restaurante, a fin de establecer diferencias entre las dos. Es decir, si es indiferente cual de
las dos variables utilizar en el proceso.
A fin de solucionar cada uno de los incisos del ejercicio, empezaremos calculando las sumatorias de los
valores de X1, X2 y Y.
n= 6 X1X2 = 600
X1 = 12 Y = 420
X12 = 28 Y2 = 33800
X2 = 300 X1Y = 970
X22 = 16500 SX2Y = 20850
1
6 12 300 420 2.833333 0.5 0.033333 420 10
β̂ 12 28 600 970
0.5 0.25 0 970 32.5
300 600 16500 20850 0.033333 0 .0006666 20850 0.1
ˆ 10 32.5 X1 0.1X 2
Y
Para realizar la prueba de significancia en el inciso 2, calcularemos primero los valores de Syy, SSR y
SSE:
Y 2
Syy Y 2
n
Syy 33800
420
2
6
Syy 4400
Y 2
SSR β X Y
n
420
SSR 10 32.5 0.1 970
420 2
6
20850
SSR 4240
H 0 : 1 2 0
Ha : i 0
Al comparar el estadístico de prueba contra el valor de tablas vemos que F 0 es mayor que F, 2, 3;
rechazamos la hipótesis nula. Por lo tanto, podemos afirmar que las utilidades del restaurante están
significativamente relacionadas con la demanda de catsup nacional ó con la demanda de catsup
importada ó con ambas.
A fin de determinar exactamente con cuales variables se relaciona la variable Y, realizaremos pruebas de
hipótesis sobre coeficientes individuales.
Para determinar si la demanda de catsup nacional tiene efecto o no sobre las utilidades, planteamos los
siguiente.
H 0 : 1 0
H a : 1 0
Comparando el valor absoluto del estadístico de prueba con el valor de las tablas, notamos que t 0 es
mayor que t, 3 por lo que rechazamos la hipótesis nula. Concluiremos entonces que la demanda de
catsup nacional sí tiene efecto significativo sobre las utilidades del restaurante.
La siguiente prueba de hipótesis nos permitirá determinar si la demanda de catsup importada tiene o no
efecto sobre las utilidades:
H0 : 2 0
Ha : 2 0
ˆ2
t0
MSE C 22
0.1
t0
53.3333 0.0006666
t 0 0.53
Al comparar el valor absoluto del estadístico de prueba con el valor de las tablas, vemos que t 0 es menor
que t, 3 por lo que no se puede rechazar la hipótesis nula. Lo anterior nos lleva a concluir que no
existen los elementos suficientes para afirmar que la demanda de catsup importada tenga efecto
sobre las utilidades del restaurante.
En el inciso 3 se pide calcular intervalos de confianza del 95 % para los parámetros del modelo (0, 1 y
2)
Como conclusión, se afirmar con un 95% de certeza que la ordenada en el origen será por los menos
-29.1154 y a lo mucho 49.1154. Este es el rango de valores por donde cortará el plano al eje Y.
ˆ 1 t ,n p
MSE C11 1
ˆ 1 t ,n p
MSE C11
2 2
Como los dos valores del intervalo resultaron positivos, se puede afirmar con un 95% de certeza que
por cada incremento en la demanda de catsup nacional, las utilidades se incrementarán por lo
menos 20.8809 y a lo mucho 44.1190 veces, en promedio; siempre y cuando la demanda de catsup
importada permanezca constante.
ˆ 2 t ,n p
MSE C 22 2
ˆ 2 t ,n p
MSE C 22
2 2
En el inciso 4 se requiere calcular intervalos de confianza del 90% para la respuesta media y para una
observación futura de la utilidad del restaurante cuando la demanda de castup nacional es de 4 y la de
catsup importada sea de 50.
Aquí el intervalo de confianza solicitado es de 90%, por lo que el valor de será igual a 0.10
El valor de tablas de la distribución t-student con 0.05 y 3 grados de libertad es: 2.353.
En forma matricial:
Cuando la demanda de catsup nacional sea de 4 y la demanda de catsup importada sea de 50, las
utilidades esperadas del restaurante serán de 135 unidades.
El intervalo de confianza del 90% para la utilidad esperada está dado por:
ˆ 0 t
Y Y
2
,n p
MSE X !0 X X X 0
1
2.83333 0.5 0.03333 1
Y 135 2.353 53.33331 4 50 0.5 0.25 0 4
0.03333 0 0.000666 50
116.45 μ Y 153.55
Se puede afirmar con un 90% de certeza que cuando la demanda de catsup nacional sea de 4 y la
de catsup importada sea de 50, la utilidad esperada del restaurante será por lo menos 116.45 y a lo
mucho 153.55 unidades.
El intervalo de confianza del 90 % para la observación futura de la utilidad del restaurante bajo las mismas
condiciones de X1 y X2 está dado por:
ˆ 0 t
Y0 Y
2
,n p
MSE 1 X !0 X X X 0
1
2.83333 0.5 0.03333 1
4
Y0 135 2.353 53.33331 1 4 50 0.5 0.25 0
0.03333 0 0.000666 50
109.7139 Y0 160.2861
Se puede Afirmar con un 90% de certeza que cuando la demanda de catsup nacional sea de 4 y la
de catsup importada de 50, la utilidad del restaurante será por lo menos 109.7139 y a lo mucho
160.2861 unidades.
esto indica que el 96.36 % de la variabilidad de la utilidad del restaurante se explica mediante el
modelo de regresión lineal múltiple:
ˆ 10 32.5 X1 0.1X 2
Y
A continuación se muestran los resultados del ejercicio anterior calculados en una hoja de cálculo
diseñada para resolver los problemas de regresión lineal múltiple (con 2 variables independientes).