Notas de Clase RLM

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 42

Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A.

Escuela de Estadstica
1
1. Nociones preliminares relacionadas con vectores de variables aleatorias
Para facilitar la notacin y el desarrollo de algunas pruebas se utiliza con frecuencia una escritura del modelo en forma
matricial, la cual requiere establecer algunas definiciones que se presentan a continuacin.

1.1 Vectores aleatorios
Sean variables aleatorias con medias y varianzas , respectivamente; y donde
representa la covarianza entre las variables e con . Sea el
vector , el cual definimos como un vector aleatorio de media dada por el vector
y matriz de varianzas covarianzas ,

Observe que el vector de medias asociado a un vector aleatorio es simplemente el vector formado por las medias de cada
elemento del vector. Tambin, el vector de medias corresponde a la esperanza del vector aleatorio. Observe tambin que
( es una matriz simtrica) y (los elementos en la diagonal principal de corresponden a las varianzas
de las variables ). Por tanto podemos escribir,

En resumen, la matriz de varianzas-covarianzas asociada a un vector aleatorio es una matriz cuadrada y simtrica de orden
igual al tamao del vector aleatorio donde la diagonal principal contiene las varianzas asociadas a cada elemento del vector y
por fuera de la diagonal estn las covarianzas entre pares de elementos del vector aleatorio.

1.2 Algunas propiedades del valor esperado y la varianza de un vector aleatorio
Sea un vector aleatorio con media (vector de medias) y matriz de varianza covarianza Sea una matriz
y sea un vector de constantes, entonces:
1.
2.
3.
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
2
4.

1.3 Algunas definiciones bsicas en teora matricial
Sean y matrices de constantes de orden y respectivamente; sea un vector de variables de orden ,
es decir, ; sea un vector de constantes de orden ; y sea la matriz identidad de orden ,
entonces:

1. , la transpuesta de un producto es igual al producto invertido de las traspuestas.
2. es simtrica si
3. es idempotente si
4. Si es simtrica e idempotente, entonces tambin es simtrica e idempotente.
5. Forma Cuadrtica: La funcin se le llama forma cuadrtica de , donde es la
sima componente de la matriz .
6. Matriz definida positiva y semidefinida positiva: La matriz se dice que es:
a) Definida Positiva, si .
b) SemidefinidaPositiva si .

1.4 Algunas propiedades de derivadas vectoriales o matriciales
Sea una matriz de constantes de orden ; sea un vector de variables de orden , es decir,
; y sea un vector de constantes de orden , entonces:
1. .

2. .

3. , pero si es simtrica, entonces





Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
3
1.5 Algunos resultados distribucionales para vectores aleatorios
Sea un vector aleatorio normal variado con media y matriz no singular de varcov , es decir, . Sea
una matriz de constantes y sea una forma cuadrtica de definida por: , entonces:
1. Si o es una matriz idempotente de rango , entonces

2. donde, es el parmetro de no centralidad de la distribucin chicuadrado.
3. Sea . Si es idempotente y de rango , entonces

4. donde, .
5. Sea una matriz y la forma lineal definida por: , entonces la forma cuadrtica y
son independientes si

6. donde es la matriz nula de orden .
Nota: Si , entonces y son independientes si
7. Sea una matriz y sea , entonces las dos formas cuadrticas y son independientes si

8. Nota: Si , entonces y son independientes si
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
4
2. Definicin modelo de regresin lineal mltiple
Considere el caso en el cual se desea modelar la variabilidad total de una variable respuesta de inters, en funcin de
relaciones lineales con dos o ms variables predictoras o explicatorias, formuladas simultneamente en un nico modelo.
Suponemos en principio que las variables predictoras o explicatorias guardan poca asociacin lineal entre s, es decir, cada
variable predictora aporta informacin independiente de las dems predictoras presentes en el modelo (hasta cierto grado, la
informacin aportada por cada una no es redundante). La ecuacin del modelo de regresin en este caso es:

0 1 1 2 2 i i i k ik i
Y X X X = + + + + +

Este modelo es de primer orden ya que no se presentan efectos de interaccin entre las variables predictoras o explicatorias,
donde:


0 1, k
, , Son los parmetros del modelo

1 2 i i ik
X , X , , X , son los valores en la j-sima observacin muestral, de las variables predictoras o explicatorias
consideradas en el modelo.

( )
2
0
iid
i
~ N ,

Estadsticamente, se establece que la respuesta media est dada por

( )
1 2 0 1 1 2 2 , k k k
E Y | X , X , X X X X = + + + +

la cual representa un hiperplano en un espacio de dimensin k+1, llamado superficie de regresin o superficie de
respuesta.

Similar al modelo de regresin lineal simple, bajo los supuestos de normalidad, independencia y varianza constante de los
errores, se tiene que
( )
2
1 2 0 1 1 2 2 i i i , ik i i k ik
Y | X , X , X ~ N X X X , + + + + e independientes.





Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
5
3. Significado de los coeficientes de regresin en el modelo lineal general
El parmetro
0
, el intercepto Y del plano, representar la respuesta media de Y cuando en el conjunto de observaciones se
incluye la coordenada
( ) ( )
1 2
0 0 0
, k
X , X , X , , , = , de lo contrario si tal coordenada no es observada, entonces
0
no
ser interpretable. Los parmetros
j
, j=1, 2, , k, indican el cambio en la respuesta media de Y por unidad de incremento
en la respectiva variable
j
X , cuando las dems predictoras permanecen constantes (sin importar en qu nivel son fijadas
estas ltimas). Como los efectos de una predictora sobre la respuesta media no dependen del nivel de las dems, tales
efectos son denominados efectos aditivos. Los parmetros
j
, son tambin llamados coeficientes de regresin parcial
porque reflejan el efecto parcial de una variable predictora sobre la respuesta media en presencia de las dems predictoras
que aparecen en el modelo.

NOTA: El trmino modelo lineal significa que el modelo es lineal en los parmetros, lo cual no hace referencia a la forma de
la superficie de respuesta.

4. Tipos de variables y de efectos en los modelos
Las variables predictoras o explicatorias pueden ser:
Cuantitativas, caso en el cual se supone se miden sin error (o el error es despreciable).
Cualitativas o categricas, en este caso su manejo en el modelo se realiza a travs de la definicin de variables
indicadoras, las cuales toman valores de 0 1. Por ejemplo, suponga que en un modelo de regresin para el gasto
mensual por familia en actividades recreativas, se tiene entre las variables predictoras o explicatorias el estrato
socioeconmico, definido en cinco niveles, luego, para cada nivel se define una variable indicadora de la siguiente
forma:

1
1 familia en estrato 1
I
0 otro caso


2
1 familia en estrato 2
I
0 otro caso


3
1 familia en estrato 3
I
0 otro caso


4
1 familia en estrato 4
I
0 otro caso


5
1 familia en estrato 5
I
0 otro caso




Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
6
En general, una variable cualitativa con c clases se representa mediante 1 c variables indicadoras, puesto que
cuando en una observacin dada, todas las 1 c primeras indicadoras son iguales a cero, entonces la variable
cualitativa se haya en su ltima clase. En el ejemplo anterior basta definir las primeras cuatro indicadoras.

En el caso con variables predictoras o explicatorias cuantitativas, existe la llamada regresin polinomial en la que se utilizan
trminos cuadrticos y de orden superior de estas variables, como en los diseos experimentales para optimizacin de
procesos mediante la metodologa de superficie de respuesta. A pesar de la naturaleza no lineal de tales superficies de
respuesta, estos modelos son casos del modelo de regresin lineal general. Otros modelos pueden usar funciones de
respuesta curvilneas, en los cuales se utilizan variables transformadas de forma compleja, para linealizacin del modelo.

Otros modelos pueden incluir efectos de interaccin, es decir cuando los efectos de una variable predictora depende de los
niveles de otras variables predictoras o explicatorias incluidas en el modelo. Por ejemplo, suponga un modelo de regresin con
las variables predictoras o explicatorias
1
X y
2
X , que incluye tanto los efectos principales como el de interaccin de estas
dos variables. Este modelo corresponde a:
0 1 1 2 2 3 1 2 i i i i i i
Y X X X X = + + + + . El trmino de interaccin es
representado por
3 1 2 i i
X X . Para expresar el anterior modelo en trminos del modelo lineal general, definimos simplemente
3 1 2 i i i
X X X = y rescribimos el modelo como
0 1 1 2 2 3 3 i i i i i
Y X X X = + + + + .

En este ltimo tipo de modelo los coeficientes de regresin de los trminos individuales
j
X ya no tienen el significado dado
antes, debido a la presencia de la interaccin, es decir, ya no representan el cambio en la respuesta media cuando se
incrementa en una unidad la respectiva variable predictora, manteniendo constante a las dems. Para el ejemplo, puede
mostrarse mediante derivacin, que cuando
1
X se incrementa en una unidad mientras
2
X se deja fija, el cambio en la
respuesta promedio es
1 3 2
X + . As, los efectos de una variable predictora sobre la respuesta promedio, dado el nivel fijo
de la otra, dependen del nivel en que se halle esta ltima.

Tenga presente que cualquier modelo que pueda rescribirse en trminos del modelo lineal general, puede trabajarse mediante
las tcnicas de estimacin de mnimos cuadrados, de lo contrario, el modelo se considera no lineal y slo pueden obtenerse
estimaciones mediante mtodos numricos complejos.

5. Expresin en forma matricial del modelo lineal general y parmetros estimados
El uso del lgebra matricial es la clave para el procedimiento de estimacin por mnimos cuadrados. Para ello, note que
cuando se tienen n observaciones para el modelo lineal,
0 1 1 2 2 i i i k ik i
Y X X X = + + + + + , en realidad se tiene
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
7
un sistema de necuaciones con 1 k + incgnitas correspondiendo al intercepto y los k coeficientes de regresin, donde los
i
Y y las
ij
X toman valores conocidos en cada caso. Tal sistema expresado en forma matricial corresponde a:

y X = +
donde:
y =
1
2
n
Y
Y
Y





es el vector de respuestas de dimensin n1, =


0
1
k

es el vector de parmetros

= X
11 12 1
21 22 2
1 2
1
1
1
k
k
n n nk
X X X
X X X
X X X





es la matriz de diseo, con los valores de las variables predictoras o explicatorias en cada
observacin

=
1
2
n

es el vector de errores normales independientes con valor esperado ( ) E = 0


y matriz de varianzas covarianzas ( ) V =
2
nn
= I
2
2
2
0 0
0 0
0 0



Por tanto el vector aleatorio y tiene valor esperado X y la misma matriz de varianzas covarianzas de .

Para la estimacin por mnimos cuadrados se buscan los valores estimados de los parmetros tales que
( ) S = ( ) ( ) ( )
2
0 1 1 2 2
1
n
t
i i i k ik
i
Y X X X
=
=

y X y X sea mnimo. Denotaremos por b al vector de


parmetros estimados. Matricialmente, las ecuaciones normales de mnimos cuadrados para el modelo lineal general son:
t t
X Xb X y = y el vector de parmetros estimados es
( ) ( )
1
t t
b X X X y

= , cuyos elementos corresponden a los


Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
8
estimadores por mxima verosimilitud en el caso del modelo de regresin con errores normales. Matricialmente, hallamos las
solucin derivando la forma cuadrtica ( ) ( ) y X y X
t
con respecto al vector e igualando a cero:
( )
( )
2 2 2 0 y y y X X X X y X X
t t t t t t
S

= + = + =

y desde que X X
t
sea invertible, obtenemos como
solucin a
( )
1
t t
b X X X y

= .
b =
0
1
k
b
b
b






Siendo la ecuacin ajustada igual a
0 1 1 2 2 i i i k ik

Y b b X b X b X = + + + +

6. Valores ajustados y residuales
Con los valores ajustados
i

Y se construye el vector de valores ajustados dado por


y Xb = =
1
2
n



Los residuales corresponden a
i i i

e Y Y = y el vector de residuales es
e y y = =
1
2
n
e
e
e







El vector de valores ajustados y el vector de residuales pueden ser tambin expresados en trminos de la matriz
( )
1
' ' H X X X X

= , conocida como la matriz hat o matriz sombrero, la cual es una matriz n n de proyeccin ortogonal y
por tanto es idempotente (
2
H H = ) y simtrica ( H H
t
= ), as: y Hy = y ( ) e I H y = .


Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
9
7. Estimacin de la varianza
Bajo los supuestos de independencia y distribucin
( )
2
0 N , idntica para todos los errores del modelo, el estimador
insesgado de la varianza corresponde a:

2
1
SSE
MSE
n k
= =



donde la suma de cuadrados del error SSE corresponde a
( ) ( ) ( ) ( )
2
2
1 1
n n
t
t t
i i i
i i
SSE e y y
= =
= = = = =

y y y y e e y I-H y .

8. Algunas propiedades de los estimadores de los parmetros
Los estimadores de mnimos cuadrados corresponden a los estimadores de mxima verosimilitud, bajo el modelo
lineal normal.
b es un estimador insesgado del vector de parmetros , es decir,
[ ] ( )
1
t t
E b E X X X y


= =



La matriz de varianzas covarianzas de b es
( ) ( ) ( )
1 1
2
b X X X y X X
t t t
V V


= =



Tal matriz (la cual es simtrica) tiene sobre su diagonal principal a las varianzas de los estimadores de los parmetros,
( )
0 1 2
j
V b , j , , , k = y por fuera de su diagonal principal a las covarianzas entre tales estimadores, es decir, el
elemento en la posicin j , l es
( )
j l
COV b ,b .
Una estimacin de la anterior matriz es ( ) ( )
1
2 t
S b X X MSE

= cuyos elementos en la diagonal principal
corresponden a
( )
2
j
s b , estimaciones de las varianzas de los respectivos estimadores
j
b , en tanto que los
elementos restantes en la matriz son los estimadores de las covarianzas entre los estimadores
j
b .





Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
10
9. Inferencias sobre los parmetros
j
del modelo de regresin
Bajo los supuestos del modelo de regresin, podemos hallar los siguientes resultados:
Parmetro
Test de
significancia
Estadstico de
prueba
Criterio de
rechazo
Intervalo de confianza
del (1-)100%
j

0
1
0
0
j
j
H :
H :


( )
0 1
2
j j
n k
j
b
T ~ t
s b

=
con 0
j
= para el test de
significancia
Rechazar si
0 2 1 / ,n k
T t

>
con significancia
de
( )
2
2 1 j / ,n k j
b t s b


NOTA: Para otros testes individuales sobre los parmetros, usamos en el clculo del estadstico de prueba
0
T el valor de
j

especificado en H0 y los criterios de rechazo se establecen segn la desigualdad (de cola derecha, de cola izquierda o de dos
colas) planteada en la hiptesis alternativa.

10. Inferencias sobre la respuesta media y valores futuros
Suponga que deseamos estimar la respuesta media para
1 01 2 02 0 k k
X x , X x , , X x = = = . Sea
0
Y la respuesta en tal
conjunto de valores. Definiendo el vector
0 01 02 0
1

x
t
k
, x , x , , x =

podemos escribir
0 0
x
t
Y = + , por tanto la respuesta
media en tal punto es
0
0 0 x
x x
t
Y|
E Y | = = =
0 1 01 2 02 0 k k
x x x + + + + . Este valor es estimado por la
correspondiente respuesta o valor ajustado,
0

Y , que puede escribirse como


0

Y
( )
1
0 0
x b x X X X y
t t t t

= = . Tal estimacin
tiene como varianza
( )
0

V Y = ( ) ( )
1
2
0 0 0 0
x b x x X X x
t t t
V

= , que es estimada por
( )
1
0 0
x X X x
t t
MSE

Podemos
demostrar luego, bajo el supuesto de normalidad, los siguientes resultados:
Para la respuesta media en el vector
( )
0 01 02 0
1 x , , , ,
t
k
x x x = :
0
Y|x
=
0
x
t

Tests de hiptesis Estadstico de prueba
Intervalo de confianza
del (1-)100%
0
0 Y|
H : c
x
=
( )
0
0
0 1
1
0
x
0
x X X x
Y|
n k
t t

Y
T ~ t
MSE

=




con
0

Y
0
x' b = y
0
Y|
c
x
=
( )
0 2 1 0
-1
0
x X X x
t t
/ ,n k
y t MSE







con
0 0
x b
t
y =


Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
11
Considere ahora el problema de predecir un valor futuro
0
Y (no observado en la muestra) de la variable respuesta, en
1 01 2 02 0 k k
X x , X x , , X x = = = . Claramente, usando el modelo ajustado, predecimos tal valor por
0

Y . En este caso,
notando que el valor futuro y su pronstico son independientes, obtenemos que la varianza de la diferencia
0 0

Y Y es dada
por
( ) ( )
( ) ( )
1
2
0 0 0 0 0 0
1 x X X x
t t

V Y Y V Y V Y


= + = +


, que es estimada por
( )
1
0 0
1 x X X x
t t
MSE


+


. Con esto
podemos hallar los siguientes resultados:
Para una respuesta futura en el vector
( )
0 01 02 0
1 x' , , , ,
k
x x x = :
0
Y
Pronstico Estadstico
Intervalo de prediccin
del (1-)100%
0

Y
( )
0 0
0 1
0
-1
0
1+x X X x
n k
t t

Y Y
T ~ t
MSE

=




con
0 0
x b
t

Y =
( )
0 2 1 0
-1
0
1+x X X x
t t
/ ,n k

y t s MSE






con
0 0
x b
t
y =
Los intervalos de prediccin estiman los posibles valores para un valor particular de la variable respuesta (no para su media)
en un vector dado
0
x . Asumimos que este valor particular es un valor futuro de la variable aleatoria Y, y por tanto, no fue
utilizado en la regresin. Si
0
Y es un valor futuro y
0 0
x b
t

Y = es su estimador, entonces estas dos variables aleatorias son


estadsticamente independientes, dado que
0
Y no fue utilizado para hallar los parmetros estimados, de ah el estadstico y
los lmites del intervalo de prediccin.
Precaucin: Debe evitarse hacer extrapolaciones por fuera del rango de experimentacin en el espacio de las predictoras.
Dado que es posible que existan ciertas asociaciones entre los niveles observados en las variables predictoras o
explicatorias, no basta con evaluar si cada valor componente del vector
0
x se encuentra dentro del rango usado (u
observado) para la correspondiente predictora, sino que es necesario evaluar si
0
x pertenece a la regin de observacin
conjunta. Para ello basta con comprobar si
( ) ( )
0
-1
0
x X X x
t t
ii
max h < , con
ii
h el elemento i-simo de la matriz hat.








Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
12

11. Anlisis de varianza
En las siguiente frmulas J es una matriz de n n cuyas entradas son todas iguales a 1, e I es la matriz identidad de
dimensin n n :
Fuente de
variacin
Sumas de cuadrados
(en trminos matriciales)
Grados de
libertad
Cuadrados medios F
0

Regresin SSR =
1
t
y H J y
n



k
SSR
MSR
k
=
1 k ,n k
MSR
~ f
MSE


Error SSE = ( )
t
y I H y 1 n k
1
SSE
MSE
n k
=


Total SST =
1
t
y I J y
n



1 n

NOTAS:
La suma de cuadrados totales corresponde a la suma de los cuadrados de las desviaciones de las respuestas,
respecto a la respuesta media, es decir, ( )
2
1
n
i
i
SST y y
=
=

.
La suma de cuadrados de la regresin corresponde a la suma de los cuadrados de las desviaciones de los valores
ajustados respecto a la media muestral de la respuesta, es decir, ( )
2
1
n
i
i
SSR y y
=
=

.
La suma de cuadrados del error es simplemente la suma de los cuadrados de los residuales del modelo ajustado, es
decir
2
1
n
i
i
SSE e
=
=

.
k es el nmero de coeficientes (sin considerar el intercepto) en el modelo de regresin ajustado.

Con base en la tabla ANOVA, y bajo los supuestos impuestos sobre los errores, se realiza el test de significancia de la
relacin de regresin el cual se enuncia de la siguiente manera:
( )
( )
0 1 2
1
0
0
k
j
H :
H :

= = = =

el modelo de regresin no es significativo


algn existe una relacin de regresin significativa con al menos una de las variables


Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
13
El estadstico de prueba es
0 1 k ,n k
MSR
F ~ f
MSE

= . Se rechaza H0 a una significancia dada si
0 1 ,k ,n k
F f

> . Es decir,
se prueba que existe una relacin de regresin, sin embargo esto no garantiza que el modelo resulte til para hacer
predicciones.

12. El coeficiente de determinacin mltiple
Denotado por R
2
y definido como
2
1
SSR SSE
R
SST SST
= =

mide la proporcin de la variabilidad total observada en la respuesta que es explicada por la asociacin lineal con el conjunto
de variables
1 2 k
X , X , , X . Por ser una proporcin, esta cantidad vara entre 0 y 1, siendo igual a 0 cuando todos los
coeficientes de regresin ajustados son iguales a cero, y es igual a 1 si todas las observaciones caen sobre la superficie de
regresin ajustada.

Aunque es usado como una medida de bondad del ajuste de la funcin de regresin, es necesario tener presente que:
Valores grandes de R
2
no implican necesariamente que la superficie ajustada sea til. Puede suceder que se hayan
observado pocos niveles de las variables predictoras o explicatorias y por tanto la superficie ajustada no sera til para
hacer extrapolaciones por fuera de tales rangos. Incluso, si esta cantidad es muy cercana a 1, todava el MSE podra
ser muy grande y por tanto las inferencias tendran poca precisin.
Cuando se agregan ms variables explicatorias al modelo, el R
2
tiende a no decrecer, an cuando existan dentro del
grupo de variables, un subconjunto de ellas que no aportan significativamente.
Como medida de bondad de ajuste se prefiere usar otros estadsticos que penalicen al modelo por el nmero de
variables incluidas, entre ellos se tienen el MSE, y el R
2
ajustado, estas dos medidas son equivalentes: Entre dos
modelos ajustados se considera mejor el de menor MSE o equivalentemente el de mayor R
2
ajustado, dado que ste
ltimo corresponde a:
2
1
1
donde
adj
MSE SST
R , MST
MST n
= =


El R
2
ajustado disminuye cuando en el modelo se ingresan variables explicatorias sin lograr reducir al SSE, y
causando la prdida de grados de libertad para este ltimo.



Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
14
13. Diagnsticos y medidas remediales
13.1 Chequeo de posibles asociaciones
Inicialmente, puede ser de utilidad realizar chequeos grficos de la naturaleza y la fuerza de las asociaciones entre las
variables predictoras o explicatorias con la variable respuesta, y an entre predictoras. Una matriz de dispersin es la
herramienta ms til para visualizar rpida y simultneamente estas relaciones. Si las variables explicatorias se asocian
linealmente a la variable respuesta, los grficos de dispersin respectivos deben presentar las nubes de puntos tendiendo a
una lnea recta. Tambin se puede chequear si existen relaciones de tipo no lineal entre las distintas variables, y la presencia
de observaciones atpicas. Por otra parte, se espera que entre las predictoras no existan relaciones lineales fuertes, pues de lo
contrario, habra informacin que podra ser redundante en el modelo, y se tendra un problema de multicolinealidad
1
lo cual
afecta en la estimacin, interpretacin, y precisin de los coeficientes de regresin.

A veces es til tambin acompaar este anlisis grfico con la matriz de correlaciones que proporciona los coeficientes de
correlacin entre la variable respuesta con cada una de las predictoras y tambin todas las correlaciones entre las predictoras.

En las figuras siguientes se presentan varias presentaciones de las matrices de dispersin para un conjunto de datos sobre
tres variables. En los anexos aparece la programacin R con la cual se obtuvieron estas grficas:


1
Aunque si bien, no se detecten asociaciones lineales fuertes entre pares de variables predictoras o explicatorias, esto no es evidencia suficiente para
afirmar que no existe multicolinealidad. Una de las formas en que este problema se manifiesta es cuando se tiene una funcin de regresin significativa
y sin embargo los coeficientes individuales de la regresin resultan no significativos.
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
15


13.2 Chequeo sobre los supuestos en los errores
Recordar que en el modelo de regresin se ha impuesto las siguientes tres condiciones sobre el trmino de error:
Los errores son variables aleatorias normales de media cero
Los errores se distribuyen con igual varianza
Los errores son mutuamente independientes

Para chequear el supuesto de varianza constante, resulta til un grfico de residuales versus valores ajustados de la
respuesta. Tambin puede aplicarse el test de Levene Modificado, cuando la varianza de los errores se incrementa o
decrementa con los niveles de una de las variables predictoras o explicatorias.

Se pueden identificar outliers en los grficos de residuales versus valores ajustados de la respuesta, en especial
cuando se utilizan residuales estandarizados
*
i i
e e / MSE = , o residuales estudentizados
( ) 1
i i ii
r e / MSE h = .

Para chequear la independencia, si se conoce el orden en que fueron recolectadas las observaciones, es posible
analizar la serie de tiempo de los residuales y aplicar por ejemplo el test de Durbin Watson, tambin se puede evaluar
grficamente si hay patrones particulares en la serie de los residuales, aunque no siempre en sta se identifican
patrones an cuando exista autocorrelacin. En el mbito de las series de tiempo, existen mtodos ms efectivos
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
16
para evaluar si la serie de errores es un ruido blanco
2
, como el test de Lung-Box y las funciones de autocorrelacin y
de autocorrelacin muestral

El supuesto de normalidad puede chequearse bien sea con el grfico de probabilidad normal de los residuales y con el
test de normalidad de Shapiro Wilk.

13.3 Carencia de ajuste
La carencia de ajuste tambin puede ser evaluada y para el modelo de regresin mltiple se quiere saber si
( )
1 2 0 1 1 2 2 , k k k
E Y | X , X , X X X X = + + + + es una superficie de respuesta apropiada, es decir,

( )
( )
0 1 2 0 1 1 2 2
1 1 2 0 1 1 2 2
, k k k
, k k k
H : E Y | X , X , X X X X
H : E Y | X , X , X X X X


= + + + +
+ + + +




Para llevar a cabo este test, se necesitan replicaciones de la respuesta en las combinaciones de niveles de las variables
explicatorias. La suma de cuadrados SSE se descompone como en el caso de regresin simple, en
SSE SSPE SSLOF = + , donde SSPE se halla calculando para cada grupo replicado la suma de cuadrados de las
desviaciones de Y alrededor de la media del grupo, donde un grupo replicado consiste de
j
n observaciones
ij
Y (i-esima
observacin replicada en el j-simo grupo) obtenidas bajo los mismos valores para cada una de las variables predictoras o
explicatorias. Sea c el nmero de grupos replicados con distintos conjuntos de niveles para las Xs y sea
j
Y la media de las
observaciones replicadas para el j-simo grupo, entonces la suma de cuadrados para el j-simo grupo est dado por
( )
2
1 1
j
n
c
ij j
j i
SSPE Y Y
= =
=

con grados de libertad n c



La suma de cuadrados de carencia de ajuste es SSLOF SSE SSPE = , con grados de libertad 1 c k , y el estadstico
de prueba es
( )
( )
0 1
1
c k ,n c
SSLOF / c k
MSLOF
F ~ f
SSPE / n c MSPE


= =





2
En series de tiempo, un ruido blanco es un proceso estocstico que se caracteriza por tener media constante igual a cero, varianza constante y los
trminos del proceso son incorrelacionados.
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
17
Anlisis de varianza
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrados
medios f calculada
Regresin SSR k MSR SSR / k =
0
MSR
F
MSE
=
Error SSE 1 n k
( ) 1 MSE SSE / n k =

Carencia de ajuste SSLOF 1 c k
( ) 1 MSLOF SSLOF / c k =
0
MSLOF
F
MSPE
=
Error Puro SSPE n c
( ) MSPE SSPE / n c =

Total SST 1 n

13.4 Medidas remediales
Las medidas remediales descritas en el caso de la regresin simple tambin son aplicables en la regresin mltiple. Con el fin
de superar las deficiencias del modelo se pueden realizar transformaciones sobre la variable respuesta y/o sobre las variables
predictoras o explicatorias. Las transformaciones sobre la respuesta pueden ayudar en el caso de que los errores no resulten
normales o la varianza no sea constante. Transformaciones sobre las variables predictoras o explicatorias resultan tiles
cuando la superficie de respuesta es curvilnea.

Hay que tener cuidado cuando se transforma la variable respuesta, en particular cuando se usan las llamadas
transformaciones de Box-Cox, las que pueden resultar en nuevas variables carentes de interpretacin prctica segn el
fenmeno o contexto al cual pertenece la variable respuesta.

Si las desviaciones respecto al supuesto de normalidad son severas, y ninguna transformacin resulta til y/o interpretable,
existe otra alternativa, los llamados modelos lineales generalizados con los cuales se pueden modelar respuestas que no se
distribuyen normales; sin embargo, tales modelos estn ms all del alcance de este curso.

14. Sumas de cuadrados extras
Una suma de cuadrados extra mide la reduccin marginal en el SSE cuando una o varias variables predictoras o explicatorias
son agregadas al modelo de regresin, dado que las otras predictoras ya fueron agregadas o estn en el modelo, o bien, es
una medida del incremento marginal en el SSR cuando una o ms predictoras son agregadas al modelo de regresin (Neter,
1996). Por ejemplo, suponga un modelo de regresin mltiple de una respuesta dada sobre tres variables
1 2 3
X , X , X ,
entonces definamos algunas de las posibles sumas de cuadrados extras:
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
18
( ) ( ) ( )
1 2 3 1 2 3 2 3
SSR X | X , X SSR X , X , X SSR X , X = es la suma de cuadrados extras de
1
X dado que
2
X y
3
X ya
estn en el modelo de regresin, lo cual se interpreta como el incremento marginal en la suma de cuadrados de regresin por
agregar
1
X al modelo de regresin mltiple de Y vs.
2
X y
3
X .
( )
1 2 3
SSR X , X , X es el SSR del modelo de regresin con
las tras variables
1 2 3
X , X , X y
( )
2 3
SSR X , X es el SSR del modelo de regresin mltiple con slo las variables
2
X y
3
X .
Los grados de libertad de
( )
1 2 3
SSR X | X , X se hallan como la diferencia de los grados de libertad de
( )
1 2 3
SSR X , X , X
menos los grados de libertad de
( )
2 3
SSR X , X , es decir, 3 2 1 = grados de libertad.

( ) ( ) ( )
1 2 3 1 2 3 3
SSR X , X | X SSR X , X , X SSR X = es la suma de cuadrados extras de
1
X y
2
X dado que
3
X ya est
en el modelo de regresin, esto corresponde al incremento marginal en la suma de cuadrados de regresin por agregar
simultneamente
1
X y
2
X , al modelo de regresin de Y vs.
3
X . Aqu,
( )
3
SSR X es el SSR del modelo de regresin de
Y vs.
3
X . Los grados de libertad de ( )
1 2 3
SSR X , X | X corresponden a la diferencia de los grados de libertad de
( )
1 2 3
SSR X , X , X menos los grados de libertad de
( )
3
SSR X , es decir, 3 1 2 = .

( ) ( ) ( )
1 3 1 3 3
SSR X | X SSR X , X SSR X = es la suma de cuadrados extras de
1
X dado que
3
X est en el modelo de
regresin, o en otras palabras, es el incremento en la suma de cuadrados de la regresin debido a la inclusin de
1
X al
modelo de regresin de Y vs.
3
X . Aqu
( )
1 3
SSR X , X es la suma de cuadrados de la regresin mltiple de Y vs.
1
X y
3
X . Los grados de libertad de
( )
1 3
SSR X | X son iguales a la diferencia de los grados de libertad de
( )
1 3
SSR X , X
menos los grados de libertad de ( )
3
SSR X , es decir, 2 1 1 = .

Ahora defina usted
( )
2 1
SSR X | X .

14.1 Descomposicin del SSR en sumas de cuadrados extras
La suma de cuadrados de regresin de un modelo dado puede descomponerse en sumas de cuadrados extras. Considere de
nuevo el modelo de regresin mltiple de una respuesta dada sobre tres variables
1 2 3
X , X , X , la correspondiente suma de
cuadrados de regresin puede descomponerse de las siguientes maneras (stas son slo algunas de las posibles
descomposiciones):
( ) ( ) ( ) ( )
1 2 3 1 2 1 3 1 2
SSR X , X , X SSR X SSR X | X SSR X | X , X = + +
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
19
( ) ( ) ( ) ( )
1 2 3 2 3 2 1 2 3
SSR X , X , X SSR X SSR X | X SSR X | X , X = + +
( ) ( ) ( )
1 2 3 2 1 3 2
SSR X , X , X SSR X SSR X , X | X = +

Una forma particular de descomposicin que puede obtenerse con los paquetes estadsticos, son las sumas de cuadrados de
regresin secuenciales o SS1, que son sumas de cuadrados extras de 1 grado de libertad, en la cual cada variable explicatoria
es agregada secuencialmente, segn el orden en que son nombradas en el modelo de regresin completo, por ejemplo , si se
especifica el modelo
0 1 1 2 2 3 3
Y X X X = + + + + , la descomposicin en sumas de cuadrados secuenciales
correspondiente es
( ) ( ) ( ) ( )
1 2 3 1 2 1 3 1 2
SSR X , X , X SSR X SSR X | X SSR X | X , X = + + :
Fuente SS1 Grados de libertad
1
X
( )
1
SSR X
1
2 1
X | X
( )
2 1
SSR X | X
1
3 1 2
X | X , X
( )
3 1 2
SSR X | X , X
1
Regresin SSR 3

Otro tipo de sumas de cuadrados extras de 1 grado de libertad que se obtienen en los paquetes estadsticos, son las sumas de
cuadrados de regresin parciales SS2 las cuales corresponden a las sumas de cuadrados extras de cada variable
explicatoria en el modelo, dadas las dems. De nuevo considere el modelo
0 1 1 2 2 3 3
Y X X X = + + + + , las sumas
de cuadrados de parciales corresponden a:
Fuente SS2 Grados de libertad
1 2 3
X | X , X
( )
1 2 3
SSR X | X , X
1
2 1 3
X | X , X
( )
2 1 3
SSR X | X , X
1
3 1 2
X | X , X
( )
3 1 2
SSR X | X , X
1

Observe que la ltima suma de cuadrados de regresin parcial corresponde a la ltima suma de cuadrados de regresin
secuencial para el modelo del ejemplo, y adems que estas tres sumas de cuadrados extras no constituyen una
descomposicin de la suma de cuadrados de la regresin del modelo completo, es decir, no suman el SSR.



Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
20
14.2 Prueba de la significancia de coeficientes de regresin individual mediante sumas de cuadrados extras
En la seccin 7 se present la prueba de hiptesis de significancia de los
j
del modelo de regresin mediante el uso del
estadstico
( )
2
0 1 j j n k
T b / s b ~ t

= bajo la hiptesis nula 0
j
= . Considere 1 2 j , , , k = , si se eleva al cuadrado
esta variable aleatoria
0 1 n k
T ~ t

, se obtiene la variable aleatoria
2
0 0 1 1 ,n k
F T ~ f

= y puede demostrarse que este
estadstico tambin corresponde a:
( )
( )
1 2 1 1 2
0
1 2
j j j , j k
k
SSR X | X , X , , X , X X , X
F
MSE X , X , , X
+ +
=



es decir, la suma de cuadrados parcial SS2 de la respectiva variable
j
X , dividida por el MSE del modelo de regresin
completo (con todas las predictoras). A un nivel de significancia de , el criterio de rechazo con este estadstico de la
hiptesis
0
0
j
H : = en favor de
1
0
j
H : , es
0 1 1 , ,n k
F f

> .

NOTA: En el caso de la regresin lineal simple puede mostrarse que el estadstico F del test de significancia de la regresin
mediante el anlisis de varianza es igual al cuadrado del estadstico t de la prueba de significancia de la pendiente de la recta
de regresin.

14.3 Prueba de la significancia de subconjuntos de coeficientes de regresin mediante sumas de cuadrados extras
Considere ahora el caso en el cual se desea probar simultneamente la significancia de 2 o ms coeficientes de la regresin,
por ejemplo, en el modelo
0 1 1 2 2 3 3 4 4 5 5
Y X X X X X = + + + + + + se desea probar si las variables
1
X ,
2
X y
5
X pueden ser eliminadas del modelo, es decir, se desea probar que:
0 1 2 5
1 1 2 5
0
0 alguno entre y es
H :
H : ,


= = =



Para este tipo de pruebas se requiere formular dos modelos:
El modelo completo, para el ejemplo es
0 1 1 2 2 3 3 4 4 5 5
Y X X X X X = + + + + + + .
El modelo nulo: es decir, aquel al cual se reduce el modelo completo eliminando las variables explicatorias sobre las
cuales se realiza esta prueba. Para el ejemplo es
0 3 3 4 4
Y X X = + + +

El estadstico de prueba es igual a la razn del cuadrado medio de la diferencia de las sumas de cuadrados del error del
modelo nulo menos la del modelo completo, sobre el cuadrado medio del error del modelo completo. Para el ejemplo, sera:
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
21
( ) ( ) ( ) ( )
( )
( ) ( )
( )
3 4 1 2 3 4 5
0
1 2 3 4 5
3 4 1 2 3 4 5
1 2 3 4 5
3 6
3
SSE X , X SSE X , X , X , X , X / n n
F
MSE X , X , X , X , X
SSE X , X SSE X , X , X , X , X /
MSE X , X , X , X , X


=


=


pero tenemos que:
( ) ( ) ( ) ( )
( )
3 4 1 2 3 4 5 1 2 3 4 5 3 4
1 2 5 3 4
SSE X , X SSE X , X , X , X , X SSR X , X , X , X , X SSR X , X
SSR X , X , X | X , X
=
=


por lo tanto el estadstico de la prueba es simplemente la suma de cuadrados extra de regresin de las variables cuya
significancia se prueba, dada las dems variables del modelo, dividida por sus grados de libertad, sobre el cuadrado medio del
error del modelo completo:
( )
( )
1 2 5 3 4
0 3 6
1 2 3 4 5
3
,n
SSR X , X , X | X , X /
F ~ f
MSE X , X , X , X , X

=

A un nivel de significancia de , el criterio de rechazo de la hiptesis nula es
0 3 6 , ,n
F f

> .

NOTA: Recuerde que:
Los grados de libertad de la diferencia de dos sumas de cuadrados es igual a la diferencia de los respectivos grados
de libertad.
Los cuadrados medios se construyen dividiendo la respectiva suma de cuadrados por sus grados de libertad.

Otro ejemplo: En el modelo
0 1 1 2 2 3 3 4 4 5 5
Y X X X X X = + + + + + + , para probar la hiptesis:
0 2 4
1 2 4
0
0 alguno entre y es
H :
H :


= =



se usa
( )
( )
2 4 1 3 5
0 2 6
1 2 3 4 5
2
,n
SSR X , X | X , X , X /
F ~ f
MSE X , X , X , X , X

= y con un nivel de significancia de , el criterio de rechazo de la
hiptesis nula es
0 2 6 , ,n
F f

> .


Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
22
15. Seleccin de variables predictoras o explicatorias
En algunos estudios observacionales o exploratorios se parte de un modelo de regresin en el que se considera un conjunto
grande de variables explicatorias potenciales para luego identificar un subconjunto entre tales variables, que resulte
potencialmente til para construir el modelo de regresin final. Dependiendo de los usos que se deseen dar a un modelo de
regresin variar el subconjunto de variables seleccionadas. Por ejemplo, desde el punto de vista del ajuste, cierto subgrupo
de variables sern tiles, en tanto que desde el punto de vista del pronstico, otro subconjunto podra resultar ser mejor. Es
necesario pues fijar un criterio de seleccin del mejor subconjunto de variables.

15.1 Procedimientos de reduccin de variables explicatorias mediante todas las regresiones posibles
Este procedimiento consiste en correr las regresiones de la variable respuesta vs. todos los posibles subconjuntos de 1, 2, ,
k variables explicatorias, y comparar tales modelos con base en alguno o varios de los siguientes estadsticos:
El
2
adj
R : El mejor modelo es aqul con mayor valor en este estadstico.
El MSE : El mejor modelo es aqul con menor valor en este estadstico. Sin embargo usar este criterio equivale a
usar el criterio del
2
adj
R .
El
p
C , el mejor modelo es aqul para el cual
p
C es el ms pequeo posible (es decir, el modelo con el menor
nmero de variables predictoras o explicatorias posible) y tal que la diferencia
p
C p es mnima, con p igual al
nmero de parmetros del modelo considerado, incluyendo el intercepto. Este estadstico es una medida del sesgo en
el modelo de regresin, es decir, de
( )
i i

E Y (donde
i
es el valor esperado de la respuesta dadas las variables
predictoras del modelo considerado), y es tal que a mayor sesgo, mayor
p
C . Este estadstico se calcula como:
( )
( )
1 2
2
p
p
k
SSE
C n p
MSE X , X , , X
=



donde
p
SSE es la suma de cuadrados del error del modelo de regresin con 1 p k variables explicatorias y
( )
1 2 k
MSE X , X , , X es la suma de cuadrados medios del error para el modelo de regresin con todas las k
variables. Este criterio enfatiza en el ajuste de cada modelo.

El uso del criterio
p
C supone que
( )
1 2 k
MSE X , X , , X proporciona un estimador insesgado de la varianza
2
y
que las relaciones de la respuesta con cada predictora han sido expresadas en el modelo de forma apropiada (lineal,
cuadrtica, transformada, etc.) y que las variables menos tiles han sido excluidas.

Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
23
El
P
PRESS o suma de cuadrados de prediccin, mide qu tambin el uso de los valores ajustados por un
submodelo puede predecir las respuestas observadas. Mientras menor sea esta medida, mejor se considera el
modelo. El PRESS es como un SSE, pero en el cual el valor ajustado para cada observacin
i
Y se halla estimando el
submodelo sin considerar dicha observacin, tales valores ajustados se denotan por
( ) i i

Y ; as el PRESS es la suma
de cuadrados de los errores de prediccin
( ) ( )
i i i i

e Y Y = , es decir,
( )
2
1
n
P i
i
PRESS e
=
=

. Para cada submodelo, la


definicin del error de prediccin implica correr n regresiones separadas (cada una con 1 n datos) con cada
observacin eliminada en cada caso, sin embargo, basta con correr una vez el modelo con todas las observaciones,
hallar sus residuales ordinarios, y los elementos de la diagonal principal de la matriz hat y calcular
( )
( ) 1
i ii i
e e / h = .

Si se usan dos o ms criterios de seleccin de modelos, es posible que cada criterio lleve a modelos distintos. La decisin
final debe basarse en el anlisis de residuales y otros diagnsticos, adems de complementar con el conocimiento y la
experiencia de personas expertas en el mbito en el cual est inmerso el problema.

15.2 Procedimientos de reduccin de variables mediante seleccin automtica
Bsicamente, existen tres procedimientos de seleccin automtica, los cuales son computacionalmente menos costosos que el
procedimiento de seleccin basado en ajustar todas las regresiones posibles, y operan en forma secuencial:
Forward o seleccin hacia delante
Backward o seleccin hacia atrs
Stepwise, una combinacin de los dos anteriores

El mtodo forward inicia ajustando todas las regresiones simples posibles, selecciona entre estos modelos el de menor MSE
pero tal que la respectiva variable resulte significativa, luego va agregando variables, una por vez, buscando reducir tambin
en forma significativa la suma de cuadrados de los errores, lo cual es evaluado a travs de pruebas F en las que se involucra
el clculo de sumas de cuadrados extras de una nueva variable dadas las dems que previamente se ingresaron en el modelo.
Entre varias variables candidatas a ingresar al modelo en un paso dado del algoritmo, se elige aquella que reduzca ms
significativamente el SSE. El procedimiento se detiene cuando entre las variables restantes que no han sido ingresadas hasta
el paso previo, ninguna contribuira significativamente en la reduccin del SSE si fuese ingresada.

El mtodo backward, parte del modelo con todas las variables y elimina secuencialmente de a una variable, buscando reducir
el SSE. La variable que se elimina en cada paso, es aquella que no resulta significativa en presencia de las dems variables
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
24
del modelo de regresin que se tiene en ese momento. Tambin se recurre a pruebas F basadas en sumas de cuadrados
extras, y entre varias variables candidatas a salir del modelo, se retira la de menor significancia. El algoritmo se detiene
cuando todas las variables que an permanecen en el modelo son significativas en presencia de las dems.

El mtodo stepwise, comienza agregando variables, una a la vez, la nueva variable es ingresada segn el mtodo forward,
pero una vez ingresada una nueva variable, se evala que las dems que ya estaban en el modelo sigan siendo significativas,
es decir, aplica el principio del mtodo backward. As, en un paso dado puede ingresar una variable y salir otra que en un paso
previo ya haba sido ingresada, es ms, puede suceder que una misma variable entre, salga y vuelva a ser ingresada en pasos
subsiguientes del algoritmo. El algoritmo se detiene cuando ya no hay ms variables para ingresar que contribuyan
significativamente a reducir el SSE, en tanto que todas las que se tienen en el modelo son significativas.

Como se anot antes en el procedimiento de seleccin de variables mediante todas las regresiones posibles, el modelo final
no solamente debe ser el resultado de estos algoritmos de seleccin, tambin es necesario usar el juicio y el conocimiento
previo que se tenga sobre el problema en el cual se est inmerso.

Cuando una o ms variables explicatorias de tipo cualitativas son consideradas en un modelo de regresin mediante un
conjunto de variables indicadoras, en estos procesos de seleccin de variables se recomienda mantener a stas juntas, como
un solo grupo, an si un subconjunto de ellas resulta mejor de acuerdo al criterio de seleccin empleado. Esta recomendacin
tambin aplica en el caso de modelos en los cuales se incluyen trminos polinomiales de una variable, es decir, trminos
lineales, cuadrticos, etc. Si un trmino polinmico de orden m de una variable dada va a ser dejado en el modelo, entonces
todos los trminos de orden inferior de esa misma variable tambin se recomienda dejarlos en el modelo, as no sean
significativos segn el criterio de seleccin aplicado. Similarmente, si se tienen incluidos trminos de interaccin entre
variables explicatorias, los trminos de interaccin de menor orden y los trminos lineales de las variables involucradas en
tales interacciones, tambin deben permanecer en el modelo.

16. Problema 1
Cuatro pruebas (X1, X2, X3, X4) para seleccin de personal son aplicadas a un grupo de 20 aspirantes y se registran los
respectivos puntajes. Despus de 2 aos de contratacin estos 20 empleados son clasificados de acuerdo a la puntuacin de
la aptitud (Y) exhibida para el trabajo. Los datos se presentan a continuacin:




Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
25
Puntuacin
Aptitud (Y)
Prueba 1
(X1)
Prueba 2
(X2)
Prueba 3
(X3)
Prueba 4
(X4)
94 122 121 96 89
71 108 115 98 78
82 120 115 95 90
76 118 117 93 95
111 113 112 109 109
64 112 96 90 88
109 109 129 102 108
104 112 119 106 105
80 115 101 95 88
73 111 95 95 84
127 119 118 107 110
88 112 110 100 87
99 120 89 105 97
80 117 118 99 100
99 109 125 108 95
116 116 122 116 102
100 104 83 100 102
96 110 101 103 103
126 117 120 113 108
58 120 77 80 74

A. En el modelo con todas las variables
( )
2
0 1 1 2 2 3 3 4 4
0
iid
Y X X X X , ~ N , = + + + + + :
1. Realice un anlisis descriptivo del conjunto de datos, especficamente, sobre las posibles asociaciones entre variables
y la distribucin de la variable respuesta:


Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
26
TABLA MATRIZ DE CORRELACIN ENTRE TODAS LAS VARIABLES (obtenida con el R; tambin puede calcularse con SAS en el
proc reg opcin corr, ver programas anexos)

Y X1 X2 X3 X4
Y 1.000000000 -0.004143458 0.48590256 0.8855698 0.86492903
X1 -0.004143458 1.000000000 0.06814831 -0.1533788 -0.09574832
X2 0.485902561 0.068148309 1.00000000 0.5432310 0.43811642
X3 0.885569796 -0.153378763 0.54323100 1.0000000 0.76438127
X4 0.864929027 -0.095748315 0.43811642 0.7643813 1.00000000

2. Ajuste el modelo y escriba la ecuacin ajustada. Cul es el efecto sobre la respuesta media por unidad de cambio en
X1 cuando los puntajes en las otras pruebas permanecen a un nivel fijo? Estime la matriz de varianzas covarianzas de los
parmetros estimados:
TABLA DE PARMETROS ESTIMADOS CON SUMAS DE CUADRADOS TIPO I y TIPO II, Y COEFICIENTES ESTANDARIZADOS (Las sumas de
cuadrados tipo I y II y los coeficientes estandarizados se obtienen respectivamente con las opciones SS1, SS2 y stb
en la declaracin model del proc reg)
Parameter Estimates
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Type I SS Type II SS Estimate
Intercept 1 -178.62132 48.61985 -3.67 0.0023 171680 755.58731 0
x1 1 0.52146 0.35950 1.45 0.1675 0.12578 117.78193 0.13055
x2 1 -0.04780 0.14182 -0.34 0.7407 1739.89945 6.36129 -0.03572
x3 1 1.36668 0.34643 3.94 0.0013 4138.42606 871.23508 0.58295
x4 1 0.83250 0.25254 3.30 0.0049 608.37465 608.37465 0.44748
TABLA MATRIZ DE VARIANZAS COVARIANZAS ESTIMADA DE LOS PARMETROS ESTIMADOS DEL MODELO (Se obtiene en el SAS con la
opcin covb de la declaracin model del proc reg)
Covariance of Estimates
Variable Intercept x1 x2 x3 x4
Intercept 2363.8901157 -15.80685715 0.8665382669 -6.844882227 0.3910048375
x1 -15.80685715 0.1292437353 -0.009248809 0.0227520918 -0.002404343
x2 0.8665382669 -0.009248809 0.0201115422 -0.018703335 -0.001316046
x3 -6.844882227 0.0227520918 -0.018703335 0.120017128 -0.060393923
x4 0.3910048375 -0.002404343 -0.001316046 -0.060393923 0.0637741289

3. Determine cul de las variables predictoras o explicatorias tiene mayor peso sobre la variable respuesta, teniendo en
cuenta los coeficientes con variables estandarizadas (ver tabla de resultados en numeral 2)

4. Interprete el coeficiente de determinacin muestral mltiple. Plantee la prueba necesaria para determinar si la
regresin es significa (hiptesis, estadstico de prueba y regin crtica) y hgala a un nivel de significancia de 0.05:
TABLA DE ANALISIS DE VARIANZA (resulta por defecto en el proc reg)
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 4 6486.82595 1621.70649 28.97 <.0001
Error 15 839.72405 55.98160
Corrected Total 19 7326.55000
Root MSE 7.48209 R-Square 0.8854
Dependent Mean 92.65000 Adj R-Sq 0.8548
Coeff Var 8.07565

Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
27
5. Interprete los coeficientes estimados en trminos de las variables del problema y pruebe la significancia individual de
cada parmetro, mediante las pruebas T y las pruebas F parciales (para pruebas T ver tabla de resultados en numeral 2. Las
pruebas F pueden construirse a partir de las sumas de cuadrados SS2 o bien a partir de la relacin estadstica entre una
distribucin t y una distribucin F. Constate con los resultados que se dan a continuacin):
RESULTADO SAS ARGUMENTO b1:test x1=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B1=0
Test b1 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 1 117.78193 2.10 0.1675
Denominator 15 55.98160

RESULTADO SAS ARGUMENTO b2:test x2=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B2=0
Test b2 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 1 6.36129 0.11 0.7407
Denominator 15 55.98160

RESULTADO SAS ARGUMENTO b3:test x3=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B3=0
Test b3 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 1 871.23508 15.56 0.0013
Denominator 15 55.98160
RESULTADO SAS CON ARGUMENTO b4:test x4=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B4=0
Test b4 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 1 608.37465 10.87 0.0049
Denominator 15 55.98160

6. Pruebe conjuntamente si los puntajes en las pruebas dos y cuatro son significativas para explicar la aptitud para el
trabajo (plantee claramente las hiptesis, estadsticos de prueba, y regin crtica).
RESULTADO SAS CON ARGUMENTO b2yb4:test x2,x4; EN EL PROC REG, PARA PRUEBA F H0: B2=B4=0
Test b2yb4 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 2 305.49446 5.46 0.0166
Denominator 15 55.98160

7. Construya los intervalos de confianza del 95% para los parmetros del modelo e interprtelos.
TABLA DE INTERVALOS DE CONFIANZA DE LOS PARMETROS Y FACTORES DE INFLACIN DE VARIANZA (los intervalos se obtiene
con la opcin clb y los vifs con la opcin vif en el argumento MODEL del proc reg)
Variance
Variable DF Inflation 95% Confidence Limits
Intercept 1 0 -282.25209 -74.99056
x1 1 1.06015 -0.24481 1.28773
x2 1 1.46954 -0.35008 0.25447
x3 1 2.85778 0.62827 2.10509
x4 1 2.41145 0.29424 1.37077

Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
28
8. Determine mediante los grficos de residuales estudentizados la validez del supuesto de varianza constante, tambin
evale el supuesto de normalidad y posibles outliers (los grficos de residuales se obtuvieron con el argumento plot del proc
reg y los grficos de normalidad con el proc univariate sobre los residuales).


Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
29




9. De acuerdo a las siguientes grficas identifique si existen observaciones influenciales (stas fueron obtenidas
guardando los estadsticos hii (leverage) cookd (distancia de Cook), con las opciones h=hii cookd=cooks de la declaracin
output en el proc reg.

Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
30

NOTA:
h
ii
elemento i-simo de la diagonal principal de la matriz sombrero (H), es conocido como el leverage de
i
y sobre
i
y , y es una medida de la influencia potencial de una observacin en virtud de su ubicacin en el espacio definido
por las variables predictoras o explicatorias. Puede mostrarse que
1
1
n
ii
i
h p, p k
=
= = +

, luego como una gua se


usa el tamao promedio de los h
ii
para identificar posibles puntos influenciales: si 2
ii
h p / n > el punto i-simo tiene
alto leverage.
Las distancia de Cook corresponde a
( )
( ) ( )
2 2
1
i
i i ii
i
i ii
V y
r r h
D
p V e p h
= =


donde
i
r es el i-simo residual estudentizado, y la razn
( )
1
ii ii
h / h es una medida de la distancia del vector
observacin
i
x al centroide del resto de los datos. As, la distancia de Cooks refleja qu tan bien el modelo ajusta a la
i-sima observacin y a la vez da cuenta de cun lejos est ese punto del resto de los datos. Se considera influencial
aqul punto para el cual 1
i
D > .

10. Mediante los valores de los VIF para los parmetros del modelo determine si existen problemas de multicolinealidad y
cul o cuales variables estn involucradas en dicho problema (ver tabla de resultados en el numeral 7, resultados
encabezados por Variance Inflation. Estas cantidades se obtienen con la opcin vif de la declaracin model del proc reg):



Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
31
NOTA:
Cuando hay multicolinealidad, las varianzas de los coeficientes de regresin son infladas, de ah el nombre de factores
de inflacin de varianza.
Puede mostrarse que
( )
2
1 1
j
VIF / R = donde
2
0 1
j
R < < es el coeficiente de determinacin mltiple de la
regresin de la variable predictora
j
X sobre el resto de predictoras.
Valores VIF mayores que 10 implican serios problemas con la multicolinealidad.
Cuando la multicolinealidad es fuerte, las ecuaciones de prediccin son notoriamente pobres y los valores de los
coeficientes de regresin son muy sensibles a los datos que en particular son usados en el ajuste.

11. Mediante los ndices de condicin y las proporciones de aporte a la varianza de los coeficientes de regresin, que
aporta el valor propio asociado a cada predictora, determine de nuevo si existen problemas de multicolinealidad.
NOTA:
Los valores propios son calculados para la matriz
t
X X. La existencia de una o ms dependencias lineales en los
datos es evidenciada porque uno o ms valores propios resultan muy pequeos.
Mientras ms pequeos son los valores propios
j
, ms grande es el ndice de condicin
j max j
/ = . SAS
calcula la raz cuadrada de los ndices de condicin. Si tales races son menores que 10 no hay problemas serios de
multicolinealidad, si alguna est entre 10 y 31esto implica multicolinealidad moderada a fuerte, y si alguna excede de
31 la multicolinealidad es severa.
Puede demostrarse que las varianzas de los estimadores de los coeficientes de regresin son funcin de los VIF, los
cuales a su vez son funcin de los valores inversos de los
j
, por lo cual, valores pequeos en alguno (s) de los
j

conlleva a inflacin de las varianzas de los estimadores. Debe tenerse en cuenta que los valores propios son
numerados de mayor a menor, es decir
1 2 p
> > >
Las proporciones de descomposicin de varianza,
ij
tambin son una medida de multicolinealidad, las cuales
corresponden a la proporcin que el i-simo valor propio de
t
X X aporta a la varianza del coeficiente estimado
j

.
Si proporciones altas de varianza para dos o ms coeficientes de regresin estn asociados con un mismo valor
propio pequeo, entonces hay evidencia de multicolinealidad. Por ejemplo, si
43
y
45
son grandes (mayores de
0.5), el cuarto valor propio est asociado con una multicolinealidad que infla las varianzas de
3

y
5

, es decir
3
X y
5
X estn involucradas en una relacin de multicolinealidad.
Hay controversia acerca de si los datos deben centrarse (restarles sus respectivas medias a los valores de cada
variable) para diagnosticar multicolinealidad usando el criterio de los valores propios y de las proporciones de la
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
32
descomposicin de varianzas. Si se centran los datos se elimina el mal condicionamiento debido al intercepto del
modelo. Si este parmetro no tiene interpretacin fsica, se recomienda trabajar sobre los datos centrados. Si por el
contrario el intercepto es interpretable, no se recomienda centrar los datos (Montgomer, Peck y Vining, 2002).
RESULTADOS SAS PARA DIAGNSTICO DE MULTICOLINEALIDAD CON BASE EN LOS VALORES PROPIOS, NDICES DE CONDICIN Y
PROPORCIONES DE DESCOMPOSICIN DE VARIANZA CON DATOS SIN CENTRAR (Con opcin collin en la declaracin model):
Collinearity Diagnostics
Condition
Number Eigenvalue Index
1 4.97778 1.00000
2 0.01151 20.79826
3 0.00810 24.79224
4 0.00192 50.92105
5 0.00068969 84.95525

Collinearity Diagnostics
------------------------Proportion of Variation------------------------
Number Intercept x1 x2 x3 x4
1 0.00004765 0.00006662 0.00045972 0.00009238 0.00019066
2 0.02015 0.03677 0.51781 0.00100 0.01034
3 0.00438 0.02156 0.38292 0.02724 0.29226
4 0.00552 0.06421 0.05578 0.75754 0.67611
5 0.96990 0.87740 0.04303 0.21413 0.02111

RESULTADOS SAS PARA DIAGNSTICO DE MULTICOLINEALIDAD CON BASE EN LOS VALORES PROPIOS, NDICES DE CONDICIN Y
PROPORCIONES DE DESCOMPOSICIN DE VARIANZA CON DATOS CENTRADOS (Con la opcin collinoint en la declaracin model):

Collinearity Diagnostics (intercept adjusted)
Condition -----------------Proportion of Variation----------------
Number Eigenvalue Index x1 x2 x3 x4
1 2.18694 1.00000 0.00430 0.07741 0.06221 0.06684
2 1.03741 1.45192 0.81249 0.06601 0.00144 0.00060676
3 0.55750 1.98060 0.15032 0.75396 0.02394 0.18993
4 0.21815 3.16621 0.03289 0.10263 0.91242 0.74263

B. Mediante los datos referentes a todas las regresiones posibles conteste a las siguientes preguntas:
Dependent Variable: y

Number in Adjusted
Model R-Square R-Square C(p) MSE
1 0.7842 0.7722 12.2382 87.82341
1 0.7481 0.7341 16.9669 102.53009
1 0.2361 0.1937 83.9747 310.93011
1 0.0000 -.0555 114.8720 407.02357
------------------------------------------------------------
2 0.8693 0.8539 3.1096 56.34251
2 0.8020 0.7787 11.9141 85.33606
2 0.7843 0.7589 14.2339 92.97521
2 0.7623 0.7343 17.1139 102.45921
2 0.7543 0.7254 18.1494 105.86917
2 0.2375 0.1478 85.7922 328.61910
------------------------------------------------------------
3 0.8845 0.8629 3.1136 52.88033
3 0.8693 0.8448 5.1039 59.84412
3 0.8023 0.7653 13.8674 90.50617
3 0.7665 0.7227 18.5629 106.93495
------------------------------------------------------------
4 0.8854 0.8548 5.0000 55.98160
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
33
Number in --------------------------Parameter Estimates--------------------------
Model R-Square Intercept x1 x2 x3 x4
1 0.7842 -116.00248 . . 2.07614 .
1 0.7481 -61.18254 . . . 1.60913
1 0.2361 21.67068 . 0.65029 . .
1 0.0000 94.54007 -0.01655 . . .
------------------------------------------------------------------------------------------------
2 0.8693 -114.98800 . . 1.26567 0.84140
2 0.8020 -182.39183 0.53867 . 2.12464 .
2 0.7843 -116.12648 . 0.00918 2.06741 .
2 0.7623 -70.20439 . 0.17715 . 1.50123
2 0.7543 -98.75357 0.31715 . . 1.62327
2 0.2375 38.37237 -0.14951 0.65371 . .
------------------------------------------------------------------------------------------------
3 0.8845 -176.56157 0.49948 . 1.32222 0.82937
3 0.8693 -114.84530 . -0.01049 1.27488 0.84220
3 0.8023 -183.72547 0.55285 -0.03063 2.15506 .
3 0.7665 -100.67612 0.26237 0.16518 . 1.52023
------------------------------------------------------------------------------------------------
4 0.8854 -178.62132 0.52146 -0.04780 1.36668 0.83250
--------------------------------------------------------------------------------------------------
1. Cul es el mejor modelo a ajustar segn el criterio C(p)?
2. Cul es el mejor modelo a ajustar segn el criterio de R
2
?
3. Cul es el mejor modelo a ajustar segn el MSE ( el R
2
ajustado)?
4. De acuerdo a los criterios anteriores evaluados en conjunto, Cul es el mejor modelo? Justifique

C. Realice ahora la seleccin mediante mtodos secuenciales. Use un nivel de significancia de 0.05 para ingresar y de
0.05 para salir del modelo (plantee claramente los modelos en cada paso, las hiptesis, estadsticos de prueba y decisiones
tomadas).
Forward Selection: Step 1

Variable x3 Entered: R-Square = 0.7842 and C(p) = 12.2382

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 5745.72862 5745.72862 65.42 <.0001
Error 18 1580.82138 87.82341
Corrected Total 19 7326.55000

Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -116.00248 25.88120 1764.31494 20.09 0.0003
x3 2.07614 0.25668 5745.72862 65.42 <.0001

Bounds on condition number: 1, 1
--------------------------------------------------------------------------------------------------






Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
34
Forward Selection: Step 2

Variable x4 Entered: R-Square = 0.8693 and C(p) = 3.1096

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 6368.72737 3184.36368 56.52 <.0001
Error 17 957.82263 56.34251
Corrected Total 19 7326.55000

Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -114.98800 20.73215 1733.21553 30.76 <.0001
x3 1.26567 0.31886 887.71904 15.76 0.0010
x4 0.84140 0.25303 622.99875 11.06 0.0040

Bounds on condition number: 2.4055, 9.6218
--------------------------------------------------------------------------------------------------
No other variable met the 0.0500 significance level for entry into the model.

Summary of Forward Selection
Variable Number Partial Model
Step Entered Vars In R-Square R-Square C(p) F Value Pr > F
1 x3 1 0.7842 0.7842 12.2382 65.42 <.0001
2 x4 2 0.0850 0.8693 3.1096 11.06 0.0040
--------------------------------------------------------------------------------------------------
Backward Elimination: Step 0

All Variables Entered: R-Square = 0.8854 and C(p) = 5.0000

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 4 6486.82595 1621.70649 28.97 <.0001
Error 15 839.72405 55.98160
Corrected Total 19 7326.55000

Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -178.62132 48.61985 755.58731 13.50 0.0023
x1 0.52146 0.35950 117.78193 2.10 0.1675
x2 -0.04780 0.14182 6.36129 0.11 0.7407
x3 1.36668 0.34643 871.23508 15.56 0.0013
x4 0.83250 0.25254 608.37465 10.87 0.0049

Bounds on condition number: 2.8578, 31.196
--------------------------------------------------------------------------------------------------
Backward Elimination: Step 1

Variable x2 Removed: R-Square = 0.8845 and C(p) = 3.1136

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 3 6480.46466 2160.15489 40.85 <.0001
Error 16 846.08534 52.88033
Corrected Total 19 7326.55000


Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
35
Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -176.56157 46.87929 750.10936 14.19 0.0017
x1 0.49948 0.34361 111.73729 2.11 0.1654
x3 1.32222 0.31135 953.69062 18.03 0.0006
x4 0.82937 0.24527 604.62763 11.43 0.0038

Bounds on condition number: 2.4436, 17.631
--------------------------------------------------------------------------------------------------
Backward Elimination: Step 2

Variable x1 Removed: R-Square = 0.8693 and C(p) = 3.1096

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 6368.72737 3184.36368 56.52 <.0001
Error 17 957.82263 56.34251
Corrected Total 19 7326.55000

Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -114.98800 20.73215 1733.21553 30.76 <.0001
x3 1.26567 0.31886 887.71904 15.76 0.0010
x4 0.84140 0.25303 622.99875 11.06 0.0040

Bounds on condition number: 2.4055, 9.6218
--------------------------------------------------------------------------------------------------
All variables left in the model are significant at the 0.0500 level.

Summary of Backward Elimination
Variable Number Partial Model
Step Removed Vars In R-Square R-Square C(p) F Value Pr > F
1 x2 3 0.0009 0.8845 3.1136 0.11 0.7407
2 x1 2 0.0153 0.8693 3.1096 2.11 0.1654
--------------------------------------------------------------------------------------------------
Stepwise Selection: Step 1

Variable x3 Entered: R-Square = 0.7842 and C(p) = 12.2382

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 5745.72862 5745.72862 65.42 <.0001
Error 18 1580.82138 87.82341
Corrected Total 19 7326.55000

Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -116.00248 25.88120 1764.31494 20.09 0.0003
x3 2.07614 0.25668 5745.72862 65.42 <.0001

Bounds on condition number: 1, 1
--------------------------------------------------------------------------------------------------






Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
36
Stepwise Selection: Step 2

Variable x4 Entered: R-Square = 0.8693 and C(p) = 3.1096

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 6368.72737 3184.36368 56.52 <.0001
Error 17 957.82263 56.34251
Corrected Total 19 7326.55000

Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -114.98800 20.73215 1733.21553 30.76 <.0001
x3 1.26567 0.31886 887.71904 15.76 0.0010
x4 0.84140 0.25303 622.99875 11.06 0.0040

Bounds on condition number: 2.4055, 9.6218
--------------------------------------------------------------------------------------------------
All variables left in the model are significant at the 0.0500 level.

No other variable met the 0.0500 significance level for entry into the model.

Summary of Stepwise Selection
Variable Variable Number Partial Model
Step Entered Removed Vars In R-Square R-Square C(p) F Value Pr > F
1 x3 1 0.7842 0.7842 12.2382 65.42 <.0001
2 x4 2 0.0850 0.8693 3.1096 11.06 0.0040
--------------------------------------------------------------------------------------------------

D. Ajuste los dos mejores modelos hallados, valide supuestos de los errores (normalidad y varianza constante) y realice
diagnsticos (observaciones influenciales, outliers).

17. Problema 2
Un gran almacn realiz un experimento para investigar los efectos de los gastos por publicidad sobre las ventas semanales
de sus secciones de ropa para caballeros (A), para nios (B) y para damas (C). Se seleccionaron al azar 5 semanas para
observacin en cada seccin, y un presupuesto para publicidad (X1, en cientos de dlares) se asign a cada una de las
secciones. Las ventas semanales (en miles de dlares), los gastos de publicidad en cada uno de las tres secciones en cada
una de las cinco semanas del estudio se listan a continuacin.
SEC X1 Y
A 5.2 9
A 5.9 10
A 7.7 12
A 7.9 12
A 9.4 14
B 8.2 13
B 9.0 13
B 9.1 12
B 10.5 13
B 10.5 14
C 10.0 18
C 10.3 19
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
37
SEC X1 Y
C 12.1 20
C 12.7 21
C 13.6 22

Si se definen X2 y X3 variables indicadoras que indican respectivamente si se trata de la seccin de ropa para nios o la
seccin de ropa para damas.
A. Plantee el modelo de regresin apropiado si se espera una diferencia entre las rectas que corresponden a las tres
secciones y especifique los modelos particulares para cada seccin.
B. Ajuste el modelo general y halle las ecuaciones de las rectas que relacionan las ventas con la publicidad en cada
seccin.
C. Determine si existe diferencia entre las ordenadas en el origen de las rectas correspondientes a las secciones de
caballeros y de damas.
D. Determine si existe diferencia en las pendientes de las rectas correspondientes a las secciones de nios y caballeros.
E. Si se quiere probar que la recta de ventas vs. publicidad es diferente para cada seccin, plantee la hiptesis a probar,
el estadstico de prueba y regin crtica al nivel de 0.05, realice la prueba y concluya.
F. Determine si el cambio promedio en las ventas semanales por unidad de cambio en el presupuesto en publicidad es
igual para las secciones de nios y de damas
G. De acuerdo a la significancia de los parmetros, se puede decir que el modelo considerado es correcto? Debera
especificarse otro modelo? cul?
--------------------------------------------------------------------------------------------------
Obs SEC X1 Y X2 X3 X1X2 X1X3
1 A 5.2 9 0 0 0.0 0.0
2 A 5.9 10 0 0 0.0 0.0
3 A 7.7 12 0 0 0.0 0.0
4 A 7.9 12 0 0 0.0 0.0
5 A 9.4 14 0 0 0.0 0.0
6 B 8.2 13 1 0 8.2 0.0
7 B 9.0 13 1 0 9.0 0.0
8 B 9.1 12 1 0 9.1 0.0
9 B 10.5 13 1 0 10.5 0.0
10 B 10.5 14 1 0 10.5 0.0
11 C 10.0 18 0 1 0.0 10.0
12 C 10.3 19 0 1 0.0 10.3
13 C 12.1 20 0 1 0.0 12.1
14 C 12.7 21 0 1 0.0 12.7
15 C 13.6 22 0 1 0.0 13.6










Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
38
The REG Procedure
Model: MODEL1
Dependent Variable: Y

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 5 234.40399 46.88080 211.39 <.0001
Error 9 1.99601 0.22178
Corrected Total 14 236.40000
Root MSE 0.47093 R-Square 0.9916
Dependent Mean 14.80000 Adj R-Sq 0.9869
Coeff Var 3.18199

Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t| Type I SS Type II SS
Intercept 1 3.03177 1.03458 2.93 0.0167 3285.60000 1.90452
X1 1 1.15903 0.14029 8.26 <.0001 193.85859 15.13699
X2 1 6.73167 2.44233 2.76 0.0222 23.72904 1.68483
X3 1 5.24289 2.07240 2.53 0.0322 14.79368 1.41943
X1X2 1 -0.81690 0.27181 -3.01 0.0148 1.88942 2.00324
X1X3 1 -0.16028 0.20677 -0.78 0.4581 0.13326 0.13326

Test b3 Results for Dependent Variable Y
Mean
Source DF Square F Value Pr > F
Numerator 1 1.41943 6.40 0.0322
Denominator 9 0.22178

Test b4 Results for Dependent Variable Y
Mean
Source DF Square F Value Pr > F
Numerator 1 2.00324 9.03 0.0148
Denominator 9 0.22178

Test b2b3b4b5 Results for Dependent Variable Y
Mean
Source DF Square F Value Pr > F
Numerator 4 10.13635 45.70 <.0001
Denominator 9 0.22178

Test b4_b5 Results for Dependent Variable Y
Mean
Source DF Square F Value Pr > F
Numerator 1 1.23746 5.58 0.0425
Denominator 9 0.22178

ANEXO: PROGRAMAS R PARA MATRICES DE DISPERSIN
##Simulacin de los datos
library(MASS)
mu<-c(28.1,7.18,3.089)
Sigma<-matrix(c(140.54,49.68,1.94,49.68,72.25,3.68,1.94,3.68,0.25),ncol=3,byrow=T)
datos.simulados<-mvrnorm(500,mu=mu,Sigma=Sigma)
##Matriz de dispersion sencilla:
pairs(datos.simulados,labels=c("x1","x2","x3"))
par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de Dispersin",side=3)
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
39
##Matriz de dispersin con histogramas:
panel.hist <- function(x, ...){
usr <- par("usr"); on.exit(par(usr))
#para definir regin de graficiacin
par(usr = c(usr[1:2], 0, 1.5) )
#para obtener una lista que guarde las
#marcas de clase y conteos en cada una:
h <- hist(x, plot = FALSE)
breaks <- h$breaks;
nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col="cyan", ...)
#para dibujar los histogramas
}
pairs(datos.simulados, panel=panel.smooth,labels=c("x1","x2","x3"),cex = 1.5,
pch = 19, bg="light blue",
diag.panel=panel.hist, cex.labels = 1.5, font.labels=1)
par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de Dispersin con Histogramas",side=3)

##Matriz de dispersin con boxplots:
panel.box <- function(x, ...){
usr <- par("usr",bty='n'); on.exit(par(usr))
par(usr = c(-1,1, min(x)-0.5, max(x)+0.5))
b<-boxplot(x,plot=FALSE)
whisker.i<-b$stats[1,]
whisker.s<-b$stats[5,]
hinge.i<-b$stats[2,]
mediana<-b$stats[3,]
hinge.s<-b$stats[4,]
rect(-0.5, hinge.i, 0.5,mediana,...,col='grey')
segments(0,hinge.i,0,whisker.i,lty=2)
segments(-0.1,whisker.i,0.1,whisker.i)
rect(-0.5, mediana, 0.5,hinge.s,...,col='grey')
segments(0,hinge.s,0,whisker.s,lty=2)
segments(-0.1,whisker.s,0.1,whisker.s)
}
pairs(datos.simulados,panel=panel.smooth,
cex = 1, pch = 19, bg="light blue",
diag.panel=panel.box,labels=c("x1","x2","x3"),cex.labels = 1.5, font.labels=0.8)
par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de Dispersin con Boxplots",side=3)

##Matriz de dispersin con coeficientes de correlacion:
panel.cor <- function(x, y, digits=2, prefix="", cex.cor){
usr <- par("usr"); on.exit(par(usr))
par(usr = c(0, 1, 0, 1))
r <-cor(x, y)
txt <- format(c(r, 0.123456789), digits=digits)[1]
txt <- paste(prefix, txt, sep="")
if(missing(cex.cor))
cex <- 0.4/strwidth(txt)
text(0.5, 0.5, txt, cex = cex)
}
pairs(datos.simulados, lower.panel=panel.smooth,
upper.panel=panel.cor,labels=c("x1","x2","x3"))
par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de dispersin con correlaciones",side=3)
para vif en R
library(car)
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
40
reg<-lm(Y~1+X1+X2+X3+X4,datos)
vif(reg)

ANEXO 2: PROGRAMACIN R PARA MATRIZ DE DISPERSIN PROBLEMA 1
datos<-data.frame(matrix(scan(),ncol=5,byrow=T))
94 122 121 96 89
71 108 115 98 78
82 120 115 95 90
76 118 117 93 95
111 113 112 109 109
64 112 96 90 88
109 109 129 102 108
104 112 119 106 105
80 115 101 95 88
73 111 95 95 84
127 119 118 107 110
88 112 110 100 87
99 120 89 105 97
80 117 118 99 100
99 109 125 108 95
116 116 122 116 102
100 104 83 100 102
96 110 101 103 103
126 117 120 113 108
58 120 77 80 74

datos<-edit(datos) #nombrar las columnas como Y, X1, X2, X3, X4

panel.hist <- function(x, ...){
usr <- par("usr"); on.exit(par(usr))
#para definir regin de graficiacin
par(usr = c(usr[1:2], 0, 1.5) )
#para obtener una lista que guarde las
#marcas de clase y conteos en cada una:
h <- hist(x, plot = FALSE)
breaks <- h$breaks;
nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col="cyan", ...)
#para dibujar los histogramas
}

panel.cor <- function(x, y, digits=2, prefix="", cex.cor){
usr <- par("usr"); on.exit(par(usr))
par(usr = c(0, 1, 0, 1))
r <-cor(x, y)
txt <- format(c(r, 0.123456789), digits=digits)[1]
txt <- paste(prefix, txt, sep="")
if(missing(cex.cor))
cex <- 0.4/strwidth(txt)
text(0.5, 0.5, txt, cex = cex)}

pairs(datos,upper.panel=panel.smooth,lower.panel=panel.cor,diag.panel=panel.hist, cex.labels = 1.5, font.labels=1)
par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de Dispersin con Histogramas, y correlaciones",side=3)

##Clculo de la matriz de correlaciones
cor(datos)
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
41
ANEXO 3: PROGRAMACIN SAS PARA PROBLEMA 1
options nodate nocenter nonumber;
goptions reset=global gunit=pct border cback=white colors=(black blue green red) ftitle=swissb ftext=swiss htitle=4
htext=3;
data datos;
input y x1-x4;
obs=_n_;
cards;
94 122 121 96 89
71 108 115 98 78
82 120 115 95 90
76 118 117 93 95
111 113 112 109 109
64 112 96 90 88
109 109 129 102 108
104 112 119 106 105
80 115 101 95 88
73 111 95 95 84
127 119 118 107 110
88 112 110 100 87
99 120 89 105 97
80 117 118 99 100
99 109 125 108 95
116 116 122 116 102
100 104 83 100 102
96 110 101 103 103
126 117 120 113 108
58 120 77 80 74
;
run;

proc reg data=datos corr;
model y=x1-x4/stb clb ss1 ss2 covb vif collin collinoint;
plot student.*(p. x1 x2 x3 x4);
b1:test x1=0;
b2:test x2=0;
b3:test x3=0;
b4:test x4=0;
b2yb4:test x2,x4;
output out=res p=pred r=ei student=ri h=hii cookd=cooks;
run;
quit;

proc univariate data=res normaltest noprint;
var ei ri;
probplot ei ri/normal;
inset normaltest probn;
run;
quit;

proc gplot data=res;
plot (cooks hii)*obs/vref=0;
symbol1 interpol=needle ci=blue cv=red width=3 value=star height=3;
run;
quit;
/*TODAS LAS POSIBLES REGRESIONES*/
proc reg data=datos;
model y=x1-x4/ selection=rsquare adjrsq mse cp b;
run;quit;
Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica
42
/*SELECCIN SECUENCIAL*/
proc reg data=datos;
model y=x1-x4/selection=forward sle=0.05;
model y=x1-x4/selection=backward sls=0.05;
model y=x1-x4/selection=stepwise sle=0.05 sls=0.05;
run;
quit;

ANEXO 4: PROGRAMACIN SAS PARA PROBLEMA 2
data dos;
input SEC $ X1 Y;
X2=(SEC='B');
X3=(SEC='C');
X1X2=X1*X2;
X1X3=X1*X3;
cards;
A 5.2 9
A 5.9 10
A 7.7 12
A 7.9 12
A 9.4 14
B 8.2 13
B 9.0 13
B 9.1 12
B 10.5 13
B 10.5 14
C 10.0 18
C 10.3 19
C 12.1 20
C 12.7 21
C 13.6 22
;
RUN;

PROC PRINT DATA=DOS;RUN;


PROC REG DATA=DOS;
MODEL Y=X1 X2 X3 X1X2 X1X3/SS1 SS2;
b3:test X3=0;
b4:test X1X2=0;
b2b3b4b5:test X2,X3,X1X2,X1X3;
b4_b5:test X1X2=X1X3;
RUN;
QUIT;

Bibliografa
MONTGOMERY, D.C. y PECK, E. A (1992). Introduction to Linear Regression Analysis. John Wiley & Sons.
NETER, N. et. Al. (1996) Applied Linear Statistical Models. Irwin.

También podría gustarte