Comprobacion de Adecuacion Del Modelo - FCM

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 11

Universidad Nacional Mayor de San Marcos

Facultad de Ciencias Matemticas

ii.-Homocedasticidad
El modelo bsico de regresin lineal exige que la varianza condicional de las perturbaciones aleatorias
a los valores de los regresores X sea constante:
Var ui / X i 2

aunque generalmente la hiptesis se formula sin mencionar el carcter condicional de la varianza,


simplemente como:
Var ui 2
Para comprender de forma intuitiva esta restriccin podemos razonar del siguiente modo. Iguales
varianzas de e para los distintos valores de x implica necesariamente igual dispersin (varianzas)
de y para distintos valores de x lo que implica necesariamente que la recta de regresin va a
representar con igual precisin la relacin entre x e y independientemente de los valores de
x. Esto es muy importante porque debe recordarse que el anlisis de regresin es un anlisis de
regresin condicional de y sobre x lo cual implica, por lgica, que si se desea obtener un parmetro
de relacin estable y til entre ambas variables, los valores muestrales de y deben mostrarse
igualmente dispersos ante variaciones de x.
Causas frecuentes de heterocedasticidad
Aunque las que se citan a continuacin no son las nicas posibilidades que dan lugar a un modelo
heterocedstico, s son las ms frecuentes.
Variables explicativas con una distribucin asimtrica
Si una variable explicativa presenta una distribucin asimtrica (por ejemplo la renta), resultar
inevitable que, por ejemplo para el caso de asimetra a derechas, los valores mayores del regresor estn
asociados a una mayor dispersin en el trmino de error de la regresin.
Variables explicativas con amplio recorrido
Las variables con amplio recorrido favorecen la aparicin de heterocedasticidad en mayor medida que
aquellas otras que presentan un agrupamiento muy claro alrededor del valor de la media. Esto no es tan
evidente como el efecto de la asimetra pero, en cierto modo, y dado que trabajamos con muestras, la
seleccin de una muestra que favorezca la heterocedasticidad es ms probable en el caso de variables
con amplios recorridos que con escasas varianzas. Este riesgo es especialmente elevado en los modelos
de corte transversal ya que la seleccin de los elementos muestrales es arbitraria (no viene determinada
por el paso del tiempo y, por tanto, puede incurrir en el riesgo de mezclar muestras provenientes de
poblaciones diferentes) por lo que la muestra pueden agrupar, casualmente, grupos de observaciones
que presenten valores muy dispersos y poco dispersos al mismo tiempo.

E.A.P. INVESTIGACION DE OPERACIONES

SEMESTRE:15-1

Pgina 1

Universidad Nacional Mayor de San Marcos


Facultad de Ciencias Matemticas
Omisin de variables relevantes en el modelo especificado.
En este caso no hablamos de las variables seleccionadas, sino, precisamente, de las no seleccionadas.
Cuando se ha omitido una variable en la especificacin, dicha variable quedar parcialmente recogida
en el comportamiento de las perturbaciones aleatorias, pudiendo introducir en stas su propia variacin,
no necesariamente fija.
Forma funcional incorrecta
La utilizacin de una forma funcional incorrecta, por ejemplo la utilizacin de una funcin lineal en
lugar de una logartmica potencial, puede provocar que la calidad del ajuste de la regresin vare segn
los valores de las exgenas, por ejemplo, ajustando bien para los valores pequeos y mal para los
grandes; en ese caso, es posible que en las zonas de peor ajuste existan, no slo errores mayores, sino
tambin errores ms dispersos.
Presencia de puntos atpicos
La presencia de algunos valores atpicos en la muestra de datos implicar necesariamente un desajuste
en la varianza de la perturbacin (en cierto modo, un punto atpico puede considerarse un elemento
muestral perteneciente a otra distribucin y, por tanto, potencialmente con varianza distinta).
Consecuencias de la heterocedasticidad
1. Los estimadores MCO se mantienen lineales e insesgados, pero no son eficientes. Por tanto, la
aplicacin de MCO al modelo heterocedstico provoca una incorrecta estimacin de los
parmetros.
2. Las formulas habituales proporcionan errores estndar incorrectos en la estimacin por MCO.
3. Por ende los test de hiptesis y los intervalos de confianza basados en las estimaciones de los
errores estndar, no son correctos
Entonces, la estimacin por MCO de los parmetros de un modelo heterocedstico nos puede llevar a
considerar como significativos a parmetros que en realidad no lo son. Por lo tanto:
Se pierde precisin y puede llevar a conclusiones errneas

Mtodo grfico para detectar heterocedasticidad.


Grfico del valor cuadrtico del error y los valores de Y y Xs
Los pasos a seguir son:
1.- Se hace el anlisis de regresin bajo el supuesto que no existe heterocedasticidad
2.- Calcular el vector de error e2 y graficar con los para ver si ellos muestran un patrn sistmico. De
esta forma se ve si el valor medio estimado de Yiesta relacionado con el residual al cuadrado. Tambin
se puede graficar e2 con cada una de las variables regresoras.
En el caso en que e2 vs presentan comportamiento de la forma en que aparece en la figura siguiente
se pueden establecer las siguientes conclusiones:

E.A.P. INVESTIGACION DE OPERACIONES

SEMESTRE:15-1

Pgina 2

Universidad Nacional Mayor de San Marcos


Facultad de Ciencias Matemticas

En figura 1.a no hay un patrn sistmico, posiblemente no haya heterocedasticidad.


En cambio en ( b), (c ) (d) y (e) se muestra un patrn definido. Por ejemplo en ( c ) sugiere una
relacin, mientras que en (d ) y ( e) hay una relacin cuadrtica.

Prueba de homogeneidad de varianzas


Prueba de Park
Park formaliza el mtodo grfico con la sugerencia de que
explicativa Xi . La forma funcional fue:
o ln
dondevi es el trmino perturbacin.
Como
por lo general no se conoce, Park sugiere utilizar
regresin:

es algn tipo de funcin de la variable

como aproximacin y correr la siguiente

(*)
Si resulta estadsticamente significativo, esto sugiere que hay presencia de heterocedasticidad en los
datos. Si resulta no significativo, podramos decir que no hay presencia de heterocedasticidad.
Por tanto, la prueba de Park es un procedimiento que se corre en dos etapas. En la primera etapa se
efecta la regresin y en ella se obtiene de la regresin.
En la segunda etapa se realiza el anlisis de regresin como en (*) .

E.A.P. INVESTIGACION DE OPERACIONES

SEMESTRE:15-1

Pgina 3

Universidad Nacional Mayor de San Marcos


Facultad de Ciencias Matemticas
La prueba de Park es sencilla de aplicar, pero debe de ser utilizada solo como una forma estrictamente
exploratoria

Ejemplo
En el ejemplo 1 sobre relacin entre gasto en consumo e ingreso verifique si cumple con el supuesto
de homocedasticidad.
Solucin
Paso 1
Realizar la regresin en forma normal:

Resultado Minitab
The

regression

equation is

Gasto = 9.29 + 0.638 Ingreso


Predictor
Constant
Ingreso
S = 9.18297

Coef
9.290
0.63778

SE Coef
5.231
0.02862

R-Sq = 94.7%

Analysis of Variance
Source
DF
SS
Regression
1 41887
Residual Error 28
2361
Total
29 44248

T
1.78
22.29

P
0.087
0.000

R-Sq(adj) = 94.5%
MS
41887
84

F
496.72

P
0.000

Los resultados dados por el paquete estadstico revelan que: la pendiente es significativa para cualquier
valor de (p_valor =0 < ). Es decir, que por cada sol que aumenta el ingreso del empleado su gasto
se incrementa, en promedio alrededor de 0.638 centavos.
Paso 2
En el ejemplo anterior, se obtuvo los residuales y se hace ahora la regresin como (*), es decir:

En minitab, se calcul el logaritmo natural de los


variable independiente, y se hizo la corrida
Gasto Ingreso
RESI1
ln_ei_cuad.
55
80
-5.31307
3.34034
65
100
-8.06876
4.17600
70
85
6.49801
3.74299
80
110
0.55339
-1.18338
79
120
-6.82445
3.84102
E.A.P. INVESTIGACION DE OPERACIONES

residuales al cuadrado y tambin de logaritmo de la


ln_xi
4.38203
4.60517
4.44265
4.70048
4.78749
SEMESTRE:15-1

Pgina 4

Universidad Nacional Mayor de San Marcos


Facultad de Ciencias Matemticas

Los resultados se muestran lneas abajo:


The
regression equation is
ln_ei_cuad. = 1.01 + 0.34 ln_xi
Predictor
Constant
ln_xi
S = 2.84300

Coef
1.014
0.336

SE Coef
7.275
1.425

R-Sq = 0.2%

Analysis of Variance
Source
DF
SS
Regression
1
0.449
Residual Error 28 226.315
Total
29 226.764

T
0.14
0.24

P
0.890
0.815

R-Sq(adj) = 0.0%
MS
0.449
8.083

F
0.06

P
0.815

Como observamos no hay relacin entre ambas variables, el coeficiente de determinacin es bien bajo
y por tanto, se puede concluir segn la prueba de Park que no hay presencia de heterocedasticidad en la
varianza del error.

Prueba de Goldfeld y Quandt


Este mtodo es aplicable si se supone que la varianza heteroscedstica,
, est relacionada
positivamente con una de las variables explicativas en el modelo de regresin
Es una prueba que consiste en los siguientes Pasos:
Se ordenan las observaciones de acuerdo con la variableexplicativa que se supone causa la
heterocedasticidad.

Se divide la muestra en tres grupos, siendo el primero y el tercero del mismo nmero de
observaciones (n1 = n3).(Se recomienda que la submuestra central tenga un tamao de
aproximadamente un tercio de la muestra total, es decir, dividir al total de la muestra en 3
partes iguales).

E.A.P. INVESTIGACION DE OPERACIONES

SEMESTRE:15-1

Pgina 5

Universidad Nacional Mayor de San Marcos


Facultad de Ciencias Matemticas
Se estima la regresin original para cada uno de estos dos subgrupos y se obtiene la suma de los
cuadrados de los residuos (SCE1 y SCE3). Cada suma de cuadrados de los residuales tiene:
o
grados de libertad.
donde p viene a ser el nmero de parmetros a estimar y
c viene a ser el tamao del grupo central de observaciones
Se obtiene el ratio FR = SCE3 /SCE1 que se distribuye como una F con (n-c-2p)/2, k grados
de libertad iguales para el numerador y denominador, siendo:
Goldfeld y Quandt sugiere que c sea alrededor de 8 si el tamao de la muestra es de 30 y alrededor de
16 si el tamao de la muestra es alrededor de 60. Sin embargo, Judge et al., encontraron satisfactorios
en la prctica niveles de c=4 si n=30 y c=10 si n es alrededor de 60.
En caso que haya ms de una variable independiente en el modelo, realizar la prueba para cada
variable independiente.
La prueba se plantea en los siguientes pasos:
Planteamiento de hiptesis
H0

( Varianzas homocedsticas)=

H1

(Varianzas heterocedsticas)

Nivel de significacin
1. Estadstica de prueba
(

son los grados de libertad en el numerador y denominador

2. Decisin: Si GQ > Ft, se rechaza Ho.

Ejemplo
En el ejemplo 1, sobre relacin entre gasto en consumo e ingreso verifique si cumple con el supuesto
de homocedasticidad.
Solucin
Paso 1
Ordenar las observaciones de acuerdo con los valores de Xi (variable independiente)

E.A.P. INVESTIGACION DE OPERACIONES

SEMESTRE:15-1

Pgina 6

Universidad Nacional Mayor de San Marcos


Facultad de Ciencias Matemticas

Paso 2
Omitir las c observaciones centrales, y dividir las observaciones restantes (n-c) en dos grupos cada uno
de (n-c)/2 observaciones, y en cada uno de los grupos obtener la SCR. En nuestro ejemplo, omitimos
las 8 observaciones centrales y nos queda 11 observaciones menores y 11 observaciones mayores.
Paso 3
Se realiza por separado la regresin en cada una de las partes y de ellas de obtiene su CME.
Regresin de las primeras (n-c)/2 = 11 observaciones
The
regression
equation is
Gasto_1 = 12.5 + 0.606 Ingreso_1
S = 5.78799

R-Sq = 81.8%

Analysis of Variance
Source
DF
SS
Regression
1 1355.0
Residual Error
9
301.5
Total
10 1656.5

R-Sq(adj) = 79.8%
MS
1355.0

F
40.45

P
0.000

33.5

Regresin de las ltimas (n-c)/2 = 11 observaciones


The
regression
equation
is
Gasto_3 = - 36.6 + 0.830 Ingreso_3
S = 11.8624

R-Sq = 72.6%

Analysis of Variance
Source
DF
SS
Regression
1 3347.5
Residual Error
9 1266.5
Total
10 4614.0

R-Sq(adj) = 69.5%
MS
3347.5

F
23.79

P
0.001

140.7

Paso 4
Calcular la razn:
E.A.P. INVESTIGACION DE OPERACIONES

SEMESTRE:15-1

Pgina 7

Universidad Nacional Mayor de San Marcos


Facultad de Ciencias Matemticas

Si los residuales estn normalmente distribuidos, entonces

y buscamos en tabla F9,9, 0.05 = 3.179


Como Fc = 4.2 > Ft = 3.179, podemos afirmar con un nivel de significancia del 5% que los datos
presentan heterocedasticidad.

Prueba de White
Pasos a seguir para llevar a cabo la prueba:
1.

Se realiza la estimacin por MCO del modelo original, sin considerar heterocedasticidad
alguna, y se obtienen los residuos ei de la regresin.

2.

Se realiza la regresin auxiliar de los cuadrados de los residuos frente a todas las variables
exgenas, sus cuadrados y los productos cruzados:

3.

Se obtiene el coeficiente de determinacin de la regresin auxiliar y el producto de ste por el


nmero de observaciones se distribuye, bajo la hiptesis nula de homocedasticidad, como una
Chi Cuadrado con p-1 grados de libertad, siendo p el nmero de regresores en la regresin
auxiliar, (excluido el trmino constante).
Si el producto nR2 es mayor que
al nivel de confianza fijado, entonces se rechaza la
hiptesis de homocedasticidad y se admite la presencia de heterocedasticidad.

Contraste a partir del coeficiente de correlacin por rangos de Spearman


El coeficiente de correlacin de Spearman est dado por:

Donde di viene a ser la diferencia en las posiciones o lugares asignados a la i-sima unidad elemental
respecto a las caractersticas y n es el tamao de la muestra. Se parte del modelo

Paso 1
Ajuste la regresin a los datos sobre X e Y y obtener los residuales

E.A.P. INVESTIGACION DE OPERACIONES

SEMESTRE:15-1

Pgina 8

Universidad Nacional Mayor de San Marcos


Facultad de Ciencias Matemticas
Paso 2
Ignore el signo de los residuales, es decir considere su valor absoluto y ordene los valores de /ei/y Xi
de acuerdo a un orden ascendente o descendente y calcule el coeficiente de correlacin de Spearman
dado antes.
Paso 3
Verifique si el valor hallado es significativo o no. Utilice la prueba t dada en la primera clase.

Si el Tc excede al valor crtico, podemos aceptar la hiptesis de heterocedasticidad.

Ejemplo 1:
En tabla adjunta se presenta los datos sobre el gasto en consumo en relacin con el ingreso de una
muestra de 30 familias. Aplique la prueba de White y Correlacin de Spearman. Los datos son los
siguientes:
Y
55
65
70
80
79
84
98
95
90
75
74
110
113
125
108

X
80
100
85
110
120
115
130
140
125
90
105
160
150
165
145

Y
115
140
120
145
130
152
144
175
180
135
140
178
191
137
189

E.A.P. INVESTIGACION DE OPERACIONES

X
180
225
200
240
185
220
210
245
260
190
205
265
270
230
250

SEMESTRE:15-1

Pgina 9

Universidad Nacional Mayor de San Marcos


Facultad de Ciencias Matemticas
iii.-Independencia
Hace referencia a los efectos de la inercia de una observacin a otra que pueda indicar la no
independencia entre los residuos.
Cmo detectarlo grficamente?
Graficar los residuales y las unidades

Problemas que trae consigo la autocorrelacin?


Las consecuencias de la auto-correlacin son las mismas que la de cualquier otro fenmeno que
provoque que la matriz de varianzas-covarianzas de las perturbaciones sea no escalar; es decir:
Ineficiencia de los estimadores de los parmetros.
Sesgo sistemtico en el clculo de las varianzas muestrales.
Incorrecta aplicacin de los contrastes de significacin.
Sepierde precisin y puede llevar a conclusiones errneas
En el grfico se muestra para el ejemplo 1, la grfica para detectar si los residuales son o no
independientes.

E.A.P. INVESTIGACION DE OPERACIONES

SEMESTRE:15-1

Pgina 10

Universidad Nacional Mayor de San Marcos


Facultad de Ciencias Matemticas

Prueba Durbin Watson


Ho: = 0
Ho: 0

(No hay autocorrelacin)


(presencia de autocorrelacin)

Estadstica de prueba:

No hay auto-correlacin:
Si d<1.18 rechazar,
Si d>1.4 no rechazar.
Si 1.18<d<1.4 no es concluyente

E.A.P. INVESTIGACION DE OPERACIONES

SEMESTRE:15-1

Pgina 11

También podría gustarte