Regre1 (Recuperado) Aplicación de Técnicas de Regresión

Descargar como doc, pdf o txt
Descargar como doc, pdf o txt
Está en la página 1de 14

1. Regresión lineal múltiple.

1.1. Introducción.

En el modelo de regresión lineal múltiple una variable y se relaciona linealmente con un


conjunto de variables explicativas x, las que tratan de “explicar” las variaciones de
aquella. En tanto que a y se la suele denominar variable explicada del modelo, a las
variables x se las suele denominar variables explicativas. Esta relación puede darse entre
variables cuantitativas y/o cualitativas, aquí nos ocuparemos solamente de la relación entre
variables cuantitativas. Por ejemplo, el peso de una persona puede ser explicado por la
altura, el grosor de la cintura, la amplitud del tórax, etc. El modelo puede ser escrito
sucintamente como:

y i   1  2 x 2 i   3 x 3i  ....   k x k i   i i = 1,2,…,n.

Donde  i son parámetros,  i es el término de perturbación del modelo, i denota a la


observación y n es el número de observaciones.

El término  i representa un término de error o de perturbación, es un término aleatorio y


su inclusión se justifica porque la relación puede ser no lineal o porque puede haber
variables omitidas o porque la medición de las variables puede haberse hecho con errores,
etc.

La relación lineal puede referirse a los parámetros o a las variables, en la ecuación


precedente tanto los parámetros como las variables están elevados a la primera potencia y
no hay ambigüedades con respecto al tipo de relación que en este caso es lineal; pero puede
suceder que las variables estén elevadas a una potencia distinta de la primera o que estén
expresadas en logaritmos, etc., en cuyo caso las variables no son lineales, pero como se
verá después, como esto no afecta esencialmente el proceso de estimación de los
parámetros, a este tipo de relaciones que no son lineales en las variables se las seguirá
denominando lineales. Sin embargo, puede suceder que los parámetros no sean lineales y
en este caso se denominarán no lineales a este tipo de relaciones, ya que se requiere
linealizar la ecuación para proceder a la estimación de los parámetros.

La relación precedente representa un conjunto de n ecuaciones:

y 1  1  2 x 21  3 x 31 ....   k x k 1  1


y 2   1  2 x 22   3 x 32  ....   k x k 2   2

......................................................................
y n   1  2 x 2 n   3 x 3 n  ....   k x k n   n

Las variables explicativas poseen dos subíndices, con el primero de ellos se identifica a las
variables y con el segundo a la observación. Así por ejemplo x 32 denota a la segunda
observación de la variable x 3 .

El conjunto de ecuaciones anteriores puede sintetizarse utilizando notación matricial y se


puede escribir: Y  X    donde Y   y 1, y 2,...., y n   ,     1,  2,....,  n  y X es una
matriz n*k con la siguiente forma:

 1 x 11 x 21 ... x k 1 
1 x x 22 ... x k 2 
 12

... ... ... ... ... 


 
 1 x 1n x 2n ... x k n 

1.2. Supuestos del modelo.

El “modelo” es un ente ideal, genéricamente es una idea que formulamos acerca de cómo se
comporta cierta relación, un modelo pertenece a la esfera de la población, es algo que se
debe estimar. En rigor, conociendo las variables que formarán parte del modelo y
conociendo la forma de éste el punto central del proceso de estimación consiste en la
estimación de los parámetros. Para que esta estimación pueda efectuarse dentro de ciertos
cánones establecidos de una manera general por la teoría estadística, se requieren efectuar
ciertos supuestos que recaen tanto sobre las variables explicativas como sobre el
comportamiento del término de perturbación  i , estos últimos destinados básicamente a
corroborar su forma aleatoria y a establecer que no aporta ninguna información al modelo.
Estos supuestos son:

1) E ( i )  0 ; 2) Cov( i ,  j )  0 si i ≠ j. Esto significa que los términos de perturbación no


están correlacionados. 3) Var ( t )    . Es decir, la varianza de las perturbaciones es
2

constante y será denotada como σ2ε. 4) Las variables explicativas no poseen ninguna
distribución de probabilidad, son un conjunto de números fijos. Se puede agregar también
que no existe ninguna relación lineal exacta entre las variables. 5) Los términos de
perturbación poseen distribución normal, es decir,  i  N (0,   ) . Este último supuesto está
2

basado en el teorema del límite central una de cuyas formas expresa que la suma de
variables aleatorias independientes con varianzas constantes, donde cada variable tiene
parecida importancia en el total, posee distribución normal si el tamaño de la muestra es
suficientemente grande.

Estos supuestos, con algunas variantes menores, dan lugar a lo que suele denominarse
modelo de regresión lineal múltiple clásico.

1.3. Estimación de los parámetros.

En el punto anterior se había señalado que un modelo pertenece a la esfera de la población,


es algo que se debe estimar y que conocidas las variables y el tipo de relación que las
vincula, el problema consiste en estimar los parámetros. Pero dado que el modelo pertenece
a la esfera de la población el analista debe recurrir a una muestra para efectuar esa
estimación. Esto significa que se reproduce también aquí el problema central de la
inferencia estadística consistente en las relaciones entre población y muestra con todas sus
connotaciones e implicancias.

Determinar los parámetros del modelo sin salir del marco de la población conduce a un
problema meramente algebraico o matemático que puede ser resuelto mediante el método
de mínimos cuadrados ordinarios, desarrollado originariamente por el matemático alemán
C. F. Gauss alrededor de 1800, cuando estudiaba la órbita de los planetas. Este método es
bastante sencillo, muy potente y sus aplicaciones son prácticamente incontables.

Si uno parte de la relación Y  X    el último término representan los desvíos que tienen
los valores de Y con respecto la relación lineal y el punto central del método es que para
que los valores de X reproduzcan de la mejor manera posible a los valores de Y estas
desviaciones deben ser, en promedio, del menor tamaño posible.

En términos más precisos para que ello ocurra se debe minimizar   Y  X  . Pero como
en esta última expresión la suma o el promedio resultan cero: E ( )  E (Y  X  )  0 , lo que
imposibilitaría la estimación, el expediente es minimizar la suma de los cuadrados de ε.
n n
Entonces se minimiza:   i2   (Y i   1  2 x 2 i  ....   k x k i) 2 . La solución
i 1 i 1

pormenorizada de este problema se puede encontrar en numerosos textos de Econometría,


por ejemplo en D. Gujarati, Econometría, Mc Graw Hill, 2007, o en W. Greene, Análisis
Econométrico, Prentice Hall, 1999. Como los cálculos se efectuarán con el Eviews aquí nos
limitaremos a exponer el resultado en forma matricial: β = (X´ X) -1 X´ Y.

Al mismo resultado se llega si se resuelve el conjunto de ecuaciones:


n


i
i 0
n

X
i
1i  i 0
n

X
i
2i  i 0

.......................
n

X
i
ki  i 0

Las ecuaciones anteriores expresan que la suma de los errores es cero y que las variables
explicativas no están correlacionadas con los errores.

Pero como habíamos señalado esta solución contempla solo el aspecto matemático. Si se
considera el problema estadístico de las relaciones entre población y muestra son los
estimadores los que deben estimar a los parámetros poblacionales que son desconocidos.
En forma más precisa: los estimadores ˆ que forman parte de la relación Y  X ˆ  ˆ son
i

los que deben estimar a los parámetros  i . Si se desarrollan estas ecuaciones, de manera
similar a lo que se hizo anteriormente se tiene:

y 1 ˆ 1 ˆ 2 x 21 ˆ 3 x 31 ....  ˆ k x k 1 ˆ 1


y 2  ˆ 1 ˆ 2 x 22  ˆ 3 x 32  ....  ˆ k x k 2  ˆ 2
......................................................................
y  ˆ  ˆ x  ˆ x  ....  ˆ x  ˆ
n 1 2 2n 3 3n k kn n

Puesto que el método de mínimos cuadrados se puede aplicar tanto a la suma de cuadrados
ya sea que esta provenga de la población o de la muestra, la solución del sistema anterior
puede escribirse: ̂ = (X´ X) -1 X´ Y.

Como ejemplo se efectuará la estimación del modelo: y i   1  2 x 2 i   i mediante:


y i  ˆ 1 ˆ 2 x 2 i  ˆ i . Las ecuaciones son:

 ˆ i 0
o bien
 ( y  ˆ  ˆ x
i 1 2 2i )0
x 2i ˆ i  0  x ( y  ˆ  ˆ
2i i 1 2 x 2i )  0
Si se desarrollan las ecuaciones, se transforman las variables x e y, a cada una de ellas se le

resta la media respectiva, se puede obtener: ˆ 1 y  ˆ 2 x y ˆ 2 


 ( x  x )( y  y ) .
 (x  x ) 2

Cov ( x, y )
La última expresión es igual a ˆ 2  .
 2x

Para ilustrar lo expuesto con un ejemplo numérico se analizarán las estimaciones del
producto bruto manufacturero efectuadas mediante el estimador mensual industrial (EMI).
Los valores del pbi manufacturero están expresados en valores constantes de 1993 y luego
convertidos en índices base IV trimestre de 1993 = 100 y los datos abarcan el período I
trimestre de 1985 hasta el IV trimestre de 2005. Los datos del indicador cuyo propósito es
anticipar los datos del producto se trimestralizaron y fueron convertidos en índice base
enero de 1994 = 100. Se desea enfatizar que el propósito de este ejemplo es meramente
ilustrativo acerca de la forma en que puede utilizarse el Eviews y no pretende representar
un análisis real por las complicaciones que pueden aparecer y que no son propias de un
ejemplo introductorio.

Una vez que se han cargado los datos en el Eviews se los ha graficado para conocer su
evolución.

140

130

120

110

100

90

80

70

60
94 95 96 97 98 99 00 01 02 03 04 05

EMI MANU

La estimación se puede apreciar efectuando la regresión del producto bruto manufacturero


como variable dependiente y el emi como variable explicativa. Esta se puede hacer
directamente en el Eviews mediante la sucesión de comandos Object New Object Equation
y colocando en la pantalla que se abre el nombre de las variables comenzando por la
variable explicada, luego una c para la constante y luego el o los nombres de las variables
explicativas. Hay que dejar un espacio entre cada nombre. En nuestro caso: es manu c emi.

El resultado es el siguiente:

Dependent Variable: MANU


Method: Least Squares
Date: 01/25/10 Time: 23:04
Sample: 1993:4 2005:4
Included observations: 49
Variable Coefficient Std. Error t-Statistic Prob.
C 3.970041 9.131801 0.434749 0.6657
EMI 0.872397 0.083993 10.38656 0.0000
R-squared 0.696540 Mean dependent var 98.37329
Adjusted R-squared 0.690084 S.D. dependent var 11.10658
S.E. of regression 6.183047 Akaike info criterion 6.521459
Sum squared resid 1796.813 Schwarz criterion 6.598677
Log likelihood -157.7758 F-statistic 107.8806
Durbin-Watson stat 2.018083 Prob(F-statistic) 0.000000

La ecuación que estima al producto bruto manufacturero es:

yˆ  3,970  0,872 x

Donde ŷ denota la estimación de manu, x a emi, ˆ 1 , la constante c, es 3,970 y ̂ 2 es


0,872. Este coeficiente indica que por cada unidad que crece el índice, el producto bruto
manufacturero crece 0,87 unidades aproximadamente. Por otra parte el signo de ̂ 2 es el
adecuado ya que uno espera que el indicador anticipe de una manera directa el aumento o la
declinación del producto. La estimación efectuada mediante el Eviews es relativamente
sencilla, el próximo paso consiste en interpretar la “salida” que hemos obtenido.

1.4. Medias y varianzas de los estimadores. Matriz de varianzas y covarianzas.

En primer término se tratará de analizar el cuadro que encabeza la “salida” de la regresión,


o sea:

Variable Coefficient Std. Error t-Statistic Prob.


C 3.970041 9.131801 0.434749 0.6657
EMI 0.872397 0.083993 10.38656 0.0000
El propósito de los ˆ i es estimar el valor de los parámetros poblacionales  i , pero como
aquellos se obtienen mediante muestras y estas son seleccionadas aleatoriamente -las
observaciones son variables aleatorias y los estimadores son funciones de esas variables
aleatorias - por ende ellos mismos son aleatorios. Esto significa que varían de acuerdo
como lo hacen las muestras y por ser variables aleatorias o funciones de variables aleatorias
poseen valores esperados o medias, varianzas, covarianzas, es decir todas las medidas que
caracterizan a las variables aleatorias.

En particular, se demuestra que E ( ˆ i )   i , por ejemplo E ( ˆ 1)   1 , E ( ˆ 2 )   2 , etc.,


esto es el valor esperado del estimador es igual al valor del parámetro poblacional y como
además son lineales se puede concluir que los ˆ i son estimadores lineales insesgados. En
promedio, estiman sin sesgo, sin diferencias, el valor del parámetro poblacional.

Como los ˆ i son variables aleatorias también poseen varianzas y covarianzas. Estas
expresiones conviene expresarlas matricialmente y se demuestra que la matriz de varianzas
y covarianzas de los ˆ se puede calcular mediante Var ( ˆ )   2 ( X  X ) 1 . Esta matriz
i i 

tiene la forma siguiente:

  12  12 ....  1k 
 
ˆ   21  22 ....  2 k 
Var (  ) 
 .... .... .... .... 
 
 k 1  k 2 ....  k2 

Donde  i2  var ( ˆ i ) y  i, j  cov ar ( ˆ i , ˆ j ) . Las varianzas se hallan en la diagonal


principal y las covarianzas a los lados de aquella. Es una matriz simétrica ya que
 i, j   j ,i .

Pero en el cálculo de la matriz de varianzas y covarianzas de los coeficientes interviene


 2
 que es un dato de la población y por lo tanto, desconocido se debe reemplazar por una
estimación proveniente de la muestra. Esta se obtiene dividiendo la suma de cuadrados de
los residuos de la regresión por el número de observaciones menos el número de

parámetros estimados es decir, haciendo: ˆ 2 (ˆ )   ˆ 2


i
.
nk
En el ejemplo la suma del cuadrado de los residuos es 1796,813 y aparece como Sum
squared resid . Como hay 49 observaciones y se deben estimar dos parámetros, el
denominador es 47. Si se efectúa la división esta da 38,230064. A este resultado se lo suele
denominar varianza de los residuos o varianza residual. La raíz cuadrada de la varianza
residual es 6,183046 y es una medida del error cometido en la estimación. En la “salida”
recibe el nombre de error estándar de la regresión, S.E. of regression.

Mediante esta estimación de la varianza de los términos de perturbación del modelo,


proporcionada por la varianza de los residuos, ˆ 2 (ˆ) estima a  2 ( ) , se puede calcular
una varianza estimada para los coeficientes del modelo reemplazando en
Var ( ˆ )   2 ( X  X ) 1 a  2 ( ) por su valor estimado. Se obtiene entonces una
i 

estimación de la varianza de los ˆ i , dada por: ˆ 2 ( ˆ i )   ˆ 2


i
( X  X ) 1 .
nk

La raíz cuadrada de los elementos diagonales de esta matriz son los desvíos estándares de
los coeficientes que aparecen en la tercer columna del cuadro bajo el acápite Std. Error. El
de ̂ 1 es 9,131801, muy elevado si se recuerda que el valor del coeficiente es 3,970 y el
de ̂ 2 es 0,083993, relativamente bajo dado que este coeficiente vale 0,872.

1.5. Distribución de los estimadores Valores “t”.

Ahora nos ocuparemos de la cuarta columna del cuadro de regresión, aquella cuyo
encabezamiento es t-Statistic. El propósito de esta columna es verificar si, individualmente,
cada una de las variables debe ser incluida en el modelo de regresión o no. Esto da lugar a
una prueba de hipótesis que se efectúa mediante la prueba “t-Student”

El fundamento para poder utilizar una prueba “t” se basa en el supuesto que los términos
de perturbación del modelo, los  i se distribuyen normalmente. A partir de aquí se puede

ˆ i   i
demostrar que sigue una distribución “t Student” con n- k grados de libertad.
ˆ ( ˆ i )

Por otra parte, si una variable debe ser incluida en el modelo su correspondiente  i debe
ser distinto de cero ya que si fuera cero no tendría sentido incorporar a la variable, esta no
tendría ningún peso. Como los ˆ son los que incorporan, a partir de los datos de la
i

muestra, la información al modelo, si una variable es adecuada o no, la prueba de hipótesis


referidas a los  i se efectúa mediante la distribución de los ˆ i , que es el único dato con
que se cuenta para resolver el problema.

Entonces, el test para decidir si cada variable, separadamente, es distinta de cero o no, o lo
que es lo mismo si cada  i es distinto de cero, se plantea de la manera siguiente:

H0 :  i = 0 H1 :  i ≠ 0 Esto conduce a una prueba bilateral en la que se emplea el

ˆ i   i
estadístico que se distribuye como una “t” con n-k grados de libertad. Bajo H 0 ,
ˆ ( ˆ i )
es decir considerando la hipótesis nula  i es 0, de modo que el estadístico se reduce a

ˆ i
. Por eso la cuarta columna es el cociente entre la segunda y la tercera.
ˆ ( ˆ i )

Ahora bien, cómo decidir si este valor “t” empírico es distinto de cero o no?. Si es distinto
de cero debe estar “bastante” lejos de cero y para formalizar ese “bastante” se lo compara
con el correspondiente valor teórico de la tabla “t” con el número de grados de libertad
especificado y con un cierto nivel de significación establecido por el analista. Si el valor
empírico está más lejos de cero que el valor teórico se considera que la variable es
adecuada, en caso contrario no se la incluirá en la regresión. Otro tanto sucede con la
constante, aunque esta tiene menos importancia.

ˆ i
El cociente está expresado, en unidades de desvío estándar, en nuestro ejemplo los
ˆ ( ˆ i )
valores “t” fueron 0,43 para la constante y 10,39 para el coeficiente de emi . Como el valor
“t” teórico correspondiente a 47 grados de libertad, un nivel de significación del 5% y una
prueba bilateral es 2,01 para la cola de la derecha y – 2,01 para la cola de la izquierda, se
puede concluir que la constante no es adecuada ya que no supera a 2,01 .En cambio, como
el coeficiente de emi es 10,39 muy superior a 2,01 el emi es idóneo para explicar al
producto bruto manufacturero. Los valores del estadístico t se obtuvieron mediante el Excel
empleando f x Estadísticas Dist. T inversa.

Señalemos que la quinta columna cuyo título es Prob. suministra el valor de probabilidad
correspondiente a ambas colas de la distribución “t” que les corresponden a los ˆ . Cuanto
i

ˆ i
más lejos estén de cero los cocientes menores serán los valores de probabilidad y
ˆ ( ˆ i )
uno puede confiar que las variables son adecuadas. Este valor de probabilidad es un error
de tipo I, es un valor p, e indica el error en que uno puede incurrir si incorpora a la
constante o la variable en cuestión.

En el caso de la constante este valor p es aproximadamente 0,67, es un error muy grande y


por lo tanto conviene eliminarla. En el caso de ̂ 2 el valor p tiende a cero y no hay motivo
para eliminar a la variable emi, se puede concluir que “explica” al producto manufacturero .
En la práctica se acostumbra considerar para p un nivel crítico del 5%, si el valor de p es
inferior al 5% se incorpora a la variable, en caso contrario se la elimina si es que no existen
razones teóricas de mayor peso que justifiquen su permanencia. La quinta columna es más
práctica que la cuarta y por este motivo es preferible para tomar decisiones, aunque sus
resultados son similares a los de aquella.

Como la constante no tiene tanta importancia se puede optar por mantenerla en la regresión,
aunque en rigor habría que eliminarla y correr la regresión sin la constante. Esto se hace
sencillamente en el Eviews a partir del cuadro de regresión, haciendo click con el mouse
sobre Estimate y suprimiendo la constante c.

Los resultados eliminando la constante se presentan a continuación.

Dependent Variable: MANUF


Method: Least Squares
Date: 01/26/10 Time: 16:45
Sample: 1993Q4 2005Q4
Included observations: 49

Variable Coefficient Std. Error t-Statistic Prob.  

EMI 0.908732 0.008056 112.8085 0.0000

R-squared 0.695300     Mean dependent var 98.36837


Adjusted R-squared 0.695300     S.D. dependent var 11.10588
S.E. of regression 6.130402     Akaike info criterion 6.484595
Sum squared resid 1803.928     Schwarz criterion 6.523203
Log likelihood -157.8726     Durbin-Watson stat 2.064331

1.6. Análisis de la varianza, R2, R * 2 y otros estadísticos de la regresión.

La prueba “t” es una de las más importantes para comprobar si una regresión es adecuada o
no, básicamente porque considera a cada variable por separado, pero no es la única prueba
cuyo propósito consiste en analizar los resultados de la regresión. Otras pruebas están
relacionadas con las sumas de los cuadrados de los residuos y de las observaciones. Se
incluyen en un cuadro que se denomina de análisis de la varianza.

Se puede demostrar en forma relativamente sencilla que:

 ( y  y) 2
  ( yˆ  y ) 2   ( y  yˆ ) 2

La suma del primer miembro se denomina suma de cuadrados total, la primer suma del
segundo miembro se denomina suma de cuadrados debida a o explicada por la regresión y
la segunda suma es la suma de cuadrados de los residuos o suma de cuadrados no explicada
por la regresión. En síntesis, la suma de cuadrados total se dividió en dos partes, una de las
cuales es explicada por la regresión y la otra es una parte no explicada, debido a las
fluctuaciones aleatorias entre las observaciones y los valores estimados por la regresión.

Si se divide cada término por la suma de cuadrados total resulta:

1
 ( yˆ  y ) 2


 ( yˆ  y) 2

 (y  y) 2
(y  y) 2

Ambas partes suman 1, en términos porcentuales el 100%; el primer término del segundo
miembro es el porcentaje de explicación, denominado R2, el segundo término representa la
proporción o el porcentaje no explicado por la regresión. En los cuadros de las dos
regresiones efectuadas se puede apreciar que el valor de este estadístico es
aproximadamente 0,70, lo que indica que el emi explica aproximadamente el 70 % de la
variación del pbi. Teniendo en cuenta que R2 es una parte de una suma de dos términos
cuyo total es uno y cuyo valor mínimo es cero, este estadístico estará comprendido dentro
de esos límites, es decir, se verifica 0 ≤ R2 ≤ 1. Cuanto más próximo a uno mayor será el
porcentaje de explicación.

Se puede demostrar que la fórmula de R 2 


 ( yˆ  y ) 2
2
o bien: R  1
 ˆi
2

se
 ( y  y) 2
(y  y) 2

puede transformar en: R   Correl ( y; yˆ ) , es decir el cuadrado de la correlación entre los


2 2

valores observados y los estimados mediante el modelo, lo que muestra las propiedades del
estadístico como criterio de bondad de ajuste entre ambos conjuntos de valores.

Debido a que R2 no disminuye si aumenta el número de variables, independientemente de si


esas variables tengan o no relación con la variable explicada, por el mero hecho de
aumentar estas podría aumentar el porcentaje de explicación; entonces para penalizar este
hecho se elabora R *2 , que es R2 corregido por los grados de libertad. Sirve para comparar
regresiones con distinto número de variables y se puede calcular mediante:
R  1
*2  ˆ 2
i / (n  k )
 ( y  y)
i
2
/ ( n  1)

En la regresión con constante este valor es 0,690084 y en la otra 0,6953, de modo que,
comparativamente esta posee mayor poder explicativo.

Las sumas de cuadrados acompañadas por los respectivos grados de libertad y los
respectivos cocientes denominados cuadrados medios o varianzas se suele presentar en un
cuadro denominado de Análisis de la Varianza o Anova según sus siglas en inglés.

El Eviews no incluye este cuadro, motivo por el cual se lo ha elaborado manualmente a


partir de los datos de la regresión con constante.

Concepto Suma de cuadrados Grados de libertad Cuadrado medio o


Varianza

Regresión 4124,281 1

Residual 1796,813 47 38,230

Total 5921,094 48 123,356

La suma de cuadrados total se puede calcular a partir del error estándar de la variable
dependiente y la suma de cuadrados debida a la regresión se obtiene mediante la diferencia
entre la suma de cuadrados total y la residual. Los grados de libertad son n-1 para la suma
de cuadrados total, n- k para la suma de cuadrados residual y k-1 para la suma de cuadrados
debida a la regresión.

El cuadrado medio o varianza se obtiene mediante el cociente entre las dos columnas
precedentes. La varianza de los residuos, 38,230, es el cuadrado del error estándar de la
regresión (S.E. of regression) que es 6,183047. La varianza de los residuos es una medida
para determinar el grado de ajuste de la regresión a los datos, cuanto más grande sea la
varianza residual el ajuste será menor y, además, como está relacionada con R 2, menor será
este es decir menor será el porcentaje de explicación.

Con los datos del cuadro precedente se puede construir la prueba “F”, como el cociente
entre la suma de cuadrados explicada y la residual, dividida cada una por el respectivo
número de grados de libertad:
F (k  1; n  k ) 
 ( yˆ  y ) / (k  1)
2

 ˆ / (n  k )
2
i

Este estadístico según los datos del cuadro de la regresión sin constante resultó 107,8806.

La prueba “F” trata de probar si, en conjunto, los parámetros de la regresión, los  i son
distintos de cero o no. Las hipótesis son: H 0 : β 1 = β 2 = ….= β k = 0 y la alternativa es que
son distintos de cero. El valor empírico con un cierto nivel de significación y con los grados
de libertad indicados se compara con el valor F crítico. Si el valor empírico es mayor que el
crítico se rechaza H 0 y se concluye que las variables de la regresión “explican” a la
variable dependiente. Cuanto mayor es el valor empírico menor es el área de la cola
derecha de la distribución “F” y, por consiguiente, menor el valor de probabilidad p. El
Eviews suministra este valor que se incluye en Prob(F-statistic) y que en la regresión que
nos ocupa es prácticamente cero.

El test “t” es preferible al test “F” porque permite probar, separadamente, si cada parámetro
es distinto de cero o no y así descartar variables en la regresión. El test “F”, en cambio,
procede de manera conjunta y basta que un parámetro sea significativamente distinto de
cero para que la prueba reconozca que todos los parámetros son distintos de cero. De esta
manera se incluirían todas las variables en la regresión aun cuando algunas no debieran ser
incluidas. La prueba “F” carece de la “sintonía fina” que posee el test “t” .

R 2 / (k  1)
Por otra parte la prueba “F” se puede escribir como: F ( k  1; n  k )  lo que
(1  R 2 ) / (n  k )
muestra la relación entre este estadístico y R2. Como además R2 está relacionado con la
suma de los cuadrados de los residuos y, por ende, con la varianza residual, se puede
concluir que estos tres estadísticos tratan de captar aspectos similares del problema de la
bondad del ajuste en la regresión.

1.7. La razón de verosimilitud y los criterios de información de Akaike y de Schwarz.

Existen otros criterios para comparar regresiones con distinto número de variables, la
“salida” de la regresión en el Eviews presenta tres de ellos el logaritmo de la verosimilitud,
el Criterio de Información de Akaike y el Criterio de Información de Schwarz.

Como los tres incluyen la suma de los cuadrados de los residuos será preferible aquel
modelo cuyo valor informado por el criterio sea el menor de todos. Es más confiable el
criterio de Información de Schwarz que penaliza más el agregado de nuevas variables.
El logaritmo de la función de verosimilitud, denotado mediante l, tiene la siguiente
fórmula:

n
l   (1  log 2 )  log
 2
i

2 n

El criterio de información de Akaike:

2l
AIC    2k n
n

Y el criterio de información de Schwarz:

2l log n
SC   k
n n

Los valores de estos tres criterios para la regresión con constante y la regresión sin
constante se exponen en el cuadro siguiente.

Criterio Regresión con constante Regresión sin constante

Log likelihood -157,7758 -157,8726

Akaike info criterion 6,521459 6,484595

Schwarz criterion 6,598677 6,523203

Los tres criterios conducen a preferir la regresión sin constante.

También podría gustarte