Regre1 (Recuperado) Aplicación de Técnicas de Regresión
Regre1 (Recuperado) Aplicación de Técnicas de Regresión
Regre1 (Recuperado) Aplicación de Técnicas de Regresión
1.1. Introducción.
y i 1 2 x 2 i 3 x 3i .... k x k i i i = 1,2,…,n.
......................................................................
y n 1 2 x 2 n 3 x 3 n .... k x k n n
Las variables explicativas poseen dos subíndices, con el primero de ellos se identifica a las
variables y con el segundo a la observación. Así por ejemplo x 32 denota a la segunda
observación de la variable x 3 .
1 x 11 x 21 ... x k 1
1 x x 22 ... x k 2
12
El “modelo” es un ente ideal, genéricamente es una idea que formulamos acerca de cómo se
comporta cierta relación, un modelo pertenece a la esfera de la población, es algo que se
debe estimar. En rigor, conociendo las variables que formarán parte del modelo y
conociendo la forma de éste el punto central del proceso de estimación consiste en la
estimación de los parámetros. Para que esta estimación pueda efectuarse dentro de ciertos
cánones establecidos de una manera general por la teoría estadística, se requieren efectuar
ciertos supuestos que recaen tanto sobre las variables explicativas como sobre el
comportamiento del término de perturbación i , estos últimos destinados básicamente a
corroborar su forma aleatoria y a establecer que no aporta ninguna información al modelo.
Estos supuestos son:
constante y será denotada como σ2ε. 4) Las variables explicativas no poseen ninguna
distribución de probabilidad, son un conjunto de números fijos. Se puede agregar también
que no existe ninguna relación lineal exacta entre las variables. 5) Los términos de
perturbación poseen distribución normal, es decir, i N (0, ) . Este último supuesto está
2
basado en el teorema del límite central una de cuyas formas expresa que la suma de
variables aleatorias independientes con varianzas constantes, donde cada variable tiene
parecida importancia en el total, posee distribución normal si el tamaño de la muestra es
suficientemente grande.
Estos supuestos, con algunas variantes menores, dan lugar a lo que suele denominarse
modelo de regresión lineal múltiple clásico.
Determinar los parámetros del modelo sin salir del marco de la población conduce a un
problema meramente algebraico o matemático que puede ser resuelto mediante el método
de mínimos cuadrados ordinarios, desarrollado originariamente por el matemático alemán
C. F. Gauss alrededor de 1800, cuando estudiaba la órbita de los planetas. Este método es
bastante sencillo, muy potente y sus aplicaciones son prácticamente incontables.
Si uno parte de la relación Y X el último término representan los desvíos que tienen
los valores de Y con respecto la relación lineal y el punto central del método es que para
que los valores de X reproduzcan de la mejor manera posible a los valores de Y estas
desviaciones deben ser, en promedio, del menor tamaño posible.
En términos más precisos para que ello ocurra se debe minimizar Y X . Pero como
en esta última expresión la suma o el promedio resultan cero: E ( ) E (Y X ) 0 , lo que
imposibilitaría la estimación, el expediente es minimizar la suma de los cuadrados de ε.
n n
Entonces se minimiza: i2 (Y i 1 2 x 2 i .... k x k i) 2 . La solución
i 1 i 1
i
i 0
n
X
i
1i i 0
n
X
i
2i i 0
.......................
n
X
i
ki i 0
Las ecuaciones anteriores expresan que la suma de los errores es cero y que las variables
explicativas no están correlacionadas con los errores.
Pero como habíamos señalado esta solución contempla solo el aspecto matemático. Si se
considera el problema estadístico de las relaciones entre población y muestra son los
estimadores los que deben estimar a los parámetros poblacionales que son desconocidos.
En forma más precisa: los estimadores ˆ que forman parte de la relación Y X ˆ ˆ son
i
los que deben estimar a los parámetros i . Si se desarrollan estas ecuaciones, de manera
similar a lo que se hizo anteriormente se tiene:
Puesto que el método de mínimos cuadrados se puede aplicar tanto a la suma de cuadrados
ya sea que esta provenga de la población o de la muestra, la solución del sistema anterior
puede escribirse: ̂ = (X´ X) -1 X´ Y.
ˆ i 0
o bien
( y ˆ ˆ x
i 1 2 2i )0
x 2i ˆ i 0 x ( y ˆ ˆ
2i i 1 2 x 2i ) 0
Si se desarrollan las ecuaciones, se transforman las variables x e y, a cada una de ellas se le
Cov ( x, y )
La última expresión es igual a ˆ 2 .
2x
Para ilustrar lo expuesto con un ejemplo numérico se analizarán las estimaciones del
producto bruto manufacturero efectuadas mediante el estimador mensual industrial (EMI).
Los valores del pbi manufacturero están expresados en valores constantes de 1993 y luego
convertidos en índices base IV trimestre de 1993 = 100 y los datos abarcan el período I
trimestre de 1985 hasta el IV trimestre de 2005. Los datos del indicador cuyo propósito es
anticipar los datos del producto se trimestralizaron y fueron convertidos en índice base
enero de 1994 = 100. Se desea enfatizar que el propósito de este ejemplo es meramente
ilustrativo acerca de la forma en que puede utilizarse el Eviews y no pretende representar
un análisis real por las complicaciones que pueden aparecer y que no son propias de un
ejemplo introductorio.
Una vez que se han cargado los datos en el Eviews se los ha graficado para conocer su
evolución.
140
130
120
110
100
90
80
70
60
94 95 96 97 98 99 00 01 02 03 04 05
EMI MANU
El resultado es el siguiente:
yˆ 3,970 0,872 x
Como los ˆ i son variables aleatorias también poseen varianzas y covarianzas. Estas
expresiones conviene expresarlas matricialmente y se demuestra que la matriz de varianzas
y covarianzas de los ˆ se puede calcular mediante Var ( ˆ ) 2 ( X X ) 1 . Esta matriz
i i
12 12 .... 1k
ˆ 21 22 .... 2 k
Var ( )
.... .... .... ....
k 1 k 2 .... k2
La raíz cuadrada de los elementos diagonales de esta matriz son los desvíos estándares de
los coeficientes que aparecen en la tercer columna del cuadro bajo el acápite Std. Error. El
de ̂ 1 es 9,131801, muy elevado si se recuerda que el valor del coeficiente es 3,970 y el
de ̂ 2 es 0,083993, relativamente bajo dado que este coeficiente vale 0,872.
Ahora nos ocuparemos de la cuarta columna del cuadro de regresión, aquella cuyo
encabezamiento es t-Statistic. El propósito de esta columna es verificar si, individualmente,
cada una de las variables debe ser incluida en el modelo de regresión o no. Esto da lugar a
una prueba de hipótesis que se efectúa mediante la prueba “t-Student”
El fundamento para poder utilizar una prueba “t” se basa en el supuesto que los términos
de perturbación del modelo, los i se distribuyen normalmente. A partir de aquí se puede
ˆ i i
demostrar que sigue una distribución “t Student” con n- k grados de libertad.
ˆ ( ˆ i )
Por otra parte, si una variable debe ser incluida en el modelo su correspondiente i debe
ser distinto de cero ya que si fuera cero no tendría sentido incorporar a la variable, esta no
tendría ningún peso. Como los ˆ son los que incorporan, a partir de los datos de la
i
Entonces, el test para decidir si cada variable, separadamente, es distinta de cero o no, o lo
que es lo mismo si cada i es distinto de cero, se plantea de la manera siguiente:
ˆ i i
estadístico que se distribuye como una “t” con n-k grados de libertad. Bajo H 0 ,
ˆ ( ˆ i )
es decir considerando la hipótesis nula i es 0, de modo que el estadístico se reduce a
ˆ i
. Por eso la cuarta columna es el cociente entre la segunda y la tercera.
ˆ ( ˆ i )
Ahora bien, cómo decidir si este valor “t” empírico es distinto de cero o no?. Si es distinto
de cero debe estar “bastante” lejos de cero y para formalizar ese “bastante” se lo compara
con el correspondiente valor teórico de la tabla “t” con el número de grados de libertad
especificado y con un cierto nivel de significación establecido por el analista. Si el valor
empírico está más lejos de cero que el valor teórico se considera que la variable es
adecuada, en caso contrario no se la incluirá en la regresión. Otro tanto sucede con la
constante, aunque esta tiene menos importancia.
ˆ i
El cociente está expresado, en unidades de desvío estándar, en nuestro ejemplo los
ˆ ( ˆ i )
valores “t” fueron 0,43 para la constante y 10,39 para el coeficiente de emi . Como el valor
“t” teórico correspondiente a 47 grados de libertad, un nivel de significación del 5% y una
prueba bilateral es 2,01 para la cola de la derecha y – 2,01 para la cola de la izquierda, se
puede concluir que la constante no es adecuada ya que no supera a 2,01 .En cambio, como
el coeficiente de emi es 10,39 muy superior a 2,01 el emi es idóneo para explicar al
producto bruto manufacturero. Los valores del estadístico t se obtuvieron mediante el Excel
empleando f x Estadísticas Dist. T inversa.
Señalemos que la quinta columna cuyo título es Prob. suministra el valor de probabilidad
correspondiente a ambas colas de la distribución “t” que les corresponden a los ˆ . Cuanto
i
ˆ i
más lejos estén de cero los cocientes menores serán los valores de probabilidad y
ˆ ( ˆ i )
uno puede confiar que las variables son adecuadas. Este valor de probabilidad es un error
de tipo I, es un valor p, e indica el error en que uno puede incurrir si incorpora a la
constante o la variable en cuestión.
Como la constante no tiene tanta importancia se puede optar por mantenerla en la regresión,
aunque en rigor habría que eliminarla y correr la regresión sin la constante. Esto se hace
sencillamente en el Eviews a partir del cuadro de regresión, haciendo click con el mouse
sobre Estimate y suprimiendo la constante c.
La prueba “t” es una de las más importantes para comprobar si una regresión es adecuada o
no, básicamente porque considera a cada variable por separado, pero no es la única prueba
cuyo propósito consiste en analizar los resultados de la regresión. Otras pruebas están
relacionadas con las sumas de los cuadrados de los residuos y de las observaciones. Se
incluyen en un cuadro que se denomina de análisis de la varianza.
( y y) 2
( yˆ y ) 2 ( y yˆ ) 2
La suma del primer miembro se denomina suma de cuadrados total, la primer suma del
segundo miembro se denomina suma de cuadrados debida a o explicada por la regresión y
la segunda suma es la suma de cuadrados de los residuos o suma de cuadrados no explicada
por la regresión. En síntesis, la suma de cuadrados total se dividió en dos partes, una de las
cuales es explicada por la regresión y la otra es una parte no explicada, debido a las
fluctuaciones aleatorias entre las observaciones y los valores estimados por la regresión.
1
( yˆ y ) 2
( yˆ y) 2
(y y) 2
(y y) 2
Ambas partes suman 1, en términos porcentuales el 100%; el primer término del segundo
miembro es el porcentaje de explicación, denominado R2, el segundo término representa la
proporción o el porcentaje no explicado por la regresión. En los cuadros de las dos
regresiones efectuadas se puede apreciar que el valor de este estadístico es
aproximadamente 0,70, lo que indica que el emi explica aproximadamente el 70 % de la
variación del pbi. Teniendo en cuenta que R2 es una parte de una suma de dos términos
cuyo total es uno y cuyo valor mínimo es cero, este estadístico estará comprendido dentro
de esos límites, es decir, se verifica 0 ≤ R2 ≤ 1. Cuanto más próximo a uno mayor será el
porcentaje de explicación.
se
( y y) 2
(y y) 2
valores observados y los estimados mediante el modelo, lo que muestra las propiedades del
estadístico como criterio de bondad de ajuste entre ambos conjuntos de valores.
En la regresión con constante este valor es 0,690084 y en la otra 0,6953, de modo que,
comparativamente esta posee mayor poder explicativo.
Las sumas de cuadrados acompañadas por los respectivos grados de libertad y los
respectivos cocientes denominados cuadrados medios o varianzas se suele presentar en un
cuadro denominado de Análisis de la Varianza o Anova según sus siglas en inglés.
Regresión 4124,281 1
La suma de cuadrados total se puede calcular a partir del error estándar de la variable
dependiente y la suma de cuadrados debida a la regresión se obtiene mediante la diferencia
entre la suma de cuadrados total y la residual. Los grados de libertad son n-1 para la suma
de cuadrados total, n- k para la suma de cuadrados residual y k-1 para la suma de cuadrados
debida a la regresión.
El cuadrado medio o varianza se obtiene mediante el cociente entre las dos columnas
precedentes. La varianza de los residuos, 38,230, es el cuadrado del error estándar de la
regresión (S.E. of regression) que es 6,183047. La varianza de los residuos es una medida
para determinar el grado de ajuste de la regresión a los datos, cuanto más grande sea la
varianza residual el ajuste será menor y, además, como está relacionada con R 2, menor será
este es decir menor será el porcentaje de explicación.
Con los datos del cuadro precedente se puede construir la prueba “F”, como el cociente
entre la suma de cuadrados explicada y la residual, dividida cada una por el respectivo
número de grados de libertad:
F (k 1; n k )
( yˆ y ) / (k 1)
2
ˆ / (n k )
2
i
Este estadístico según los datos del cuadro de la regresión sin constante resultó 107,8806.
La prueba “F” trata de probar si, en conjunto, los parámetros de la regresión, los i son
distintos de cero o no. Las hipótesis son: H 0 : β 1 = β 2 = ….= β k = 0 y la alternativa es que
son distintos de cero. El valor empírico con un cierto nivel de significación y con los grados
de libertad indicados se compara con el valor F crítico. Si el valor empírico es mayor que el
crítico se rechaza H 0 y se concluye que las variables de la regresión “explican” a la
variable dependiente. Cuanto mayor es el valor empírico menor es el área de la cola
derecha de la distribución “F” y, por consiguiente, menor el valor de probabilidad p. El
Eviews suministra este valor que se incluye en Prob(F-statistic) y que en la regresión que
nos ocupa es prácticamente cero.
El test “t” es preferible al test “F” porque permite probar, separadamente, si cada parámetro
es distinto de cero o no y así descartar variables en la regresión. El test “F”, en cambio,
procede de manera conjunta y basta que un parámetro sea significativamente distinto de
cero para que la prueba reconozca que todos los parámetros son distintos de cero. De esta
manera se incluirían todas las variables en la regresión aun cuando algunas no debieran ser
incluidas. La prueba “F” carece de la “sintonía fina” que posee el test “t” .
R 2 / (k 1)
Por otra parte la prueba “F” se puede escribir como: F ( k 1; n k ) lo que
(1 R 2 ) / (n k )
muestra la relación entre este estadístico y R2. Como además R2 está relacionado con la
suma de los cuadrados de los residuos y, por ende, con la varianza residual, se puede
concluir que estos tres estadísticos tratan de captar aspectos similares del problema de la
bondad del ajuste en la regresión.
Existen otros criterios para comparar regresiones con distinto número de variables, la
“salida” de la regresión en el Eviews presenta tres de ellos el logaritmo de la verosimilitud,
el Criterio de Información de Akaike y el Criterio de Información de Schwarz.
Como los tres incluyen la suma de los cuadrados de los residuos será preferible aquel
modelo cuyo valor informado por el criterio sea el menor de todos. Es más confiable el
criterio de Información de Schwarz que penaliza más el agregado de nuevas variables.
El logaritmo de la función de verosimilitud, denotado mediante l, tiene la siguiente
fórmula:
n
l (1 log 2 ) log
2
i
2 n
2l
AIC 2k n
n
2l log n
SC k
n n
Los valores de estos tres criterios para la regresión con constante y la regresión sin
constante se exponen en el cuadro siguiente.