Regresión Lineal
Regresión Lineal
Regresión Lineal
rendimiento = b0 + b1 fertilizante + u
Si salario se mide en dólares por hora y educ se mide en anos de educación, entonces 1 mide la
variación
en el salario por hora por cada ano mas de educación, cuando todos los demás factores
permanecen constantes.
Entre estos factores se encuentran experiencia laboral, capacidades innatas, antiguedad en el
empleo actual, ética laboral y otra gran cantidad de cosas.
La linealidad de la ecuación inicial implica que todo cambio de x en una unidad tiene siempre el
mismo efecto sobre y, sin importar el valor inicial de x. En muchas aplicaciones de la economía
esto no es muy realista. Así, en el ejemplo del salario y la educación, es deseable permitir que
haya rendimientos crecientes: un ano mas en educación escolar debe tener un efecto mayor
que el que tuvo el ano anterior.
El Método de los mínimos cuadrados ordinarios
Se trata de estudiar una ecuación o un modelo del siguiente tipo:
Yt = a + b Xt + et
Nuestra labor consiste en estimar los parámetros a y b de la ecuación anterior a partir de los datos muestrales
de los que disponemos. Para ello utilizaremos el método de los Mínimos Cuadrados Ordinarios (MCO),
pero antes de ver en que consiste este método debemos hacer ciertas hipótesis sobre el comportamiento de
las variables que integran el modelo.
De lo anterior se desprende que, a la hora de estimar los parámetros del modelo, resultará de vital
importancia que dicho término de error no ejerza ninguna influencia determinante en la explicación del
comportamiento de la variable dependiente. Por ello, cuando se aplica el método de mínimos cuadrados
ordinarios, se realizan las siguientes hipótesis de comportamiento sobre el término de error:
1. La esperanza matemática de et es cero, tal que E(et) = 0. Es decir, el comportamiento del término de error no
presenta un sesgo sistemático en ninguna dirección determinada. Por ejemplo, si estamos realizando un
experimento en el cual tenemos que medir la longitud de un determinado objeto, a veces al medir dicha longitud
cometeremos un error de medida por exceso y otras por defecto, pero en media los errores estarán compensados.
2. La covarianza entre ei y ej es nula para i ≠ j tal que E(ei·ej) = 0. Ello quiere decir que el error cometido en un
momento determinado, i, no debe estar correlacionado con el error cometido en otro momento del tiempo, j, o
dicho de otro modo, los errores no ejercen influencia unos sobre otros. En caso de existir correlación, nos
encontraríamos ante el problema de la autocorrelación en los residuos, el cual impide realizar una estimación
por mínimos cuadrados válida.
3. La matriz de varianzas y covarianzas del término de error debe ser escalar tal que Var(ei) = σ2I, i=1,…,n,
donde I es la matriz unidad. Dado que siempre que medimos una variable, se produce un cierto error, resulta
deseable que los errores que cometamos en momentos diferentes del tiempo sean similares en cuantía. Esta
condición es lo que se conoce como supuesto de homocedasticidad que, en caso de no verificarse, impediría
un uso legítimo de la estimación lineal por mínimos cuadrados.
Asimismo, las variables incluidas en el modelo deben verificar que:
1. El comportamiento de la variable independiente Y se ajusta al modelo lineal durante todo el periodo muestral, es
decir, no se produce un cambio importante en la estructura de comportamiento de Y a lo largo de la muestra
considerada.
2. Las variables explicativas, Xi, son no estocásticas, es decir, son consideradas fijas en muestreos repetidos.
3. El número de variables explicativas, k, siempre debe ser menor que el tamaño muestral, n. Es decir, siempre
debemos disponer de más observaciones que parámetros haya en el modelo.
Veamos a continuación, suponiendo que se verifican los supuestos anteriores, como se realiza la estimación de los
parámetros a y b. Gráficamente, el resultado que obtendremos al estimar dichos parámetros será una recta que se
ajuste lo máximo posible a la nube de puntos definida por todos los pares de valores muestrales (Xi,Yi), tal y como
se puede apreciar en el gráfico
El término de error, ei, puede ser entendido, a la vista del gráfico anterior, como la distancia que existe entre el
valor observado, Yi, y el correspondiente valor estimado, que sería la imagen de Xi en el eje de ordenadas. El
objetivo de la estimación por Mínimos Cuadrados Ordinarios es, precisamente, minimizar el sumatorio de
todas esas distancias al cuadrado; es decir:
Ejemplo 1.1.
Supongamos que el director de una empresa piensa que la demanda de un producto que él comercializa
depende únicamente del precio de venta al público. Para estudiar la demanda de este producto pretende
estimar el siguiente modelo:
Yt = a + b Xt + et
donde Yt es la cantidad vendida anualmente del bien Y en el año t, y Xt es el precio medio al cual se
vendió el bien Y durante el año t. Se dispone de los siguientes datos muestrales: