Econometría Avanzada en R
Econometría Avanzada en R
Econometría Avanzada en R
Análisis de componentes
principales
Por medio del análisis de componentes principales se busca reducir el número de variables
sin perder mucha información.
Los componentes resultado serán una combinación lineal de las variables originales y serán
independientes entre sí.
Para realizar el análisis de componentes principales se debe verificar la correlación de los
datos ya que utilizar componentes principales solo se justifica
si existen altas correlaciones entre las variables, esto por que la correlación está indicando
que hay información repetida que podría resumirse.
Para llevar a cabo este análisis en el software R studio, lo primero que se debe hacer es
cargar la base de datos, para esto utilizamos el comando:
datosACP<-read.csv(file.choose(),T)
datosACP<-read.xlsx(file.choose(),T)
Este comando abrirá una nueva ventana donde debemos escoger el archivo que estamos
buscando, es necesario recordar que la función depende del formato, en
este caso es una base es csv, pero también es posible leer bases en formato .xlsx
(mediante el paquete xlsx), o bases .dta (mediante el paquete foreign)
entre otras.
Mediante el siguiente comando:
attach(datosACP)
fijamos la base en la memoria del programa para facilitar el uso de las variables ya que
solo tienen que ser llamadas por el nombre exacto que tienen en la
base.
Por medio de la función cbind podemos unir los objetos por columnas, en este caso se
guardara en el objeto X los datos de las variables a trabajar
summary(X)
Para el análisis de componentes principales es importante ver cuanta correlación hay entre
variables ya que esta indica que es posible que la información
entre variables se repita por lo que se justifica utilizar este tipo de análisis, de no haber
mucha correlación es posible que el análisis de componentes
principales no sea adecuado.
Para realizar la matriz de correlación en R, se empleará el siguiente comando:
cor(X)
Para realizar el análisis de componentes principales se utilizará el comando princomp que
se guardará en el objeto pca:
pca <- princomp(X, scores=TRUE, cor=TRUE)
para ver los resultados del análisis de componentes principales utilizaremos el comando:
summary(pca)
El indicador standard deviation indica que porcentaje del total de la varianza de los datos
está siendo explicada por el componente, en este caso el
componente 1 explica el 52% de la varianza de todas las variables.
Cumulative proportion muestra la varianza acumulada entre componentes, en el ejemplo
hasta el componente 3 se explica el 86% de la varianza de los
componentes.
Se procede a estimar el modelo por medio de una regresión lineal común por medio de los
siguientes comandos:
> olsreg <- lm(Y1 ~ Y2 + X1)
> summary(olsreg)
El primero permite que R estime la regresión mientras el segundo nos muestra
detalladamente los resultados de esta, estos nos indican que la variable Y2
resulta significativa al 1%, mientas que el intercepto y la variable X1 illnesses resultan
significativas al 0% sin embargo aun existen dos variables que
resultan no significativas para el modelo a pesar de que teóricamente esta significancia
tiene un sustento, esto puede deberse a un error de especificación
en el modelo, en este caso se sospecha de una correlación de las variables dependiente
con el termino de error, además se tiene otra variable que puede
servir como instrumento por lo que resulta conveniente el uso de variables instrumentales.
Sin embargo, a modo de comparación se estimará la regresión lineal, la cual arroja los
siguientes resultados.
Como es posible notar los coeficientes cambian bastante entre las regresiones estimadas.
Tambien es posible realizar una prueba ANOVA para saber si la diferencia entre
coeficientes es significativa y por tanto justifica el uso de la regresión cuantílica, para
realizar esta prueba se utiliza el siguiente
código:
anova(quantreg25, quantreg75)
La prueba ANOVA arroja que las diferencias entre coeficientes son significativas por lo que
se justifica el uso de la regresión cuantílica.
Para ver que variables pueden ser explicadas mejor a partir de una regresión quantílica, es
posible realizar un gráfico que indica con mayor claridad que porcentaje de la variable es
explicada por una regresión lineal, esto se representa por las líneas punteadas rojas que se
encuentran en el gráfico, como es posible ver:
La variable Xtotchr, tiene una variablidad bastante lejana a la explicada por una regresión
simple, por lo que en el caso de esta se justifica el uso de la regresión cuantílica
Series de tiempo
Modelos ARIMA
Lo que indica que se rechaza la hipótesis nula a favor de la alternativa que en este caso es
estacionariedad como también lo había indicado la gráfica
anteriormente analizada.
Una vez se obtiene una serie estacionaria es necesario definir cuantos rezagos resulta
apropiado utilizar para explicar el proceso, para esto pueden ser muy
útiles: la funcion de correlación y la función de correlacion parcial.
La función de correlación puede indicar un aproximado de rezagos AR que deben utilizarse
y se obtiene en R mediante el comando
>acf(d.Y)
Los rezagos que deberían incluirse son los que se encuentran fuera de los rangos
establecidos por las líneas punteadas azules, en este caso los
rezagos:1,2,3,4,5.
La función de correlación parcial puede indicar un aproximado de rezagos MA que deben
utilizarse y se obtiene en R mediante el comando
pacf(d.Y)
Al igual que en el caso anterior deben tenerse en cuenta los rezagos que se encuentran
fuera del rango de las líneas azules, en este caso los rezagos: 1 y 3
Ya teniendo una idea de los rezagos que pueden ser incluidos en el modelo, se procede a
realizar diferentes combinaciones de estos intentando encontrar la
más adecuda, en R se hace mediante el comando
arima(p,i,q), donde p es el orden del proceso AR, i el orden de integración o número de
diferencias realizas y q es el orden del proceso MA.
Es necesario el uso del paquete “lmtest”
arad<-arima(d.Y, order = c(1,0,0))
coeftest(arad)
Sin embargo, en este ejemplo es posible ver que no resulta significativo por lo que no
resulta conveniente esta combinación de rezagos.
Probando otra posible combinación se tiene
Bibliografía
de Arce, R. (s.f.). uam . Obtenido de Modelos ARIMA:
https://www.uam.es/personal_pdi/economicas/anadelsur/pdf/Box-Jenkins.PDF
Econometric Aademy. (s.f.). Econometric Aademy. Obtenido de Econometrics
Models: https://sites.google.com/site/econometricsacademy/
Manuel, T. G. (s.f.). Análisis de componentes principales. Obtenido de
www.uoc.com: https://www.uoc.edu/in3/emath/docs/Componentes_principales.pdf
Mayorga, M., & Muñoz, E. (2000). LA TÉCNICA DE DATOS DE PANEL UNA GUIA PARA SU
USO E INTERPRETACIÓN. Banco central de Costa Rica.
Sanchez-Magas, R. (s.f.). uam. Obtenido de
uam: https://www.uam.es/personal_pdi/economicas/rsmanga/docs/Econometria1-Transp-
tema3.pdf