Regresion Por Componentes Principales

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 6

Seminario de tesis

Prueba de entrada – Victor Quilca

CONTEXTO
Se adjunta un conjunto de datos sobre la relación entre los valores de la vivienda en
diferentes áreas de Boston y varias características de las áreas. La descripción de las
variables es la siguiente:
 CRIM per capita crime rate
 ZN proportion of residential land zoned for lots over 25,000 sq.ft.
 INDUS proportion of non-retail business acres
 CHAS Charles River dummy variable (= 1 if area bounds river; 0 otherwise)
 NOX nitric oxides concentration (parts per 10 million)
 RM average number of rooms per dwelling
 AGE proportion of owner-occupied units built prior to 1940
 DIS weighted distances to five Boston employment centers
 RAD index of accessibility to radial highways
 TAX full-value property-tax rate per $10,000
 PTRATIO pupil-teacher ratio in area
 B 1000*(Bk - 0.63)^2 where Bk is the proportion of blacks in area population
 LSTAT percentage of the area population that is of low socio-economic status
 MEDV median value of owner-occupied homes in $1000's. (dependent variable)

1. Análisis exploratorio de datos


Se tiene un conjunto de datos de 14 variables y 506 registros, donde solo 1 variable (CHAS)
es categórica (flag), el resto de variables son numéricas entonces para ajustar un modelo de
regresión hay que tener cuidado de que los regresores no esten correlacionadas.

 Variable dependiente

Según esta distribución de la variable dependiente, no sería necesario realizar una


transformación.

11/06/2020 1
SEMINARIO DE TESIS
Prueba de entrada – Victor Quilca

 Variable CHAS
Se observa que la distribución de este flag es
desbalanceado, mayor cantidad de 0=No limitan
con el río. Por lo tanto no consideraremos esta
variable en el modelo.

 Matriz de correlaciones

En efecto, los regresores presentan correlación entre ellos, lo cual no es bueno (esto se
puede contrastar con la prueba de esfericidad de Bartlet). Entonces para dar solución a esto
emplearemos el método regresión por componentes principales.

11/06/2020 2
SEMINARIO DE TESIS
Prueba de entrada – Victor Quilca

2. Método de componentes principales


Sin considerar la variable dependiente, se tiene 12 regresores y estas serán representadas
en sus componentes principales (se estandarizó las variables).
 Scree plot o gráfico de sedimentación

 Eigenvalores

En base valores superiores al promedio (mayor a 1 por haber usado la matriz de


correlaciones para la descomposición espectral), nos quedaremos con 3 componentes.

11/06/2020 3
SEMINARIO DE TESIS
Prueba de entrada – Victor Quilca

 Representación de variables en las componentes


Para observar que variables son bien representadas en las componentes, se puede usar su
contribución, cos2,etc. En este caso mostramos su contribución:

Su representación gráfica en 2 dimensiones o componentes sería:

Las variables RM y PTRATIO no están siendo bien representadas en 2 componentes.

11/06/2020 4
SEMINARIO DE TESIS
Prueba de entrada – Victor Quilca

 Data transformada
Con la elección de 3 componentes obtenemos nuestra nueva data rotada.

Y la nueva matriz de correlación será:

Y en efecto, se ha solucionada la corrrelación entre regresores.

11/06/2020 5
SEMINARIO DE TESIS
Prueba de entrada – Victor Quilca

3. Modelo de regresión lineal


Ahora nuestras regresores son los 3 componentes y la variable dependiente sigue siendo
MEDV.

Las 3 componentes son significativas al 5% de significancia. Obtenemos un R2 ajustado de


0.644.

 Análisis de residuos
Se asemeja a una distribución normal, lo cual es bueno para los residuos del modelo.
Además los residuos no presentan un patrón respecto a las predicciones por lo cual
podríamos decir que son homocedásticos.

Comentario: Para predecir para nuevos valores, primero se debe tener la matriz que rotación
para obtener las componentes (según los datos de entrenamiento) y luego con los betas
estimados predecir el valor de MEDV.

11/06/2020 6

También podría gustarte