Regresion Por Componentes Principales
Regresion Por Componentes Principales
Regresion Por Componentes Principales
CONTEXTO
Se adjunta un conjunto de datos sobre la relación entre los valores de la vivienda en
diferentes áreas de Boston y varias características de las áreas. La descripción de las
variables es la siguiente:
CRIM per capita crime rate
ZN proportion of residential land zoned for lots over 25,000 sq.ft.
INDUS proportion of non-retail business acres
CHAS Charles River dummy variable (= 1 if area bounds river; 0 otherwise)
NOX nitric oxides concentration (parts per 10 million)
RM average number of rooms per dwelling
AGE proportion of owner-occupied units built prior to 1940
DIS weighted distances to five Boston employment centers
RAD index of accessibility to radial highways
TAX full-value property-tax rate per $10,000
PTRATIO pupil-teacher ratio in area
B 1000*(Bk - 0.63)^2 where Bk is the proportion of blacks in area population
LSTAT percentage of the area population that is of low socio-economic status
MEDV median value of owner-occupied homes in $1000's. (dependent variable)
Variable dependiente
11/06/2020 1
SEMINARIO DE TESIS
Prueba de entrada – Victor Quilca
Variable CHAS
Se observa que la distribución de este flag es
desbalanceado, mayor cantidad de 0=No limitan
con el río. Por lo tanto no consideraremos esta
variable en el modelo.
Matriz de correlaciones
En efecto, los regresores presentan correlación entre ellos, lo cual no es bueno (esto se
puede contrastar con la prueba de esfericidad de Bartlet). Entonces para dar solución a esto
emplearemos el método regresión por componentes principales.
11/06/2020 2
SEMINARIO DE TESIS
Prueba de entrada – Victor Quilca
Eigenvalores
11/06/2020 3
SEMINARIO DE TESIS
Prueba de entrada – Victor Quilca
11/06/2020 4
SEMINARIO DE TESIS
Prueba de entrada – Victor Quilca
Data transformada
Con la elección de 3 componentes obtenemos nuestra nueva data rotada.
11/06/2020 5
SEMINARIO DE TESIS
Prueba de entrada – Victor Quilca
Análisis de residuos
Se asemeja a una distribución normal, lo cual es bueno para los residuos del modelo.
Además los residuos no presentan un patrón respecto a las predicciones por lo cual
podríamos decir que son homocedásticos.
Comentario: Para predecir para nuevos valores, primero se debe tener la matriz que rotación
para obtener las componentes (según los datos de entrenamiento) y luego con los betas
estimados predecir el valor de MEDV.
11/06/2020 6