Guion Expo
Guion Expo
Guion Expo
En la gráfica de barras, la cual explica la varianza podemos observar que está diseñada
de tal manera que cada uno de los sucesivos componentes principales explica una
cantidad decreciente de la variación en el conjunto de datos
LEAF
Los investigadores creen que la forma de la hoja contiene el poder más discriminante,
dado que la mayoría las plantas presentan una forma de hoja característica
En la imagen superior derecha proporciona una descripción general del aspecto de las
diferentes hojas consideradas
y la imagen izquierda sintetiza la información sobre los atributos que caracterizan a las
especies vegetales u hojas.
Según la complejidad de la hoja, se pueden identificar dos grandes grupos en esta base
de datos: hojas de la clase 1 a la 15 y de la 22 a la 36 son simples y las hojas de la clase
16 a la 21 y 37 a la 40 son complejo.
Solo se consideraran las hojas simples para aplicar el método de reducción de PCA, sin
las hojas complejas obtenemos 340 instancias, lo que quiere decir que 103 fueron
consideradas hojas complejas
MARKETING BANCARIO
Los datos están relacionados con campañas de marketing directo de una institución
bancaria portuguesa. Las campañas de marketing se basaron en llamadas telefónicas. A
menudo, se requería más de un contacto con el mismo cliente, para poder acceder si el
producto (depósito a plazo bancario) estaría ('sí') o no ('no') suscrito.
1 - edad (numérico)
3 - marital: estado civil (categórico: 'divorciado', 'casado', 'soltero', 'desconocido '; nota:'
divorciado 'significa divorciado o viudo)
4 - educación (categórica:' básico.4y ',' básico.6y ',' básico.9y ',' escuela secundaria ','
analfabeto ',' curso.de.profesional ',' título universitario ',' desconocido ')
5 -incumplimiento: ¿tiene crédito en incumplimiento? (categórico: 'no', '
sí ',' desconocido ')
# otros atributos:
12 - campaña: número de contactos realizados durante esta campaña y para este cliente
(numérico, incluye el último contacto)
13 - pdays: número de días que pasaron después de que el cliente fue contactado por
última vez desde una campaña anterior (numérico; 999 significa que el cliente no
contactado previamente)
14 - anterior: número de contactos realizados antes de esta campaña y para este cliente
(numérico)
15 - poutcome: resultado de la campaña de marketing anterior (categórico: 'fracaso',
'inexistente', 'éxito')
RESULTADOS
Así mismo las 7 primeras componentes son los más significativos en la base de datos
LEAF. Por un resultado anterior sabemos que capturan casi el 96.95% de las varianzas
de las variables.
En esta última, se deduce que las variables originales x1,...,xp están incorreladas, por
eso carece de sentido calcular las componentes principales Y es así que obtenemos
casi las mismas variables pero reordenadas de mayor a menor varianza.
PARTE FINAL
PCA trata de retener la mayor parte de la variabilidad en los datos y no la mayor parte
de la varianza entre la clase de los datos.