Guion Expo

IRIS
Iris es quizás la base de datos más conocida que se encuentran en la literatura de

reconocimiento de patrones. El conjunto de datos contiene 50 muestras de cada una de
tres especies de Iris (Iris setosa, Iris virginica e Iris versicolor). Se midió cuatro rasgos
de cada muestra: el largo y ancho del sépalo y pétalo, en centímetros. Basado en la
combinación de estos cuatro rasgos, se desarrolló un modelo de PCA para distinguir
entre una especie y otra.
En la gráfica de barras, la cual explica la varianza podemos observar que está diseñada
de tal manera que cada uno de los sucesivos componentes principales explica una
cantidad decreciente de la variación en el conjunto de datos
En este momento ya sabemos que componentes capturan la mayoría de la varianza.
LEAF
Este conjunto de datos se construyó utilizando imágenes de hojas de plantas. Se

consideraron 40 especies diferentes de plantas, recolectando un número promedio de 10
ejemplares de hojas de cada planta. Se recogió un total de 443 imágenes.
Los investigadores creen que la forma de la hoja contiene el poder más discriminante,
dado que la mayoría las plantas presentan una forma de hoja característica
Análisis de la forma de las hojas.
Análisis del margen de la hoja
Análisis de textura de hoja
En la imagen superior derecha proporciona una descripción general del aspecto de las
diferentes hojas consideradas
y la imagen izquierda sintetiza la información sobre los atributos que caracterizan a las
especies vegetales u hojas.
Según la complejidad de la hoja, se pueden identificar dos grandes grupos en esta base
de datos: hojas de la clase 1 a la 15 y de la 22 a la 36 son simples y las hojas de la clase
16 a la 21 y 37 a la 40 son complejo.
Solo se consideraran las hojas simples para aplicar el método de reducción de PCA, sin
las hojas complejas obtenemos 340 instancias, lo que quiere decir que 103 fueron
consideradas hojas complejas
MARKETING BANCARIO
Los datos están relacionados con campañas de marketing directo de una institución
bancaria portuguesa. Las campañas de marketing se basaron en llamadas telefónicas. A
menudo, se requería más de un contacto con el mismo cliente, para poder acceder si el
producto (depósito a plazo bancario) estaría ('sí') o no ('no') suscrito.
El objetivo de la clasificación es predecir si el cliente suscribirá (sí / no) un depósito a

plazo (variable y).
Me gustaría que analicemos la información del dataset que se encuentra en la parte

derecha, podemos observar que tiene 17 atributos ó 16 al indexarla desde 0, en la fila
columnas se encuentra el nombre de éstas 17 variables como son:
1 - edad (numérico)
2 - trabajo: tipo de trabajo (categórico: 'admin.', 'Obrero', 'emprendedor', 'empleada

doméstica', 'gerencia', 'jubilado' , 'autónomo', 'servicios', 'estudiante', 'técnico',
'desempleado', 'desconocido')
3 - marital: estado civil (categórico: 'divorciado', 'casado', 'soltero', 'desconocido '; nota:'
divorciado 'significa divorciado o viudo)
4 - educación (categórica:' básico.4y ',' básico.6y ',' básico.9y ',' escuela secundaria ','
analfabeto ',' curso.de.profesional ',' título universitario ',' desconocido ')
5 -incumplimiento: ¿tiene crédito en incumplimiento? (categórico: 'no', '
sí ',' desconocido ')
6 - vivienda: ¿tiene préstamo para vivienda? (categórico: 'no', 'sí', 'desconocido')

7 - préstamo: ¿tiene préstamo personal? (categórico: 'no', 'sí', 'desconocido')
# relacionado con el último contacto de la campaña actual:
8 - contacto: tipo de comunicación de contacto (categórico: 'celular', 'teléfono')
9 - mes: último mes de contacto del año (categórico: 'jan', 'feb', ' mar ', ...,' nov ',' dec ')
10 - day_of_week: último día de contacto de la semana (categórico:' lun ',' tue ',' mié ','
jue ',' vie ')
11 - duración: duración del último contacto, en segundos (numérico). Nota importante:
este atributo afecta en gran medida el objetivo de salida (por ejemplo, si duración = 0,
entonces y = 'no'). Sin embargo, no se conoce la duración antes de realizar una
llamada. Además, después del final de la llamada, obviamente se conoce y. Así, esta
entrada solo debe incluirse con fines de referencia y debe descartarse si la intención es
tener un modelo predictivo realista.
# otros atributos:
12 - campaña: número de contactos realizados durante esta campaña y para este cliente
(numérico, incluye el último contacto)
13 - pdays: número de días que pasaron después de que el cliente fue contactado por
última vez desde una campaña anterior (numérico; 999 significa que el cliente no
contactado previamente)
14 - anterior: número de contactos realizados antes de esta campaña y para este cliente
(numérico)
15 - poutcome: resultado de la campaña de marketing anterior (categórico: 'fracaso',
'inexistente', 'éxito')
# social y económico atributos de contexto
16 - tasa de variación emp .: tasa de variación del empleo - indicador trimestral

(numérico)
17 - precio cons.idx: índice de precios al consumidor - indicador mensual (numérico)
18 - cons.conf.idx: índice de confianza del consumidor - indicador mensual (numérico)
19 - euribor3m: euribor tasa a 3 meses - indicador diario (numérico)
20 - no empleados: número de empleados - indicador trimestral (numérico)
Variable de salida (deseada target):
21 - y - ¿el cliente ha suscrito un depósito a plazo? (binario: 'sí', 'no')
RESULTADOS
Para saber cúantas componentes son suficientes para representar fidedignamente

un conjunto de datos (por ejemplo, si el conjunto tiene dimensión 10, deberemos
usar 2, 3, ¿cuántas componentes?) se miran los valores propios.
Podemos observar que los componentes 1 y 2 en la base de datos IRIS son los más
significativos. Con un resultado que capturan casi el 95,8% de las varianzas de las
variables.
Así mismo las 7 primeras componentes son los más significativos en la base de datos
LEAF. Por un resultado anterior sabemos que capturan casi el 96.95% de las varianzas
de las variables.
Finalmente con 13 componentes representan el 92,94% de la variabilidad en la base

datos MARKETIN BANCARIO
En esta última, se deduce que las variables originales x1,...,xp están incorreladas, por
eso carece de sentido calcular las componentes principales Y es así que obtenemos
casi las mismas variables pero reordenadas de mayor a menor varianza.
PARTE FINAL
Un algoritmo “no supervisado”, ya que “ignora” las etiquetas de clase siendo su

objetivo encontrar las direcciones (componentes principales) que maximizan la varianza
de un conjunto de datos.
PCA trata de retener la mayor parte de la variabilidad en los datos y no la mayor parte
de la varianza entre la clase de los datos.
Se calculan los componentes sobre variables originales estandarizadas, es decir,

variables con media 0 y varianza 1. Esto equivale a tomar los componentes principales,
no de la matriz de covarianzas sino de la matriz de correlaciones (en las variables
estandarizadas coinciden las covarianzas y las correlaciones).

Guion Expo

Cargado por

Copyright:

Formatos disponibles

Guion Expo

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Guion Expo

Cargado por

Copyright:

Formatos disponibles

IRIS

Iris es quizás la base de datos más conocida que se encuentran en la literatura de

En este momento ya sabemos que componentes capturan la mayoría de la varianza.

Este conjunto de datos se construyó utilizando imágenes de hojas de plantas. Se

Análisis de la forma de las hojas.

Análisis del margen de la hoja

Análisis de textura de hoja

El objetivo de la clasificación es predecir si el cliente suscribirá (sí / no) un depósito a

Me gustaría que analicemos la información del dataset que se encuentra en la parte

2 - trabajo: tipo de trabajo (categórico: 'admin.', 'Obrero', 'emprendedor', 'empleada

6 - vivienda: ¿tiene préstamo para vivienda? (categórico: 'no', 'sí', 'desconocido')

# social y económico atributos de contexto

16 - tasa de variación emp .: tasa de variación del empleo - indicador trimestral

18 - cons.conf.idx: índice de confianza del consumidor - indicador mensual (numérico)

19 - euribor3m: euribor tasa a 3 meses - indicador diario (numérico)

20 - no empleados: número de empleados - indicador trimestral (numérico)

Variable de salida (deseada target):

21 - y - ¿el cliente ha suscrito un depósito a plazo? (binario: 'sí', 'no')

Para saber cúantas componentes son suficientes para representar fidedignamente

Finalmente con 13 componentes representan el 92,94% de la variabilidad en la base

Un algoritmo “no supervisado”, ya que “ignora” las etiquetas de clase siendo su

Se calculan los componentes sobre variables originales estandarizadas, es decir,

También podría gustarte