Plantilla Uveg Sdes 2021
Plantilla Uveg Sdes 2021
Plantilla Uveg Sdes 2021
Contacto:
[email protected]
[email protected]
Sesión # 1
02/08/2021
Contenido:
• Ciencia de datos, inteligencia artificial y redes neuronales
¿Qué son? ¿Qué relación tienen?
• Datos y tipos de datos
• La preparación de los datos
• Análisis exploratorio de datos
Ciencia de Datos
¿Qué es?
Ciencia de Datos
¿Qué es?
Es el análisis
sistemático de los
datos
dentro de un marco
de referencia
científico.
Ciencia de Datos
Metodología
Entendimiento Preparación de
del Problema los datos
Análisis
Despliegue
Exploratorio
Evaluación Configuración
Modelado
Ciencia de Datos
Tareas
Ciencias de la
computación
Aprendizaje Desarrollo de
Máquina Software
Ciencia
de Datos
Dominio
Matemáticas Investigación
yTradicional
estadística (Conocimiento
del negocio)
Datos
¿Qué son?
• Determinación de mayor o
Ordinal menor que
• Determina la igualdad o
Intervalo diferencia de intervalo
• Determina la igualdad e
Proporción proporciones
Datos
¿A que escala corresponden los datos (por columna)?
Inconsistencia
Ruido
Incompletitud
Preparación de los datos
¿Qué hacer con los datos incompletos?
Preparación de los datos
¿Qué hacer con los datos ruidosos?
Propósito
Resaltar las características de cada atributo
contenido en una base de datos usando métodos
gráficos, resúmenes estadísticos e identificando la
intensidad de relaciones subyacentes entre
atributos
Análisis Univariado
Contenido:
• Primeras etapas de la Ciencia de Datos con R
• Entendimiento del Problema
• Preparación de los datos
• Análisis exploratorio de datos
• Configuración
• Modelado:
• Clasificación con árboles de decisión
Entendiendo el Problema
Bank Marketing Data Set (UCI)
Contexto:
• Un banco portugués está interesando en saber si sus clientes
se suscribirían o no a una cuenta de deposito a plazo.
Datos:
• El conjunto de datos está relacionados con una campaña de
marketing de la institución bancaria. La campaña se basa en
llamadas telefónicas.
Origen:
• https://archive.ics.uci.edu/ml/datasets/bank+marketing
Recurso disponible:
• https://www.dropbox.com/s/gvbxssrttpdi69k/bank-full.csv?d
l=1
Entendiendo el Problema
Descripción de los datos
Características:
1. Age
2. Job: tipo de trabajo
3. Marital: estado civil
4. Education: nivel de estudios
5. Default: ¿tiene un crédito por defecto?
6. Balance: promedio de balance anual (euros)
7. Housing: ¿tiene un préstamo hipotecario?
8. Loan: ¿tiene un préstamo personal?
9. Contact: tipo de comunicación de contacto
10. Month: último mes de contacto en el año
11. Day: último día de la semana de contacto
12. Duration: duración del último contacto (segundos)
13. Campaign: numero de contactos realizados al cliente durante la campaña
14. Pdays: numero de días transcurridos desde el último contacto al cliente en la campaña anterior (-1 el cliente no ha
sido contactado)
15. Previous: numero de contactos previos a esta campaña
16. Poutcome: resultado de la campaña de marketing anterior
17. Y: ¿se suscribió el cliente a la cuenta de deposito bancario a plazo?
Entendiendo el Problema
Bank Marketing Data Set (UCI)
¡Importante!
Cada conjunto de datos requiere de sus
propios procesos de preparación
Preámbulo:
• Carga de datos
• Resumir el conjunto de datos
• Visualizar una porción de los datos
Preparación:
1. Filtrar columnas
2. Revisar valores no asignados (NA)
3. Agregar un índice
4. Cambiar valores engañosos en los campos
5. Cambiar variables nominales a ordinales
6. Estandarizar valores numéricos
Análisis exploratorio de datos
Propósitos:
• Gráficas son usadas para explorar la relación entre variables independientes y variable
dependiente.
• Gráficas y tablas se usan para derivar nuevas variables con el propósito de aumentar el valor
predictivo.
Análisis:
1. Gráficas de barras con respuestas sobrepuestas
2. Tablas de contingencia
3. Histogramas con respuestas sobrepuestas
Configuración
Tareas a desarrollar:
1. Dividir los datos
2. Balancear los datos
Proceso de validación cruzada
Objetivo:
1. Permite asegurar que los resultados son generalizables con un conjunto de datos desconocidos e independiente.
Características:
2. Se obtiene un conjunto de entrenamiento
3. Se obtiene un conjunto de prueba
Clasificación
Idea de la tarea
Actividades:
• Carga de conjunto de datos (y explicación del contexto)
• Configuración
• Creación del clasificador (árbol de decisión)
• Prueba y medición del desempeño del clasificador
• Experimentación
Clasificación
Árbol de Decisión
Características:
• Estructura jerárquica que implementa
una estrategia de divide y vencerás
• Permiten una fácil interpretación
Resumen del desempeño de un clasificador
Indicadores de desempeño:
Matriz de confusión • Falsos Negativos:
Predicción Predicción • Falsos Positivos:
Clase • Proporción de Positivos:
• Proporción de Negativos:
Clase
• Razón de clase:
Total Predicciones Total Predicciones • Proporción de Verdaderos Positivos (sensibilidad,
recuperación):
• Cantidad de Positivos () • Proporción de Verdaderos Negativos (especificidad):
• Cantidad de Negativos () • Proporción de Falsos Negativos:
• Verdaderos Positivos ( = True Positives) •
• Verdaderos Negativos ( = True Negatives) • Proporción de Falsos Positivos (Proporción de Falsa Alarma):
• Falsos Negativos ( = False Negatives)
• Falsos Positivos ( = False Positives) •
• Cantidad Total en conjunto de patrones () • Exactitud (Accuracy) es la proporción de correcta clasificación:
•
• Proporción de error:
• Precisión (Confidencia), es la proporción de los verdaderos
positivos entre las predicciones marcadas como positivas:
Regresión
Idea de la tarea
Actividades:
• Carga de conjunto de datos (y explicación del contexto)
• Configuración
• Creación del regresor (red neuronal artificial)
• Prueba y medición del desempeño del regresor
• Experimentación
Regresión
Redes Neuronales Artificiales
Características:
• Formada de un conjunto de unidades
de procesamiento (neuronas)
• Unidades de procesamiento
densamente conectadas
• Tiene reglas de aprendizaje
Error de un Regresor
• El error cuadrático medio (MSE) es un estimador que permite calcular el error entre la respuesta de un predictor y
el valor que se está estimando.
• El MSE se calcula:
• Donde:
• es el conjunto de puntos
• es la salida esperada
• es la respuesta del predictor
Agrupamiento
Idea de la tarea
Actividades:
• Carga de conjunto de datos (y explicación del contexto)
• Creación del agrupador (algoritmo de K medias)
• Prueba del algoritmo de K medias
• Experimentación
Agrupamiento
Algoritmo de K Medias
Características:
• Algoritmo que forma grupos utilizando
el concepto de distancia.
• El numero de grupos (k) debe ser
especificado por el usuario.
Método del codo
Bibliografía
Bibliografía
Bibliografía
¡Gracias!
Nacimos… Virtuales
uveg.edu.mx
Título
Subtítulo
Tema
Texto,texto,texto