Plantilla Uveg Sdes 2021

Ciencia de Datos, Inteligencia
Artificial y Redes Neuronales en

Investigación
Presentación
Andrés Espinal Jiménez

Doctor en Ciencias de la Computación
Profesor de Asignatura Virtual (Universidad Virtual del Estado de Guanajuato)

Profesor de Tiempo Completo (Universidad de Guanajuato)
Investigador Nacional Nivel I en el Sistema Nacional de Investigadores del

Consejo Nacional de Ciencia y Tecnología
Líneas de Investigación: Algoritmos Bioinspirados, Redes Neuronales

Artificiales y Algoritmos Evolutivos
Contacto:
[email protected]
[email protected]
Sesión # 1
02/08/2021
Contenido:
• Ciencia de datos, inteligencia artificial y redes neuronales
¿Qué son? ¿Qué relación tienen?
• Datos y tipos de datos
• La preparación de los datos
• Análisis exploratorio de datos
Ciencia de Datos
¿Qué es?
Ciencia de Datos
¿Qué es?
Es el análisis
sistemático de los
datos
dentro de un marco
de referencia
científico.
Ciencia de Datos
Metodología
Entendimiento Preparación de
del Problema los datos
Análisis
Despliegue
Exploratorio
Evaluación Configuración
Modelado
Ciencia de Datos
Tareas
Descripción • Promedio de bateo de un jugador de baseball
• Determinar el monto de hipoteca que un cliente

Estimación puede pagar
Clasificación • Otorgar prestamos hipotecarios a clientes
Agrupamiento • Describir similitudes entre clientes
• Pronosticar el precio de acciones de una empresa

Predicción dentro de una cantidad de meses posteriores.
• Encontrar reglas con respecto al servicio a clientes

Asociación para evitar perder clientes
Inteligencia Artificial
¿Qué es?
Redes Neuronales Artificiales
¿Qué es?
Es un prosador distribuido masivamente en paralelo

conformado de unidades simples de procesamiento, las
cuales naturalmente almacenan conocimiento
experimental y lo mantienen disponible.
Relación CD, IA, RNA
La ciencia de datos combina…
Ciencias de la
computación
Aprendizaje Desarrollo de
Máquina Software
Ciencia
de Datos
Dominio
Matemáticas Investigación
yTradicional
estadística (Conocimiento
del negocio)
Datos
¿Qué son?
Dato Información Conocimiento

Datos
¿Qué tipos de datos hay?
Escala Operaciones básicas empíricas

• Determina igualdad o
Nominal membresía
• Determinación de mayor o
Ordinal menor que
• Determina la igualdad o
Intervalo diferencia de intervalo
• Determina la igualdad e
Proporción proporciones
Datos
¿A que escala corresponden los datos (por columna)?
Genero Nivel Estudio Edad Promedio

Masculino Segundo 15 3.6
Femenino Primero 14 3.2
Femenino Segundo 14 3.3
Masculino Tercero 16 3.7
Femenino Cuarto 18 3.1
Masculino Cuarto 17 2.8
¿Qué estadísticos se pueden aplicar

de acuerdo a la escala?
Preparación de los datos
¿Por qué es necesaria?
¿Qué datos son propensos a ser preparados?
Inconsistencia
Ruido
Incompletitud
¿Qué hacer con los datos incompletos?
¿Qué hacer con los datos ruidosos?
¿Qué es el ruido en los datos? ¿Cómo lidiar con datos

ruidosos?
• Usando el termino estadístico
de dispersión.
• Usando distancia entre
observaciones y métodos de
agrupamiento
• Regresión para corregir los
datos anómalos.
Análisis exploratorio de datos
¿Para que sirve?
Propósito
Resaltar las características de cada atributo
contenido en una base de datos usando métodos
gráficos, resúmenes estadísticos e identificando la
intensidad de relaciones subyacentes entre
atributos
Análisis Univariado
Objetivos Gráfico Estadísticos

• Validar • De barras • Medidas de
supuestos • Histogramas tendencia
• Obtener • De cajas y central
conclusiones bigotes • Medidas de
• Indicar dispersión
anomalías • Medidas de
ubicación
relativa
• Medidas te
heterogeneidad
Análisis Bivariado
Objetivos Gráfico Estadísticos

• Explorar relaciones • De dispersión • Medidas de correlación
entre par de atributos: • Curvas de nivel • Covarianza
• Numéricos • De Cuantil-Cuantil • Correlación
• Numérico/categórico • Series de tiempo
• Categóricos
Sesión # 2
04/08/2021
Contenido:
• Primeras etapas de la Ciencia de Datos con R
• Entendimiento del Problema
• Preparación de los datos
• Análisis exploratorio de datos
• Configuración
• Modelado:
• Clasificación con árboles de decisión
Entendiendo el Problema
Bank Marketing Data Set (UCI)
Contexto:
• Un banco portugués está interesando en saber si sus clientes
se suscribirían o no a una cuenta de deposito a plazo.
Datos:
• El conjunto de datos está relacionados con una campaña de
marketing de la institución bancaria. La campaña se basa en
llamadas telefónicas.
Origen:
• https://archive.ics.uci.edu/ml/datasets/bank+marketing
Recurso disponible:
• https://www.dropbox.com/s/gvbxssrttpdi69k/bank-full.csv?d
l=1
Descripción de los datos
Características:
1. Age
2. Job: tipo de trabajo
3. Marital: estado civil
4. Education: nivel de estudios
5. Default: ¿tiene un crédito por defecto?
6. Balance: promedio de balance anual (euros)
7. Housing: ¿tiene un préstamo hipotecario?
8. Loan: ¿tiene un préstamo personal?
9. Contact: tipo de comunicación de contacto
10. Month: último mes de contacto en el año
11. Day: último día de la semana de contacto
12. Duration: duración del último contacto (segundos)
13. Campaign: numero de contactos realizados al cliente durante la campaña
14. Pdays: numero de días transcurridos desde el último contacto al cliente en la campaña anterior (-1 el cliente no ha
sido contactado)
15. Previous: numero de contactos previos a esta campaña
16. Poutcome: resultado de la campaña de marketing anterior
17. Y: ¿se suscribió el cliente a la cuenta de deposito bancario a plazo?
Bank Marketing Data Set (UCI)
Objetivos del proyecto:

1. Aprender acerca de los clientes potenciales.
• Usar análisis exploratorio de datos para mostrar relaciones entre variables
• Usar métodos de agrupamiento para determinar si hay grupos naturales entre los clientes
potenciales.
2. Desarrollar un método rentable de identificar clientes potenciales
• ¿Qué tipo de tarea debemos resolver para atender este objetivo?
¡Importante!
Cada conjunto de datos requiere de sus
propios procesos de preparación
Preámbulo:
• Carga de datos
• Resumir el conjunto de datos
• Visualizar una porción de los datos
Preparación:
1. Filtrar columnas
2. Revisar valores no asignados (NA)
3. Agregar un índice
4. Cambiar valores engañosos en los campos
5. Cambiar variables nominales a ordinales
6. Estandarizar valores numéricos
Análisis exploratorio de datos
Propósitos:
• Gráficas son usadas para explorar la relación entre variables independientes y variable
dependiente.
• Gráficas y tablas se usan para derivar nuevas variables con el propósito de aumentar el valor
predictivo.
Análisis:
1. Gráficas de barras con respuestas sobrepuestas
2. Tablas de contingencia
3. Histogramas con respuestas sobrepuestas
Configuración
Tareas a desarrollar:
1. Dividir los datos
2. Balancear los datos
Proceso de validación cruzada
Objetivo:
1. Permite asegurar que los resultados son generalizables con un conjunto de datos desconocidos e independiente.
Características:
2. Se obtiene un conjunto de entrenamiento
3. Se obtiene un conjunto de prueba
Clasificación
Idea de la tarea
Actividades:
• Carga de conjunto de datos (y explicación del contexto)
• Configuración
• Creación del clasificador (árbol de decisión)
• Prueba y medición del desempeño del clasificador
• Experimentación
Clasificación
Árbol de Decisión
Características:
• Estructura jerárquica que implementa
una estrategia de divide y vencerás
• Permiten una fácil interpretación
Resumen del desempeño de un clasificador
Indicadores de desempeño:
Matriz de confusión • Falsos Negativos:
Predicción Predicción • Falsos Positivos:
Clase • Proporción de Positivos:
• Proporción de Negativos:
Clase
• Razón de clase:
Total Predicciones Total Predicciones • Proporción de Verdaderos Positivos (sensibilidad,
recuperación):
• Cantidad de Positivos () • Proporción de Verdaderos Negativos (especificidad):
• Cantidad de Negativos () • Proporción de Falsos Negativos:
• Verdaderos Positivos ( = True Positives) •
• Verdaderos Negativos ( = True Negatives) • Proporción de Falsos Positivos (Proporción de Falsa Alarma):
• Falsos Negativos ( = False Negatives)
• Falsos Positivos ( = False Positives) •
• Cantidad Total en conjunto de patrones () • Exactitud (Accuracy) es la proporción de correcta clasificación:
•
• Proporción de error:
• Precisión (Confidencia), es la proporción de los verdaderos
positivos entre las predicciones marcadas como positivas:
Regresión
Idea de la tarea
Actividades:
• Configuración
• Creación del regresor (red neuronal artificial)
• Prueba y medición del desempeño del regresor
Regresión
Redes Neuronales Artificiales
Características:
• Formada de un conjunto de unidades
de procesamiento (neuronas)
• Unidades de procesamiento
densamente conectadas
• Tiene reglas de aprendizaje
Error de un Regresor
• El error cuadrático medio (MSE) es un estimador que permite calcular el error entre la respuesta de un predictor y
el valor que se está estimando.
• El MSE se calcula:
• Donde:
• es el conjunto de puntos
• es la salida esperada
• es la respuesta del predictor
Agrupamiento
Idea de la tarea
Actividades:
• Creación del agrupador (algoritmo de K medias)
• Prueba del algoritmo de K medias
Agrupamiento
Algoritmo de K Medias
Características:
• Algoritmo que forma grupos utilizando
el concepto de distancia.
• El numero de grupos (k) debe ser
especificado por el usuario.
Método del codo
Bibliografía
Bibliografía
Bibliografía
¡Gracias!
Nacimos… Virtuales
uveg.edu.mx
Título
Subtítulo
Tema
Texto,texto,texto

Plantilla Uveg Sdes 2021

Cargado por

Copyright:

Formatos disponibles

Plantilla Uveg Sdes 2021

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Plantilla Uveg Sdes 2021

Cargado por

Copyright:

Formatos disponibles

Ciencia de Datos, Inteligencia

Artificial y Redes Neuronales en

Andrés Espinal Jiménez

Profesor de Asignatura Virtual (Universidad Virtual del Estado de Guanajuato)

Investigador Nacional Nivel I en el Sistema Nacional de Investigadores del

Líneas de Investigación: Algoritmos Bioinspirados, Redes Neuronales

Descripción • Promedio de bateo de un jugador de baseball

• Determinar el monto de hipoteca que un cliente

Clasificación • Otorgar prestamos hipotecarios a clientes

Agrupamiento • Describir similitudes entre clientes

• Pronosticar el precio de acciones de una empresa

• Encontrar reglas con respecto al servicio a clientes

Es un prosador distribuido masivamente en paralelo

Dato Información Conocimiento

Escala Operaciones básicas empíricas

Genero Nivel Estudio Edad Promedio

¿Qué estadísticos se pueden aplicar

¿Qué es el ruido en los datos? ¿Cómo lidiar con datos

Objetivos Gráfico Estadísticos

Objetivos Gráfico Estadísticos

Objetivos del proyecto:

También podría gustarte