Plantilla Uveg Sdes 2021

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 42

Ciencia de Datos, Inteligencia

Artificial y Redes Neuronales en


Investigación
Presentación

Andrés Espinal Jiménez


Doctor en Ciencias de la Computación

Profesor de Asignatura Virtual (Universidad Virtual del Estado de Guanajuato)


Profesor de Tiempo Completo (Universidad de Guanajuato)

Investigador Nacional Nivel I en el Sistema Nacional de Investigadores del


Consejo Nacional de Ciencia y Tecnología

Líneas de Investigación: Algoritmos Bioinspirados, Redes Neuronales


Artificiales y Algoritmos Evolutivos

Contacto:
[email protected]
[email protected]
Sesión # 1
02/08/2021

Contenido:
• Ciencia de datos, inteligencia artificial y redes neuronales
¿Qué son? ¿Qué relación tienen?
• Datos y tipos de datos
• La preparación de los datos
• Análisis exploratorio de datos
Ciencia de Datos
¿Qué es?
Ciencia de Datos
¿Qué es?

Es el análisis
sistemático de los
datos
dentro de un marco
de referencia
científico.
Ciencia de Datos
Metodología

Entendimiento Preparación de
del Problema los datos

Análisis
Despliegue
Exploratorio

Evaluación Configuración

Modelado
Ciencia de Datos
Tareas

Descripción • Promedio de bateo de un jugador de baseball

• Determinar el monto de hipoteca que un cliente


Estimación puede pagar

Clasificación • Otorgar prestamos hipotecarios a clientes

Agrupamiento • Describir similitudes entre clientes

• Pronosticar el precio de acciones de una empresa


Predicción dentro de una cantidad de meses posteriores.

• Encontrar reglas con respecto al servicio a clientes


Asociación para evitar perder clientes
Inteligencia Artificial
¿Qué es?
Redes Neuronales Artificiales
¿Qué es?

Es un prosador distribuido masivamente en paralelo


conformado de unidades simples de procesamiento, las
cuales naturalmente almacenan conocimiento
experimental y lo mantienen disponible.
Relación CD, IA, RNA
La ciencia de datos combina…

Ciencias de la
computación

Aprendizaje Desarrollo de
Máquina Software
Ciencia
de Datos
Dominio
Matemáticas Investigación
yTradicional
estadística (Conocimiento
del negocio)
Datos
¿Qué son?

Dato Información Conocimiento


Datos
¿Qué tipos de datos hay?

Escala Operaciones básicas empíricas


• Determina igualdad o
Nominal membresía

• Determinación de mayor o
Ordinal menor que

• Determina la igualdad o
Intervalo diferencia de intervalo

• Determina la igualdad e
Proporción proporciones
Datos
¿A que escala corresponden los datos (por columna)?

Genero Nivel Estudio Edad Promedio


Masculino Segundo 15 3.6
Femenino Primero 14 3.2
Femenino Segundo 14 3.3
Masculino Tercero 16 3.7
Femenino Cuarto 18 3.1
Masculino Cuarto 17 2.8

¿Qué estadísticos se pueden aplicar


de acuerdo a la escala?
Preparación de los datos
¿Por qué es necesaria?
Preparación de los datos
¿Qué datos son propensos a ser preparados?

Inconsistencia
Ruido
Incompletitud
Preparación de los datos
¿Qué hacer con los datos incompletos?
Preparación de los datos
¿Qué hacer con los datos ruidosos?

¿Qué es el ruido en los datos? ¿Cómo lidiar con datos


ruidosos?
• Usando el termino estadístico
de dispersión.
• Usando distancia entre
observaciones y métodos de
agrupamiento
• Regresión para corregir los
datos anómalos.
Análisis exploratorio de datos
¿Para que sirve?

Propósito
Resaltar las características de cada atributo
contenido en una base de datos usando métodos
gráficos, resúmenes estadísticos e identificando la
intensidad de relaciones subyacentes entre
atributos
Análisis Univariado

Objetivos Gráfico Estadísticos


• Validar • De barras • Medidas de
supuestos • Histogramas tendencia
• Obtener • De cajas y central
conclusiones bigotes • Medidas de
• Indicar dispersión
anomalías • Medidas de
ubicación
relativa
• Medidas te
heterogeneidad
Análisis Bivariado

Objetivos Gráfico Estadísticos


• Explorar relaciones • De dispersión • Medidas de correlación
entre par de atributos: • Curvas de nivel • Covarianza
• Numéricos • De Cuantil-Cuantil • Correlación
• Numérico/categórico • Series de tiempo
• Categóricos
Sesión # 2
04/08/2021

Contenido:
• Primeras etapas de la Ciencia de Datos con R
• Entendimiento del Problema
• Preparación de los datos
• Análisis exploratorio de datos
• Configuración
• Modelado:
• Clasificación con árboles de decisión
Entendiendo el Problema
Bank Marketing Data Set (UCI)

Contexto:
• Un banco portugués está interesando en saber si sus clientes
se suscribirían o no a una cuenta de deposito a plazo.
Datos:
• El conjunto de datos está relacionados con una campaña de
marketing de la institución bancaria. La campaña se basa en
llamadas telefónicas.
Origen:
• https://archive.ics.uci.edu/ml/datasets/bank+marketing
Recurso disponible:
• https://www.dropbox.com/s/gvbxssrttpdi69k/bank-full.csv?d
l=1
Entendiendo el Problema
Descripción de los datos
Características:
1. Age
2. Job: tipo de trabajo
3. Marital: estado civil
4. Education: nivel de estudios
5. Default: ¿tiene un crédito por defecto?
6. Balance: promedio de balance anual (euros)
7. Housing: ¿tiene un préstamo hipotecario?
8. Loan: ¿tiene un préstamo personal?
9. Contact: tipo de comunicación de contacto
10. Month: último mes de contacto en el año
11. Day: último día de la semana de contacto
12. Duration: duración del último contacto (segundos)
13. Campaign: numero de contactos realizados al cliente durante la campaña
14. Pdays: numero de días transcurridos desde el último contacto al cliente en la campaña anterior (-1 el cliente no ha
sido contactado)
15. Previous: numero de contactos previos a esta campaña
16. Poutcome: resultado de la campaña de marketing anterior
17. Y: ¿se suscribió el cliente a la cuenta de deposito bancario a plazo?
Entendiendo el Problema
Bank Marketing Data Set (UCI)

Objetivos del proyecto:


1. Aprender acerca de los clientes potenciales.
• Usar análisis exploratorio de datos para mostrar relaciones entre variables
• Usar métodos de agrupamiento para determinar si hay grupos naturales entre los clientes
potenciales.
2. Desarrollar un método rentable de identificar clientes potenciales
• ¿Qué tipo de tarea debemos resolver para atender este objetivo?
Preparación de los datos

¡Importante!
Cada conjunto de datos requiere de sus
propios procesos de preparación
Preámbulo:
• Carga de datos
• Resumir el conjunto de datos
• Visualizar una porción de los datos
Preparación:
1. Filtrar columnas
2. Revisar valores no asignados (NA)
3. Agregar un índice
4. Cambiar valores engañosos en los campos
5. Cambiar variables nominales a ordinales
6. Estandarizar valores numéricos
Análisis exploratorio de datos

Propósitos:
• Gráficas son usadas para explorar la relación entre variables independientes y variable
dependiente.
• Gráficas y tablas se usan para derivar nuevas variables con el propósito de aumentar el valor
predictivo.
Análisis:
1. Gráficas de barras con respuestas sobrepuestas
2. Tablas de contingencia
3. Histogramas con respuestas sobrepuestas
Configuración

Tareas a desarrollar:
1. Dividir los datos
2. Balancear los datos
Proceso de validación cruzada

Objetivo:
1. Permite asegurar que los resultados son generalizables con un conjunto de datos desconocidos e independiente.
Características:
2. Se obtiene un conjunto de entrenamiento
3. Se obtiene un conjunto de prueba
Clasificación
Idea de la tarea

Actividades:
• Carga de conjunto de datos (y explicación del contexto)
• Configuración
• Creación del clasificador (árbol de decisión)
• Prueba y medición del desempeño del clasificador
• Experimentación
Clasificación
Árbol de Decisión
Características:
• Estructura jerárquica que implementa
una estrategia de divide y vencerás
• Permiten una fácil interpretación
Resumen del desempeño de un clasificador
 Indicadores de desempeño:
Matriz de confusión • Falsos Negativos:
Predicción Predicción • Falsos Positivos:
 Clase • Proporción de Positivos:
• Proporción de Negativos:
Clase
• Razón de clase:
Total Predicciones Total Predicciones • Proporción de Verdaderos Positivos (sensibilidad,
recuperación):
• Cantidad de Positivos () • Proporción de Verdaderos Negativos (especificidad):
• Cantidad de Negativos () • Proporción de Falsos Negativos:
• Verdaderos Positivos ( = True Positives) •
• Verdaderos Negativos ( = True Negatives) • Proporción de Falsos Positivos (Proporción de Falsa Alarma):
• Falsos Negativos ( = False Negatives)
• Falsos Positivos ( = False Positives) •
• Cantidad Total en conjunto de patrones () • Exactitud (Accuracy) es la proporción de correcta clasificación:

• Proporción de error:
• Precisión (Confidencia), es la proporción de los verdaderos
positivos entre las predicciones marcadas como positivas:
Regresión
Idea de la tarea

Actividades:
• Carga de conjunto de datos (y explicación del contexto)
• Configuración
• Creación del regresor (red neuronal artificial)
• Prueba y medición del desempeño del regresor
• Experimentación
Regresión
Redes Neuronales Artificiales

Características:
• Formada de un conjunto de unidades
de procesamiento (neuronas)
• Unidades de procesamiento
densamente conectadas
• Tiene reglas de aprendizaje
Error de un Regresor

 • El error cuadrático medio (MSE) es un estimador que permite calcular el error entre la respuesta de un predictor y
el valor que se está estimando.
• El MSE se calcula:

• Donde:
• es el conjunto de puntos
• es la salida esperada
• es la respuesta del predictor
Agrupamiento
Idea de la tarea

Actividades:
• Carga de conjunto de datos (y explicación del contexto)
• Creación del agrupador (algoritmo de K medias)
• Prueba del algoritmo de K medias
• Experimentación
Agrupamiento
Algoritmo de K Medias

Características:
• Algoritmo que forma grupos utilizando
el concepto de distancia.
• El numero de grupos (k) debe ser
especificado por el usuario.
Método del codo
Bibliografía
Bibliografía
Bibliografía
¡Gracias!

Nacimos… Virtuales
uveg.edu.mx
Título
Subtítulo

Tema
Texto,texto,texto

También podría gustarte