Bigdata - Semana 07a

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 22

UNIDAD IV: MODELOS DEL ANÁLISIS DE DATOS

Modelos de Clasificación

Jose Espinoza Landa


Interés
Clasificación vs Regresión
AGENDA
1. Modelos de Clasificación
2. Clasificación SVM
3. Algoritmo: K-nearest neighbor (k-NN)
4. Regresión Logística
5. Algoritmo: Árboles de Clasificación
6. Aplicaciones de la clasificación
LOGRO DE LA UNIDAD

Al finalizar la unidad, el estudiante implementa aplicaciones de los

modelos de análisis de Datos aplicado a diversas con enfoque de BigData


LOGRO DE LA SESIÓN

Al término de esta sesión, el estudiante deberá revisar e interiorizar los

principales conceptos de Clasificación así como implementar modelos como K-

nearest, SVN, logística y árboles de Clasificación.

El estudiante deberá demostrar dominio conceptual y técnico de lo aprendido

en la sesión y aplicarlo en sus proyectos de curso.


Descubrimiento

1. Modelos de Clasificación
La clasificación es otro problema de
aprendizaje automático común que se adecua
a la categoría de aprendizaje supervisado.

Consiste en asignar una “categoría” a una


observación. Estamos prediciendo una variable
discreta (que puede tomar pocos valores
diferentes).

Podemos predecir: si un cliente va a cancelar su subscripción o no?,


Si un lunar es canceroso o no.
Si un vino es rojo, blanco o rosado.
Si una flor es rosa, un tulipán, un lirio.
Descubrimiento
Modelos de Clasificación
Es común, en problemas de clasificación, proporcionar no solo un conjunto de
puntos de datos de ejemplo de cada clase, sino también establecer cuáles son las
características de cada punto de datos más útiles para estimar la clase
correspondiente ➔ alimentamos las observaciones del modelo.
Descubrimiento
2. Clasificación SVM
En nuestro modelo podemos aplicar un algoritmo de maquina de soporte vectorial (SVM – Support
vector machine) separa la data con una línea.

Con una línea recta vemos que calsifica 2 puntos


azules como rojos, lo que significa que para esos
datos fue un mal pronóstico.

Podemos aplicar en nuestro modelo un curva en


lugar de una línea. El resultado hace que se ajuste
perfectamente.
Descubrimiento
Algoritmo: (SVM)
(Máquinas de vector de soporte - SVM) En lugar de basar la asignación de
membresía de la categoría en distancias de otros puntos, SVM computa la frontera,
o el hiperplano, que mejor separa los grupos.

El H3 es el hiperplano que
maximiza la distancia entre
puntos de entrenamiento de las
dos clases, visibles en color o en
blanco y negro. Cuando se
presenta un nuevo punto de
datos, se clasifica según si se
encuentra en un lado o en el
otro de H3.
Descubrimiento
3. Algoritmo: K-nearest neighbor (k-NN)
(K-vecinos más cercanos) es posiblemente el clasificador más simple, que utiliza la distancia entre los
ejemplos de entrenamiento como medida de similitud.

Los puntos de datos de cada clase se


marcan con otro símbolo. La distancia
entre los puntos representa la diferencia
entre los valores de sus funciones.

Aplicaciones: sistemas de
recomendación, búsqueda semántica y
detección de anomalías.
Descubrimiento
Algoritmo: K-nearest neighbor (k-NN)
Algoritmo de aprendizaje supervisado basado en la distancia. El algoritmo no aprende explícitamente
un modelo ➔ memoriza las instancias de entrenamiento que son la «base de conocimiento» para la
predicción.

➢ Calcular la distancia entre el item a clasificar


y el resto de items del dataset de
entrenamiento.
➢ Seleccionar los «k» elementos más cercanos
(con menor distancia, según la función que se
use)
➢ Realizar una «votación de mayoría» entre los
k puntos: los de una clase/etiqueta que
<<dominen>> decidirán su clasificación final.
Descubrimiento
4. Regresión Logística
La regresión logística es un algoritmo de clasificación que es utilizado para predecir la probabilidad de que un
dato pertenezca a una categoría. En este método, la variable dependiente es una variable binaria.

➢ La curva logística o curva en forma de S es


una función matemática que aparece en
diversos modelos de crecimiento de
poblaciones, propagación de
enfermedades epidémicas y difusión en
redes sociales.
➢ Dicha función constituye un refinamiento
del modelo exponencial para el
crecimiento de una magnitud.
Descubrimiento
Conjunto de Datos desbalanceados
Resampling:
Cuando muestreamos la variable de respuesta y tiene una tendencia o la mayoría de sus
resultados son de un valor. El modelo implementado podría tener sesgo a la tendencia.

Undersampling vs Oversampling
➢ El submuestreo consiste en eliminar registros aleatorios de la clase mayoritaria, lo
que puede causar pérdida de información.
➢ El sobremuestreo (super) es duplicar registros aleatorios de la clase minoritaria, lo
que puede causar un sobreajuste.
Descubrimiento
5. Algoritmo: Árboles de Clasificación

Los modelos de árbol, donde la variable de destino puede tomar un conjunto finito de valores se
denominan árboles de clasificación. Las estructuras del árbol, las hojas representan etiquetas de clase y
las ramas representan las conjunciones de características que conducen a esas etiquetas.

➢ Cada nodo interno (no hoja) está etiquetado con


una función de entrada

➢ Cada hoja del árbol se marca con una clase o una


distribución de probabilidad sobre las clases
Descubrimiento
Algoritmo: Árboles de Clasificación
El método, pretende explicar o predecir una variable a partir de un conjunto de
variables predictoras utilizando un conjunto de reglas sencillas

En nuestro ejemplo se construye nuestro árbol a partir de comparaciones


sencillas de los valores de las variables "x" y las variables "y".
Descubrimiento
6. Aplicaciones de la clasificación:
➢ Evaluación de riesgos: los sistemas pueden determinar que factores contribuyen a la probabilidad
de diversos riesgos. Por ejemplo, clasificar a los usuarios de seguros vehicular en categorías de
bajo, medio y alto riesgo y ajustar las primas que pagan según el nivel de riesgo.
Descubrimiento
Aplicaciones de la clasificación:
➢ Diagnósticos médicos: pueden utilizar preguntas orientadas para construir un
árbol de decisión que ayude a diagnosticar las enfermedades y riesgos de
enfermedades. Realizar el análisis preliminar de una gran cantidad de imágenes
de diagnóstico, y señalar las condiciones sospechosas para revisión de los
médicos.
Descubrimiento
Aplicaciones de la clasificación:
➢ Reconocimiento de imagen: como el reconocimiento de escritura a mano,
identificar números manuscritos. El clasificador recibe un ejemplo grande de
números manuscritos, que se ha etiquetado en cada instancia con el número real
representado. El clasificador busca las funciones que probablemente estén
presentes y sean únicas para cada uno de los números.
Experiencia

Trabajo Practico
Análisis del caso Titanic
Quiénes sobrevivieron según las estadísticas.
➢ Parte 1: Crear un clasificador de
árbol de decisiones
➢ Parte 2: Aplicar el modelo del árbol
de decisiones
➢ Parte 3: Evaluar el modelo del árbol
de decisiones
Aprendizaje evidenciado

Trabajo Aplicativo

➢ Parte 1: Realizar un análisis de los datos con


estádisticos
➢ Parte 2: Elaborar los distintos modelos de
clasificación en el proyecto grupal
implementado
➢ Parte 3: Presentar sus conclusiones
Referencias

• Big Data y Analytics de CISCO NETWORKING ACADEMY


• Caballero, R. Martin – BIG DATA CON PHYTON
• edX – Big Data sin misterios
• CRISP-DM Overview. URL: http://www.datascience-pm.com/crisp-dm-2/

• Scikit-learn - Funciones de evaluación: URL: https://scikit-


learn.org/stable/modules/classes.html#module-sklearn.metrics
• Lgdi Gonzales / 20 Abril, 2018 - Mitos y Verdades sobre Machine Learning. URL:
https://ligdigonzalez.com/mitos-y-verdades-sobre-machine-learning/

También podría gustarte