Bigdata - Semana 07a
Bigdata - Semana 07a
Bigdata - Semana 07a
Modelos de Clasificación
1. Modelos de Clasificación
La clasificación es otro problema de
aprendizaje automático común que se adecua
a la categoría de aprendizaje supervisado.
El H3 es el hiperplano que
maximiza la distancia entre
puntos de entrenamiento de las
dos clases, visibles en color o en
blanco y negro. Cuando se
presenta un nuevo punto de
datos, se clasifica según si se
encuentra en un lado o en el
otro de H3.
Descubrimiento
3. Algoritmo: K-nearest neighbor (k-NN)
(K-vecinos más cercanos) es posiblemente el clasificador más simple, que utiliza la distancia entre los
ejemplos de entrenamiento como medida de similitud.
Aplicaciones: sistemas de
recomendación, búsqueda semántica y
detección de anomalías.
Descubrimiento
Algoritmo: K-nearest neighbor (k-NN)
Algoritmo de aprendizaje supervisado basado en la distancia. El algoritmo no aprende explícitamente
un modelo ➔ memoriza las instancias de entrenamiento que son la «base de conocimiento» para la
predicción.
Undersampling vs Oversampling
➢ El submuestreo consiste en eliminar registros aleatorios de la clase mayoritaria, lo
que puede causar pérdida de información.
➢ El sobremuestreo (super) es duplicar registros aleatorios de la clase minoritaria, lo
que puede causar un sobreajuste.
Descubrimiento
5. Algoritmo: Árboles de Clasificación
Los modelos de árbol, donde la variable de destino puede tomar un conjunto finito de valores se
denominan árboles de clasificación. Las estructuras del árbol, las hojas representan etiquetas de clase y
las ramas representan las conjunciones de características que conducen a esas etiquetas.
Trabajo Practico
Análisis del caso Titanic
Quiénes sobrevivieron según las estadísticas.
➢ Parte 1: Crear un clasificador de
árbol de decisiones
➢ Parte 2: Aplicar el modelo del árbol
de decisiones
➢ Parte 3: Evaluar el modelo del árbol
de decisiones
Aprendizaje evidenciado
Trabajo Aplicativo