Dia5 IntroML
Dia5 IntroML
Dia5 IntroML
Clusterización y
Métodos de ensamble
Bloque A
Usualmente se utiliza la distancia Euclidiana (distancia entre dos puntos), pero es posible
ocupar otras métricas.
“Número inicial”
Desventajas
Es posible calcular que la probabilidad de obtener una mayoría de caras después de 1.000
lanzamientos es cercana al 75%. Cuanto más se lance la moneda, mayor será la probabilidad
(por ejemplo con 10.000 lanzamientos, la probabilidad supera el 97%).
Sin embargo, esto sólo es cierto si todos los clasificadores son perfectamente
independientes, cometiendo errores no correlacionados, lo que claramente
no es el caso ya que están entrenados con los mismos datos. Es probable que
cometan los mismos tipos de errores, por lo que habrá muchos votos
mayoritarios para la clase equivocada, reduciendo la precisión del conjunto.
¡Muy
bien!
Tipos de métodos de
ensamble más utilizados
Utiliza el mismo algoritmo de
entrenamiento para cada
predictor, pero entrenarlos en
diferentes subconjuntos
aleatorios del conjunto de
entrenamiento.
Cuando el muestreo se realiza
con reemplazo, este método se
denomina bagging
(abreviatura de bootstrap
aggregating).
Bagging
Una vez entrenados todos los predictores, el conjunto puede hacer una
predicción para una nueva instancia simplemente agregando las predicciones
de todos los predictores.