Clase Clustering
Clase Clustering
Clase Clustering
Clustering
https://pro.arcgis.com/en/pro-app/tool-reference/big-data-analytics/find-point-clusters.htm
OBJETIVO
▸ Algoritmo K-means consiste en encontrar grupos de datos
similares o clusters
Definir el valor de k
▸ Suponiendo que se tiene un set de datos de dos variables
como se muestra en la figura
▸ El primer paso es definir el valor de k (número de clusters). Este
valor es un parámetro del algoritmo que se debe definir antes
de ejecutar el algoritmo. No existe un valor definido para k
Una vez definido el número k
▸ Se generan k centros alatorios
Una vez definido el número k
▸ Se generan k centros alatorios
▸ Luego, se asigna cada punto del set de datos al punto más
cercano
Una vez definido el número k
▸ Ahora, los grupos se pueden reconfigurar. Es posible que cada
grupo encuentre un nuevo centro en su cluster
▸ Es común usar distancia Euclidiana para medir longitud de
puntos
Una vez definido el número k
▸ Cada vez que se actulizan los centros, cada cluster tienen un
nuevo centro.
▸ Esto es un proceso iterativo hasta converger a mejores centros
Una vez definido el número k
▸ Este proceso iterativo termina cuando la posición de los cluster
no cambia significativamente
▸ Conexión simple
▸ Conexión completa
▸ Distencia entre medias
▸ Distancia promedio entre pares
Conexión Simple
▸ Se calcula la mínima distancia entre todos los pares de puntos de
ambos clusters y se selecciona la menor
Conexión completa
▸ Es lo opuesto a conexión simple
Conexión distancia entre medias
▸ Es la distancia que existe entre los centroides de cada grupo
Conexión distancia entre medias
▸ Correponde al promedio de distancias
REFERENCIAS
▸Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.
▸Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2016). Data Mining: Practical machine learning
tools and techniques. Morgan Kaufmann.