Clase Clustering

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 44

IIC2433 Minería de Datos

Clustering

Profesor: Mauricio Arriagada


Minería de Datos
Algoritmo de Clustering

https://pro.arcgis.com/en/pro-app/tool-reference/big-data-analytics/find-point-clusters.htm
OBJETIVO
▸ Algoritmo K-means consiste en encontrar grupos de datos
similares o clusters
Definir el valor de k
▸ Suponiendo que se tiene un set de datos de dos variables
como se muestra en la figura
▸ El primer paso es definir el valor de k (número de clusters). Este
valor es un parámetro del algoritmo que se debe definir antes
de ejecutar el algoritmo. No existe un valor definido para k
Una vez definido el número k
▸ Se generan k centros alatorios
Una vez definido el número k
▸ Se generan k centros alatorios
▸ Luego, se asigna cada punto del set de datos al punto más
cercano
Una vez definido el número k
▸ Ahora, los grupos se pueden reconfigurar. Es posible que cada
grupo encuentre un nuevo centro en su cluster
▸ Es común usar distancia Euclidiana para medir longitud de
puntos
Una vez definido el número k
▸ Cada vez que se actulizan los centros, cada cluster tienen un
nuevo centro.
▸ Esto es un proceso iterativo hasta converger a mejores centros
Una vez definido el número k
▸ Este proceso iterativo termina cuando la posición de los cluster
no cambia significativamente

▸ Es posible definir criterios de detención del algoritmo


▸ Por ejemplo, definir un delta (distancia muy pequeña) que se usará
para determinar si la posición de los centros es mayor o menor a este
delta.
Consideraciones antes de ejecutar k-means
▸ ¿Cómo se puede asegurar un resultado más cercano al correcto luego de haber
ejecutado K-means?
▸ El algoritmo no siempre converge al mismo resultado. Esto es porque la posición
inicial de los centros es aleatoria
▸ Por ejemplo en algunos casos, algunos centros pueden quedar muy lejos de las
masas de datos impidiendo que estos puedan actualizarse y moverse a las zonas
de mayor densidad
Posible solución
Ejecutar el algoritmo K-Means varias veces,
de tal forma de reducir la probabilidad de que nos estemos
quedando con un resultado de clustering muy extremo
Determinado el valor de k
▸ Ejemplo si k = 2
Determinado el valor de k
▸ Ejemplo si k = 5
▸ Comparando k=2 y k=5 los resultados son totalmente diferentes
Determinado el valor de k
▸ Una alternativa es ejecutar el algoritmo varias veces cambiando el valor de K y
analizando los resultados
▸ Si al variar K vemos que ciertos puntos pasan a otros clusters (cuando sabemos
que no deberían) es probable que el valor de K sea muy alto
▸ Asimismo, si los clusters tienen pocos puntos, es un indicador que se debe reducir
el valor de K
Determinado el valor de k
▸ K-means trabaja con distancia Euclidiana es importante usar
variables que solo son importantes, de lo contrario, mantener
variables sin importancia podría causar ruido en el cálculo de los
centros.
Ejemplo
▸ Supongamos que contamos con la siguiente información financiera
pertenenciente a un/a jefe/a de familia
Ejemplo
▸ El primer paso es normalizar
Ejemplo
▸ Se definirán aleatoriamente los centros para 2 clusters
Ejemplo
▸ Se debe calcular la distancia euclidiana de todos los registros hacia
los centros seleccionados
Ejemplo
▸ Por registro, se selecciona el menor valor existente entre clusters
Ejemplo
▸ Esto genera que los clusters tienen registroa asociados a ellos
Ejemplo
▸ Se debe actualizar el centro del nuevo cluster. Esto se puede
obtener a través del promedio de cada registro asociado al cluster
en cuestión. En este caso, cluster 1
Ejemplo
▸ Se debe actualizar el centro del nuevo cluster. Esto se puede
obtener a través del promedio de cada registro asociado al cluster
en cuestión. En este caso, cluster 2
Ejemplo
▸ Este proceso se debe repertir usando los nuevos centros
Ejemplo
▸ Este proceso se debe repertir usando los nuevos centros
Ejemplo
▸ Los registros asociados a los nuevos centros son:
Ejemplo
▸ Se vuelve a actualizar los centros, en este caso de cluster 1:
Ejemplo
▸ Se vuelve a actualizar los centros, en este caso de cluster 1:
Ejemplo
▸ Se vuelve a iterar con los nuevos centros.:
Ejemplo
▸ Se seleccionan los registros asociados al cluster:
Ejemplo
▸ Se seleccionan los registros asociados al cluster:
Clustering jerárquico aglomerativo
▸ Es un método bastante sencillo y útil en la práctica

▸ La idea principal del clustering jerárquico es que a partir de una


medida de similaridad, se van juntando paso a paso los puntos
más cercanos dentro de los datos, generando una jerarquía de
resultados de clustering.
Clustering jerárquico aglomerativo
▸ En cada iteración se van juntando el par de cluster más cercano
▸ Cada punto es un cluster por si solo
Clustering jerárquico aglomerativo
▸ Los 2 puntos pasan a formar un cluster llamado 1
Clustering jerárquico aglomerativo
▸ Se debe continuar con juntar los clusters más cercanos, En este
ejemplo es el cluster 2
Clustering jerárquico aglomerativo
▸ Se continúa juntando el par de clusters más cercano
Clustering jerárquico aglomerativo
▸ Finalmente, se llegará a un solo cluster que contendrá todos los
registros
▸ Siempre es posible detener el algoritmo antes de llegar a crear un
gran cluster. En este caso se debe contar con algún criterio
Clustering jerárquico aglomerativo
▸ Entre los criterios de detención del algoritmo se encuentran:

▸ Número mínimo de clusters


▸ Umbral de distancia máxima
▸ Número máximo de iteraciones.
▸ Estos criterios aplican de manera diferente en diversas bases de
datos por lo que requiere un entendimiento del set de datos antes
de ser aplicado
Clustering jerárquico aglomerativo
▸ Además se necesita medir la distancia entre clusters. Algunas son:

▸ Conexión simple
▸ Conexión completa
▸ Distencia entre medias
▸ Distancia promedio entre pares
Conexión Simple
▸ Se calcula la mínima distancia entre todos los pares de puntos de
ambos clusters y se selecciona la menor
Conexión completa
▸ Es lo opuesto a conexión simple
Conexión distancia entre medias
▸ Es la distancia que existe entre los centroides de cada grupo
Conexión distancia entre medias
▸ Correponde al promedio de distancias
REFERENCIAS
▸Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.

▸Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2016). Data Mining: Practical machine learning
tools and techniques. Morgan Kaufmann.

▸Hand, D. J. (2006). Data Mining. Encyclopedia of Environmetrics, 2.

▸Introducción a la Minería de Datos, Karim Pichara, coursera.

Profesor Mauricio Arriagada: [email protected]

También podría gustarte