Cluster
Cluster
Cluster
Análisis de Conglomerados
Introducción
◼ El análisis de conglomerados es un conjunto
de técnicas (algoritmos) que se utilizan para
clasificar objetos (o variables) en grupos
homogéneos llamados conglomerados.
◼ También llamado:
◼ Cluster,
◼ Cúmulos,
◼ Clasificación automática no supervisada y
◼ Reconocimiento de padrones sin supervisión.
◼ El agrupamiento se realiza de manera tal
que objetos dentro de un grupo son más
parecidos entre sí que aquellos que
pertenecen a grupos distintos.
Tipos de Análisis de Conglomerados
◼ No Jerárquicos ◼ Jerárquicos (dendograma)
Conglomerados no Jerárquicos
◼ En los métodos de Análisis de Conglomerados No
Jerárquicos se realiza un proceso de agrupación de las
observaciones para formar un número de conglomerados
fijado previamente, K.
◼ Los K conglomerados comienzan definiéndose a partir de
unos centros iniciales.
◼ A partir de esta asignación inicial, comienza un proceso
iterativo de reasignaciones en el que una observación
puede cambiar de conglomerado si existe otro centro más
próximo que el del conglomerado anteriormente asignado.
◼ Las restantes observaciones se asignan al
conglomerado cuyo centro esté más próximo.
◼ La asignación produce un cambio en los centros de los
conglomerados.
◼ El proceso termina cuando no hay cambio en los centros
o el cambio es menor de un valor de parada fijado.
Conglomerados Jerárquicos
◼ En los métodos de Análisis de Conglomerados
Jerárquicos se realiza un proceso de agrupación
de las observaciones en el que en cada paso se
agrupan dos conglomerados para formar un
conjunto.
|x
elevadas al cuadrado.
i − yi |
i =1
Ponderada y no ponderada.
Unweighted pair-group average
- Weighted pair-group average
◼ Pares no ponderados: La distancia entre dos
grupos es la distancia media entre todos los pares de
objetos de los dos grupos. Funciona bien cuando los
objetos forman grupos distintos o cuando forman
cadenas largas.
◼ Pares ponderados: como el anterior, pero pondera
con el número de objetos dentro de cada grupo. Se
emplea cuando se sospecha que el número de
objetos dentro de los diferentes grupos puede ser
bastante desigual.
Jerárquico
Centroide
C
La distancia entre A
conglomerados es la
distancia entre
medias de variables
de los respectivos B
conglomerados.
Jerárquico
0.00 0.63 1.26 1.89 2.52 0.00 1.57 3.14 4.71 6.27
Dis tancia Dis tancia
Ward
Distancia
Promedio (Average linkage)
Distancia 11
10
9 7
8 3
6 13
12 2
11 9
10 8
7 6
3 12
13 4
2 5
4 14
5 1
14
1 0.00 2.44 4.89 7.33 9.77
9 10 11 12 13 14 15 16
face/w = FL
ear/lev = ASPEC
17 18 19 20 21 22 23 24 halfface/h = CAPAC
upface/ecc = AMAB
loface/ecc = AUTOC
nose/l = LUC
25 26 27 28 29 30 31 32 mouth/cent = HON
mouth/curv = ARTE_V
mouth/l = EXP
eyes/h = EMP
eyes/sep = AMB
33 34 35 36 37 38 39 40
eyes/slant = CAPTAR
eyes/ecc = POTEN
eyes/l = ENTU
pupils/pos = CONV
41 42 43 44 45 46 47 48
1 2 3 4 5 6 7 8
9 10 11 12 13 14 15 16
Clockwise:
FL
ASPEC
CAPAC
17 18 19 20 21 22 23 24
AMAB
AUTOC
LUC
HON
25 26 27 28 29 30 31 32
ARTE_V
EXP
EMP
AMB
33 34 35 36 37 38 39 40 CAPTAR
POTEN
ENTU
CONV
41 42 43 44 45 46 47 48
Vecino más cercano
WARD
Coeficiente de Correlación
Cofenética
◼ Coeficiente que indica la correlación de las
distancias definidas por la métrica de árbol
binario con las distancias originales entre
objetos, así, se espera que, el agrupamiento
con mayor coeficiente sea el que mejor
describe el agrupamiento natural de los
datos.
Matriz de Distancia Ultramétrica
◼ Se dice que una matriz de distancias D es
ultramétrica si para todos los elementos del
conjunto se verifica que:
δij = δji, para todo i, j,
δii = 0, para todo i,
y además verifican la desigualdad ultramétrica:
δij ≤ max{δik, δkj}, para todo i, j, k.
◼ Puede demostrarse que a cada dendrograma le
corresponde una matriz de distancias ultramétrica
y viceversa.
Observación
◼ Muchos algoritmos de agrupamiento generan dos o
más particiones de los datos.
◼ ¿Cuántos grupos hay en los datos? o ¿Dónde debe
cortarse un dendrograma?.
◼ Criterios para interrumpir la formación de los grupos o
reglas de interrupción (stopping rules), en las que se
produce una secuencia de cortes del dendrograma en
niveles sucesivos; con las particiones así obtenidas se
aplica una regla de decisión para determinar el mejor
nivel en el que debe cortarse la formación de grupos.
◼ Uso de técnicas de clasificación en conglomerados para describir perfiles en
grandes bases de datos educativa, Luis Gabriel Jaimes.
Estrategia
◼ A los fines de alcanzar un óptimo global, es
recomendable usar varias particiones iniciales y
seleccionar aquella partición final con mínimo valor
de la función objetivo.
◼ Suma de Sumas de Cuadrado Dentro (SSCD en
InfoStat) función objetivo.
2(a + d)
◼ Coeficiente de Sokal y Sneath SSij =
2a + b + c + 2d
Ejemplo.
◼ Clasifique a los
siguientes animales de
acuerdo a corre, nada,
rastrera, vuela, salta,
respuestas son si o no
(1 ó 0).