Cluster

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 43

Clúster

Análisis de Conglomerados
Introducción
◼ El análisis de conglomerados es un conjunto
de técnicas (algoritmos) que se utilizan para
clasificar objetos (o variables) en grupos
homogéneos llamados conglomerados.

◼ También llamado:
◼ Cluster,
◼ Cúmulos,
◼ Clasificación automática no supervisada y
◼ Reconocimiento de padrones sin supervisión.
◼ El agrupamiento se realiza de manera tal
que objetos dentro de un grupo son más
parecidos entre sí que aquellos que
pertenecen a grupos distintos.
Tipos de Análisis de Conglomerados
◼ No Jerárquicos ◼ Jerárquicos (dendograma)
Conglomerados no Jerárquicos
◼ En los métodos de Análisis de Conglomerados No
Jerárquicos se realiza un proceso de agrupación de las
observaciones para formar un número de conglomerados
fijado previamente, K.
◼ Los K conglomerados comienzan definiéndose a partir de
unos centros iniciales.
◼ A partir de esta asignación inicial, comienza un proceso
iterativo de reasignaciones en el que una observación
puede cambiar de conglomerado si existe otro centro más
próximo que el del conglomerado anteriormente asignado.
◼ Las restantes observaciones se asignan al
conglomerado cuyo centro esté más próximo.
◼ La asignación produce un cambio en los centros de los
conglomerados.
◼ El proceso termina cuando no hay cambio en los centros
o el cambio es menor de un valor de parada fijado.
Conglomerados Jerárquicos
◼ En los métodos de Análisis de Conglomerados
Jerárquicos se realiza un proceso de agrupación
de las observaciones en el que en cada paso se
agrupan dos conglomerados para formar un
conjunto.

◼ El proceso comienza considerando tantos


conglomerados como observaciones y acaba con la
formación de un único conglomerado que las
contenga todas.
Observaciones
◼ El Método Jerárquico es útil para
determinar el número óptimo de
conglomerados.

◼ Ambos métodos son del tipo aglomerativo.


Antes de ...
◼ Selección de las variables a utilizar.

◼ Elección de la medida de proximidad


(distancia) de los individuos.

◼ Elección del método o algoritmo para agrupar


a los individuos en un conglomerado.
Elección Medida de Proximidad
◼ La matriz de datos nxp es transformada en una
matriz de distancia que contiene como elemento ij la
distancia entre los objetos i y j, la cual denotaremos
por δij, (que verifica que la distancia es no negativa,
δij =δji y δii=0, para cada i, j, se verifica la desigualdad
triangular, δij ≤ δik+ δkj, para cada i,j ).

◼ La selección de la medida depende del tipo de


variables.
Jerárquico - no Jerárquico

Algunos ejemplos de medidas de


proximidad
◼ Distancia Euclídea: Es la más utilizada, tiene la
ventaja de que la distancia entre dos objetos no está
afectada por la adición de nuevos elementos.
1/2
 p
2
 |x i − yi | 
 i=1 

◼ Distancia Euclídea al cuadrado: Ppermite dar más


peso a la distancia de os objetos que están más
p
lejos.
|x
i =1
2
i − yi |
Jerárquico - no Jerárquico

Algunos ejemplos de medidas de


proximidad
◼ Distancia Manhattan o City-Block: Es el promedio de
la diferencia entre dimensiones. Casi siempre al
emplear esta distancia obtenemos los mismos
resultados que con la distancia Euclídea, pero las
diferencias mayores se disimulan porque no están
p

 |x
elevadas al cuadrado.
i − yi |
i =1

◼ Distancia Chebychev: Se emplea cuando queremos


considerar que los objetos son diferentes si lo son
en una de las dimensiones. máx |x i − yi |
p
Jerárquico - no Jerárquico

Algunos ejemplos de medidas de


proximidad
◼ Distancia Potencia: La utilizamos cuando queremos
aumentar o disminuir el peso de las dimensiones en
las que los objetos de estudio son muy diferentes.
1/r
 p
p
  |x i − yi | 
 i=1 

◼ Distancia de Mahalanobis: La más utilizada, pues


corresponde a estandarizar nuestros datos.
(x − y)'S-1 (x − y)
Selección Algoritmo de Clasificación
◼ El algoritmo indica cómo se formarán los
grupos a partir de una matriz de distancias
(distancia entre los conglomerados).
Jerárquico

Vecino más cercano o


Agrupamiento simple (Single linkage)
La distancia entre dos grupos
está determinada por la
distancia entre los dos objetos
más próximos entre los
diferentes grupos.
Tiende a unir objetos con poco
parecido, exagera las seme-
janzas. Suele dar lugar a
cadenas largas.
Vecino más lejano o Jerárquico

Agrupamiento completo (Complete


linkage)

La distancia entre los grupos


vienen determinadas por la
mayor distancia entre los dos
objetos de los grupos.
Exagera las distancias.
Funciona bien cuando los
objetos forman grupos
diferentes.
Jerárquico

Distancia promedio (average linkage)

La distancia entre dos grupos


corresponde a la distancia
promedio entre todas las
distancias entre pares de
objetos.

Ponderada y no ponderada.
Unweighted pair-group average
- Weighted pair-group average
◼ Pares no ponderados: La distancia entre dos
grupos es la distancia media entre todos los pares de
objetos de los dos grupos. Funciona bien cuando los
objetos forman grupos distintos o cuando forman
cadenas largas.
◼ Pares ponderados: como el anterior, pero pondera
con el número de objetos dentro de cada grupo. Se
emplea cuando se sospecha que el número de
objetos dentro de los diferentes grupos puede ser
bastante desigual.
Jerárquico

Centroide
C

La distancia entre A
conglomerados es la
distancia entre
medias de variables
de los respectivos B
conglomerados.
Jerárquico

Método de Ward o de mínima


varianza
◼ Emplea un análisis de varianza para calcular las
distancias entre grupos. Es muy eficiente, pero
tiende a calcular grupos de tamaños muy
pequeños. Requiere que los datos se ajusten a
la normalidad, debe utilizarse la distancia
Euclídea como criterio de medida de proximidad.
Ejemplo 1.
◼ n=14 , p=5
◼ Número de personas
◼ Número promedio de
años en el colegio
◼ Número total de
empleados
◼ Número de empleados
en el área de la salud
◼ Valor promedio de una
casa
Caras de Chernoff
Gráfico de Estrella
Matriz de Distancias (casos)
Encadenamiento Simple (Single linkage) Encadenamiento Completo (Complete linkage)
Distancia Distancia
9 9
6 8
12 6
8 12
4 11
13 10
11 7
10 3
7 13
3 2
2 4
5 5
14 14
1 1

0.00 0.63 1.26 1.89 2.52 0.00 1.57 3.14 4.71 6.27
Dis tancia Dis tancia

Ward
Distancia
Promedio (Average linkage)
Distancia 11
10
9 7
8 3
6 13
12 2
11 9
10 8
7 6
3 12
13 4
2 5
4 14
5 1
14
1 0.00 2.44 4.89 7.33 9.77

0.00 1.02 2.04 3.06 4.08 Dis tancia


Dis tancia
Cluster No Jerárquico (casos)
Grupo 1 2 3 7 10 11 13 K=3
Grupo 2 1 5 6 8 9 14
Grupo 3 2 12
Ejercicio 1.
◼ n=48 , p=15
◼ forma de su letra en la ◼ experiencia (EXP)
solicitud (FL) ◼ empuje (EMP)
◼ su aspecto (ASPEC)
◼ ambición (AMB)
◼ capacidad académica
◼ capacidad para captar
(CAPAC)
consejos (CAPTAR)
◼ amabilidad (AMAB)
◼ potencial (POTEN)
◼ auto-confianza (AUTOC)
◼ entusiasmo para trabajar en
◼ lucidez (LUC)
grupo (ENTU)
◼ honestidad (HON)
◼ conveniencia (CONV).
◼ arte de vender (ARTE_V)
1 2 3 4 5 6 7 8

9 10 11 12 13 14 15 16

face/w = FL
ear/lev = ASPEC
17 18 19 20 21 22 23 24 halfface/h = CAPAC
upface/ecc = AMAB
loface/ecc = AUTOC
nose/l = LUC
25 26 27 28 29 30 31 32 mouth/cent = HON
mouth/curv = ARTE_V
mouth/l = EXP
eyes/h = EMP
eyes/sep = AMB
33 34 35 36 37 38 39 40
eyes/slant = CAPTAR
eyes/ecc = POTEN
eyes/l = ENTU
pupils/pos = CONV
41 42 43 44 45 46 47 48
1 2 3 4 5 6 7 8

9 10 11 12 13 14 15 16
Clockwise:
FL

ASPEC

CAPAC
17 18 19 20 21 22 23 24
AMAB

AUTOC

LUC

HON
25 26 27 28 29 30 31 32
ARTE_V

EXP

EMP

AMB
33 34 35 36 37 38 39 40 CAPTAR

POTEN

ENTU

CONV
41 42 43 44 45 46 47 48
Vecino más cercano
WARD
Coeficiente de Correlación
Cofenética
◼ Coeficiente que indica la correlación de las
distancias definidas por la métrica de árbol
binario con las distancias originales entre
objetos, así, se espera que, el agrupamiento
con mayor coeficiente sea el que mejor
describe el agrupamiento natural de los
datos.
Matriz de Distancia Ultramétrica
◼ Se dice que una matriz de distancias D es
ultramétrica si para todos los elementos del
conjunto se verifica que:
δij = δji, para todo i, j,
δii = 0, para todo i,
y además verifican la desigualdad ultramétrica:
δij ≤ max{δik, δkj}, para todo i, j, k.
◼ Puede demostrarse que a cada dendrograma le
corresponde una matriz de distancias ultramétrica
y viceversa.
Observación
◼ Muchos algoritmos de agrupamiento generan dos o
más particiones de los datos.
◼ ¿Cuántos grupos hay en los datos? o ¿Dónde debe
cortarse un dendrograma?.
◼ Criterios para interrumpir la formación de los grupos o
reglas de interrupción (stopping rules), en las que se
produce una secuencia de cortes del dendrograma en
niveles sucesivos; con las particiones así obtenidas se
aplica una regla de decisión para determinar el mejor
nivel en el que debe cortarse la formación de grupos.
◼ Uso de técnicas de clasificación en conglomerados para describir perfiles en
grandes bases de datos educativa, Luis Gabriel Jaimes.
Estrategia
◼ A los fines de alcanzar un óptimo global, es
recomendable usar varias particiones iniciales y
seleccionar aquella partición final con mínimo valor
de la función objetivo.
◼ Suma de Sumas de Cuadrado Dentro (SSCD en
InfoStat) función objetivo.

◼ Es recomendable aplicar en primera instancia un


método jerárquico aglomerativo que sugiera un
determinado número de grupos y luego utilizar
dicha información como partición inicial del
algoritmo K-means.
El ancho de la silueta de la i-ésima observación es
definida por:
sili = (bi - ai)/ max(ai, bi).

ai denota la distancia promedio entre la observación i y


todas las otras que están en el mismo cluster de i.
bi denota la distancia promedio mínima de i a las
observaciones que están en otros clusters.

◼ Intuitivamente, observaciones con ancho de silueta


grande están bien agrupadas mientras aquellas con
ancho de silueta baja tienden a estar ubicadas en el
medio de dos conglomerados.
◼ Para un número de conglomerados dado, K, el ancho de
silueta promedio de la configuración de conglomerados
será simplemente el promedio de sili sobre todas las
observaciones. Es decir

◼ Se sugiere estimar el número óptimo de conglomerados


para el cual el promedio del ancho de silueta s es el
mayor posible.
Distancias en variables cualitativas
Coeficientes de similaridad.
Deben cumplir: Simetría, No negatividad, Mayor
valor implica mayor parecido
◼ Para datos binarios (0 1) se utilizan otras medidas
similaridad o disimilaridad, a continuación se
presentan algunos:
a +d
◼ Coeficiente de asocición simple. S =
a +b+c+d
ij

◼ Coeficiente de Jaccard (sim) Jij =


a
a +b+c

◼ Coeficiente de Rogers-Tanimoto (sim)


a +d
RTij =
a + 2b + 2c + d
◼ Coeficiente de Dice o Czekanowski o Sorenson
(sim) SD =
2a
2a + b + c
ij

2(a + d)
◼ Coeficiente de Sokal y Sneath SSij =
2a + b + c + 2d
Ejemplo.
◼ Clasifique a los
siguientes animales de
acuerdo a corre, nada,
rastrera, vuela, salta,
respuestas son si o no
(1 ó 0).

También podría gustarte