Método Jerárquico de Análisis de Cluster

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 8

Método Jerárquico de Análisis de Cluster

 En los métodos jerárquicos los individuos no se particionan en clusters de una sola vez, sino
que se van haciendo particiones sucesivas a " distintos niveles de agregación o agrupamiento.
Fundamentalmente, los métodos jerárquicos suelen subdividirse en métodos aglomerativos
(ascendentes), que van sucesivamente fusionando grupos en cada paso; y métodos divisivos
(descendentes), que van desglosando en grupos cada vez más pequeños el conjunto total de
datos.
Los métodos aglomerativos, también conocidos como ascendentes, comienzan el análisis con
tantos grupos como individuos haya. A partir de estas unidades iniciales se van formando
grupos, de forma ascendente, hasta que al final del proceso todos los casos tratados están
englobados en un mismo conglomerado. Los métodos disociativos, también llamados
descendentes, constituyen el proceso inverso al anterior. Comienzan con un conglomerado que
engloba a todos los casos tratados y, a partir de este grupo inicial, a través de sucesivas
divisiones, se van formando grupos cada vez más pequeños. Al final del proceso se tienen tantas
agrupaciones como casos han sido tratados.
Para fijar ideas, centrémonos en los métodos aglomerativos. Sea n el conjunto de individuos de
la muestra, de donde resulta el nivel K = 0, con n grupos. En el siguiente nivel se agruparán
aquellos dos individuos que tengan la mayor similitud (o menor distancia), resultando así n − 1
grupos; a continuación, y siguiendo con la misma estrategia, se agruparán en el nivel posterior,
aquellos dos individuos (o clusters ya formados) con menor distancia o mayor similitud; de esta
forma, en el nivel L tendremos n − L grupos formados. Si se continúa agrupando de esta forma,
se llega al nivel L = n − 1 en el que solo hay un grupo, formado por todos los individuos de la
muestra. Esta manera de formar nuevos grupos tiene la particularidad de que, si en un
determinado nivel se agrupan dos clusters, estos quedan ya jerárquicamente agrupados para el
resto de los niveles. Los métodos jerárquicos permiten la construcción de un árbol de
clasificación, que recibe el nombre de dendrograma (figura 1.1), en el cual se puede seguir de
forma gráfica el procedimiento de unión seguido, mostrando que grupos se van uniendo, en qué
nivel concreto lo hacen, así como el valor de la medida de asociación entre los grupos cuando
estos se agrupan (valor que llamaremos nivel de fusión). En resumen, la forma general de operar
de estos métodos es bastante simple, se selecciona una medida de similitud, agrupándose los dos
grupos o clusters con mayor similitud. Así se continúa hasta que:

 Se forma un solo grupo.


 Se alcanza el número de grupos prefijado
 Se detecta, a través de un contraste de significación, que hay razones estadísticas para
no continuar agrupando clusters, ya que los más similares no son lo suficientemente
homogéneos como para determinar una misma agrupación.
Figura 1.1: Dendrograma
1) Método Jerárquico Aglomerativo
También se lo conoce como aglomeración aglomerativa jerárquica (HAC) o AGNES (acrónimo
de aglomeración de anidación). En este método, cada observación se asigna a su propio clúster.
Luego, se calcula la similitud (o distancia) entre cada uno de los clusters y los dos clusters más
similares se fusionan en uno. Finalmente, los pasos 2 y 3 se repiten hasta que solo quede un
grupo.
Las estrategias que pueden ser empleadas a la hora de unir los clusters en las diversas etapas o
niveles de un procedimiento jerárquico. Ninguno de estos procedimientos proporciona una
solución óptima para todos los problemas que se pueden plantear, ya que es posible llegar a
distintos resultados según el método elegido. Existen procedimientos que sirven para contrastar
los resultados obtenidos y sacar conclusiones, tanto como si hubiera coincidencias en los
resultados obtenidos con métodos distintos como si no las hubiera.
1.1. Estrategia de la distancia mínima o similitud máxima: Esta estrategia recibe en
la literatura anglosajona el nombre de amalgamamiento simple (single linkage). En este
método se considera que la distancia o similitud entre dos clusters viene dada,
respectivamente, por la mínima distancia (o m´axima similitud) entre sus componentes.
Así, si tras efectuar la etapa K-´esima, tenemos ya formados n− K clusters, la distancia
entre los clusters Ci (con ni elementos) y Cj (con nj elementos) sería:

mientras que la similitud, si estuviéramos empleando una medida de tal tipo, entre los
dos clusters sería:

a. En el caso de emplear distancias, se unirán los clusters Ci y Cj si:

b. En el caso de emplear similitudes, se unirán los clusters Ci y Cj si:

1.2. Estrategia de la distancia m´axima o similitud mínima: En este método, también


conocido como el procedimiento de amalgamamiento completo (complete linkage), se
considera que la distancia o similitud entre dos clusters hay que medirla atendiendo a
sus elementos más dispares, o sea, la distancia o similitud entre clusters viene dada,
respectivamente, por la m´axima distancia (o mínima similitud) entre sus componentes.
Así pues, al igual que en la estrategia anterior, si estamos ya en la etapa K-ésima, y por
lo tanto hay ya formados n − K clusters, la distancia y similitud entre los clusters Ci y
Cj (con ni y nj elementos respectivamente), serán:

La estrategia seguida en el siguiente nivel, K + 1, será:


a. En el caso de emplear distancias, se unirán los clusters Ci y Cj si:

b. En el caso de emplear similitudes, se unirán los clusters Ci y Cj si:

1.3. Estrategia de la distancia, o similitud, promedio no ponderado: En esta


estrategia la distancia, o similitud, del clúster Ci con el Cj se obtiene como la media
aritmética entre la distancia, o similitud, de las componentes de dichos clusters. Así, si
el clúster Ci (con ni elementos) está compuesto, a su vez, por dos clusters Ci1 y Ci2
(con ni1 y ni2 elementos respectivamente), y el clúster Cj posee nj elementos, la
distancia, o similitud, entre ellos se calcula como la siguiente fórmula:

1.4. Estrategia de la distancia, o similitud, promedio ponderado: Se considera que la


distancia, o similitud, entre dos clusters, viene definida por el promedio ponderado de
las distancias, o similitudes, de los componentes de un cluster respecto a los del otro.
Sea dos clusters, Ci y Cj; supongamos que el cluster Ci está formado, a su vez, por otros
dos clusters, Ci1 y Ci2, con ni1 y ni2 elementos respectivamente. Sea ni = ni1 + ni2 el
número de elementos de Ci y nj el número de elementos que componen Cj. Entonces, en
términos de distancias (igual puede hacerse para similitudes), la distancia promedio
ponderada sería, notando xi ∈ Ci, xi1 ∈ Ci1, xi2 ∈ Ci2, xj ∈ Cj. Con lo cual la distancia
d(Ci ,Cj) es el promedio ponderado de las distancias de cada uno de los dos clusters
previos, Ci1 y Ci2, con respecto al cluster Cj.

1.5. Métodos basados en el centroide: En estos métodos, la semejanza entre dos


clusters viene dada por la semejanza entre sus centroides, esto es, los vectores de
medias de las variables medidas sobre los individuos del clúster. Entre ellos
distinguiremos dos:
a. Método del centroide ponderado, en el que los tamaños de los clusters son
considerados a la hora de efectuar los cálculos.
Centrándonos en la distancia euclídea al cuadrado, supongamos que
pretendemos medir la distancia entre los clusters Cj (compuesto por nj
elementos) y Ci (formado a su vez por dos clusters, Ci1 y Ci2, con ni1 y ni2
elementos, respectivamente). Sean mj, mi1 y mi2 los centroides de los clusters
anteriormente citados (obviamente, esos centroides son vectores n
dimensionales). Así, el centroide del clúster Ci vendrá dado en notación
vectorial por:

Cuyos componentes serán:

Con ello, la distancia euclídea al cuadrado entre los clusters Ci y Cj vendrá dada
por:

b. Método del centroide no ponderado, o método de la mediana, en el cual los


tamaños de los clusters no son considerados
La estrategia de la distancia mediana, al considerar de forma arbitraria que ni1
= ni2, provoca que el centroide del cluster Ci esté situado entre los clusters Ci1
y Ci2 y con ello el centroide del cluster (Ci, Cj) est´e localizado en el punto
central o mediana del triángulo formado por los clusters Ci1, Ci2 y Cj. Salvo
esta diferencia, la estrategia de la distancia mediana es análoga a la anterior y,
por lo tanto, goza de sus mismas características. Así, si estamos hablando de
distancias, la distancia entre el cluster Ci y el Cj viene dada por:
2) Método Jerárquico Disociativo
Los métodos disociativos, constituyen el proceso inverso a los aglomerativos. Comienzan con
un conglomerado que engloba a todos los casos tratados y, a partir de este grupo inicial, a través
de sucesivas divisiones, se van formando grupos cada vez menores. Al final del proceso se
tienen tantas agrupaciones como casos han sido tratados.
2.1. Monotéticos: Los cuales dividen los datos sobre la base de un solo atributo y suelen
emplearse cuando los datos son de tipo binario.
2.2. Politéticos: Cuyas divisiones se basan en los valores tomados por todas las variables. Esta
clase de procedimientos es bastante menos popular que los ascendentes por lo que la literatura
sobre ellos no es muy extensa. Una cuestión importante que puede surgir en su desarrollo es el
hecho de cuando un cluster determinado debe dejar de dividirse para proceder con la división de
otro conglomerado distinto. Dicha cuestión puede resolverse con la siguiente variante expuesta
por MacNaughton-Smith en 1964 y que está concebida para aquellas medidas de asociación que
sean positivas. Dicho procedimiento comienza con la eliminación del grupo principal de aquel
individuo cuya distancia sea mayor, o cuya similaridad sea menor, al cluster formado por los
restantes individuos, tomando como base para calcular dichas distancias o similaridades
cualquiera de los procedimientos anteriormente descritos en los m´etodos ascendentes. Así se
tiene un cluster unitario y otro formado por los restantes individuos.
3) Matriz cofenética:
Los métodos jerárquicos imponen una estructura sobre los datos y es necesario con frecuencia
considerar si es aceptable o si se introducen distorsiones inaceptables en las relaciones
originales. El método más usado para verificar este hecho, o sea, para ver la relación entre el
dendrograma y la matriz de proximidades original, es el coeficiente de correlación cofenético, el
cual es simplemente la correlación entre los (n(n − 1))/2 elementos de la parte superior de la
matriz de proximidades observada y los correspondientes en la llamada matriz cofenética, C,
cuyos elementos, cij, se definen como aquellos que determinan la proximidad entre los
elementos i y j cuando estos se unen en el mismo cluster. Así, si tras el empleo de varios
procedimientos cluster distintos, estos conducen a soluciones parecidas, surge la pregunta de
que método elegiremos como definitivo. La respuesta la da el coeficiente cofenético, ya que
aquel método que tenga un coeficiente cofenético más elevado será aquel que presente una
menor distorsión en las relaciones originales existentes entre los elementos en estudio.
4) Problemas de Clusters a determinar:
Con frecuencia, cuando se emplean técnicas clusters jerárquicas, el investigador no está
interesado en la jerarquía completa sino en un subconjunto de particiones obtenidas a partir de
ella. Las particiones se obtienen cortando el dendrograma o seleccionando una de las soluciones
en la sucesión encajada de clusters que comprende la jerarquía. Desafortunadamente este paso
fundamental está entre los problemas que todavía no están totalmente resueltos. Entre las
razones más importantes que se pueden citar para que dicho problema siga siendo un campo
abierto están las siguientes:
a. La inexistencia de una hipótesis nula apropiada. En efecto, la dificultad para crear una
hipótesis nula operativa radica en la falta de una definición clara y comprensiva de lo
que significa no estructura en un conjunto de datos. El concepto de no estructura (que
podía ser una posible hipótesis nula) está bastante lejos de ser clara, lo cual conlleva a
no saber qué tipos de contrastes hay que desarrollar para determinar si una determinada
estructura está presente o no en el conjunto de datos. Dubes y Jain (1980) comentan
sobre este hecho lo siguiente: ... el rechazo de la hipótesis nula no es significativo
porque no han sido desarrolladas hipótesis alternativas significativas; todavía no existe
una definición útil y práctica de estructura cluster, matemáticamente hablando.
b. La naturaleza compleja de las distribuciones muestrales multivariantes. Igualmente,
intratable es el problema de la mixtura de las distribuciones muestrales multivariantes
en el análisis de datos reales. Aunque son muchos los aspectos conocidos y
desarrollados acerca de la distribución normal multivariante, no es ni esperable ni
razonable que los datos que se manejen en estos estudios obedezcan a dicha ley, sino
que existirán mixturas de diversas distribuciones muestrales que pueden ser incluso
desconocidas.

También podría gustarte