Conglomerados
Conglomerados
Conglomerados
(CLUSTERS)
INTRODUCCIÓN
Objetivos:
• Identificar los grupos que de manera natural se forman con los datos
Estos grupos se forman con base a las similaridades o disimilaridades entre los sujetos, no
entre las variables. En este sentido, esta es una técnica de análisis multivariado determi-
nada por los sujetos (casos) y no por las variables como, por ejemplo, en el análisis de factores.
• Podemos decir que esta técnica tiene más fundamento computacional que estadı́stico
• Si las variables no están medidas en la misma escala, es conveniente hacer el análisis con
las variables estandarizadas. El objetivo es que las variables con mayores magnitudes no
1
dominen el análisis (similar a Componentes Principales)
Una decisión muy importante que se debe tomar es sobre cómo calcular la distancia entre dos
observaciones. Es claro que esta elección dependerá de la escala de medición de las variables
involucradas en la misma.
Variables continuas
• Ji-cuadrada
• phi-cuadrada
Variables dicotómicas
• Distancia euclidiana
• Distancia euclidiana al cuadrado
Otras más
Cuando las variables no son métricas, y sólo corresponden a alguna medida de similaridad,
se tienen las siguientes medidas de distancia
Variables continuas
2
• Correlación de Pearson
• Coseno
Datos binarios
• Jaccard
• Russell Rao
• Dice
Y “un montón” más
Una vez que se ha definido qué distancia conviene usar para los casos, debemos decidir cómo
se habrá de calcular la distancia de un individuo a un conglomerado y la distancia entre los
conglomerados. Para este fin, se tiene las siguientes ligas.
Aquı́ la distancia entre dos conglomerados es la distancia entre sus sujetos más cercanos
La distancia entre dos conglomerados es la distancia entre sus dos sujetos más lejanos
UPGMA (unweighted par-group method using averages). La distancia entre dos clusters
es la distancia promedio entre todos los pares inter-clusters. Por lo general, se prefiere sobre
la liga simple o completa porque está basada en la información que proporcionan todos los
pares inter-cluster, contrario a la simple y la compuesta que se basan únicamente en una
distancia.
3
1 X
nR X nS
d(R, S) = dist(XRi , XSj )
nR nS i=1 j=1
Liga promedio. Es la distancia promedio entre todas las posibles distancias intra o inter
clusters. Apropiada, cuando el investigador asume que los grupos son homogéneos.
Clusters Jerárquicos
• Aglomerativos. En esta construcción se inicia con tantos clusters como sujetos haya en
la muestra. después se van agrupando de tal manera que los primeros en hacerlo son los más
similares, para, finalmente, agruparse todos en un único cluster.
• Divisivos. En este caso, el proceso es contrario al anterior. Se inicia con un cluster for-
mado por todos los individuos, y se van dividiendo de acuerdo a la lejanı́a entre ellos.
En este tipo de construcciones, el investigador puede decidir los cortes para los distintos
clusters, a partir de la observación de la columna de “coeficientes” o con un análisis de
representaciones gráficas de los conglomerados, tales como el dendrograma o Icicle plot. En
estos últimos casos, sobre todo con el dendrograma, es claro que un número grande de sujetos
hacen inútiles estas representaciones gráficas.
Se puede hacer un análisis exploratorio del número de cluster con una sub base, y después
utilizar toda la base para realizar la clasificación completa mediante otro(s) procedimiento(s)
de agrupación
El uso común de esta técnica, es para agrupar los casos; sin embargo, permite agrupar vari-
ables en lugar de sujetos
4
• Apropiados para muestras pequeñas
Métodos no jerárquicos
K Medias
En este caso, el investigador debe decidir inicialmente cuántos cluster subyacen a su conjunto
de observaciones. Este método trabaja utilizando la distancia Euclidiana entre los casos.
Inicialmente, salvo que el investigador lo proponga, el método elige de manera automática
los centros de los clusters, sobre grupos de casos lo suficientemente alejados unos de otros.
Durante el proceso iterativo, estos centros van cambiando. Los casos se van incorporando a
los clusters de acuerdo a su distancia más pequeña a los centros de los clusters formados.