Conglomerados

ANÁLISIS DE CONGLOMERADOS
(CLUSTERS)
INTRODUCCIÓN
El análisis de conglomerados (clusters) es una técnica multivariada, cuyo objetivo es identi-

ficar los grupos que subyacen a un conjunto de observaciones
Objetivos:
• Identificar los grupos que de manera natural se forman con los datos
Estos grupos se forman con base a las similaridades o disimilaridades entre los sujetos, no
entre las variables. En este sentido, esta es una técnica de análisis multivariado determi-
nada por los sujetos (casos) y no por las variables como, por ejemplo, en el análisis de factores.
• Podemos decir que esta técnica tiene más fundamento computacional que estadı́stico
• Es una técnica descriptiva
• Aunque el objetivo común es agrupar a los sujetos, el análisis de conglomerados también

se puede utilizar para agrupar variables, de una forma similar al análisis de factores.
Consideraciones antes de realizar el análisis de conglomerados
• ¿Qué variables incorporar en el análisis?
• ¿Qué medida de distancia utilizar entre los casos?
• ¿Qué tipo de liga utilizar para los grupos?
• ¿Qué tipo de técnica de construcción de los conglomerados usar?
Pasos en el análisis de conglomerados
• Si las variables no están medidas en la misma escala, es conveniente hacer el análisis con
las variables estandarizadas. El objetivo es que las variables con mayores magnitudes no
1
dominen el análisis (similar a Componentes Principales)
• Selección de variables. Como este proceso no proporciona ninguna medida acerca de la

importancia de una variable en el análisis, ésta es una decisión que el usuario debe hacer
CUIDADOSAMENTE.
• Construir y evaluar el modelo de conglomerados
• Identificar la pertenencia (membresı́a) de los casos a su correspondiente cluster.
Una decisión muy importante que se debe tomar es sobre cómo calcular la distancia entre dos
observaciones. Es claro que esta elección dependerá de la escala de medición de las variables
involucradas en la misma.
Tipos de distancias para los casos, de acuerdo a su escala de medición
Variables continuas
• Distancia euclidiana (la más común)

• Distancia euclidiana al cuadrado
• Chebychev
• City block
• Minkowski
Variables de conteo (numéricas discretas)
• Ji-cuadrada
• phi-cuadrada
Variables dicotómicas
• Distancia euclidiana
• Distancia euclidiana al cuadrado
Otras más
Cuando las variables no son métricas, y sólo corresponden a alguna medida de similaridad,
se tienen las siguientes medidas de distancia
Variables continuas
2
• Correlación de Pearson
• Coseno
Datos binarios
• Jaccard
• Russell Rao
• Dice
Y “un montón” más
Métodos para la construcción de los conglomerados
Una vez que se ha definido qué distancia conviene usar para los casos, debemos decidir cómo
se habrá de calcular la distancia de un individuo a un conglomerado y la distancia entre los
conglomerados. Para este fin, se tiene las siguientes ligas.
Vecinos cercanos o liga simple
Aquı́ la distancia entre dos conglomerados es la distancia entre sus sujetos más cercanos
En términos matemáticos, si tenemos un cluster R con nR sujetos y otro S con nS sujetos,

entonces la distancia es:
d(R, S) = min(dist(XRi , XSj )) i ∈ (1, ..., nR ) j ∈ (1, ..., nS )
Vecinos lejanos o liga completa
La distancia entre dos conglomerados es la distancia entre sus dos sujetos más lejanos
d(R, S) = max(dist(XRi , XSj )) i ∈ (1, ..., nR ) j ∈ (1, ..., nS )
UPGMA (unweighted par-group method using averages). La distancia entre dos clusters
es la distancia promedio entre todos los pares inter-clusters. Por lo general, se prefiere sobre
la liga simple o completa porque está basada en la información que proporcionan todos los
pares inter-cluster, contrario a la simple y la compuesta que se basan únicamente en una
distancia.
3
1 X
nR X nS
d(R, S) = dist(XRi , XSj )
nR nS i=1 j=1
Liga promedio. Es la distancia promedio entre todas las posibles distancias intra o inter
clusters. Apropiada, cuando el investigador asume que los grupos son homogéneos.
Método de Ward. Calcula la suma de distancias Euclidianas cuadradas de cada caso en

un cluster, a la media de todas las variables. Esta es un tipo de aproximación a la ANOVA
y, por esta razón, es preferida por algunos investigadores. Cabe aclarar que se usa desde
un punto de vista descriptivo, no inferencial. Es conocido que el ANOVA usual, tiene
supuestos MUY FUERTES. (Normalidad, Igualdad de varianzas)
Formas de construcción de los conglomerados
Clusters Jerárquicos
• Aglomerativos. En esta construcción se inicia con tantos clusters como sujetos haya en
la muestra. después se van agrupando de tal manera que los primeros en hacerlo son los más
similares, para, finalmente, agruparse todos en un único cluster.
• Divisivos. En este caso, el proceso es contrario al anterior. Se inicia con un cluster for-
mado por todos los individuos, y se van dividiendo de acuerdo a la lejanı́a entre ellos.
En este tipo de construcciones, el investigador puede decidir los cortes para los distintos
clusters, a partir de la observación de la columna de “coeficientes” o con un análisis de
representaciones gráficas de los conglomerados, tales como el dendrograma o Icicle plot. En
estos últimos casos, sobre todo con el dendrograma, es claro que un número grande de sujetos
hacen inútiles estas representaciones gráficas.
Inicialmente, se le puede dar un rango sobre el posible número de clusters a encontrar.
Se puede hacer un análisis exploratorio del número de cluster con una sub base, y después
utilizar toda la base para realizar la clasificación completa mediante otro(s) procedimiento(s)
de agrupación
El uso común de esta técnica, es para agrupar los casos; sin embargo, permite agrupar vari-
ables en lugar de sujetos
4
• Apropiados para muestras pequeñas
Métodos no jerárquicos
K Medias
En este caso, el investigador debe decidir inicialmente cuántos cluster subyacen a su conjunto
de observaciones. Este método trabaja utilizando la distancia Euclidiana entre los casos.
Inicialmente, salvo que el investigador lo proponga, el método elige de manera automática
los centros de los clusters, sobre grupos de casos lo suficientemente alejados unos de otros.
Durante el proceso iterativo, estos centros van cambiando. Los casos se van incorporando a
los clusters de acuerdo a su distancia más pequeña a los centros de los clusters formados.
Se puede utilizar para bases de datos grandes.

Conglomerados

Cargado por

Copyright:

Formatos disponibles

Conglomerados

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Conglomerados

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS DE CONGLOMERADOS

El análisis de conglomerados (clusters) es una técnica multivariada, cuyo objetivo es identi-

• Es una técnica descriptiva

• Aunque el objetivo común es agrupar a los sujetos, el análisis de conglomerados también

Consideraciones antes de realizar el análisis de conglomerados

• ¿Qué variables incorporar en el análisis?

• ¿Qué medida de distancia utilizar entre los casos?

• ¿Qué tipo de liga utilizar para los grupos?

• ¿Qué tipo de técnica de construcción de los conglomerados usar?

Pasos en el análisis de conglomerados

• Selección de variables. Como este proceso no proporciona ninguna medida acerca de la

• Construir y evaluar el modelo de conglomerados

• Identificar la pertenencia (membresı́a) de los casos a su correspondiente cluster.

Tipos de distancias para los casos, de acuerdo a su escala de medición

• Distancia euclidiana (la más común)

Variables de conteo (numéricas discretas)

Métodos para la construcción de los conglomerados

Vecinos cercanos o liga simple

En términos matemáticos, si tenemos un cluster R con nR sujetos y otro S con nS sujetos,

d(R, S) = min(dist(XRi , XSj )) i ∈ (1, ..., nR ) j ∈ (1, ..., nS )

Vecinos lejanos o liga completa

d(R, S) = max(dist(XRi , XSj )) i ∈ (1, ..., nR ) j ∈ (1, ..., nS )

Método de Ward. Calcula la suma de distancias Euclidianas cuadradas de cada caso en

Formas de construcción de los conglomerados

Inicialmente, se le puede dar un rango sobre el posible número de clusters a encontrar.

Se puede utilizar para bases de datos grandes.

También podría gustarte