Conglomerados

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 5

ANÁLISIS DE CONGLOMERADOS

(CLUSTERS)

INTRODUCCIÓN

El análisis de conglomerados (clusters) es una técnica multivariada, cuyo objetivo es identi-


ficar los grupos que subyacen a un conjunto de observaciones

Objetivos:

• Identificar los grupos que de manera natural se forman con los datos

Estos grupos se forman con base a las similaridades o disimilaridades entre los sujetos, no
entre las variables. En este sentido, esta es una técnica de análisis multivariado determi-
nada por los sujetos (casos) y no por las variables como, por ejemplo, en el análisis de factores.

• Podemos decir que esta técnica tiene más fundamento computacional que estadı́stico

• Es una técnica descriptiva

• Aunque el objetivo común es agrupar a los sujetos, el análisis de conglomerados también


se puede utilizar para agrupar variables, de una forma similar al análisis de factores.

Consideraciones antes de realizar el análisis de conglomerados

• ¿Qué variables incorporar en el análisis?

• ¿Qué medida de distancia utilizar entre los casos?

• ¿Qué tipo de liga utilizar para los grupos?

• ¿Qué tipo de técnica de construcción de los conglomerados usar?

Pasos en el análisis de conglomerados

• Si las variables no están medidas en la misma escala, es conveniente hacer el análisis con
las variables estandarizadas. El objetivo es que las variables con mayores magnitudes no

1
dominen el análisis (similar a Componentes Principales)

• Selección de variables. Como este proceso no proporciona ninguna medida acerca de la


importancia de una variable en el análisis, ésta es una decisión que el usuario debe hacer
CUIDADOSAMENTE.

• Construir y evaluar el modelo de conglomerados

• Identificar la pertenencia (membresı́a) de los casos a su correspondiente cluster.

Una decisión muy importante que se debe tomar es sobre cómo calcular la distancia entre dos
observaciones. Es claro que esta elección dependerá de la escala de medición de las variables
involucradas en la misma.

Tipos de distancias para los casos, de acuerdo a su escala de medición

Variables continuas

• Distancia euclidiana (la más común)


• Distancia euclidiana al cuadrado
• Chebychev
• City block
• Minkowski

Variables de conteo (numéricas discretas)

• Ji-cuadrada
• phi-cuadrada

Variables dicotómicas

• Distancia euclidiana
• Distancia euclidiana al cuadrado
Otras más

Cuando las variables no son métricas, y sólo corresponden a alguna medida de similaridad,
se tienen las siguientes medidas de distancia

Variables continuas

2
• Correlación de Pearson
• Coseno

Datos binarios

• Jaccard
• Russell Rao
• Dice
Y “un montón” más

Métodos para la construcción de los conglomerados

Una vez que se ha definido qué distancia conviene usar para los casos, debemos decidir cómo
se habrá de calcular la distancia de un individuo a un conglomerado y la distancia entre los
conglomerados. Para este fin, se tiene las siguientes ligas.

Vecinos cercanos o liga simple

Aquı́ la distancia entre dos conglomerados es la distancia entre sus sujetos más cercanos

En términos matemáticos, si tenemos un cluster R con nR sujetos y otro S con nS sujetos,


entonces la distancia es:

d(R, S) = min(dist(XRi , XSj )) i ∈ (1, ..., nR ) j ∈ (1, ..., nS )

Vecinos lejanos o liga completa

La distancia entre dos conglomerados es la distancia entre sus dos sujetos más lejanos

d(R, S) = max(dist(XRi , XSj )) i ∈ (1, ..., nR ) j ∈ (1, ..., nS )

UPGMA (unweighted par-group method using averages). La distancia entre dos clusters
es la distancia promedio entre todos los pares inter-clusters. Por lo general, se prefiere sobre
la liga simple o completa porque está basada en la información que proporcionan todos los
pares inter-cluster, contrario a la simple y la compuesta que se basan únicamente en una
distancia.

3
1 X
nR X nS
d(R, S) = dist(XRi , XSj )
nR nS i=1 j=1

Liga promedio. Es la distancia promedio entre todas las posibles distancias intra o inter
clusters. Apropiada, cuando el investigador asume que los grupos son homogéneos.

Método de Ward. Calcula la suma de distancias Euclidianas cuadradas de cada caso en


un cluster, a la media de todas las variables. Esta es un tipo de aproximación a la ANOVA
y, por esta razón, es preferida por algunos investigadores. Cabe aclarar que se usa desde
un punto de vista descriptivo, no inferencial. Es conocido que el ANOVA usual, tiene
supuestos MUY FUERTES. (Normalidad, Igualdad de varianzas)

Formas de construcción de los conglomerados

Clusters Jerárquicos

• Aglomerativos. En esta construcción se inicia con tantos clusters como sujetos haya en
la muestra. después se van agrupando de tal manera que los primeros en hacerlo son los más
similares, para, finalmente, agruparse todos en un único cluster.

• Divisivos. En este caso, el proceso es contrario al anterior. Se inicia con un cluster for-
mado por todos los individuos, y se van dividiendo de acuerdo a la lejanı́a entre ellos.

En este tipo de construcciones, el investigador puede decidir los cortes para los distintos
clusters, a partir de la observación de la columna de “coeficientes” o con un análisis de
representaciones gráficas de los conglomerados, tales como el dendrograma o Icicle plot. En
estos últimos casos, sobre todo con el dendrograma, es claro que un número grande de sujetos
hacen inútiles estas representaciones gráficas.

Inicialmente, se le puede dar un rango sobre el posible número de clusters a encontrar.

Se puede hacer un análisis exploratorio del número de cluster con una sub base, y después
utilizar toda la base para realizar la clasificación completa mediante otro(s) procedimiento(s)
de agrupación

El uso común de esta técnica, es para agrupar los casos; sin embargo, permite agrupar vari-
ables en lugar de sujetos

4
• Apropiados para muestras pequeñas

Métodos no jerárquicos

K Medias

En este caso, el investigador debe decidir inicialmente cuántos cluster subyacen a su conjunto
de observaciones. Este método trabaja utilizando la distancia Euclidiana entre los casos.
Inicialmente, salvo que el investigador lo proponga, el método elige de manera automática
los centros de los clusters, sobre grupos de casos lo suficientemente alejados unos de otros.
Durante el proceso iterativo, estos centros van cambiando. Los casos se van incorporando a
los clusters de acuerdo a su distancia más pequeña a los centros de los clusters formados.

Se puede utilizar para bases de datos grandes.

También podría gustarte