Analisis Cluster
Analisis Cluster
Analisis Cluster
1. Introducción
El Análisis Cluster (o de conglomerados) tiene como objetivo formar g grupos de in-
dividuos con caracterı́sticas similares con respecto a determinadas variables. Para ello, se
cuenta con una matriz de datos X de dimensión n × m cuyas filas y columnas representan
las observaciones y las variables, respectivamente. La diferencia fundamental con respecto
al análisis discriminante (que se estudiará en el próximo tema) es que no se conocen de
antemano el número de grupos en los que se divide a la población, ni el valor de la variable
que identifica cada grupo. Es por ello que el análisis cluster también recibe el nombre de
“clasificación no supervisada” al no existir una muestra de elementos previamente clasi-
ficados en grupos que sirva de pauta como en el caso del análisis discriminante (también
llamado “clasificación supervisada”).
La idea básica es, a partir de un conjunto de individuos, crear grupos excluyentes y
exhaustivos tales que:
Los individuos de cada grupo sean lo más parecidos que sea posible (homogeneidad
interna).
Los grupos sean lo más diferentes que sea posible (heterogeneidad entre grupos).
A la hora de preparar los datos es frecuente que las variables vengan en diferentes
unidades de medida. En ese caso conviene normalizarlas, aunque no se debe abusar de esta
técnica puesto que al homogeneizar la varianza de todas las variables podemos mermar la
“capacidad clasificatoria” de alguna variable con gran variabilidad natural.
Otra circunstancia no deseable es que las variables se encuentren correladas. En ese
caso será preferible recurrir previamente a alguna técnica como el análisis factorial o
el análisis de componentes principales que sintetice la información, proporcionándonos
variables incorreladas. Además es conveniente corregir el problema de los atı́picos ya que
distorsionarı́an la generación de cluster.
Existen dos tipos de análisis cluster: jerárquico y no jerárquico. En el análisis no
jerárquico se ha de definir el número de grupos a crear mientras que en el jerárquico se
construye una especie de jerarquı́a en función de la similitud/distancia de los datos y se
obtiene una posible clasificación para cualquier número de grupos entre uno y el tamaño
de la muestra.
1
distancias como la de Gower (no obstante, en este curso trataremos sólo con variables
contı́nuas y nos centraremos en las distancias euclı́deas).
Como ya se ha mencionado previamente, los métodos de clasificación jerárquica no
producen una clasificación en un número determinado de clusters en un único paso, sino
que configuran grupos con estructura arborescente de forma que clusters de niveles más
bajos van siendo englobados en otros de niveles superiores.
Los pasos a seguir para realizar un Análisis Cluster Jerárquico son los siguientes:
ii) Se genera una matriz de dimensión n × n que indique las distancias entre todos los
pares de observaciones (esta distancia debe haber sido definida con anterioridad).
iii) Se agrupan las dos observaciones (o clusters) más próximas. Con esto, el número de
clusters existentes es uno menos que en el paso anterior.
iv) Se vuelve a obtener una matriz de distancias con los clusters formados en el paso
anterior. Obsérvese que para obtener esta nueva matriz, es necesario elegir un método
de cálculo de distancias entre clusters.
v) Repetir los pasos iii) y iv) hasta que todas las observaciones están agrupadas en un
solo cluster.
Observemos que es necesario definir con claridad, tanto la distancia entre observaciones,
como la distancia entre clusters o grupos de observaciones. Por lo tanto, bajo este esquema
y con un mismo conjunto de datos, variando esas dos definiciones se podrán obtener
múltiples clasificaciones diferenciadas.
Enlace Simple o del vecino más cercano: la distancia entre dos clusters viene dada
por la distancia mı́nima entre observaciones de distintos grupos, o en otras palabras,
la distancia entre las observaciones más cercanas pertenecientes a distintos grupos:
Tiende a crear grupos con muchas observaciones y alargados, que pueden incluir
elementos muy distintos en los extremos.
Enlace Completo o del vecino más alejado: la distancia entre dos clusters viene dada
por la distancia máxima entre observaciones de distintos grupos, o en otras palabras,
la distancia entre las observaciones más alejadas pertenecientes a distintos grupos:
Los grupos obtenidos con este método son más compactos que los obtenidos con el
método del vecino más próximo.
2
Enlace medio: la distancia entre dos clusters viene dada por la distancia media entre
observaciones de distintos grupos:
1 X
Dk,` = dist(xi , xj )
nk n`
i∈Ck
j∈C`
Distancia entre centroides: la distancia entre dos clusters viene dada por la distancia
entre los centroides de cada grupo, que representarán el vector medio obtenido en
las m variables para todos los individuos que formen parte del grupo:
Ahora parece lógico preguntarse: ¿Cómo determinar en cada caso cuál es el método
de agrupación más adecuado? No existe una respuesta exacta a esta pregunta, aunque
los tres últimos son los más utilizados. Siempre es conveniente estudiar varios métodos y
tomar una decisión en función de los resultados que se obtengan. Si varios métodos nos
dan agrupaciones similares, se puede pensar que existe una forma natural de formarse
grupos de observaciones.
Ejemplo 1 En este ejemplo veremos como aplicar los tres primeros métodos en la reali-
zación de un análisis cluster. Supóngase que contamos con 4 datos A, B, C y D tales que
su distancia (para aplicar los dos últimos métodos es necesario contar con el valor de las
observaciones) está contenida en la siguiente matriz:
A B C D
A 0 1 4 2,5
B 1 0 2 3
C 4 2 0 4
D 2,5 3 4 0
Enlace Simple: El valor mı́nimo fuera de la diagonal es 1 por lo que deberemos unir
A y B. A continuación, debemos recalcular las distancias:
) AB C D
d(AB, C) = mı́n{dist(A, C), dist(B, C)} = mı́n{4, 2} = 2 AB 0 2 2,5
d(AB, D) = mı́n{dist(A, D), dist(B, D)} = mı́n{2,5, 3} = 2,5 C 2 0 4
D 2,5 4 0
3
A continuación, la distancia mı́nima es 2, por lo que debemos unir AB y C. La
distancia de este cluster a la observación D es:
) AB C D
d(AB, C) = máx{dist(A, C), dist(B, C)} = máx{4, 2} = 4 AB 0 4 3
d(AB, D) = máx{dist(A, D), dist(B, D)} = máx{2,5, 3} = 3 C 4 0 4
D 3 4 0
Enlace medio: El valor mı́nimo fuera de la diagonal es 1 por lo que de nuevo unimos
A y B. A continuación, debemos recalcular las distancias:
1 1
AB C D
d(AB, C) = (dist(A, C) + dist(B, C)) = (4 + 2) = 3
AB 0 3 2,75
2 2
1 1 C 3 0 4
d(AB, D) = (dist(A, D) + dist(B, D)) = (2,5 + 3) = 2,75
2 2 D 2,75 4 0
2.2. El Dendrograma
El dendrograma es el gráfico más frecuente en análisis cluster jerárquico, pues permite
plasmar el proceso de aglomeración y formación de grupos junto con la distancia entre
cada dos grupos unidos en una gráfica.
El dendrograma se construye como sigue:
1. En la parte inferior del gráfico se disponen los n elementos iniciales.
2. Las uniones entre elementos se indican a partir de tres lı́neas rectas. Dos dirigidas a
los elementos que se unen, y que son perpendiculares al eje de los elementos, y una
paralela a este eje, que se sitúa al nivel que se unen (este nivel puede representar la
distancia o algún otro estadı́stico que veremos más adelante).
3. El proceso se repite hasta que todos los elementos estén conectados por estas lı́neas
rectas.
4
The SAS System 10:28 Friday, November 13, 2015 1 The SAS System 10:28 Friday, November 13, 2015 2
3 A B 2 1 3 A B 2 1 3 A B 2 1
2.0
1
2
0 0
A B D C A B D C
Figura 1: Dendrogramas del análisis cluster jerárquico sobre los datos del Ejemplo 1 para
distintos tipos de distancias
Este diagrama nos puede ayudar a determinar en qué momento del proceso de agrupa-
ción nos deberemos detener pues, si cortamos el dendrograma a un nivel dado, obtenemos
una clasificación del número de grupos existentes a ese nivel y los elementos que los forman.
donde xij es la j-ésima observación de la variable i-ésima y x̄i y x̄i k son la media de la
variable i-ésima para el conjunto total de individuos y para el cluster k-ésimo, respectiva-
5
mente. Nótese que T = W + E.
Obviamente, el número de grupos no puede estimarse a partir de un criterio de mini-
mización de la variabilidad interna, ya que la forma de alzanzar este objetivo consiste en
hacer tantos grupos como observaciones, con lo que Wk = W = 0 ∀k.
Algunos indicadores que nos ayudarán en la decisión son:
W m − Wk − W `
P seudo − T 2 = Wk +W`
nk +n` −2
Pseudo F: este criterio compara la dispersión entre cluster con la dispersión dentro
de los cluster. Lo que se pretende es que este cociente sea máximo. Por esta razón,
buscaremos máximos relativos o incrementos importantes del valor de este pseudo-
estadı́stico. El cálculo del mismo viene dado por:
E
g−1
P seudo − F = W
n−g
Criterio Cúbico (CCC): este criterio, introducido por Searle, se aplica sólo si los
datos se extraen de coordenadas y no es apropiado si el método es el enlace simple.
Se puede representar gráficamente frente al número de agrupamientos para diversas
selecciones de este último. Como con el pseudo-F, los picos o máximos relativos
corresponden a números apropiados de agrupamientos.
6
1. Seleccionar g observaciones como centroides iniciales de los clusters a construir, sien-
do g el número deseado de clusters.
2. Asignar cada una de las observaciones restantes al cluster cuyo centroide esté más
próximo.
3. Recalcular los centroides de los clusters y reasignar cada observación a uno de los g
clusters.
Los métodos para realizar agrupaciones se diferencian entre sı́ principalmente por el
modo de escoger los centroides iniciales. Algunos de los métodos utilizados para este fin
son:
Una vez que se han identificado los centroides, se pueden formar los Clusters iniciales
asignando cada una de las n − g observaciones restantes al cluster correspondiente al
centroide más próximo, como ya se ha indicado previamente.
El algoritmo presentado puede ser modificado ligeramente en cuanto a la forma de
reasignar observaciones. La principal diferencia consiste en el momento en el que se re-
calculan los centroides de los clusters: se puede realizar cada vez que se reasigna una
observación (por lo que cambiará el centroide del cluster de origen y el de destino) o se
puede realizar una vez se hayan reasignado TODAS las observaciones.
Por lo tanto, combinando los distintos métodos de selección de centroides iniciales y
de reasignación de observaciones, se pueden desarrollar un gran número de algoritmos de
clusters no jerárquicos.
7
razón, es conveniente comprobar si el incremento de la suma de cuadrados de los errores
dentro de los grupos no es muy grande, en cuyo caso compensará quedarnos con c2 grupos.
Sean Wc1 y Wc2 las sumas de los cuadrados de las distancias entre cada observación y
el centroide del grupo en el que ha sido asignada (tal y como se definieron para el análisis
jerárquico). El estadı́stico F ∗ de Beale se calcula como:
2
−
∗ W c2 − W c1 (n − c1 )c1 m
F =
Wc1 −2 −2
(n − c2 )c2 m − (n − c1 )c1 m
y se distribuye como una ley F 2
−m 2
−m 2
−m . Por lo que si F ∗ es
(n−c2 )c2 −(n−c1 )c1 ,(n−c1 )c1
mayor que el punto crı́tico de la F con esos grados de libertad, entonces se elegirı́a la
agrupación con mayor número de grupos ya que las diferencias de la variabilidad interna
serı́an significativas.
Por un lado, se debe realizar un análisis descriptivo sobre las variables activas utili-
zadas en el análisis, con lo que se determinarán las medias y varianzas de todas las
variables. Ello nos permitirá una primera caracterización.
Por otro lado, utilizaremos otras variables (suplementarias) que pueden ser categóri-
cas o continuas y que nos permitirán explicar las variabilidades en cada grupo en
base a otro tipo de criterios (sociodemográficos, fı́sicos, etc.). En el caso de que sean
categóricas evaluaremos la proporción de cada categorı́a presente en cada agrupa-
ción.
8
5. Decisión del número de grupos a formar en función del valor de los estadı́sticos para
los distintos números de grupos.
6. Examen de las caracterı́sticas de los individuos de cada grupo: examen de las varia-
bles de manera individual, o de manera global a través de otros métodos multiva-
riantes.
7. Examen de las caracterı́sticas de los individuos de cada grupo: examen de las varia-
bles de manera individual, o de manera global a través de otros métodos multiva-
riantes.
9
The SAS System 10:28 Friday, November 13, 2015 1
Cluster History
Number
of Semipartial Pseudo F Pseudo Centroid
Clusters Clusters Joined Freq R-Square R-Square Statistic t-Squared Distance Tie
shington)(5.).
40 Esto nos permite poner el mismo formato de lectura a un conjunto de
variables si tanto éstas como aquel van entre paréntesis y se acompañan de forma con-
secutiva. La20 sentencia format provoca no sólo que ciudad lea 15 caracteres (formato de
lectura) sino que también los escriba (formato de escritura).
Dado que0 hemos indicado que el conjunto de datos es tipo distancia, SAS interpreta
que los datos faltantes deben completarse con la información simétrica. A continuación
procedemos 6a realizar análisis jerárquico con los métodos del centroide y de WARD. Las
Pseudo T-Squared
Figuras 2, 3 y 5 contienen las tablas de resultados y los dendrogramas para ambos métodos.
El procedimiento
4
para realizar análisis cluster jerárquico en SAS es el proc cluster. Si
los datos forman una matriz de distancias, debemos indicarlo. Debemos indicar también
el método con
2
method=. nonorm evita la normalización de las distancias, pseudo y RS-
QUARE indican que se muestre la pseudo-T 2 y la pseudo-F y el R2 , respectivamente y
plots=den(VERTICAL)
0
permite obtener un dendrograma vertical.
2 4 6 8
Number of Clusters
10
The SAS System 10:28 Friday, November 13, 2015 3
Cluster History
Between
Number Cluster
of Semipartial Pseudo F Pseudo Sum of
Clusters Clusters Joined Freq R-Square R-Square Statistic t-Squared Squares Tie
40
20
The SAS System 10:28 Friday, November 13, 2015 2 The SAS System 10:28 Friday, November 13, 2015 4
6
The CLUSTER Procedure
Pseudo T-Squared
2
Between-Cluster Sum of Squares
1500 6000000
0
1000 4000000
2 4 6 8
Number of Clusters
500 2000000
0 0
AT CH NE W M HO DE LO SA SE AT CH NE W M DE HO LO SA SE
L IC W AS IA US NV SA NF AT IA
AN YO HI M L IC W AS NV US SA NF AT
AG I TO ER NG RA TL AN AG YO HI M
TA O RK NG E TA I ER TO NG RA TL
N EL NC O RK NG N E
TO ES IS TO N EL CI
N CO ES SC
N
O
Figura 4: Dendrogramas para los métodos del centroide (izquierda) y de Ward (derecha)
11
Podemos comprobar que la secuencia es similar (aunque no igual) con ambos métodos.
Si nos fijamos en los valores de la pseudo-T 2 y la pseudo-F, en ambos casos concluimos que
el número de grupos ha de ser 2. Además, en ambos casos la proporción de variabilidad
explicada ronda el 70 %.
Los dendrogramas de la Figura 4 muestran de nuevo que la secuencia de uniones es
similar. Además, la distancia entre las lı́neas horizontales también nos indica que el número
de grupos es 2: coincidiendo con una división este/oeste de las mismas. No obstante, los
métodos no coinciden en lo que a “Denver” se refiere. El método de los centroides se
basa más en las distancias reales que el de Ward, por lo que asigna esta ciudad a la
costa oeste (a la que geográficamente está más cercana). Sin embargo, el método de Ward
busca minimizar la variabilidad dentro de los grupos y es por ello que el resultado puede
resultar extraño desde el punto de vista geográfico. Sin embargo, nótese que a la vista del
dendrograma, serı́a posible incluso crear 3 grupos: oeste, centro y este, lo que lograrı́a una
mayor homogeneidad de los grupos.
A la vista de los resultados, podemos comprobar que el análisis cluster carece de una
solución única y que la misma depende del caso de aplicación. No obstante, suponiendo
que damos por válida la solución ofrecida por el método del centroide, es posible obtener
un conjunto de datos en el que a cada observación se le asigne su cluster en una nueva
variable. Para ello, es necesario crear un conjunto de datos con los resultados en el proc
cluster a partir de la sentencia outtree=. A continuación, utilizamos la siguiente sentencia
para obtener el conjunto de datos con la variable “cluster”:
Data esperanza;
input pais $ m0 m25 m50 m75 w0 w25 w50 w75;
datalines;
Algeria 63.00 51.00 30.00 13.00 67.00 54.00 34.00 15.00
Cameroon 34.00 29.00 13.00 5.00 38.00 32.00 17.00 6.00
Madagascar 38.00 30.00 17.00 7.00 38.00 34.00 20.00 7.00
Mauritius 59.00 42.00 20.00 6.00 64.00 46.00 25.00 8.00
Reunion 56.00 38.00 18.00 7.00 62.00 46.00 25.00 10.00
Seychelles 62.00 44.00 24.00 7.00 69.00 50.00 28.00 14.00
South_Africa 65.00 44.00 22.00 7.00 72.00 50.00 27.00 9.00
Tunisia 56.00 46.00 24.00 11.00 63.00 54.00 33.00 19.00
12
Canada 69.00 47.00 24.00 8.00 75.00 53.00 29.00 10.00
Costa_Rica 65.00 48.00 26.00 9.00 68.00 50.00 27.00 10.00
Dominican_Rep 64.00 50.00 28.00 11.00 66.00 51.00 29.00 11.00
El_Salvador 56.00 44.00 25.00 10.00 61.00 48.00 27.00 12.00
Greenland 60.00 44.00 22.00 6.00 65.00 45.00 25.00 9.00
Grenada 61.00 45.00 22.00 8.00 65.00 49.00 27.00 10.00
Guatemala 49.00 40.00 22.00 9.00 51.00 41.00 23.00 8.00
Honduras 59.00 42.00 22.00 6.00 61.00 43.00 22.00 7.00
Jamaica 63.00 44.00 23.00 8.00 67.00 48.00 26.00 9.00
Mexico 59.00 44.00 24.00 8.00 63.00 46.00 25.00 8.00
Nicaragua 65.00 48.00 28.00 14.00 68.00 51.00 29.00 13.00
Panama 65.00 48.00 26.00 9.00 67.00 49.00 27.00 10.00
Trinidad 64.00 43.00 21.00 6.00 68.00 47.00 24.00 8.00
United_States 67.00 45.00 23.00 8.00 74.00 51.00 28.00 10.00
Argentina 65.00 46.00 24.00 9.00 71.00 51.00 28.00 10.00
Chile 59.00 43.00 23.00 10.00 66.00 49.00 27.00 12.00
Columbia 58.00 44.00 24.00 9.00 62.00 47.00 25.00 10.00
Ecuador 57.00 46.00 28.00 9.00 60.00 49.00 28.00 11.00
;
PROC PRINT;RUN;
En este caso se ha incluido la opción ccc puesto que los datos vienen dados en coor-
denadas. Además, se ha pedido que se muestren sólo las últimas 15 agrupaciones. Sólo se
muestra la sintaxis para el método del enlace medio pero también se ha obtenido el re-
sultado para el método del centroide y de Ward. Las Figuras 5-7 muestran los resultados
para los tres métodos.
Se puede comprobar que el método del enlace medio sugiere realizar 2 o 5 grupos y
los métodos del centroide y de Ward, 2 o 6. Dado que no existen grandes diferencias entre
los dendrogramas de los dos primeros métodos, sólo se ha representado para los métodos
del enlace medio y de Ward (ver Figura 8). Se observa que el método de Ward sugiere
la creación de dos únicos clusters (que además coinciden con los dos clusters creados por
los otros dos métodos). No obstante, las agrupaciones en 5 o 6 no coinciden para dichos
grupos. Por tanto, realizaremos el análisis cluster no jerárquico para dos, cinco y seis
grupos y realiaremos el test F de Beale para determinar cuál es mejor. Como ya se ha
comentado previamente, no es necesario estandarizar las variables pero, de ser ası́, serı́a
13
6 0.449650 0.067051 0.0019 0.9975
Cluster History
Cluster History
Cluster History
Between
Number Approximate Cubic Cluster
of Semipartial Expected Clustering Pseudo F Pseudo Sum of
Clusters Clusters Joined Freq R-Square R-Square R-Square Criterion Statistic t-Squared Squares Tie
14
The SAS System 09:55 Monday, November 16, 2015 3 The SAS System 09:55 Monday, November 16, 2015 9
40
Average Distance Between Clusters
30
2000
20
1000
10
0 0
Al Tu M G M Co Ho Re Se G Ja Ch Tr El Ec So Un Ar Ca Co Pa Do Ni G Ca M Al Co Pa Do Ni So Un Ar Ca M G Ho M Co Re Se G Ja Ch Tr Tu El Ec G Ca M
ge n au re ex lu n u y re m il in _S u u it ge n s n m ca ua m ad ge s n m ca u it ge n au re n ex lu u y re m il in n _S u ua m ad
ria isia rit en ico m du nio ch na aic e ida al ad t h_ ed nt ad t a_ am in ra t e er ag ria t a_ am in ra t h_ ed nt ad rit en du ico m nio ch na aic e ida isia al ad t e er ag
iu la bi ra n ell da a d va or A _S in a R a ica gu ma oo as Ri a ica gu Af _S in a iu lan ras bi n ell da a d va or ma oo a
n a s f i a l n sc
l n c
Figura 8: Dendrogramas para los métodos del enlace medio (izquierda) y de Ward (derecha)
necesario recurrir al proc stdize para obtener las variables estandarizadas y después realizar
el análisis sobre éstas.
1
El R2 , tal y cómo se ha definido en los apuntes, aparece en la tabla Statistics for variables en el cruce
de “OVER-ALL” y “R-Square”.
15
The SAS System 09:55 Monday, November 16, 2015 22
1 0 26 2135.54 732 596.310 20.1815 14.0435 12.7789 4.38699 0.010324 4.45592 .009694728 2.29926 0.15115
data beale;
merge sumacuad2 sumacuad5 sumacuad6;
k1=(_freq_-2)*(2**(-2/8));
k2=(_freq_-5)*(5**(-2/8));
k3=(_freq_-6)*(6**(-2/8));
fbeale1=(w2-w5)*k2/(w5*(k1-k2));
pvalor=1-probf(fbeale1,(k1-k2),k2);
fbeale2=(w2-w6)*k3/(w6*(k1-k3));
pvalor2=1-probf(fbeale2,(k1-k3),k3);
fbeale3=(w5-w6)*k3/(w6*(k2-k3));
pvalor3=1-probf(fbeale3,(k2-k3),k3);
run;
proc print data=beale;run;
La Figura 9 muestra los tres contrastes realizados: 2 vs. 5; 2 vs. 6; and 5 vs. 6. Como
puede verse, este test sugiere clasificar los paises en 5 grupos. Por lo tanto, para dar por
concluido el análisis cluster sólo nos falta caracterizar los grupos resultantes. Para ello,
serı́a interesante contar también con otras variables que no se hayan incluido en el análisis
para caracterizar dichos grupos y comprender mejor la misma.
Para llevar a cabo dicha caracterización, podemos analizar las medias de las variables
en cada uno de los grupos. La Figura 11 muestra las medias y las desviaciones tı́picas para
los 5 grupos y las 8 variables incluidas en el análisis. El grupo 2 lo componen aquellos paises
con menor esperanza de vida, mientras que el grupo 3 lo componen los paises con mayor.
El grupo 4 se caracteriza por una mayor esperanza de vida al nacer y una relativamente
alta esperanza de vida para las distintas edades. Por último, los grupos 1 y 5 son grupos
con esperanzas de vida intermedias pero mayores en 5 que en 1.
En cuanto a la variabilidad de los grupos, se observa que el primer grupo no tiene
valores asociados. Esto se debe al hecho de que sólo haya una observación en el grupo. En
general, las varibilidades son similares, aunque destacan algunos valores pequeños que nos
indican que los valores que toman dichas variables en esos grupos son muy similares. En
ocasiones este hecho puede sernos de ayuda a la hora de caracterizar los datos.
Esta tabla aparece entre las salidas del procedimiento fastclus pero se puede obtener
16
mediante la siguiente sentencia:
17
The SAS System 09:55 Monday, November 16, 2015 13
The SAS System 09:55 Monday, November 16, 2015 13
The FASTCLUS Procedure
Replace=FULL Drift Radius=0 Maxclusters=5
The FASTCLUS Maxiter=30 Converge=0.02
Procedure
Replace=FULL Drift Radius=0 Maxclusters=5 Maxiter=30 Converge=0.02
Statistics for Variables
Statistics for Variables
Variable Total STD Within STD R-Square RSQ/(1-RSQ)
Variable Total STD Within STD R-Square RSQ/(1-RSQ)
w25 5.25533 1.52623 0.929154 13.115057
w25 5.25533 1.52623 0.929154 13.115057
w50 3.52071 1.38013 0.870920 6.747115
w50 3.52071 1.38013 0.870920 6.747115
w75 2.77572 1.67695 0.693402 2.261596
w75 2.77572 1.67695 0.693402 2.261596
OVER-ALL 5.43840 2.08738 0.876252 7.080916
OVER-ALL 5.43840 2.08738 0.876252 7.080916
Figura 11: Medias y desviaciones tı́picas para los 5 grupos y las 8 variables incluidas en el
análisis
18
3 7.820950 5.437441 0.0171 0.9948
Cluster History
Cluster History
Between
Number Approximate Cubic Cluster
of Clusters Semipartial Expected Clustering Pseudo F Pseudo Sum of
Clusters Joined Freq R-Square R-Square R-Square Criterion Statistic t-Squared Squares Tie
2 CL3 CL4 100 0.1110 .773 .697 3.83 503 116 7565
8. Ejemplo Iris
En este caso vamos a utilizar el conjunto de datos Iris. Este conjunto contiene cuatro
variables acerca del ancho y el largo del pétalo y el sépalo de tres clases de planta (dado
que están todas en mm, no será necesario estandarizar) ası́ como la clase de la misma.
Queremos clasificar las hojas a partir de esas cuatro medidas para después comparar
dichos grupos con las clases originales. Utilizando una sintaxis similar a la de los ejercicios
anteriores, obtenemos las Figuras 12 y 13 referidas al análisis cluster jerárquico, donde
puede observarse que el número de clusters a realizar ha de ser dos o tres.
A continuación realizamos análisis cluster no jerárquico para dos y tres clusters y
realizamos el contraste F de Beale, obteniendo el resultado que se muestra en la Figura
14. El p-valor es menor que 0,05 por lo que la reducción de la variabilidad interna es
significativa y debemos hacer 3 grupos. Por último, comprobamos el parecido entre los
clusters obtenidos y los grupos originales.
19
The SAS System 09:55 Monday, November 16,
Figura
The FREQ14:Procedure
Contraste F de Beale
1 0 2 36 38
0.00 1.33 24.00 25.33
0.00 5.26 94.74
0.00 4.00 72.00
2 50 0 0 50
33.33 0.00 0.00 33.33
100.00 0.00 0.00
100.00 0.00 0.00
3 0 48 14 62
0.00 32.00 9.33 41.33
0.00 77.42 22.58
0.00 96.00 28.00
Total 50 50 50 150
33.33 33.33 33.33 100.00
20