Libro Analisis Multivariante Repositorio
Libro Analisis Multivariante Repositorio
Libro Analisis Multivariante Repositorio
Análisis multivariante para las Ciencias Sociales I. Índices de distancia, conglomerados y análisis factorial
Francisco José Francés García
Clemente Penalva Verdú
Óscar Antonio Santacreu Fernández
PYDLOS Ediciones
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 2
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 3
ISBN: 978-9978-14-315-5
Derecho de autor: CUE-2347
2015
Este libro ha sido debidamente examinado y valorado por evaluadores ajenos a PYDLOS EDICIONES,
con el fin de garantizar la calidad científica del mismo.
Edición corregida, revisada y ampliada del texto “El análisis de la realidad social”, para servir de referencia
durante el Curso de formación de Posgrado: “Investigación Aplicada en Ciencias Sociales: Técnicas de
producción de datos y análisis˝, actividad académica organizada por el Grupo de investigación PYDLOS del
Departamento de Investigación “Espacio y Población”, en coordinación con las Facultades de Ciencias
Económicas y Administrativas, Jurisprudencia, Psicología, Filosofía Letras y Ciencias de la Educación,
y con aval de la DIUC de la Universidad de Cuenca.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 7
ÍNDICE
PRESENTACIÓN ....................................................................................... 9
PRESENTACIÓN
LOS AUTORES
Sant Vicent del Raspeig (Alicante)
Octubre 2015
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 10
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 11
categorización (es decir, decidir cuáles son las categorías realmente existen-
tes y significativas) pasan a primer plano. Medir variables e índices que
expresen estados subjetivos de los individuos presenta sus propios desafíos.
Este tipo de variables son de carácter subjetivo, al igual que lo son sus uni-
dades de medida o los valores que adoptan esas unidades de medida. Existen
en la mente de los individuos, pero no tienen una existencia objetiva, perci-
bible directamente por los sentidos. Un ejemplo, en otro ámbito de conoci-
miento, es la temperatura corporal. La percepción que cada individuo tiene
de su temperatura corporal es subjetiva y personal. Para establecer una medi-
ción común y estándar para todos los individuos, debe construirse un instru-
mento externo como es el termómetro, que permite expresar de forma obje-
tiva y comparable (mediante un instrumento o aparataje) esa temperatura
corporal. La existencia de un termómetro no elimina la experiencia personal
de cada individuo, las sensaciones subjetivas que le pueden producir la sen-
sación de calor o frío. Lo que permite es establecer un indicador que ofrece una
información externa y objetiva de la temperatura corporal. Y a partir de ello,
facilitar la comparación intersubjetiva. En ambas situaciones, dónde la medi-
ción es de características externas (observables directamente) o se refiere a
características internas (no observables directamente), las respuestas a cómo
construir índices de medición deben ser diferentes, si bien respetando prin-
cipios metodológicos semejantes.
Cuando hablamos de medir, en cualquiera de sus niveles, resulta eviden-
te que existe un lenguaje apropiado, que no es el lenguaje natural. Las ope-
raciones que se efectúan sobre las mediciones, ya sea con la finalidad de des-
cripción o explicación, requieren de un lenguaje formalizado creado para ello:
el lenguaje matemático y estadístico. La estadística y las matemáticas en
general, son el lenguaje que opera con mediciones cuantitativas. Desde la más
básica de clasificar, hasta las explicaciones empíricas más sofisticadas.
En este texto presentamos tres estrategias de medición multivariante, que
son útiles tanto para mediciones de características que se pueden percibir
direc-tamente, como de estados subjetivos. Nos centraremos en su empleo para
medir (por ejemplo, estados subjetivos de los individuos), permitiendo
construir, por ejemplo, un índice. Resulta evidente, una vez que hemos logrado
asignar una cifra a cada individuo o caso (su valor en un índice), ya es decisión
del investigador si las empleará para agrupar los casos en tipologías o usar su
magnitud para relacionarla con otras magnitudes medidas en otras variables.
Es importante que el investigador comprenda que la mayoría de los proce-
dimientos estadísticos están interconectados entre sí. Podemos llamarlos de
forma diferente por motivos varios. Así es habitual que sea la finalidad inicial
para la que se establecieron la que los diferencia y les da nombre. Sin embar-
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 13
Análisis multivariante
para
las
Ciencias
Sociales I 13
go, con un análisis factorial (por
ejemplo),
una vez efectuado, se pueden atri-
buir magnitudes
a
los sujetos.
A
partir de ellas
se les puede
clasificar
o efectuar
otras muchas operaciones. Una vez que hemos "medido" los sujetos respecto a
algo, las demás operaciones
son derivadas de esa labor esencial. Por eso,
exis-
ten muchas vías
alternativas
(procedimientos estadísticos)
que pueden dar res-
puesta a una misma pregunta.
Como
hemos
dicho,
en esta ocasión vamos a
considerar la medición tanto desde el punto de vista de los estados subjetivos
como objetivos. Al fin y al cabo, las valoraciones que efectúan los individuos
toman como referencia
sus escalas personales de carácter subjetivo.
En este libro vamos a partir de los procedimientos para determinar dis-
tancias o proximidades (similitud y disimilitud) entre casos o variables. Tras
ello, presentaremos en términos
distancias
de y proximidades (especialmen-
te entre
casos, aunque
no solamente),
el análisis de conglomerados (clúste-
res), así como la utilidad
que tiene el análisis de
varianza en la definición
del
número de clústeres. En lo que se refiere a la similitud o disimilitud entre
variables, mostramos
el procedimiento
estadístico
denominado
análisis fac-
torial, junto a los procedimientos para determinar la fiabilidad de la medi-
ción (alfa de Cronbach).
Cuadro 1. Ejemplos de modelos basados en
la determinación
de distancias
'DWRV
$QiOLVLVGH&RUUHVSRQGHQFLD 6HJPHQWDFLyQ
(VFDODPLHQWR0XOWLGLPHQVLRQDO 7LSRORJtDV
(VFDODPLHQWRySWLPR 'LVFULPLQDQWH
«« ««
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 14
1. Las distancias son el punto de partida en el análisis de Conglomerados (las distancias entre
casos o variables), en el escalamiento multidimensional (distancias entre casos o también
entre variables), en el análisis factorial (la similitud entre variables define el factor). En los
tres métodos, la similitud o la disimilitud son muy importantes dado que los casos son
agrupados en función a su proximidad.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 15
2. LA SIMILITUD Y LA DIFERENCIA
Casos Variable 1
Caso 1 13
Caso 2 25
Caso 3 32
Caso 4 12
Caso 5 56
Caso 6 43
Caso 7 15
(Vector columna)
Media: 28
Desviación típica: 16,7
Casos Variable 1
Caso 1 13
Caso 2 25
Caso 3 32
Caso 4 12
Caso 5 56
Caso 6 43
Caso 7 15
Distancia euclídea
Esta medición fue presentada como ejemplo en líneas anteriores. La distan-
cia entre dos objetos, X e Y, es la raíz cuadrada de la suma de las diferencias al
cuadrado de los valores.
Distancia euclídea (x,y) = √Si (xi – yi)2
Para determinar la distancia euclídea entre Ecuador y bolivia, por ejemplo,
procederíamos de la forma siguiente.
País DIM I DIM II DIM III DIM IV
bolivia 6 2,3 -0,25 -1,5
Ecuador 5,3 2,9 0,4 0,3
la distancia euclidea es simplemente la raíz cuadrada de suma de las diferen-
cias al cuadrado.
Distancia euclídea =
√4,51 = 2,12
La distancia euclídea, presenta dos inconvenientes. En primer lugar, la dis-
tancia depende de las unidades que se empleen para expresar las variables o
indicadores. Esto significa que los cambios de escala en las variables implican
cambios en las distancias. Una forma de evitar este efecto es transformar y
normalizar las variables. Otra consecuencia es su sensibilidad a la posibilidad
de que las variables ofrezcan medidas redundantes (es decir, que estén alta-
mente correlacionadas). En estas situaciones, la distancia euclídea sobrees-
tima la disimilaridad o distancia entre los individuos. Una posible solución a
esto es extraer componentes principales de las variables o indicadores (que
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 24
Bloque, Manhattan
Otra forma de medir las distancias entre dos objetos es utilizar los valores abso-
lutos, que resultan de restar los valores de un caso (en una variable) con los
valores de otro caso (en esa misma variable), en lugar de emplear sus cuadra-
dos. Es el caso de la denominada bloque, (también llamada distancia
Manhattan o Ciudad). Es simplemente la suma de las diferencias absolutas
de los valores, en las variables consideradas, para cada par de casos (objetos).
En la medida que las diferencias no se han elevado al cuadrado, las diferen-
cias más importantes no tendrán tanto peso como sucede cuando se elevan al
cuadrado.
Distancia (x,y) = Si │xi – yi│
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 25
Chebychev
La distancia Chebychev también emplea las diferencias expresadas en valo-
res absolutos. Sin embargo, no utiliza todas las variables. Esta distancia se
define como la diferencia mayor en términos absolutos entre dos casos, con-
siderando todas las diferencias entre variables. En ese sentido, ignora gran
parte de la información disponible. Solamente la variable que muestra la
diferencia máxima entre los dos casos será la utilizada.
Distancia (x,y) = MA Xi │xi – yi│
País DIM I DIM II DIM III DIM IV
bolivia 6 2,3 -0,25 -1,5
Ecuador 5,3 2,9 0,4 0,3
Distancia Chebychev =
│6 - 5,3│ , │2,3 - 2,9│ , │0,25 - 0,4│ , │-1,5 - 0,3│ =
Hasta aquí hemos operado calculando las distancias entre casos (países). El
mismo procedimiento puede aplicarse a las variables. Es decir, podemos
aplicar todos estos índices de distancia para determinar la similitud entre las
variables.
Recordemos que, en este caso, hemos normalizado las distancias. Esta matriz
puede ser empleada posteriormente para múltiples análisis multivariantes, ba-
sados en matrices de proximidad o distancia.
b) Similaridad
Cuando los datos están expresados en un nivel de medición de intervalo
o superior, y consideramos la estimación de índices basados en las medidas
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 30
Correlación de Pearson
El coeficiente de correlación de Pearson puede ser considerado como una
medición de similaridad entre variables o entre casos medidos en un nivel de
intervalo o superior. La proximidad o igualdad entre dos variables vendrían
definidas por la correlación entre los vectores definidos por los valores de cada
una de ellas. Como es bien conocido, el coeficiente de correlación de Pearson
oscila entre -1 y +1 (es un coeficiente normalizado), dónde 0 expresa la ausen-
cia de correlación entre las variables. Cuanto más próximo esté el coeficiente
a -1 o +1, más fuerte es la relación entre las variables4. En otras palabras, cuan-
to más elevada es la correlación, tanto en positivo (directamente proporcional)
como en negativo (inversamente proporcional), más fuerte es la relación, y
expresa que las dos variables están bastante próximas. Una relación no signi-
ficativa o muy baja indicaría que las dos variables son muy diferentes.
Correlación (x,y) = Si ZxiZyi / N - 1
Téngase presente que en este caso, la proximidad o similaridad se establece
tanto entre variables, como entre casos. Depende del vector (fila o columna)
que se emplee para estimar la correlación. En el caso de los índices de demo-
cracia considerados en el ejemplo, la correlación (proximidad) entre dimensio-
nes es la siguiente
4. Considerando siempre que el coeficiente de correlación sea significativo. Es decir, que dicha
relación existe en la realidad según exprese su significación estadística.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 31
Matriz de similaridades
Correlación entre vectores de valores (fila)
Tomando como referencia las cuatro dimensiones consideradas, los dos paí-
ses (de los analizados) más similares (próximos) son Perú y Ecuador (0,99),
o Perú y Chile (0,99). Los menos similares, en este caso, son Argentina y
Uruguay (0,65). Como puede apreciarse, el coeficiente de correlación expresa
similaridad sobre la base de la asociación.
Coseno
Esta es una medida de similaridad que utiliza los cosenos de los vectores defi-
nidos por los valores de cada variable (vector columna), o de cada caso en las
diferentes variables (vector fila). Desarrolla el planteamiento de expresar los
datos como vectores, si bien en esta ocasión empleados para calcular la simi-
litud. La similitud entre dos vectores, evaluada por el coseno del ángulo, osci-
la entre los valores -1 y 1. El valor máximo de 1 resulta cuando el ángulo entre
los dos vectores es cero. En definitiva, que ambos vectores apuntan hacia la
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 32
Matriz de similaridades
Gamma
Se aplica cuando las variables son de tipo ordinal o rangos. Se calcula restán-
dole a 1 el coeficiente de correlación gamma de Goodman-Kruskal. Su lógi-
ca es semejante a la del coeficiente de correlación. Como podremos observar,
partiendo de la idea de emplear asociación como distancia o similitud, todos
los coeficientes son susceptibles de ser empleados para tal fin. Es el caso de
Spearman, o tau-b y tau-c, si bien estas últimas tienen dificultades para alcan-
zar los límites -1 y +1 cuando no se trata de tablas cuadradas.
a) Distancia
Medida de Chi-cuadrado
Un procedimiento frecuente para medir la disimilaridad cuando se emplean
frecuencias se basa en Chi-cuadrado. El test de Chi-cuadrado determina si
dos variables son o no independientes estadísticamente. Es decir, que no exis-
te relación entre ellas. En su empleo como medida de distancia o disimilari-
dad, simplemente se calcula el coeficiente chi-cuadrado de la tabla de con-
tingencia y se extrae su raíz cuadrada. En definitiva, esta medida de distan-
cia consiste en la raíz cuadrada de chi-cuadrado. Cuando consideramos muchas
variables, para cada par podemos estimar su distancia según chi-cuadrado,
construyendo una matriz de disimilaridad entre las variables. Es importante
recordar que las tablas son del tipo 2 x n ó n x 2, es decir que la compara-
ción se continúa haciendo por pares, sean definidos por las filas (2) o por las
columnas.
Dado que el valor que adquiera chi-cuadrado depende del tamaño mues-
tral, la magnitud que alcance este coeficiente de distancia dependerá del
número de casos considerados. Para intentar normalizar los coeficientes de
distancia en variables que adoptan valores de frecuencia, se utiliza como alter-
nativa el coeficiente phi-cuadrado.
Medida de phi-cuadrado
Esta medida intenta corregir el efecto que tiene la muestra en el cálculo
del Chi-cuadrado. Para ello, divide la medición anterior, es decir, la medición
de disimilaridad basada en chi-cuadrado, por la raíz cuadrada de las frecuen-
cias totales (el total de casos u observaciones contenidas en la tabla de con-
tingencia). Con ello, el valor del índice no se ve influido por las diferencias
de frecuencias de las variables que se comparan.
Otros índices son la V de Cramer, el coeficiente de contingencia, Lambda
y varios más.
Si consideramos las características que poseen en común y las que no, obte-
nemos una tabla de contingencia de 2 x 2. El caso 1 y el caso 2 coinciden
que “sí” en la variable 2 (tener TV). Es decir, 1 coincidencia en que “sí-sí”.
Los dos casos coinciden que “no” en la variable 3 (tener radio). Es decir, 1
coincidencia en que “no-no”. El caso 1 dice “sí” en dos ocasiones que el caso
2 dice “no” (variables 1 y 5). Es decir, 2 veces. Por último, el caso 1 dice “no”
cuando el caso 2 dice “sí”, en 1 sola ocasión, (variable 4).
Caso 1
Sí No
Caso 2 Sí 1 1
No 2 1
En este ejemplo se compara las respuestas dadas por dos casos a las cinco
variables. Partiendo de esta tabla cruzada, es posible estimar varios índices de
similitud y disimilitud.
Al igual que en la ocasión anterior, puede efectuarse la misma operación
para comparar dos variables (considerando los valores 0 y 1 presentes en los
diferentes casos). Con ello construiremos una tabla comparando dos variables
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 36
TV Radio
Ciudad A 1 1
Ciudad b 0 0
Ciudad C 0 1
Ciudad D 1 0
Ciudad F 1 1
Ciudad G 1 1
Ciudad H 0 1
Ciudad I 1 0
Radio
si no Total
TV si 3 2 5
no 2 1 3
Total 5 3 8
la similitud con otro caso en la opción “no” aporta poca información. Por el
contrario una respuesta positiva a esa pregunta puede indicar un parecido
importante entre los dos casos. Los dos han sido premiados en un sorteo y
esa coincidencia es algo que puede considerarse destacable. Sin embargo
consideremos la característica “posee una emisora de televisión” y “posee
una emisora de radio”. Para un país desarrollado, las coincidencias o pareci-
dos en la respuesta negativa (no tener televisión o una emisora de radio)
puede ser mucho más significativa que las coincidencias en la positiva. Es
evidente que en cada situación se desea dar una importancia diferente a las
coincidencias negativas o a las coincidencias positivas. En la primera quere-
mos dar una mayor relevancia a las coincidencias de tipo "sí" (a los dos les
ha tocado lotería), dada la rareza de la coincidencia. Es la misma situación
que cuando los dos casos (ciudades) coinciden en la respuesta "no" (no poseen
televisión o emisora de radio). Esta coincidencia en no tener “canal de tele-
visión” y “emisora de radio” puede ser significativa (en algunos países) res-
pecto a la similaridad entre los dos casos, y posiblemente más interesante que
la coincidencia en "sí" tenerla.
Como ya hemos dicho, las medidas de similaridad en el caso de variables
binarias se diferencian en el tratamiento que le dan a cada una de las casillas
en la tabla que se forma. Algunas peticiones simplemente excluyen las casi-
llas que expresan la ausencia de valor, es decir negativas, "no". En otras
mediciones tendrán más peso las coincidencias que las diferencias, mientras
que en otras se focalizan más en las diferencias que en las coincidencias.
Evidentemente la selección de la medida apropiada debe depender de la natu-
raleza de las variables y de la información que facilitan al investigador. Es
el investigador el que decide que características son más substantivas para los
objetivos de su investigación.
La construcción de una tabla de doble entrada con dos variables binarias,
define otra tabla de 2x2, cuyas celdillas notaremos con letras, según la com-
binación de presencia o ausencia de la característica. Estas letras van a ser usa-
das en la explicación de las medidas de disimilitud con datos binarios.
Variable 1
1 (Sí) 0 (No) Totales
Variable 2 1(Sí) a b a+b
0 (No) c d c+d
Totales a+b b+d m= a+b+c+d
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 38
a) disimilitud
Distancia euclídea
Distancia euclidiana binaria. Tiene un valor mínimo de cero y sin límite supe-
rior.
Distancia (x,y) = √(b+c)
Se calcula a partir de una tabla 2x2 como la raíz cuadrada de (b+c), donde
b y c representan las casillas diagonales correspondientes a los casos presen-
tes en un elemento pero ausentes en el otro.
Para el ejemplo A: ,2-1+2. = 1,73
Para el ejemplo b: ,2-2+2. = 2
Diferencia de tamaño
Se trata de un índice de asimetría. Tiene un valor mínimo 0 y límite superior
de 1. Se calcula mediante (b-c)² / n². Siendo n el número total de casos.
Diferencia de configuración
Nuevamente b y c representan las casillas diagonales correspondientes a los
casos presentes en un elemento pero ausentes en el otro, y a+b+c+d es el
número total de observaciones al cuadrado. Su valor oscila de forma norma-
lizada en un rango de cero a uno.
Varianza
Se calcula a partir de una tabla 2x2 como (b+c)/4n, donde b y c representan
las casillas diagonales correspondientes a los casos presentes en un elemen-
to pero ausentes en el otro, siendo n el número total de observaciones. Oscila
entre 0 y sin límite superior.
Forma
Esta medida de disimilitud, no tiene límite superior o inferior y penaliza la asi-
metría de las discordancias.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 40
Lance y Williams
Se calcula donde a representa la casilla correspondiente a los casos presen-
tes en ambos elementos y donde b y c representan las casillas diagonales co-
rrespondientes a los casos presentes en un elemento pero ausentes en el otro.
Esta medida oscila entre 0 y 1. También se conoce como coeficiente no métri-
co de brayCurtis.
Distancia (x,y) = b+c / 2a+b+c
Para el ejemplo A: 3/5 = 0,6
Para el ejemplo b: 4/10 = 0,4
Russell y Rao
La medición de similaridad de Russell y Rao se calcula dividiendo el núme-
ro de coincidencias en la celdilla positivo-positivo, por el total de valores.
Este coeficiente mide la probabilidad de que un individuo elegido al azar
5. Existen una multitud de índices de similitud para datos binarios como son: Rogers y
Tanimoto, Sokal y Sneath 1, Sokal y Sneath 2, Sokal y Sneath 3, Kulczynski 1, Kulczynski
2, Sokal y Sneath 4, Hamann, Lambda, D de Anderberg, Y de Yule, q de Yule, Ochiai,
Sokal y Sneath 5, correlación Phi de 4 puntos, dispersión, etc.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 41
Concordancia simple
La medición de concordancia simple, se define como el número de coinciden-
cias divididas por el número total de casos (o de variables). Este coeficiente
mide la probabilidad de que un individuo elegido al azar presente una coin-
cidencia de cualquier tipo, pesando de igual forma las coincidencias y las no
coincidencias.
Distancia (x,y) = a+d / a+b+c+d
Para el ejemplo A: 2/5 = 0,4
Para el ejemplo b: 4/8 = 0,5
En este ejemplo b, tenemos cuatro coincidencias entre los dos casos con-
siderando siete variables por lo que el coeficiente de coincidencias sería cua-
tro dividido entre siete, o 0.5.
Jaccard
La medición jaccard, excluye la celda negativa-negativa tanto del numera-
dor como del denominador. Esta medida mide la probabilidad condicionada
de que un individuo elegido al azar presente un 1 en ambas variables. Las coin-
cidencias de tipo negativo-negativo (d) se excluyen al considerarse no signi-
ficativas en este índice.
Distancia (x,y) = a / a+b+c
Para el ejemplo b el valor sería de .429.
Dice
La medición Dice excluye la valores coincidentes 0-0 tanto del numerador
como del denominador y le asigna un peso doble al valor de las coincidencias
del tipo 1-1. Se puede ver este coeficiente como una extensión de la medida
de jaccard, aunque su sentido probabilístico se pierde.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 42
Rogers-Tanimoto
Este coeficiente puede interpretarse como una extensión de la medida de
concordancias simples, pesando con el doble valor las no coincidencias
(b+c).
Distancia (x,y) = a+d / (a+d+2(b+c)
En el ejemplo b tendría un valor de .333
Medida de Kulcynski
Esta medida es el cociente entre coincidencias y no coincidencias, excluyendo
los pares negativo-negativo.
Distancia (x,y) = a / b+c
Medida Φ Phi
Al igual que se utiliza el coeficiente de correlación de Pearson como medi-
da de proximidad, en el caso de tablas de 2x2 es posible emplear el coeficien-
te de Correlación Phi de 4 puntos. Este índice su equivalente en binario, con
un rango de variación entre -1 y +1.
En el ejemplo b tendría un valor de -.067
Vamos a continuación a considerar algunas de las aplicaciones inmedia-
tas de las matrices de distancias o proximidades. Una de ellas es, evidente-
mente, el análisis de conglomerados. Siendo el concepto de proximidad y
distancia una noción fundamental, en general, es una cuestión de interpreta-
ción su empleo con un sentido teórico u otro. Así, la asociación (como es el
caso de la correlación) puede interpretarse como proximidad o distancia.
Como similitud o disimilitud. En un sentido metafórico, los análisis de aso-
ciación, en especial los basados en modelos lineales, simplemente expresan
la idea de que todas las variables son, hasta cierto punto y tras las modifica-
ciones que producen las transformaciones de combinación lineal, un sistema
de copias que reflejan con mayor o menor precisión las imágenes de unas en
las otras.
La investigación social experimentó una revolución tras la implementa-
ción de paquetes informáticos que realizan tareas de análisis estadístico. Y
cabe enfatizar, tareas de tratamiento de datos. Los programas no efectúan
análisis en el sentido de interpretación. Es el investigador quien investiga y
analiza. Es el investigador quien busca sentido en los datos que representan
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 43
la realidad, con todas las limitaciones por todos conocidas. Los programas
son una herramienta. Una ayuda valiosa que permite afrontar tareas que serían
casi imposibles por su coste en tiempo para cualquier investigador. La
oferta de programas comerciales es muy elevada y cada vez son más. Una
opción interesante es utilizar programas liberados como son el programa R.
Sin embargo, su curva de aprendizaje es lenta y exige una documentación
extensa de procedimientos para aquellos que no están familiarizados con él.
La paradoja está servida. Aquellos que conocen el programa, dada su espe-
cialización, posiblemente ya saben dónde encontrar estos análisis (incluso
buscando en CRAN). Para los no competentes con R, obliga a escribir un
manual formativo que excede este texto. Hoy por hoy, los programas comer-
ciales son más intuitivos y fáciles de usar. basta unas orientaciones básicas
y la curva de aprendizaje es rápida. Obviamente, al ser un producto comer-
cial que compite en un mercado en expansión, buscan la fórmula de hacer-
los más acogedores. En esta ocasión los ejemplos se expondrán en dos pro-
gramas bastante extendidos: SPSS y SYSTAT.
Una vez elegida la opción “Distancia”, aparecen las dos ventanas, a la izquier-
da el listado de variables existente en la base de datos y a la derecha las varia-
bles que se eligen para calcular las distancias o similitudes.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 44
Es posible elegir las distancias ente casos o variables, así como que medida
de distancia o similitud se desea calcular. Las medidas disponibles en SPSS
se muestran desplegando la opción “medidas”. Están organizadas según métri-
ca de las variables en Intervales, Recuentos y binarias. Al elegir el tipo de
medida, se activa el desplegable de la derecha dando a elegir qué índice se
desea emplear. Los índices serán del tipo elegido en la ventana anterior: de
disimilaridad o de similaridad.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 45
Algunos ejemplos, las distancias para datos ordenados y las distancias para
datos no ordenados. Para datos ordenados, como son las variables ordinales o
los rankings.
3. EL ANÁLISIS DE CONGLOMERADOS
6. barreto F. El último ruego. No. 35 de la revista Actualidades, nº. 35, 21 de septiembre de
1903, página 576
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:58 Página 50
Sinónimos y equivalencias
Single linkage: Nearest-neighbor method, Minimum method, Hierarchical
analysis, Space-contracting method, Elementary linkage analysis, Connec-
tedness method.
Weighted average linkage: Weighted pair-group method using arith-
metic averages, WPGMA, Weighted group-average method.
Centroid linkage: Unweighted centroid method, Unweighted pair-
group centroid method, UPGMC, Nearest-centroid sorting
Complete linkage: Furthest-neighbor method, Maximum method,
Compact method, Space-distorting method, Space-dilating method, Rank-
order typal analysis, Diameter analysis.
Median linkage: Gower’s method, Weighted centroid method, Weighted
pair-group centroid method, WPGMC, Weighted pair method, Weighted
group method.
Average linkage: Arithmetic-average clustering, Unweighted pair-group
method using arithmetic averages, UPGMA, Unweighted clustering, Group-
average method, Unweighted group mean, Unweighted pair-group method.
Ward’s method: Minimum-variance method, Error-sum-of-squares
method, Hierarchical grouping to minimize tr(W), HGROUP.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 54
Los nombres en negrita serán los utilizados en este libro cuando nos refira-
mos y describamos los métodos para establecer la vinculación entre clústeres.
Como hemos observado anteriormente, el análisis de clúster es una
estrategia fundamental en las tareas de minería de datos y en lo que actual-
mente se denomina “big data”. Es decir, de la explotación exploratoria de
grandes bases de datos que incorporan información de diverso tipo. Este
hecho hace que partiendo de los métodos anteriores se hayan desarrollado
otros procedimientos alternativos. Es el caso de la búsqueda de clústeres
basándose en las distribuciones multivariables o los que se basan en el estu-
dio de la densidad. Las estimaciones de densidad (Hartigan 1975; Wong and
Lane, 1983) pueden ser aplicadas al análisis de clústeres, existiendo varios
métodos para ello (Silverman, 1986).
El método para detectar clústeres más directamente conectados con la
estadística es el basado en el análisis conjunto de distribuciones. Para ello se
modifica levemente la definición de clúster de forma que incluya el concep-
to de distribución. Un clúster estará formado por aquellos casos que con mayor
probabilidad pertenezcan a una misma distribución. Este tipo de modelado
presenta el problema del sobreajuste, de forma que el investigador debe esta-
blecer una serie de criterios y condiciones que limiten las soluciones posibles
de los modelos. Por definición, cuanto más complejo es un modelo mejor
ajustará sobre la diversidad de los datos, sin embargo la noción misma de par-
simonia ya sugiere que el modelo más complejo no es necesariamente el mejor,
aun cuando sea el más explicativo. En esta lógica distribucional de la explo-
ración de clústeres, los clústeres capturan y expresan la correlación e interde-
pendencia entre los atributos empleados para agrupar los casos. Entre los
métodos más empleados se encuentran los modelos gaussianos mixtos, dónde
los datos son modelados mediante un número fijo de distribuciones gaussia-
nas, inicializadas mediante valores aleatorios, y que mediante un procedi-
miento de ajuste iterativo busca optimizar su ajuste a los datos. Los casos se
atribuyen a aquella distribución gaussiana a la que es más probable que per-
tenezcan. Como es habitual en este tipo de ajustes, el riesgo de un mínimo local
(con lo que el ajuste no sería óptimo considerando toda la función) siempre
está presente, por lo que se habitúa a efectuar varios intentos, en los que pue-
den encontrarse soluciones diferentes.
Los métodos que emplean el enfoque del análisis de la densidad, plantean
que los clústeres vienen definidos por áreas donde los casos se concentran
densamente. Estás áreas de concentración de casos estarían rodeadas de zonas
de baja densidad, que delimitarían a los diferentes clústeres entre sí. Los
casos presentes en esas zonas difusas son definidos como “ruidos” o casos
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 55
atípicos. Partiendo de esta idea, existen diferentes métodos para darle una
forma operativa. Algunos de ellos aún no están incorporados en la mayoría
de los programas comerciales más extendidos, al surgir asociados a la mine-
ría de datos y el análisis de big data. El método DbSCAN propone un mode-
lo de conglomerado basado en el alcance de densidad (density-reachability),
y consiste en conectar aquellos casos que se encuentran espacialmente dentro
de un intervalo. Para poder incluir los casos dentro del clúster estos deben
cumplir unos criterios de densidad (como es un número mínimo de casos
dentro de un determinado radio), por lo que el clúster consiste en todos los
casos que están densamente conectados más todos los casos que se encuen-
tran dentro de un radio de influencia de ese grupo. En ese sentido, los clús-
teres pueden adoptar formas muy irregulares. Este método emplea dos para-
metros: e (el rango de influencia que “atrapa” a los casos dentro del clúster)
y el número mínimo de puntos (minPts) a partir del cual podemos concluir
que existe una región especialmente densa y definitoria de un clúster. Por lo
general, el procedimiento se inicia con un caso cualquiera y se determina si
el número de casos que captura el parámetro e es suficiente para definir un
clúster. En caso afirmativo se identifican como un clúster. Todos los casos
que forman parte de ese clúster incorporarán, a su vez, al clúster aquellos
otros casos que se encuentren dentro de su radio de influencia e. El proceso
continúa hasta “cerrar” el clúster dado que todos los demás casos estarían
fuera del área de influencia. Entonces se reinicia nuevamente el proceso
comenzando con otro caso fuera del clúster, en búsqueda de posibles nuevos
grupos. Cuando el caso de inicio no define un clúster es etiquetado provisio-
nalmente como “ruido”, aunque más tarde pueda ser capturado dentro del
radio de influencia de otro clúster y con ello ser incorporado a él. Otras
variantes de este método son OPTICS (que elimina la necesidad del paráme-
tro e mediante la generación de clústeres jerárquicos) o DeLi-Clu (Density-
Link-Clustering) que combina los métodos de linkage simple con OPTICS.
Es evidente que estos métodos tienen limitaciones, muchas de ellas equiva-
lentes a todos los que se basan en el concepto de distancia. La calidad del resul-
tado depende, como ya sabemos, de la distancia elegida. La más habitual en
DbSCAN es la distancia euclidea, que siendo una medida de distancia efi-
caz, presenta serios problemas cuando existe una elevada dimensionalidad
en los datos. Esa hace muy dificultosa la tarea de decidir un valor apropia-
do para e. Recordemos, asimismo, el efecto de las métricas que se empleen,
y que también afectará al radio de influencia. Otra limitación es cuando los
clústeres muestran grados diferentes de compactación. Si son muy desiguales
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 56
7. Dra. María Helena barrera Agarwal, quien el domingo 3 de julio del presente año publicó
el artículo "Los orígenes de Odiame" en la revista Artes del diario ecuatoriano La Hora.
Dicho artículo se encuentra en la página 7 de la mencionada revista y puede ser leído en la
siguiente dirección: http://issuu.com/la_hora/docs/artes030711
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 58
Los métodos anteriores empleados para producir los grupos pueden ser con-
siderados de tres tipos. Los basados en la a) vinculación entre grupos, b)
métodos de varianza y los c) métodos basados en los centroides. Además,
recordemos la existencia de los métodos de carácter distribucional y los basa-
dos en la densidad. Como hemos considerado, estos métodos se diferencian
en la forma como determinan la distancia entre los grupos existentes confor-
me avanza el proceso de aglomeración. Vamos seguidamente a describir las
características de los métodos anteriores.
Single linkage o Vecino más próximo (“nearest neighbour”). Uno de los
procedimientos más básicos es la agrupación según el vecino más próximo.
Los primeros casos que se combinan son aquellos que tienen una distancia
menor (o una proximidad mayor) entre ellos. A partir de ahí, las distancias
de los otros casos hasta ese grupo se determina a partir de la distancia con el
caso más próximo que ya pertenece a ese grupo. La distancia entre los casos
que no han sido agrupados no varía, de forma que la distancia entre dos con-
glomerados o grupos es la distancia entre los dos casos más próximos, per-
teneciendo cada uno de ellos un grupo distinto. Tal y como puede observar-
se, en el método de vinculación simple, la distancia entre dos clústeres es la
distancia mínima considerando todos los pares de casos entre los dos clúste-
res. Una vez estimada la distancia más próxima, se fusionan los dos grupos.
El método es poco robusto, por lo que pueden influir notablemente los casos
extremos. Tanto produciendo nuevos clústeres adicionales, como provocan-
do que otros clústeres se fusionen. Es lo que se denomina como efecto de
“encadenado” (chaining). Dado que los casos más próximos a cada uno de los
dos grupos son los que dirigen la fusión, los clústeres resultantes pueden ser
alargados y delgados. En el caso en que esta propiedad sea indeseable para
el investigador, es posible recurrir a otros métodos como son complete lin-
kage o average linkage.
Complete linkage o Vecino más lejano (“furthest neighbour”), También
es posible emplear criterios alternativos (siguiendo una lógica parecida) para
definir la distancia entre grupos, como es por ejemplo la técnica conocida
como el vecino más alejado. En este método la distancia entre los grupos es
la que determine los dos casos más diferentes o distantes, perteneciendo cada
caso un grupo diferente. Este procedimiento produce el efecto contrario sobre
los clústeres. Genera clústeres muy compactos espacialmente. Este efecto
puede ser inapropiado si el objetivo es detectar clústeres alargados y delga-
dos. Estos dos efectos contrarios de los dos métodos en la formación de los
grupos son analizados en detalle por Kaufman y Rousseeuw (1990).
Average linkage. Otras técnicas, como el método de agrupación según la
media entre grupos (UPGMA), considera la distancia entre dos grupos como
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 61
la media de las distancias entre todos los pares de casos en los que cada uno
de ellos procede de un grupo (clúster) diferente. Este procedimiento emplea
la información de todos los pares de distancias, y no solamente los de aque-
llos pares que se encuentran particularmente próximos o alejados. En ese
sentido, es un procedimiento que incorpora mucha más información para ir
definiendo la pertenencia a grupos, por lo que acostumbra ser preferido res-
pecto a las técnicas que solamente tiene en cuenta los pares de casos más
extremos, ya sea por su proximidad o lejanía.
Al igual que el método de agrupación anterior considera las distancias
entre los pares definidos por los casos que pertenecen a grupos distintos, exis-
te otra opción alternativa por la cual se combinan los grupos de forma que las
distancias medias entre todos los pares de casos que pertenecerían a ese nuevo
grupo se minimiza (“Average linkage within groups method”). Es decir, que la
distancia entre dos grupos es la media de todas las distancias entre los pares
de casos posibles que formarían el nuevo grupo. Kaufman y Rousseeuw
(1990), proponen que el método de average linkage como uno de los más
robustos y posiblemente el más apropiado para la mayoría de las ocasiones.
El método Weighted average linkage es una variación del average linka-
ge. La idea básica (al igual que sucederá con median linkage) es responder a
cómo se deben tratar los grupos con un tamaño desigual cuando se fusionan.
En average linkage, el número de casos en cada grupo se tiene en cuenta al
producir el grupo resultante de la fusión, por lo que los grupos más grandes
tienen un peso mucho mayor. Este método da un peso igual a cada caso, inde-
pendientemente del clúster al que pertenezca. Como su nombre indica, en
weighted average, los dos grupos reciben el mismo peso para definir el grupo
que resulta de la fusión, independientemente del número de casos de cada
grupo. Para ello, los casos que proceden de grupos más pequeños reciben un
peso mayor que aquellos casos que forman los grupos más grandes.
Centroid linkage o Agrupación de centroides (“centroid clustering”). El
método de centroides determina la distancia entre dos grupos como la distan-
cia entre sus medias. Es decir, este método fusiona aquellos grupos cuyas
medias están más próximas. Para ello, considera las medias como una especie
de centro de gravedad del grupo. Su diferencia con el método de average lin-
kage es que, como ya hemos considerado, este último considera la distancia
media entre los casos que pertenecen a los dos grupos, mientras que el méto-
do de centroide considera la distancia entre las medias de los dos grupos.
Una de las desventajas de este método es que la distancia en la que cada
grupo se combina puede disminuir de un paso para el siguiente. Es decir, que
los grupos que se fusionan en una etapa más avanzada son más diferentes que
aquellos que fueron fusionados en etapas anteriores. Esto es una propiedad
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 62
8. Fuente: Avilés R., Carlos A. Colección de canciones antiguas, copiadas por Carlos A. Avilés
R., comenzada en Balao en las vacaciones de 1945 y terminado en Puná el domingo 24 de
febrero de 1946 [manuscrito-fotocopia]. balao, Santa Elena, 1945-1946. en Fidel Pablo
Guerrero “Transferencias musicales”, http://soymusicaecuador.blogspot.com.es/2011/10/el-
odio-trasferencias-musicales.html
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 65
quier par de clústeres xi y xj sea δ(xi,xj) la distancia entre los dos clústeres.
Consideremos Δ(xi) el diámetro del clúster xi. El índice de Dunn se define
como el valor mínimo de la razón entre la medida de disimilaridad de los dos
clústeres y el diámetro del clúster. El mínimo se determina para todos los
clústeres presentes en los datos. Este planteamiento presenta un problema
específico. En el caso que uno de los clústeres este bastante disperso, mien-
tras que el otro sea muy compacto, dado que el denominador emplea el valor
máximo en lugar de algún promedio, puede producir que el valor del índice
de Dunn para ese par de clústeres sea inusualmente bajo. Es algo a conside-
rar durante el análisis. Por lo general, cuanto mayor es el valor del índice de
Dunn más compacta y diferenciada es la solución que ofrece el análisis de
clústeres (número de clústeres). Cuando los datos contienen clústeres muy
compactos y bien separados entre ellos, la expectativa es que la distancia
entre los clústeres sea elevada y el diámetro de los clústeres muy reducido.
basándonos en esa definición, valores elevados del índice corresponden con
clústeres compactos y bien separados. Cuando se muestra en formato gráfi-
co la relación entre el número de clústeres y el índice de Dunn, la solución
que muestre el mayor valor en el índice debería ser la más correcta. En este
caso, su empleo es adecuado tanto para matrices de datos rectangulares como
de disimilaridad.
Otra estrategia para medir la validez de la solución que ofrece el número
de clústeres, es el índice de Davies-bouldin (1979). Este índice busca cuan-
tificar la similaridad media entre un clúster y aquellos otros clústeres que
puedan estar próximos a él. Sea k el número de grupos en un determinado
momento del análisis jerárquico y donde Vxi indica el centro del clúster Xi y
| Xi | el tamaño del clúster Xi.
Si la medición de la dispersión del clúster Xi la definimos como
Si = (1/│ Xi │ Sd2 (x, Vxi))1/2
para todo x perteneciente a Xi , y la disimilaridad entre dos clústeres (Xi y Xj)
como
dij = d(Vxi, Vxj)
y sea Ri = Max j, j≠1 ( Si + Sj / dij)
Entonces el índice de Davies y bouldin es igual a 1/k ( SRi)
De acuerdo a la formulación del índice Davies-bouldin, cuanto menor es
su valor mejor es la solución. Es decir, el número de clústeres puede ser el más
apropiado. Este índice puede calcularse para matrices rectangulares de datos.
El índice pseudo F (Calinski y Harabasz, 1974) muestra la razón entre la
varianza entre-grupos con la varianza intra-grupos. Siendo n el número de
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 70
9. Fuente: El Odio (pasillo) [disco de pizarra]/ Dúo Rodolfo Martínez- Alfonso Dougard.
Disco Victor 65726-A. “Ecuatoriano Dúo con guitarra” en Fidel Pablo Guerrero “Trans-
ferencias musicales”, http://soymusicaecuador.blogspot.com.es/2011/10/el-odio-trasferen-
cias-musicales.html
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 73
10. En alguna ocasión, el dendrograma no puede producir una combinación en la que las dis-
tancias se incrementan progresivamente. En esta situación, es posible apreciar que algunas
ramas no llegan a conectarse unas con otras. En estos casos cabe plantearse optar por los
métodos de vinculación simple o vinculación completa (Single o Complete linkage) según
Fisher y Van Ness (1971).
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 75
Análisis multivariante para las Ciencias Sociales I
75
grupo podría ser brasil, Panamá, Ecuador, Perú, México, Argentina. Otro
grupo Nicaragua, Rep. Dominicana, Paraguay y bolivia. El tercer clúster
puede definirse por Venezuela, Colombia, Honduras y Guatemala. El cuarto
clúster, por Costa Rica y Chile.
Otra solución es decidir que son relevantes tres grupos. El grupo 1 for-
por brasil, Panamá, Ecuador, Perú, México, Argentina.
mado 2 for-
El grupo
mado por Nicaragua,
Rep. Dominicana,
Paraguay,
bolivia,
Venezuela,
Colom
-
bia, Honduras y Guatemala. El tercer grupo por Costa Rica, Uruguay y Chile.
queda como país más atípico El Salvador.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 76
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 82
Historial de conglomeración
En la pantalla tras elegir este análisis, puede escogerse las variables que par-
ticiparán en el análisis, así como otras opciones analíticas. En este momento,
la más relevante es la decisión sobre si los conglomerados se van a efectuar
operando con las variables o con los casos.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 86
Conglomerado de pertenencia
Caso 5 4 3 2
conglomerados conglomerados conglomerados conglomerados
1 1 1 1 1
2 2 1 1 1
3 2 1 1 1
4 3 2 2 2
5 4 3 2 2
6 3 2 2 2
7 4 3 2 2
8 3 2 2 2
9 3 2 2 2
10 5 4 3 2
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 87
Caso 5 4 3 2
conglomerados conglomerados conglomerados conglomerados
11 4 3 2 2
12 3 2 2 2
13 4 3 2 2
14 3 2 2 2
15 4 3 2 2
16 4 3 2 2
17 4 3 2 2
18 4 3 2 2
Por último, y solamente para la opción de efectuar clústeres con los casos,
tenemos la opción de crear una nueva variable donde se indique la pertenen-
cia de cada caso a cada uno de los conglomerados estimados. Nuevamente,
la opción es crear una variable (“solución única”), donde se indique la per-
tenencia de cada caso a los clústeres decididos, o crear un conjunto de varia-
bles, donde cada una de ellas muestra la pertenencia de cada caso según el
número de clústeres en esa solución (“Rango de soluciones”).
En el caso de utilizar el programa SYSTAT la organización de los menús
es bastante similar al programa anterior. La elección en el menú de la opción
“Analizar” nos ofrece la opción “análisis de clústeres”, y dentro de ella las
opciones de “jerárquicos” y “no jerárquicos” (K-clústeres).
Dentro de la opción “jerárquicos”, la mayor parte de las opciones ya son
conocidas. Tanto las opciones para elegir el método para estimar las distan-
cias entre clústeres, como la elección de la distancia elegida, el efectuar el
clúster de filas (rows), que indican por lo habitual los casos, o de columnas
(columns) expresando variables son semejantes en los dos programas.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 89
12. Existen otros métodos como el análisis de clúster en dos pasos (“two steps cluster analysis”).
Este método es aplicable a bases de datos con un gran número de casos, y no es imprescin-
dible indicar un número previamente al análisis. Es decir, los propone automáticamente.
Existe una cierta controversia en la literatura especializada sobre las condiciones de apli-
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 95
cación y los resultados de este enfoque. (johann bacher, Knut Wenzig, Melanie Vogler,
“SPSS Twostep Cluster – a first evaluation”). El procedimiento permite el empleo de varia-
bles con diferentes niveles de medición simultáneamente. Las simulaciones sugieren que
las variables categoriales tienen un fuerte efecto en la formación de clústeres, imponién-
dose sobre las de tipo intervalo. Otra cuestión importante es la dificultad para identificar
las situaciones en las que no existen clústeres en los datos. Esta última es importante, dado
que el procedimiento ofrece de forma automática un número de clústeres.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 96
análisis multivariante de la varianza, donde los grupos (es decir, los casos
que los conforman) no son conocidos previamente. Por esta razón, aún cuan-
do empleemos el análisis de varianza para evaluar la validez de los grupos,
es importante recordar que el procedimiento se orienta a optimizar el valor
de F por lo que es fácil que produzca valores elevados.
Es importante considerar que con este método partimos de un número
concreto de clústeres. El procedimiento por el cual se van construyendo los
clústeres varía dependiendo de si se conoce el valor del centro de los grupos,
o si por el contrario los centros deben de ser estimados de forma iterativa,
eso sí, siempre partiendo de un número prefijado de clústeres.
Ciertamente no siempre es posible tener una idea clara de cuántos grupos
pueden definir las distancias. Por eso, dado que este procedimiento exige que
se le indique el número de grupos que debe calcular, una solución es extraer
una muestra aleatoria del total de los datos y sobre esta muestra parcial efec-
tuar un análisis jerárquico. Tal y como hemos visto anteriormente. Tras efec-
tuar esa aproximación de forma exploratoria, se puede determinar aproxima-
damente cuántos grupos parecen estar presentes en la matriz de datos y, asi-
mismo, mediante este análisis exploratorio previo es posible estimar un valor
inicial para el centro de cada clúster. Los valores que corresponden en el aná-
lisis jerárquico con los grupos buscados serían los valores de partida para
construir los k-grupos. El valor inicial para formar los clústeres a partir de él
es un elemento importante que debe decidir el investigador.
Ya con estos datos preliminares, el número de grupos y el valor de sus
centros, es posible iniciar el ajuste de los casos a dichos grupos mediante el
análisis de k-medias. Consideremos este caso en el que los centros de los gru-
pos son conocidos. Para cada caso calcularemos su distancia al centro de cada
uno de los grupos. El caso será agregado al grupo de cuyo centro se encuen-
tre más próximo. Lo ideal es que la solución final de clústeres, muestre unos
grupos cuyos centros se encuentran muy separados entre sí, y donde además
los casos que pertenecen a cada grupo se encuentren muy próximos a su cen-
tro. Este es un dato importante para determinar la bondad de la solución.
Otros métodos alternativos para estimar el centro de los clústeres anali-
zan los datos varias veces. Debemos partir de la idea de que una buena solu-
ción de clústeres debe de separar los casos lo bastante bien. Para ello, una
estrategia posible es partir de los casos con una mayor distancia entre ellos
y tomarlos como una estimación de los centros de los futuros clústeres. Así,
se tomarían tantos casos como número de grupos se haya especificado ini-
cialmente. Conforme se van incorporando más casos, uno de ellos ocupará
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 97
el centro del conglomerado cuando su distancia más corta a uno de los cen-
tros sea mayor que la distancia entre ese centro con todos los demás.
Otras alternativas son tomar los k primeros casos (siendo k el número de
clústeres) como centros iniciales para los grupos, o por el contrario, tomar
los últimos k casos. También se pueden decidir de forma aleatoria los cen-
tros, eligiéndolos al azar, o en otra estrategia, agrupar aleatoriamente los
casos en los k grupos, y calcular la media, o la mediana, según se esté pro-
cediendo, de los casos que forman cada grupo. Estas medias (o medianas
según el caso), formarían los valores iniciales para ir formando los grupos.
Existe la posibilidad de efectuar un análisis de componentes principales
y ordenar los casos según su valor en el primer componente. Después se
dividen los valores por k (n/k), y se toma el primer valor de la primera par-
tición como centro del primer clúster, el primer valor de la segunda partición
de n/k como centro del segundo clúster, y así hasta tomar todos los primeros
valores de cada partición.
Veamos el siguiente ejemplo, considerando los datos de calidad demo-
crática, podemos observar como los valores iniciales son los más extremos.
En una solución de dos conglomerados, la DIM1 inicia el clúster 1 con el
valor 8 (el máximo de esa variable) y el clúster 2 con el valor 1 (el mínimo
de esa variable).
Conglomerado
1 2
DIM1 8,00 1,00
DIM2 9,50 3,80
DIM3 ,70 -2,30
DIM4 1,30 -1,70
Historial de iteracionesa
Iteración Cambio en los centros
de los conglomerados
1 2
1 3,433 3,544
2 ,572 ,253
3 ,095 ,018
4 ,016 ,001
5 ,003 9,225E-5
6 ,000 6,589E-6
7 7,359E-5 4,707E-7
8 1,226E-5 3,362E-8
9 2,044E-6 2,401E-9
10 3,407E-7 1,715E-10
11 5,678E-8 1,225E-11
12 9,463E-9 8,758E-13
13 1,577E-9 6,172E-14
14 2,629E-10 5,032E-15
15 4,381E-11 9,222E-16
16 7,302E-12 1,110E-16
17 1,217E-12 ,000
18 2,033E-13 ,000
19 3,390E-14 ,000
20 5,626E-15 ,000
21 9,155E-16 ,000
22 ,000 ,000
El resultado de esta iteración es una nueva estimación del valor de cada varia-
ble respecto al centro de cada conglomerado. Este centro final se calcula como
la media para cada variable en el conglomerado final. En cierto modo, expresa
los valores característicos de un caso típico en cada clúster.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 99
ANOVA
Conglomerado 1 2
1 4,744
–2 4,744
Por último, se ofrece información sobre cuántos casos existen en cada conglo-
merado (tipología o segmento).
Conglomerado 1 5,000
2 13,000
Válidos 18,000
Perdidos ,000
Finalmente, permite dos criterios para excluir casos del análisis según sus
valores perdidos. Excluir los casos que tengan algún valor perdido en algu-
na variable (lista), o excluirlos parcialmente de aquellas parejas de variables
en las que presente un valor perdido. En esta situación, los casos aparecen o
desaparecen según su valor en cada pareja.
Por último, SYSTAT da nueve opciones para determinar cuáles van a ser los
centros desde los que iniciar la agrupación de casos. “None” (ninguno) inicia
el procedimiento con un grupo, y calcula su centro (media o mediana). A par-
tir de él construye dos, basándose en el valor más alejado de ese centro, que
pasa a ser el centro de un segundo grupo. Con esos dos centros procede a cla-
sificar los casos de forma óptima. Continúa dividiendo grupos y reasignando
casos hasta alcanzar el número de k-clústeres especificado. “First k” (prime-
ros k casos), tras tomar los primeros k casos (que presenten valores válidos),
los adopta como centros de inicio para clasificar el resto de los casos. “Last
k” (últimos k-valores) emplea el mismo sistema, solamente que tomando los
últimos k valores. “Random k” (aleatoria) elige de forma aleatoria los k cen-
tros para iniciar la clasificación. “Random segmentation” (segmentación alea-
toria) construye k grupos de forma aleatoria y calcula sus respectivas medias
o medianas. Posteriormente se adoptan dichas medias o medianas como valo-
res iniciales para empezar a clasificar los casos. “Principal component” (com-
ponente principal) primero estima, y después toma, el primer componente
principal como si fuese una variable. Tras ordenar todos los casos por su valor
en el componente, divide el número de casos por k (número de clústeres) y
construye los centros tomando el primer caso de cada grupo. “Hierarchical
segmentation” (segmentación jerárquica), efectúa el procedimiento de clúster
jerárquico, con el criterio de vinculación (linkage) que se especifique, y toma
los k grupos que resultan de ese análisis como partición inicial que da origen
a la clasificación. “Partition variable” (variable de partición) toma como cri-
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 106
terio para formar los k grupos (de los que extraer la media o mediana que ini-
cia la clasificación) de una variable que especifique el investigador. “From
file”, la opción desde archivo indica que tenemos los centros de inicio de la cla-
sificación escritos en un archivo externo. “Random seed” pide que los valo-
res iniciales que deben referenciar la clasificación de los casos en los k gru-
pos se estime de forma aleatoria.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 107
4. EL ANÁLISIS FACTORIAL
13. Tanto el método de componentes principales, como el de máxima verosimilitud, al igual que
otros empleados en el análisis factorial, son métodos para descomponer una matriz de
correlación o de covarianza, desde la presunción de asociación (sin dependencia).
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 114
0DWUL]GHFRUUHODFLRQHVRULJLQDO0RGHORIDFWRULDO
([WUDFFLyQ
5HSURGXFFLyQ
&RPSDUDFLyQ
En la fase (1) se evalúa la magnitud y relación entre los diferentes coeficien-
tes de
correlación.
Así
mismo, se comprueba que no es una matriz identidad.
En la fase (2) se comprueba la comunalidad
de cada
variable,
como conse-
cuencia de la solución factorial
elegida. En la
fase (3) se reproduce
la matriz
de correlación
desde el modelo factorial
elegido. En la fase (4),
tras compa-
rar la matriz original de correlaciones y la reproducida, obtenemos los resi-
duales. Unos residuales elevados en algún par de correlaciones indicarán que
la solución factorial puede no ser adecuada para ellos. Así mismo, dará ori-
gen a estimar coeficientes
de ajuste como KMO, CAM o la matriz y coefi-
AIC. Veamos
cientes este proceso
en
más detalle seguidamente.
Como sabemos, el concepto de factor implica que un conjunto de variables
son la expresión de una dimensión latente. Por ello, los presupuestos del mode-
lo postulan
que las variables
que expresan un
factor deberían
de estar altamen-
te correlacionadas entre ellas.
Si la correlación
entre las variables
es excesi-
baja, entonces
vamente
difícilmente podríamos
plantear
que son
la expresión
de una realidad
latente. Pero
asimismo,
la relación entre las variables que
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 115
forman un grupo (factor) y las demás debería mostrar una correlación baja.
En definitiva, se espera existan clústeres de variables altamente relacionadas
entre sí, y muy poco con las demás. Por ello, el análisis factorial se ocupa de
descomponer la matriz de covarianza. La covarianza y la correlación son simi-
lares: la correlación es, en esencia, una covariación cuando las variables
están normalizadas. Uno de los motivos para emplear la matriz de correlacio-
nes y no la de covarianzas es para reducir el impacto de emplear variables
con escalas muy diferentes. La correlación entre ingresos y edad es fácil-
mente comparable con la correlación entre otras dos variables con rango de
1 a 10, por ejemplo. Así, la matriz de correlaciones es útil cuando las varia-
bles están medidas en diferentes escalas, mientras que la matriz de covarian-
zas es preferible cuando el análisis se va a aplicar en múltiples grupos con
diferentes varianzas en las variables consideradas.
Planteando un ejemplo, considerando lo anterior, una matriz de correla-
ciones como la siguiente, expresaría la posibilidad de la existencia de cuatro
factores (o dimensiones) que serían los responsables de los grupos de variables
correlacionadas entre sí. Esto es evidente en el caso de que las variables v1
a v12 representen una batería de variables o indicadores que intentan medir un
fenómeno o realidad social.
Var1 Var2 Var3 Var4 Var5 Var6 Var7 Var8 Var9 Var10 Var11 Var12
Var1 1
Var2 .9 1
Var3 .7 -.8 1
Var4 .9 -.7 .9 1
Var5 .1 .1 .2 .9 1
Var6 .2 .2 .1 .7 .6 1
Var7 .1 .1 .2 .8 .7 .9 1
Var8 -.3 .2 .1 .2 .1 .2 .6 1
Var9 .2 .1 .2 .1 .2 .1 .8 .9 1
Var10 -.1 .2 .1 .3 .1 .2 .7 .8 .6 1
Var11 .2 .1 .1 .1 .1 .1 .3 .1 .2 .7 1
Var12 -.2 .1 .2 .2 .2 .1 .2 .1 .2 .8 -.9 1
En este caso que empleamos para ilustrar la idea anterior hay dos aspectos
que deben advertirse. Primero, que las variables están ordenadas en la matriz
según su correlación entre ellas, formando grupos. Esto no es habitual, y salvo
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 116
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
V1 1
V2 0,754 1
V3 0,297 0,296 1
V4 0,333 0,328 0,715 1
V5 0,246 0,247 0,339 0,406 1
V6 0,268 0,243 0,279 0,304 0,47 1
V7 0,367 0,342 0,261 0,327 0,298 0,351 1
V8 0,315 0,294 0,324 0,312 0,345 0,521 0,302 1
V9 0,293 0,288 0,322 0,335 0,281 0,406 0,258 0,48 1
V10 0,381 0,347 0,405 0,462 0,292 0,322 0,429 0,31 0,33 1
Tal y como se observa para el caso que nos ocupa, el test de bartlett ofrece
un coeficiente chi-cuadrado de 8589.326 y una significación de 0.000. En
ese sentido podemos rechazar la hipótesis nula que afirma que la matriz de
correlación anterior pueda ser en realidad una matriz identidad.
Otro indicador de la fuerza de relación entre las variables es el coeficien-
te de correlación parcial. Cuando todas las variables comparten factores comu-
nes, la correlación parcial entre pares de variables debería de ser baja cuan-
to se suprimen los efectos lineales de las demás variables. En definitiva, la
correlación parcial es una estimación de la correlación entre los factores úni-
cos. Estas correlaciones deberían de ser próximas a cero para poder cumplir
las presunciones que habíamos planteado. Recordemos que se afirmaba que
no existe correlación entre los factores únicos.
Una primera aproximación para emplear la información que aporta la
correlación parcial es comparar la matriz de correlaciones parciales con la
matriz de correlaciones observadas. Si la suma de los coeficientes de corre-
lación parcial al cuadrado (entre todos los pares de variables) es muy baja,
cuando se la compara con la suma de los coeficientes de correlación obser-
vada al cuadrado, el coeficiente será igual a 1. Es el denominado coeficien-
te Kaiser-Meyer-Olkin (KMO) de adecuación muestral. El coeficiente KMO
expresa el sumatorio de correlaciones observadas al cuadrado, divididas por el
sumatorio de las correlaciones observadas al cuadrado más el sumatorio de
correlaciones parciales al cuadrado.
S S r2ij
i≠j
KMO =
S S r ij + S S a2ij
2
i≠j i≠j
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 119
S r2ij
i≠j
CAM =
S r2ij + S a2ij
i≠j i≠j
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
V1 ,736a
V2 -0,682 ,730a
V3 -0,006 -0,028 ,775a
V4 -0,026 -0,031 -0,603 ,777a
V5 0,006 -0,036 -0,029 -0,176 ,883a
V6 -0,02 0,026 0,003 0,012 -0,301 ,834a
V7 -0,094 -0,06 0,035 -0,068 -0,068 -0,132 ,909a
V8 -0,057 -0,026 -0,086 0,018 -0,056 -0,318 -0,046 ,860a
V9 -0,023 -0,051 -0,052 -0,06 -0,004 -0,147 -4,83E-05 -0,274 ,900a
V10 -0,102 -0,022 -0,08 -0,171 -0,008 -0,059 -0,237 -0,021 -0,087 ,914a
Comunalidades
Inicial Extracción
Comprar ciertos productos por razones políticas, éticas o 1,000 ,840
para favorecer el medio ambiente
Dejar de comprar o boicotear ciertos productos por razones 1,000 ,826
políticas, éticas o para favorecer el medio ambiente
Participar en una huelga 1,000 ,797
Asistir a una manifestación 1,000 ,830
Asistir a una reunión o mitin político 1,000 ,468
Contactar o intentar contactar con un/a político/a para 1,000 ,703
expresarle sus opiniones
Donar o recaudar fondos para una actividad social o política 1,000 ,389
Contactar o comparecer ante los medios de comunicación 1,000 ,639
para expresar sus opiniones
Participar en un blog, foro o grupo de discusión política 1,000 ,485
en Internet
Firmar una petición/recogida de firmas 1,000 ,485
Método de extracción: Análisis de Componentes principales.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 127
Matriz de componentesa
Componente
F1 F2 F3
Asistir a una manifestación ,711 ,122 -,556
Firmar una petición/recogida de firmas ,667 -,075 -,186
de los factores. Esos coeficientes son llamados cargas factoriales, dado que
indican cuanto peso se le asigna a cada factor en su relación con las variables.
Los factores con coeficientes más elevados en valor absoluto expresan una
relación más intensa entre esa variable y el factor. Por ejemplo, la variable
asistir a una manifestación tendría la siguiente expresión
Asistir a una manifestación = .71 (F1) + .12 (F2) + (-.55) (F3)
El signo de la carga factorial (el coeficiente de cada factor para cada varia-
ble) en cada factor o componente es arbitrario. No lo es en la relación entre sig-
nos, que debe conservarse, pero sí su carácter positivo o negativo. En el caso
que un factor o componente contenga más signos negativos que positivos, es
factible cambiar el signo negativo a positivo, cambiando los positivos exis-
tentes a negativos. Algunos programas, como SYSTAT, realizan ese cambio
de signos de forma automática cuando en un factor o componente hay más sig-
nos negativos que positivos. En ese caso, cambia los negativos a positivos y
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 129
viceversa. Este hecho hace que las soluciones factoriales que ofrece este pro-
grama puedan no coincidir en los signos de las cargas factoriales con las que
ofrecen otros programas.
Los factores pueden estar correlacionados entre ellos o ser independientes
entre ellos. En este segundo caso, cuando los factores estimados no están
correlacionados entre ellos, se afirma que son ortogonales. Si los factores son
ortogonales, las cargas factoriales expresan también las correlaciones entre los
factores y las variables. La matriz de correlaciones entre las variables y los fac-
tores se denomina matriz de puntuación factorial. Dependiendo del tipo de
rotación que pidamos, obtendremos tras la rotación una o dos matrices.
En el caso de rotación oblicua (factores interdependientes) se obtienen
dos matrices, que se denominan “matriz de estructura” y “matriz de configu-
ración”. Cuando los factores son ortogonales, la “matriz de estructura” y la
“matriz de configuración” son equivalentes y sólo se produce una única matriz
que se denomina “matriz factorial”.
Para efectuar una interpretación de la matriz factorial, tanto cuando los
factores son ortogonales como cuando no lo son, podemos plantear que las
cargas factoriales son los coeficientes de regresión estandarizados en la ecua-
ción de regresión múltiple, donde la variable original es la dependiente y los
factores las variables independientes.
Si además los factores no están correlacionados, los valores de los coefi-
cientes no dependen unos de otros. Representan la contribución única de cada
factor y definen la correlación entre factor y variable.
Cuando la rotación es oblicua, las cargas factoriales y las correlaciones
entre las variables y los factores ya no coinciden. Las cargas factoriales con-
tinúan siendo los coeficientes de correlación parcial, pero ya no coinciden con
la correlación (entre variable y factor). Los coeficientes de correlación se
muestran en una nueva matriz denominada “matriz de estructura”.
Así, en la rotación ortogonal se produce una sola matriz donde coinciden
regresión parcial y coeficientes de correlación. En la rotación oblicua se pro-
ducen dos diferentes, la “matriz de configuración” donde se recogen las cargas
factoriales y la “matriz de estructura”, donde se recoge la correlación entre
factores y variables.
Para determinar cómo ajusta el modelo anterior de tres factores, y cono-
cer cómo describe las variables originales, es posible calcular el porcentaje
de varianza de cada variable que es explicada por el modelo de tres factores.
Dado que en este ejemplo los factores no están correlacionados, la propor-
ción total de varianza explicada es simplemente la suma de la proporción de
varianza explicada por cada factor. Recordemos que la proporción de varianza
explicada por los factores comunes determina la comunalidad de la variable.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 130
Para calcular el porcentaje de varianza de una variable que viene explicada por
los factores, se eleva al cuadrado el coeficiente de correlación entre factor y
la variable.
Varianza explicada de Participar en una huelga =
(.665)2 + (.147)2 + (-.577)2 = .44 + .02 + .33 = .79
Las comunalidades de las variables, aparecen en las estadísticas finales, tras
mantener en el análisis el número deseado de factores. Las comunalidades
pueden oscilar entre cero y uno. Cero indicando que los factores comunes no
explican varianza alguna, y uno indicando que toda la varianza de la varia-
ble es explicada por los factores comunes. La varianza que no es explicada
por los factores comunes se atribuye a lo que se denomina factor único o
también unicidad de la variable.
Otra estrategia para conocer en qué condiciones se está ajustando el mode-
lo, es mediante la matriz de correlación reproducida. Como sabemos una de
las presunciones básicas del análisis factorial es que la correlación observa-
da entre variables se debe a que comparten factores comunes. Por ello, la
correlación calculada entre factores y las variables puede ser empleada para
estimar las correlaciones entre variables. Es decir, reproducir las correlaciones
sobre las que se ha construido el modelo.
Correlaciones reproducidas
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
V1 ,840a
V2 0,832 ,826a
V3 0,267 0,262 ,797a
V4 0,317 0,31 0,812 ,830a
V5 0,202 0,186 0,425 0,446 ,468a
V6 0,244 0,222 0,257 0,285 0,522 ,703a
V7 0,488 0,477 0,323 0,356 0,327 0,38 ,389a
V8 0,308 0,287 0,256 0,287 0,495 0,666 0,396 ,639a
V9 0,304 0,286 0,298 0,326 0,449 0,571 0,368 0,551 ,485a
V10 0,461 0,452 0,54 0,569 0,369 0,326 0,392 0,342 0,346 ,485a
Residualb
V1
V2 -0,078
V3 0,029 0,034
V4 0,016 0,018 -0,097
V5 0,044 0,061 -0,087 -0,039
V6 0,024 0,021 0,021 0,018 -0,053
V7 -0,122 -0,135 -0,062 -0,029 -0,028 -0,03
V8 0,006 0,007 0,067 0,025 -0,15 -0,144 -0,093
V9 -0,01 0,003 0,024 0,009 -0,168 -0,165 -0,11 -0,075
V10 -0,08 -0,105 -0,135 -0,107 -0,077 -0,004 0,038 -0,031 -0,019
Parece que es una idea sensata buscar una estructura factorial tras la valora-
ción de la opinión pública de las instituciones. El análisis, tras la extracción
mediante componentes principales, y valor de selección del autovalor igual o
superior a 1 da lo siguiente.
cuarto factor, la dimensión "Autoridades" pasa a ser una de las dimensiones con
más peso, según la varianza total explicada. La dimensión “Democracia” apa-
rece desdoblada en dos tipos diferentes. Por una parte la democracia “represen-
tativa” con los partidos políticos o los parlamentos y por otra, el “poder judicial”.
14. Steiger (1979), Rozeboom (1982), Harman (1976), Mulaik (1972), Gnanadesikan (1977),
Mardia, Kent, y bibby (1979), Afifi, May, y Clark (2004), Clarkson y jennrich (1988) o
Dixon (1992).
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 142
15. Aunque la correlación entre dos factores se defina como cero (ortogonales) desde el plano
teórico, el cálculo matricial no siempre permite esa situación. Equivale a cuando en una
regresión de una variable “y” sobre una variable “x” se exige que el error “ey” no esté
correlacionado con la variable “y”, (y = a + bx + ey) (ecuación a). Si ese criterio se res-
peta, ya no puede ser satisfecho y cumplido en la regresión de “x” sobre “y”, (x = a + by
+ ex) (ecuación b). Las restricciones en una ecuación (a) condiciona a la otra (b) y pone
en contradicción la exigencia teórica y la práctica.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 143
16. Es exactamente la misma situación por la que cuando se efectúa una regresión de la varia-
ble “y” sobre la variable “x”, (y = a + bx + ey) (ecuación a). Si giramos la ecuación y hace-
mos la regresión de “x” sobre “y”, (x = a + by +ex) (ecuación b) no se logra los mismos
valores en la ecuación (a) que en la (b), excepto cuando existe una colinealidad perfecta
(y por lo tanto sobraría el error e).
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 144
Fuente: http://hdr.undp.org/es/data
Matriz de componentes
Componente
1
Esperanza de vida al nacer ,892
Media de años escolarizados ,894
Años esperados de escolarización ,911
(PIb) per cápita ,779
Método de extracción: Análisis de componentes principales
Este método de estimación puede dar resultados diferentes. En este caso, por
ejemplo, cambian de posición países como Panamá (IDH 0,765), Venezuela
(IDH 0,764) y Costa Rica (IDH 0,763), y que determinando el índice median-
te análisis factorial (estadística multivariante) ofrece el orden inverso con Costa
Rica (0,38), Venezuela (0,35) y Panamá (0,33). Muy posiblemente, en la medi-
da que el peso de la "Educación" es más elevado en el índice estimado median-
te análisis factorial. En el índice calculado mediante el análisis factorial, Ecua-
dor aparece en una posición media para el conjunto de los países considera-
dos. Su valor es de 0,02 cuando la media es cero. Evidentemente, puede nor-
malizarse las puntuaciones factoriales por cualquiera de los procedimientos
considerados en el capítulo 2.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 147
Fuente: http://www.idd-lat.org/2014/
Las dimensiones y sus valores por países fueron expuestas en la Tabla 1 en
capítulos anteriores.
Esas dimensiones
son combinadas mediante
opera-
ciones aritméticas
para
calcular un índice que expresa la calidad de la
17
democracia IDD-lat . Vamos seguidamente a considerar en qué modo las
cuatro dimensiones definen con consistencia un solo índice, mediante el
análisis
factorial.
En el caso de definir
dimensiones
diferenciadas, su inte-
gración en un solo
se convierte en un proceso de integración de
índice
heterogeneidad.
El método utilizado en el análisis factorial
es el de
com-
ponentes principales.
Si tomamos
como referencia el autovalor Eigen del primer componente
o factor, obtenemos un solo índice estimado de forma multivariable que refle-
jaría un 58,4 de la varianza total. Podemos observar que aún queda un por-
centaje
elevado de varianza
total En términos
por explicar. de autovalor,
una
única dimensión resumiría
la variabilidad
de forma bastante limitada.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 149
Cuando evaluamos la carga de cada dimensión del índice IDD-lat sobre los dos
factores, reconocemos una estructura que nos es conocida. La dimensión III
y IV muestran una carga elevada en el factor 1, mientras que las dimensio-
nes I y II tienen su carga más elevada en el factor 2. La dimensión I tiene su
peso más repartido entre los dos factores, con una carga de ,523 en el factor
I y de ,693 en el factor II. Esta solución nos recuerda la ofrecida por el análi-
sis de clúster efectuado anteriormente, en el capítulo 2, con la que es plena-
mente consistente.
Por eso, tal y como se recogía en el cuadro anterior, las siguientes dimensiones
caracterizan la calidad de la democracia, tal y como son definidas por IDD-lat:
“Dimensión I: “Democracia de los ciudadanos”. Evalúa el respeto de los dere-
chos políticos y las libertades civiles. Dimensión II: “Democracia de las ins-
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 151
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 152
En la ventana principal se puede elegir las variables que formarán parte del
análisis. En las situaciones en que se deseen filtrar los casos que van a consi-
derase, la opción variable de selección permite hacerlo. Es, por ejemplo, que
se desee efectuar el análisis para una categoría concreta en esa variable (por
ejemplo, en variable género solamente para mujeres o en encuestas internacio-
nales, elegir un país en concreto).
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 153
toriales con los valores que relacionan variables y factores, para estimar las
puntuaciones, los vectores eigen y las cargas factoriales. Otros programas ofre-
cen varias de estas posibilidades como parte de la información que se mues-
tra con los resultados, mientras que este programa permite guardar los datos
en archivo.
Una opción interesante es la de guardar las puntuaciones (no las cargas
factoriales y otros datos) como variables (junto a las del archivo original) en
un nuevo archivo tal y como vimos en el SPSS. Los factores se nombrarán
de forma sucesiva (Factor (1), Factor (2)…), y aquellos casos con valores
perdidos en alguna de las variables empleadas para el análisis factorial tam-
bién tendrá valor perdido en el factor. Si se emplea una matriz de correlacio-
nes los factores estarán estandarizados con media cero y varianza 1. Cuando
se utiliza la matriz de covarianzas y no se efectúa rotación, las puntuaciones
no estarán estandarizadas.
BIBLIOGRAFÍA
Afifi, A. A., May, S., and Clark, V. (2004). Computer-aided multivariate analysis,
4th ed. New York: Chapman & Hall.
Akaike, H. 1987. Factor analysis and AIC. Psychometrika 52: 317–332.
Alaminos, A.F. (1987) Cultura política y económica en el cono sur: Argentina, Chile
y Uruguay. Madrid: CEDEAL.
Alaminos, A.F. (1991) Chile: transición política y sociedad. Madrid: Siglo XXI-CIS.
Alaminos, A.F. (1998). Teoría y práctica de la encuesta. Aplicación a los países en
vías de desarrollo. Alicante: Club Universitario.
Alaminos, A.F. (2004). “Tendencias en ideología política: estructura y contenidos”,
en Tezanos, j.F. Tendencias en identidades, valores y creencias. Madrid: Sistema.
Alaminos, A.F. (2005). El análisis de la realidad social. Modelos estructurales de
covarianzas. Alicante: ObETS.
Alaminos, A.F. (2005). Introducción a la Sociología Matemática. Alicante: SPES.
Anderberg, M. R. 1973. Cluster Analysis for Applications. New York: Academic Press.
bacher, j. (1996). Clusteranalyse: Anwendungsorientierte Einführung. München:
Oldenbourg. 2., ergänzte Auflage.
bacher, j. (2000). A Probabilistic Clustering Model for Variables of Mixed Type.
Quality &Quantity, 34, 223–235.
bacher, j. (2002). StatistischesMatching: Anwendungsm¨oglichkeiten, Verfahren
und ihre praktische Umsetzung in SPSS. ZA-Informationen, 51, 38–66.
bartlett, M. S. 1937. The statistical conception of mental factors. British Journal of
Psychology 28: 97–104.
bartlett, M. S. 1938. Methods of estimating mental factors. Nature, London 141:
609–610.
bartlett, M. S. 1951. The effect of standardization on a 2 approximation in factor
analysis. Biometrika 38: 337–344.
basilevsky, A. T. 1994. Statistical Factor Analysis and Related Methods: Theory and
Applications. New York: Wiley.
bender, S., brand, R., & bacher, j. (2001). Re-identifying register data by survey
data: An empirical study. Statistical Journal of the UN Economic Commission for
Europe, 18(4), 373–381.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 162
bezdek, j.C and Pal, N. R. (1998). Some new indexes of cluster validity. IEEE
Trans. Systems, Man and Cybernetics, Part B: Cybernetics, 28, 301-315.
blashfield, R. K., and M. S. Aldenderfer. 1978. The literature on cluster analysis.
Multivariate Behavioral Research 13: 271–295.
bollen, K. A. 1989. Structural Equations with Latent Variables. New York: Wiley.
Calinski, T., and j. Harabasz. 1974. A dendrite method for cluster analysis. Commu-
nications in Statistics 3: 1–27.
Campbell, D. T. and Fiske, D. W. (1959). Convergent and discriminant validation by
the multitrait-multimethod matrix. Psychological Bulletin, 56, 81–105.
Cattell, R. b. 1966. The scree test for the number of factors. Multivariate Behavioral
Research 1: 245–276.
Chiu, T., Fang, D., Chen, j., Wang, Y., & jeris, C. (2001). A Robust and Scalable
Clustering Algorithm for Mixed Type Attributes in Large Database Environment.
In Proceedings of the 7th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining 2001 (pp. 263–268).
Clarke, M. R. b. 1970. A rapidly convergent method for maximum-likelihood fac-
tor analysis. British Journal of Mathematical and Statistical Psychology 23:
43–52.
Clarkson, D. b. and jennrich, R. I. (1988). quartic rotation criteria and algorithms.
Psychometrika, 53, 251–259.
Day, W. H. E., and H. Edelsbrunner. 1984. Efficient algorithms for agglomerative
hierarchical clustering methods.journal of Classification 1: 7–24.
Davies, D.L. and bouldin, D.W. (1979). A cluster separation measure. IEEE Trans.
Pattern Anal. Machine Intell., 1, 4, 224-227.
Dixon, W. j. (1992). BMDP statistical software manual. berkeley: University of Ca-
lifornia Press.
Duda, R. O., P. E. Hart, and D. G. Stork. 2001. Pattern Classification. 2nd ed. New
York: Wiley.
Dunn, j.C. (1973). A fuzzy relative of the ISODATA process and its use in detecting
compact well-separated clusters, Journal of Cybernetics, 3, 32-57.
Ester, Martin; Kriegel, Hans-Peter; Sander, jörg; Xu, Xiaowei (1996). Simoudis,
Evangelos; Han, jiawei; Fayyad, Usama M., eds. A density-based algorithm for
discovering clusters in large spatial databases with noise. Proceedings of the
Second International Conference on Knowledge Discovery and Data Mining
(KDD-96). AAAI Press. pp. 226–231.
Harman, H. H. 1976. Modern Factor Analysis. 3rd ed. Chicago: University of Chicago
Press.
Horst, P. 1965. Factor Analysis of Data Matrices. New York: Holt, Rinehart & Winston.
Everitt, b. S. 1993.Cluster Analysis. 3rd ed. London: Arnold.
Everitt, b. S., S. Landau, M. Leese, and D. Stahl. 2011.Cluster Analysis. 5th ed.
Chichester, UK: Wiley.
Fisher, L. and Van Ness, j. W. (1971). Admissible clustering procedures. Biometrika,
58, 91–104.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 163
Kim, j. O., and C. W. Mueller. 1978. Introduction to factor analysis. What it is and
how to do it. In Sage University Paper Series on quantitative Applications the
Social Sciences, vol. 07–013. Thousand Oaks, CA: Sage.
Kim, j. O., and C. W. Mueller. 1978. Factor analysis: Statistical methods and prac-
tical issues. In Sage University Paper Series on quantitative Applications the
Social Sciences, vol. 07–014. Thousand Oaks, CA: Sage.
Lawley, D. N., and A. E. Maxwell. 1971. Factor Analysis as a Statistical Method.
2nd ed. London: butterworths.
Holm, K. (2004). ALMO Statistik-System, Version 7.1. http://www.almo-statistik.de/.
Huang, Z. (1998). Extensions to the k-means Algorithm for Clustering Large Data Sets
with Categorical Variables. Data Mining and Knowledge Discovery, 2, 283–304.
Kaufman, L., and P. j. Rousseeuw. 1990.Finding Groups in Data: An Introduction
to Cluster Analysis. New York: Wiley.
Lance, G. N., and W. T. Williams. 1967. A general theory of classificatory sorting
strategies: 1. Hierarchical systems. Computer Journal 9: 373–380.
Lawley, D. N., and A. E. Maxwell. 1971. Factor Analysis as a Statistical Method.
2nd ed. London: butterworths.
Ling, R. F. (1973). A computer generated aid for cluster analysis. Communications
of the ACM, 16, 355–361.
Macqueen, j. (1967). Some methods for classification and analysis of multivariate
observations. 5th Berkeley symposium on mathematics, statistics, and probabi-
lity, 1, 281–298.
Mardia, K. V., Kent, j. T., and bibby, j. M. (1979). Multivariate analysis. London:
Academic Press.
Mcquitty, L. L. (1960). Hierarchical syndrome analysis. Educational and Psycho-
logical Measurement, 20, 293–303.
Milan, L., and j. Whittaker. 1995. Application of the parametric bootstrap to models
that incorporate a singular value decomposition. Applied Statistics 44: 31–49.
Milligan, G. W. (1980). An examination of the effects of six types of error perturba-
tion on fifteen clustering algorithms. Psychometrika, 45, 325–342.
Milligan, G. W., and M. C. Cooper. 1985. An examination of procedures for deter-
mining the number of clusters in a dataset. Psychometrika 50: 159–179 12
Milligan, G.W. (1987), A study of beta-flexible clustering method, College of Ad-
ministrative Science Working Paper Series, 87-61 Columbus, OH: The Ohio State
University.
Milligan, G. W., and M. C. Cooper. Introduction to cluster-analysis commands. 1988.
A study of standardization of variables in cluster analysis. Journal of Classi-
fication 5: 181–204.
Morrison, D. F. (2004). Multivariate statistical methods, 5th ed. CA: Duxbury Press.
Mulaik, S. A. (1972). The foundations of factor analysis. New York: McGraw-Hill.
Penalva, C.; Alaminos, A.; Francés, F y Santacreu, O. (2015). La investigación cua-
litativa: técnicas de investigación y análisis con Atlas. Ti. Cuenca: PYDLOS
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 165
SPSS Inc. (2004). TwoStep Cluster Analysis. Technical report, Chicago. http://sup-
port.spss.com/tech/stat/Algorithms/12.0/twostep cluster.pdf
Steiger, j. H. (1979). Factor indeterminacy in the 1930’s and 1970’s: some interesting
parallels. Psychometrika, 44, 157–167.
Tarlov, A. R., j. E. Ware jr., S. Greenfield, E. C. Nelson, E. Perrin, and M. Zubkoff.
1989. The medical outcomes study. An application of methods for monitoring
the results of medical care. Journal of the American Medical Association 262:
925–930.
Thomson, G. H. 1951. The Factorial Analysis of Human Ability. London: University
of London Press.
van belle, G., L. D. Fisher, P. j. Heagerty, and T. S. Lumley. 2004. Biostatistics: A
Methodology for the Health Sciences. 2nd ed. New York: Wiley.
Vermunt, j. & Magidson, j. (2000). Latent GOLD 2.0. User’s Guide. belmont.
Vizirgiannis, M., Haldiki, M. and Gunopulos, D. (2003). Uncertainity handling and
quality assessment in data mining. London: Springer-Varlag.
Wainer, H. and Schacht, S. (1978). Gappint. Psychometrika, 43, 203–212.
Ward, j. H., jr. 1963. Hierarchical grouping to optimize an objective function. Journal
of the American Statistical Association 58: 236–244.
Wilkinson, L. (1979). Permuting a matrix to a simple structure. Proceedings of the
American Statistical Association, 409–412.
Winer b.j. (1971) Statistical Principles in Experimental Design. New York: McGraw-
Hill
Wishart, D. (2003). k-Means Clustering with Outlier Detection, Mixed Variables
and Missing Values. In M. Schwaiger & O. Opitz (Eds.), Exploratory data analy-
sis in empirical research. Proceedings of the 25th Annual Conference of the
Gesellschaft f¨ur Klassifikation e.V., University of Munich, March 14-16, 2001,
Studies in Classification, Data Analysis, and Knowledge Organization (pp. 216–
226). berlin: Springer.
Wong, M.A. and Lane, T. (1983), A kth nearest neighbor clustering procedure,
Journal of Royal Statistical Society, Series b, 45 362-368.
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 167
ANÁLISIS MULTIVARIANTE_Maquetación 1 10/12/05 16:59 Página 168