Winter Medic
Winter Medic
Winter Medic
net/publication/277156595
04 SUPLEMENTO 2 21-27
CITATIONS READS
0 9,229
3 authors, including:
Some of the authors of this publication are also working on these related projects:
MIND/COVID-19: Mental health Impact and NeeDs associated with COVID-19: a comprehensive national evaluation in Spain. View project
All content following this page was uploaded by joan manuel batista-foguet on 26 May 2015.
El investigador que usa cuestionarios en ciencias de la salud se basa abstracciones que representan fenómenos que sirven para
tácitamente (a menudo, inadvertidamente) en la teoría clásica del comunicarnos, clasificar, explicar o generalizar. Si lo que se
test, cuyos supuestos, poco realistas, se incumplen con frecuencia y
conducen a evaluar deficientemente la fiabilidad y validez del instru-
pretende medir es una «variable latente» o «constructo no
mento. observable», es necesario hacerlo de forma indirecta por
Este artículo destaca la necesidad de precisar los términos esenciales medio de «indicadores observables» (p. ej., respuestas a
de la medición (fiabilidad y validez) clarificando las deficiencias en preguntas de cuestionario o declaración de síntomas y per-
que incurre la metodología tradicional en su uso. Señala las limitacio- cepciones). La bondad de esta medición depende de la re-
nes de la evaluación de la fiabilidad mediante el α de Chronbach o la
laxitud en la valoración cuantitativa de la validez mediante el análisis lación entre estos indicadores observables y los constructos
factorial exploratorio. subyacentes. Si la relación es débil, las inferencias efectua-
Como alternativa se propone el tratamiento secuencial e integrado de das serán imprecisas y probablemente incorrectas.
la validez y la fiabilidad en el marco de los modelos del análisis facto- Este artículo se centra en los casos que requieran la cumpli-
rial confirmatorio. Estos modelos proporcionan el marco estadístico mentación de un cuestionario (por parte del paciente, el fa-
adecuado para evaluar la validez y la fiabilidad de cada ítem, en lugar
de efectuar sólo valoraciones globales. La perspectiva confirmatoria miliar o el personal médico) y la evaluación de éste como
guía al investigador para que optimice el proceso de construcción o instrumento de medida. Se trata, pues, de la práctica habi-
adaptación de un cuestionario, liberándole del ritual poco fundamen- tual del clínico para determinar la presencia de una enfer-
tado que «recetaba» la metodología clásica. medad mental en su paciente1,2 o su grado de adherencia o
Palabras clave: Validez. Fiabilidad. Análisis factorial confirmatorio.
cumplimiento del tratamiento3. También se trata de la prác-
Análisis factorial exploratorio. α de Chronbach. tica del investigador que quiere establecer la calidad de vida
del hipertenso que sigue tratamiento con un nuevo
fármaco4 o del gerente del hospital que desea asegurarse
Confirmatory factor analysis. Its role on the validation of de la calidad del servicio que ofrece5. Lo cual no es óbice
health related questionnaires para que esta metodología pueda emplearse también en la
medición de variables fisiológicas como la presión arterial6.
Researchers who use questionnaires in the health sciences tacitly La creciente implicación de la opinión del propio paciente
base themselves (often inadvertently) in Classical Test Theory, the en las decisiones médicas ha creado la necesidad de medir
suppositions of which are unrealistic and frequently violated, leading los resultados de formas más ricas que la simple eficacia
to defective evaluation of the reliability and validity of the instrument.
The present article emphasizes the need for precise definition of es- clínica y seguridad. Así, por ejemplo, la evaluación de la
sential terms of measurement (reliability and validity) by clarifying «calidad de vida relacionada con la salud», tal y como la
the deficiencies that traditional methodology incurs in their use. The perciben los pacientes, es una variable fundamental de lo
limitations of evaluation of reliability through Chronbach’s alpha and que se conoce, en esta nueva óptica, como evaluación de
laxity in quantitative evaluation of validity through exploratory factor resultados. La profusión de nuevos cuestionarios de calidad
analysis are described.
As an alternative, a sequential and integrated approach to validity and de vida, genéricos o específicos para determinadas afeccio-
reliability within the framework of confirmatory factor analysis models nes, es una realidad corroborada por el número creciente
is proposed. These models provide the appropriate statistical frame- de artículos publicados en revistas médicas generales y la
work to evaluate the validity and reliability of each item, instead of existencia de diversas revistas especializadas.
carrying out overall evaluations only. The confirmatory approach gui-
des researchers to optimize the process of designing or adapting a
Ante la proliferación de estudios para la validación de esca-
questionnaire, freeing them from the largely unfounded ritual laid las relacionadas con la salud, se quiere ofrecer al lector al-
down by classical methodology. gunas reflexiones desde la perspectiva de la psicometría
(uno de cuyos ámbitos es el desarrollo y la validación de es-
Key words: Validity. Reliability. Confirmatory factor analysis. Exploratory calas) que le resulten útiles para poder juzgar la calidad de
factor analysis. Chronbach’s α.
lo que, en ocasiones demasiado superficialmente, se califi-
ca como proceso de «validación» de un cuestionario. El ob-
jetivo de este artículo concierne únicamente a sus aspectos
Introducción estadísticos. No se tratan las etapas previas, de carácter
más conceptual, que determinarían tanto el contenido como
En medicina, las variables de interés son frecuentemente de
el diseño de nuevos cuestionarios, así como su adaptación
naturaleza no observable. La discapacidad, la calidad de
a otras culturas, sin las que toda sofisticación estadística es
vida o el resultado de una intervención son conceptos y
inútil. Véanse algunas de las guías existentes7-12.
sica del test (TCT) y en modelos de análisis factorial, el otro, es fiable cuando proporciona resultados consistentes o esta-
basado en la teoría de la respuesta al ítem (TRI). Aunque el bles, ya sea en medidas repetidas o en las respuestas a los
uso de la TRI en investigación biomédica es creciente, su diversos ítems que la componen.
origen y desarrollo se deben a la medición de aptitudes o La medición de constructos data de principios del siglo
conocimientos. Por ello, este artículo presentará la actual XX15,16 con la introducción, en principio entre psicólogos y
perspectiva de la TCT, más cercana a la práctica médica. posteriormente entre psiquiatras17, de los métodos biométri-
Fiabilidad y validez proporcionan el lenguaje esencial de la cos (regresión y correlación) de Galton y Pearson. Esta tra-
medición y constituyen los índices de calidad de los cuestio- dición estadística basada en la correlación, aunque se ha
narios. Ambas son cuestiones de grado. La fiabilidad tiene demostrado incorrecta en muchos casos18, sigue utilizándo-
básicamente un cariz empírico y se centra en el rendimien- se todavía en cuestionarios relacionados con la salud para
to de las mediciones realizadas. Por el contrario, la validez estimar la fiabilidad y algunas formas de validez.
tiene una orientación más teórica, pues inevitablemente Así, se acostumbra entender la fiabilidad como la consisten-
emerge la cuestión: ¿para qué es válido? De hecho, no se cia interna de los ítems que mide el coeficiente α de Chron-
valida un instrumento de medida en sí mismo, sino en rela- bach (basado en el promedio de las correlaciones) o como
ción con el propósito para el que se utilizará. la estabilidad temporal que proporcionan las correlaciones
test-retest12. Carrasco y Jover discuten en este mismo nú-
mero otras medidas usuales en medicina para evaluar la fia-
Validez
bilidad-concordancia14.
Entre los distintos tipos de validez (de aspecto; de conteni- Desde nuestro punto de vista, el binomio que constituyen el
do; de criterio –concurrente y predictiva–; y de constructo), α de Chronbach y el AFE es del todo insuficiente para ga-
esta última es la de mayor interés, ya que incorpora en gran rantizar la validez y fiabilidad de un cuestionario relacionado
parte las anteriores y es idónea para la evaluación de cues- con la salud. Por ello, este artículo, en primer lugar, critica
tionarios. A su vez, la validez de constructo se divide en no- la evaluación que habitualmente se hace de fiabilidad y vali-
mológica, convergente y discriminante13. La validez nomoló- dez, y en segundo lugar, propone el análisis factorial confir-
gica se refiere a que las medidas válidas de diferentes matorio (AFC) –caso particular de los modelos de ecuacio-
conceptos teóricamente vinculados deben estar relaciona- nes estructurales– como alternativa adecuada19.
das de acuerdo con las teorías correspondientes. La validez
convergente se refiere a que las medidas de un mismo con-
Métodos clásicos para evaluar la fiabilidad.
cepto deben estar relacionadas, y deben estarlo más que
Teoría clásica del test
las medidas de conceptos distintos, lo que constituye la vali-
dez discriminante. Los psicólogos de finales del siglo XIX, preocupados única-
La validez de constructo se evalúa habitualmente mediante mente por la falibilidad de las mediciones, desarrollaron la
correlaciones con otras escalas o indicadores objetivos de teoría clásica del test (TCT)20. Ésta establece la descomposi-
salud. En ocasiones, el análisis de la varianza, con medicio- ción de la puntuación observada del j-ésimo ítem según la
nes pretratamiento y postratamiento, permite evaluar la sen- ecuación:
sibilidad al cambio o discriminar entre distintas poblaciones.
En el mejor de los casos, un análisis factorial exploratorio vj = λjkfk + ej (1)
(AFE) de la matriz de correlaciones «dictará» las dimensio-
nes latentes y sus resultados se utilizarán como indicación donde se asume que:
de validez convergente y discriminante.
La calibración (en este mismo número)14, habitual en la – fk es «puntuación verdadera» y ej error aleatorio de medi-
práctica médica dada su finalidad, podría asimilarse a la ción exclusivamente (sin componentes sistemáticos especí-
evaluación de la validez de criterio propia del cuestionario; ficos del ítem vj);
es decir, el grado de acuerdo con una medida de referencia – las unidades de fk y vj son las mismas (λj = 1);
considerada más válida. No obstante, la imposibilidad de – fk no está estandarizado y tiene varianza φkk.
asumir medidas libres de error hace inviable esta estrategia
cuando se evalúan cuestionarios. lo que implica analizar la varianza de vj en varianza explica-
Todo tipo de valoración de la validez supone, en esencia, da por la puntuación verdadera (φkk) y debida al error alea-
preguntarse si los indicadores lo son sólo del concepto que torio θjj:
se quiere medir y si no están influidos por ningún otro efec-
to sistemático. Sin embargo, las respuestas a los ítems de σj2 = φkk + θjj (2)
un cuestionario tienen un sinfín de efectos sistemáticos, de
naturaleza diversa, que comprometen la validez11. La causa La fiabilidad κ se define como el porcentaje de varianza de
puede residir en el cuestionario, pero también en el encues- vj explicado por fk:
tador, el encuestado o en el método de recogida de infor-
mación. Puede tratarse de la modalidad de respuesta del θjj φkk
κj = 1 – —2= —2 (3)
cuestionario, de las expectativas del encuestador, de la re- σj σj
actividad frente a la situación, de la percepción de amenaza
a la intimidad, de sucumbir al efecto de deseabilidad social Según sus supuestos, de menos a más estrictos, los indica-
o al de aquiescencia. dores de una misma fk pueden ser «congenéricos» (sin
errores sistemáticos –derivados de cambios en la puntua-
ción verdadera por funcionamiento distinto de los ítems o
Fiabilidad
variaciones de opinión en el tiempo– ni errores correlaciona-
Mientras la invalidez se debe al error sistemático, la fiabili- dos –por ejemplo, debido a efecto memoria–), «tau-equiva-
dad se relaciona con el grado de error aleatorio. Cuanto ma- lentes» (además con idénticas unidades, es decir, λ igua-
yores son las fluctuaciones aleatorias en las respuestas, me- les) o «paralelos» (además con idéntica fiabilidad, es decir,
nor es la fiabilidad y viceversa. En la práctica, una medición θ iguales, y por consiguiente σ también iguales)21.
En los siguientes apartados veremos que los investigadores una fiabilidad subestimada se traducirá en una corrección
que en medicina usan cuestionarios asumen implícitamente excesiva del sesgo, lo que no es nada conservador.
estos supuestos, al calcular la fiabilidad mediante la correla-
ción de pares de ítems, o al utilizar el «coeficiente α de Ch-
Métodos clásicos para evaluar la validez. La perspectiva
ronbach»22.
exploratoria del modelo de análisis factorial
Cálculo de la fiabilidad de cada indicador-ítem Hasta finales de los años sesenta el investigador se ha servi-
do del AFE27 para establecer indicadores adecuados que hi-
En efecto, conceptualizar la fiabilidad como estabilidad de
cieran emerger dimensiones subyacentes. Actualmente, to-
las medidas (v1, v2) –repetición del mismo ítem en otro mo-
davía es frecuente en medicina (a pesar de disponer de
mento (test-retest), o bien administración de 2 ítems análo-
mejores alternativas) servirse de estos modelos exploratorios
gos simultáneamente– y calcularla, por tanto, como correla-
para validar cuestionarios28. El AFE incluye un primer su-
ción entre éstas:
puesto sustantivo: cada ítem tiene dos fuentes de variación,
σv1v2 λ1kφkkλ2k 1φkk1 la «común» y la «única». Este supuesto se especifica me-
ρv1v2 = ——— = ———— = —–— (4)
σv1σv2 σ2 σ2 diante una ecuación de regresión, que relaciona los ítems
(dependientes) con los factores, cuya naturaleza latente es
supone, en realidad, que los ítems son paralelos, supuesto precisamente lo que diferencia este modelo del de regre-
que puede etiquetarse eufemísticamente de poco realista23. sión. Estos m factores constituyen y explican la parte común
o compartida por los ítems y se conocen como factores co-
munes. El término residual ej es la parte única o sin explicar
Cálculo de la fiabilidad de escalas sumadas (conjunto de
por los factores latentes:
ítems)
Para reducir los efectos del error de medición del cuestiona- vj = λj1f1 + λj2f2 +…+ λjmfm + ej (5)
rio se acostumbra sumar las puntuaciones de los ítems, de
forma que los términos de error tiendan a compensarse en
Esta expresión recuerda la (1), aquélla con un solo factor.
la «escala sumada» finalmente obtenida. Como es sabido,
Los parámetros λjk se denominan «saturaciones» y desem-
la fiabilidad de la escala es mayor que la de cada uno de los
peñan un papel análogo a los coeficientes de regresión. La
ítems que la componen, y tanto mayor cuanto mayor sea el
práctica habitual de estandarizar las saturaciones facilita su
número de ítems24,25.
interpretación como correlación del ítem y el factor corres-
Para evaluar la fiabilidad de la escala, de forma análoga a
pondiente.
como se ha hecho con el ítem individual, se consideran dos
Dado que, en general, el ítem no será un reflejo exacto de la
formas paralelas de un mismo test o bien su subdivisión en
información de los factores, el término residual ej en la
2 mitades equivalentes (split-halves), y se correlacionan
ecuación incluye dos tipos de efectos: los debidos a «carac-
ambas a continuación. Dada la arbitrariedad del split-hal-
terísticas específicas del indicador», asociados a invalidez, y
ving (la escala se puede partir de muchas maneras), los psi-
los del «error aleatorio de medición». Ambos efectos se asu-
cómetras han desarrollado coeficientes de fiabilidad que la
men incorrelacionados entre sí y con los factores comunes.
evitan (aunque comparten sus supuestos) conocidos como
Estos supuestos permiten descomponer la varianza de cada
coeficientes de consistencia interna o equivalencia. Entre
ítem en «comunalidad» (varianza explicada por los factores
ellos el más popular es el coeficiente α, para el que, de ma-
comunes), y «unicidad» o varianza única, sin explicar por
nera un tanto simplista, y sin hacer referencia a los supues-
esos factores.
tos mencionados, se proponen12 umbrales mínimos como
0,7 para comparar grupos y 0,9 para comparaciones indivi-
Crítica al modelo del AFE para evaluar la validez
duales. La diferencia entre estos umbrales está relacionada
con la necesidad de disminuir la incertidumbre en el caso Arrecian las críticas al modelo exploratorio y hasta estas pá-
del diagnóstico de un solo paciente, mientras que la posibi- ginas se han hecho eco de sus inconvenientes29. Aquí resal-
lidad de aumentar la precisión con un mayor tamaño mues- tamos las deficiencias que hemos denunciado en otros es-
tral permite relajar el umbral en los estudios de grupos. critos:
– El modelo incorpora pocos supuestos sustantivos y permi- – Permitir analizar la matriz de covarianzas en lugar de la de
te que cada ítem dependa de todos los factores comunes, correlaciones, indispensable para establecer si los indicado-
con lo que la interpretación es heurística y difícil. En conse- res son tau-equivalentes.
cuencia, con el AFE es imposible demostrar la validez –que
cada indicador mida únicamente el factor que se supone Adviértase que el AFC es mucho menos restrictivo que la
que debe medir. TCT. En efecto, el AFC sólo asume que los ítems constitu-
Sin embargo, en investigación médica, la perspectiva explo- yen «mediciones congenéricas», pero no asume la igualdad
ratoria parece ser la única aproximación al replicar la es- de las saturaciones ni de las varianzas de error. Además, el
tructura factorial de un cuestionario desarrollado en otro AFC somete estos supuestos a contrastes estadísticos que,
país. Aún hoy, desviarse de esta metodología tradicional en en caso de rechazarse, desaconsejarían la evaluación de la
medicina es excepcional31-33. Y por si esto fuera poco, la se- fiabilidad.
cuencia de análisis procede evaluando en primer lugar la El modelo se suele representar en un diagrama de flujos
fiabilidad para después aplicar el AFE. De nada sirve una (path diagram), acorde con su especificación. Convencio-
medida fiable de algo distinto a lo que se desea medir. El nalmente, los rectángulos representan ítems y las elipses,
diagnóstico de la validez debe preceder siempre al de la fia- factores comunes. Flechas unidireccionales entre factores
bilidad. Además, basta con reunir un gran número de ítems comunes e ítems expresan saturaciones. Flechas bidireccio-
inválidos, o incluso multidimensionales, para obtener un α26 nales indican correlaciones entre factores comunes o úni-
elevado. cos. La figura 1 muestra los diagramas de dos posibles mo-
delos de AFE y de AFC. En el modelo de AFC, los factores
únicos de las variables v1 y v4 que podrían compartir méto-
Métodos alternativos para evaluar la validez y la
do de medición están correlacionados. Se resalta que v1, v2
fiabilidad. El análisis factorial confirmatorio
y v3 son indicadores exclusivamente de f1 mientras que v4,
Cuando el investigador tiene suficientes conocimientos pre- v5 y v6 lo son sólo de f2.
vios para formular hipótesis concretas sobre la relación en- En un principio, los programas para estimar modelos de
tre indicadores y dimensiones latentes, su interés se centra AFC eran escasos y requerían conocimientos de álgebra
en contrastar estas hipótesis. Por ejemplo, al traducir o matricial. Actualmente, existe una gran variedad de ellos,
adaptar cuestionarios ya desarrollados sabemos qué ítems todos accesibles y sencillos de utilizar (en algunos, el usua-
deberían medir qué dimensiones. El modelo de análisis fac- rio se limita a dibujar el diagrama del modelo) que permiten
torial confirmatorio (AFC)34,18,19 corrige las deficiencias inhe- estimar cualquier modelo de ecuaciones estructurales.
rentes a la perspectiva exploratoria y conduce a una mayor
concreción de las hipótesis que deben ser contrastadas. Su
Evaluación de las propiedades del cuestionario mediante
especificación difiere de la perspectiva exploratoria en as-
modelos de análisis factorial confirmatorio
pectos esenciales como:
El diseño ideal del cuestionario no consiste tanto en una
– Permitir restricciones en algunas saturaciones. Lo habitual única batería de ítems relativos al constructo global de inte-
es suponer la validez de cada ítem, es decir, que satura en rés como en subconjuntos de ítems específicos para cada
un único factor. Se delimita así el concepto de factor común dimensión.
a aquel que subyace únicamente a sus indicadores concre- La asignación de indicadores específicos a dimensiones
tos y se evita introducir factores ad hoc de difícil interpreta- concretas es una de las mayores aportaciones de la pers-
ción. pectiva confirmatoria. Los modelos de AFC permiten con-
– Permitir contrastes estadísticos de las hipótesis especifica- trastar la validez ajustando un modelo que la asuma y diag-
das. nosticando su bondad de ajuste (validación de constructo).
– Permitir componentes únicas correlacionadas. Aunque es En este modelo, cada ítem satura únicamente sobre el fac-
un recurso poco elegante, se justifica por la existencia de tor-dimensión del que se supone que constituye un indica-
otros factores sin interés, como un método de medición co- dor válido. La invalidez de los ítems se detecta en indicios
mún que no se desea explicitar en la especificación. como los siguientes19:
V1 V1
V2 f1 V2 f1
V3 V3
V4 V4
V5 f2 V5 f2
V6 V6
Fig. 1. Diferencias entre el diagrama de
Modelo AFC Modelo AFE flujos (path diagram) de los modelos de
análisis factorial confirmatorio y análisis
factorial exploratorio con 6 variables y 2
factores.
– La bondad del ajuste del modelo es insatisfactoria, lo que Diagnóstico de la bondad del ajuste
implica que algunas saturaciones, o correlaciones entre facto-
Un modelo correcto es aquel que sólo incorpora las restric-
res únicos, se asumieron nulas por error. Los ítems que satu-
ciones y supuestos que se cumplen en la población, sin
ran en más de un factor no son indicadores válidos. Asimis-
omisión de parámetros. Puesto que los modelos sobrepara-
mo, la necesidad de una correlación entre factores únicos
metrizados, que imponen pocas restricciones, suelen con-
refleja errores sistemáticos y es otra señal de invalidez.
ducir a ajustes perfectos de los datos, un buen modelo im-
– Algunos ítems tienen un porcentaje de varianza única ele-
plicará un compromiso entre la parquedad y la bondad del
vado, lo que hace poco creíble que dicha varianza contenga
ajuste41.
sólo error aleatorio de medición (invalidez convergente).
El diagnóstico de la bondad de ajuste es crucial para esta-
– Algunos factores presentan correlaciones muy próximas a
blecer la validez del cuestionario. En Batista y Coenders42
la unidad, lo que plantea que estos factores representan
puede encontrarse este desarrollo ampliado. La etapa de
una única dimensión (invalidez discriminante).
diagnóstico permitirá distinguir los modelos que ajusten fla-
– Las correlaciones entre algunos factores son de signo o
grantemente mal los datos de aquellos modelos que los ajus-
magnitud sorprendente según la teoría, lo que evidencia
ten razonablemente bien, aunque de estos últimos puede
que las teorías disponibles son falsas o las variables miden
haber muchos. La etapa de diagnóstico nunca será, pues,
factores distintos de los que se suponían (invalidez nomoló-
capaz de demostrar que un modelo es correcto, sino, a lo
gica). Lamentablemente, se evalúan aquí simultáneamente
sumo, incapaz de demostrar que es incorrecto. En conse-
las teorías y la validez. Se recomienda, por tanto, incluir en
cuencia, tampoco será capaz de demostrar que un cuestio-
el modelo un cierto número de dimensiones potencialmente
nario es válido, sino, incapaz de demostrar que es inválido.
relacionadas con las de interés35.
El diagnóstico empieza por un examen general de la solu-
Una vez establecida la validez, puede procederse a evaluar
ción obtenida para detectar problemas graves como la pre-
la fiabilidad. Ésta puede calcularse simplemente como el
sencia de estimaciones no admisibles o la falta de conver-
porcentaje de varianza del ítem explicado por el factor. La
gencia del algoritmo de estimación. A continuación, se
fiabilidad de una escala sumada de los ítems de una misma
establece de modo global la adecuación o no del modelo.
dimensión puede calcularse según el coeficiente Ω36:
Finalmente, se emplean diagnósticos detallados, parámetro
a parámetro, para detectar partes del modelo cuya especifi-
Σθjj cación no es idónea.
Ω = 1 – ———————— (6)
Un primer diagnóstico global del modelo es el «contraste de
Var (escala)
razón de verosimilitudes o estadístico χ2». Su hipótesis nula
establece que las restricciones del modelo son correctas. Su
donde el denominador es la varianza total de la escala y el
objetivo consiste en detectar posibles parámetros indebida-
numerador es la suma de las varianzas de error de todos los
mente omitidos en el modelo. Ya que un modelo no puede
ítems de la escala.
ser más que una aproximación a la realidad, la hipótesis
que establece que el modelo es exactamente correcto será
Etapas en el ajuste de un modelo de análisis factorial siempre falsa e incluso absurdo su contraste. Además, dado
confirmatorio que los modelos de AFC suelen estimarse sobre muestras
relativamente grandes, la potencia del contraste es a menu-
Esta sección refiere sucintamente las etapas a seguir para
do elevada y conducirá a rechazar modelos por insignifican-
validar un cuestionario empleando el AFC. Debe tenerse en
tes errores de especificación. En la práctica interesará más
cuenta que el ajuste de modelos estructurales es un proce-
cuantificar el grado de ajuste (o desajuste) del modelo que
so complejo, del que sólo se destacan algunos de los aspec-
simplemente rechazar o no la hipótesis nula.
tos más relevantes. El lector interesado puede acudir a las
La lista de índices de bondad de ajuste es muy larga y que-
referencias citadas.
da fuera del alcance de este artículo43. Destacamos el «resi-
duo estandarizado cuadrático medio (SRMR)», el «error
Especificación, identificación y estimación cuadrático medio de aproximación (RMSEA)» y las medidas
de bondad de ajuste basadas en el estadístico χ2, reescala-
Según se ha comentado, la especificación del modelo esta-
do de manera que tome valores entre 0 y 1. El más utilizado
blece que cada variable satura sólo sobre el factor común
es el «índice de ajuste no normado (NNFI)» de Tucker y Le-
que mide, que los factores comunes están correlacionados,
wis, que es independiente del tamaño muestral y tiene en
y que los únicos están incorrelacionados.
cuenta la parquedad del modelo además de su bondad de
Una vez especificado el modelo, se debe evaluar si es esti-
ajuste44. Con la debida flexibilidad, el ajuste se considera
mable. Esta etapa se conoce como de «identificación». En
aceptable si el SRMR y el RMSEA no alcanzan 0,05 y el
el caso del AFC, con carácter general, se requieren para
NNFI supera 0,95.
cada factor al menos dos ítems que ni saturen en otro factor
ni presenten componentes únicas correlacionadas. La pre-
Diagnóstico detallado, modificación del modelo
cisión de las estimaciones mejora sustancialmente si se dis-
y capitalización del azar
pone de tres indicadores por factor. Dado que las propieda-
des de los estimadores son asintóticas, se recomiendan Difícilmente los modelos de AFC ajustan los datos en un pri-
tamaños de muestra superiores a 200, aunque depende de mer contraste. Pero el diagnóstico no sólo permite evaluar el
las características del modelo37. modelo, sino también sugiere maneras de mejorarlo. Así, la
Existe una multitud de procedimientos de estimación del modificación del modelo45 se ha convertido en práctica ha-
modelo. Los métodos clásicos se basan en el criterio de la bitual para optimizar la bondad del ajuste al añadir paráme-
máxima verosimilitud, de acuerdo con el supuesto de nor- tros, conseguir mayor parquedad eliminándolos o aumentar
malidad multivariante de los ítems. Existen métodos alterna- la validez mediante la supresión de ítems inapropiados
tivos para los ítems de nivel de medida ordinal38,39 (como los («poda de ítems»).
de Likert) y contrastes robustos para el caso de los ítems no El proceso de modificación viene guiado esencialmente por
normales40. dos índices: «contraste de los multiplicadores de Lagrange»
36. Heise DR, Bohrnstedt GW. Validity, invalidity and reliability. En: Borgatta 42. Batista-Foguet JM, Coenders G. Modelos de ecuaciones estructurales.
EF y Bohrnstedt GW, editors. Sociological methodology 1970. San Fran- Modelos para el análisis de relaciones causales. 1.a ed. Madrid: La Mu-
cisco: Jossey-Bass, 1970; p. 104-29. ralla, 2000.
37. Boomsma A, Hoogland JJ. The robustness of LISREL modeling revisited. 43. Bollen KA, Long JS. Testing structural equation models. 1.a ed. Thou-
En: Cudeck R, Du Toit S, Sörbom D, editors. Structural equation mode- sand Oaks: SAGE, 1993.
ling: present and future. A festschrift in honor of Karl Jöreskog. Chicago: 44. Marsh HW, Balla JR, Hau KT. An evaluation of incremental fit indices. A clari-
Scientific Software International 2001; p. 139-68. fication of mathematical and empirical properties. En: Marcoulides GA, Schu-
38. Jöreskog KG. New developments in LISREL. Analysis of ordinal variables macker RE, editors. Advanced structural equation modeling. Issues and tech-
using polychoric correlations and weighted least squares. Quality & niques. Mahwah. New Jersey: Lawrence Erlbaum, 1996; p. 315-53.
Quantity 1990;24:387-404. 45. Muñoz J. Análisis factorial confirmatorio y capitalización del azar. Una
39. Coenders G, Satorra A, Saris WE. Alternative approaches to structural aplicación práctica. Papers ESADE 1999;14:1-33.
modelling of ordinal data. A Monte Carlo study. Structural Equation Mo- 46. MacCallum RC, Roznowski M, Necowitz LB. Model modification in cova-
delling 1997;4:261-82. riance structure analysis: the problem of capitalization on chance. Psy-
40. Satorra A, Bentler PM. Scaling corrections for chi-square statistics in co- chological Bulletin 1992;111:490-504.
variance structure analysis. En: Van Eye A, Clogg CC, editors. Latent va- 47. Saris WE, Stronkhorst LH. Causal modelling in nonexperimental rese-
riable analysis. Thousand Oaks: SAGE, 1994; p. 399-419. arch. Amsterdam: Sociometric Research Foundation, 1984.
41. Box GEP. Science and statistics. Journal of the American Statistical As- 48. Luijben T. Statistical guidance for model modification in covariance struc-
sociation 1976;71.791-9. ture analysis. Amsterdam: Sociometric Research Foundation, 1989.