Teoría de respuesta al ítem

La teoría de respuesta al ítem (TRI o IRT por sus siglas más conocidas, en inglés),[1][2]teoría del rasgo latente (TRL) o teoría de respuesta al reactivo (TRR), es una teoría psicométrica, utilizada para la construcción de test y pruebas psicológicas. Describe la relación entre un conjunto de datos obtenidos en un proceso de medición (las respuestas a los ítems de una prueba) con determinadas variables latentes, como por ejemplo los rasgos de personalidad de los sujetos a quienes se ha administrado. El tipo de variables o propiedades latentes que se pretende medir pueden ser cuantitativas o cualitativas y según esto se distingue entre el modelo aquí descrito y los modelos de clases latentes. Dado el carácter estocástico de la relación que estudia, también se conoce el modelo como «teoría probabilística de los test».

Antecedentes

editar

El origen de la Teoría de respuesta al ítem se asocia con el trabajo del matemático danés Georg Rasch (1960), como así mismo con los desarrollos de Birnbaum, Lord y Novik (1968),[3]​ Fischer (1974),[4]​ Hambleton y otros.[3]​ Las ideas sobre las que se fundamenta este modelo, sin embargo, habían sido expuestas antes, incluso muy tempranamente, por parte de los fundadores del campo de la psicometría (Louis Leon Thurstone, 1912 y Alfred Binet, 1905). Expositores recientes recalcan que esta teoría busca ser aristotélica (en el sentido de poner más atención a los datos y la manera como los seres humanos responden a instrumentos de medición) que platónica (es decir, basada en una idealización de condiciones cuyos presupuestos casi nunca se verifican) como sería el caso de la teoría clásica de los tests, la teoría psicométrica más conocida.

Limitaciones de la teoría clásica

editar

Las principales deficiencias y limitaciones de la teoría clásica (TC) están determinadas por la forma como se construyen las pruebas psicológicas bajo este modelo y se han descrito extensamente. Básicamente, se trata de lo problemático que resultan los indicadores de dificultad, discriminación y correlación, conceptos básicos con los que trabaja el modelo, así como la utilización de índices cuyos valores dependen del grupo específico de sujetos desde donde se obtuvieron esos datos y las estimaciones sobre la habilidad de los sujetos examinados (los puntajes reales) dependen de la selección de ítems que conforman la prueba.[5]

La imposibilidad de definir en términos objetivos lo que se mide (las variables latentes, como los rasgos de personalidad), hace que existan, por ejemplo, muchos instrumentos para medir depresión, que dan medidas diferentes e inherentemente incomparables, dado que no se puede determinar de manera objetiva cuál mide efectivamente ese rasgo, pues fueron construidas bajo la teoría clásica y están sujetas a sus paradojas.

En breve, para poder medir bajo la TC se asume que el puntaje real del rasgo psicológico a medir (T) está relacionado con el puntaje observado de manera directa (O), si bien sujeto a algún error (e), como se expresa en  . (En esa expresión puede verse ya el platonismo señalado líneas arriba). Así que para saber de qué tamaño es ese error y estimar entonces el puntaje real debe cubrirse un conjunto de requisitos conocidos como tau-equivalencia, el más importante de los cuales en este contexto es que deben tenerse varias observaciones del rasgo en condiciones (idealmente) iguales. La varianza de estas será distribuida normalmente y su media puede ser estimada puntualmente, con lo que se tiene el valor de   al cual se adicionará   para estimar  . Esta es la razón de que los instrumentos psicológicos tengan más de un reactivo o ítem.

Las paradojas de este enfoque son las siguientes:

  1. Los puntajes observados son únicamente de nivel ordinal, no importa qué tan diminutos sean los intervalos de respuesta, y por tanto no está justificado el uso de la mayoría de los procedimientos estadísticos multivariados.
  2. Los puntajes están en una escala, mientras las personas sujetas a evaluación están en otra (n-tiles o derivados). En este sentido nunca se está midiendo el rasgo personal, sino el ordenamiento de los sujetos de la muestra en él.
  3. Mientras más reactivos se tenga, mejor estimación de precisión (confiabilidad) se obtendrá, como si los sujetos no variaran.

Estas y otras dificultades eran conocidas por los profesionales de la medición, especialmente del logro académico. Se desarrollaron, todavía bajo la TC algunas soluciones, entre otras la equiparación (equating). Ninguna de ellas daba resultados óptimos, lo que permitía la acusación de inequidad en los procesos de medición, por ejemplo de exámenes de ingreso a la universidad o al trabajo con sesgos importantes hacia algún grupo social.

Teoría de la generalizabilidad

editar

Tras la teoría clásica, principalmente durante la década de 1960, se desarrolló un segundo modelo para la construcción de pruebas, conocido como «teoría de la generalizabilidad» o «de las facetas», que intentaba complementar el primer modelo clásico y compensar sus deficiencias. Utilizando el análisis de varianza, se orientaba a revelar las fuentes de error de los puntajes mediante el concepto de «faceta», que se usaba para designar las diferentes características de una determinada situación de medición que pueden cambiar en las distintas oportunidades en que esta se lleva a efecto y que pueden influir modificando sus resultados. Aplicando análisis de varianza intentaba descomponer la relación entre  ,   y  , pero mantenía en lo fundamental los supuestos de la teoría clásica.[6][7]

Los modelos TRI

editar

La nueva perspectiva desecha la idea de que   y   están directamente relacionadas, postulando en su lugar que esta relación es probabilística, no lineal y abstracta. En contraposición con la teoría clásica, el enfoque de la TRI se concentra solo en calcular «la probabilidad con la que un sujeto determinado responderá una pregunta determinada de una determinada manera».[4]​ Esa probabilidad se considera en concordancia con el grado de presencia de la característica en el sujeto sometido a la prueba y con las propiedades del test.

La TRI ha reemplazado a la teoría clásica de medida como marco para el desarrollo de tests y construcción de escalas. Tanto en la teoría clásica de los tests como en la teoría de la generalizabilidad, las puntuaciones de un test son más dependientes de la muestra que de la propia función analizada.

La TRI trata de subsanar dos problemas: El primero hace referencia al error en la medida y asume que las puntuaciones de los sujetos en un test estarán afectadas por un error aleatorio, atribuible a diversas causas, dependientes del sujeto, del ambiente, del instrumento y del propio proceso de evaluación; el segundo se refiere a la invarianza de las mediciones y las propiedades de los instrumentos.

Los principales objetivos de la TRI son:

  • Obtener puntuaciones independientes de la norma: búsqueda de medidas que sean independientes de las puntuaciones estándar derivadas del grupo.
  • Elaborar nuevas pruebas que analicen la invarianza de la conducta en sí misma, de modo que un test represente con precisión un dominio gradual de conocimiento relativo a una única medida.
  • La relación de los dos conceptos anteriores permite un tipo de medida en la que los parámetros de ítem y de persona son ambos invariantes, de tal modo que ni la elección de una muestra de sujetos, ni la elección de los ítems afecte a los parámetros de dificultad del ítem ni a los de la habilidad.
  • La agilidad en la combinatoria de ítems de test, que pertenezcan a un mismo dominio de conducta, dando paso a la aplicación de tests adaptados al sujeto, en función de la capacidad de las habilidades de cada individuo.

En cuanto al cálculo estadístico, la TRI utiliza un modelo matemático logístico para describir la relación entre el nivel de habilidad del examinado y la probabilidad de que este dé una respuesta correcta a un ítem del test. Algunas aplicaciones de la TRI han consistido en la creación de bancos de ítems y los diseños de tests a la medida del sujeto o test adaptativos computarizados (TAC). Los test de medida consisten en la selección informatizada de los ítems que puedan medir mejor la habilidad de un individuo.

Crítica de los modelos TRI

editar

Metodológicamente, los modelos probabilísticos de construcción de pruebas, basados en la teoría de respuesta al ítem, superan sin lugar a dudas a los modelos basados en la teoría clásica. No obstante, se les critica que aunque son más complejos (y por lo tanto conllevan la desventaja de requerir un mayor esfuerzo en su aplicación) no logran superar el principal problema de la aplicación de test psicológicos, consistente en que la validez de todos ellos sería intrínsecamente cuestionable, insatisfactoria o insuficiente. Para resolver este problema se requeriría sobre todo un desarrollo de orden teórico, una mejora del edificio teórico del diagnóstico psicológico a nivel de contenidos, más que metodológico. Un aspecto que desata muchas controversias en el área psicométrica es que los distintos modelos teóricos sobre el ser humano y la enfermedad tienen conceptualmente un abordaje muy diferente del problema a medir. Mientras el modelo médico enfoca las alteraciones psicológicas como una enfermedad, el modelo psicosocial las define más bien como sistemas de comportamiento aprendidos o conformados en el transcurso del desarrollo de una persona y que configuran patrones de comportamiento que esencialmente no se desvían del comportamiento normal. El nuevo modelo probabilístico, aunque superior, tampoco lograría responder a estas contradicciones esenciales, que son las que en definitiva van en detrimento de la validez de las pruebas psicológicas.[4]

Notas y referencias

editar
  1. Gerardo Prieto y Ana R. Delgado, Análisis de un test mediante el modelo de Rasch, Psicothema 2003, vol. 15 nº 1, pp. 94-100, ISSN 0214 - 9915 CODEN PSOTEG.
  2. John Michael Linacre, "Diseño de mejores pruebas, utilizando la Técnica de Rasch", Ponencia Magistral de III Foro Nacional de Evaluación Educativa, 29 de octubre de 1998, Veracruz, México, MESA Memo # 68, 1998.
  3. a b Cortada de Kohan, Nuria (2005). «Posibilidad de integración de las teorías cognitivas y la psicometría moderna». Iterdisciplinaria (Buenos Aires) 22 (1): 29-58. Consultado el 17 de julio de 2016. 
  4. a b c Städler, Thomas (1998). Lxikon der Psychologie. Wörterbuch - Handbuch - Studienbuch [Diccionario de psicología. Diccionario-Manual-Texto de estudio]. Taschenausgabe (en alemán) 357 (1ª edición). Stuttgart: Alfred Kröner. p. 866. ISBN 3-520-35701-1. 
  5. Hambleton, Ronald K. (1991). Fundamentals of Item Response Theory. Measurement Methods for the Social Science (en inglés) II. Newbury Park, Londres, Nueva Delhi: SAGE Publications. pp. ix. ISBN 9781452252605. Consultado el 13 de julio de 2016. 
  6. Cronbach, Lee J (1957). «Beyond the two disciplines of scientific psychology». American Psychologist 30 (2): 116-127. 
  7. Cronbach, Lee J (1975). «Five Decades of Public Controversy over Mental Testing». American Psychologist 30 (1): 1-14. 

Enlaces externos

editar