Semana 4

Semana 4, psicometría
Análisis de reactivos y estandarización de pruebas
Análisis de reactivos
Se centra en el funcionamiento de reactivos individuales, mientras que la estandarización de pruebas se
ocupa de la interpretación normativa de los resultados de la prueba en su conjunto o de algunas de las partes
o subpruebas que la integran
El análisis de reactivos es también particularmente importante en la elaboración de pruebas locales de tipo
informal, como las preguntas y exámenes que preparan los maestros para aplicar en el aula. Algunas de las
directrices generales para la redacción de buenos reactivos, así como las técnicas estadísticas más sencillas
de análisis, pueden mejorar los exámenes escolares y su uso ser valioso incluso con grupos pequeños.
(Anastasi & Urbina, 1998).
Ahora bien, luego de haber complementado los conocimientos sobre las teorías Clásica como de Respuesta
al ítem, pasemos al apartado: “Análisis de reactivos y estandarización de pruebas”.
El análisis de reactivos contribuye a mejorar la prueba al revisar y descartar reactivos ineficaces, además de
obtener información diagnóstica sobre lo que saben o no los examinados, al acortar una prueba e
incrementar su confiabilidad y validez al mismo tiempo. El procedimiento empleado para evaluar la eficacia
de los reactivos de la prueba depende del propósito de la misma, generalmente determinar el porcentaje de
examinados que pasan el reactivo y la correlación del reactivo con una medida de criterio.
Pruebas con referencias a criterios y de dominio
En este caso, el desempeño se mide contra un criterio o estándar establecido por el maestro del aula o por
una política institucional. El objetivo de tal evaluación con referencias a criterio (o a un área) no es descubrir
qué calificación obtiene una persona en relación con otras, sino en qué nivel se encuentra en cuanto a
determinados objetivos de una lección, curso o programa
Diferencias individuales y validez de los reactivos
Las pruebas psicológicas se han diseñado, sobre todo, para evaluar diferencias entre individuos en cuanto a
características. Las habilidades y la personalidad de la gente difieren, y los psicólogos intentan evaluar estas
diferencias mediante diversos tipos de pruebas
A fin de evaluar la utilidad de un reactivo como medida de las diferencias individuales en cuanto a las
características de habilidad o de personalidad, se requiere un criterio externo de medida de dicho rasgo. Si la
prueba se elabora para predecir el desempeño en un trabajo o en la escuela, entonces un criterio apropiado
consiste en la medida del desempeño laboral (digamos, las escalas del jefe)
La validez de un reactivo para predecir una posición con base en un criterio externo puede determinarse al
correlacionar las calificaciones de un reactivo (0 para los errores y 1 para los aciertos) con las calificaciones
de la medida de criterio
Dificultad de los reactivos e índices de discriminación
A menudo se emplea un procedimiento distinto, el de consistencia interna. No obstante, en el caso de una
clase de aprovechamiento de aula, el criterio consiste en calificaciones totales sobre la prueba misma.
Suponiendo que la serie de reactivos en conjunto es una medida adecuada de aprovechamiento en el sujeto,
la suma de las calificaciones se usa como el criterio para determinar la consistencia interna de la prueba.
Un procedimiento más breve consiste en dividir a los examinandos en tres grupos según sus calificaciones
en la prueba como un todo: un grupo superior formado por el 27% que obtuvo las calificaciones más altas,
un grupo inferior compuesto por el 27% que tuvo las calificaciones más bajas, y el restante 46% incluido en
1
un grupo intermedio. Cuando el número total de examinados es pequeño, el 50% correspondiente a los
grupos inferior y superior a menudo se utiliza para propósitos de análisis de reactivos.
P se le conoce como índice de dificultad del reactivo y al de D como índice de discriminación del reactivo
El índice de dificultad del reactivo tiene un rango de .00 a 1.00. Si el propósito de una prueba es identificar o
seleccionar sólo un pequeño porcentaje de los mejores candidatos, entonces la prueba debe ser bastante
difícil, como se refleja en un valor promedio inferior de p. Si la prueba está diseñada para rechazar sólo a
algunos candidatos muy deficientes, entonces es mejor un valor promedio de p elevado. Por ejemplo, el
valor de p óptimo debe ser muy bajo para reactivos de una prueba diseñada para otorgar becas o hacer
contrataciones en puestos superiores, pero muy alto en una prueba diseñada para identificar estudiantes
candidatos a programas terapéuticos.
El índice de discriminación del reactivo (D) es una medida de la eficacia de un reactivo para discriminar
entre quienes obtienen altas y bajas calificaciones en una prueba.
Reactivos con referencias a criterios
Los índices de dificultad y de discriminación pueden calcularse también en reactivos de prueba con
referencia a criterios, y se diseñan para determinar las posiciones de los examinados en objetivos
pedagógicos específicos.
En este caso, los examinados se dividen en dos grupos: un grupo superior consistente en los examinados U,
cuyas calificaciones totales de prueba cumplen con el criterio establecido de desempeño aceptable, y un
grupo inferior integrado por los examinados L, cuyas calificaciones totales no satisfacen los criterios.
Puede emplearse un criterio externo para formar los grupos superior e inferior.
Análisis de distractores
El análisis de los reactivos de opción múltiple suele empezar con el cálculo de índices de discriminación y
dificultad para cada reactivo. Un análisis secundario se ocupa del funcionamiento de los distractores k 1 para
cada reactivo.
El método más sencillo para determinar si todos los distractores están funcionando como deberían es contar
el número de veces que cada distractor se seleccionó como la respuesta adecuada por los examinados del
grupo superior y por los del grupo inferior.
2
Avancemos con el análisis del siguiente tema “ Curvas Características de los Reactivos (CCI). Que es uno
de los conceptos básicos de la Teoría de Respuesta al ítem (TRI), (teoría que profundizamos en el recurso
antes mencionado), conceptualizada como la función matemática asumida que une los niveles de
competencia de los sujetos con las probabilidades de que acierten un ítem, dado que ciertamente califica,
caracteriza al ítem. Cada ítem tendrá la suya propia, su carnet de identidad. Las CCI más habituales adoptan
la forma de “S”. Según el tipo de curva que se adopte y el número de parámetros que se contemplen se
tendrán los distintos tipos de modelos de TRI.”
Para complementar la información, lo invito a revisar su texto básico y continuar con las actividades
planteadas en el plan académico.
Bien, ahora continuemos con otro tema interesante: Estandarización y Normas de las pruebas.
Estandarización y normas de las pruebas

La estandarización supone la uniformidad de los procedimientos de aplicación como de calificación de la
prueba (Anastasi & Urbina, 1998). En el proceso de estandarización, la prueba se aplica a una muestra
grande (recuerde que según el modelo ya sea Clásico o TRI, se establece el número de participantes) y
representativa de personas a las que va dirigida (calidad y tamaño). Este grupo, conocido como muestra de
estandarización, sirve para establecer normas que indican no solo el desempeño promedio, frecuencia
relativa de las desviaciones por encima y por debajo del promedio.
Para profundizar en la temática, le invito a revisar el texto básico, puntualmente el apartado Estandarización
de las pruebas.
Igualdad de las pruebas

Aiken (2003) nos presenta dos formas para establecer la igualdad entre las pruebas, y es las formas paralelas
o método equipercentil y la calibración de ítems.
Las formas paralelas de una prueba son equivalentes en el sentido de que pueden contener los mismos tipos
de reactivos de igual dificultad y que están altamente correlacionadas, sin embargo, elaborar pruebas
paralelas es un proceso bastante caro y laborioso.
La calibración de ítems no es otra cosa que un análisis estadístico para que den cuenta del funcionamiento
diferencial o sesgos, el que nos permite identificar si hay un error de diseño. Para profundizar le sugiero
revisar el Manual de Elaboración de Ítems del Ministerio de Educación, Dirección General de Evaluación de
la Calidad de la Educación, (2012), donde encontrará una explicación detallada de dicho procedimiento.
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

Semana 4

Cargado por

Copyright:

Formatos disponibles

Semana 4

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Semana 4

Cargado por

Copyright:

Formatos disponibles

Semana 4, psicometría

Análisis de reactivos y estandarización de pruebas

Estandarización y normas de las pruebas

Igualdad de las pruebas

También podría gustarte