Analisis Cuantitativo Items Multipunto
Analisis Cuantitativo Items Multipunto
Analisis Cuantitativo Items Multipunto
Resumen
Abstract
ya que todos los estadísticos de los items dependen en gran medida de las
características de la muestra.
El análisis cuantitativo consiste en la utilización de estadísticos que permitan
describir cómo se comportan los items a partir del resultado obtenido en
cada procedimiento. Se seleccionan aquellos reactivos que se aproximen
al valor ideal establecido teóricamente para cada estadístico, de acuerdo al
objetivo del instrumento, la población a la cual se dirige y a la tabla de
especificaciones.
Por ejemplo, si está evaluando una variable felicidad, y se tienen las siguientes
opciones de respuesta: nunca, pocas veces, a menudo y siempre, y el enunciado
es el siguiente “Estoy alegre constantemente”, claramente la direccionalidad
del item es directa, es decir, valores altos van a indicar mayor presencia
del atributo felicidad en la persona y van a corresponder con la respuesta,
comportamiento o evidencia “típica” del rasgo, mientras que valores bajos
corresponden con menor presencia del rasgo. Las opciones se codificarían
de la siguiente manera: nunca= 1, pocas veces= 2, a menudo= 3 y siempre= 4
(Céspedes y Tristán-López, 2014). Ahora bien, si el reactivo fuera “Estoy triste
constantemente”, la direccionalidad de item sería inversa, lo que implicaría
que aquellas puntuaciones más altas se corresponderían con baja presencia
del constructo de interés, y por tanto, se codificarían en la matriz de datos
de la siguiente manera: nunca= 4, pocas veces= 3, a menudo= 2 y siempre= 1.
Si bien es cierto que durante la aplicación se debe promover que los
examinados no dejen de contestar algún item o que marquen dos opciones
en una de las respuestas, se debe tener una codificación especial para dichas
omisiones o errores al contestar y se denonomina con la etiqueta “No
Contesta” o “No Aplica”.
Tabla 1
Análisis de las opciones de respuestas del item 1.
Item 1
Frecuencia Porcentaje
Nunca 20 10
Pocas Veces 80 40
A Menudo 80 40
Siempre 20 10
Capacidad Discriminativa
Un instrumento psicométrico tiene como objetivo principal poder
identificar las diferencias entre los individuos evaluados, es decir, poder
saber con certeza objetiva la cuantía del rasgo presente en los examinados.
Para lograrlo es necesario que el instrumento esté compuesto por items que
diferencien entre las personas; en la medida que los indicadores logren este
cometido, se tendrá un instrumento psicométrico que también lo alcance. Lo
anterior implica que se deben seleccionar reactivos que tengan la capacidad
Tabla 2
Variabilidad Máxima según el número de opciones de los items.
Número de Opciones 2 3 4 5 6 7
Tabla 3
Ejemplo de los tipos de Kurtosis.
Kurtosis
Estadístico Tipo de Kurtosis
Item 1 -,533 Platikúrtica
b) Correlación inter-item
Una forma de conocer qué tanto discriminan los items, consiste en verificar
cómo es la relación entre un par de reactivos, a través del análisis de sus
inter-correlaciones. Las correlaciones entre reactivos examinan el grado en
que el puntaje de un item está relacionado con la puntuación obtenida en
otro de los reactivos que componen la escala. Para Cohen y Swerdlik (2005)
esta propiedad proporciona una evaluación de la redundancia de items, es
decir, en qué medida los reactivos de un instrumento psicométrico evalúan
el mismo contenido. Asimismo, DeVellis (2003) expresa que, para alcanzar
items altamente intercorrelacionados, cada elemento individual debe
correlacionarse con la colección de reactivos restantes. Si todos los items
están midiendo el mismo dominio, se esperaría que todos correlacionen
Tabla 4
Matriz de correlaciones inter-items.
Item 4 1 -,471*
Item 5 1
*Correlación estadísticamente significativa (p<0,05)
La correlación promedio entre los reactivos, es simplemente el promedio o la
media de todas estas correlaciones. En el ejemplo, se obtuvo una correlación
promedio entre todos los reactivos de ri-i=.147 . Como se observa, instrumentos
con muchas inter-correlaciones negativas van a generar un valor promedio
muy bajo, por lo tanto, los reactivos que correlacionen negativamente con
sus pares serán aquellos reactivos con muchas inter-correlaciones negativas
y, en consecuencia los candidatos principales a ser eliminados. Cuando se
desincorpora el item 5, la correlación promedio inter-item mejora pasando a
ri-i=.551 y sus correlaciones oscilan entre ri-i=.419 y ri-i=.640.
De igual manera, se puede analizar cómo es el comportamiento promedio
de un solo reactivo, por ejemplo, al desincorporar el reactivo 5, para
el item 1 se encontró que: r12=.419 ; r13=.640; r13=.604 y por tanto, su
comportamiento promedio sería igual r1-i=.554 y todas las inter-correlaciones
son estadísticamente significativas (Ver Tabla 5).
Tabla 5
Promedio de las correlaciones inter-items.
Media de las inter- Correlación Correlación
N° de items
correlaciones Mínima Máxima
Correlaciones inter-items
,147 -,497 ,640 5
para la Escala Total
Correlaciones inter-items al
,551 ,419 ,640 4
Eliminar el item 5
Correlaciones inter-item,
,554 ,419 ,640 3
para el item 1
Nota: Tabla de elaboración propia.
Tabla 6
Correlación Item-total corregida.
Correlación item-total corregida
Item 1 ,607**
Item 2 ,489**
Item 3 ,667**
Item 4 ,567**
Item 5 -,564
d) Grupos de Contraste
Autores como Anastasi y Urbina (1998), Morales y cols. (2003) y Hogan
(2004), plantean que la construcción de grupos de contraste es una técnica
válida para analizar la capacidad discriminativa de los items. Partiendo de la
premisa de que el instrumento en su totalidad es un indicador válido del rasgo,
se construyen grupos que tienen diversidad del rasgo, luego se identifican
quienes recibieron una puntuación elevada en el puntaje total en la escala y
aquéllos que recibieron una baja puntuación, para después determinar hasta
qué punto un reactivo particular diferencia los que obtuvieron en mayor
medida el rasgo de los que la presentan en menor medida, es decir, qué tanto
el item distingue en función del atributo medido.
El grupo con Alta Presencia del rasgo está compuesto por los examinados que
se ubican en los porcentajes superiores de la escala (el 25% de los mejores,
el 27% de los que tienen en mayor presencia el rasgo, etc.), Mientras que, el
grupo con Baja Presencia del rasgo serán aquéllos ubicados en el 25%, 27%
o 33% del menor puntaje en la escala total (o dimensión). Se suele utilizar la
prueba de contraste de medias t de student, para comparar la media del grupo
con Alta Presencia y Baja Presencia. Si resulta estadísticamente significativa
la diferencia, quiere decir que el item efectivamente puede diferenciar en
función del atributo, por lo tanto, es un reactivo apto para pertenecer a
la escala definitiva. En cambio, si no es estadísticamente significativa la
diferencia entre los grupos contrastados, el item no distingue correctamente
entre los evaluados, por lo que resulta conveniente eliminarlo de la escala.
Para analizar la capacidad discriminativa de los items, se construyeron dos
grupos de comparación Alta Presencia del Rasgo (desde el cuartil 75 hacia
los valores mayores) y Baja Presencia del Rasgo (desde el cuartil 25 hacia los
valores menores), se espera que como cada grupo tiene variedad de presencia
del rasgo, el item discrimine entre cada uno de ellos. Se utilizó la prueba t de
student para comparar ambas muestras (Ver Tabla 7). Se encontró que todos
los reactivos diferencian entre aquéllos que obtuvieron en mayor medida el
rasgo y los que lo presentan en menor medida, es decir, que el item distingue
en términos del constructo medido. Por ejemplo, el item 1 obtuvo el siguiente
resultado: t(174)=-15,996; p<.05. Esto quiere decir que existen diferencias
estadísticamente significativas entre el grupo que presenta alta presencia y el
grupo de baja presencia, por lo tanto, el item discrimina correctamente, lo
cual es un comportamiento óptimo para el reactivo.
Tabla 7
Prueba t de student para cada item.
Prueba T para la igualdad de medias
95% Intervalo de
Error confianza para la
Sig. Diferencia
t gl típ. de la diferencia
(bilateral) de medias
diferencia
Inferior Superior
Se han asumido
Item 1
varianzas iguales
-15,996 174 ,000 -1,646 ,103 -1,849 -1,443
Se han asumido
Item 2
varianzas iguales
-13,153 174 ,000 -1,646 ,125 -1,893 -1,399
Se han asumido
Item 3
varianzas iguales
-17,078 174 ,000 -2,048 ,120 -2,284 -1,811
Se han asumido
Item 4
varianzas iguales
-22,190 174 ,000 -2,293 ,103 -2,497 -2,089
Se han asumido
Item 5
varianzas iguales
13,477 174 ,000 1,525 ,113 1,302 1,748
Consistencia Interna
Al definir el dominio del constructo a medir, cada reactivo es una muestra
individual del área a evaluar. En este sentido, el análisis de la consistencia
interna permite determinar el grado en que los diferentes items miden el
mismo rasgo. Esta revisión permite conocer qué tanto los reactivos del
instrumento en construcción son iguales en términos de lo que mide, es
decir, qué tanto están correlacionados. Se basa en la consistencia de las
puntuaciones a todos los reactivos del instrumento. Si el puntaje de los
reactivos que constituyen el instrumento tiene correlaciones positivas entre
ellos se dice que es un instrumento homogéneo, es decir, que el contenido
evalúa el mismo rasgo (Brown, 1980; Kaplan y Saccuzzo, 2006).
Para el caso de los items multipunto, se debe aplicar el Alfa de Cronbach (α),
el cual adquiere valores entre 0 y 1. Mientras más cercano a 1, implica que
el instrumento es más homogéneo y mientras más cercano a 0, el domino
Tabla 8
Valoración de la consistencia interna según DeVellis (2003).
Valor del α Etiqueta
Tabla 9
Estadísticos de la Escala cuando se desincorpora un reactivo.
Estadísticos total-item
Varianza de la Correlación
Media de la escala si se Correlación item- Alfa de Cronbach si
escala si se elimina múltiple al
elimina el item total corregida se elimina el item
el item cuadrado
Item 1 13,37 5,196 ,607 ,492 ,245
Item 2 13,86 5,335 ,489 ,412 ,320
Item 3 13,49 4,557 ,667 ,583 ,163
Item 4 13,47 5,636 ,567 ,463 ,294
Item 5 13,49 11,773 -,564 ,325 ,829
Nota: Tabla de elaboración propia.
Construcción de baremos:
Para poder decidir cuáles son los reactivos que van a conformar la escala
definitiva, el constructor del instrumento debe establecer cuáles son las pautas
esperadas del comportamiento de los reactivos en cada uno de los estadísticos
seleccionados. Para dicho análisis se va a tomar en cuenta lo propuesto por
Cohen y Swerdlik (1999) quienes explican que para la construcción de un
instrumento psicométrico, se debe considerar los aspectos internos que lo
caracterizan, viendo cómo se comporta la variable, a quién está dirigido y
cuál es el objetivo para lo cual se diseña. Por ejemplo, se debe conocer si la
variable y sus dimensiones son homogéneas o heterogéneas o si se necesita
que los reactivos redunden en consistencia interna.
Como se ha ido observando a lo largo de esta entrega, existen diversos
estadísticos, que arrojan información distinta acerca del comportamiento
de los reactivos. No obstante, en la bibliografía difícilmente se encontrará
información de un comportamiento prototípico que aplique exactamente
igual para todos los instrumentos psicométricos y que permitan de antemano
tener definido como serán los reactivos que se deben escoger. La selección
de los reactivos requiere la construcción de un modelo de análisis particular
que refleje el comportamiento ideal de los items, vinculando los números
obtenidos en los estadísticos y el comportamiento teórico de la variable.
Lezama y Urdanibia (2009) plantean la pertinencia de construir un baremo
que incluya los estadísticos que se van a utilizar y se asignen pesos diferenciales
al recorrido de valores que asume cada estadístico, no solo considerando el
comportamiento ideal, sino también valorando el desempeño inadecuado
de los estadísticos. Por ejemplo, si se tiene una variable homogénea, se espera
que valores altos de la correlación item-dimensión sean puntuados con
mayor peso, mientras que correlaciones negativas y cercanas a cero recibirán
una menor calificación en el baremo.
Es importante resaltar que no se debe elegir un item solo por un estadístico;
la decisión de si va a pertenecer o no la escala definitiva depende de cómo se
comporte en la mayoría de los estadísticos, del objetivo del instrumento, de
la población y de su tabla de especificaciones.
R eferencias bibliográficas
Anastasi, A. & Urbina, S. (1998). Test Psicológicos. (7ma Ed.). México: Prentice
Hall.
Brown, F. (1980). Medición en Psicología y Educación (4ta Ed.). México: El
Manual Moderno.
Céspedes, V. & Tristán-López, A. (2014). Influencia de la direccionalidad
de los items en los resultados de instrumentos de medición. Diversitas,
10(1), 29-43.
Cohen, R. & Swerdlik, M. (2001). Pruebas y Evaluación Psicológica.
Introducción a las pruebas y a la Medición. (4ta Ed.). México: McGraw
Hill.
Cortada de Kohan, N. (1999). Teorías psicométricas y construcción de tests.
Buenos Aires: Lugar Editorial.
DeVellis, R. (2003). Scale Development. (2da Ed.). EE. UU: Sage Publications
Inc.
Domínguez, S. (2013). ¿Items politómicos o dicotómicos? Un estudio
empírico con una escala unidimensional. Revista Argentina de Ciencias
del Comportamiento, 5(3), 30-37.