Separata III
Separata III
Separata III
ul
oI
MÓDULO 3: TÉCNICAS E INSTRUMENTOS DE EVALUACIÓN EN ENTORNOS
VIRTUALES
1. INTRODUCCIÓN 03
1. INTRODUCCIÓN
Para concluir esta introducción, una mirada desde las instituciones formadoras harán
que al diseñar mejor los planes de negocio y dotar a los proyectos de los recursos
necesarios, tanto recursos humanos como tecnológicos y financieros, los servicios
generados serán más sostenibles en el tiempo, con mayor recorrido, lo que redundará,
sin duda, en mejoras continuas de los mismos, iniciando un círculo virtuoso donde los
buenos cursos producirán buenos sistemas de evaluación que posibilitarán buenos y
mejores estudiantes.
Para poder visualizar con mayor claridad las clasificaciones de las técnicas e
instrumentos es necesario tener en cuenta en primer lugar que no todos los MOOC
(Massive Open Online Course), son iguales, pero si hay que distinguir una serie de
características similares entre ellos (Acosta y Escribano, 2013):
-Grupos de estudio: Algunos MOOC como los cMOOC, confían más en interacción
social como base del aprendizaje y en la creación de redes peer-to-peer que en las
lecciones dirigidas por un instructor. Normalmente, estos formatos requieren que los
estudiantes se comuniquen y discutan las cuestiones de clase a través de algún
software de gestión del aprendizaje o de las redes sociales.
“En primer lugar, la interacción social debe ser considerada como un conjunto de
acciones interconectadas entre los miembros que participan en un determinado
contexto educativo, en el que la actividad cognitiva humana se desarrollará en
función de los elementos que determinan la naturaleza de este contexto, en nuestro
caso virtual. En segundo lugar, la interacción social también debe ser considerada
como la utilización del discurso en un medio virtual con fines educacionales”.
(Barberá, Badia y Mominó, 2001:164).
Dentro de la interacción educativa virtual, los autores citados incluyen dos subgrupos
de interacción a saber: interacción instruccional virtual e interacción dialógica virtual.
La primera remite a la idea que “el estudiante construye conocimiento cuando entre en
interacción virtual con un emisor más experto en un contenido específico que le
transmite información, en definitiva, que le instruye”. (Barberá, Badia y Mominó,
2001:164).
“En una conversación virtual asincrónica con objetivos educativos, los interlocutores,
que se comunican preferentemente de forma escrita (con todas las implicaciones que
esto conlleva), no tienen marcadores visuales que vayan indicando los turnos de la
conversación. Puede producirse fácilmente un solapamiento de participaciones… Al
tener un ritmo más lento, lo que se dice puede reflexionarse mucho más. Incluso es
posible que se haga una búsqueda de documentación suplementaria entre una
intervención y la siguiente”.(Barberá, Badia y Mominó, 2001:175).
B.- Entre las actividades interactivas sincrónicas se encuentra el chat, este tipo de
actividad según los autores precitados en una conversación presencial sincrónica con
objetivos educativos, los interlocutores, que se comunican en forma verbal, tienen
marcadores visuales que van indicando los turnos de conversación. Esto permite por
una parte, que las interacciones progresivas se vayan ajustando en función de la
percepción de comprensión que se tiene de las participaciones del grupo y por la otra
facilita los procesos de realimentación instantánea. Por supuesto, que puede generar
consecuencias un tanto desfavorables cuando se realicen intervenciones poco
reflexionadas y con escaso fundamento teórico.
-El chat constituye un procedimiento o actividad de alta significancia para evaluar los
aprendizajes en los entornos virtuales de aprendizaje, este constituye una herramienta
interactiva por excelencia, que permite establecer diálogos de discusión, reflexión y
realimentación inmediata por parte del facilitador o de cualquier miembro del grupo de
discusión. El chat con fines pedagógico debe ser planificado, orientado y normado de
acuerdo a los propósitos que se pretendan alcanzar, igualmente se debe establecer
los criterios e indicadores bajo los cuales se basará la evaluación de los aprendizajes
en dicha actividad.
-El foro representa otra actividad o procedimiento muy utilizado para llevar a cabo la
evaluación de los aprendizajes en los entornos virtuales, este constituye una
herramienta valiosa y permite desarrollar un aspecto o tema específico, en él los
estudiantes y el facilitador irán nutriendo y generando el debate con el apoyo de los
planteamientos e intervenciones que se van produciendo.
-Las Webquest resultan ser una interesante estrategia de uso de contenidos digitales,
puesto que permite el aprendizaje por descubrimiento guiado, significativo y
colaborativo. Consta de un conjunto de pasos fundamentales: introducción, tarea,
recursos, evaluación y conclusión. Webquest significa indagación, exploración,
investigación a través de la web. ¿En qué consiste una Webquest? En presentarle a
los estudiantes un problema, una guía del proceso de trabajo y un conjunto de
recursos preestablecidos accesibles a través de la WWW. ¿Cómo se trabaja? En
grupos pequeños, los estudiantes deben elaborar un trabajo (en papel o en formato
digital), utilizando los recursos ofrecidos en la Internet. Una webquest es una actividad
didáctica atractiva para los estudiantes, que les permite desarrollar un proceso de
pensamiento de alto nivel. El objetivo es trabajar con información: analizarla,
sintetizarla, comprenderla, transformarla, juzgarla, valorarla, etcétera, para crear nuevo
conocimiento y socializarlo.
-MUD. Significa Multi User Dimension. Programa de computadora donde los usuarios
pueden introducirse y explorar, y tomar el control de un personaje computarizado
(avatar, encarnación, etc.).
-Wiki. Un Wiki es un sitio web colaborativo que puede ser editado por varios usuarios.
Los usuarios de una Wiki pueden así crear, editar, borrar o modificar el contenido de
una página web, de una forma interactiva, fácil y rápida dichas facilidades hacen de
una Wiki una herramienta efectiva para la escritura colaborativa. (Definición tomada de
Wikipedia). Principales características de los Wikis. En general permiten:
Chat
Videoconferencia
Foros
Webquest
Interacción dialógica
virtual Weblogs
Correo electrónico
Grabación Audio-
Video
Los blogs-Bitácora
Es el soporte físico que se emplea para recoger información sobre los aprendizajes
esperados de los estudiantes. Todo instrumento provoca o estimula la presencia o
manifestación de lo que se pretende evaluar. Contiene un conjunto estructurado de
items los cuales posibilitan la obtención de la información deseada. El instrumento de
evaluación responde a la pregunta ¿Con qué se va a evaluar?
Los instrumentos de evaluación deben ser válidos y confiables: Son válidos cuando el
instrumento se refiere realmente a la variable que pretende medir. Son confiables en la
medida que la aplicación repetida del instrumento al mismo sujeto, bajo situaciones
similares, produce iguales resultados en diferentes situaciones (Hernández, 1997).
Por ahora, mostraremos los instrumentos que están siendo utilizados con mayor
frecuencia en la serie de documentos revisados, tanto en literatura física así como
también de literatura difundida por internet.
Sin embargo existe una gran cantidad de sistemas de este tipo funcionando
actualmente en el mercado, no hay que olvidar que las máquinas son mucho más
consistentes y pueden evaluar una gran cantidad de elementos en poco tiempo
(Ezeiza, 2013). Actualmente, combinan métodos algorítmicos de análisis gramatical
El formulario en línea sistematiza los resultados, por lo que representa un gran ahorro
de tiempo y minimiza el error humano en la tabulación de los resultados de la
encuesta. En adición, presenta los resultados de forma instantánea, lo cual permite
acceder a la información en el momento que se requiera.
-E-Portafolo. Los portafolios han existido desde hace mucho tiempo en el mundo
profesional y se aplicaron en el sistema educativo como una metodología de
seguimiento de los aprendizajes con diferentes resultados según los modelos, como
bien nos muestra el trabajo de la doctora Helen Barrett, quien señala las prácticas de
los ePortafolios en un abanico de posibilidades que van desde meros recolectores de
resultados y productos hasta soportes para el seguimiento de los procesos de
aprendizajes. Enfoque este último de mayor consenso en casi la mayoría de los
estudios sobre la utilidad e impacto superiores que pueden significar los ePortafolios
en los aprendizajes, y que de alguna forma se reitera en la recopilación magnífica de
A. Jafari y C. Kaufman (2006), y es la capacidad de los ePortafolios para “envolver los
aprendizajes en la evaluación” y servir de “marco para el seguimientos de las
reflexiones de los estudiantes”.
Son aquellas herramientas en las que interviene un profesional o una persona versada
en la materia. Son muy difíciles de implementar en un MOOC, debido principalmente a
la gran cantidad de alumnos matriculados en el curso, por lo que este tipo de
evaluaciones requerirían de una cantidad ingente de tiempo del profesor o profesores.
Sin embargo, a veces se delegan estas correcciones en profesores asistentes que
dinamizan y apoyan a los estudiantes.
Sin lugar a dudas el potencial comunicador de las redes sociales está todavía por
descubrir y debe ser estudiado más en profundidad (Guerrero, 2010). Ahora es el
Chat Rúbricas
Interactiva
El debate E-Portafolio
sincrónica
Videoconferencia
Foros
Interacción Webquest
dialógica
Weblogs
virtual
Correo electrónico
Wiki
Los blogs-Bitácora
Tomar una fotografía de cómo está un sistema educativo. Para poder tomar decisiones
de política educativa, un sistema educativo, ya sea a nivel nacional, estatal o
municipal, puede necesitar información sobre cómo los estudiantes están logrando los
objetivos de aprendizaje propuestos. Para esto, lo más apropiado es diseñar una
prueba que evalúe el currículo nacional (o local), en las asignaturas y grados que se
consideren más relevantes. En general estas pruebas se aplican al final de los ciclos
escolares, para medir los logros esperados para cada ciclo, pero en algunas ocasiones
puede ser apropiado tener alguna medición intermedia, para conocer el grado de
avance en las metas de aprendizaje y poder intervenir a tiempo, por ejemplo en etapas
tempranas de la adquisición de la lectoescritura.
En general las pruebas nacionales demoran varios meses en entregar los resultados,
por lo que no permiten tener información de manera inmediata, sino al año escolar
siguiente.
Estos estudios son muestrales, ya que se levanta información a nivel del sistema y no
de cada escuela, y son conducidos por organismos internacionales de renombre,
como La Organización para la Cooperación y el Desarrollo Económicos (OCDE), La
Asociación Internacional para la Evaluación del Logro Educativo (IEA) y La
Tanto las evaluaciones nacionales como las internacionales permiten obtener una
fotografía de cómo están los logros de aprendizaje en un momento puntual, pero
también pueden servir para monitorear el avance en el nivel de aprendizaje a lo largo
del tiempo. Por este motivo estas pruebas se administran de manera periódica, en
general de manera anual en el caso de las pruebas nacionales, y en ciclos de tres o
más años en el caso de las internacionales. Esto permite ir viendo avances en el
aprendizaje promedio de cada país y también identificar otras tendencias, como si han
disminuido las brechas de género o entre grupos socioeconómicos, o si se evidencian
mejoras en ciertas áreas temáticas o en determinados tipos de escuelas después de
algunas intervenciones puntuales, como podrían ser cambios en el currículo o
intervenciones en ciertos grupos de escuelas. En el caso de los estudios
internacionales también se puede comparar el progreso (o falta de progreso) de un
país con los avances que otros países han tenido en el mismo periodo.
En ocasiones las pruebas nacionales están diseñadas para entregar información por
escuela, en otras puede ser necesario diseñar pruebas especiales, ya sea porque esta
información no está disponible o porque el foco de la evaluación nacional no es el más
adecuado para el objetivo de evaluación.
En algunos casos se busca obtener información a nivel del estudiante. Esto puede
darse como parte del proceso de mejoramiento continuo del sistema, para poder
identificar las debilidades de un determinado estudiante y que sus profesores y padres
lo puedan apoyar. En otros contextos se aplican pruebas que certifican los
aprendizajes logrados, por ejemplo pruebas de fin de ciclo, como podría ser el caso de
una licencia de secundaria o un examen profesional, o una prueba que certifique un
determinado nivel de dominio de un idioma extranjero. Los instrumentos de
aprendizaje individuales también pueden ser utilizados para seleccionar estudiantes,
por ejemplo las pruebas de selección universitaria. En otras ocasiones, se evalúa a los
estudiantes al comienzo de un año escolar o programa educativo, para tener un
diagnóstico de sus debilidades y fortalezas y poder reforzar los elementos necesarios
o hacer cursos de nivelación.
Una primera pregunta es para qué propósito fue diseñado el test, y si calza con el
propósito de evaluación (Ministerio de Educación de Nueva Zelandia, 2014). Los
propósitos de un instrumento pueden ser varios, tales como realizar un diagnóstico,
medir logro, medir potencial o aptitud, o identificar preparación para un cierto programa
o etapa escolar (llamado placement testing en inglés), que también se pueden utilizar
para ubicar a un estudiante en un cierto programa o track de aprendizaje (Cohen,
Manion y Morrison, 2000).
Una segunda pregunta es qué es lo que el instrumento mide y si esto calza con lo
que se quiere evaluar. Este análisis no es algo general, como por ejemplo,
“habilidades matemáticas en primaria”. Hay que mirar en detalle el contenido del test,
los niveles de aprendizaje que cubre, y el o los grupos etarios a los que está orientado,
y compararlo minuciosamente con los objetivos de evaluación. Por ejemplo, para una
evaluación el propósito puede ser evaluar la implementación del currículo nacional de
matemática, el que puede o no tener elementos en común con una prueba de
Hoy en día, los desarrolladores de instrumentos toman muchas precauciones para que
estos sean adecuados para la población para la que fueron diseñados. Por ejemplo,
que una prueba diseñada para uso nacional, efectivamente sea apropiado para la
población nacional. Estas precauciones pueden incluir: administrar una versión piloto a
estudiantes de diferentes características; preguntarle sus impresiones a los
examinadores, por ejemplo, sus opiniones subjetivas sobre la calidad de las
instrucciones; analizar los ítems para ver si presentan sesgo racial, cultural, o de
género; o pedirle a un panel de expertos que revisen los ítems buscando posible
A. Validez
Esta nueva manera de entender la validez está muy relacionada con la evaluación de
programas, en que es necesario especificar el programa que se evaluará, los
contextos en que se implementará, se deben descartar variables externas que puedan
afectar los resultados, y porque muchas veces los programas se evalúan más con un
conjunto de evaluaciones que con un estudio aislado. De la misma manera, se puede
entender la validez como una evaluación integral de los usos propuestos para la
evaluación, generando un análisis coherente de toda la evidencia a favor y en de dicho
uso y si es posible, sobre explicaciones alternativas (Cohen y Wollak, 2006).
Juzgar si un instrumento es válido no es algo que pueda ser medido en una escala
absoluta. Frecuentemente se categoriza la validez como débil versus aceptable lo que
refleja un juicio sobre qué tan adecuadamente el test mide lo que se supone que mide
(Cohen y Swerdlik, 2009). Otros autores, como Darr (2005), sugieren que se
categorice como débil, moderada, o fuerte.
Cuadro 1.
Evidencia En los tests no se pueden evaluar todos los conocimientos de los estudiantes,
basada en sino solo una muestra de ellos, por lo tanto es muy importante que esta sea una
el muestra adecuada del área de aprendizaje que interesa evaluar. Si esto se
contenido logra, aumenta nuestra posibilidad de hacer inferencias válidas sobre los logros
de aprendizaje en un cierto dominio (Darr, 2005). Este tipo de evidencia
requiere mirar el contenido del instrumento para analizar la relación con el
constructo que se quiere medir (Joint Committee on Standards for Educational
and Psychological Testing, 1999; Cohen y Swerdlik, 2009). Para saber qué es lo
que un test mide, no basta con guiarse por el nombre, es fundamental mirar los
ítems que lo componen (Center for Assessment and Research, James Madison
University, 2014). Se puede analizar cada ítem en relación con el dominio, o
pedir la opinión de expertos sobre qué tan adecuadamente estos abordan el
dominio (Joint Committee on Standards for Educational and Psychological
Testing, 1999). Si un instrumento es bueno, tendrá ítems que evalúen diferentes
aspectos del tema evaluado, y expertos en el área, que no están familiarizados
de antemano con los ítems, estarán de acuerdo en qué evalúa cada ítem.
Existen dos riesgos que deben ser evitados. Uno es la sub-representación del
constructo, es decir, que elementos importante del constructo que se quiere
evaluar no estén siendo evaluados. El otro es la varianza relacionada con
constructos que son irrelevantes para lo que se está midiendo, por ejemplo en
una prueba de lectura, el conocimiento previo del tema o la respuesta
emocional frente al texto, o en un test de matemática, la velocidad de lectura o
el vocabulario (Joint Committee on Standards for Educational and Psychological
Testing, 1999).
Evidencia Los análisis teóricos y empíricos sobre los procesos de repuesta de los
basada en examinados pueden entregar información sobre la relación entre estos procesos
los y los constructos que se desean evaluar. Por ejemplo, si un test busca evaluar
procesos razonamiento matemático, es importante que el test efectivamente evalúe eso y
de no simplemente la aplicación de algoritmos. Observar estrategias de respuesta
respuesta o entrevistar a los examinados sobre los procesos puede entregar esta
información (Joint Committee on Standards for Educational and Psychological
Testing, 1999).
Evidencia Este análisis busca recoger evidencia sobre el grado en que las relaciones
basada en entre los ítems de un test y sus componentes se adecúan al constructo que
la supuestamente buscan evaluar, el que puede implicar una sola dimensión, o
estructura varias. Para mirar esto se puede revisar si los ítems efectivamente cumplen con
interna el mapa de contenidos. Si el constructo tiene una sola dimensión, esto también
se puede probar a través del análisis de ítems (por ejemplo, que a los
estudiantes con un buen desempeño en el total de la prueba, obtengan un buen
desempeño en el ítem). Otra forma de mirarlo es comprobar que los ítems
funcionen de manera diferente en distintos grupos, de acuerdo a lo que predice
la teoría (Joint Committee on Standards for Educational and Psychological
Testing, 1999)
Evidencia Más allá de toda la información técnica recogida, si el uso de una evaluación en
basada en particular tiene o puede tener consecuencias negativas, o las consecuencias de
las usar sus resultados pueden ir en contra del objetivo educativo final, es una
consecuenc consideración que debe tomarse en cuenta para cuestionarse la validez de un
ias instrumento y decidir si usarlo o no (Darr, 2005; Wilson 2005; Joint Committee on
Standards for Educational and Psychological Testing, 1999). Esta es la validez
desde el punto de vista de las consecuencias de usar los resultados de los tests.
Por ejemplo, el peso que se le dé a los resultados puede tener un impacto en las
maneras de enseñar y aprender. Algunas de las consecuencias negativas pueden
ser estrechamiento curricular, “teaching to the test” o reducción en la motivación de
los estudiantes (Darr, 2005). Para analizar este tipo de evidencia es necesario
considerar tanto los efectos intencionados como los no intencionados de los tests
(Wilson 2005; Joint Committee on Standards for Educational and Psychological
Testing, 1999). También es necesario analizar si las consecuencias indeseables se
deben al constructo que se quiere medir, o al instrumento específico que se está
utilizando para pedirlo. Para poder dilucidar esto se debe ver si otro instrumento
que mida el mismo constructo presenta las mismas consecuencias indeseables. Si
este es el caso, es más probable que el problema se deba al constructo que al
instrumento (Wilson, 2005).
Por último, hay que distinguir las consecuencias que tienen que ver con decisiones
de política educativa, pero no necesariamente con la validez. En general, la
evidencia relacionada con consecuencias se relaciona directamente con la validez
B Confiabilidad
¿Qué es la confiabilidad?
Para mirar la confiabilidad, al igual que la validez, hay que entenderla en contextos y
propósitos evaluativos específicos. Sin embargo, ya que la confiabilidad remite a
cuánta variación es esperable entre una medición y otra, se entiende de una manera
más estrechamente estadística que la validez, que refiere a la naturaleza de los
atributos siendo medidos (Haertel, 2006).
Los sitios web o los manuales de los instrumentos deben especificar su confiablidad.
Si no lo hacen sus resultados deben tomarse con mucha cautela y no usarse para
tomar decisiones de alto impacto (Timmons et al, 2005).
Cuadro 2.
Teoría Desde la teoría clásica, los enfoques más típicos para analizar la confiabilidad
clásica son: coeficientes derivados de la administración de formas paralelas en
sesiones independientes, coeficientes obtenidos por la administración del
mismo instrumento en ocasiones separadas (conocido también como “test re-
test”, o “coeficiente de estabilidad” ) y coeficientes basados en la relación entre
puntajes derivados de ítems individuales o subtests dentro de un test,
información que es obtenida de la misma administración (conocido también
como “coeficiente interno”, o “inter ítem”) (Joint Committee on Standards for
Educational and Psychological Testing, 1999; Cohen y Swerdlik, 2009). El
coeficiente de confiabilidad más usado en teoría clásica es el Alpha de
Cronbach, que pertenece a esta última categoría. Alpha se desarrolló en 1951
para entregar una medida de la de la consistencia interna de un test o una
escala, es decir, identificar cuánto los ítems miden el mismo concepto, por lo
tanto si un test tiene varias escalas puede ser más apropiado usar alpha en
forma separada para cada escala. Si los ítems se correlacionan entre sí, al valor
de alpha aumenta. Pero este valor puede aumentar también por la cantidad de
ítems (Webb, Shavelson & and Haertel, 2006). Sus valores posibles se mueven
Teoría de la La teoría clásica asume que el puntaje observado es la suma del puntaje verdadero
generalizabi y algún error residual específico de ese puntaje. En cambio, la teoría de
lidad generalizabilidad en vez de usar el puntaje verdadero, asume un universo de
generalización compuesto por todas las posibles observaciones consideradas
equivalentes (Brenan, 2006, Haertel, 2006). Los coeficientes utilizados por la teoría
de generalizabilidad permiten especificar y estimar los diversos componentes de la
verdadera varianza del puntaje, la varianza del error, y varianza del puntaje
observado (Joint Committee on Standards for Educational and Psychological
Testing, 1999). Se pueden realizar dos tipos de estudios, de generalizabilidad (G-
Study) y de decisión (D-Study). Una herramienta de análisis habitualmente utilizada
es ANOVA, así como el programa computacional GENOVA.
Teoría de La TRI es una familia de modelos estadísticos usados para analizar los datos
respuesta de ítems de tests, entregando un proceso estadístico unificado para estimar
al ítem características de los ítems y los individuos examinados y definir cómo estas
características interactúan en el desempeño en los ítems y el test. IRT tiene
muchos posibles usos en evaluación, entre ellos construcción de ítems,
escalamiento, equating, estándar setting, y puntuación. A partir de los '90 ha
sido utilizada en la mayoría de las evaluaciones estudiantiles a gran escala.
Existen diferentes modelos TRI pero su esencia común es una descripción
estadística de la probabilidad de que un examinado con determinadas
características tenga una determinada respuesta a un ítem individual, que a su
vez tiene características particulares. Las maneras de calcular la confiabilidad
bajo TRI toman en cuenta las características del individuo y de los ítems (Yen &
Fitzpatrick, 2006). Al usar TRI muchas veces se utiliza la función de información
del test como medida de confiabilidad. Esta resume qué tan bien el test
discrimina entre individuos de diversos niveles en el rasgo siendo evaluado
Estos tres enfoques se refieren a la confiabilidad del instrumento, pero las fuentes de
varianza en la medición también pueden darse en la puntuación e interpretación de los
instrumentos. Por ejemplo, cuando el proceso de puntuación requiere mucha
participación de puntuadores (lo que sucede en los ítems de respuesta abierta), en
general se obtienen puntajes de consistencia entre jueces, que es otra forma de
analizar la confiablidad (Joint Committee on Standards for Educational and
Psychological Testing, 1999; Cohen y Swerdlik, 2009).
Hay que tener en cuenta que cómo se implemente y analice un instrumento también
puede afectar su validez y confiabilidad (Joint Committee on Standards for Educational
and Psychological Testing, 1999; Cohen y Swerdlik, 2009). Para que un test sea
válido, no basta con que las características técnicas del instrumento lo sean, también
es fundamental que todos los instrumentos hayan sido administrados bajo las mismas
condiciones estandarizadas de aplicación. Esto significa que las instrucciones, el
contexto de aplicación y los procedimientos de puntuación han sido exactamente los
mismos para todos los examinados. Eso asegura que los datos puedan ser
adecuadamente, interpretados, comparados, y usados de acuerdo al principio de que
cada usuario fue tratado de manera justa. Por lo tanto, cualquier alteración en la
estandarización de la aplicación afecta la comparabilidad y la validez de la prueba
(McCallin, 2006). Esto nos lleva al concepto estandarización. Lo que hace que un test
sea estandarizado no es el uso de puntajes estandarizados, o que sea de respuesta
múltiple, sino que las condiciones de aplicación hayan sido estandarizadas, es decir,
las instrucciones, condiciones de administración, y puntuación son claramente
definidas y son las mismas para todos los examinados (Ministerio de Educación de
Nueva Zelandia, 2014; Cohen y Wollak, 2006). La estandarización es importante para
todo tipo de instrumentos, sin importar si son referidos a normas o criterios, del
formato que tengan y de si tienen o no distintas formas. Las instrucciones
estandarizadas aseguran que todos los examinados tengan el mismo entendimiento
de lo que se espera de ellos (Cohen y Wollak, 2006). Ejemplos de alteración de la
situación de administración son: examinadores que dan más o menos tiempo para
responder los instrumentos; que no leen las instrucciones (llevando a confusión sobre
Costos
Un elemento central en este análisis es el tema costos, que puede ser un factor
decisivo a la hora de escoger un instrumento. Para cada instrumento potencial hay que
saber cuántos recursos se necesita tener para implementar la evaluación en su
totalidad (Center for Assessment and Research, James Madison University, 2014;
Ministerio de Educación de Nueva Zelandia, 2014; Timmons et al, 2005). Existen
varios tipos de costos asociados a los instrumentos: para comprar los derechos de los
tests mismos, las hojas de respuesta, el procesamiento, y puntuación y análisis de los
Con respecto a los derechos de los instrumentos, algunos están disponibles sin costo,
pero otros deben ser comprados a sus autores o publicadores (Center for Assessment
and Research, James Madison University, 2014). Los instrumentos por los cuales hay
que pagar tienen un amplio rango de precios y es importante considerar que el mejor
instrumento no es necesariamente el más caro. La mayoría de los publicadores de
tests de lápiz y papel cobran por manuales y otros materiales de administración,
además de por cada test individual, hojas de respuestas, y servicios de puntuación. Si
se quiere hacer un análisis de costo-efectividad hay una serie de factores que deben
considerarse. Por ejemplo, algunos tests baratos pueden ser útiles o instrumentos muy
caros tener una utilidad muy acotada a determinada población. También es importante
considerar cuántas veces se planea usar el instrumento y si es posible asociarse con
otra institución para compartir costos (Timmons et al, 2005).
Tiempos de aplicación
Los administradores de los instrumentos juegan un rol esencial. Los tests varían en el
nivel de experticia y entrenamiento requeridos por los administradores o puntuadores
(Ministerio de Educación de Nueva Zelandia, 2014; Timmons et al, 2005). Cuando se
requiere experiencia o formación específica, esto se especifica en los manuales o los
sitios webs de los instrumentos. En algunas ocasiones, incluso es necesario enviar
documentación que respalde la formación de los examinadores antes de poder
acceder a los tests. La administración o puntuación de tests por parte de personal sin
las calificaciones necesarias es una serie violación ética y además puede afectar la
validez de los resultados (Timmons et al, 2005).
Hay que tomar en cuenta también cómo se registrarán los datos y/o puntajes en una
base de datos (Ministerio de Educación de Nueva Zelandia, 2014; Center for
Assessment and Research, James Madison University, 2014). La puntuación de los
tests es más eficiente que antes, en muchos casos con acceso a puntuaciones
computarizadas o por internet. En algunas situaciones se puede acceder a la
puntuación de manera inmediata (Timmons et al, 2005), pero en otros casos esa
información debe ser cargada. La mayoría de los tests hoy se leen con un lector
Algunos instrumentos requieren una administración uno a uno (un examinador por
evaluado) mientras otros son de aplicación grupal. En términos prácticos, lo más fácil
es ocupar instrumentos de aplicación grupal, es decir, que implican tener solo uno o
dos examinadores por sala.
Sin embargo, muchos instrumentos que requieren observación por parte del
examinador, o que evalúan a niños muy pequeños, son de administración individual,
es decir, uno a uno entre el examinador y el examinado. Esto puede ser inviable desde
el punto de vista práctico, por costos y limitaciones de tiempo. En otras ocasiones
quizás lo que se quiere medir solo se puede evaluar a través de un instrumento de
administración individual, en este caso es necesario contar con los recursos
suficientes. La mayoría de los instrumentos que han sido diseñados para
administración individual no se pueden usar fácilmente en un grupo (Ministerio de
Educación de Nueva Zelandia, 2014).
Es fácil/difícil de usar
Los test deberían ser lo más fáciles de usar posible, ya que los desempeños de los
estudiantes se pueden ver afectados si no entendieron las instrucciones. Sobre todo
los niños pequeños pueden gastar tiempo valioso tratando de entender el proceso y no
en el contenido. Por ejemplo, hojas de respuesta complejas pueden confundir al
usuario y un estudiante puede darse cuenta en medio del test que ha estado
respondiendo en la sección equivocada (Timmons et al, 2005). Para niños de primer y
segundo grado la experiencia recomienda no utilizar hojas de respuesta, porque la
instrucción los puede confundir. Es mejor que respondan directamente sobre la
prueba.
4.1 Consideraciones.
Existen muchos instrumentos disponibles para su uso comercial que pueden ser
usados para propósitos evaluativos. Desde el punto de vista práctico, utilizar un test
que ya existe permite ahorrar mucho tiempo y recursos (Center for Assessment and
Research, James Madison University, 2014; Cohen, Manion y Morrison, 2000). Otras
ventajas son que en general son instrumentos técnicamente sólidos, es decir, han sido
piloteados y estandarizados en una población detalladamente descrita, declaran su
validez y confiablidad, cubren una amplia gama de contenidos, tienden a ser tests
paramétricos por lo que se pueden hacer análisis sofisticados, incluyen instrucciones
detalladas para su administración, en general son fáciles de administrar y puntuar, y
en general incluyen orientaciones para la interpretación de los resultados (Cohen,
Manion y Morrison, 2000). Dentro de las posibles desventajas están: son caros,
muchas veces están dirigidos a una población muy específica y pueden no adecuarse
al propósito evaluativo requerido; algunos tienen una disponibilidad restringida por lo
que puede ser necesario afiliarse a cierta institución para usarlo, lo que puede exigir
cumplir con ciertos requisitos; y los tests disponibles por definición están pensados
para una población general y no hechos a medida para necesidades locales. Para
utilizar uno de estos tests se debe estar seguro que los objetivos, propósitos y
contenidos de dicho test están alineados con los objetivos de evaluación. Los
Standards for Educational and Psychological Testing declaran que para que un
investigador decida si le conviene usar un instrumento ya existente, la regla de oro es
que debe poder demostrar adecuación al propósito (Cohen, Manion y Morrison, 2000).
Sin embargo, es difícil encontrar un instrumento que se ajuste exactamente a los
objetivos específicos de un programa (Center for Assessment and Research, James
Madison University, 2014). Algunos errores comunes que se cometen al seleccionar
instrumentos, que afectan su validez y por lo tanto deben evitarse, son: usar
determinado instrumento porque tiene buena fama o ha sido usado antes; usar
información porque está disponible; usar métodos con los que no se está familiarizado,
sin capacitarse adecuadamente; no proveer de adecuaciones a estudiantes con NEE o