Separata III

Módulo III
Técnicas e Instrumentos de Evaluación en

Entornos Virtuales
Técnicas e instrumentos de evaluación en entornos virtuales 1

M
ód ÍNDICE
ul
oI
MÓDULO 3: TÉCNICAS E INSTRUMENTOS DE EVALUACIÓN EN ENTORNOS
VIRTUALES
1. INTRODUCCIÓN 03
2. TÉCNICAS E INSTRUMENTOS DE EVALUACIÓN 04

2.1. Técnicas de evaluación en entornos virtuales 05
2.2. Instrumentos de evaluación en entornos virtuales 12
3. CÓMO SELECCIONAR INSTRUMENTOS DE EVALUACIÓN 17

3.1. Coherencia entre el objetivo de evaluación y el instrumento escogido 17
3.2. Calidad de los instrumentos 23
3.3. Consideraciones Prácticas 33
4. CREAR UN INSTRUMENTO O UTILIZAR UNO YA EXISTENTE 37

4.1. Consideraciones 37

TÉCNICAS E INSTRUMENTOS DE EVALUACIÓN EN ENTORNOS VIRTUALES
1. INTRODUCCIÓN
En el contexto de la evaluación en entornos virtuales, se percibe una serie de aspectos

que difieren de aquellos presentes en una educación de carácter presencial, un
aspecto esencial en todo proceso enseñanza-aprendizaje es la evaluación, que
permite a los estudiantes estar siempre alertas a sus desempeños en beneficio de
lograr o alcanzar el desarrollo de sus competencias. En el presente módulo nuestra
visión estará focalizada sobre los instrumentos que se usan en dicha evaluación, por
ende ellas estarán direccionadas en primer momento por la técnica de evaluación
elegida, esperamos consensuar con ustedes la posibilidad de normalizar un Marco
Conceptual, en esta nueva forma de ver tanto las técnicas y los instrumentos en los
entornos virtuales, que como lo vimos en el módulo 2 hay la coexistencia de las
propuestas trabajadas en la educación presencial que están siendo adaptadas por los
medios automatizados, siendo el medio en la cual se lleva acabo las nuevas formas de
educación, trataremos de orientar y ustedes tomar la decisión según la pertinencia
desde sus espacios laborales e intereses. Es posible que uno prefiera herramientas
basadas únicamente en automatismos y que otro se sienta más cómodo en un curso
basado en instrumentos de evaluación de interacción social. Y para el caso de los
docentes les permitirá explorar nuevos diseños de evaluación cada vez más
adecuados, atendiendo a los recursos que tienen a su disposición en la plataforma, a
los recursos que aporta el propio estudiante y a los objetivos formativos planteados.
Para concluir esta introducción, una mirada desde las instituciones formadoras harán
que al diseñar mejor los planes de negocio y dotar a los proyectos de los recursos
necesarios, tanto recursos humanos como tecnológicos y financieros, los servicios
generados serán más sostenibles en el tiempo, con mayor recorrido, lo que redundará,
sin duda, en mejoras continuas de los mismos, iniciando un círculo virtuoso donde los
buenos cursos producirán buenos sistemas de evaluación que posibilitarán buenos y
mejores estudiantes.

2. TÉCNICAS E INSTRUMENTOS DE EVALUACIÓN
En el proceso evaluativo es imprescindible tener en consideración las técnicas y los

instrumentos que serán usados, esta vez en el entorno virtual, como señalamos en
algún momento presentaremos aquí una propuesta de clasificación en función de la
lectura de los artículos de las instituciones que viene realizando innovaciones en el
campo de la educación virtual, no es exhaustiva el acopio de información por lo mismo
queda en manos de los lectores continuar en dicha construcción que permita más
adelante tener una orientación plena para poder comunicarnos adecuadamente.
Para poder visualizar con mayor claridad las clasificaciones de las técnicas e
instrumentos es necesario tener en cuenta en primer lugar que no todos los MOOC
(Massive Open Online Course), son iguales, pero si hay que distinguir una serie de
características similares entre ellos (Acosta y Escribano, 2013):
-Video lecturas: Pueden ser en directo, en diferido, de 1 hora, de 5 minutos, en texto o

en video, pero al final, se trata de una clase, sea interactiva o no, es decir no importa
que esté enfocada a los xMOOC o a los cMOOC. Stephen Downes reduce los MOOC
a dos tipos:
 cMOOC: Abiertos y participativos, orientados al aprendizaje basado en

comunidades de estudiantes y profesores. Propuesto por Alec Couros, George
Siemens, Stephen Downes y Dave Cormier.
 xMOOC: Basados exclusivamente en los contenidos y más alejado del método

conectivista.
-Deberes: Los estudiantes deberían recibir de un modo periódico deberes y tareas a

través de recursos en línea u otras plataformas como pizarras online. Este punto está
más enfocado a los xMOOC y a un modelo educativo más conductista.
-Grupos de estudio: Algunos MOOC como los cMOOC, confían más en interacción
social como base del aprendizaje y en la creación de redes peer-to-peer que en las
lecciones dirigidas por un instructor. Normalmente, estos formatos requieren que los
estudiantes se comuniquen y discutan las cuestiones de clase a través de algún
software de gestión del aprendizaje o de las redes sociales.
-Exámenes: Algunos MOOC requieren de exámenes supervisados para sus

certificados, otros sin embargo se basarán en pruebas tipo test y tareas evaluables por
otros compañeros.

2.1 TÉCNICAS DE EVALUACIÓN
Entendemos a la técnica de evaluación como un conjunto de acciones o

procedimientos que conducen a la obtención de información relevante sobre el
aprendizaje de los estudiantes. (Díaz Barriga y Hernández Rojas: 1999). Como lo
vimos en el Módulo 2, la técnica responde a la pregunta ¿Cómo se va a evaluar?
Sobre la base de revisiones de literatura actualizada tanto a nivel de libros físicos, e-

books y navegación en el internet la presente clasificación de las técnicas, es un
esfuerzo propio de organización que está sujeta a las opiniones, sugerencias y aportes
que pudieran ayudar para su normalización, es oportunidad de los maestrantes
contribuir en señalar un marco claro y didáctico para el uso de los docentes
involucrados en este contexto novel de enseñanza aprendizaje, el mundo virtual.
Teniendo como criterio de clasificación, la interacción humana, Colmenares, Ana M.

(2012) señala que, entre las técnicas más convenientes para evaluar aprendizajes en
los entornos virtuales se sugieren:
A. Interacción dialógica virtual B. Análisis del discurso escrito
A.-La interacción es la relación de intercambio entre dos o más individuos. La

interacción en la comunicación es intencional, funciona con base en el lenguaje
consensuado y es instrumental. Representa uno de los procesos más relevantes en la
participación en cursos en línea, es un término intensamente discutido en los
escenarios educativos asistidos por las tecnologías, como consecuencia ha recibido
diferentes acepciones y clasificaciones. En este espacio nos referiremos a la
interacción en entornos virtuales de enseñanza y aprendizaje, la cual es analizada
desde dos puntos de vista quienes la plantean en los términos mencionados a
continuación:
“En primer lugar, la interacción social debe ser considerada como un conjunto de
acciones interconectadas entre los miembros que participan en un determinado
contexto educativo, en el que la actividad cognitiva humana se desarrollará en
función de los elementos que determinan la naturaleza de este contexto, en nuestro
caso virtual. En segundo lugar, la interacción social también debe ser considerada
como la utilización del discurso en un medio virtual con fines educacionales”.
(Barberá, Badia y Mominó, 2001:164).

Ahora bien, producto de profundas discusiones en relación a la técnica de evaluación
conocida como interacción, en los distintos encuentros presenciales y virtuales,
emerge una propuesta por el grupo de coinvestigadores, la cual fue denominada
“Interacción Dialógica Virtual” y fue definida como:“… la participación activa,
permanente a través del diálogo que se realiza entre los participantes de una
comunidad de aprendizaje, que hacen uso de un entorno virtual, estas interacciones
se cumplen por medio de las distintas actividades que se programan en los cursos,
tales como: chat, foros, debates, weblogs, wikis, entre otros”. (Barberá, Badia y
Mominó, 2001:164).
Dentro de la interacción educativa virtual, los autores citados incluyen dos subgrupos
de interacción a saber: interacción instruccional virtual e interacción dialógica virtual.
La primera remite a la idea que “el estudiante construye conocimiento cuando entre en
interacción virtual con un emisor más experto en un contenido específico que le
transmite información, en definitiva, que le instruye”. (Barberá, Badia y Mominó,
2001:164).
Mientras que la segunda se refiere al “tipo de comunicación que se produce entre

todos los miembros de un grupo dentro del contexto virtual que avanzan en la
comprensión compartida de unos determinados significados que otorgan a una parcela
de una disciplina académica o práctica social” (Barberá, Badia y Mominó, 2001:183).
Por lo tanto, la técnica de evaluación propuesta por el grupo de investigación tiene un

asidero teórico, fundamentado en un tipo específico de interacción educativa virtual,
con su respectivo soporte psicológico y pedagógico. Supera la visión constructivista
social para posicionarse en la concepción del aprendizaje bajo la concepción
comunicativa y el aprendizaje dialógico ya que considera la realidad social como una
construcción humana y los significados que se construyen dependen de las
interacciones entre los individuos.
En definitiva, el estudiante construye sus aprendizajes por medio de las distintas

interacciones que se establecen en la comunidad de aprendizaje a la cual se adscribe,
gracias a la ayuda de todos los integrantes, tanto facilitadores como otros estudiantes;
el proceso de enseñanza y aprendizaje es considerado como un tipo de actividad
dialógica.

B.-Otra técnica consensuada en las discusiones socializadas sostenidas por el grupo
de co-investigadores la denominan “análisis del discurso escrito”, mediante esta
técnica de evaluación de la actividad discursiva escrita, que tiene un elevado
predominio en las interacciones que se desarrollan en los entornos virtuales de
aprendizaje, el tutor y el alumno pueden valorar la calidad de los mensajes, las
distintas formas de conceptualizar la realidad, los significados compartidos y las
negociaciones que se dan en esas interacciones humanas. Por lo tanto, las
discusiones, disquisiciones, diferencias, opiniones quedan plasmadas en el texto
escrito, que luego constituye un recurso de una riqueza incalculable para ser analizado
por los distintos actores educativos.
Otro aporte interesante de Colmenares, Ana M. (2012) considera que en función al

criterio del tiempo de interacción de los involucrados en el acto educativo, las técnicas
más convenientes para evaluar aprendizajes en los entornos virtuales se sugieren:
A.- Actividad interactiva asincrónica B.- Actividad interactiva sincrónica
A.- Entre las actividades que se proponen se encuentran las interactivas

asincrónicas, tales como los foros, weblogs, webques, Correo electrónico, En este
tipo de interacción ocurre que entre varias comunicaciones consecutivas que se
producen en un contexto virtual, exista un período de aplazamiento de respuestas que
normalmente no se da en las aulas presenciales.
“En una conversación virtual asincrónica con objetivos educativos, los interlocutores,
que se comunican preferentemente de forma escrita (con todas las implicaciones que
esto conlleva), no tienen marcadores visuales que vayan indicando los turnos de la
conversación. Puede producirse fácilmente un solapamiento de participaciones… Al
tener un ritmo más lento, lo que se dice puede reflexionarse mucho más. Incluso es
posible que se haga una búsqueda de documentación suplementaria entre una
intervención y la siguiente”.(Barberá, Badia y Mominó, 2001:175).
-Blogs o Bitácora. Espacio en la web para escribir y publicar un diario de reflexiones,

una recolección de eventos, compartir información, ideas o pensamientos con otros; se
usa también como centro público de discusión (similar a un foro pero con acceso
público). Es actualizado periódicamente por el autor.
-Correo Electrónico. Tecnología para la comunicación en texto entre computadoras

conectadas a una Red. Permite el envío y recepción de textos, datos, imágenes,

videos y sonidos. Almacena y distribuye por medios electrónicos, mensajes ahorrando
gasto y tiempo en la comunicación.
B.- Entre las actividades interactivas sincrónicas se encuentra el chat, este tipo de
actividad según los autores precitados en una conversación presencial sincrónica con
objetivos educativos, los interlocutores, que se comunican en forma verbal, tienen
marcadores visuales que van indicando los turnos de conversación. Esto permite por
una parte, que las interacciones progresivas se vayan ajustando en función de la
percepción de comprensión que se tiene de las participaciones del grupo y por la otra
facilita los procesos de realimentación instantánea. Por supuesto, que puede generar
consecuencias un tanto desfavorables cuando se realicen intervenciones poco
reflexionadas y con escaso fundamento teórico.
-El chat constituye un procedimiento o actividad de alta significancia para evaluar los
aprendizajes en los entornos virtuales de aprendizaje, este constituye una herramienta
interactiva por excelencia, que permite establecer diálogos de discusión, reflexión y
realimentación inmediata por parte del facilitador o de cualquier miembro del grupo de
discusión. El chat con fines pedagógico debe ser planificado, orientado y normado de
acuerdo a los propósitos que se pretendan alcanzar, igualmente se debe establecer
los criterios e indicadores bajo los cuales se basará la evaluación de los aprendizajes
en dicha actividad.
Para garantizar el éxito de esta actividad sincrónica, es de vital importancia que el

docente oriente cuidadosamente a los participantes en relación a: número de
participaciones, condiciones de dichas participaciones, número de estudiantes por
sesión, duración de la actividad, objetivos a lograr, temática específica que se tratará
en el mismo. Estos acuerdos permitirán que la actividad se desarrolle de la manera
más adecuada y que los participantes logren los propósitos establecidos en el curso.
Igualmente, al finalizar el chat el docente debe hacer un buen resumen de los
hallazgos, una realimentación bien adecuada y una valoración de los logros
alcanzados por cada participante.
-Los diarios electrónicos o weblogs constituyen una actividad o procedimiento

bastante útil para desarrollar prácticas evaluativas en los entornos virtuales, bajo la
concepción formadora, a través de ellos el alumno puede ir monitoreando sus
progresos, participaciones, avances en la temática en estudio. Igualmente sus
compañeros y el facilitador del curso, pueden acceder a los aportes que haga cada

uno de ellos, esto facilitará la toma de decisiones acertada en el momento de
coevaluar la participación de los participantes.
Para el aprovechamiento máximo de esta actividad es imprescindible establecer

previamente por consenso y negociación, los criterios que todos los participantes
tomarán como referencia para autoevaluarse y coevaluar a sus compañeros. En los
weblogs se pueden evaluar la participación activa, las competencias lingüísticas
escritas, la profundidad y pertinencia y calidad de los aportes y comentarios, el
enfoque que se le esté dando a la temática, el trabajo colaborativo, entre otros.
-El foro representa otra actividad o procedimiento muy utilizado para llevar a cabo la
evaluación de los aprendizajes en los entornos virtuales, este constituye una
herramienta valiosa y permite desarrollar un aspecto o tema específico, en él los
estudiantes y el facilitador irán nutriendo y generando el debate con el apoyo de los
planteamientos e intervenciones que se van produciendo.
El foro en línea permite enviar mensajes, recibir respuestas y realimentación, además

leer los aportes de los miembros de la comunidad virtual. Entendida ésta como un
grupo de miembros que permanecen reunidos con un compromiso intencional y
colectivo, para intercambiar información y/o construir conocimientos. “Los foros
virtuales representan una extraordinaria estrategia para favorecer el aprendizaje
colaborativo en estudiantes de niveles medio y superior, en tanto que estimulan su
participación. Por supuesto, tomando en consideración las competencias tutoriales del
mediador de estas actividades” (Colmenares y Castillo, 2009:58).
-Las Webquest resultan ser una interesante estrategia de uso de contenidos digitales,
puesto que permite el aprendizaje por descubrimiento guiado, significativo y
colaborativo. Consta de un conjunto de pasos fundamentales: introducción, tarea,
recursos, evaluación y conclusión. Webquest significa indagación, exploración,
investigación a través de la web. ¿En qué consiste una Webquest? En presentarle a
los estudiantes un problema, una guía del proceso de trabajo y un conjunto de
recursos preestablecidos accesibles a través de la WWW. ¿Cómo se trabaja? En
grupos pequeños, los estudiantes deben elaborar un trabajo (en papel o en formato
digital), utilizando los recursos ofrecidos en la Internet. Una webquest es una actividad
didáctica atractiva para los estudiantes, que les permite desarrollar un proceso de
pensamiento de alto nivel. El objetivo es trabajar con información: analizarla,
sintetizarla, comprenderla, transformarla, juzgarla, valorarla, etcétera, para crear nuevo
conocimiento y socializarlo.

-El Debate, Discusión acerca de una temática específica entre dos o más
participantes, quienes seleccionan, organizan, interpretan y comentan la información
que reciben. Es de carácter argumentativo y es guiada por un moderador que facilita el
aprendizaje y debe enseñar a aprender. Se deben conocer de antemano las
condiciones de participación y los criterios de evaluación que se aplicarán.
-Grabación de audio o video. El video permite registrar la imagen y el sonido en un

soporte y reproducirlos en una pantalla; se usa para comprender más fácilmente
temas abstractos, descripciones de procesos o experimentos al incorporar mediante
imágenes y sonido que pueden ser cápsulas, entrevistas, reportajes, dramatizaciones
u otros. Como instrumento para la evaluación sirve para la autoobservación y
autoevaluación (autoscopia) sobretodo de habilidades físicas o psicomotrices, permite
registrar fielmente la realidad, posibilita la comprensión inmediata de los resultados, y
la facilidad de manipular la grabación controlando la imagen a pacer.
El audio permite grabar charlas, conferencias, entrevistas y otros. Como instrumento

para la evaluación es utilizado para la reproducción, grabación y transmisión de
sonidos. Sirve para facilitar el desarrollo de la comprensión y expresión oral.
-MUD. Significa Multi User Dimension. Programa de computadora donde los usuarios
pueden introducirse y explorar, y tomar el control de un personaje computarizado
(avatar, encarnación, etc.).
-Videoconferencia. Comunicación (en tiempo real y en doble sentido) entre dos

puntos geográficamente separados utilizando señales de audio y vídeo. Permite la
interacción visual, auditiva y verbal; y compartir información, intercambiar puntos de
vista, mostrar y ver documentos, dibujos, gráficas, fotografías, imágenes de
computadora y videos, en el mismo momento.
-Wiki. Un Wiki es un sitio web colaborativo que puede ser editado por varios usuarios.
Los usuarios de una Wiki pueden así crear, editar, borrar o modificar el contenido de
una página web, de una forma interactiva, fácil y rápida dichas facilidades hacen de
una Wiki una herramienta efectiva para la escritura colaborativa. (Definición tomada de
Wikipedia). Principales características de los Wikis. En general permiten:
 La publicación de forma inmediata usando sólo el navegador web (Explorer,

Firefox, Mozilla, etc)

 El control de acceso y de permisos de edición. Pueden estar abiertos a todo el
mundo o sólo a aquellos que invitemos.
 Que quede registrado quién y cuándo se ha hecho la modificación en las

páginas del Wiki, por lo que es muy fácil hacer el seguimiento de
intervenciones.
 El acceso a versiones previas a la última modificación así como su

restauración, es decir queda guardado y con posible acceso todo lo que se va
guardando en distintas interconexiones y a ver los cambios hechos.
 Subir y almacenar documentos y todo tipo de archivos que se pueden enlazar

dentro del Wiki para que los alumnos los utilicen.
 Enlazar páginas exteriores e insertar audios, videos, presentaciones etc.
Técnicas de Evaluación Actividades

Criterio: La interacción Criterio: El tiempo
 Chat
Interactiva sincrónica  El debate
 Videoconferencia
 Foros
 Webquest
Interacción dialógica
virtual  Weblogs
 Correo electrónico
Interactiva asincrónica  Wiki
 Grabación Audio-
Video
 Los blogs-Bitácora
 MUD (Muli User

Dimension)
Análisis del discurso
escrito
Elaboración. Propia.

2.2. INSTRUMENTOS DE EVALUACIÓN
Es el soporte físico que se emplea para recoger información sobre los aprendizajes
esperados de los estudiantes. Todo instrumento provoca o estimula la presencia o
manifestación de lo que se pretende evaluar. Contiene un conjunto estructurado de
items los cuales posibilitan la obtención de la información deseada. El instrumento de
evaluación responde a la pregunta ¿Con qué se va a evaluar?
En el proceso de evaluación utilizamos distintas técnicas para obtener información, y

éstas necesitan de un instrumento que permita recoger los datos de manera confiable.
Los instrumentos de evaluación deben ser válidos y confiables: Son válidos cuando el
instrumento se refiere realmente a la variable que pretende medir. Son confiables en la
medida que la aplicación repetida del instrumento al mismo sujeto, bajo situaciones
similares, produce iguales resultados en diferentes situaciones (Hernández, 1997).
Por ahora, mostraremos los instrumentos que están siendo utilizados con mayor
frecuencia en la serie de documentos revisados, tanto en literatura física así como
también de literatura difundida por internet.
-Pruebas Automatizadas. Este tipo de herramientas o instrumentos de evaluación se

basan en programas automáticos que analizan las respuestas mediante herramientas
informáticas que implementan un algoritmo prefijado de corrección. Con estas
herramientas, se persigue la fiabilidad de la corrección en tanto que una misma
respuesta recibirá la misma evaluación todas las veces que se someta al automatismo.
Existen diferentes tipos de instrumentos que pueden encajar en esta clasificación, pero
la característica fundamental es que no precisan intervención humana, lo que los hace
especialmente adecuados para el uso en MOOC.
El MIT (Massachusetts Institute of Technology) está investigando para su plataforma

Edx varios sistemas de análisis de textos o AEG (Automated Essay Grading) (Markoff,
2013) para conseguir que los ensayos y las pruebas escritas sean también evaluados
automáticamente.
Sin embargo existe una gran cantidad de sistemas de este tipo funcionando
actualmente en el mercado, no hay que olvidar que las máquinas son mucho más
consistentes y pueden evaluar una gran cantidad de elementos en poco tiempo
(Ezeiza, 2013). Actualmente, combinan métodos algorítmicos de análisis gramatical

con análisis semánticos y métodos holísticos basados en búsquedas de textos. Por
ejemplo, el sistema Summary Street (Steinhart, 2000) compara resúmenes con el texto
original, o el Computer Learner Corpora (Granger, Hung, y Petch-Tyson, 2002) está
recopilando una base de datos de textos de estudiantes sobre los que comparar los
análisis. El e-rater (Attali y Burstein, 2006) combina análisis estadísticos y
procesamiento de lenguaje natural para contrastar los resultados con su base de
datos, analiza cuestiones gramaticales, marcadores de discurso y contenido léxico
utilizando unos 100 indicadores. Aseguran que sus resultados tienen una tasa de
acierto comparándolos con evaluadores humanos de entre el 84% y el 94%. Este
sistema es impulsado por la empresa ETS (Educational Testing Service) para
desarrollar el programa Criterion. ETS utiliza este sistema en algunas de las conocidas
pruebas TOEFL (Test Of English as a Foreign Language) emparejando máquina con
evaluador humano para algunas pruebas de evaluación, lo que supone un ahorro de
una importante suma de dinero (Knoch, 2009).
-Encuestas en línea. Un formulario en línea constituye una aplicación en internet por

medio de la cual se pueden generar encuestas. Este tipo de servicios permite
gestionar diversas clases de ítems o preguntas, además de mostrar los resultados de
la encuesta, en distintos formatos, una vez que el creador del formulario lo envió y que
llegaron las primeras respuestas de los participantes.
El atractivo de este tipo de servicios radica en que evita el manejo de múltiples

documentos vía correo electrónico.
El formulario en línea sistematiza los resultados, por lo que representa un gran ahorro
de tiempo y minimiza el error humano en la tabulación de los resultados de la
encuesta. En adición, presenta los resultados de forma instantánea, lo cual permite
acceder a la información en el momento que se requiera.
-Test online o eQuestions. Son el instrumento básico de evaluación extrapolado a la

era digital. Los eQuestions te permitirán evaluar el grado de asimilación de los
contenidos de una actividad formativa. Para su realización existen diferentes
herramientas algunas de ellas son: ProProfs, ClassMarker, Equizzer y
EasyTestMarker.
-Las rúbricas. En el contexto educativo, una rúbrica (rubric en inglés), también

llamada matriz de valoración, es un conjunto de criterios o de parámetros desde los
cuales se juzgan, valoran, califican y conceptúan determinados componentes del

proceso educativo (contenido curricular, trabajo escrito, proyecto, exposición oral,
etc.). Las rúbricas también pueden ser entendidas como pautas que permiten aunar
criterios, niveles de logro y descriptores cuando se trata de juzgar o evaluar un
aspecto del proceso educativo (Vera, 2004).
Existen dos tipos de rúbricas: comprensiva y analítica. En la rúbrica comprensiva, el

profesor evalúa la totalidad del proceso o producto sin juzgar por separado las partes
que lo componen. En la analítica, el profesor evalúa inicialmente, por separado, las
diferentes partes del producto o desempeño y luego suma el puntaje para obtener una
calificación total.
-E-Portafolo. Los portafolios han existido desde hace mucho tiempo en el mundo
profesional y se aplicaron en el sistema educativo como una metodología de
seguimiento de los aprendizajes con diferentes resultados según los modelos, como
bien nos muestra el trabajo de la doctora Helen Barrett, quien señala las prácticas de
los ePortafolios en un abanico de posibilidades que van desde meros recolectores de
resultados y productos hasta soportes para el seguimiento de los procesos de
aprendizajes. Enfoque este último de mayor consenso en casi la mayoría de los
estudios sobre la utilidad e impacto superiores que pueden significar los ePortafolios
en los aprendizajes, y que de alguna forma se reitera en la recopilación magnífica de
A. Jafari y C. Kaufman (2006), y es la capacidad de los ePortafolios para “envolver los
aprendizajes en la evaluación” y servir de “marco para el seguimientos de las
reflexiones de los estudiantes”.
Estas dos aportaciones de los ePortafolios marcan el perímetro de su definición, como

es: por un lado, su capacidad para diseñar, organizar, tomar decisiones y evaluar; y
por otro lado, sus posibilidades para recopilar experiencias, reflexionar sobre estas y
facilitar que el estudiante gestione su aprendizaje (Barrett, 2000; Agra, M., Gewerc, A.
y Montero, L., 2003; Hartnell-Young, E., 2007; Bahous, 2008; Barrett y Wilkerson,
2010).
Las aportaciones teóricas continúan surgiendo en la medida que las experiencias de

uso de los diferentes instrumentos se vienen realizando en los diferentes ámbitos
educativos desde el nivel básico hasta el nivel superior. A manera de presentar un
avance hemos tomado de EDUTEC. Revista Electrónica de Tecnología Educativa.
ISSN 1135-9250 Núm. 48 / Junio 2014, una clasificación de los instrumentos que está
basada en la interacción, pero que no necesariamente coincide con la clasificación
antes descrita en la sección trabajada de técnicas de evaluación.

-Herramientas basadas en automatismos
Este tipo de herramientas o instrumentos de evaluación se basan en programas

automáticos que analizan las respuestas mediante herramientas informáticas que
implementan un algoritmo prefijado de corrección. Con estas herramientas, se
persigue la fiabilidad de la corrección en tanto que una misma respuesta recibirá la
misma evaluación todas las veces que se someta al automatismo. Existen diferentes
tipos de instrumentos que pueden encajar en esta clasificación, pero la característica
fundamental es que no precisan intervención humana, lo que los hace especialmente
adecuados para el uso en MOOC.
-Herramientas basadas en la autoridad
Son aquellas herramientas en las que interviene un profesional o una persona versada
en la materia. Son muy difíciles de implementar en un MOOC, debido principalmente a
la gran cantidad de alumnos matriculados en el curso, por lo que este tipo de
evaluaciones requerirían de una cantidad ingente de tiempo del profesor o profesores.
Sin embargo, a veces se delegan estas correcciones en profesores asistentes que
dinamizan y apoyan a los estudiantes.
Cuando en lugar de corregir un profesor lo hace un amplio conjunto de profesores,

aparece el problema de la disparidad de criterios en la corrección, que puede provocar
que una misma respuesta reciba muy distintas evaluaciones dependiendo del miembro
del equipo docente que la evalúe, incluso, dependiendo del momento en que lo haga.
Para paliar este problema, es posible aplicar rúbricas muy sofisticadas de evaluación
que determinen un desarrollo más objetivo de las correcciones, se pueden
parametrizar los criterios e incluso apoyarse en descriptores, pero al final, el ser
humano evalúa en gran medida basándose en la intuición. Algunos autores piensan
que es más relevante la experiencia de los evaluadores, su origen o sus
conocimientos que cualquier descriptor o rúbrica que se determine, y por eso, más que
dedicar horas y estudios a construir escalas fiables y válidas, les parece más rentable
gastar ese dinero y esfuerzo en la preparación de las personas que vayan a evaluar
las pruebas, su grado de acuerdo y la forma en la que manipulan esas escalas
(Ezeiza, 2013).
-Herramientas basadas en la interacción social
Sin lugar a dudas el potencial comunicador de las redes sociales está todavía por
descubrir y debe ser estudiado más en profundidad (Guerrero, 2010). Ahora es el

momento en que se está comenzando a introducir este potencial en el sistema
educativo y aprovechar al máximo las oportunidades que nos brindan las redes
sociales, no solamente en cuanto a los MOOC se refiere sino también como
herramienta de apoyo a las clases tradicionales.
Técnicas de Evaluación Actividades Instrumentos

Criterio: La Criterio: El
interacción tiempo
 Chat  Rúbricas
Interactiva
 El debate  E-Portafolio
sincrónica
 Videoconferencia
 Foros
Interacción  Webquest
dialógica
 Weblogs
virtual
 Correo electrónico
 Wiki
Interactiva  Grabación Audio-

asincrónica Video
 Los blogs-Bitácora
 MUD (Muli User

Dimension)
Análisis del  Pruebas
discurso automatizadas
escrito
 Encuestas en línea
 Test online o
eQuestions
Elaboración. Propia.

3. CÓMO SELECCIONAR INSTRUMENTOS DE EVALUACIÓN
Este apartado ha sido tomado de Covacevich, Catalina. “Cómo seleccionar un

instrumento para evaluar aprendizajes estudiantiles” (2014)-Nota Técnica del BID, que
a nuestro entender precisa muy bien los criterios a ser considerados para la elección
de los instrumentos.
3.1 Coherencia entre el objetivo de evaluación y el instrumento escogido
Una consideración fundamental para escoger un instrumento de evaluación de

aprendizajes es que sea adecuado para el propósito de la evaluación. En esta sección
se comienza por describir algunos posibles objetivos de evaluación, para luego
abordar los elementos que deben revisarse en un instrumento para ver si son
coherentes con el objetivo de evaluación.
A. Para qué queremos evaluar.
Determinar el objetivo o propósito de evaluación implica hacerse las preguntas ¿para

qué queremos medir aprendizajes?; ¿qué es lo que queremos medir? y ¿a quiénes
queremos evaluar? Los posibles motivos para evaluar aprendizajes son muchos. A
continuación se identifican algunos de ellos, agrupados en objetivos evaluativos para
el sistema educativo en su totalidad, la escuela o el estudiante.
 Obtener información a nivel de sistema educativo
Tomar una fotografía de cómo está un sistema educativo. Para poder tomar decisiones
de política educativa, un sistema educativo, ya sea a nivel nacional, estatal o
municipal, puede necesitar información sobre cómo los estudiantes están logrando los
objetivos de aprendizaje propuestos. Para esto, lo más apropiado es diseñar una
prueba que evalúe el currículo nacional (o local), en las asignaturas y grados que se
consideren más relevantes. En general estas pruebas se aplican al final de los ciclos
escolares, para medir los logros esperados para cada ciclo, pero en algunas ocasiones
puede ser apropiado tener alguna medición intermedia, para conocer el grado de
avance en las metas de aprendizaje y poder intervenir a tiempo, por ejemplo en etapas
tempranas de la adquisición de la lectoescritura.
Si solo se desea obtener información agregada de lo que está sucediendo con el

conjunto de escuelas o estudiantes, basta con realizar una evaluación muestral, es
decir, no es necesario aplicar las pruebas a todas las escuelas ni estudiantes sino solo

a una muestra representativa de ellos, lo que hace la evaluación más barata y
simplifica los procesos logísticos. Si también se desea información específica a nivel
de escuela o de estudiante, y no solo del sistema educativo en su totalidad, la
evaluación debe ser censal, es decir, aplicada a todos los estudiantes y escuelas.
En general las pruebas nacionales demoran varios meses en entregar los resultados,
por lo que no permiten tener información de manera inmediata, sino al año escolar
siguiente.
 Comparar con otros países.
En ocasiones, más que querer evaluar el desempeño de los estudiantes de un país

contra su currículo nacional, se desea tener información de cuánto están aprendiendo
los estudiantes del país en comparación con los de otros países. Para esto, un país o
subsistema nacional puede participar de los estudios internacionales tales como PISA
(Programme for International Student Assessment), TIMSS (Trends in International
Mathematics and Science Study), PIRLS (Progress in International Reading Literacy
Study) y la pruebas TERCE (Primer, Segundo y Tercer Estudio Regional Comparativo
y Explicativo ) del Laboratorio Latinoamericano de Evaluación de la Calidad Escolar -
LLECE-. Todos estos estudios evalúan aprendizajes de estudiantes a nivel escolar en
un conjunto de países (o subsistemas nacionales), lo que permite compararlos contra
un marco de evaluación conocido y acordado por los países participantes. Cada
estudio mide diferentes asignaturas, en grados diferentes y con énfasis diferentes. Por
ejemplo, tanto PISA como TIMSS evalúan matemáticas y ciencias, pero mientras
TIMSS lo hace en estudiantes de 4º y 8º grado y con un enfoque curricular, PISA lo
hace en estudiantes de 15 años, con un enfoque de habilidades para la vida. En el
caso de TERCE, solo se evalúan países de Latinoamérica, mientras que en los otros
estudios nombrados participan países de diversos continentes.
Estos estudios además recogen información de los estudiantes y los sistemas

escolares que permite identificar las variables que más inciden en los aprendizajes, y
también sirven para comparar el currículo nacional con el marco de evaluación del
estudio, lo que en ocasiones lleva a realizar adaptaciones en los currículos.
Estos estudios son muestrales, ya que se levanta información a nivel del sistema y no
de cada escuela, y son conducidos por organismos internacionales de renombre,
como La Organización para la Cooperación y el Desarrollo Económicos (OCDE), La
Asociación Internacional para la Evaluación del Logro Educativo (IEA) y La

Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura
(UNESCO). Son elaborados, administrados y analizados bajo estrictos estándares de
calidad que aseguran que los resultados de los países sean comparables.
En general la participación de un país en un estudio internacional toma al menos tres

años, ya que el primer año se diseñan y pilotean los instrumentos, al año siguiente se
administran y en general recién al año siguiente se liberan las bases de datos y
entrega el informe internacional. Ya que no se obtienen resultados inmediatos son
útiles para diseño de políticas a mediano y largo plazo, no en el corto plazo.
 Medir la evolución de un sistema a lo largo del tiempo.
Tanto las evaluaciones nacionales como las internacionales permiten obtener una
fotografía de cómo están los logros de aprendizaje en un momento puntual, pero
también pueden servir para monitorear el avance en el nivel de aprendizaje a lo largo
del tiempo. Por este motivo estas pruebas se administran de manera periódica, en
general de manera anual en el caso de las pruebas nacionales, y en ciclos de tres o
más años en el caso de las internacionales. Esto permite ir viendo avances en el
aprendizaje promedio de cada país y también identificar otras tendencias, como si han
disminuido las brechas de género o entre grupos socioeconómicos, o si se evidencian
mejoras en ciertas áreas temáticas o en determinados tipos de escuelas después de
algunas intervenciones puntuales, como podrían ser cambios en el currículo o
intervenciones en ciertos grupos de escuelas. En el caso de los estudios
internacionales también se puede comparar el progreso (o falta de progreso) de un
país con los avances que otros países han tenido en el mismo periodo.
 Obtener información a nivel de escuela
En otras ocasiones se desea obtener información de los aprendizajes que se están

logrando a nivel de cada escuela. Esto puede deberse a objetivos muy diferentes,
tales como retroalimentar al equipo docente y directivo para mejorar los aprendizajes,
la rendición de cuentas de quienes son responsables del desempeño de la escuela,
informar a los padres y comunidad del desempeño de una escuela, o evaluar el
impacto de determinados programas en ciertas escuelas. Muchas veces las
evaluaciones a nivel de escuela son conducidas por el gobierno nacional o local, pero
también pueden ser ejecutadas por otros organismos, por ejemplo universidades que
son contratadas para evaluar la efectividad de algún programa, o incluso por una
escuela o grupo de escuelas, que quieren evaluarse a sí mismas para poder

monitorear su desempeño y mejorar sus prácticas. Según el objetivo que se tenga en
mente, puede ser o no relevante para la evaluación poder realizar comparaciones
entre las escuelas evaluadas.
El contenido de las evaluaciones a nivel escuela varía según el objetivo evaluativo: en

la mayoría de los casos probablemente se quiera evaluar el currículo nacional, pero en
otros puede ser relevante poner el foco con más detalle en algún elemento específico
del currículo en que se sabe que hay debilidades, o en el caso de la evaluación de
algún programa, puede ser pertinente focalizarse en los elementos específicos que
ese programa buscaba promover.
En ocasiones las pruebas nacionales están diseñadas para entregar información por
escuela, en otras puede ser necesario diseñar pruebas especiales, ya sea porque esta
información no está disponible o porque el foco de la evaluación nacional no es el más
adecuado para el objetivo de evaluación.
 Obtener información a nivel de estudiante
En algunos casos se busca obtener información a nivel del estudiante. Esto puede
darse como parte del proceso de mejoramiento continuo del sistema, para poder
identificar las debilidades de un determinado estudiante y que sus profesores y padres
lo puedan apoyar. En otros contextos se aplican pruebas que certifican los
aprendizajes logrados, por ejemplo pruebas de fin de ciclo, como podría ser el caso de
una licencia de secundaria o un examen profesional, o una prueba que certifique un
determinado nivel de dominio de un idioma extranjero. Los instrumentos de
aprendizaje individuales también pueden ser utilizados para seleccionar estudiantes,
por ejemplo las pruebas de selección universitaria. En otras ocasiones, se evalúa a los
estudiantes al comienzo de un año escolar o programa educativo, para tener un
diagnóstico de sus debilidades y fortalezas y poder reforzar los elementos necesarios
o hacer cursos de nivelación.
B. Alineación entre los objetivos de evaluación y el instrumento
Un elemento fundamental al momento de escoger un instrumento de evaluación de

aprendizajes es que sea adecuado para el o los objetivos de la evaluación. Este
alineamiento es crucial porque se relaciona con la utilidad de la información que se
obtendrá. Si el alineamiento es bajo, los resultados de la evaluación entregarán poca o
limitada información (Center for Assessment and Research, James Madison

University, 2014). Para esto, se debe revisar el objetivo, contenido y población objetivo
declarados por el instrumento y asegurarse que se alinean con el propósito de
evaluación.
 Alineación de los propósitos
Una primera pregunta es para qué propósito fue diseñado el test, y si calza con el
propósito de evaluación (Ministerio de Educación de Nueva Zelandia, 2014). Los
propósitos de un instrumento pueden ser varios, tales como realizar un diagnóstico,
medir logro, medir potencial o aptitud, o identificar preparación para un cierto programa
o etapa escolar (llamado placement testing en inglés), que también se pueden utilizar
para ubicar a un estudiante en un cierto programa o track de aprendizaje (Cohen,
Manion y Morrison, 2000).
Algunos instrumentos están diseñados para realizar evaluaciones diagnósticas,

formativas, o sumativas. La evaluación diagnóstica es una evaluación en profundidad
en las debilidades y fortalezas de un estudiante. En general incluye muchos ítems que
profundizan en un solo tema, para poder identificar con exactitud las dificultades de
aprendizaje, y es referida a criterios. La evaluación formativa, en cambio, ocurre
durante un año escolar o programa y está diseñada para para monitorear el progreso
del estudiante durante ese periodo, para medir logros de secciones específicas del
currículo, para diagnosticar debilidades y fortalezas. En general está referida a
criterios. La evaluación sumativa se aplica al final del curso o programa, y está
diseñada para medir logros o outcomes. Puede ser referida a normas o a criterios,
dependiendo hasta cierto punto del uso que se le dará a la evaluación (por ejemplo,
entregar certificados o grados) (Cohen, Manion y Morrison, 2000). Por lo tanto, si el
objetivo de evaluación es realizar un diagnóstico, probablemente un instrumento
diseñado como evaluación formativa no sea lo más apropiado.
 Alineación de los contenidos
Una segunda pregunta es qué es lo que el instrumento mide y si esto calza con lo
que se quiere evaluar. Este análisis no es algo general, como por ejemplo,
“habilidades matemáticas en primaria”. Hay que mirar en detalle el contenido del test,
los niveles de aprendizaje que cubre, y el o los grupos etarios a los que está orientado,
y compararlo minuciosamente con los objetivos de evaluación. Por ejemplo, para una
evaluación el propósito puede ser evaluar la implementación del currículo nacional de
matemática, el que puede o no tener elementos en común con una prueba de

matemática diseñada para su uso universal, ya que el currículo puede tener ver con
medir aprendizajes de geometría, mientras que un test puede tenerlo en aritmética. Es
muy importante analizar en detalle el contenido de la prueba, y ver si cubre
adecuadamente los contenidos que se quieren evaluar, y además comprobar que no
evalúe elementos que no son parte del objetivo de evaluación. Este análisis se vuelve
a abordar en la sección referida a los argumentos sobre la evidencia basada en el
contenido, en la sección sobre la validez del instrumento.
También es necesario mirar en detalle el contenido del instrumento para asegurarse

de que sea adecuado al nivel cognitivo, de lectura, y otras habilidades, de los
evaluados. Por ejemplo, pruebas que requieran un nivel lector avanzado no pueden
ser administrado a usuarios con poca comprensión lectora (Timmons et al, 2005).
 Alineación de la población objetivo
Un tercer elemento a tomar en cuenta es la coherencia entre la población para la que

fue diseñado el instrumento y la que se desea evaluar. En el caso de las pruebas
relativas a normas, también hay que revisar para qué población fueron construidas
estas normas (Ministerio de Educación de Nueva Zelandia, 2014).
En los comienzos de la evaluación, aunque muchos de los instrumentos publicados

estaban diseñados expresamente para una población específica, estos se
administraban - inapropiadamente- a personas de diferentes culturas. Y, de manera no
sorprendente, los evaluados pertenecientes a minorías tendían a obtener puntajes
más bajos que aquellos para quienes fue desarrollado el instrumento. Por ejemplo, un
ítem del test WISC de 1949 preguntaba: “si tu madre te manda al almacén por una
barra de pan, y no hay ninguna, ¿qué haces?” Muchos niños latinos iban seguido a
comprar tortillas, pero no pan, y por lo tanto no entendían la pregunta ni sabían qué
responder (Cohen y Swerdlik, 2009).
Hoy en día, los desarrolladores de instrumentos toman muchas precauciones para que
estos sean adecuados para la población para la que fueron diseñados. Por ejemplo,
que una prueba diseñada para uso nacional, efectivamente sea apropiado para la
población nacional. Estas precauciones pueden incluir: administrar una versión piloto a
estudiantes de diferentes características; preguntarle sus impresiones a los
examinadores, por ejemplo, sus opiniones subjetivas sobre la calidad de las
instrucciones; analizar los ítems para ver si presentan sesgo racial, cultural, o de
género; o pedirle a un panel de expertos que revisen los ítems buscando posible

sesgo (Cohen y Swerdlik, 2009). También los estudiantes con necesidades educativas
especiales pueden presentar dificultades, lo que se aborda en la sección referida a
ética.
A veces existen versiones adaptadas de instrumentos que originalmente fueron

diseñados para otra población. Muchas veces en países latinoamericanos se utilizan
versiones adaptadas de instrumentos diseñados en Estados Unidos. Estas
adaptaciones incluyen la construcción de normas para la población de ese país
específico y pueden haber sido realizadas por los mismos diseñadores del test o en
otras ocasiones, por universidades locales u otras instituciones dedicadas a la
investigación. En ocasiones, es posible basarse en la versión adaptada para un país
vecino, pero hay que revisar exhaustivamente los ítems y hacer una prueba piloto para
ver si las adaptaciones son adecuadas para la población específica que se requiere
evaluar.
3.2 Calidad de los instrumentos.
Otro importante aspecto que surge al analizar un instrumento es su calidad técnica.

Cuanto mejor es la calidad de un instrumento, más útil será, más confianza se le
puede tener a los puntajes obtenidos y mayor será la confianza para tomar decisiones
a partir de estos resultados, por lo que es imperativo usar instrumentos de alta calidad
al hacer evaluaciones (Center for Assessment and Research, James Madison
University, 2014). Los dos principales elementos que dan cuenta de la calidad de un
instrumento son su validez y su confiabilidad.
A. Validez
 Evolución del concepto validez
El concepto de validez ha ido sufriendo transformaciones a lo largo del tiempo.

Tradicionalmente, la validez de un instrumento se ha entendido como hasta qué punto
el instrumento efectivamente mide lo que sus autores declaran que mide (Cohen,
Manion y Morrison 2000; Darr, 2005). Sin embargo, más recientemente los
especialistas en evaluación han considerado que la validez no es una propiedad fija e
inherente del instrumento, sino que es un juicio, basado en evidencia, sobre qué tan
apropiadas son las inferencias realizadas o acciones implementadas a partir de los
puntajes de una prueba en un determinado contexto (Salvia & Ysseldyke, 2004; Cohen
y Swerdlik, 2009). Entonces, la validación puede ser vista como el desarrollo de un

argumento de validez sólido para los usos propuestos de los puntajes de un
instrumento y su relevancia para el uso propuesto (Joint Committee on Standards for
Educational and Psychological Testing of the American Educational Research
Association, American Psychological Association and National Council on
Measurement in Education, 1999)8 . Definida de esta manera, la validez no es una
propiedad inherente al instrumento, sino que se relaciona con el objetivo de
evaluación.
Ya que lo que se juzga no es en realidad la validez del instrumento ni de sus puntajes,

sino la de la interpretación de los resultados del test para determinados usos, cuando
se pretende usar un test de varias maneras, la validez de cada uso se debe analizar
de forma separada (Joint Committee on Standards for Educational and Psychological
Testing, 1999).
En consecuencia, si un test es válido para un determinado grupo o población, no

necesariamente lo será para otros. Por ejemplo, si un test de razonamiento espacial
diseñado para estudiantes con un nivel de lectura de 8º grado, es aplicado a un
estudiante con habilidad lectora de 4º grado, sus resultados pueden reflejar tanto su
nivel lector como su capacidad de razonamiento espacial.
Esta nueva manera de entender la validez está muy relacionada con la evaluación de
programas, en que es necesario especificar el programa que se evaluará, los
contextos en que se implementará, se deben descartar variables externas que puedan
afectar los resultados, y porque muchas veces los programas se evalúan más con un
conjunto de evaluaciones que con un estudio aislado. De la misma manera, se puede
entender la validez como una evaluación integral de los usos propuestos para la
evaluación, generando un análisis coherente de toda la evidencia a favor y en de dicho
uso y si es posible, sobre explicaciones alternativas (Cohen y Wollak, 2006).
Algunas preguntas relativas a la validez de un test se cuestionan la calidad de sus

ítems: ¿Los ítems son una muestra adecuada del constructo que se quiere evaluar?
También hay preguntas relativas a la interpretación de los resultados: ¿Qué nos dicen
estos puntajes? ¿Cómo se relacionan los puntajes altos o bajos con el
comportamiento de los evaluados? ¿Cómo se relacionan estos puntajes con los de
otros instrumentos que dicen medir lo mismo? (Cohen y Swerdlik, 2009).
La validez debería estar como prioridad al diseñar o seleccionar instrumentos para la

evaluación de aprendizajes. Es crítico que la evaluación permita hacer juicios sobre los

progresos de los estudiantes que sean robustos y útiles, y tengan consecuencias
positivas. Estar consciente de la validez y de cómo esta se puede ver amenazada
puede ayudar a tomar decisiones sobre qué evaluaciones vale la pena hacer y qué
usos se les puede dar a estas evaluaciones (Darr, 2005).
 ¿Quién es responsable por la validez?
Es responsabilidad del desarrollador del test entregar evidencia sobre la validez de su

instrumento, especificando la población en la que fue validado. Pero es
responsabilidad del usuario evaluar si el instrumento es apropiado al contexto
particular en que lo aplicará. En ocasiones, puede ser apropiado que el usuario
conduzca estudios extras de validación local. Esta validación local se vuelve
imprescindible cuando se planea hacer alguna modificación al instrumento en sus
instrucciones, idioma del instrumento, o si se pretende aplicarlo a una población que
sea significativamente diferente a aquella en que el test fue estandarizado, o si se le
quiere dar un uso diferente de aquello para que fue diseñado (Joint Committee on
Standards for Educational and Psychological Testing, 1999; Cohen y Swerdlik, 2009).
 ¿Cómo se mide la validez?
Juzgar si un instrumento es válido no es algo que pueda ser medido en una escala
absoluta. Frecuentemente se categoriza la validez como débil versus aceptable lo que
refleja un juicio sobre qué tan adecuadamente el test mide lo que se supone que mide
(Cohen y Swerdlik, 2009). Otros autores, como Darr (2005), sugieren que se
categorice como débil, moderada, o fuerte.
Ya que la validez está referida a inferencias y decisiones hechas para un grupo

específico en un contexto específico, para juzgar la validez de un instrumento se
requiere reunir mucha información (Darr, 2005). Existen diferentes enfoques,
orientados a probar diferentes tipos de validez. Estos enfoques no son mutuamente
excluyentes, y todos contribuyen a la validez total, aunque según el uso que se le
quiera dar al test pueden tener distinta relevancia (Cohen y Swerdlik, 2009).
Clásicamente, se habla de validez de constructo, contenido y criterio. Distintos autores
hacen distintas clasificaciones de los tipos de validez que se deben considerar, por
ejemplo validez de constructo, contenido, ítem, predictiva, “face”, relativa a criterios,
concurrente, etc, aclarando que no es necesario usar siempre todas las formas de
validez (Wilson, 2005). En este documento se utilizará el enfoque propuesto en los
Estándares para la Evaluación Educativa y Psicológica (Joint Committee on Standards

for Educational and Psychological Testing, 1999), en que más que hablar de tipos de
validez, se habla de tipos de evidencia sobre la validez, o líneas de evidencia, basadas
en el contenido del test, los procesos de respuesta, la estructura interna, las relaciones
con otras variables, y las consecuencias (Joint Committee on Standards for
Educational and Psychological Testing, 1999; Wilson, 2005). Estos tipos de evidencia
se describen en el siguiente cuadro.
Cuadro 1.
Tipos de evidencia sobre la validez
Evidencia En los tests no se pueden evaluar todos los conocimientos de los estudiantes,
basada en sino solo una muestra de ellos, por lo tanto es muy importante que esta sea una
el muestra adecuada del área de aprendizaje que interesa evaluar. Si esto se
contenido logra, aumenta nuestra posibilidad de hacer inferencias válidas sobre los logros
de aprendizaje en un cierto dominio (Darr, 2005). Este tipo de evidencia
requiere mirar el contenido del instrumento para analizar la relación con el
constructo que se quiere medir (Joint Committee on Standards for Educational
and Psychological Testing, 1999; Cohen y Swerdlik, 2009). Para saber qué es lo
que un test mide, no basta con guiarse por el nombre, es fundamental mirar los
ítems que lo componen (Center for Assessment and Research, James Madison
University, 2014). Se puede analizar cada ítem en relación con el dominio, o
pedir la opinión de expertos sobre qué tan adecuadamente estos abordan el
dominio (Joint Committee on Standards for Educational and Psychological
Testing, 1999). Si un instrumento es bueno, tendrá ítems que evalúen diferentes
aspectos del tema evaluado, y expertos en el área, que no están familiarizados
de antemano con los ítems, estarán de acuerdo en qué evalúa cada ítem.
Existen dos riesgos que deben ser evitados. Uno es la sub-representación del
constructo, es decir, que elementos importante del constructo que se quiere
evaluar no estén siendo evaluados. El otro es la varianza relacionada con
constructos que son irrelevantes para lo que se está midiendo, por ejemplo en
una prueba de lectura, el conocimiento previo del tema o la respuesta
emocional frente al texto, o en un test de matemática, la velocidad de lectura o
el vocabulario (Joint Committee on Standards for Educational and Psychological
Testing, 1999).

Evidencia Los análisis teóricos y empíricos sobre los procesos de repuesta de los
basada en examinados pueden entregar información sobre la relación entre estos procesos
los y los constructos que se desean evaluar. Por ejemplo, si un test busca evaluar
procesos razonamiento matemático, es importante que el test efectivamente evalúe eso y
de no simplemente la aplicación de algoritmos. Observar estrategias de respuesta
respuesta o entrevistar a los examinados sobre los procesos puede entregar esta
información (Joint Committee on Standards for Educational and Psychological
Testing, 1999).
Evidencia Este análisis busca recoger evidencia sobre el grado en que las relaciones
basada en entre los ítems de un test y sus componentes se adecúan al constructo que
la supuestamente buscan evaluar, el que puede implicar una sola dimensión, o
estructura varias. Para mirar esto se puede revisar si los ítems efectivamente cumplen con
interna el mapa de contenidos. Si el constructo tiene una sola dimensión, esto también
se puede probar a través del análisis de ítems (por ejemplo, que a los
estudiantes con un buen desempeño en el total de la prueba, obtengan un buen
desempeño en el ítem). Otra forma de mirarlo es comprobar que los ítems
funcionen de manera diferente en distintos grupos, de acuerdo a lo que predice
la teoría (Joint Committee on Standards for Educational and Psychological
Testing, 1999)
Evidencia Este tipo de evidencia se desglosa en validez convergente y

basada en discriminatoria. La evidencia relativa a la validez convergente implica
relaciones comparar los resultados obtenidos en un determinado test con los
con otras obtenidos por los mismos estudiantes en tests que midan el mismo
variables constructo, o constructos similares. Se espera que los puntajes de un
cierto instrumento se correlacionen con otros que declaran medir
constructos iguales o parecidos (Wilson, 2005; Joint Committee on
Standards for Educational and Psychological Testing, 1999): si dos
evaluaciones que supuestamente miden el mismo constructo están

entregando resultados muy diferentes, es motivo de preocupación (Darr,
2005). Una posible dificultad es que muchas veces no existen otros
instrumentos parecidos (Wilson; Joint Committee on Standards for
Educational and Psychological Testing, 1999).
La evidencia relativa a la validez discriminatoria se obtiene comparando

los resultados obtenidos en el test con otras evaluaciones que midan
constructos opuestos o diferentes. En este caso, se espera que los
puntajes se correlacionen poco con los de tests que declaran medir
constructos diferentes (Wilson, 2005; Joint Committee on Standards for
Educational and Psychological Testing, 1999)
Evidencia Más allá de toda la información técnica recogida, si el uso de una evaluación en
basada en particular tiene o puede tener consecuencias negativas, o las consecuencias de
las usar sus resultados pueden ir en contra del objetivo educativo final, es una
consecuenc consideración que debe tomarse en cuenta para cuestionarse la validez de un
ias instrumento y decidir si usarlo o no (Darr, 2005; Wilson 2005; Joint Committee on
Standards for Educational and Psychological Testing, 1999). Esta es la validez
desde el punto de vista de las consecuencias de usar los resultados de los tests.
Por ejemplo, el peso que se le dé a los resultados puede tener un impacto en las
maneras de enseñar y aprender. Algunas de las consecuencias negativas pueden
ser estrechamiento curricular, “teaching to the test” o reducción en la motivación de
los estudiantes (Darr, 2005). Para analizar este tipo de evidencia es necesario
considerar tanto los efectos intencionados como los no intencionados de los tests
(Wilson 2005; Joint Committee on Standards for Educational and Psychological
Testing, 1999). También es necesario analizar si las consecuencias indeseables se
deben al constructo que se quiere medir, o al instrumento específico que se está
utilizando para pedirlo. Para poder dilucidar esto se debe ver si otro instrumento
que mida el mismo constructo presenta las mismas consecuencias indeseables. Si
este es el caso, es más probable que el problema se deba al constructo que al
instrumento (Wilson, 2005).
Por último, hay que distinguir las consecuencias que tienen que ver con decisiones
de política educativa, pero no necesariamente con la validez. En general, la
evidencia relacionada con consecuencias se relaciona directamente con la validez

si tiene que ver con la sub representación de un constructo o con la irrelevancia de
constructo descritas anteriormente (Wilson, 2005; Joint Committee on Standards
for Educational and Psychological Testing, 1999).
B Confiabilidad
 ¿Qué es la confiabilidad?
La confiabilidad se refiere a la consistencia con que el instrumento mide, o visto de

otro modo, al grado de error presente en la medida (Cohen y Swerdlik, 2009). Un test
confiable entrega resultados consistentes a lo largo del tiempo. Por ejemplo,
estudiantes con el mismo nivel de comprensión lectora que toman un test de
compresión lectora tendrán puntajes similares o idénticos, sin importar cuándo lo
tomen, asumiendo que su nivel de comprensión lectora no ha variado (Timmons,
Podmostko, Bremer, Lavin y Wills, 2005).
En teoría, un instrumento perfectamente confiable mide siempre de la misma manera

(Cohen y Swerdlik, 2009). Por ejemplo, un termómetro. Sin embargo, en realidad la
evaluación educativa nunca está libre de algún grado de error, ya que un mismo
individuo no siempre rinde de la misma manera y las condiciones externas también
pueden inducir a error (Joint Committee on Standards for Educational and
Psychological Testing, 1999).
Para mirar la confiabilidad, al igual que la validez, hay que entenderla en contextos y
propósitos evaluativos específicos. Sin embargo, ya que la confiabilidad remite a
cuánta variación es esperable entre una medición y otra, se entiende de una manera
más estrechamente estadística que la validez, que refiere a la naturaleza de los
atributos siendo medidos (Haertel, 2006).
 ¿Quién es responsable por la confiabilidad?
Los sitios web o los manuales de los instrumentos deben especificar su confiablidad.
Si no lo hacen sus resultados deben tomarse con mucha cautela y no usarse para
tomar decisiones de alto impacto (Timmons et al, 2005).
La información que debe presentarse es la identificación de las principales fuentes de

error, resúmenes estadísticos que cuantifiquen el tamaño de estos errores, y el grado
de generalizabilidad de los puntajes entre distintas formas, puntuadores,

administradores, y otras dimensiones relevantes. También una descripción de la
población con el que fueron hechas estas estimaciones. Es necesario que haya
bastante detalle para juzgar si la confiabilidad es adecuada, ya que no existe un índice
único, aplicable a cualquier situación (Joint Committee on Standards for Educational
and Psychological Testing, 1999)
 ¿Cómo se mide la confiabilidad?
Se han desarrollado varios marcos teóricos estadísticos importantes para analizar la

confiabilidad. Los principales son la teoría clásica de medición, la teoría de
generalizabilidad, y la teoría de respuesta al ítem (TRI) (Haertel, 2006). Según cuál de
estos enfoques se utilice, la confiabilidad se calcula de maneras distintas y también la
información puede ser reportada de diversas maneras: como varianza o desviaciones
estándares de errores de medición, como uno o más coeficientes, o como funciones
de TRI (Joint Committee on Standards for Educational and Psychological Testing,
1999; Cohen y Swerdlik, 2009). Estos diferentes enfoques se describen en los
siguientes cuadros.
Cuadro 2.
Marcos teóricos para analizar la confiabilidad
Teoría Desde la teoría clásica, los enfoques más típicos para analizar la confiabilidad
clásica son: coeficientes derivados de la administración de formas paralelas en
sesiones independientes, coeficientes obtenidos por la administración del
mismo instrumento en ocasiones separadas (conocido también como “test re-
test”, o “coeficiente de estabilidad” ) y coeficientes basados en la relación entre
puntajes derivados de ítems individuales o subtests dentro de un test,
información que es obtenida de la misma administración (conocido también
como “coeficiente interno”, o “inter ítem”) (Joint Committee on Standards for
Educational and Psychological Testing, 1999; Cohen y Swerdlik, 2009). El
coeficiente de confiabilidad más usado en teoría clásica es el Alpha de
Cronbach, que pertenece a esta última categoría. Alpha se desarrolló en 1951
para entregar una medida de la de la consistencia interna de un test o una
escala, es decir, identificar cuánto los ítems miden el mismo concepto, por lo
tanto si un test tiene varias escalas puede ser más apropiado usar alpha en
forma separada para cada escala. Si los ítems se correlacionan entre sí, al valor
de alpha aumenta. Pero este valor puede aumentar también por la cantidad de
ítems (Webb, Shavelson & and Haertel, 2006). Sus valores posibles se mueven

entre 0 y 1. En general un alpha de .7 o más se considera aceptable (Institute
for Digital Research and Education, UCLA, n.d.), por ejemplo para la evaluación
de programas (Center for Assessment and Research, James Madison
University, 2014), pero si los resultados tendrán consecuencias individuales es
mejor obtener valores superiores a .8 (Webb, Shavelson & and Haertel, 2006).
Teoría de la La teoría clásica asume que el puntaje observado es la suma del puntaje verdadero
generalizabi y algún error residual específico de ese puntaje. En cambio, la teoría de
lidad generalizabilidad en vez de usar el puntaje verdadero, asume un universo de
generalización compuesto por todas las posibles observaciones consideradas
equivalentes (Brenan, 2006, Haertel, 2006). Los coeficientes utilizados por la teoría
de generalizabilidad permiten especificar y estimar los diversos componentes de la
verdadera varianza del puntaje, la varianza del error, y varianza del puntaje
observado (Joint Committee on Standards for Educational and Psychological
Testing, 1999). Se pueden realizar dos tipos de estudios, de generalizabilidad (G-
Study) y de decisión (D-Study). Una herramienta de análisis habitualmente utilizada
es ANOVA, así como el programa computacional GENOVA.
Teoría de La TRI es una familia de modelos estadísticos usados para analizar los datos
respuesta de ítems de tests, entregando un proceso estadístico unificado para estimar
al ítem características de los ítems y los individuos examinados y definir cómo estas
características interactúan en el desempeño en los ítems y el test. IRT tiene
muchos posibles usos en evaluación, entre ellos construcción de ítems,
escalamiento, equating, estándar setting, y puntuación. A partir de los '90 ha
sido utilizada en la mayoría de las evaluaciones estudiantiles a gran escala.
Existen diferentes modelos TRI pero su esencia común es una descripción
estadística de la probabilidad de que un examinado con determinadas
características tenga una determinada respuesta a un ítem individual, que a su
vez tiene características particulares. Las maneras de calcular la confiabilidad
bajo TRI toman en cuenta las características del individuo y de los ítems (Yen &
Fitzpatrick, 2006). Al usar TRI muchas veces se utiliza la función de información
del test como medida de confiabilidad. Esta resume qué tan bien el test
discrimina entre individuos de diversos niveles en el rasgo siendo evaluado

(Joint Committee on Standards for Educational and Psychological Testing,
1999).
Estos tres enfoques se refieren a la confiabilidad del instrumento, pero las fuentes de
varianza en la medición también pueden darse en la puntuación e interpretación de los
instrumentos. Por ejemplo, cuando el proceso de puntuación requiere mucha
participación de puntuadores (lo que sucede en los ítems de respuesta abierta), en
general se obtienen puntajes de consistencia entre jueces, que es otra forma de
analizar la confiablidad (Joint Committee on Standards for Educational and
Psychological Testing, 1999; Cohen y Swerdlik, 2009).
C Estandarización y su importancia para la validez y confiabilidad
Hay que tener en cuenta que cómo se implemente y analice un instrumento también
puede afectar su validez y confiabilidad (Joint Committee on Standards for Educational
and Psychological Testing, 1999; Cohen y Swerdlik, 2009). Para que un test sea
válido, no basta con que las características técnicas del instrumento lo sean, también
es fundamental que todos los instrumentos hayan sido administrados bajo las mismas
condiciones estandarizadas de aplicación. Esto significa que las instrucciones, el
contexto de aplicación y los procedimientos de puntuación han sido exactamente los
mismos para todos los examinados. Eso asegura que los datos puedan ser
adecuadamente, interpretados, comparados, y usados de acuerdo al principio de que
cada usuario fue tratado de manera justa. Por lo tanto, cualquier alteración en la
estandarización de la aplicación afecta la comparabilidad y la validez de la prueba
(McCallin, 2006). Esto nos lleva al concepto estandarización. Lo que hace que un test
sea estandarizado no es el uso de puntajes estandarizados, o que sea de respuesta
múltiple, sino que las condiciones de aplicación hayan sido estandarizadas, es decir,
las instrucciones, condiciones de administración, y puntuación son claramente
definidas y son las mismas para todos los examinados (Ministerio de Educación de
Nueva Zelandia, 2014; Cohen y Wollak, 2006). La estandarización es importante para
todo tipo de instrumentos, sin importar si son referidos a normas o criterios, del
formato que tengan y de si tienen o no distintas formas. Las instrucciones
estandarizadas aseguran que todos los examinados tengan el mismo entendimiento
de lo que se espera de ellos (Cohen y Wollak, 2006). Ejemplos de alteración de la
situación de administración son: examinadores que dan más o menos tiempo para
responder los instrumentos; que no leen las instrucciones (llevando a confusión sobre

cómo responder o sobre las condiciones de puntuación, por ejemplo si las respuestas
malas se descuentan de las buenas); cualquier falta al protocolo de aplicación, por
ejemplo un examinador que lee en voz alta las preguntas de comprensión lectora;
alterar las instrucciones (tiempos, instrucciones, formato de respuesta, soplar);
variabilidad en los centros de aplicación (posters con información relativa a los
contenidos del test en la pared; interrupciones durante las sesiones; diferencias en la
hora de aplicación, que llevan tener niños con distinto nivel de cansancio y hambre);
diferentes condiciones en la temperatura e iluminación; y problemas técnicos
relevantes a la aplicación (Cohen y Wollak, 2006; McCallin, 2006). También son faltas
a la estandarización si hay presión hacia los estudiantes de rendir bien, si tienen
exposición previa a los ítems, o el examinador da algunas respuestas (Cohen y
Wollak, 2006; McCallin, 2006).
3.3 Consideraciones prácticas
Además de las consideraciones técnicas ya descritas, existen una serie de

consideraciones prácticas que también es importante tomar en cuenta al momento de
decidirse por un instrumento. Esta sección describe elementos como los costos,
tiempos de aplicación, o el entrenamiento que se requiere para los examinadores, que
pueden hacer inviable la utilización de un cierto instrumento en determinado contexto,
aunque su contenido sea muy apropiado y su calidad técnica excelente. En algunas
ocasiones, quizás estos elementos no sean una limitación, pero sí factores que se
deben tomar en cuenta en la planificación de la aplicación y en el desarrollo del
presupuesto. Por ejemplo, muchas veces se subestima el tiempo y los recursos que
requieren el reclutamiento, selección y capacitación de examinadores, la corrección de
pruebas de preguntas abiertas, o el tiempo y cantidad de personas necesarias para la
digitación o el escaneo de los datos.
 Costos
Un elemento central en este análisis es el tema costos, que puede ser un factor
decisivo a la hora de escoger un instrumento. Para cada instrumento potencial hay que
saber cuántos recursos se necesita tener para implementar la evaluación en su
totalidad (Center for Assessment and Research, James Madison University, 2014;
Ministerio de Educación de Nueva Zelandia, 2014; Timmons et al, 2005). Existen
varios tipos de costos asociados a los instrumentos: para comprar los derechos de los
tests mismos, las hojas de respuesta, el procesamiento, y puntuación y análisis de los

datos por parte del dueño del test o algún proveedor independiente. Además hay
costos asociados al pago de sueldos al personal que administre y puntúe, costos
legales o de licencias de estas contrataciones, y el arriendo de un lugar para la
evaluación, almacenaje de material y corrección de preguntas abiertas, si corresponde
(Cohen y Swerdlik, 2009).
Con respecto a los derechos de los instrumentos, algunos están disponibles sin costo,
pero otros deben ser comprados a sus autores o publicadores (Center for Assessment
and Research, James Madison University, 2014). Los instrumentos por los cuales hay
que pagar tienen un amplio rango de precios y es importante considerar que el mejor
instrumento no es necesariamente el más caro. La mayoría de los publicadores de
tests de lápiz y papel cobran por manuales y otros materiales de administración,
además de por cada test individual, hojas de respuestas, y servicios de puntuación. Si
se quiere hacer un análisis de costo-efectividad hay una serie de factores que deben
considerarse. Por ejemplo, algunos tests baratos pueden ser útiles o instrumentos muy
caros tener una utilidad muy acotada a determinada población. También es importante
considerar cuántas veces se planea usar el instrumento y si es posible asociarse con
otra institución para compartir costos (Timmons et al, 2005).
 Tiempos de aplicación
Los manuales de los instrumentos siempre especifican el tiempo (o los rangos de

tiempo) de su aplicación. Esto puede determinar la adecuación del instrumento para
un cierto uso (Ministerio de Educación de Nueva Zelandia, 2014). Por ejemplo, puede
que el programa no cuente con suficiente tiempo y dinero para una administración
larga. En niños muy pequeños, los exámenes muy largos pueden ponerlos ansiosos y
hacer los puntajes menos válidos que los de exámenes más cortos. En otros casos, la
fatiga puede ser un factor que influya en los resultados. Es importante escoger
instrumentos cuya validez no se vea afectada por este tipo de variables (Timmons et
al, 2005).
Otra consideración práctica es que a veces las evaluaciones deben ajustarse a la

duración de los bloques escolares. Por ejemplo, si hay bloques de 90 minutos entre
recreos, quizás es logísticamente complejo aplicar un instrumento que dure 120
minutos (Bart, 2009). Por lo tanto, hay que evaluar los tiempos de aplicación contra el
tiempo disponible y el tipo de estudiante al que se le aplicará el test, para evaluar si es
adecuado o no al contexto particular.

 Entrenamiento requerido para los examinadores
Los administradores de los instrumentos juegan un rol esencial. Los tests varían en el
nivel de experticia y entrenamiento requeridos por los administradores o puntuadores
(Ministerio de Educación de Nueva Zelandia, 2014; Timmons et al, 2005). Cuando se
requiere experiencia o formación específica, esto se especifica en los manuales o los
sitios webs de los instrumentos. En algunas ocasiones, incluso es necesario enviar
documentación que respalde la formación de los examinadores antes de poder
acceder a los tests. La administración o puntuación de tests por parte de personal sin
las calificaciones necesarias es una serie violación ética y además puede afectar la
validez de los resultados (Timmons et al, 2005).
Para algunos instrumentos se requiere una capacitación específica para la

administración del test (más allá de que se requiera o no una cierta formación previa).
Es fundamental tener esta información de antemano, y en el caso de exigirse un
entrenamiento, saber cuánto cuesta y cuánto tiempo toma (Ontario Ministry of
Training, Colleges and Universities, 2011). También es importante saber si se cuenta
con entrenadores adecuados para poder realizar las capitaciones.
 Facilidad/dificultad en la puntuación y análisis
Algunos instrumentos requieren tiempo y/o un entrenamiento especial para ser

puntuados o para analizar los datos, lo que puede involucrar contratar y entrenar a
personas para que lo hagan. Esto es especialmente común en aquellos que evalúan
escritura. Es necesario considerar el tiempo necesario y los costos asociados a la
selección y capacitación de correctores, lo que incluye diseñar e implementar un
sistema para asegurar la confiabilidad entre correctores, además del tiempo que se
dedica a la puntuación (Cohen y Wollak, 2006). También es necesario tomar en cuenta
el espacio físico requerido para realizar la puntuación.
Hay que tomar en cuenta también cómo se registrarán los datos y/o puntajes en una
base de datos (Ministerio de Educación de Nueva Zelandia, 2014; Center for
Assessment and Research, James Madison University, 2014). La puntuación de los
tests es más eficiente que antes, en muchos casos con acceso a puntuaciones
computarizadas o por internet. En algunas situaciones se puede acceder a la
puntuación de manera inmediata (Timmons et al, 2005), pero en otros casos esa
información debe ser cargada. La mayoría de los tests hoy se leen con un lector

óptico, lo que es mucho más rápido que la digitación. Para esto hay que tener las
hojas de respuestas apropiadas y el lector óptico adecuado (Cohen y Wollak, 2006).
 Administración grupal o individual
Algunos instrumentos requieren una administración uno a uno (un examinador por
evaluado) mientras otros son de aplicación grupal. En términos prácticos, lo más fácil
es ocupar instrumentos de aplicación grupal, es decir, que implican tener solo uno o
dos examinadores por sala.
Sin embargo, muchos instrumentos que requieren observación por parte del
examinador, o que evalúan a niños muy pequeños, son de administración individual,
es decir, uno a uno entre el examinador y el examinado. Esto puede ser inviable desde
el punto de vista práctico, por costos y limitaciones de tiempo. En otras ocasiones
quizás lo que se quiere medir solo se puede evaluar a través de un instrumento de
administración individual, en este caso es necesario contar con los recursos
suficientes. La mayoría de los instrumentos que han sido diseñados para
administración individual no se pueden usar fácilmente en un grupo (Ministerio de
Educación de Nueva Zelandia, 2014).
 Es fácil/difícil de usar
Los test deberían ser lo más fáciles de usar posible, ya que los desempeños de los
estudiantes se pueden ver afectados si no entendieron las instrucciones. Sobre todo
los niños pequeños pueden gastar tiempo valioso tratando de entender el proceso y no
en el contenido. Por ejemplo, hojas de respuesta complejas pueden confundir al
usuario y un estudiante puede darse cuenta en medio del test que ha estado
respondiendo en la sección equivocada (Timmons et al, 2005). Para niños de primer y
segundo grado la experiencia recomienda no utilizar hojas de respuesta, porque la
instrucción los puede confundir. Es mejor que respondan directamente sobre la
prueba.

4. CREAR UN INSTRUMENTO O UTILIZAR UNO YA EXISTENTE
En muchos espacios académicos uno de los cuestionamientos que se plantean es la

pertinencia del uso de un instrumento ya existente u otro creado para la situación o
producto a evaluar, esta interrogante muchas veces dejado de lado será respondida
con los argumentos planteados como sigue:
4.1 Consideraciones.
Existen muchos instrumentos disponibles para su uso comercial que pueden ser
usados para propósitos evaluativos. Desde el punto de vista práctico, utilizar un test
que ya existe permite ahorrar mucho tiempo y recursos (Center for Assessment and
Research, James Madison University, 2014; Cohen, Manion y Morrison, 2000). Otras
ventajas son que en general son instrumentos técnicamente sólidos, es decir, han sido
piloteados y estandarizados en una población detalladamente descrita, declaran su
validez y confiablidad, cubren una amplia gama de contenidos, tienden a ser tests
paramétricos por lo que se pueden hacer análisis sofisticados, incluyen instrucciones
detalladas para su administración, en general son fáciles de administrar y puntuar, y
en general incluyen orientaciones para la interpretación de los resultados (Cohen,
Manion y Morrison, 2000). Dentro de las posibles desventajas están: son caros,
muchas veces están dirigidos a una población muy específica y pueden no adecuarse
al propósito evaluativo requerido; algunos tienen una disponibilidad restringida por lo
que puede ser necesario afiliarse a cierta institución para usarlo, lo que puede exigir
cumplir con ciertos requisitos; y los tests disponibles por definición están pensados
para una población general y no hechos a medida para necesidades locales. Para
utilizar uno de estos tests se debe estar seguro que los objetivos, propósitos y
contenidos de dicho test están alineados con los objetivos de evaluación. Los
Standards for Educational and Psychological Testing declaran que para que un
investigador decida si le conviene usar un instrumento ya existente, la regla de oro es
que debe poder demostrar adecuación al propósito (Cohen, Manion y Morrison, 2000).
Sin embargo, es difícil encontrar un instrumento que se ajuste exactamente a los
objetivos específicos de un programa (Center for Assessment and Research, James
Madison University, 2014). Algunos errores comunes que se cometen al seleccionar
instrumentos, que afectan su validez y por lo tanto deben evitarse, son: usar
determinado instrumento porque tiene buena fama o ha sido usado antes; usar
información porque está disponible; usar métodos con los que no se está familiarizado,
sin capacitarse adecuadamente; no proveer de adecuaciones a estudiantes con NEE o

que no hablan el idioma (Joint Committee on Standards for Educational and
Psychological Testing, 1999). Si se decide diseñar un instrumento, la principal ventaja
es que se crea a medida para estar perfectamente alineado con los objetivos del
programa (Center for Assessment and Research, James Madison University, 2014) y
se adecuará con precisión al contexto local e institucional (Cohen, Manion y Morrison,
2000). Otro factor a considerar es que aunque diseñar un instrumento implica mucha
inversión de recursos, el instrumento le pertenece a quien lo construye, por lo que
puede ser una buena inversión si se quiere aplicar a muchos estudiantes o por un
periodo largo de tiempo, mientras que si se usa uno ya existente muchas veces hay
que 36 pagar por cada aplicación (Center for Assessment and Research, James
Madison University, 2014). Sin embargo, elaborar instrumentos es caro, lento, y
porque probablemente será no paramétrico, el rango de posibles análisis será más
limitado que en el caso de un test paramétrico (Cohen, Manion y Morrison, 2000).
Además, muchas veces no se cuenta con personal especializado que pueda diseñar
un instrumento técnicamente riguroso (Center for Assessment and Research, James
Madison University, 2014). En Estados Unidos existen una serie de organizaciones
que han desarrollado estándares o recomendaciones con prácticas para la elaboración
de tests, su interpretación y uso. Tal vez los más famosos son los estándares para los
tests psicológicos y educativos, esfuerzo conjunto de The American Psychological
Association y el National Council on Measurement in Education, siendo su última
versión la del 1999 (Buckendahl & Plake, 2006). Un capítulo de los Estándares para la
Evaluación Educativa y Psicológica (Joint Committee on Standards for Educational and
Psychological Testing, 1999) se refiere a la información que deben dar los
elaboradores de los tests, que en general es tomado como guía por los tests
disponibles comercialmente. El objetivo de estas recomendaciones es proveer a los
usuarios de la información relevantante (Buckendal y Plake, 2006). Destaca la
necesidad de declarar: a. El propósito del test, los usos sugeridos de sus resultados,
incluyendo el grupo etario y cualificaciones de quienes interpretan los datos. Este
propósito se debe comparar con el de la evaluación (Buckendal y Plake, 2006). b.
información sobre cómo se construyó el test c. información técnica sobre normas,
escalamiento, información detallada sobre la muestra con la que se construyó la
norma (hay que compararlo con el grupo). Evidencia sobre la generalizabilidad de los
puntajes y validez (Buckendal y Plake, 2006).

Referencias Bibliográficas:
1) Colmenares, Ana M. (2012). Los aprendizajes en entornos virtuales evaluados

bajo la concepción formadora. REIFOP, 15 (1), 125-134. (Enlace web:
http//www.aufop.com –Consultada en fecha (08-11-2015)
2) Covacevich, C. (2014) Cómo seleccionar un instrumento para evaluar

aprendizajes estudiantiles.(Nota Técnica del BID ; 738). Disponible en
https://publications.iadb.org/bitstream/handle/11319/6758/C%C3%B3mo-
seleccionar-un-instrumento-para-evaluar-aprendizajes-
estudiantiles.pdf?sequence=1


Separata III

Cargado por

Copyright:

Formatos disponibles

Separata III

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Separata III

Cargado por

Copyright:

Formatos disponibles

Módulo III

Técnicas e Instrumentos de Evaluación en

Técnicas e instrumentos de evaluación en entornos virtuales 1

2. TÉCNICAS E INSTRUMENTOS DE EVALUACIÓN 04

3. CÓMO SELECCIONAR INSTRUMENTOS DE EVALUACIÓN 17

4. CREAR UN INSTRUMENTO O UTILIZAR UNO YA EXISTENTE 37

Técnicas e instrumentos de evaluación en entornos virtuales 2

En el contexto de la evaluación en entornos virtuales, se percibe una serie de aspectos

Técnicas e instrumentos de evaluación en entornos virtuales 3

En el proceso evaluativo es imprescindible tener en consideración las técnicas y los

-Video lecturas: Pueden ser en directo, en diferido, de 1 hora, de 5 minutos, en texto o

 cMOOC: Abiertos y participativos, orientados al aprendizaje basado en

 xMOOC: Basados exclusivamente en los contenidos y más alejado del método

-Deberes: Los estudiantes deberían recibir de un modo periódico deberes y tareas a

-Exámenes: Algunos MOOC requieren de exámenes supervisados para sus

Técnicas e instrumentos de evaluación en entornos virtuales 4

Entendemos a la técnica de evaluación como un conjunto de acciones o

Sobre la base de revisiones de literatura actualizada tanto a nivel de libros físicos, e-

Teniendo como criterio de clasificación, la interacción humana, Colmenares, Ana M.

A. Interacción dialógica virtual B. Análisis del discurso escrito

A.-La interacción es la relación de intercambio entre dos o más individuos. La

Técnicas e instrumentos de evaluación en entornos virtuales 5

Mientras que la segunda se refiere al “tipo de comunicación que se produce entre

Por lo tanto, la técnica de evaluación propuesta por el grupo de investigación tiene un

En definitiva, el estudiante construye sus aprendizajes por medio de las distintas

Técnicas e instrumentos de evaluación en entornos virtuales 6

Otro aporte interesante de Colmenares, Ana M. (2012) considera que en función al

A.- Actividad interactiva asincrónica B.- Actividad interactiva sincrónica

A.- Entre las actividades que se proponen se encuentran las interactivas

-Blogs o Bitácora. Espacio en la web para escribir y publicar un diario de reflexiones,

-Correo Electrónico. Tecnología para la comunicación en texto entre computadoras

Técnicas e instrumentos de evaluación en entornos virtuales 7

Para garantizar el éxito de esta actividad sincrónica, es de vital importancia que el

-Los diarios electrónicos o weblogs constituyen una actividad o procedimiento

Técnicas e instrumentos de evaluación en entornos virtuales 8

Para el aprovechamiento máximo de esta actividad es imprescindible establecer

El foro en línea permite enviar mensajes, recibir respuestas y realimentación, además

Técnicas e instrumentos de evaluación en entornos virtuales 9

-Grabación de audio o video. El video permite registrar la imagen y el sonido en un

El audio permite grabar charlas, conferencias, entrevistas y otros. Como instrumento

-Videoconferencia. Comunicación (en tiempo real y en doble sentido) entre dos

 La publicación de forma inmediata usando sólo el navegador web (Explorer,

Técnicas e instrumentos de evaluación en entornos virtuales 10

 Que quede registrado quién y cuándo se ha hecho la modificación en las

 El acceso a versiones previas a la última modificación así como su

 Subir y almacenar documentos y todo tipo de archivos que se pueden enlazar

 Enlazar páginas exteriores e insertar audios, videos, presentaciones etc.

Técnicas de Evaluación Actividades

Interactiva sincrónica  El debate

Interactiva asincrónica  Wiki

 MUD (Muli User

Técnicas e instrumentos de evaluación en entornos virtuales 11

En el proceso de evaluación utilizamos distintas técnicas para obtener información, y

-Pruebas Automatizadas. Este tipo de herramientas o instrumentos de evaluación se

El MIT (Massachusetts Institute of Technology) está investigando para su plataforma

Técnicas e instrumentos de evaluación en entornos virtuales 12

-Encuestas en línea. Un formulario en línea constituye una aplicación en internet por

El atractivo de este tipo de servicios radica en que evita el manejo de múltiples

-Test online o eQuestions. Son el instrumento básico de evaluación extrapolado a la