Papers by agustin tristan

In English as a Second Language Teaching and Testing situations, it is common to infer about lear... more In English as a Second Language Teaching and Testing situations, it is common to infer about learners’ reading ability based on his or her total score on a reading test. This assumes the unidimensional and reproducible nature of reading items. However, few researches have been conducted to probe the issue through psychometric analyses. In the present study, the IELTS exemplar module C (1994) was administered to 503 Iranian students of various reading comprehension ability levels. Both the deterministic and probabilistic psychometric models of unidimensionality were employed to examine the plausible existence of implicational scaling among reading items in the mentioned reading test. Based on the results, it was concluded that the reading data in this study did not show a deterministic unidimensional scale (Guttman scaling); rather, it revealed a probabilistic one (Rasch model). As the person map of the measures failed to show a meaningful hierarchical order for the items, these resu...

Handbook of Research on Educational Communications and Technology, 2013
Information and Communication Technology (ICT) competencies comprise a subset of digital literac... more Information and Communication Technology (ICT) competencies comprise a subset of digital literacy, one of the various areas of technological competencies and skills necessary for real-life functioning in all kind of professional activities and levels of education from preschool to graduate levels. Assessment of ICT competencies involves the definition of specific target activities appropriate to the environment in which they are required. These environments range from the home to the workplace and involve such disparate activities as information-retrieval in healthcare settings or libraries; use of clerical, business, or investment applications; and interactions with government or other public services. The range of ICT competencies also includes the specific abilities needed by professionals responsible for the development of software or communication products and services. This chapter discusses several ICT assessment projects, addresses the primary technical specifications required for evaluation, and explores solutions to problems of test administration. These solutions range from electronic quizzes (similar to paper-and-pencil tests) to more “authentic” forms of assessment using e-portfolios or simulations of real software applications. A detailed analysis of the primary approaches for assessment of social, academic, commercial, or economic environments reveals that these approaches primarily focus on a basic core of skills consisting of Web navigation and the use of e-mail and office tools (text processor, spreadsheet, presentation, and database management). In the future, ICT evaluation will involve automatic scoring of natural language responses in documents, solutions of mathematical problems, and graphical or health applications, among many other real-life endeavors.

Revista Iberoamericana de Evaluación Educativa, 2017
Objectivity is a needed attribute of standardized tests in different areas, such as health, socia... more Objectivity is a needed attribute of standardized tests in different areas, such as health, social sciences and education, and in each one of the phases of the development of a test, from its initial definition to the interpretation of outcomes. Objectivity ensures fairness of the test from its design up to the appraisal of the judges or evaluators and on the treatment of results, grounded on five main properties: specificity, neutrality, independence, impartiality and impersonality. Objectivity is fundamental for the interpretation of the outcomes, eliminating or reducing the presence of stereotypes and preferences that produce several types of bias that may affect the ethical use of the results of the test. Objectivity should be the first attribute to consider in a standardized test, as it improves the definition of the traits to evaluate permitting the distinction of characteristics that are mistakenly associated with validity and reliability.
Educación, aprendizaje y cognición : teoría en la práctica Authors:Sandra Castañeda Figueiras, María Magdalena Ramos Tejeda, 2004
Criterion references tests are widely used actually, mainly related to certification of professio... more Criterion references tests are widely used actually, mainly related to certification of professional competencies. New specifications for test design as well as for test scoring and analysis are needed; in order to help test designers a comprehensive model and software have been developed. The model for analysis and definition of standards includes several options coming from technical papers, plus new formulations developed specially for the software. The cornerstones are a logistic two-parameter model for item analysis and a quality report of the test. The program has been used by the National Evaluation Center of Mexico (Ceneval) since 1988, scoring and analyzing more than 1.5 million undergraduate and graduate students.
Rasch Measurement Transactions, 20:3, Winter, 2006, pp. 1070–1. , 2006
It appears that even for small shift values, 20 of the 21 items produce significant ti(12) values... more It appears that even for small shift values, 20 of the 21 items produce significant ti(12) values, indicating that practically all the items show gender bias according to the significance rule alone. The same analysis was developed with sub-samples of 250 women and 250 men, now only 5 of the 21 items produce significant t values and so it is a minority of items that show gender bias. The main reason of the difference in results is that the standard errors of the item measures depend on the sizes of the focus and reference groups. But, according to Clauser & Hambleton (1994), "DIF analysis should be based on the largest sample available", so their guideline implies that even the smallest difference could be significant, nullifying the ETS Significance rule.

Ceneval, 4o foro de evaluación, 2002
A partir del análisis de más de 1000 reactivos de opción múltiple catalogados en siete sub-tipos ... more A partir del análisis de más de 1000 reactivos de opción múltiple catalogados en siete sub-tipos (desde la pregunta simple hasta relación de columnas), se construyó una ayuda de diseño que puede apoyar al diseñador de reactivos para elegir el tipo de reactivo más apropiado para una dificultad deseada. Los resultados confirman las sugerencias de la literatura especializada donde se menciona que la presentación del reactivo incide en su dificultad. Se incluyen ejemplos que muestran la forma de emplear las curvas de diseño para propósitos específicos.
The analysis of more than 1000 multiple-choice items, classified in seven forms according to their presentation (from the simple question to matching items), has permitted the construction of a set of curves as a design aid to chose a specific item type for a desired difficulty. The results agree with previous proposals from the specialized litterature, where it is proposed that the aspect of the item may influence its difficulty. Examples are included to show the use of the design curves for specific purposes.
Rasch Measurement Transactions, 2002
Hambleton et al. (1991) suggest using a chi-square test to
identify local independence between tw... more Hambleton et al. (1991) suggest using a chi-square test to
identify local independence between two items. The
procedure consists of constructing a 2x2 table for two items
using the correct and incorrect answers of persons at the
same level of ability (i.e., with the same raw scores on the
test)...

Revista Iberoamericana de Evaluación Educativa, 2017, 10(1), 11-31.
La objetividad es un atributo necesario que debe detallarse claramente para satisfacer los propós... more La objetividad es un atributo necesario que debe detallarse claramente para satisfacer los propósitos científicos de todo proyecto de evaluación en ciencias de la salud, ciencias sociales y educación, así como en cada una de las etapas de producción y uso de las pruebas estandarizadas. El valor de la objetividad para el desarrollo de las pruebas se refuerza al emplearse como herramienta de vigilancia que garantiza la neutralidad en los estímulos presentados. Se detallan cinco propiedades principales distintivas: especificidad, neutralidad, independencia, imparcialidad e impersonalidad, fundamentales para interpretar los resultados, eliminar o reducir los sesgos inducidos por la influencia de estereotipos y preferencias en el diseño del instrumento o en la apreciación de jueces, entre otros factores que pueden afectar el uso ético de los resultados de las pruebas. Se muestra que la objetividad es el primer atributo que debe definirse en una prueba estandarizada, distinguiendo las cualidades que le son propias para evitar asociarlas incorrectamente con la validez o la confiabilidad.
Learning, Problem Solving, and Mindtools Essays in Honor of David H. Jonassen, 2012
The specialized literature offers hundreds of educational taxonomies or frameworks for educationa... more The specialized literature offers hundreds of educational taxonomies or frameworks for educational purposes. These taxonomies mainly address the cognitive domain, but some include psychomotor abilities, the axiological, affective or conative domains. This work presents some of the main taxonomies of types of knowledge, selected for their special interest to various applications, such as the classification of thinking processes with an emphasis on high-level reasoning. The characteristics that a classification of knowledge types, abilities or skills must satisfy to be an acceptable taxonomy and a brief description of some specialized taxonomies in particular fields are also presented.

The International Journal of Educational and Psychological Assessment January 2012, Vol. 9(2) © 2012 Time Taylor Academic Journals ISSN 2094-0734 , 2012
This study describes the basic purposes and technical elements of a high-school teacher certifica... more This study describes the basic purposes and technical elements of a high-school teacher certification project in Mexico. It illustrates a change process, rooted in a set of validated measurement instruments that incorporates substantial and useful feedback to teachers on their strengths and weaknesses. Since its initial conception in 2001, the Certification Test for High-school Education Teachers, called ECPEMS (from the Spanish name), has met domestic and international standards. Its foundation includes design specifications of a set of instruments, a scale of measures and comprehensive reports based on a four-area model of the teacher’s professional profile (disciplinary, psycho-pedagogic, assessment, and professional teaching competencies) in three dimensions (knowledge, skills, and attitudes - values). Mexican institutions accept the model as a solution to a major challenge that crosses national boundaries: teachers’ rejection or fear for certification, despite popular demands to improve educational results. This acceptanc e is largely due to the strength of the ECPEMS in providing comprehensive feedback to teachers and institutions to improve the teaching-learning process and the educational results in high schools.
Foro de Evaluación, Ceneval, 2012
Con ayuda de Kalt-Video se pueden identificar fortalezas y debilidades de los docentes, percibir ... more Con ayuda de Kalt-Video se pueden identificar fortalezas y debilidades de los docentes, percibir contradicciones entre lo que piensan los docentes de su clase y lo que realmente fue desarrollado con los alumnos. Puede identificarse el perfil del esquema de enseñanzaaprendizaje (tradicional, práctico, constructivista, reflexivo, expositivo o de conferencia, etc.), localizarse actividades que promueven el desarrollo de competencias individuales y grupales, la intervención didáctica para la formalización, la integración de trabajos de investigación y acciones de cierre definidas en la planeación didáctica. La autoevaluación del docente indica el nivel de satisfacción del docente con su clase y su estilo utilizado para comparar contra lo mostrado en el video y en las respuestas de los estudiantes.
Avances en Medición, 2013
Las variables "bandera" o "dummy" representan un aporte importante en la metodología para modelar... more Las variables "bandera" o "dummy" representan un aporte importante en la metodología para modelar variables con omisiones en las respuestas de los sujetos, una vez que los datos fueron imputados. Su uso no se había explorado convenientemente con el esquema de imputación por donantes "Hot-deck" dentro de ecuaciones de regresión lineal y en modelos multinivel. El propósito de este trabajo es mostrar la conveniencia de contar con variables "bandera" relacionadas con los datos imputados como parte del modelo multinivel, la manera de incluirlas en los modelos y su interpretación. Las variables "bandera" son de mucha utilidad debido a que en los casos en que son significativas permiten dimensionar, escalar o corregir el valor de la variable dependiente por la presencia de los datos imputados.

Ceneval Foro, 2007
Se presentan algunos elementos del proyecto de desarrollo de software para calificación y análisi... more Se presentan algunos elementos del proyecto de desarrollo de software para calificación y análisis de textos en español, con base en indicadores objetivos provenientes de propuestas de la literatura especializada y se incluyen algunos modelos propios que se están probando en la actualidad. El proyecto Kalt-Léxico se encuentra en fase de desarrollo y se pretende incluir dentro de un proyecto integral de aplicación de exámenes en línea para evaluar la capacidad de redactar de un estudiante, además de las aplicaciones propias del modelo para clasificar textos dados y evaluar la comprensión lectora de una persona.
A software to analyze texts in Spanish is presented here. It follows some indices from the references and lexical studies, as well as the particular models developed for the project. The software Kalt-Léxico is under development and will be included in an on line testing environment, so it will be possible to assess the student’s capability to produce an essay, to calibrate texts and classify according to scholar grade or age and also to evaluate a person’s reading comprehension.

Instituto de Evaluación e Ingeniería Avanzada, México, 2007
Se analiza una prueba real con ayuda de seis programas comerciales diferentes, empleando ocho mod... more Se analiza una prueba real con ayuda de seis programas comerciales diferentes, empleando ocho modelos de análisis y dictamen de reactivos objetivos. Las comparaciones se enfocan tanto a las hipótesis involucradas en cada modelo como a los parámetros y valores de referencia utilizados en los programas elegidos. La comparación se lleva a cabo incluyendo elementos objetivos (dificultad, medias de aciertos, confiabilidad, validez de escala), con objeto de identificar diferencias entre los modelos. Se observa que se trata de modelos con tendencias generales muy parecidas en distintos grados de rigor para juzgar los reactivos: Las ventajas de un programa respecto a los otros se ubican en los tipos de reporte emitidos y la facilidad de uso
Hay una gran variedad de programas para calificación y análisis de reactivos objetivos, disponibles para el uso de los evaluadores, profesores y especialistas de la psicometría. Dada la diversidad de los programas y de los modelos utilizados por cada uno de ellos, el analista de enfrenta a una complicación para poder comparar los valores y dictámenes que producen. Los evaluadores acostumbran hacer comparaciones con aplicaciones particulares, empleando muestras de sustentantes configuradas de manera específica para comprobar la bondad de un modelo en particular o para refutar la calidad de algún programa. Las comparaciones realizadas en estas condiciones no permiten identificar los patrones de dictamen que tienen los programas porque no se contemplan las hipótesis de cada modelo, ni los parámetros de decisión asociados a un programa dado. En consecuencia es costumbre que se llegue a descartar un cierto programa por cuestiones subjetivas o de inclinación personal y no tanto por una evaluación objetiva que compare los diversos modelos y parámetros involucrados.
La comparación que se presenta en este estudio se enfoca de manera objetiva a revisar tanto las hipótesis de los modelos como los valores emitidos por cada programa. Para este trabajo se eligieron ocho modelos diferentes disponibles en seis programas comerciales, dos de ellos de origen mexicano y cuatro producidos en los Estados Unidos. Se escogieron estos programas por su popularidad en diversos ambientes de evaluación y porque se manejan generalmente como referencia. Se utilizan los resultados de una prueba real, aplicada con un grupo piloto en condiciones igualmente reales, con el propósito de identificar tendencias de comportamiento entre los modelos psicométricos y los programas.
El trabajo está organizado en estas partes:
a) generalidades de la prueba utilizada
b) descripción de los programas elegidos, modelos y parámetros de referencia
c) comparación de parámetros estadísticos y de análisis
d) comparación del dictamen de los reactivos de la prueba utilizada
e) conclusiones

El evaluador educativo. MINED, Cuba. , 2010
Cuando se diseña una prueba educativa se debe tener en cuenta que detrás de ella debe haber un mo... more Cuando se diseña una prueba educativa se debe tener en cuenta que detrás de ella debe haber un modelo. No es razonable construir una prueba como “colección de ítems” sin disponer de un diseño o de especificaciones previas, porque sería equivalente a construir un edificio sin planos de diseño. ¿Puede construirse un edificio sin especificaciones ni diseño? Seguramente es posible pero no deseable.
La palabra “prueba” es muy elocuente, porque permite recordar que el instrumento pretende “probar” la hipótesis (implícita o explícita) que se tiene para un proyecto de evaluación. El evaluador debe plantearse la pregunta: ¿qué se desea probar? Por ejemplo se pueden tener los siguientes casos: (1) se desea comprobar la hipótesis de que los estudiantes van a aprender como resultado de enfrentar un conjunto de experiencias de aprendizaje; (2) se espera probar la hipótesis de que las personas llegan a dominar una competencia al término de un proceso de capacitación; (3) se desea demostrar que la planeación didáctica de un curso fue efectiva para atender los propósitos institucionales; (4) se pretende probar la pertinencia de una intervención pedagógica para atacar las deficiencias detectadas en un grupo de jóvenes. Estos ejemplos, entre otra multiplicidad de posibilidades, corresponden a la misma lógica: probar una hipótesis. Al tratar de medir un rasgo latente se utilizan preguntas o ítems que solicitan una respuesta de la persona, pero esto no quiere decir que una prueba debe verse solamente como una colección de preguntas, sino como el instrumento que sirve para el propósito de “probar” las hipótesis de trabajo.
En el caso de las pruebas se debe contar por lo menos con la tabla de validez de contenido, TVC (o con la tabla de especificaciones) que establece el conjunto de evidencias para garantizar, como su nombre lo indica, que el contenido al que se refiere el instrumento cuenta con la validez necesaria y suficiente desde el diseño. Junto con la TVC, se debe contar con evidencias sobre el constructo que se desea evaluar y también sobre la escala utilizada para medir tanto el constructo como el contenido.

. Investigaciones 1. Ceneval. , 2009
El “Proyecto 12x2” es un ambicioso trabajo realizado por el Ceneval a lo largo de varios años par... more El “Proyecto 12x2” es un ambicioso trabajo realizado por el Ceneval a lo largo de varios años para dar seguimiento a los resultados de las pruebas de ingreso a educación media superior y a nivel licenciatura (EXANI I y II), con grupos controlados de doce estados de México en escuelas públicas y privadas. El seguimiento incluye las calificaciones de los estudiantes en las diversas asignaturas cursadas y aplicaciones repetidas de las pruebas del Ceneval. De este proyecto se tomaron los resultados de la primera generación (2005 a 2007) para estudiar la validez de criterio del EXANI-I (predictiva y retrospectiva) y obtener indicadores de la calidad de la prueba para los propósitos de selección de las instituciones usuarias.
El estudio se realizó por medio de modelos multinivel, como una variante de interés para los estudios de predictividad, atendiendo a que la muestra de estudiantes no es rigurosamente aleatoria, existiendo anidamientos por institución que afectan la interpretación de las correlaciones simples, empleadas tradicionalmente en este tipos de análisis.
Con la realización del estudio y el uso de modelos multinivel, se tuvieron algunas constataciones que pueden ser de utilidad para dar seguimiento en estudios posteriores, especialmente en relación con las correlaciones intraclase que se tienen en las instituciones y el cambio de escala del índice Ceneval, en comparación con la escala de calificaciones que se otorgan en las instituciones (generalmente de 6 a 10).
Se comparan algunos resultados obtenidos por modelos multinivel y correlaciones simples, haciendo evidentes algunas de las diferencias de aproximación entre ambos métodos, propiciando nuevas líneas de trabajo para estudios de predictividad con este tipo de herramientas.
Testing International, 2019
During the last four decades, there has been fluctuating interest in evaluation topics in Mexico.... more During the last four decades, there has been fluctuating interest in evaluation topics in Mexico. Nowadays, the unfavourable appreciation is mainly due to a history of informal, subjective, non-systematic evaluation performed by teachers from basic education to higher education, where the indiscriminate use of exams (and actually with the abuse of rubrics and portfolios) is usually reduced to the assignment of grades and not to inform or feedback to students or teachers.
The effect that grades have on the allocation of prizes and punishments distorts the interest in evaluation in many school environments, contributing to a poor appreciation of large-scale tests that are supposed to inform and support academic and professional development.
Rasch Measurement Transactions, 2019
The well-known Andrich or Masters models are the most suitable tools to make measures using ratin... more The well-known Andrich or Masters models are the most suitable tools to make measures using rating scale items, in comparison to models of ordered choices (Greene & Hensher, 2010; Hensher, Rose & Greene, 2005). The former are based on the Rasch model and the concept of thresholds between categories (Andrich, 1978, 1978, 1998; Wright & Masters, 1982) while the latter use other type o approaches like Probit or bayesian models (Linacre, 2003).
Rasch Measurement Transactions, 2019
Cronbach alpha and Separation G are important values to assess the quality of a test in terms of ... more Cronbach alpha and Separation G are important values to assess the quality of a test in terms of internal consistency as a proxy to reliability. Both elements have been extensively studied and discussed in classical test theory documents and Rasch analysis related papers (for instance Andrich, 1982; Fisher, 1992; Linacre, 1995; Wright & Stone, 1999). In general, an accepted alpha value for a test is at least 0.8 and up to 0.95, but nobody wants to reach the highest (and quite impossible to obtain) value of 1.0. Separations above 2.0 are desirable in a test. The problem with those reference values is that they depend on subjective criteria. In fact, it is not possible to define reasonable values for a test if population is homogeneous and their measures have a low standard deviation.
Avances en Medición, 2008
Experts' judgment is the generally used procedure to evaluate content validity of the psychol... more Experts' judgment is the generally used procedure to evaluate content validity of the psychological instruments, nevertheless, except the CVR (Content Validity Ratio) proposed by Lawshe (1975), a quantitative index are not available yet. The CVR needs a great number of judges, a slightly viable exigency in the practice and consequently it is very little used. This work analyze Lawshe's index and proposes a modification that allows overcoming its limitations. Finally an illustrative and practical application of the proposed index is presented.
Uploads
Papers by agustin tristan
The analysis of more than 1000 multiple-choice items, classified in seven forms according to their presentation (from the simple question to matching items), has permitted the construction of a set of curves as a design aid to chose a specific item type for a desired difficulty. The results agree with previous proposals from the specialized litterature, where it is proposed that the aspect of the item may influence its difficulty. Examples are included to show the use of the design curves for specific purposes.
identify local independence between two items. The
procedure consists of constructing a 2x2 table for two items
using the correct and incorrect answers of persons at the
same level of ability (i.e., with the same raw scores on the
test)...
A software to analyze texts in Spanish is presented here. It follows some indices from the references and lexical studies, as well as the particular models developed for the project. The software Kalt-Léxico is under development and will be included in an on line testing environment, so it will be possible to assess the student’s capability to produce an essay, to calibrate texts and classify according to scholar grade or age and also to evaluate a person’s reading comprehension.
Hay una gran variedad de programas para calificación y análisis de reactivos objetivos, disponibles para el uso de los evaluadores, profesores y especialistas de la psicometría. Dada la diversidad de los programas y de los modelos utilizados por cada uno de ellos, el analista de enfrenta a una complicación para poder comparar los valores y dictámenes que producen. Los evaluadores acostumbran hacer comparaciones con aplicaciones particulares, empleando muestras de sustentantes configuradas de manera específica para comprobar la bondad de un modelo en particular o para refutar la calidad de algún programa. Las comparaciones realizadas en estas condiciones no permiten identificar los patrones de dictamen que tienen los programas porque no se contemplan las hipótesis de cada modelo, ni los parámetros de decisión asociados a un programa dado. En consecuencia es costumbre que se llegue a descartar un cierto programa por cuestiones subjetivas o de inclinación personal y no tanto por una evaluación objetiva que compare los diversos modelos y parámetros involucrados.
La comparación que se presenta en este estudio se enfoca de manera objetiva a revisar tanto las hipótesis de los modelos como los valores emitidos por cada programa. Para este trabajo se eligieron ocho modelos diferentes disponibles en seis programas comerciales, dos de ellos de origen mexicano y cuatro producidos en los Estados Unidos. Se escogieron estos programas por su popularidad en diversos ambientes de evaluación y porque se manejan generalmente como referencia. Se utilizan los resultados de una prueba real, aplicada con un grupo piloto en condiciones igualmente reales, con el propósito de identificar tendencias de comportamiento entre los modelos psicométricos y los programas.
El trabajo está organizado en estas partes:
a) generalidades de la prueba utilizada
b) descripción de los programas elegidos, modelos y parámetros de referencia
c) comparación de parámetros estadísticos y de análisis
d) comparación del dictamen de los reactivos de la prueba utilizada
e) conclusiones
La palabra “prueba” es muy elocuente, porque permite recordar que el instrumento pretende “probar” la hipótesis (implícita o explícita) que se tiene para un proyecto de evaluación. El evaluador debe plantearse la pregunta: ¿qué se desea probar? Por ejemplo se pueden tener los siguientes casos: (1) se desea comprobar la hipótesis de que los estudiantes van a aprender como resultado de enfrentar un conjunto de experiencias de aprendizaje; (2) se espera probar la hipótesis de que las personas llegan a dominar una competencia al término de un proceso de capacitación; (3) se desea demostrar que la planeación didáctica de un curso fue efectiva para atender los propósitos institucionales; (4) se pretende probar la pertinencia de una intervención pedagógica para atacar las deficiencias detectadas en un grupo de jóvenes. Estos ejemplos, entre otra multiplicidad de posibilidades, corresponden a la misma lógica: probar una hipótesis. Al tratar de medir un rasgo latente se utilizan preguntas o ítems que solicitan una respuesta de la persona, pero esto no quiere decir que una prueba debe verse solamente como una colección de preguntas, sino como el instrumento que sirve para el propósito de “probar” las hipótesis de trabajo.
En el caso de las pruebas se debe contar por lo menos con la tabla de validez de contenido, TVC (o con la tabla de especificaciones) que establece el conjunto de evidencias para garantizar, como su nombre lo indica, que el contenido al que se refiere el instrumento cuenta con la validez necesaria y suficiente desde el diseño. Junto con la TVC, se debe contar con evidencias sobre el constructo que se desea evaluar y también sobre la escala utilizada para medir tanto el constructo como el contenido.
El estudio se realizó por medio de modelos multinivel, como una variante de interés para los estudios de predictividad, atendiendo a que la muestra de estudiantes no es rigurosamente aleatoria, existiendo anidamientos por institución que afectan la interpretación de las correlaciones simples, empleadas tradicionalmente en este tipos de análisis.
Con la realización del estudio y el uso de modelos multinivel, se tuvieron algunas constataciones que pueden ser de utilidad para dar seguimiento en estudios posteriores, especialmente en relación con las correlaciones intraclase que se tienen en las instituciones y el cambio de escala del índice Ceneval, en comparación con la escala de calificaciones que se otorgan en las instituciones (generalmente de 6 a 10).
Se comparan algunos resultados obtenidos por modelos multinivel y correlaciones simples, haciendo evidentes algunas de las diferencias de aproximación entre ambos métodos, propiciando nuevas líneas de trabajo para estudios de predictividad con este tipo de herramientas.
The effect that grades have on the allocation of prizes and punishments distorts the interest in evaluation in many school environments, contributing to a poor appreciation of large-scale tests that are supposed to inform and support academic and professional development.
The analysis of more than 1000 multiple-choice items, classified in seven forms according to their presentation (from the simple question to matching items), has permitted the construction of a set of curves as a design aid to chose a specific item type for a desired difficulty. The results agree with previous proposals from the specialized litterature, where it is proposed that the aspect of the item may influence its difficulty. Examples are included to show the use of the design curves for specific purposes.
identify local independence between two items. The
procedure consists of constructing a 2x2 table for two items
using the correct and incorrect answers of persons at the
same level of ability (i.e., with the same raw scores on the
test)...
A software to analyze texts in Spanish is presented here. It follows some indices from the references and lexical studies, as well as the particular models developed for the project. The software Kalt-Léxico is under development and will be included in an on line testing environment, so it will be possible to assess the student’s capability to produce an essay, to calibrate texts and classify according to scholar grade or age and also to evaluate a person’s reading comprehension.
Hay una gran variedad de programas para calificación y análisis de reactivos objetivos, disponibles para el uso de los evaluadores, profesores y especialistas de la psicometría. Dada la diversidad de los programas y de los modelos utilizados por cada uno de ellos, el analista de enfrenta a una complicación para poder comparar los valores y dictámenes que producen. Los evaluadores acostumbran hacer comparaciones con aplicaciones particulares, empleando muestras de sustentantes configuradas de manera específica para comprobar la bondad de un modelo en particular o para refutar la calidad de algún programa. Las comparaciones realizadas en estas condiciones no permiten identificar los patrones de dictamen que tienen los programas porque no se contemplan las hipótesis de cada modelo, ni los parámetros de decisión asociados a un programa dado. En consecuencia es costumbre que se llegue a descartar un cierto programa por cuestiones subjetivas o de inclinación personal y no tanto por una evaluación objetiva que compare los diversos modelos y parámetros involucrados.
La comparación que se presenta en este estudio se enfoca de manera objetiva a revisar tanto las hipótesis de los modelos como los valores emitidos por cada programa. Para este trabajo se eligieron ocho modelos diferentes disponibles en seis programas comerciales, dos de ellos de origen mexicano y cuatro producidos en los Estados Unidos. Se escogieron estos programas por su popularidad en diversos ambientes de evaluación y porque se manejan generalmente como referencia. Se utilizan los resultados de una prueba real, aplicada con un grupo piloto en condiciones igualmente reales, con el propósito de identificar tendencias de comportamiento entre los modelos psicométricos y los programas.
El trabajo está organizado en estas partes:
a) generalidades de la prueba utilizada
b) descripción de los programas elegidos, modelos y parámetros de referencia
c) comparación de parámetros estadísticos y de análisis
d) comparación del dictamen de los reactivos de la prueba utilizada
e) conclusiones
La palabra “prueba” es muy elocuente, porque permite recordar que el instrumento pretende “probar” la hipótesis (implícita o explícita) que se tiene para un proyecto de evaluación. El evaluador debe plantearse la pregunta: ¿qué se desea probar? Por ejemplo se pueden tener los siguientes casos: (1) se desea comprobar la hipótesis de que los estudiantes van a aprender como resultado de enfrentar un conjunto de experiencias de aprendizaje; (2) se espera probar la hipótesis de que las personas llegan a dominar una competencia al término de un proceso de capacitación; (3) se desea demostrar que la planeación didáctica de un curso fue efectiva para atender los propósitos institucionales; (4) se pretende probar la pertinencia de una intervención pedagógica para atacar las deficiencias detectadas en un grupo de jóvenes. Estos ejemplos, entre otra multiplicidad de posibilidades, corresponden a la misma lógica: probar una hipótesis. Al tratar de medir un rasgo latente se utilizan preguntas o ítems que solicitan una respuesta de la persona, pero esto no quiere decir que una prueba debe verse solamente como una colección de preguntas, sino como el instrumento que sirve para el propósito de “probar” las hipótesis de trabajo.
En el caso de las pruebas se debe contar por lo menos con la tabla de validez de contenido, TVC (o con la tabla de especificaciones) que establece el conjunto de evidencias para garantizar, como su nombre lo indica, que el contenido al que se refiere el instrumento cuenta con la validez necesaria y suficiente desde el diseño. Junto con la TVC, se debe contar con evidencias sobre el constructo que se desea evaluar y también sobre la escala utilizada para medir tanto el constructo como el contenido.
El estudio se realizó por medio de modelos multinivel, como una variante de interés para los estudios de predictividad, atendiendo a que la muestra de estudiantes no es rigurosamente aleatoria, existiendo anidamientos por institución que afectan la interpretación de las correlaciones simples, empleadas tradicionalmente en este tipos de análisis.
Con la realización del estudio y el uso de modelos multinivel, se tuvieron algunas constataciones que pueden ser de utilidad para dar seguimiento en estudios posteriores, especialmente en relación con las correlaciones intraclase que se tienen en las instituciones y el cambio de escala del índice Ceneval, en comparación con la escala de calificaciones que se otorgan en las instituciones (generalmente de 6 a 10).
Se comparan algunos resultados obtenidos por modelos multinivel y correlaciones simples, haciendo evidentes algunas de las diferencias de aproximación entre ambos métodos, propiciando nuevas líneas de trabajo para estudios de predictividad con este tipo de herramientas.
The effect that grades have on the allocation of prizes and punishments distorts the interest in evaluation in many school environments, contributing to a poor appreciation of large-scale tests that are supposed to inform and support academic and professional development.
Una sede de ambiente controlado puede ser un centro de cómputo escolar (como en la Facultad de Medicina de la UNAM o en la Universidad de Monterrey), una sede de un colegio de profesionales (como las instalaciones del Colegio de Químicos Farmacéuticos México o del Colegio de Ingenieros Civiles de Querétaro), un centro de aplicación específico (como el Centro de Evaluación de Intermediarios Bursátiles).
Pongo a disposición de los interesados un documento preparado en 1976 que presenta algunos resultados llevados a cabo por un grupo de colegas ingenieros y docentes de la Facultad de Ingeniería, relacionados con el diseño del "Modelo de Evaluación para la Facultad de Ingeniería" de la Universidad Nacional Autónoma de México (UNAM).
Este documento fue solicitado por el Dr. Jeremy Kilpatrick de la Universidad de Georgia durante el Octavo Congreso Internacional de Enseñanza de las Matemáticas celebrado en Karlsruhe, Alemania. El trabajo del Dr. Kilpatrick tuvo el propósito de describir las nuevas tendencias en evaluación para las matemáticas y pretendió incluir información de trabajos sobre evaluación de varios países. Es importante reconocer que el estudio realizado por la Facultad de Ingeniería fue incluido por el Dr. Kilpatrick entre los trabajos que revelaban las nuevas tendencias en evaluación. El informe del Dr. Kilpatrick formó parte de un proyecto convocado por la Comisión Internacional de Educación Matemática de la UNESCO y que se publicó de manera directa entre los interesados en 1976 y en forma de libro editado en 1979.
Reconozco que el estudio preparado por la Facultad de Ingeniería adolecía de algunos errores (involuntarios aunque no graves, atribuibles a la inexperiencia que tenían el editor y los demás autores respecto de la presentación de documentos técnicos en inglés), pero se deja en su versión original porque es un importante testimonio de los primeros trabajos sistemáticos en evaluación realizados en la UNAM; de hecho, es uno de los primeros trabajos serios en evaluación realizados en nuestro país. Curiosamente el documento sigue teniendo vigencia, presentando información muy útil y que puede emplearse como referente todavía en este momento. El trabajo incluye secciones sobre evaluación del aprendizaje, pruebas diagnósticas y reportes de retroalimentación para estudiantes, información institucional, evaluación docente, uso de pruebas objetivas calificadas por computadora, diseño de bancos de ítems (o reactivos) objetivos, implicaciones didácticos y taxonómicas en el aprendizaje de las matemáticas, investigación cualitativa y cuantitativa en educación matemática.
Por tratarse de un informe ejecutivo, se puede apreciar que contenía información presentada de forma muy concreta, atendiendo a los fines solicitados por el Dr. Kilpatrick. Los detalles y respaldos técnicos estaban contenidos en documentos archivados en la División de Materias Propedéuticas de la Facultad de Ingeniería de la UNAM, en particular en la Coordinación de Matemáticas III (actual Cálculo Vectorial). La mayoría de los documentos se perdieron, pero se verá la forma de escanear los pocos materiales disponibles para ser incluidos posteriormente en este sitio Web para su descarga.
El "Modelo de Evaluación para la Facultad de Ingenieria" se desarrolló entre 1975 y 1977 y se usó íntegramente en varios grupos de Matemáticas III, de forma parcial por todos los grupos de la misma asignatura (incluyendo el programa de calificación ATL000- que posteriormente evolucionó a KALT). También se usó en forma parcial para los exámenes de diagnóstico de antecedentes para los estudiantes de primer ingreso de la Facultad y para algunas de las asignaturas de Matemáticas. Por diversas razones (que podríamos calificar de injustificables) el modelo, los bancos de reactivos y las herramientas informáticas y técnicas se dejaron de usar en la Facultad de Ingeniería extraoficialmente en 1985.
El documento puede usarse libremente citando la fuente de esta forma:
Tristán, L.A. (1976). Mathematical learning evaluation in the Engineering Faculty. Reporte para documento publicado por Kilpatrick, J. (1979) "Methods and results of evaluation with respect to mathematics Education" (UNESCO). Facultad de Ingeniería, Universidad Nacional Autónoma de México. 48 pp.