Papers by Sonia Lopes Toffoli
Educação e Pesquisa, 2016
Resumo As avaliações em larga escala, dependendo da área na qual estão sendo aplicadas, são respo... more Resumo As avaliações em larga escala, dependendo da área na qual estão sendo aplicadas, são responsáveis por orientar decisões importantes. Nos exames educacionais, os objetivos podem estar direcionados para as diferenças individuais, monitorando o desempenho dos estudantes em diversas situações, como também para a apreciação de programas ou de projetos educacionais, subsidiando ou justificando alguma ação na esfera política. A validade das medidas e suas interpretações são de suma importância, com consequências que podem afetar a população envolvida e até mesmo a sociedade. As questões consideradas fundamentais para uma avaliação em larga escala eficiente consistem em validade, confiabilidade, comparabilidade e justiça. Esses termos devem ser considerados sempre que decisões de valores são tomadas com base nas avaliações. São feitas considerações sobre os conceitos de validade e de confiabilidade e a relação existente entre eles. A comparação entre avaliações com itens abertos cons...
Educação e Pesquisa, 2016
Resumo As avaliações em larga escala, dependendo da área na qual estão sendo aplicadas, são respo... more Resumo As avaliações em larga escala, dependendo da área na qual estão sendo aplicadas, são responsáveis por orientar decisões importantes. Nos exames educacionais, os objetivos podem estar direcionados para as diferenças individuais, monitorando o desempenho dos estudantes em diversas situações, como também para a apreciação de programas ou de projetos educacionais, subsidiando ou justificando alguma ação na esfera política. A validade das medidas e suas interpretações são de suma importância, com consequências que podem afetar a população envolvida e até mesmo a sociedade. As questões consideradas fundamentais para uma avaliação em larga escala eficiente consistem em validade, confiabilidade, comparabilidade e justiça. Esses termos devem ser considerados sempre que decisões de valores são tomadas com base nas avaliações. São feitas considerações sobre os conceitos de validade e de confiabilidade e a relação existente entre eles. A comparação entre avaliações com itens abertos cons...
Objetivo:Este artigo propõe a unificação dos exames de acesso aos programas de Residência Médica ... more Objetivo:Este artigo propõe a unificação dos exames de acesso aos programas de Residência Médica (RM) no Brasil. São destacados problemas relacionados à RM e a sua interface com problemas da saúde pública no Brasil e como esta proposta pode auxiliar no enfrentamento desses problemas.
Métodos:A proposta consiste na criação de um banco de itens para ser aplicado na seleção unificada para a RM. São destacadas algumas vantagens em utilizar a Teoria de Resposta ao Item (TRI) nesse banco de itens.
Resultados: Os exames de seleção para os programas de RM são elaborados e aplicados de forma descentralizadas, cada instituição é responsável por sua avaliação. A qualidade dessas provas é questionável, os estudos referentes à qualidade dos itens, a validade e a confiabilidade dos instrumentos não são comumente divulgados.
Conclusão: A avaliação é importante em todo sistema de ensino, provocando transformações necessárias e monitoramento do ensino e da aprendizagem. A proposta da unificação da prova de seleção para a RM, além de oferecer uma avaliação de qualidade elevada às instituições participantes, poderia servir como mais um recurso para avaliar e consequentemente provocar intervenções de melhorias nos cursos de graduação em medicina, fornecer
dados para estudos e permitir uma mobilidade regional.
The goal of this study is to analyze the quality of ratings assigned to two constructed response ... more The goal of this study is to analyze the quality of ratings assigned to two constructed response questions
for evaluating the written ability of essays in Portuguese language from the perspective of the many-facet
Rasch (MFR [14]) model. The analyzed data set comes from 350 written tests with two open-item tasks
that were developed based on a rating process independently marked by two rater coordinators and a group
of 42 raters. The MFR model analysis shows the measurement quality related to the examinees, raters,
tasks and items, and classification scale that has been used for the task rating process. The findings indicate
significant differences amongst the rater severities and show that the raters cannot be interchanged. The
results also suggest that the comparison between the two task difficulties needs further investigation. An
additional study has been done on the scale structure of the classification used by each rater for each
item. The result suggests that there have been some similarities amongst the tasks and a need of revision
for some criteria of the rating process. Overall, the scale of evaluation has shown to be efficient for a
classification of the examinees
Esta tese apresenta um estudo sobre as avaliações com itens de respostas
construídas em larga esc... more Esta tese apresenta um estudo sobre as avaliações com itens de respostas
construídas em larga escala no contexto do modelo multifacetas de Rasch
(LINACRE, 1989 apud LINACRE, 1994). Essas avaliações necessitam de
avaliadores para julgar o desempenho das pessoas quanto à habilidade que
está sendo medida por meio do teste. Entre as avaliações com itens de respostas construídas mais utilizadas no âmbito educacional e de seleção estão
as provas das diversas disciplinas do Ensino Médio, as provas de redação do
ENEM e dos concursos vestibulares e as provas com itens abertos de concursos para provimento de vagas de trabalho.
Os resultados das avaliações com itens de respostas construídas não
dependem apenas do nível de habilidade dos examinandos quanto ao construto avaliado e da dificuldade das tarefas, dependem também da severidade
dos avaliadores que julgam os desempenhos e da estrutura da escala de classificação. Um dos principais problemas nessas avaliações é a pontuação de
um mesmo desempenho com graus diferentes de severidade. Quando existem
vários avaliadores, o ideal é que todos atribuam exatamente a mesma pontuação para os mesmos desempenhos observados, essa é a condição principal
para se ter confiabilidade de pontuação. Entretanto, são muitos os fatores que
podem causar variabilidade nessas pontuações.
O modelo multifacetas de Rasch vem sendo cada vez mais utilizado
para aferir a qualidade das avaliações com itens de respostas construídas, por
permitir a inclusão de outras variáveis aos sistemas avaliativos, além da capacidade dos indivíduos e da dificuldade das tarefas.
Algumas dessas variáveis consistem em importantes fontes geradoras
de vieses nos processos avaliativos. Como exemplos têm-se as características
pessoais dos avaliadores, as diferenças entre a severidade dos avaliadores, as
tendências dos avaliadores em julgamentos sistemáticos, as diferenças entre
as dificuldades de tarefas distintas e a variação quanto ao entendimento e
utilização das categorias da escala de classificação por parte dos avaliadores.
O modelo multifacetas de Rasch permite a inclusão de cada variável que pode
interferir na avaliação, além de possibilitar análises para os efeitos causados
por cada elemento que faz parte da avaliação individualmente, o que torna a
utilização desse modelo muito vantajosa.
O objetivo deste estudo é estabelecer como o modelo multifacetas de
Rasch pode contribuir para a determinação da qualidade das avaliações com
itens de respostas construídas. A abordagem utilizada pelo modelo multifacetas de Rasch proporciona análises sobre a qualidade das medidas relacionadas
aos examinandos, aos avaliadores, às tarefas, aos itens e às escalas de classificação utilizadas para a pontuação das tarefas.
Este trabalho também apresenta uma aplicação do modelo multifacetas de Rasch aos dados provenientes de uma avaliação real, na qual estabelece
as principais análises sobre a qualidade dessa avaliação.
Uploads
Papers by Sonia Lopes Toffoli
Métodos:A proposta consiste na criação de um banco de itens para ser aplicado na seleção unificada para a RM. São destacadas algumas vantagens em utilizar a Teoria de Resposta ao Item (TRI) nesse banco de itens.
Resultados: Os exames de seleção para os programas de RM são elaborados e aplicados de forma descentralizadas, cada instituição é responsável por sua avaliação. A qualidade dessas provas é questionável, os estudos referentes à qualidade dos itens, a validade e a confiabilidade dos instrumentos não são comumente divulgados.
Conclusão: A avaliação é importante em todo sistema de ensino, provocando transformações necessárias e monitoramento do ensino e da aprendizagem. A proposta da unificação da prova de seleção para a RM, além de oferecer uma avaliação de qualidade elevada às instituições participantes, poderia servir como mais um recurso para avaliar e consequentemente provocar intervenções de melhorias nos cursos de graduação em medicina, fornecer
dados para estudos e permitir uma mobilidade regional.
for evaluating the written ability of essays in Portuguese language from the perspective of the many-facet
Rasch (MFR [14]) model. The analyzed data set comes from 350 written tests with two open-item tasks
that were developed based on a rating process independently marked by two rater coordinators and a group
of 42 raters. The MFR model analysis shows the measurement quality related to the examinees, raters,
tasks and items, and classification scale that has been used for the task rating process. The findings indicate
significant differences amongst the rater severities and show that the raters cannot be interchanged. The
results also suggest that the comparison between the two task difficulties needs further investigation. An
additional study has been done on the scale structure of the classification used by each rater for each
item. The result suggests that there have been some similarities amongst the tasks and a need of revision
for some criteria of the rating process. Overall, the scale of evaluation has shown to be efficient for a
classification of the examinees
construídas em larga escala no contexto do modelo multifacetas de Rasch
(LINACRE, 1989 apud LINACRE, 1994). Essas avaliações necessitam de
avaliadores para julgar o desempenho das pessoas quanto à habilidade que
está sendo medida por meio do teste. Entre as avaliações com itens de respostas construídas mais utilizadas no âmbito educacional e de seleção estão
as provas das diversas disciplinas do Ensino Médio, as provas de redação do
ENEM e dos concursos vestibulares e as provas com itens abertos de concursos para provimento de vagas de trabalho.
Os resultados das avaliações com itens de respostas construídas não
dependem apenas do nível de habilidade dos examinandos quanto ao construto avaliado e da dificuldade das tarefas, dependem também da severidade
dos avaliadores que julgam os desempenhos e da estrutura da escala de classificação. Um dos principais problemas nessas avaliações é a pontuação de
um mesmo desempenho com graus diferentes de severidade. Quando existem
vários avaliadores, o ideal é que todos atribuam exatamente a mesma pontuação para os mesmos desempenhos observados, essa é a condição principal
para se ter confiabilidade de pontuação. Entretanto, são muitos os fatores que
podem causar variabilidade nessas pontuações.
O modelo multifacetas de Rasch vem sendo cada vez mais utilizado
para aferir a qualidade das avaliações com itens de respostas construídas, por
permitir a inclusão de outras variáveis aos sistemas avaliativos, além da capacidade dos indivíduos e da dificuldade das tarefas.
Algumas dessas variáveis consistem em importantes fontes geradoras
de vieses nos processos avaliativos. Como exemplos têm-se as características
pessoais dos avaliadores, as diferenças entre a severidade dos avaliadores, as
tendências dos avaliadores em julgamentos sistemáticos, as diferenças entre
as dificuldades de tarefas distintas e a variação quanto ao entendimento e
utilização das categorias da escala de classificação por parte dos avaliadores.
O modelo multifacetas de Rasch permite a inclusão de cada variável que pode
interferir na avaliação, além de possibilitar análises para os efeitos causados
por cada elemento que faz parte da avaliação individualmente, o que torna a
utilização desse modelo muito vantajosa.
O objetivo deste estudo é estabelecer como o modelo multifacetas de
Rasch pode contribuir para a determinação da qualidade das avaliações com
itens de respostas construídas. A abordagem utilizada pelo modelo multifacetas de Rasch proporciona análises sobre a qualidade das medidas relacionadas
aos examinandos, aos avaliadores, às tarefas, aos itens e às escalas de classificação utilizadas para a pontuação das tarefas.
Este trabalho também apresenta uma aplicação do modelo multifacetas de Rasch aos dados provenientes de uma avaliação real, na qual estabelece
as principais análises sobre a qualidade dessa avaliação.
Métodos:A proposta consiste na criação de um banco de itens para ser aplicado na seleção unificada para a RM. São destacadas algumas vantagens em utilizar a Teoria de Resposta ao Item (TRI) nesse banco de itens.
Resultados: Os exames de seleção para os programas de RM são elaborados e aplicados de forma descentralizadas, cada instituição é responsável por sua avaliação. A qualidade dessas provas é questionável, os estudos referentes à qualidade dos itens, a validade e a confiabilidade dos instrumentos não são comumente divulgados.
Conclusão: A avaliação é importante em todo sistema de ensino, provocando transformações necessárias e monitoramento do ensino e da aprendizagem. A proposta da unificação da prova de seleção para a RM, além de oferecer uma avaliação de qualidade elevada às instituições participantes, poderia servir como mais um recurso para avaliar e consequentemente provocar intervenções de melhorias nos cursos de graduação em medicina, fornecer
dados para estudos e permitir uma mobilidade regional.
for evaluating the written ability of essays in Portuguese language from the perspective of the many-facet
Rasch (MFR [14]) model. The analyzed data set comes from 350 written tests with two open-item tasks
that were developed based on a rating process independently marked by two rater coordinators and a group
of 42 raters. The MFR model analysis shows the measurement quality related to the examinees, raters,
tasks and items, and classification scale that has been used for the task rating process. The findings indicate
significant differences amongst the rater severities and show that the raters cannot be interchanged. The
results also suggest that the comparison between the two task difficulties needs further investigation. An
additional study has been done on the scale structure of the classification used by each rater for each
item. The result suggests that there have been some similarities amongst the tasks and a need of revision
for some criteria of the rating process. Overall, the scale of evaluation has shown to be efficient for a
classification of the examinees
construídas em larga escala no contexto do modelo multifacetas de Rasch
(LINACRE, 1989 apud LINACRE, 1994). Essas avaliações necessitam de
avaliadores para julgar o desempenho das pessoas quanto à habilidade que
está sendo medida por meio do teste. Entre as avaliações com itens de respostas construídas mais utilizadas no âmbito educacional e de seleção estão
as provas das diversas disciplinas do Ensino Médio, as provas de redação do
ENEM e dos concursos vestibulares e as provas com itens abertos de concursos para provimento de vagas de trabalho.
Os resultados das avaliações com itens de respostas construídas não
dependem apenas do nível de habilidade dos examinandos quanto ao construto avaliado e da dificuldade das tarefas, dependem também da severidade
dos avaliadores que julgam os desempenhos e da estrutura da escala de classificação. Um dos principais problemas nessas avaliações é a pontuação de
um mesmo desempenho com graus diferentes de severidade. Quando existem
vários avaliadores, o ideal é que todos atribuam exatamente a mesma pontuação para os mesmos desempenhos observados, essa é a condição principal
para se ter confiabilidade de pontuação. Entretanto, são muitos os fatores que
podem causar variabilidade nessas pontuações.
O modelo multifacetas de Rasch vem sendo cada vez mais utilizado
para aferir a qualidade das avaliações com itens de respostas construídas, por
permitir a inclusão de outras variáveis aos sistemas avaliativos, além da capacidade dos indivíduos e da dificuldade das tarefas.
Algumas dessas variáveis consistem em importantes fontes geradoras
de vieses nos processos avaliativos. Como exemplos têm-se as características
pessoais dos avaliadores, as diferenças entre a severidade dos avaliadores, as
tendências dos avaliadores em julgamentos sistemáticos, as diferenças entre
as dificuldades de tarefas distintas e a variação quanto ao entendimento e
utilização das categorias da escala de classificação por parte dos avaliadores.
O modelo multifacetas de Rasch permite a inclusão de cada variável que pode
interferir na avaliação, além de possibilitar análises para os efeitos causados
por cada elemento que faz parte da avaliação individualmente, o que torna a
utilização desse modelo muito vantajosa.
O objetivo deste estudo é estabelecer como o modelo multifacetas de
Rasch pode contribuir para a determinação da qualidade das avaliações com
itens de respostas construídas. A abordagem utilizada pelo modelo multifacetas de Rasch proporciona análises sobre a qualidade das medidas relacionadas
aos examinandos, aos avaliadores, às tarefas, aos itens e às escalas de classificação utilizadas para a pontuação das tarefas.
Este trabalho também apresenta uma aplicação do modelo multifacetas de Rasch aos dados provenientes de uma avaliação real, na qual estabelece
as principais análises sobre a qualidade dessa avaliação.