Academia.eduAcademia.edu

Avaliação educacional em larga escala e accountability

2020, Revista Pesquisa e Debate em Educação

O presente texto procura avaliar o movimento de avaliação educacional em larga escala e accountability que ocorreu no Brasil nas duas últimas décadas. No artigo, é feita uma breve revisão da literatura internacional sobre accountability educacional, destacando os argumentos em sua defesa, a posição dos críticos e a avaliação de seus resultados. Em seguida, é apresentado um histórico do movimento de avaliação em larga escala e accountability no Brasil e, ao final, é realizada uma avaliação desse movimento, abordando três questões: a) até onde a melhoria dos dados educacionais brasileiros no ensino fundamental refletem uma melhoria no aprendizado ou reflete uma “inflação de notas?; b) até que ponto os programas de avalição e accountability contribuíram para esta melhoria? e c) Por que a melhoria no ensino fundamental não atingiu o ensino médio da mesma forma?

AVALIAÇÃO EDUCACIONAL EM LARGA ESCALA E ACCOUNTABILITY: UMA BREVE ANÁLISE DA EXPERIÊNCIA BRASILEIRA Reynaldo Fernandes1 Amaury Patrick Gremaud2 1 Professor Titular do Departamento de Economia – FEA/RP Universidade de São Paulo, Ribeirão Preto, São Paulo, Brasil.Contato: [email protected]. Professor Doutor, Departamento de economia – FEA /RP Universidade de São Paulo, Ribeirão Preto, São Paulo, Brasil.Contato: [email protected]. 2 Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1103 Temas em Avaliação Educacional Resumo O presente texto procura avaliar o movimento de avaliação educacional em larga escala e accountability que ocorreu no Brasil nas duas últimas décadas. No artigo, é feita uma breve revisão da literatura internacional sobre accountability educacional, destacando os argumentos em sua defesa, a posição dos críticos e a avaliação de seus resultados. Em seguida, é apresentado um histórico do movimento de avaliação em larga escala e accountability no Brasil e, ao final, é realizada uma avaliação desse movimento, abordando três questões: a) até onde a melhoria dos dados educacionais brasileiros no ensino fundamental refletem uma melhoria no aprendizado ou reflete uma “inflação de notas?; b) até que ponto os programas de avalição e accountability contribuíram para esta melhoria? e c) Por que a melhoria no ensino fundamental não atingiu o ensino médio da mesma forma? Palavras-chaves: Avaliação educacional. Accountability. Educação básica. SAEB. IDEB. Abstract This paper seeks to evaluate the large-scale educational assessment and accountability movement that has occurred in Brazil over the past two decades. In the article a brief review of the international literature on educational accountability is made, highlighting the arguments in its defense, the position of the critics and the evaluation of its results. This is followed by a review of the large-scale assessment and accountability movement in Brazil. At the end, an evaluation of this movement is conducted, addressing three issues: a) to what extent does the improvement of Brazilian educational data in fundamental education reflect an improvement in learning or reflect a “score inflation”? b) to what extent have evaluation and accountability programs contributed to this improvement? and c) why did the improvement in primary education not reach high school in the same way? Keywords: Educational evaluation. Accountability. Basic education. SAEB. IDEB. 1104 INTRODUÇÃO Enquanto as primeiras iniciativas voltadas à implantação e desenvolvimento do Sistema de Avaliação da Educação Básica (SAEB) datam do final dos anos 80 e que ocorreram duas aplicações anteriores (1990 e 1993), podemos considerar o ano de 1995 como o ano de institucionalização definitiva do SAEB. A partir dessa data, o SAEB vem divulgando resultados de leitura e matemática para uma amostra de estudantes do final de cada uma das etapas do ensino básico. Em conjunto com as informações de movimentação e fluxo escolar, extraídas do censo da educação básica, o SAEB permitiu a realização de um detalhado diagnóstico da qualidade da educação ofertada no Brasil e em cada uma de suas unidades federativas. Nos anos 2000, a avaliação educacional em larga escala no Brasil passou a incorporar a noção de accountability. A criação da Prova Brasil em 2005, a divulgação do Exame Nacional do Ensino Médio (ENEM) por escolas em 2006 e o lançamento do Índice de Desenvolvimento da Educação Básica (IDEB) em 2007, são marcos dessa nova orientação. Os resultados passaram a ser divulgados não apenas para o país e unidades da federação, mas também por redes de ensino e escolas individuais. Esse movimento de avaliação e accountability não ficou restrito ao governo federal. Hoje, diversos estados e alguns municípios possuem sistemas próprios de avaliação e programas de accountability, incluindo bônus para professores com base no desempenho dos alunos nos exames. Os programas de accountability educacional costumam gerar polêmica, seja no Brasil ou no exterior. Seus defensores destacam as dificuldades existentes para monitorar o trabalho da escola (por pais, autoridades e a sociedade em geral). Esse quadro facilitaria o surgimento de um problema típico de agente-principal, onde os interesses dos agentes (professores, diretores e gestores educacionais) podem não estar totalmente alinhados com os interesses dos principais (governantes, eleitores, estudantes e seus familiares). Assim, os exames externos providenciariam informações independentes às autoridades e ao público sobre o desempenho das escolas em disciplinas chaves. Isso, associado a outros incentivos para que os alunos desempenhem bem nos exames, encorajaria os educadores a se concentrarem em tarefas que elevem o desempenho dos estudantes nos exames, potencialmente alterando o método de ensino. Por sua vez, seus opositores sustentam que tais programas, além de não terem impactos comprovados na melhora do aprendizado, distorcem os incentivos das escolas. Duas das principais preocupações dizem Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1105 Temas em Avaliação Educacional respeito à exclusão dos estudantes com mais dificuldades de aprendizado e ao estreitamento do currículo (concentrar o ensino naquilo que é pedido nos exames externos). Ao completarmos 25 anos da institucionalização do SAEB, parece ser uma boa oportunidade para avaliar esse movimento de avaliação educacional em larga escala e accountability. O presente texto pretende caminhar nessa direção. O restante do artigo está organizado em três seções, além da conclusão. Na próxima seção, realizamos uma breve revisão da literatura internacional sobre accountability educacional, destacando os argumentos em sua defesa, a posição dos críticos e, principalmente, a avaliação de seus resultados. A seção III traz um histórico do movimento de avaliação em larga escala e accountability no Brasil. Por fim, na seção IV, faz-se uma avaliação desse movimento no Brasil. ACCOUNTABILITY EDUCACIONAL: SUA RACIONALIDADE, A POSIÇÃO DOS CRÍTICOS E AS EVIDÊNCIAS DISPONÍVEIS DE SEUS RESULTADOS. O uso de avaliações educacionais em larga escala com objetivo de proporcionar estudos sobre aprendizagem e para monitorar sistemas educacionais não é algo novo. Um marco no uso de avaliações em larga escala no estudo da aprendizagem é dado pelo relatório Coleman (COLEMAN et al., 1966), que tinha como objetivo estudar a segregação racial no sistema educacional dos EUA. Esse trabalho é importante por uma série de razões, entre as quais a mudança de foco na forma de identificar a qualidade das escolas: de insumos e processos para resultados. Para efeitos de monitoração do sistema educacional, o National Assessment of Educational Progress (NAEP) dos Estados Unidos surge em 1969. Para essas duas finalidades, as avaliações tinham base amostral (cujos resultados não eram apresentados por escolas, professores ou estudantes) e não costumavam dar origem a grandes polêmicas, ainda que alguns questionamentos já estivessem presentes e incidiam, principalmente, sobre a limitação dos instrumentos (questionários, testes e matrizes) em captar o trabalho que se realizava nas escolas e sobre os processos infra escolares. É só a partir do final dos anos 80 que as avaliações com fins de accountability ganham corpo, tendo como marco a reforma educacional inglesa de 1988. Ao incorporar a função de accountability, as avaliações em larga escala passam a ser universais e dão origem a uma grande polêmica sobre sua validade. Apesar da polêmica, as avaliações educacionais universais para fins de accountability se espalharam ao redor do mundo. Hoje, a maioria dos principais 1106 países desenvolvidos e muitos países em desenvolvimento possuem sistemas universais de avaliação que impõem algum grau de accountability sobre seus sistemas educacionais, escolas e mesmo professores individuais. Por accountability educacional, entende-se o processo de avaliar o desempenho de sistemas educacionais, escolas e professores individuais com base em medidas de desempenho dos alunos. Seguindo Hanushek e Raymond (2005), vamos dividir os programas de accountability em dois tipos: i) aqueles que se limitam a divulgar os resultados dos estudantes por escolas e sistema educacional, a “accountability fraca” e ii) aqueles que, além disso, atrelam prêmios, sanções e assistência a tais resultados, a “accountability forte”. Enquanto nos programas do segundo tipo, as recompensas e sanções são explícitas – como bônus para professores em escolas consideradas excelentes ou ameaças de reestruturação ou fechamento de escolas de baixo desempenho – , nos programas do primeiro tipo, elas estão implícitas – operando menos por ação direta dos gestores do programa e mais por pressão da comunidade. Os programas de accountability educacional têm por objetivo mudar a estrutura de incentivos para que professores, escolas ou sistemas educacionais proporcionem um melhor aprendizado aos seus estudantes. A racionalidade desses programas tem como base o problema do agente-principal, em que os interesses dos agentes (professores, diretores e gestores educacionais) não estariam totalmente alinhados com os interesses dos principais (pais, autoridades e a sociedade como um todo).3 Nesse quadro e na presença de informação imperfeita (assimétrica e/ou incompleta), os educadores poderiam se comportar de uma maneira que não esteja totalmente de acordo com os interesses dos estudantes e/ou de seus responsáveis.4 Admite-se que os responsáveis pela oferta de educação (professores, diretores e gestores) podem alterar suas condutas e, assim, proporcionar aos estudantes um melhor ensino. Entretanto, tais mudanças são consideradas custosas e, por esse motivo, os educadores não as efetivam. Então, ao providenciar informações independentes às autoridades e ao público em geral sobre o desempenho das escolas em disciplinas chaves, os programas de accountability atuariam no sentido de promover incentivos para que os educadores se concentrarem em tarefas 3 Por exemplo, os educadores podem preferir gastar recursos em ações não diretamente associadas ao ensino (tornar o ambiente mais aprazível para eles ou usar da estrutura da escola para execução de serviços pessoais), podem conceder “benefícios” a eles mesmos, que acabam por comprometer a aprendizagem dos estudantes (faltar sem ter que repor as aulas ou focar o ensino na parte do currículo que mais gostam, ao invés daquelas mais importantes para os estudantes) etc. Para uma discussão mais detalhada sobre accountability e incentivos baseados em avaliações, ver, por exemplo, Fernandes e Gremaud (2009), Figlio e Loeb (2011) e Hout e Elliott (2011). 4 Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1107 Temas em Avaliação Educacional que elevam o desempenho dos estudantes nos exames. Se a simples divulgação dos resultados de desempenho não for considerada suficiente, pode-se atrelar recompensas e sanções às escolas com base no desempenho de seus estudantes (accountability forte). De modo geral, os programas de accountability assumem que é do interesse dos estudantes e/ou de seus responsáveis que as escolas concentrem seus esforços no ensino de algumas disciplinas chaves, cujo aprendizado pode ser aferido por avaliações em larga escala. Evidentemente, quanto mais alinhado com esse objetivo estiver o interesse dos educadores, menos efetivo tenderá a ser o programa de accountability. Assim, alguém que considere que os professores já fazem o máximo para proporcionar aos estudantes o melhor aprendizado, tenderia a considerar que qualquer política de incentivos para eles seria, no mínimo, inócua. Por outro lado, aqueles que acreditam que a qualidade da educação pode melhorar implicitamente admitem que alguns dos responsáveis pela educação (professores, diretores, gestores de rede ou governantes) podem fazer algo diferente do que vêm fazendo. Nessa perspectiva, em algum nível (professores, escolas ou sistemas de ensino), a accountability pode ser necessária. É importante destacar que diferentes desenhos de programas fornecem diferentes estruturas de incentivos. Por exemplo, se a medida accountability utilizada for a proporção de estudantes considerados proficientes (aqueles com pontuação acima de determinado nível), o incentivo fornecido para as escolas é que elas se concentrem naqueles estudantes logo abaixo do nível de proficiência, retirando atenção daqueles que já ultrapassam esse nível e daqueles com desempenho muito baixo (considerados com baixa probabilidade de ultrapassar o nível fixado). Por sua vez, se a medida de accountability for a pontuação média da escola, o incentivo é para as escolas se preocuparem com todos os estudantes. Os críticos dos programas de accountability levantam uma série de pontos, entre os quais destacam-se: 1) os programas são incompletos, pois não consideram todos os resultados importantes das escolas; 2) suas medidas de aprendizagem são imprecisas; 3) são injustos, ao responsabilizar os educadores por aspectos sobre os quais eles não possuem total controle; e 4) podem gerar distorções como o estreitamento curricular e a exclusão de alunos com maiores dificuldades de aprendizado. Em relação ao primeiro ponto, é difícil discordar da alegação de que os objetivos dos programas existentes são limitados, frente aos múltiplos objetivos que podemos atribuir às escolas. A questão fundamental, no entanto, é sa- 1108 ber se podemos considerar correto sinalizar para as escolas que priorizem suas ações no aprendizado de determinadas disciplinas consideradas chaves. Evidentemente, não há uma resposta óbvia para essa questão, a qual pode variar entre diferentes programas. Programas com objetivos mais estreitos podem incentivar as escolas a tirar o foco de aspectos importantes do ensino, enquanto programas com objetivos muito amplos podem ter dificuldade de obter medidas confiáveis de todos eles, além de proporcionar uma sinalização confusa sobre quais deveriam ser os principais objetivos das escolas. A escolha das medidas de desempenho é uma das decisões mais importantes do desenho do programa. A segunda crítica é a de que os resultados das avaliações são uma medida imprecisa do aprendizado dos estudantes na disciplina considerada. De fato, o resultado dos estudantes nas provas não depende apenas da aprendizagem. Depende também da motivação e preparação específica para realizar o exame; das condições da aplicação; da sorte etc. Kane e Staiger (2002) mostram que os resultados de exames padronizados são medidas sujeitas a muito ruído, particularmente entre as pequenas escolas. A volatilidade das escolas no ranking de desempenho pode desacreditar o indicador utilizado. Mas, é possível adotar procedimentos para minorar esse problema como, por exemplo, usar a média das últimas edições do exame ao invés dos resultados de uma única edição, ou adotar um índice composto que agrega mais de uma medida de resultado. Uma preocupação na avaliação dos programas de accountability é que sua implantação pode levar as escolas a adotar medidas que elevam a pontuação nos exames sem que a aprendizagem seja afetada como, por exemplo, motivar e treinar os estudantes para o teste. Um fenômeno conhecido como inflação de notas (score inflation). Quanto ao ponto três, é verdade que os resultados dos exames padronizados incorporam, além do esforço da escola e de seus professores, influências advindas da família, dos amigos e das habilidades inatas dos estudantes, bem como do erro aleatório de medida. Entretanto, isso não é necessariamente um problema em um programa de “accountability fraca”, limitado à ampla divulgação dos resultados. O público interessado pode “extrair o sinal de qualidade” de uma escola, por exemplo, por comparar os resultados de mais de uma edição dos exames com o de escolas próximas e/ou que possuem público similar. Esse não é o caso, no entanto, para os programas de “accountability forte”. Para esses, a questão da medida de desempenho é um elemento sensível, já que as premiações e/ou punições são automaticamente atreladas a ela. Nesse caso, seria necessário adotar alguma medida de valor adicionado.5 5 Para uma discussão sobre Modelos de Valor Adicionado ver, entre outros, Reardon e Raudenbush (2009). Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1109 Temas em Avaliação Educacional Por fim, os programas podem promover distorção de incentivos, mas existem formas de, se não as eliminar, reduzi-las. Se os objetivos dos programas são adequados (concentram-se no que é prioritário), o estreitamento do currículo não vem a ser um problema. Por outro lado, pode haver incentivo para a exclusão de alunos de baixa proficiência. Assim, os programas devem procurar incluir formas de penalizar a exclusão de alunos com baixa proficiência. Existe hoje uma importante literatura avaliando o impacto de diversos programas de accountability implementados nos Estados Unidos e em outros países. Duas revisões dessa extensa literatura são Figlio e Loeb (2011) e Hout e Elliott (2011). As duas revisões apontam que a resposta das escolas aos programas de accountability podem ir tanto na direção intencionada pelo programa, quanto em adotar ações que visam a elevar o desempenho nos exames sem a correspondente melhora no aprendizado. Por exemplo, Hout e Elliott (2011, p. 62-63) apontam: Além das mudanças no ensino de determinado assunto, há evidências de tentativas de aumentar as pontuações de maneiras completamente não relacionadas à melhoria do aprendizado. As tentativas incluíram o ensino de habilidades para a realização dos testes, a exclusão de alunos de baixo desempenho dos testes, a alimentação dos alunos com refeições de alto teor calórico nos dias de teste, o fornecimento de ajuda aos alunos durante um teste e até a alteração das respostas dos alunos após a conclusão do teste. Os dois estudos também encontram evidências de inflação de notas (score inflation), no sentido que o impacto positivo dos programas nos exames utilizados pelo programa (high-stakes test) tendem a ser maior do que nos exames não utilizados pelo programa (low-stakes test). Quanto a avaliação dos programas em elevar a aprendizagem nas disciplinas consideradas, as revisões chegam a conclusões diversas. Figlio e Loeb (2011) chegam a uma conclusão mais positiva dos programas, enquanto Hout e Elliott (2011) têm uma posição mais negativa. Isso é interessante, uma vez uma parcela importante dos artigos revisados é comum às duas revisões.6 Figlio e Loeb (2011, p. 383) concluem que “A preponderância de evidências sugere efeitos positivos, do movimento de accountability nos Estados Unidos durante os anos 90 e início dos anos 2000, sobre o desempenho dos alunos, especialmente em matemática”. 6 Enquanto Hout e Elliott (2011) consideram apenas programas com consequências explicitas, Figlio e Loeb (2011) consideram todos os tipos de programas (accountability “fraca” e “forte”). Hout e Elliott (2011) excluem também programas que se utilizam de regressões descontínuas (por avaliar o impacto de apenas uma parcela dos alunos da escola) e programas para os quais não foi possível obter uma medida de um teste não considerado para efeitos de accountability (low-stakes test). 1110 Por sua vez, Hout e Elliott (2011, p. 92) concluem que “Apesar de usá-los por várias décadas, os formuladores de políticas e os educadores ainda não sabem como usar os incentivos baseados em testes para gerar consistentemente efeitos positivos no desempenho e melhorar a educação”. Apesar da diferença nas conclusões, ao analisar objetivamente as duas revisões, vemos que elas apresentam um quadro muito parecido. Por exemplo, na tabela 4-1 da revisão de Hout e Elliott (2011), que resume os resultados dos artigos considerados, 17 impactos de programas com base em low-stakes tests são apresentados e os resultados são: 8 positivos, 7 não estatisticamente significativos e 2 negativos. Portanto, em sintonia com Figlio e Loeb (2011), os resultados são majoritariamente positivos. Entretanto, Hout e Elliott (2011) preferem destacar o pequeno valor das estimativas. A valor médio das estimativas por eles considerada é de 0,08 desvios padrão da distribuição de notas dos alunos do estado norte-americano (ou país) considerado. Eles também destacam que os impactos positivos se concentram em matemática e nas séries iniciais. Ainda que o uso do valor de 0,08 não esteja isento de críticas, ele dá uma dimensão dos impactos obtidos.7 Ao rever esses trabalhos, uma conclusão mais apropriada seria: as evidências disponíveis sugerem que, em média, os programas de accoubtability educacional apresentam efeitos positivos, mas modestos. Além disso, se concentram em matemática e nas séries iniciais. Para finalizar essa seção, seria importante destacar dois aspectos relacionados à conclusão acima. Primeiro, encontrar impactos modestos e concentrados nas séries iniciais em matemática não é uma exclusividade dos programas de accountability. Análises de impacto de reformas educacionais mais dispendiosas que accountability (aumento de salários dos professores, redução do tamanho da turma etc.) têm, na melhor das hipóteses, encontrado resultados modestos e, da mesma forma, concentrado em matemática e nas séries iniciais.8 Por fim, a utilização de uma valor médio das estimativas esconde variações não apenas entre programas, mas também entre escolas de um mesmo programa. Parece que, quando o programa é posto em funcionamento, algumas escolas respondem de modo Hanushek (2012), em texto bastante crítico a Hout e Elliott (2011), contesta o uso do valor de 0,08. Ele incluiria estudos que não encontram os critérios definidos para inclusão na revisão, além de tirar o foco de programas que apresentam um excelente desempenho. 7 8 Por exemplo, Aos e Pennucci (2003) revisam 53 estudos que avaliam o impacto da redução no tamanho da turma. Em todos os casos, a elasticidade do desempenho em relação ao tamanho da classe, em termos absolutos, é menor que 0,15. A maioria dos estudos na revisão mediu os resultados dos alunos (mudança de um ano) com pontuações padronizadas em testes; alguns examinaram as taxas de conclusão do ensino médio. Isso significa que reduzir o tamanho de sala de 30 para 27 alunos eleva o aprendizado anual médio dos estudantes em, no máximo, 1,5%. O efeito positivo de diminuir o tamanho das turmas é mais forte nas séries iniciais. Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1111 Temas em Avaliação Educacional significativo, enquanto outras não dão qualquer resposta. Se for esse o caso, seria interessante investigar o que essas escolas têm de diferente. O que faz com que umas respondam aos incentivos e outras não. UM BREVE HISTÓRICO DA AVALIAÇÃO EDUCACIONAL EM LARGA ESCALA E ACCOUNTABILITY NO BRASIL9 Como visto, é praxe considerar como marco inicial para os processos de avaliação educacional externa, o Relatório Coleman, com testes de desempenho aplicados a mais de 650 mil estudantes e de “surveys” aplicados aos próprios estudantes, pais, professores e diretores de escola, buscando levantar características do contexto e do processo educativo. Junto com este, o relatório Plowden na Inglaterra e a criação do NAEP fazem do final dos anos 60 um marco internacional das avaliações diagnósticas externas das redes educativas. Nas décadas de 60 e 70, não se observam, no Brasil, levantamentos como estes. Boa parte das pesquisas e dos debates aqui travados diziam respeito a questões acerca dos fluxos educacionais: entrada, abandono e reprovações dos estudantes nas escolas e sistemas educativos. Nesse período, as questões de acesso à escola eram graves e preocupações sobre quantos e que tipo de alunos avançavam dentro do sistema estavam na base das pesquisas. Na década de 70, as pesquisas também foram muito influenciadas pela hipótese atrelada à teoria do capital humano de que a concentração de renda brasileira era consequência, pelo menos em parte, do baixo nível educacional da população brasileira. Essas pesquisas se baseavam nas informações acerca do (não) acesso ao sistema educacional e na (baixa) quantidade de séries que os diferentes grupos da população brasileira alcançavam.10 Nessa mesma década, os problemas da evasão e/ou abandono e da retenção e/ou reprovação também eram pontos importantes do debate dando sustentação a iniciativas, ainda na década de 70, de políticas de progressão continuada. Essas discussões avançaram pelos anos 80 junto com o próprio crescimento do número de jovens que adentravam no sistema educacional brasileiro. Se, por um lado, se observa, ao longo da década de 80, fortes 9 Para uma discussão das avaliações externas e do processo de institucionalização do SAEB, ver Bonamino e Franco (1999), Castro (2016), Horta Neto (2007) e Pestana (2016). Segundo Horta Neto (2007), as primeiras medições da educação brasileira fizeram parte do Anuário Estatístico Brasileiro, produzido a partir de 1906, concentrando informações principalmente do Distrito Federal sobre número de escolas, de pessoal docente, matrículas e repetências. Estes dados foram interrompidos em 1918 e retomados, agora nacionalmente, em 1936. 10 1112 melhorias nos dados de acessibilidade para as crianças nos anos iniciais do ensino fundamental, o abandono e a repetência continuavam a estar no centro das controvérsias e acabaram por trazer diversos questionamentos aos levantamentos empíricos realizados sobre estes fluxos educacionais e suas interpretações. Por exemplo, os alunos que deixavam de frequentar a escola e voltavam a se matricular na mesma série no ano subsequente eram considerados evadidos pelas estatísticas oficiais em vez de repetentes. Isso inflava as taxas de evasão e subestimava as taxas de repetência, o que ensejou a introdução de novos modelos para a interpretação dos dados como, por exemplo, o modelo Pro Fluxo.11 Nos anos 80 surgem, junto com algumas pesquisas de cunho etnográficos, as primeiras pesquisas de rendimento escolares (testes cognitivos) atrelados a fatores associados (questionários e observações contextuais). Tais avaliações foram realizadas dentro do Programa de Expansão e Melhoria do Ensino no Meio Rural do Nordeste Brasileiro (EDURURAL), que tinha por objetivos expandir o acesso à escola primária, diminuir as taxas de repetência e evasão e melhorar o rendimento escolar dos alunos. Fazia parte do programa – que contou com apoio do Banco Mundial, da Fundação Carlos Chagas, da Fundação Cearense de Pesquisa e da Universidade Federal do Ceará, além de pesquisadores estrangeiros12 – avaliar os impactos dos investimentos realizados sobre os rendimentos dos alunos e sobre as taxas de reprovação. Esta investigação ocorreu em 1981, 1983 e 1985 e envolveu a aplicação de testes de Português e Matemática em aproximadamente 6.000 alunos da 2ª e 4ª séries do ensino fundamental de 600 escolas em 60 municípios dos estados do Ceará, Piauí e Pernambuco (HORTA NETO 2007; BONAMINO; FRANCO, 1999). Interessante notar que, nessas pesquisas, juntam-se de modo explícito a questão dos fluxos, notadamente do abandono e da repetência, e dos problemas relativos à aprendizagem. As conclusões desses estudos, segundo Bonamino e Franco (1999, p. 105) foram: Com relação ao aspecto da melhoria da performance dos alunos a partir de investimentos realizados, a pesquisa detectou resultado positivo apenas no Estado do Piauí. Mas quanto à melhoria da taxa de promoção, os resultados foram negativos nos três estados, o que sugere que a melhoria nas taxas de promoção é um objetivo ainda mais difícil de ser alcançado do que a melhoria do desempenho dos alunos. O resultado sugere que, no contexto das novas condições viabilizadas pelos investimentos, 11 Ver Fletcher e Ribeiro (1989) e Klein e Ribeiro (1991). 12 Ver Harbison e Hanushek (1992) e Gatti (1994). Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1113 Temas em Avaliação Educacional os professores optam, ao menos em um primeiro momento, por aumentar seus padrões de exigência, o que redunda na tendência de manutenção, ou mesmo de elevação, das taxas de repetência. (...) o baixo rendimento curricular das crianças e o grande número de repetência decorrente de um conjunto de fatores, como baixos salários, influência política na designação de professores e infraestrutura curricular insuficiente, além de precariedades associadas às condições de vida dos alunos e suas famílias, em especial no que se refere às condições de saúde. As bases dessas primeiras investigações com testes e surveys foram aproveitadas nos passos iniciais de institucionalização de um programa de avaliação educacional nacional. De modo a ampliar as informações disponíveis sobre a educação, incorporando, então, mais elementos em torno do processo de aprendizagem do alunado, a Fundação Carlos Chagas foi contratada, em 1987, pelo INEP para a realização do estudo “Avaliação do Rendimento dos Alunos de Escola do 1º Grau da Rede Pública: Um Estudo em 15 Capitais e 24 Cidades”. A própria fundação estendeu este estudo no ano seguinte, com o Governo do Estado do Paraná, e acrescentou 29 cidades ao estudo. Pestana (2016, p. 74) destaca que o próprio Ministério da Educação nesse período sente: necessidade de informações sobre as diversas realidades educacionais. Somente com base em um sistema de dados abrangente e robusto seria possível conhecer amplamente essas realidades e melhorar a capacidade de proposição e execução de políticas educacionais e de auditoria social. Os processos de avaliação educacional destacam-se então, como meio privilegiado de geração de informações do tipo requerido por essa forma de fazer política educacional. Também em 1988, o MEC anunciou a criação do Sistema de Avaliação do Ensino Público de 1º Grau – SAEP. A pretensão era desenvolver mecanismos de avaliação de abrangência nacional, estendendo para todo o país os entendimentos que então se debatiam com o Banco Mundial, no interior do Projeto Nordeste, de promover avaliações semelhantes às realizadas no EDURURAL.13 Uma questão importante, na implementação desses testes, dizia respeito à falta de um currículo nacional a ser utilizado como base para a construção das matrizes de referência. Essas foram construídas com base em consultas aos professores e na verificação sobre o que efetivamente era ministrado nas sa13 A literatura, por exemplo Bonamino e Franco (1999), destaca nesse momento inicial o apoio de organismos internacionais como o Banco Mundial para a promoção destes mecanismos de avaliação. No caso do SAEP, Horta Neto (2007) aponta o financiamento do Instituto Interamericano de Cooperação para a Agricultura – IICA. 1114 las de aula e contou com as duas experiencias anteriores da Fundação Carlos Chagas. Ainda em 1988, pré-testes foram realizados, mas a primeira aplicação só ocorreu em 1990 envolvendo alunos das então 1ª, 3ª, 5ª e 7ª séries. Os dados foram publicados em 1992 já com uma mudança no nome do estudo que passou a adotar o nome de SAEB, sendo esta aplicação de 1990 considerado 1º ciclo do SAEB. Pretendia-se institucionalizar ciclos a cada dois anos, o que foi efetivamente realizado a partir do segundo ciclo que, no entanto, ocorreu apenas em 1993. Atualmente completamos o 15º ciclo avaliativo. Esses ciclos avaliativos do SAEB podem ser divididos em três fases, os dois primeiros (1990 e 1993) compondo a fase de implementação do SAEB Depois, a partir do terceiro ciclo de 1995, temos a segunda fase, de consolidação do SAEB como instrumento de diagnóstico e monitoramento da educação básica brasileira e, a partir de 2005, uma terceira fase marcada por acoplar ao SAEB elementos de accountability que, como visto, já tinham começado a se destacar nas avaliações internacionais no final dos anos 80. Quanto aos dois ciclos iniciais destaca Pestana (2016, p. 75): O arranjo institucional inicial do sistema de avaliação, em período de grande luta por espaços de atuação em todos os níveis, contava com a participação e a contribuição efetiva das administrações estaduais de educação em termos técnicos, operacionais e financeiros. Em menor grau, algumas administrações municipais, especialmente capitais que possuíam grandes redes de ensino, também participaram nessa fase inicial. Nessa interação, que previa divisões de responsabilidades, foi possível aprofundar o debate sobre o significado, os meios utilizados e as consequências do uso da avaliação como uma política de melhoria da qualidade da educação, além de aspectos técnicos do processo de avaliação. Como resultado, essa dinâmica auxiliou na formação de uma primeira leva de técnicos e especialistas aptos a operar o sistema que se desenhava. Em relação aos custos, os estados assumiram diversas atribuições, entre elas o levantamento de dados, aspecto decisivo e o que mais contribuiu para a institucionalização do sistema e, principalmente, para introdução e disseminação de uma cultura de avaliação no setor educacional brasileiro. Ainda segundo Pestana (2016, p. 78): Embora sejam inegáveis os ganhos técnicos obtidos com as modificações realizadas em 1995 (no método de análise dos testes e na metodologia de amostragem adotada), o mesmo não se pode afirmar em relação ao arranjo institucional do Saeb, que centralizou atribuições no MEC e diminuiu as atividades realizadas em parceria com estados e municípios. Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1115 Temas em Avaliação Educacional Depois dos dois primeiros ciclos, em 1994, institucionalizou-se o SAEB como um sistema nacional de avaliação para diagnóstico e monitoramento. Algumas características foram introduzidas e se mantiveram pelos ciclos seguintes com poucas mudanças até 2005. Além da centralização, as principais modificações implementadas a partir do 3º ciclo de 1995 foram: a) a definição da aplicação dos testes nos alunos nas chamadas “series conclusivas”, ou seja, na 4ª e 8ª série do ensino fundamental (atualmente 5º e 9º anos do ensino fundamental), além da inclusão da 3ª série do ensino médio; b) a inclusão de escolas particulares nas amostras; c) a manutenção dos testes versando sobre habilidades e competências nas áreas de Português (leitura) e Matemática (resolução de problemas) – ainda que, em alguns ciclos, terem sido aventados e, por vezes, acrescidos testes em outras disciplinas; d) as avaliações com base em amostras complexas, representativas em diferentes estratos, especialmente com a possibilidade de resultados em termos estaduais e por dependência administrativa; e) a consolidação de instrumentos contextuais, fornecendo informações das características socioeconômicas, culturais e dos hábitos e práticas dos alunos – além dos aspectos infra escolares e das práticas dos docentes e gestores educacionais, que já eram colhidos nos primeiros ciclos; f) a consolidação do uso da teoria da resposta ao item (TRI) como metodologia de apuração dos resultados e definição das escalas (uma única escala por disciplina, envolvendo todas as séries).14 As duas últimas alterações acima permitiram importantes mudanças nas análises até então realizadas. Por um lado, a interpretação dos resultados da avaliação brasileira passou a dialogar com investigações internacionais, em que a preocupação sobre a influência das condições socioeconômicas e culturais sobre os resultados das proficiências dos alunos sempre foi objeto de atenção. No caso brasileiro, se confirma a importância dos aspectos socioeconômicos na explicação das diferenças de resultados entre os alunos, mesmo que o chamado “efeito escola” ainda tenha um peso bastante evidente e, nesse sentido, políticas educacionais tenham amplo espaço para melhorar a qualidade da educação nacional. Por sua vez, o uso da TRI permite a comparação dos resultados ao longo do tempo, e a escala do SAEB passou a ser o termômetro da avaliação da qualidade brasileira. Ou seja, os ciclos avaliativos puderam ser comparados a partir de 1995 nos estratos amostrais semelhantes, mesmo que os testes aplicados ao longo dos anos sejam realizados com provas diferentes e sobre diferentes alunos. Os resultados dessas avaliações acabaram por colocar a questão da 14 1116 Ver Bonamino e Franco (1999). aprendizagem nos debates educacionais ao lado das históricas discussões sobre fluxos (repetência, evasão etc.). Mesmo que existam indefinições sobre quais os resultados que deveriam efetivamente ser esperados para considerar, na escala do SAEB, a educação brasileira proficiente, adequada ou em um nível razoável, era claro que os indicadores mostravam que estes resultados não estavam sendo plenamente alcançados, o processo de aprendizagem deixava a desejar e, no período, estavam em queda. Pelos Gráficos 1 e 2 abaixo, esta comparação das médias de proficiências dos alunos brasileiros nas respectivas séries e disciplinas ao longo desta fase do SAEB (1995 -2005) mostra, de uma forma geral uma queda no desempenho. A própria queda das proficiências é em parte atribuída à ampliação dos fluxos, ao crescimento do acesso ao sistema, e a diminuição da qualidade é atribuída, em boa medida, à expansão do sistema e à dificuldade de se manter um padrão estável de qualidade. Gráfico 1 – Brasil: a evolução das proficiências médias do SAEB de Língua Portuguesa 310 290 270 250 230 210 190 170 150 1995 1997 4a serie EF 1999 2001 8a serie EF 2003 2005 3a serie EM Fonte: dados básicos INEP (2006). Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1117 Temas em Avaliação Educacional Gráfico 2 – Brasil: a evolução das proficiências médias do SAEB de Matemática 300 280 260 240 220 200 180 160 1995 1997 4a serie EF 1999 2001 8a serie EF 2003 2005 3a serie EM Fonte: dados básicos INEP (2006). Ainda em relação à avaliação nesse período, três outros elementos podem ser destacados: a) o desenvolvimento de sistemas avaliativos em outros entes da federação brasileira, especialmente alguns Estados; b) a criação de outras estratégias nacionais avaliativas e; c) a participação do país em avaliações internacionais. Nos primórdios do SAEB, como já observado, houve participação ativa de diversos Estados e alguns municípios no processo. Parte dessas iniciativas deu origem a sistemas estaduais de avaliações, alguns dos quais se mantiveram até hoje, enquanto outros sofreram descontinuidades. Estados como São Paulo, com o SARESP, Minas Gerais, com o SIMAVE e o Ceará, com o SPAECE, são exemplos de sistemas estaduais de avaliação que se iniciaram no final do século passado e se mantiveram ativos até hoje. Um aspecto importante é que tais sistemas estaduais possuem a mesma escala de proficiência do SAEB. Nacionalmente, dois outros sistemas de avaliação foram criados: o Exame Nacional para a Certificação de Competência de Jovens e Adultos (ENCCEJA) e o Exame Nacional do Ensino Médio (ENEM). O primeiro se tornou um exame que possibilitava a certificação para os níveis fundamental e médio de ensino para jovens e adultos que não tiveram a oportunidade de concluir seus estudos no período ideal. Quando criado, em 1998, o ENEM tinha como objetivo principal fornecer um autodiagnóstico aos estudantes que terminavam o ensino médio. O exame, de caráter voluntário, permitia a comparação dos resultados obtidos por um 1118 participante com a média dos demais participantes na edição daquele ano. Um dos problemas metodológicos do ENEM era que ele, diferentemente do SAEB, não permitia a comparabilidade ao longo do tempo dos seus resultados, impossibilitando qualquer afirmação sobre a evolução de desempenho dos estudantes ao final do ensino médio. Ao longo dos anos, várias instituições de ensino superior passaram a se valer dos resultados do ENEM como critério, parcial ou exclusivo, de seleção para ingresso nos seus cursos universitários. Em 2005, o governo federal também passou a utilizar o ENEM como critério para a concessão de bolsas no âmbito do Programa Universidade Para Todos (ProUni). Nesse sentido, o ENEM acabou também cumprindo as funções de seleção e credenciamento. Tais elementos, junto com a gratuidade do exame para aqueles oriundos de escolas públicas, fizeram com que o ENEM, apesar de continuar sendo voluntário, tenha atingido mais de 3 milhões de inscritos em 2005 com forte crescimento da participação dos concluintes do ensino médio no exame, que passou a ter uma boa cobertura nesse segmento. Neste período, o Brasil passou a participar também de avaliações internacionais, o MEC decide pela participação do Brasil nos estudos internacionais do Laboratório Latino-americano de Avaliação da Qualidade da Educação (LLECE). O LLECE foi criado em 1994 com outros 14 países latino americanos, sob a coordenação do Escritório Regional sobre Educação da UNESCO para a América Latina e o Caribe (OREALC/UNESCO). Em 1997, o Laboratório aplicou o Primeiro Estudo Regional Comparativo e Explicativo (PERCE) sobre o desempenho da aprendizagem entre os alunos da 3ª e 4ª séries do ensino fundamental, em leitura e matemática. Anos depois, em 2006, foi aplicado o segundo estudo e, em 2013, o terceiro estudo. Em 2000, o Brasil foi convidado a participar do Programa Internacional de Avaliação de Alunos (PISA). O PISA é uma avaliação internacional (como o TIMSS, PIRLS, CIVICS) que se desenvolve sob a coordenação da OCDE e que, ao longo do tempo, ganhou destaque internacional. A pretensão do PISA é medir a capacidade dos jovens de 15 anos de usar seus conhecimentos e habilidades de leitura, matemática e ciência para enfrentar os desafios da vida real. No primeiro ciclo avaliativo, em 2000, o Brasil foi o único país não membro da OCDE a participar daquele ciclo e também é o único país não OCDE a participar de todos os ciclos que passaram a ocorrer de três em três anos. Com os dados do PISA, fica claro que a aquisição e o desenvolvimento de habilidades e competências por parte dos jovens brasileiros, independente das diferenças de interpretação em torno da escala do SAEB, estava muito abaixo daquelas desenvolvidas na média dos países da OCDE. Outro elemento que Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1119 Temas em Avaliação Educacional ganha destaque com a participação no Brasil no PISA é a volta da questão dos fluxos. O Brasil chama a atenção por ter ainda vários de seus jovens de 15 anos cursando a 6ª série do ensino fundamental, ao invés da 1ª série do ensino médio (ou, ao menos, a 8ª série do ensino fundamental) como seria o esperado. A terceira fase do SAEB se inicia no ano de 2005. A normatização é alterada, e o SAEB passa a englobar um teste com aplicação amostral – inicialmente chamada de Avaliação Nacional da Educação Básica (ANEB) – e um teste com aplicação censitária – a Prova Brasil (oficialmente, Avaliação Nacional do Rendimento Escolar – ANRESC). A Prova Brasil foi aplicada pela primeira vez em 2005 e sua principal diferença em relação ao SAEB é que, dentro de seu universo de referência, que são os alunos das escolas públicas do 5º ano e do 9º ano do ensino fundamental, ela é censitária.15 No ano de 2005, o SAEB e a Prova Brasil foram realizados separadamente, com instrumentos diferentes (testes e questionários). Já em 2007, estas duas avaliações se fundiram e voltamos a ter uma única avaliação externa federal, em que os segmentos que compõem o universo da Prova Brasil foram avaliados censitariamente e seus resultados foram divulgados por escola, municípios, estados e por redes de ensino; enquanto que os outros segmentos que compõem o SAEB, mas não a Prova Brasil, continuaram a ser avaliados amostralmente. Esses outros segmentos são as escolas privadas e o 3º ano do ensino médio, para os quais não existem resultados divulgados por município ou por escola. Os ciclos avaliativos se mantiveram a cada dois anos. Assim, desde 2005, o Brasil passou a contar com o tradicional sistema de avaliação para diagnóstico e, também, com um programa de “accountability fraca”, por escolas e redes de ensino. Ainda dentro desta perspectiva, uma mudança importante no ENEM foi introduzida em 2006. Como estudantes de praticamente todos as escolas do ensino médio participavam do exame que passava de 3 milhões de examinados, viu-se a possibilidade de divulgar os resultados do ENEM agregados por escola.16 Assim, além de autodiagnóstico e de credenciamento, passou a ser possível a utilização do ENEM como um instrumento de diagnóstico e de accountability para o ensino médio. Em 2009, o ENEM foi novamente modificado e nele se introduziu a TRI, permitindo sua comparabilidade ao longo do tempo, A preocupação com a avaliação de outros níveis de ensino marcou também o período e, em termos federais, duas iniciativas foram introduzidas em relação ao processo de alfabetização: a Provinha Brasil e a Avaliação Nacional de Alfabetização (ANA). 15 16 Das mais de 24.250 escolas de ensino médio que constam do Censo Escolar, cerca de 23.000 tinham alunos inscritos no Enem em 2007. 1120 e expandido os currículos avaliados, buscando, assim, diminuir os problemas de estreitamento de currículos (que para o ensino médio eram evidentes). Um dos principais objetivos dessa mudança foi o de atrair as Universidades Federais para utilizar o ENEM em seus processos seletivos. Em 2019, o ENEM teve mais de 5 milhões de inscritos, sendo que 77% desses realizam, de fato, o exame. O ENEM possui algumas vantagens em relação ao SAEB para efeitos de accountability: vai além de matemática e leitura (avalia escrita, ciências naturais e ciências humanas), inclui escolas particulares e, por ser instrumento de seleção das universidades, os alunos tendem a realizá-lo com mais comprometimento. O fato de o ENEM ser de adesão voluntária não deveria ser impedimento para sua ampla divulgação, pois: (a) isso traz pouco impacto na ordenação das escolas e (b) a literatura especializada dispõe de diversos corretores de participação que poderiam ser usados.17 Apesar disso, o INEP anunciou que não mais divulgaria os resultados do ENEM por escolas e, a partir de 2017, mudou a Prova Brasil, que atualmente voltou a ser chamada de SAEB, a qual passou a ser universal para as escolas públicas também no 3º ano do ensino médio. Assim, a base do sistema de accountability no Brasil partir de 2017 é apenas o SAEB, que por enquanto, para o ensino médio, voltou a enfrentar um problema de estreitamento de currículo. Uma outra questão dentro do processo de accountability é a ligação entre as questões de aprendizagem dos alunos e as tradicionais e sempre presentes questões de fluxos na educação brasileira. Como a proficiência em exames padronizados e o fluxo escolar não são independentes, restringir a cobrança aos resultados da Prova Brasil poderia incentivar os professores, diretores e gestores a adotarem medidas dentro das escolas que aumentassem tanto o desempenho médio dos estudantes nos testes padronizados quanto às reprovações, por exemplo, endurecendo dos critérios para aprovação. Assim, foi introduzida uma nova estatística educacional, o IDEB. Este surge com o objetivo de ancorar a accountability em um sistema de metas educacionais, sem que este estivesse baseado apenas nos resultados da Prova Brasil e, portanto, com o risco o de contribuir para agravar o já dramático quadro de repetência e evasão escolar. Acerca do IDEB, podemos acompanhar a descrição feita por Fernandes (2016, p. 103) 18: Para as escolas da amostra do SAEB 2011, a correlação entre as notas do SAEB e do ENEM foi de 0,87 e 0,91 para leitura e matemática, respectivamente. Para aplicação de corretores de participação no SAT dos Estados Unidos ver Dynarski (1987); Dynarski e Gleason (1993); Behrendt, Eisenach e Johnson (1986); e Clark, Rothstein e Schanzenbach (2009). 17 18 Para uma discussão sobre as propriedades do IDEB, ver Fernandes (2007). Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1121 Temas em Avaliação Educacional O Ideb é obtido pela multiplicação da proficiência média dos alunos da escola (N) pela taxa média de aprovação da escola (P): Ideb = NP. Sob certas hipóteses ele pode ser interpretado como a razão entre a proficiência média dos alunos da escola (N) e o tempo médio que os alunos levam para concluir uma série (T): Ideb= N/T. Por exemplo, se, em média, os alunos precisam de dois anos para concluir uma série, o Ideb será igual à metade da proficiência média dos alunos da escola. Ele foi construído como forma de eliminar as reprovações improdutivas: reprovações que não contribuem para elevar o desempenho dos estudantes. Se as reprovações contribuírem para melhorar o desempenho dos estudantes da escola – seja porque incentivam os alunos a estudarem mais, seja porque tornam as turmas mais homogêneas –, a taxa ótima de reprovação seria diferente de zero, mas, provavelmente, muito baixa. Isso se confirmada a crença, de grande parte dos pesquisadores em educação, que reprovações são pouco produtivas. Em 2007, com o objetivo de obter um maior comprometimento das redes e escolas com a melhoria da educação brasileira, foi pactuado, entre o Ministério da Educação e secretarias de educação de estados e municípios, um sistema de metas, e foi estabelecido o Plano de Metas Compromisso Todos pela Educação com base no IDEB. As metas do IDEB foram estipuladas para 2021, com metas intermediárias estabelecidas de dois em dois anos, a partir de 2007. Para a meta de 2021, adotou-se um padrão externo: o desempenho educacional que, em média, era observado nos países da OCDE. Para cálculo do IDEB dos países da OCDE, supôs-se uma taxa de aprovação de 96%. A principal dificuldade foi fixar as notas, uma vez que os países da OCDE não fazem a Prova Brasil. Para tanto, admitiu-se que o PISA ordena os alunos da mesma forma que a Prova Brasil e, então, verificou-se que o percentil da distribuição de notas do Brasil no PISA era correspondente à média de desempenho dos países da OCDE. Encontrado esse percentil, obteve-se a nota correspondente a ele na Prova Brasil de 2005, a qual passou a ser referência para a meta do IDEB. Para definição de metas para redes de ensino e escolas individuais, considerou-se que todas as redes e escolas deveriam contribuir para que o país atingisse a meta estipulada, mas quem partisse de uma situação melhor no início também teria que obter melhores resultado ao final. Ainda que as diferenças de desempenho não fossem eliminadas, as metas consideram uma redução da desigualdade entre redes de ensino e escolas quando comparado com o ano base de 2005. A metodologia adotada considerou que a trajetória do IDEB ao longo do tempo, tanto para o Brasil como para os demais níveis de abrangência, segue o comportamento de uma função logística. Des- 1122 sa forma, foi possível calcular o “esforço” que o Brasil e cada uma das redes e escolas teria que fazer para atingir a meta em 2021, partindo do desempenho observado em 2005. O plano contemplava diferentes incentivos para que as diferentes escolas e redes de ensino acolhessem tais metas e se comprometessem com elas. As escolas que atingissem as metas eram beneficiadas com o aumento de seus recursos no Programa Dinheiro Direto na Escola (PDDE), mas a principal atenção do governo foi às redes que tinham piores índices. O MEC estabeleceu convênios com estados e municípios, por meio da elaboração local de um Plano de Ações Articuladas (PAR). Pelo PAR, os gestores municipais e estaduais se comprometiam a promover um conjunto de ações, responsabilizando-se pelo alcance das metas estabelecidas no âmbito federal. Em contrapartida, passavam a contar com transferências voluntárias e assessoria técnica da União. Quando se observa a ação dos Estados e Municípios brasileiros, deve-se destacar que apesar da adesão das redes estaduais e municipais à Prova Brasil ser voluntaria, apenas alguns pouco municípios não participaram de algumas das avaliações.19 Esta elevada participação é confirmada por pesquisa recentemente realizada (BAUER et al, 2017)20. Elemento importante revelado pela pesquisa que pelo menos 20 Estados desenvolveram indicadores e sistemas próprios de avaliação e aproximadamente 30% dos municípios brasileiros também desenvolveram indicadores e processos avaliativos próprios. Quanto ao movimento de accountability, este também não ficou restrito ao governo federal. Diversos estados e alguns municípios, além de manterem ou desenvolverem sistemas próprios de avaliação, introduziram diferentes programas de accountability. Conforme destaca Brooke (2006), mesmo antes do governo federal, estados como o Ceara, já em 2001, estabeleceram uma conexão entre o seu sistema de avaliação – o SPAECE – e o Projeto Melhoria da Escola, com prêmios e recompensas em dinheiro para escolas e suas equipes que obtivessem os melhores resultados. Esta experiencia foi, ao longo dos anos, modificada, mas a ideia de accountability segue até os dias de hoje no Ceará. Indicadores de qualidade educacional estão atualmente presentes, inclusive na própria transferência de parte do ICMS do Estado para os municípios cearenses.21 Na primeira aplicação da Prova Brasil, o Estado de São Paulo produziu apenas resultados por regional administrativa, mesmo que todas as escolas da rede estadual tenham participado. 19 Segundo Bauer et ali (2017) os municípios não apenas participam da Prova Brasil (96% dos respondentes da pesquisa), mas 97% destes municípios também utilizaram a Provinha Brasil e 90% participaram da ANA. 20 21 Um sistema semelhante está sendo implementado em Pernambuco atualmente. Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1123 Temas em Avaliação Educacional Além do Ceará, Rio de Janeiro e Paraná, segundo Brooke (2006), também desenvolviam sistemas de responsabilização no mesmo momento em que o governo federal desenvolvia o seu. Depois dos passos dados pelo MEC, outros indicadores semelhantes ao IDEB foram desenvolvidos, por exemplo, em São Paulo, e avaliações em outras séries e disciplinas foram produzidas em diferentes municípios e/ou Estados. Políticas de difusão e análise de resultados foram implementadas em várias localidades, assim como políticas de bônus para professores com base no desempenho dos alunos nos exames e/ou em indicadores assemelhados também foram implementados. Segundo Bauer et al. (2017), existe uma parte substancial dos municípios (85%) que utilizam os resultados das avaliações (próprios ou não) em processos de difusão de resultados para diferentes públicos22 - accountability fraca. Quanto à accountability forte, com a concessão de prêmio, bônus ou outras consequências, pouco menos de 30% dos municípios respondentes disseram fazer uso deste tipo de iniciativa. AVALIAÇÃO EDUCACIONAL EM LARGA ESCALA E ACCOUNTABILITY: UMA ANÁLISE DA EXPERIÊNCIA BRASILEIRA. Ainda que não unânime, a implantação e a ampla divulgação das avaliações censitárias, a exemplo da Prova Brasil e do IDEB, tiveram uma boa aceitação por parte da opinião pública. As divulgações têm tido grande repercussão na mídia e têm despertado o interesse de professores e gestores públicos. Botelho et al. (2014) mostram que 80,4% dos professores da rede pública de ensino conheciam o IDEB de sua escola. Há também evidência de que os resultados das avaliações são levados em consideração pela população e impactam a eleição de prefeitos (FIRPO; PIERI; SOUZA, 2017). Entretanto, saber qual o impacto de todo esse movimento de avaliação e accountability educacional sobre a qualidade da educação do Brasil não é algo que possua uma resposta simples. O gráfico 3 sugere uma inflexão nos IDEBs, justamente em 2005, ano de implantação da Prova Brasil e a partir do qual o IDEB passou a ser divulgado.23 Evidentemente, não podemos atribuir, automaticamente, a melhora observada no IDEB à política de accountability 22 Umas destas formas de divulgação de resultados que foi objeto de polêmicas é a colocação de placas nas escolas com os seus resultados. 23 Na realidade, a inflexão observada para o ensino fundamental 1 ocorre um pouco antes, em 2001. O IDEB oficialmente é divulgado a partir de 2005, mas é possível calculá-lo desde 1995, com base nos dados do SAEB e do Censo da Educação Básica. 1124 em questão. A melhora poderia ser consequência de outros fatores que se deram independente e simultaneamente à Prova Brasil e ao IDEB. Por outro lado, o crescimento do IDEB é bastante distinto entre as diferentes etapas de ensino. Ele é bastante expressivo na primeira etapa do ensino fundamental, menos pronunciado na segunda etapa do fundamental e pequeno para o ensino médio. Gráfico 3 – Brasil: evolução do IDEB 1997-2017 6 5,5 5 4,5 4 3,5 3 2,5 1997 1999 2001 2003 2005 Anos Iniciais EF 2007 2009 Anos Finais EF 2011 2013 2015 2017 Ensino medio Fonte: elaboração dos autores dados originais do INEP O gráfico 3 levanta três questões importantes a respeito da evolução do IDEB. Primeira, o aumento significativo do IDEB do ensino fundamental a partir de 2005 é genuíno ou está contaminado por inflação de notas? Segunda, se genuíno, pode ser explicado, ao menos em parte, pela política de accountability? Por fim, por que a elevação do IDEB no ensino fundamental não se verifica para o ensino médio? Sem ter a pretensão de dar uma resposta definitiva a essas questões, esta seção tem por objetivo tecer algumas reflexões sobre elas. Crescimento do IDEB do Ensino Fundamental a partir de 2005: Melhoria no Aprendizado ou Inflação de Notas? Pelo gráfico 3, percebemos a elevação do IDEB no ensino fundamental, especialmente a partir do segundo lustro da primeira década do século XXI. Se decompormos os dados do IDEB, podemos perceber que a melhoria se deve muito aos avanços nas proficiências obtidas na Prova Brasil, ou seja, o avanço do IDEB se deve mais às melhoras na proficiência da Prova Brasil/SAEB do que aos avanços nos dados de aprovação. Os avanços nas proficiências podem ser observados no gráfico 4. Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1125 Temas em Avaliação Educacional Gráfico 4 – Brasil: proficiências Prova Brasil ensino fundamental 2005-2017 270 250 230 210 190 170 150 2005 2007 2009 2011 2013 Matemática 5 ano Portugues 5 ano Matemática 9 ano Portugues 9 ano 2015 2017 Fonte: elaborado pelos autores com dados do INEP. Como visto anteriormente, uma possibilidade é que esta melhoria nas proficiências se deva a fenômenos como os de inflação de notas (score inflation), quando diretores e professores das escolas adotam medidas que elevam a pontuação nos exames sem que a aprendizagem seja afetada como, por exemplo, motivando e treinando os estudantes para o teste. Esta é efetivamente uma possibilidade, mas não temos conhecimento de análises que tenham conseguido estabelecer quanto da ampliação das notas demostradas no gráfico 4 se devem a este fenômeno ou quanto é um crescimento genuíno da aprendizagem. Por outro lado, é importante destacar duas coisas. A primeira é que a elevação das notas, especialmente as do 5º ano, mesmo que pequenas se olhadas de um ciclo avaliativo para outro; quando se olha todo o período, é de mais de 40 pontos (ou por volta de 25 pontos no 9º ano), isto se aproxima a um desvio padrão na escala do SAEB e pode significar algo como o equivalente a quase dois anos adicionais de aprendizagem (um ano no caso do 9º ano), o que não é algo pequeno e dificilmente se obteria apenas com sucessivos processos de treinamento para a Prova Brasil. O segundo elemento a configurar a hipótese que este crescimento não se deve apenas ao fenômeno da “inflação de notas” é o desempenho do Brasil em um outro teste, diferente e aplicado amostralmente no Brasil, no caso os dados do PISA. Estes dados poderiam ser comparados especialmente com os resultados do 9º ano (apesar do resultado do PISA ser negativamente impactados pelos alunos de 15 anos que frequentam o 7º e 8º anos). No gráfico 5, o resultado dessa avaliação (PISA) é 1126 mostrado e possui um comportamento relativamente parecido com os dados da Prova Brasil, reforçando, assim, a hipótese de que, se não podemos afastar totalmente fenômeno do “score inflation” no caso brasileiro, ele claramente também não pode explicar todo o ganho de proficiência e efetivamente existe aprendizagem genuína nos dados sobre a evolução do SAEB/Prova Brasil. Gráfico 5 – Brasil: resultados do PISA 2000-2018 420 400 380 360 340 320 300 2000 2003 2006 Matemática 2009 Leitura 2012 2015 2018 Ciências Fonte: elaborado pelos autores com base em dados da OCDE. Os Programas de Avalição e Accountability Contribuíram para O Aumento do IDEB a partir de 2005? Como vimos na subseção anterior, a elevação das pontuações do SAEB e do IDEB do ensino fundamental (especialmente na 1ª fase) foi expressiva e não pode ser justificada apenas por inflação de notas. Assim, somos levados a concluir que houve melhora das condições de ensino-aprendizagem após 2005. Evidentemente, não temos como afirmar que tal fato não teria ocorrido se a política de accountability relacionada à Prova Brasil e ao IDEB não tivesse sido implantada. Uma melhor interpretação seria, talvez, que tal crescimento decorre de uma maior mobilização de diversas esferas de governo (federal, estadual e municipal) e da sociedade em geral para a melhoria da educação, onde a política relacionada à Prova Brasil e o IDEB seja apenas um elemento desse movimento mais geral. Vários fatores poderiam ser relacionados para ajudar a explicar o crescimento das pontuações obtidas nas avaliações. Em primeiro lugar, o grande aumento na taxa de frequência à pré-escola ocorrido entre 1985 e 2005 pode ter contribuído para que as crianças que ingressaram no ensino fundamental no pe- Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1127 Temas em Avaliação Educacional ríodo subsequente tivessem maior capacidade de aprendizado. Além disso, o aumento educacional das mães, que ocorreu entre 1995 e 2005, também pode ter contribuído para aumentar os investimentos familiares nas crianças. Uma medida que merece destaque diz respeito à ampliação do ensino fundamental de oito para nove anos.24 Os gráficos 6 e 7 mostram a evolução do IDEB da primeira fase do ensino fundamental para duas redes de ensino: rede estadual de Minas Gerais e rede municipal de Ribeirão Preto (SP). Gráfico 6 – Minas Gerais IDEB – anos iniciais 6,5 6 6,2 5,8 5,5 6 5 4,9 4,9 4,5 4 2005 2007 2009 2011 2013 Fonte: elaborado pelos autores com base em dados do IBGE. Gráfico 7 – Ribeirão Preto IDEB – anos finais 6,5 6,1 6,1 6 5,5 5 4,9 4,6 4,7 4,5 4 2005 2007 2009 2011 2013 Fonte: elaborado pelos autores com base em dados do IBGE. Em 06/02/2006, foi sancionada lei Federal regulamentando o ensino fundamental com 9 séries, dando prazo até 2010 para que todas as redes de ensino do país se enquadrassem na nova regra. Entretanto, algumas redes já haviam adotado o ensino fundamental de nove anos antes de 2006. 24 1128 Em Minas Gerais, o ano 2009 é o primeiro ano em que os alunos sem repetência chegam ao final da primeira fase do ensino fundamental com cinco anos de escolaridade, ao invés de quatro. Em Ribeirão Preto, isso ocorre no ano de 2011. Assim, o impacto da implantação do ensino fundamental de nove anos parece notório. Eleva o IDEB em cerca de um ponto. Como diferentes redes implantaram o ensino fundamental de nove anos em anos distintos, o impacto da medida na média do IDEB tende a ser mais suave no tempo. Peña (2014) avalia o impacto do ensino fundamental de nove anos na primeira fase do fundamental entre 2007 e 2011, concluindo que a medida elevou o SAEB de matemática em 4,43 pontos (0,09 DP) e de leitura em 5,11 pontos (0,1 DP). Isso explicaria apenas 11% e 14% da variação observada no período, respectivamente, na pontuação de matemática e leitura. Por fim, iniciativas para melhorar a gestão em alguns municípios, tais como Sobral no Ceará, também trouxeram bons resultados em termos de aprendizado.25 Note que as políticas de accountability não concorrem com várias medidas adotadas pelas escolas e sistemas educacionais na explicação da melhora do desempenho observado. A ccountability não afeta diretamente as práticas de ensino. Ela altera a estrutura de incentivos e, se funcionar, leva os responsáveis a ofertar educação a adotarem medidas que afetam diretamente o processo de ensino-aprendizagem: controle de faltas docentes, redução do tamanho das turmas, alteração do currículo, tutoria etc. De todo modo, dado a magnitude da evolução dos indicadores e o período da reversão de tendência, é difícil argumentar que as políticas de avaliação e accountability não contribuíram em nada com a melhoria da aprendizagem no ensino fundamental no Brasil. Por Que o Crescimento do IDEB no Ensino Fundamental não Atingiu o Ensino Médio? O crescimento do IDEB observado para o ensino fundamental não se repete para o ensino médio. O crescimento do IDEB entre 2005 e 2017 foi de apenas 0,4 pontos nesse segmento. E mais, esse crescimento foi comandado pela redução da repetência. No período, a proficiência cresceu 10,9 pontos em leitura e diminuiu 0,7 em matemática. Em matemática, a proficiência atinge em 2015 (267,5 pontos) o menor valor observado para o SAEB/Prova Brasil, desde sua implantação em 1995. Esse desempenho pouco favorável do ensino médio tem gerado preocupação e controvérsia. 25 Ver Rocha, Komatsu; Menezes-Filho (2018). Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1129 Temas em Avaliação Educacional Uma parcela da diferença de crescimento entre os IDEBs do ensino fundamental e do ensino médio poderia ser explicado pela inflação de notas. Como o ensino médio não tem prova Brasil e IDEB por escolas e rede de ensino, os resultados SAEB e IDEB do ensino médio são low-stakes e, em princípio, não contaminados pela inflação de notas. Como vimos, entretanto, a inflação de notas não explica toda a elevação do IDEB e Prova Brasil do ensino fundamental. A interpretação mais pessimista da evolução dos indicadores educacionais a partir de 2005 é de que, em virtude da falta de mudanças no ensino após os anos iniciais do ensino fundamental, os ganhos iniciais vão sendo perdidos ao longo dos anos finais do ensino fundamental e do ensino médio. As gerações beneficiadas pelo melhor ensino nos anos iniciais do ensino fundamental apresentariam, ao final do ensino médio, o mesmo desempenho que teriam atingido na ausência da melhoria do ensino nos anos iniciais. Todo esforço ocorrido nos anos iniciais seria perdido! Entretanto, essa interpretação não é necessariamente correta e, do nosso ponto de vista, não parece ser a mais plausível. Em primeiro lugar, a composição daqueles que fazem a prova em determinada série pode estar mudando ao longo do tempo. Tais efeitos de composição podem ser decorrentes de alterações nos padrões de repetência e evasão. É possível também que seja mais difícil avançar na escala do SAEB quando a pontuação obtida é mais elevada. Assim, em termos de aprendizado, um crescimento de cinco pontos no final da primeira fase do ensino fundamental (por exemplo, de 210 para 215) pode ser menos significativo do que um crescimento de 2 pontos ao final do ensino médio (por exemplo, de 300 para 302). O primeiro ponto (efeitos de composição) chama a atenção para o fato de que, na presença de repetência e evasão, não é tão claro como deveríamos avaliar se o desempenho dos estudantes está melhorando ao longo do tempo. Podemos pensar em três alternativas: (i) comparar o desempenho de determinada série ao longo do tempo, independentemente da idade dos alunos; (ii) comparar o desempenho de gerações sucessivas em determinada idade, independentemente da série cursada; (iii) comparar o desempenho de gerações sucessivas em determinada série, independentemente do ano em que o aluno é testado. Se todos os alunos ingressassem na escola na idade correta e não houvesse repetência nem evasão, essas três comparações seriam idênticas. No entanto, na presença de repetência e evasão, elas podem apresentar resultados muito distintos em caso dessas taxas sofrer alteração ao longo do tempo. 1130 Por exemplo, uma redução da nas taxas de evasão pode levar a um aumento no desempenho entre gerações sucessivas, avaliadas em determinada idade, mas a uma redução no desempenho dos estudantes em determinada série ao longo do tempo. Isso porque uma parcela de estudantes de determinada geração (que antes não seriam esperados a atingir a série em questão) agora é observada na série e esses estudantes possuem, presumivelmente, desempenho inferior daqueles que, nas condições anteriores, seriam esperados a atingir a série em consideração. Parece claro que tanto a repetência quanto a evasão vêm caindo ao longo do tempo. O Gráfico 8 mostra a evolução da taxa líquida de matrícula do ensino médio. Ela sugere que uma parcela de jovens que, nas condições que vigoravam 10 anos atrás, não chegariam ao final do ensino médio, hoje chegam. Como esses jovens, presumivelmente, possuem pior desempenho, esse fato poderia explicar, ao menos em parte, o porquê o crescimento observado na pontuação do SAEB e IDEB sete anos atrás na primeira fase do ensino fundamental não é observado hoje ao final do ensino médio. Gráfico 8 – Taxa líquida de matrícula no ensino médio 60 55 54,4 51,2 50 45 40 44,4 45,3 46,6 48 51,6 51,8 55,5 52 48,8 41 38,4 35 30 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 Fonte: elaborado pelos autores dados básicos INEP. Em relação ao segundo ponto (a dificuldade de avançar na escala do SAEB na medida em que pontuações mais elevadas vão sendo obtidas), ele tem sido observado em diversos exames que utilizam uma escala comum para diversas séries. Por exemplo, a tabela 1 apresenta as pontuações da amostra de normatização do Comprehensive Test of Basic Skills (CTBS), modelo U, desenvolvido pela CTB/McGraw-Hill, verticalmente escalado com base na TRI e utilizando um modelo logístico de três parâmetros. Em ambas disciplinas, Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1131 Temas em Avaliação Educacional o ganho entre séries cai drasticamente entre as séries mais baixas e as mais elevadas. Além disso, o desvio padrão das pontuações diminui na medida em que a pontuação média sobe. A redução do crescimento da pontuação média na medida em que a pontuação média aumenta pode ser uma consequência da forma como a escala é construída. Como destaca Ballou (2009), as escalas com base na TRI admitem que o aumento de proficiência necessário para elevar, em determinado montante, a probabilidade de responder um item corretamente (dado uma probabilidade inicial) é independente do grau de dificuldade do item. Isso significa que, considerando itens que se diferenciam apenas pelo grau de dificuldade, o aumento de proficiência requerido para um examinado com baixa proficiência elevar a probabilidade de responder corretamente um item fácil de 0,1 para 0,9 é o mesmo que o requerido para outro examinado de alta proficiência elevar a probabilidade de acerto de 0,1 para 0,9 de um item muito difícil. Ou seja, os conhecimentos e habilidades que o primeiro examinado precisaria adquirir têm a mesma medida que os conhecimentos e habilidades que o segundo examinado teria que adquirir. Tabela 1 – Pontuação no Comprehensive Test of Basic Skills (CTBS/U) – 1981, Amostra de Normatização Leitura/Vocabulário Matemática Série Pontuação Média Desvio Padrão Variação Pontuação Média Desvio Padrão Variação 1 2 3 4 5 6 7 8 9 10 11 12 488 579 622 652 678 697 711 724 741 758 768 773 85 78 65 60 59 59 57 54 52 52 53 55 91 43 30 26 19 14 13 17 17 10 5 390 576 643 676 699 713 721 728 736 739 741 741 158 77 44 35 24 20 23 23 17 16 18 20 186 67 33 23 14 6 7 8 3 2 0 Fonte: Yen (1986). Alguém pode considerar que a noção de proficiência implícita nos modelos de TRI não casa com a sua noção intuitiva de aquisição de conhecimentos e habilidades. Desse modo, o fato de o crescimento da proficiência se reduzir na medida em que a proficiência aumenta, não significa, necessariamente, que o aprendizado diminui com a elevação da proficiência, uma vez que isso depende da noção de aprendizado que cada um possui. 1132 Se for verdade que é mais difícil (envolve mais esforço) atingir uma probabilidade de acerto de 0,9 para um item muito difícil (quando os conhecimentos e habilidades adquiridos fixam uma probabilidade de acerto em 0,1), do que atingir essa mesma probabilidade para um item fácil (quando a probabilidade de acero é também 0,1), então, avançar na escala de proficiência vai se tornando mais difícil na medida em que se atingem níveis mais elevados de proficiência. Sendo assim, se ocorresse um aumento de esforço igual para todos os estudantes de todas as séries (ou uma melhora equivalente na qualidade de ensino), seria de esperar que o aumento de proficiência fosse maior nas séries iniciais (onde a proficiência é menor) do que nas séries mais elevadas. Do mesmo modo, o ganho de proficiência nas séries iniciais, em virtude de um melhor ensino, tende a se reduzir na medida em que vai se avançando no sistema, supondo que as condições de ensino tenham se mantido constante nas séries mais elevadas. Note que em toda discussão acima foi admitido que proficiência é unidimensional, como é o caso do modelo de TRI adotado no SAEB. Enquanto a hipótese de unidimensionalidade é questionável para um exame restrito a uma única série, sua aplicação para uma escala vertical, cobrindo diversas séries, é, sem dúvida, bem mais problemática. Por exemplo, vamos admitir que o ensino de matemática nos anos iniciais do ensino fundamental se restrinja apenas à aritmética e que nos anos finais do ensino fundamental, além da aritmética, entrassem outros conteúdos, como álgebra e geometria. Assim, os itens do caderno de teste para os alunos do final da primeira fase do ensino fundamental cobririam apenas aritmética, enquanto os itens do caderno de teste para os alunos do final da segunda fase do ensino fundamental cobririam aritmética, álgebra e geometria. Vamos admitir agora que um aluno, ao final da primeira fase do ensino fundamental, apresente uma proficiência de matemática maior do que a de um aluno ao final da segunda fase do ensino fundamental. De acordo com a metodologia de ligação adotada pelo SAEB (grupos não equivalentes e itens comuns), isso significa que o aluno da primeira fase do ensino fundamental possui mais conhecimentos e habilidades em aritmética, mas não, necessariamente, em matemática. Isso porque o aluno da segunda fase do ensino fundamental pode ser capaz de acertar itens de álgebra e geometria que o aluno da primeira fase do ensino fundamental não é capaz, pelo simples fato de não ter sido exposto a esse material. Se o aluno dos anos iniciais do ensino fundamental fizesse o teste dos anos finais (ao invés do teste dos anos iniciais) apresentaria, provavelmente, um desempenho inferior ao verificado ao realizar o teste referente ao seu nível. Assim, o avanço da proficiência média entre os alunos da primeira e segunda fase do ensino fundamental “subestimaria” o “real” avanço médio de conhecimentos e habilidades matemáticas. Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1133 Temas em Avaliação Educacional Em suma, mudanças na composição dos alunos que realizam o SAEB de ensino médio é a maior dificuldade de avançar na escala, na medida que a pontuação aumenta poderiam explicar, ao menos em parte, o porquê o desempenho no ensino médio não apresenta a mesma evolução do desempenho observado no ensino fundamental alguns anos antes. CONCLUSÃO Este artigo buscou avaliar o movimento de avaliação educacional em larga escala e accountability no Brasil. Realizou-se uma breve revisão da literatura internacional sobre accountability educacional, destacando os argumentos em sua defesa, a posição dos críticos e, principalmente, a avaliação de seus resultados. Traçou-se um histórico do movimento de avaliação em larga escala e accountability no país. Por fim, fez-se uma avaliação desse movimento. O Brasil possui hoje um sistema de avaliação da educação básica que, sem exagero, poderia ser classificado entre os melhores do mundo. Mas, evidentemente, pode ser aprimorado. Além de retratar o passado, as avaliações têm o papel de sinalizar para o sistema o que se espera das escolas. Então, ao menos para a segunda fase do ensino fundamental e para o ensino médio, as avaliações deveriam ir além de leitura e matemática e incluir ciências da natureza e humanidades. No ensino médio, isso era feito com o ENEM, mas foi revertido com a decisão do INEP de não mais divulgar os resultados do ENEM por escolas, e universalizar o SAEB para as escolas públicas de ensino médio. O artigo enfatiza as políticas de avaliação e accountability implantadas pelo Ministério da Educação. Em um outro trabalho, seria interessante apresentar e avaliar mais detalhadamente as experiências de avaliação e accountability realizadas por estados e municípios. 1134 REFERÊNCIAS AOS, S. PENNUCCI, A. K–12 Class Size Reductions and Student Outcomes: a Review of the Evidence and Benefit-Cost Analysis. Documento n. 13-01-2201, Washington State Institute for Public Policy, 2013. BALLOU, D. Test Scaling and Value-Added Measurement. Education Finance and Policy, MIT Press, v. 4, n. 4, p. 351–383, 2009. BAUER, A. et al. Iniciativas de avaliação do ensino fundamental em municípios brasileiros. Revista Brasileira de Educação, v. 22, n. 71, p. 1-19, out. 2017. BEHRENDT, A.; EISENACH, J. JOHNSON, W. R. Selectivity Bias and the Determinants of SAT Scores. Economics of Education Review, 5 (4), p. 363-371, mês?? 1986. BONAMINO, A.; FRANCO, C. Avaliação e Política Educacional: o Processo de Institucionalização do SAEB. Cadernos de Pesquisa, Rio de Janeiro, n. 108, p. 101-132, nov. 1999. BOTELHO, F. B. et al. Sistemas de Accountability nas Escolas Públicas Brasileiras: Identificando a Eficácia das Diferentes Experiências. In: Fernandes, R., Souza, A. P. F., BOTELHO, F.; SCORZAFAVE, L. G. (orgs). Políticas públicas educacionais e desempenho escolar dos alunos da rede pública de ensino. Ribeirão Preto: FUNPEC-Editora, 2014, p. 59-80. BROOKE, N. O futuro das políticas de responsabilização educacional no Brasil. Cadernos de Pesquisa. v. 36, n. 128, p. 377-401, maio./ago. 2006. CASTRO, M. H. G. O Saeb e a Agenda de Reformas Educacionais: 1995- 2002. Em Aberto, Brasília, v. 29, n. 96, p 85-98, maio/ago. 2016. CLARK, M.; ROTHSTEIN, J.; SCHANZENBACH, D. W. Selection Bias in College Admissions Test Scores. Economics of Education Review, Cambridge, n. 28, p. 295-307, aug. 2008. COLEMAN, J. et al.; Equality of Educational Opportunity. Washington DC, 1966. DYNARSKI, M. The Scholastic Aptitude Test: Participation and performance. Economics of Education Review, Elsevier, v. 6, n.3, p.263–273, jun. 1987. DYNARSKI, M. GLEASON, P. Using Scholastic Aptitude Test Scores as indicators of state educational performance. Economics of Education Review, Elsevier, v. 12, n. 3, p. 203–211, jun. 1993. Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1135 Temas em Avaliação Educacional FERNANDES, R. A universalização da avaliação e a criação do IDEB: pressupostos e perspectivas. Em Aberto, Brasília, v. 29, n. 96, mai./ago. 2016. ______. Índice de Desenvolvimento da Educação Básica (Ideb). Brasília: Inep, Textos para Discussão, Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira, 26p., 2007. FERNANDES, R. GREMAUD, A.. Qualidade da Educação: Avaliação, Indicadores e Metas. In: Veloso, F., Pessôa, S., Henriques, R. e Giambiagi, F. (orgs). Educação Básica no Brasil: construindo o país do futuro. Editora Campus/ Elsevier, 2009, p. 213-238. FIGLIO, D. LOEB, S. School Accountability. In Hanushek, E., Machin, S. e Woessmann, L. (Eds) Handbook of the Economics of Education, v. 3, North-Holland, 2011, p. 383-421. FIRPO, S.; PIERI, R.;SOUZA, A. P.. Electoral Impacts of Uncovering Public School Quality: Evidence from Brazilian Municipalities. Revista Economia, v. 18, p. 1-17, 2017. FLETCHER, P. R.; RIBEIRO, S. C. Modeling education system performance with demographic data: an introduction to the PROFLUXO model. Paris: Unesco, 1989. GATTI, B. Avaliação educacional no Brasil: experiências, problemas, recomendações. estudos em avaliação educacional, Fundação Carlos Chagas, n.10, p. 67-80, 1994. HANUSHEK, E. A. Grinding the antitesting ax: more bias than evidence behind NRC panel’s conclusions. Educational Next, v. 12, n. 2, p. 49-55, 2012. HANUSHEK, E. A.; RAYMOND, M. Does school accountability lead to improved student performance? Journal of Policy Analysis & Management, v. 24, n. 2, p. 297-327, 2005. HARBISON, R.W.; HANUSHEK, E. A. Educational performance of the poor. New York: Oxford University Press, 1992. HORTA NETO, J. L. Um olhar retrospectivo sobre a avaliação externa no Brasil: das primeiras medições em educação até o SAEB de 2005. Revista Ibero Americana de Educacion, Brasília, v. 42. n. 5, p 1 -13, abr. 2007. HOUT, M.; ELLIOTT, S. W. Incentives and test-based accountability in education. National Research Council of National Academies. Washington, DC: The National Academies Press, 2011. 1136 KANE, T.; STAIGER, D. The promise and pitfalls of using imprecise school accountability measures. Journal of Economic Perspectives, v.16, n. 4, p. 91–114, fall 2002. KLEIN, R.; RIBEIRO, S. C O Censo Educacional e o Modelo de Fluxo: o problema da repetência. Revista Brasileira de Estatística, v. 52, n. 197-198, p. 5-45, nov. 1991. PEÑA, P. A. Impact of extension of elementary education in Brazil on test scores. Estudo realizado para o programa Todos pela Educação, 2014. Disponível em: http://www.todospelaeducacao.org.br/biblioteca/1524/impact-of-elementary-school-extension-on-test-scores/. Acesso em: 1 de novembro de 2019 PESTANA, M. I. Trajetória do SAEB: criação, amadurecimento e desafios. Em Aberto, Brasília, v. 29, n. 96, p. 71-84, mai./ago/, 2016. REARDON, S. F. RAUDENBUSH, S. W. Assumptions of value-added models for estimating school effects. Education Finance and Policy, v. 4, n. 4, p. 492-519, 2009. ROCHA, R.; KOMATSU, B.; MENEZES-FILHO, N. . Avaliando o impacto das políticas educacionais em Sobral, Texto para discussão, Insper, n.35, out. 2018. YEN, W. The choice of scale for educational measurement: an IRT perspective. Journal of Educational Measurement, v. 23, n. 4, p.299-325, 1986. Recebido em: 03 de dezembro de 2019 Aceito em: 01 de junho de 2020 Publicado em: 30 de junho de 2020 Revista Pesquisa e Debate em Educação, Juiz de Fora, MG, v.10, n.1, p.1103 - 1137, jan./jun. 2020. 1137