ANOVA
ANOVA
ANOVA
ANOVA na Educação
RESUMO
A análise de variância (ANOVA) é um teste estatístico muito utilizado em investigações nas diversas
áreas do conhecimento. O pesquisador tem necessidade de comparar mais do que dois grupos
experimentais com relação a uma variável quantitativa. Esta análise verifica se existe uma diferença
significativa entre as médias dos grupos e se os fatores exercem influência em alguma variável
dependente. Caso os pressupostos para a análise da variância não sejam satisfeitos terão que ser
aplicados outros métodos, nomeadamente os de comparação múltipla. Na área da Educação, a
ANOVA também tem sido fundamental nas pesquisas pedagógicas, quer na verificação de hipóteses
experimentais, quer na comparação de resultados escolares ou até fidedignidade e validade das notas
de testes pedagógicos, métodos pedagógicos, entre outros.
2
2 ANÁLISE DA VARIÂNCIA A UM FACTOR
Terminologia e Notação
Uma experiência diz-se com efeitos fixos, se os grupos são pré-determinados à partida.
Se o número de observações em cada grupo for igual, diz-se que temos um planeamento
equilibrado. Neste estudo iremos apenas analisar situações em que o planeamento é
equilibrado.
3
a média total dos grupos, representa a diferença entre a média total e a média de cada grupo
( ) e representa um erro aleatório de cada observação sendo estes erros
independentes entre si.
Para este modelo estatístico pressupõe-se os erros aleatórios são independentes, são
normalmente distribuídos, com média 0 (zero) e variância 2, ou seja, . Isto
significa que cada grupo provém de uma população Normal, com certa média mas todos
com a mesma variância 2, ou seja, .
Para verificar se há diferenças significativas na média dos grupos, serão testadas as seguintes
hipóteses:
versus para pelo menos um .
Caso a hipótese nula seja verdadeira, então todos os grupos terão uma média comum . Para
testar estas hipóteses recorre-se à análise da variância dos diversos grupos e a variância 2
será estimada mediante duas situações: a primeira dependendo da veracidade de , e a
segunda não.
4
Considerando a veracidade de , e são ambos estimadores centrados da variância
pois verifica-se que . Como tal, a sua razão deve ser
próxima da unidade.
Caso contrário, se for verdadeira, embora continue a ser um estimador centrado para
que a unidade.
Com base nesta estatística, a hipótese nula será rejeitada ao nível de significância , se
, onde é o valor observado da estatística de teste F. De outro modo,
considerando o , a hipótese será rejeitada se .
Vejamos então a tabela para a análise da variância (Tabela ANOVA) a um factor para efeitos
fixos:
Soma de Graus de Média de
Fonte de variação Fobs p
Quadrados Liberdade Quadrados
5
. No caso da diferença entre qualquer duas médias de grupos, , o
Teste de Barttlett
liberdade, onde ,
6
A hipótese nula será rejeitada se o valor para for superior ou igual ao quantil de
probabilidade da distribuição
Teste de Levene
Este procedimento consiste em fazer uma transformação dos dados originais e aplicar aos
dados transformados o teste da ANOVA. A transformação é dada por:
e , onde representa a transformação dos dados, representa os dados
originais e representa a média do grupo para os dados originais. Uma transformação
(robusta) alternativa considerada para o procedimento de Levene, proposto por Brown (1974),
é substituir a média do nível pela mediana. Diz-se que um teste estatístico é robusto quando a
sua validade não é alterada pela violação dos pressupostos que lhe são subjacentes.
Após a transformação dos dados, é aplicado o teste da ANOVA. Se a estatística F for
significativa, rejeitamos a hipótese de igualdade das variâncias.
O teste de Levene é mais eficiente que o teste de Bartlett quando rejeitamos a hipótese de
normalidade dos dados.
Teste de Cochran
O teste de Cochran compara a maior variância com as demais. Para aplicarmos o teste de
Cochran, vamos assumir que o experimento é equilibrado . A
Quando se rejeita a hipótese nula da igualdade das médias, não se tem informação sobre qual
ou quais dos grupos são responsáveis pela diferença, sendo útil fazer diversas comparações
entre os grupos de forma a analisar essas diferenças. Uma das possibilidades para efectuar
comparações múltiplas consiste em comparar todos os pares de médias, e para .
Muitos testes de comparação múltipla já foram desenvolvidos, destacando-se os mais
conhecidos, o teste de Tuckey, o teste de Scheffé e o teste de Duncan. Estes testes diferem no
modo como analisam as diferenças de médias e ainda no método de controlo do nível de
significância.
7
Existem ainda outros testes, como o teste de Bonferroni ou teste de comparações múltiplas de
Dunn, que segundo Conceição (2008, p. 398) “ […] dispensa a ANOVA e não foi idealizado
para comparações post-hoc (depois disso) e sim comparações a priori.”
contrastes é dada pela razão da soma dos seus quadrados e o quadrado médio do erro, obtendo
assim uma estatística F com (1, g(n-1)) graus de liberdade.
Serão apresentados os testes mais usuais na comparação múltipla de médias:
Teste de Tuckey
“Studentized Range”, no caso dos grupos terem a mesma dimensão. Caso existam diferenças
entre as dimensões dos grupos, é exigido que a , caso esta condição não
seja satisfeita é utilizado o método de Scheffé. Os intervalos de confiança são os idênticos aos
anteriores bastando substituir pela média harmómica dos valores , que é dada
por: .
Uma vantagem para este teste é o facto de, quando os grupos têm a mesma dimensão, os
intervalos de confiança têm menor amplitude e logo é mais preciso.
8
Teste de Scheffé
Este teste serve para comparar qualquer contraste entre médias permitindo diferentes números
de observações por grupo. O teste de Scheffé utiliza uma transformação da distribuição F de
Snedecor para medir o nível de significância das comparações múltiplas. A estatística de teste
Teste de Duncan
A aplicação do teste de Duncan (1955) é bem mais trabalhosa que o teste de Tukey, mas
chega-se a resultados mais detalhados e se discrimina com mais facilidade entre os grupos.
Geralmente, o Teste de Duncan indica resultados significativos em casos em que o Teste de
Tukey não permite obter significância estatística. Para a aplicação do teste é importante
ordenarmos as médias dos grupos em ordem crescente ou decrescente de tamanho. De
seguida, calcula-se o valor da amplitude total mínima significativa (shortest significant range)
para o contraste entre a maior e a menor das médias dos grupos, do seguinte modo:
Se um factor tem um grande número (ou mesmo uma infinidade) de possíveis níveis, não
sendo possível estudar todos, pode ter de se estudar apenas uma amostra aleatória de níveis do
9
factor, na tentativa de extrair conclusões para o factor na sua totalidade. Esta situação surge
quando os níveis de um factor admitem variabilidade, mas em que não é possível estudar a
totalidade dos possíveis casos (níveis do factor). Neste caso são seleccionados aleatoriamente
os grupos que irão ser descritos por variáveis aleatórias e não por constantes. O modelo
estatístico utilizado admitindo o mesmo número de observações nos grupos, é dado por:
, onde é a v.a. que representa a j-ésima observação do grupo
, com e , é a média global dos grupos, e são variáveis
aleatórias independentes.
Para o modelo de efeitos aleatórios pressupõe-se que e são variáveis aleatórias
independentes, em que e , ou seja, são normalmente distribuídas,
independentes, com média zero e variância e , respectivamente. Assim cada grupo
provém de uma população Normal, com média e com variância , ou
seja, . Às variâncias são chamadas de componentes de
variância.
Enquanto no modelo de efeitos fixos as observações são independentes, neste modelo o
mesmo já não acontece pois verifica-se que o coeficiente correlação intra classe é diferente de
zero:
Assim, caso seja aceite significa que não há variabilidade entre os grupos e, e
são ainda ambos estimadores centrados da variância pois verifica-se que
.
Sob a hipótese alternativa , temos que e .
Então, sob a hipótese nula temos que a estatística de teste para estudar a hipótese de não haver
10
A tabela ANOVA resume-se agora do seguinte modo:
Dentro dos
SSE t(n-1) MSE
Grupos
Total SST tn-1
e .
A validade dos pressupostos do modelo relativos aos erros aleatórios podem ser estudados de
forma análoga ao que foi viso para o modelo de efeitos fixos. Assim, no caso da normalidade
será analisado o diagnóstico dos resíduos marginais, . A
11
Independência é adoptada para observações de grupos diferentes e a Homocedasticidade é
analisada para ambas as componentes da variância, entre grupos ( e intra grupo
através de gráficos de pontos, tal como foi referido anteriormente. Poderá ainda ser analisado
o padrão de correlação intra grupo através da correlação uniforme.
Teste de Kruskal-Wallis
Este teste tem como objectivo verificar se k amostras aleatórias independentes podem ou não
ser consideradas como provenientes de populações com a mesma distribuição. Assim, as
hipóteses a serem formuladas são: : as k amostras possuem a mesma distribuição vs
Pelo menos uma das amostras tem distribuição diferente das restantes, dando origem a
valores tendencialmente superiores.
Este teste exige que a variável em estudo seja contínua e que as observações sejam
independentes. A estatística deste teste baseia-se nos postos das observações e a que tiver
menor valor é atribuído o posto 1, e assim sucessivamente, até que todas as observações
tenham atribuído um posto.
Quando ocorrerem empates, atribui-se o valor médio entre as observações, ou seja, atribui-se
a média das ordens que seriam atribuídas a elas se não ocorresse o empate. Para testar a
12
A hipótese nula é rejeitada se com g-1 graus de liberdade ao nível de significância.
Se ocorrerem empates, a estatística de teste T deverá ser corrigida com a seguinte expressão
estatística corrigida é dada por . A hipótese nula neste caso é testada como se não
houvesse empates.
Em Cabo Verde, no ano de 2008/2009, foi publicado o anuário estatístico da Educação, com a
finalidade de divulgar os dados e as informações do sector. Nele constam as estatísticas
oficiais do sistema educativo nacional, nomeadamente alunos, professores, escolas, turmas,
acção social escolar, alfabetização e educação de adultos, entre outras.
1ª Aplicação
Nesta aplicação, foram recolhidos os dados referentes aos 3 primeiros anos dos cursos
leccionados em algumas instituições do ensino superior no ano lectivo de 2008/2009. Foram
apenas consideradas as instituições superiores que já funcionavam nos 3 anos imediatamente
anteriores ao ano a que se referem estes dados. Assim sendo, as instituições a que se refere o
estudo são: Universidade Pública de Cabo Verde (Uni-Cv), Universidade Jean Piaget (Jean
Piaget), Instituto de Estudos Superiores Isidoro da Graça (IESIG), Instituto de Ciências
Económicas e Empresariais (ISCEE), Instituto Superior de Ciências Jurídicas e Sociais
(ISCJS).
Pretende-se verificar se o nº de alunos nas instituições de ensino superior varia
significativamente relativamente ao ano do curso que frequentam.
Observações (institutos)
Grupos Uni-Cv J Piaget IESIG ISCEE ISCJS Totais Médias Desvios
(Anos)
1 1166 1045 259 544 242 3256 651,2 433,84
2 1008 710 229 323 169 2439 487,8 359,08
3 591 374 147 167 126 1405 281 199,83
13
Analisando os dados apresentados através das medidas descritivas e diagrama de extremos
(Figura 1) pode verificar-se que a média do nº de alunos vai diminuindo à medida que o nº de
ano do curso aumenta. A diferença maior verifica-se entre as médias do 1º e do 3º ano do
curso. Também se pode verificar pelas caixas do diagrama de extremos que a variabilidade
dos dados é maior no 1º ano do curso, o que conduzir à heterogeneidade das variâncias.
Através da análise dos gráficos dos resíduos (Figura 3) verifica-se no painel dos resíduos vs
valores ajustados, que o modelo não indicia violação dos pressupostos pois repara-se que as
observações encontram-se empilhadas em 3 colunas apesar de existirem observações que
estão mais dispersas. No entanto, será conveniente aplicar um teste para a igualdade das
variâncias. Neste caso, o teste de Bartlett, indica a não rejeição de H0 pois o valor da
estatística de teste (1.9944) é significativo para o p-value 0.3689,
ao nível de significância de 5%, ou seja, o pressuposto de que as variâncias são iguais em
cada nível do factor, é válido.
Verificando o gráfico Normal Q-Q (Figura 3), conclui-se que os pontos, na sua maioria,
tendem a aproximar-se da recta de 45º mas verifica-se que alguns valores positivos dos
resíduos (extremos) deveriam ser menores. Ainda assim, este gráfico não é grosseiramente
não normal. No entanto, através do teste de normalidade de Shapiro-Wilk verifica-se que de
facto a hipótese inicial de que os resíduos têm distribuição normal é aceite pois a estatística de
teste (0.9075) com p-value 0.1238 para um nível de significância de 5%, é significativa.
Uma vez válidos os pressupostos da ANOVA, e após efectuado o teste F, verifica-se que a
estatística de teste (1.4458) cujo p-value associado é 0.2738, é significativa para um nível de
significância de 5%, ou seja, a hipótese inicial da igualdade das médias do nº de alunos nos 3
primeiros anos do curso é aceite. Estatisticamente, as diferenças entre os 3 anos do curso não
são significativas.
14
2ª Aplicação
Grupos Observações
(nº de Docentes por instituição)
Formação Uni-Cv JPiaget IESIG ISCEE ISCJS Totais Média desvios
O quadro com algumas medidas descritivas dos grupos (Tabela 4) permite verificar que é ao
nível do Doutoramento que se encontram menos docentes mas este nº aumenta
significativamente quando o nível de formação é a Licenciatura. No diagrama de caixas
(Figura 4) verifica-se que apesar de não existem outliers, a variabilidade dos dados é maior
para o nível do Mestrado e Licenciatura, enquanto que para o nível de Doutorado a
variabilidade é bem menor.
Será também neste caso importante verificar se os pressupostos da ANOVA são válidos.
15
O diagrama dos resíduos (Figura 5) mostra que os resíduos estão dispersos aleatoriamente o
que sugere que sejam independentes.
Através da análise dos gráficos dos resíduos (Figura 6) verifica-se que o modelo indicia
violação do pressuposto para a igualdade da variância, pois no 1º gráfico dos resíduos vs
valores esperados, verifica-se que os resíduos tendem a crescer ficando mais dispersos.
Deverá ser realizado o teste de Bartlett para verificar a igualdade das variâncias. Neste caso, o
teste de Bartlett indica a rejeição de H0, pois a estatística de teste (11.4046), é significativa
com o p-value 0.003338, ao nível de significância de 5%. Assim, conclui-se que o
pressuposto para a igualdade das variâncias não é válido.
Verificando o gráfico Normal Q-Q (Figura 6), e apesar dos pontos extremos se afastarem
mais da recta, conclui-se que no geral, os pontos tendem a aproximar-se da recta de 45º o que
conduz à normalidade dos erros.
A normalidade dos erros também aqui é provada pelo teste de Shapiro-Wilk pois a estatística
de teste (0.963), cujo p-value associado é de 0.7448, é significativa para o nível de
significância de 5%, ou seja, a hipótese nula de que os erros provêm de uma distribuição
normal é aceite.
Assim sendo, e uma vez que o pressuposto da igualdade das variâncias não é válido, será
usado o teste não paramétrico de Kruskal-Wallis como alternativa à ANOVA. No entanto, e
como já foi mencionado anteriormente, a violação deste pressuposto no caso de planeamentos
equilibrados não é muito grave, pelo que os resultados obtidos pela ANOVA seriam idênticos.
Após aplicado o teste de Kruskal-Wallis, obtém-se como valor para a estatística de teste
7.9542, com p-value 0.01874, o que leva a rejeitar a hipótese nula para um nível de
significância de 5%.
4 CONCLUSÃO
16
estatisticamente significativa. Ainda assim, a maioria dos alunos estão no 1º ano e esse nº
tende a diminuir de um ano para o outro. Este tipo de análise será importante também para
comparar os 5 anos de um curso e verificar se neste caso as diferenças são significativas.
Neste estudo, não foi possível realizar a análise dos 5 anos pelo facto da maioria das
instituições do ensino superior em Cabo Verde serem bastante recentes, facto este que leva ao
nº bastante reduzido de alunos nos dois últimos anos do curso.
Caso se verifiquem diferenças significativas entre os anos, questões poderão ser levantadas
sobre os factores que poderão influenciar essas diferenças. Algumas questões como: “Estará o
programa curricular em cada ano do curso adequado?”, “ A elevada expectativa dos alunos
relativamente ao curso, ou até mesmo à instituição poderá ter levado à desistência dos
alunos?”, “O modelo de avaliação será o mais adequado?”, “ Os métodos de ensino são
ajustados?”, deverão ser analisadas num estudo mais aprofundado e abrangente.
Na segunda aplicação, concluiu-se que as diferenças existentes entre o nº de professores com
nível de Doutoramento, Mestrado e Licenciatura é estatisticamente significativo. Verifica-se
um nº bastante reduzido de docentes com o grau de Doutor comparativamente com os graus
de Mestre e Licenciado. Neste caso particular, seria interessante comparar os resultados mais
recentes sobre o nº de docentes, bem como comparar esse nº nos diversos anos escolares, mas
devido à dificuldade em obter os dados não foi possível efectuar esse estudo. De qualquer
modo, será importante analisar com particular atenção, o nº reduzido de docentes doutorados
e tentar encontrar soluções que deverão ir de encontro às necessidades das instituições,
professores e alunos.
A facilidade na atribuição de bolsas de estudo, a formação contínua de professores, melhoria
das condições de trabalho e salário, poderão ser factores que, entre outros, levarão ao aumento
do nº de docentes doutorados nas instituições de ensino superior.
Existem assim inúmeras investigações realizadas na área da Educação nas quais é utilizada a
técnica da ANOVA. Através desta técnica, o investigador consegue comparar grupos
simultaneamente, tendo instrumentos para poder concluir sobre a hipótese inicial de onde
parte a sua investigação. Na Educação, os investigadores procuram a cada dia encontrar
relações entre diversos grupos com determinadas características, avaliar percepções e atitudes
de alunos e professores de forma a encontrar métodos que ajudem a compreender e
ultrapassar as limitações que surgem nesta área.
Neste estudo, foi utilizado o software R que permitiu obter os resultados de uma forma mais
rápida e eficiente. Hoje em dia, com a ampliação da capacidade dos computadores, a ANOVA
17
já está inserida em muitos softwares estatísticos tornando a sua aplicação ainda mais acessível
e mais rápida, não sendo assim necessário ser um expert em estatística para o fazer.
REFERÊNCIAS
REIS, E., Melo, P., Andrade, R., Calapez, T. (2007): Estatística aplicada. Vol I e II, Edições Sílabo. 1ª Edição.
OLIVEIRA, T., (2004): Estatística Aplicada, Universidade Aberta
http://www.somatematica.com.br/biograf/ronald.php
http://www-history.mcs.st-and.ac.uk/Mathematicians/Fisher.html
http://www.des.uem.br/uploads/arquivos_professor/1125193027.pdf
http://www.mat.uc.pt/~cmtm/ECwww/ANOVA.pdf
http://www.fcav.unesp.br/RME/fasciculos/v19/A10_Artigo.pdf
http://www.rbccv.org.br/pdfRBCCV/23-03-14.pdf
http://www.pesquisapsicologica.pro.br/pub7/Klecia_Patricia_Rita_Alexandre.htm
http://www.portalaction.com.br/content/sobre-o-action
http://www.stat.auckland.ac.nz/~iase/publications/icots8/ICOTS8_C183_BEDWELL.pdf
http://www.minedu.gov.cv/index.php?option=com_docman&Itemid=32
ANEXOS
Comandos e outups usados no software R
Aplicação 1
> valores=read.table('c:/Users/Helga/Desktop/valores.txt',header=T,sep=';',dec='.')
> valores
A1 A2 A3
> attach(valores)
> mean(valores)
18
A1 A2 A3
> sd(valores)
A1 A2 A3
>boxplot(valores,xlab="Ano do curso",ylab="Alunos",col=c("yellow","green","red"))
> detach(valores)
> amostra=stack(valores)
> amostra
values ind
1 1166 A1
2 1045 A1
3 259 A1
4 544 A1
5 242 A1
6 1008 A2
7 710 A2
8 229 A2
9 323 A2
10 169 A2
19
11 591 A3
12 374 A3
13 147 A3
14 167 A3
15 126 A3
> modelo=lm(values~ind,data=amostra)
> residuos=resid(modelo)
> par(mfrow=c(2,2))
> plot(modelo)
> shapiro.test(residuos)
20
Shapiro-Wilk normality test
data: residuos
Response: values
Aplicação 2
> professores=read.table('c:/Users/Helga/Desktop/professores.txt',header=T,sep=';',dec='.')
> professores
D M L
1 17 108 146
2 13 67 129
3 5 19 66
4 5 89 37
5 3 20 10
> attach(professores)
D, L
> mean(professores)
D M L
> sd(professores)
D M L
21
> boxplot(professores,xlab="Nível de formação",ylab="Professores",col=c("yellow","green","red"))
> detach(professores)
> amostra=stack(professores)
> amostra
values ind
1 17 D
2 13 D
3 5 D
4 5 D
5 3 D
6 108 M
7 67 M
8 19 M
9 89 M
10 20 M
11 146 L
12 129 L
13 66 L
14 37 L
15 10 L
22
> modelo=lm(values~ind,data=amostra)
> residuos=resid(modelo)
> plot(residuos)
> par(mfrow=c(2,2))
> plot(modelo)
> shapiro.test(residuos)
data: residuos
23
W = 0.963, p-value = 0.7448
> bartlett.test(values~ind,data=amostra)
> kruskal.test(values~ind,data=amostra)
24