8
Pressuposições do Modelo Estatístico: Violações,
Implicações, Verificação e Remédios
Conteúdo
8.1
Introdução ..............................................................................................................285
8.2
Pressuposições do modelo estatístico ......................................................................286
8.3
Violações das pressuposições, implicações e remédios ............................................288
8.3.1
Aditividade dos efeitos........................................................................................288
8.3.2
Homogeneidade de variância das variáveis aleatórias residuais.............................290
8.3.3
Distribuição normal das variáveis aleatórias residuais ..........................................293
8.3.4
Ausência de correlação das variáveis aleatórias residuais .....................................294
8.4
Verificação da adequação do modelo estatístico através da inspeção dos resíduos ...295
8.4.1
Normalidade da distribuição dos erros.................................................................295
8.4.2
Homogeneidade de variância...............................................................................299
8.4.3
Independência da distribuição dos erros ..............................................................301
8.5
Teste de homogeneidade de variância......................................................................301
8.6
Transformação de dados .........................................................................................306
8.7
Transformação potência para estabilização da variância...........................................312
8.8
Exercícios...............................................................................................................316
8.9
Bibliografia .............................................................................................................318
8.1
Introdução
Os procedimentos de inferência derivados da análise de variação fundamentam-se no
modelo estatístico, ou seja, na equação algébrica postulada para a relação entre a variável resposta
e as variáveis explanatórias, e nas correspondentes pressuposições. Por sua vez, a adequabilidade
do modelo estatístico depende de sua representatividade da estrutura do experimento. Ela é
fundamental para a validade das inferências de interesse que serão derivadas do experimento, ou
seja:
286
Estatística Experimental. 2. Análise Estatística de Experimentos
1) Estimação de diferenças de tratamentos. Por exemplo, a diferença de rendimento
médio de duas variedades, em um experimento de melhoramento genético de plantas, e a toxidade
relativa de uma nova droga comparativamente a um padrão, em um experimento de dosagem de
mortalidade. É desejável que tais estimativas sejam não tendenciosas e eficientes, o que significa
que a diferença entre a estimativa e o correspondente valor populacional tenha uma variância tão
pequena quanto possível.
2) Estimação da precisão das estimativas de diferenças de tratamentos, ou seja,
estimação de erros padrões, intervalos de confiança, etc. É desejável que as estimativas de erros
padrões sejam razoavelmente livres de tendenciosidade.
3) Testes de hipóteses. Os mais comuns são o teste da hipótese de igualdade das médias
de tratamentos (nulidade dos efeitos de tratamentos) e o teste da hipótese de que uma diferença de
tratamentos é nula ou corresponde a algum valor estabelecido. É desejável que tais testes sejam
válidos, no sentido de que o nível de significância real coincida com o nível de significância
nominal; em outras palavras, que a probabilidade estipulada de obter um valor da estatística de teste
igual ou mais extremo do que o observado coincida com a probabilidade real de tal evento no
experimento. Ademais, tais testes devem ser poderosos ou sensíveis, isto é, devem detectar a
presença de diferenças reais importantes de tratamentos tão freqüentemente quanto possível
As pressuposições do modelo estatístico visam assegurar essas propriedades desejáveis das
inferências derivadas da análise de variação. Entretanto, distorções decorrem quando são violadas
as pressuposições. A falha de qualquer dessas pressuposições afeta os níveis de significâncias e a
sensibilidade do teste F e de outros testes derivados da análise da variação. Embora esses testes
sejam tolerantes a graus moderados de desvio das pressuposições qualquer desvio aparentemente
importante deve ser verificado e corrigido.
8.2
Pressuposições do modelo estatístico
A primeira pressuposição refere-se à adequabilidade da equação do modelo para exprimir
a estrutura do experimento, ou seja, a relação entre a variável resposta e as variáveis explanatórias
consideradas no experimento. Qualquer falha na formulação da equação do modelo estatístico é
denominada erro de especificação.
Erros de especificação originam-se, principalmente, de desconhecimento teórico e de
falhas referentes à área de pesquisa e à metodologia de pesquisa empregada. Os mais comuns são:
forma algébrica inadequada da equação do modelo e desconsideração de fontes de variação
sistemáticas relevantes: fatores experimentais, interações desses fatores e fatores de unidade.
Saliente-se que falhas graves na estrutura do experimento, decorrentes de inadequação do plano
adotado ou de distorções do plano durante a execução do experimento, geralmente não podem ser
levadas em conta e corrigidas na formulação do modelo estatístico. Esse é o caso, por exemplo, da
presença de características estranhas perturbadoras, ou seja, características estranhas relevantes não
controladas cujos efeitos ficam confundidos tendenciosamente com efeitos de condições
experimentais. Suas implicações são: inflação da estimativa da variância casual, quando agem como
características casualizadas, e tendenciosidade das estimativas da variância casual e dos efeitos de
condições experimentais. Essa questão não será considerada aqui.
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
287
Uma outra fonte importante de erro é constituída por falhas no registro e na transcrição de
dados. Algumas vezes, falhas dessa origem resultam em observações que se destacam no conjunto
de dados do experimento. De modo geral, observações que se salientam em um conjunto de dados,
usualmente designadas observações discrepantes, ou observações aberrantes, devem ser
inspecionadas para a detecção de incorreções nos dados.
As pressuposições do modelo estatístico referentes aos termos de sua equação são listadas
a seguir.
1) Aditividade dos efeitos das fontes de variação da variável resposta. Os efeitos de duas
fontes de variação de uma variável resposta são aditivos se o efeito de uma dessas fontes
permanece constante entre os níveis da outra fonte. Por exemplo, no caso do delineamento blocos
casualizados com um único fator, essa pressuposição do modelo estatístico postula que a
observação na unidade experimental correspondente à j-ésima repetição do i-ésimo tratamento é
adequadamente descrita pela equação:
yi j = m + t i + bj + eij ,
i = 1,2,...,t, j = 1,2,.....,b,
onde m é a média geral esperada do experimento, ti é o efeito diferencial do i-ésimo tratamento, bj é
o efeito diferencial do j-ésimo bloco e eij é o efeito do erro experimental. No caso do modelo fixo,
os efeitos de tratamentos e de blocos são ambos pressupostos fixos; no modelo aleatório, ambos
são aleatório; e no modelo misto, um dos efeitos é fixo e o outro aleatório.
As demais pressuposições referem-se aos termos do erro, variáveis aleatórias com
distribuições de probabilidade caracterizadas a seguir.
2) Ausência de correlação dos erros experimentais. Essa pressuposição, em
combinação com a pressuposição de distribuição normal dos erros, pressuposição 4, implica que os
erros são mutuamente independentes, ou seja, que a probabilidade de que o erro de qualquer
unidade experimental tenha um valor particular não depende dos valores dos erros das outras
unidades.
3) Variância comum dos erros experimentais. Essa pressuposição de homogeneidade
de variância, é, também, denominada homocedasticidade. 1
4) Distribuição normal dos erros experimentais.
Nas situações em que essas pressuposições são válidas, a análise da variação é uma
técnicas que provê procedimentos exatos para inferências (estimação por ponto e por intervalo e
testes de hipóteses) referentes a efeitos de tratamentos. Na prática, entretanto, essas pressuposições
1
Na forma em que está formulada, essa pressuposição é uma simplificação que se aplica à situação
de delineamentos simples. Mais geralmente, o modelo estatístico pode conter mais de um
componente aleatório atribuível ao erro experimental. Por exemplo, nos delineamentos com
parcelas divididas, há um componente atribuível ao erro experimental entre as parcelas principais e
outro ao erro entre subparcelas. Nessa situação, a pressuposição de homogeneidade de variância
aplica-se a cada um desses dois componentes.
288
Estatística Experimental. 2. Análise Estatística de Experimentos
se verificam apenas aproximadamente. As implicações desses desvios dependem da pressuposição.
Em geral, pequenos desvios não têm implicações sérias. Entretanto, é temeroso o emprego
generalizado da análise da variação e dos procedimentos de inferência nela baseados sem a
verificação da validade de suas pressuposições.
As mais comuns violações das pressuposições do modelo estatístico e suas implicações são
discutidas e ilustradas a seguir. Métodos para a verificação das pressuposições e os procedimentos
mais freqüentemente úteis como remédio quando as pressuposições são violadas serão
apresentados e ilustrados ulteriormente.
8.3
Violações das pressuposições, implicações e remédios
8.3.1
Aditividade dos efeitos
Em um delineamento unifatorial com delineamento completamente casualizado, a
pressuposição de aditividade dos efeitos dos tratamentos e dos erros pode ser apropriada se
nenhuma característica estranha exerce influência relevante sobre a variável resposta. Entretanto, se
é ignorada uma característica estranha que possa interagir substancialmente (sinergicamente ou
antagonicamente) com os tratamentos, os efeitos combinados de tratamentos e erros podem ser
multiplicativos em vez de aditivos.
O procedimento mais adequado nessas circunstâncias é tentar a detecção de características
estranhas relevantes em experimentos anteriores, de modo que em novos experimentos de maior
importância elas possam ser: a) controladas através do delineamento (se é improvável que interajam
substancialmente com as condições experimentais), b) consideradas como covariáveis, ou c)
consideradas como fatores experimentais suplementares, se são prováveis suas interações com os
fatores experimentais mais importantes.
Uma ilustração hipotética da aditividade dos efeitos de tratamentos e blocos em um
delineamento em blocos casualizados é apresentada na Tabela 8.1. Observe-se que a diferença
entre os efeitos dos dois tratamentos é igual a 20 para os dois blocos, e a diferença entre os efeitos
dos dois blocos é igual a 60 para os dois tratamentos. Ou seja, a diferença entre os efeitos dos
tratamentos é constante para os dois blocos e a diferença entre os efeitos dos blocos é constante
para os dois tratamentos. Isso significa a ausência de interação entre tratamentos e blocos.
Tabela 8.1. Dados hipotéticos de um experimento com delineamento
blocos casualizados com efeitos aditivos de tratamentos e
blocos.
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
Bloco
1
2
Efeito de
bloco
A
120
180
60
B
Efeito de
Tratamento
100
160
60
20
20
Tratamento
289
Essa pressuposição de aditividade é violada quando os efeitos de tratamentos e blocos são
multiplicativos. Um exemplo hipotético dessa situação é mostrado na Tabela 8.2. Observe-se que
os dados nessa tabela revelam efeitos de tratamentos não uniformes para os dois blocos e efeitos de
blocos não uniformes para os dois tratamentos no que diz respeito aos valores numéricos;
entretanto, esses efeitos de tratamentos e de blocos são constantes em termos de percentagens. Por
exemplo, embora o efeito do bloco 1 seja 60 unidades maior do que o do bloco 2 para o tratamento
A e 50 unidades para o tratamento B, essa diferença de efeitos é igual a 50% para os dois
tratamentos A e B.
Tabela 8.2. Exemplo hipotético de dados de um experimento em
blocos casualizados que revelam efeitos multiplicativos
de tratamento e bloco.
Bloco
1
2
Efeito de
bloco
A
120
180
60 (50%)
B
Efeito de
tratamento
100
20
(17%)
150
30
(17%)
50 (50%)
Tratamento
A presença de efeitos multiplicativos ocorre comumente em pesquisas de controle de
insetos e de doenças, quando os efeitos dos insetos ou dos patógenos são múltiplos dos números
desses insetos ou organismos. Por exemplo, é esperado que o número de ovos depositados por 10
insetos seja o dobro do depositado por 5 insetos.
Para essa circunstância de modelo multiplicativo, uma transformação da variável resposta
para uma escala logarítmica converterá o modelo para a forma aditiva. Por exemplo, a
transformação dos dados da Tabela 8.2 produz os resultados da Tabela 8.3. Observa-se que, agora,
as diferenças entre tratamentos são iguais (constantes) para os blocos; semelhantemente, as
diferenças entre os blocos são constantes entre os dois tratamentos.
Tabela 8.3. A transformação logarítmica dos dados Tabela 8.2
transforma um modelo de efeitos multiplicativos de
tratamentos e blocos em um modelo adiivo.
290
Estatística Experimental. 2. Análise Estatística de Experimentos
Bloco
1
2
Efeito de
bloco
A
2,079
2,255
0,176
B
Efeito de
tratamento
2,000
2,176
0,176
0,079
0,079
Tratamento
A técnica de transformação de dados para lograr a aditividade dos efeitos é,
essencialmente, a mesma com o propósito de homogeneização da variância do erro experimental.
Ela será considerada na Seção 8.6.
Uma pressuposição implícita no modelo estatístico do delineamento blocos casualizados é
a aditividade dos efeitos de tratamentos e blocos. A interação tratamento x bloco, se existe, fica
completamente confundida com a estimativa do erro experimental para inferências referentes a
tratamentos. Assim, se essa interação é relevante, a estimativa da variância atribuível ao erro
experimental resulta inflacionada. O delineamento blocos casualizados é inadequado nesta
circunstância. Uma alternativa é, por exemplo, a inclusão de mais de uma repetição de cada
tratamento por bloco, o que permite a estimação separada da interação e do erro. Semelhantes
considerações valem para o delineamento quadrado latino, que pressupõe a ausência das interações
de tratamentos, filas e colunas.
8.3.2
Homogeneidade de variância das variáveis aleatórias residuais
Esta pressuposição é usualmente a mais crítica. Em geral, a validade dessa pressuposição é
muito menos provável do que a da pressuposição anterior.
Exemplo 8.1. Em um experimento para pesquisa da eficácia de anti-helmínticos no
controle de vermes intestinais de ovinos com diversos tratamentos anti-helmínticos e um tratamento
testemunha sem anti-helmíntico, pode ocorrer que as quantidades de vermes nos animais com o
testemunha sejam consideravelmente superiores às quantidades de vermes nos animais com antihelmínticos. De fato, nessas circunstâncias, a infestação de vermes nos animais com antihelmínticos eficazes será muito pequena e, portanto, terá pouca margem para variabilidade. (Notese que a variância será nula para tratamentos que controlem completamente a infestação de
vermes.) Contrariamente, nos animais com o tratamento controle ou com anti-helmínticos
ineficazes as contagens de vermes serão elevadas. Como conseqüência, pode-se esperar que os
números de vermes nesses animais sejam altamente variáveis, já que a variância é usualmente
proporcional ao grau de infestação. Semelhantemente, a produção de carne dos animais com antihelmínticos mais eficazes tenderá a ser consideravelmente maior do que a dos animais com antihelmínticos menos eficazes ou com o testemunha. Conseqüentemente, a variabilidade da produção
dos animais com anti-helmínticos eficazes tenderá a ser mais elevada do que a dos animais com
anti-helmínticos menos eficazes ou com o tratamento testemunha. Naturalmente, não se pode
esperar que variáveis respostas dessas origens tenham distribuição normal ou satisfaçam a
pressuposição de homogeneidade de variância.
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
291
A distribuição F é razoavelmente robusta a violações da pressuposição de homogeneidade
de variância desde que o número de repetições seja igual para todos os tratamentos. Entretanto, na
situação de números diferentes de repetições, a violação da homogeneidade de variância pode ter
efeito considerável sobre os testes de significâncias, afastando os níveis de significâncias reais dos
níveis nominais, tanto para mais como para menos.
Muitas circunstâncias podem violar a pressuposição de homogeneidade de variância. Em
geral, a heterogeneidade da variância pode ser classificada em duas tipos:
Variância relaciona-se funcionalmente com a média;
Variância não se relaciona funcionalmente com a média.
O primeiro tipo de heterogeneidade de variância usualmente está associado com variáveis
respostas cuja distribuição não é normal e cuja variância relaciona-se com a média em decorrência
da própria forma da distribuição.
Exemplo 8.2. Uma variável resposta que exprime contagem de indivíduos com números
pequenos, tal como número de plantas infestadas por área, número de insetos por área, número de
frutos por planta e número de lesões por folha, usualmente tem distribuição de Poisson, para a qual
a variância é igual à média: 2 m . Nessas circunstâncias, em um experimento sobre infestação de
plantas, as variâncias de variáveis respostas dessa natureza diferirão para os tratamentos cujos
efeitos sobre essas variáveis sejam distintos. Conseqüentemente, é de esperar que a variância seja
proporcional à média: 2 m .
Exemplo 8.3. Uma variável que exprime proporção de indivíduos com um dado atributo,
tal como proporção de sementes que germinam, proporção de insetos que sobrevivem e proporção
de animais infectados, têm distribuição binomial. Uma tal variável descreve proporção de
ocorrências em que cada uma das ocorrências pode ter apenas um de dois resultados possíveis (por
exemplo, germina e não germina, vivo e morto, infectado e não infectado). Para uma variável
resposta dessa origem há uma relação entre a variância e a média da forma: 2 m(1 m) . Assim,
em um experimento em que a média de uma tal variável resposta seja afetado por efeitos de
tratamentos, é de esperar que a variância seja proporcional a m(1-m): 2 m(1 m) .
Exemplo 8.4. Variáveis respostas que exprimem contagem de indivíduos com números
elevados, tais como número de ovos de helmintos nas fezes e número de vermes nas vísceras de
animais, podem ter distribuição lognormal, ou seja, seus logaritmos podem ter distribuição normal.
Nessas circunstâncias, há uma relação entre a variância e a média da forma 2 m 2 .
O segundo tipo de heterogeneidade de variância, em que a variância e a média não se
relacionam funcionalmente, usualmente ocorre em experimentos em que, devido à natureza dos
tratamentos, alguns tratamentos têm erros substancialmente mais elevados (ou baixos) do que
outros. Heterogeneidade de variância entre grupos de tratamentos dessa origem é muito freqüente.
De fato, em pesquisa biológica e agrícola, é comum a tendência de correlação positiva entre a
variância e a média de uma variável resposta em intervalos de valores da variável resposta de
grande amplitude. Como conseqüência, grupos com médias elevadas tendem a ter variâncias
292
Estatística Experimental. 2. Análise Estatística de Experimentos
elevadas e aqueles com médias mais baixas, variâncias menores. Os exemplos que seguem são
ilustrativos.
Exemplo 8.5. Em um experimento para pesquisa da eficácia de herbicidas no controle de
invasoras com diversos tratamentos herbicidas e um tratamento controle sem herbicida, a produção
nas unidades com herbicidas mais eficazes tende a ser mais elevada do que nas unidades com
herbicidas menos eficazes ou com o controle. Conseqüentemente, a variabilidade da produção nas
unidades com herbicidas eficazes é mais elevada do que nas unidades com herbicidas ineficazes ou
com o tratamento controle. Naturalmente, não se pode esperar que variáveis respostas dessas
origens satisfaçam a pressuposição de homogeneidade de variância.
Exemplo 8.6. Em experimentos de comparação de cultivares em que são comparados
materiais de diversos estágios do processo de melhoramento genético, a variância entre parcelas de
um tratamento particular depende do grau de homogeneidade genética do material que está sendo
testado. Por exemplo, pode-se esperar que a variância de um genótipo de geração F2 seja mais
elevada do que a variância de um genótipo F1, dado que a variabilidade genética em F2 é muito mais
elevada do que em F1.
Exemplo 8.7. Em um experimento agrícola com tratamentos químicos, tais como
fertilizantes, inseticidas, fungicidas e herbicidas, a aplicação não uniforme do tratamento químico
pode implicar uma variabilidade mais elevada nas parcelas com esses produtos do que nas parcelas
com um tratamento controle.
Esses exemplos revelam que em muitas situações a variância pode relacionar-se
funcionalmente com a média; em outras não existe tal relação ou há uma fração considerável da
heterogeneidade de outra origem.
A técnica de transformação de dados, a ser considerada na Seção 8.6, é usualmente efetiva
para a redução da heterogeneidade da variância em situações em que a variância relaciona-se
funcionalmente com a média. Em algumas circunstâncias ela também pode ser apropriada quando
não existe tal relação funcional determinada pela forma da distribuição de probabilidade da variável
resposta, mas em que uma relação entre variância e média é evidenciada pelos dados. Também
ocorrem situações em que a variância é heterogênea, mas não se relaciona com a média, ou a
heterogeneidade de variância tem as duas origens.
Uma característica essencial de muitas técnicas de inferência baseadas na análise da
variação é a estimação da variância atribuível ao erro experimental, presumida comum para todos
as observações. Em um experimento com delineamento completamente casualizado, por exemplo, o
QMErro é a média ponderada das variâncias amostrais (quadrados médios) individuais dos
tratamentos que tem como pesos os respectivos graus de liberdade. Sob a pressuposição de
igualdade das variâncias dos erros para os tratamentos, o QMErro é a “melhor” estimativa (ou seja,
estimativa não tendenciosa e de variância mínima) da variância populacional. Entretanto, variâncias
amostrais de tratamentos consideravelmente diferentes são um indicativo de heterogeneidade de
variância populacional de graves conseqüências para as inferências derivadas do experimento.
De fato, apesar do teste F e dos procedimentos para discriminação da variação atribuível a
tratamentos serem relativamente robustos com respeito a desvios leves da homogeneidade de
variância, violações consideráveis dessa pressuposição podem ter conseqüências graves. Para
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
293
ilustração, considere-se um experimento com quatro tratamentos A, B, C, e D, os dois primeiros
provenientes de populações de variância comum elevada e os outros dois de populações de
variância comum pequena. Nessas circunstâncias, a diferença entre as médias dos tratamentos A e
B necessária para a declaração de significância é maior do que aquela necessária para os
tratamentos C e D. Uma estimativa de variância comum para o experimento subestimará a variância
populacional para os tratamentos A e B e superestimará a variância populacional para os
tratamentos C e D. Como conseqüência, testes de significâncias das duas referidas diferenças de
médias de tratamentos baseados nessa estimativa de uma variância comum declarariam significância
da diferença entre as médias dos tratamentos A e B com mais facilidade do que da diferença entre
as médias dos tratamentos C e D.
8.3.3
Distribuição normal das variáveis aleatórias residuais
Das quatro pressuposições esta é a menos provável de ser válida. Se o campo de
variabilidade da variável resposta é discreto ou limitado, ela é certamente incorreta. Esse é o caso,
por exemplo, de variáveis categóricas (nominais ou ordinais), variáveis que exprimem contagem e
variáveis contínuas que exprimem peso ou altura de indivíduos que, por definição, são restritas a
valores positivos. Em situações reais, usualmente essa pressuposição verifica-se apenas
aproximadamente.
Essa pressuposição não é essencial para a análise da variação e estimação por ponto, mas é
essencial para a validade de sentenças probabilísticas referentes a decisões baseadas em testes de
hipóteses e à confiabilidade de estimativas por intervalo. Felizmente, desvios razoáveis da
normalidade exata têm pequenos efeitos práticos, já que as duas seguintes propriedades suportam
da pressuposição de normalidade para muitas situações práticas: a) o teorema central do limite, que
estabelece a distribuição normal aproximada da média, exceto para amostras muito pequenas; e b) a
robustez do teste F originada do fato de que as probabilidades dos erros tipo 1 e tipo 2 são pouco
afetadas por desvios moderados da normalidade.
Naturalmente, variáveis respostas não contínuas (por exemplo, variáveis que exprimem
contagem ou proporção de indivíduos com um dado caráter) não têm distribuição normal. Variáveis
contínuas também podem não ter distribuição normal. Uma propriedade importante da distribuição
normal é a simetria. Outra propriedade importante é sua forma particular de curtose. Uma variável
resposta contínua pode desviar-se da distribuição quanto à simetria ou à curtose, ou a ambos
simetria e curtose.
Em geral, as estatísticas derivadas da distribuição normal importantes para inferências são
robustas a desvios moderados da normalidade. A distribuição F, em particular, é pouco afetada por
moderada falta de simetria e também é pouco afetada por curtose, exceto em casos extremos de
populações muito leptocúrticas ou muito platicúrticas. Para situações de modelo estatístico de
efeitos fixos, desvios moderados da distribuição normal não devem causar preocupações, desde que
as populações individuais para os tratamentos tenham forma de distribuição homogênea (por
exemplo, assimétrica positiva e levemente leptocúrtica para todos os tratamentos). Em geral, a
menos que o desvio da normalidade seja tão extremo que possa ser prontamente detectado por
inspeção visual, ele terá pouco efeito nas probabilidades associadas com as estatísticas utilizadas em
testes de significâncias.
294
Estatística Experimental. 2. Análise Estatística de Experimentos
As pressuposições de homogeneidade de variância e distribuição normal dos erros são
usualmente violadas simultaneamente, isto é, se a distribuição não é normal, então a variância não é
homogênea, e, se a variância não é homogênea, então a distribuição é usualmente não normal.
Como a heterogeneidade da variância é muito mais fácil de ser detectada do que a não normalidade,
esses dois problemas são usualmente tratados conjuntamente, com maior ênfase para a
heterogeneidade da variância.
8.3.4
Ausência de correlação das variáveis aleatórias residuais
Sob a pressuposição de distribuição normal, essa pressuposição é equivalente à
independência estatística. Freqüentemente, esta pressuposição é razoável. Ela significa que não há
qualquer relação entre diferentes observações que não seja levada em conta pelos termos no
modelo estatístico. De fato, para certos experimentos planejados a casualização apropriada é uma
boa proteção contra a correlação dos erros, exceto para certas formas triviais de correlação que são
levadas em conta pelo modelo estatístico.
Essa pressuposição é usualmente violada em experimentos em que as unidades
experimentais são arranjadas sistematicamente, dado que erros de unidades próximas (no espaço,
no tempo, ou segundo alguma outra característica relevante) tendem a ser mais semelhantes do que
de unidades distantes. Por exemplo, em experimentos agrícolas de campo, as respostas das plantas
tendem a ser mais semelhantes em parcelas adjacentes do que em parcelas distantes; em
experimentos de laboratório, determinações efetuadas por um mesmo laboratorista são usualmente
mais semelhantes do que as feitas por diferentes laboratoristas. Semelhantemente, em experimentos
com observações repetidas sobre as unidades em instantes sucessivos de um intervalo de tempo,
observações próximas no tempo tendem a ser mais semelhantes do que observações distantes.
A ausência de correlação é usualmente assegurada pela atribuição aleatória das unidades
experimentais aos tratamentos, e pela casualização das características estranhas que se manifestem
de modo relevante durante a execução do experimento. Essa garantia não existe em experimentos
planejados que envolvam observações repetidas nas unidades experimentais em um intervalo de
tempo, e em situações em que a impraticabilidade ou impossibilidade de casualização impliquem em
diferenças sistemáticas entre unidades experimentais com diferentes tratamentos. A pressuposição
de ausência de correlação não é satisfeita, por exemplo, se as condições a que estão sujeitas as
unidades experimentais de um tratamento diferem sistematicamente das condições de outras
unidades. Isso ocorre, por exemplo, com algumas práticas culturais em experimentos agrícolas de
campo, como capina e colheita, quando efetuadas tratamento por tratamento, e em experimentos
com animais quando os animais com um mesmo tratamento ficam em um único potreiro e animais
com diferentes tratamentos, em potreiros distintos. Situação semelhante também ocorre em
experimentos conduzidos em etapas, quando cada tratamento é aplicado em uma etapa diferente e
há variação relevante de condições ambientais entre as etapas.
Em algumas situações em que a casualização é inviável a ausência de correlação pode ser
lograda por uma transformação apropriada da variável resposta. O procedimento de transformação
de dados para lograr ausência de correlação não será tratado aqui.
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
295
Dado que a casualização apropriada usualmente assegura a ausência de correlação dos
erros experimentais, o modo mais simples de detectar a presença de correlação dos erros é verificar
o croqui do experimento. A detecção de algum padrão sistemático no arranjamento dos tratamentos
entre as repetições, é indicação de correlação dos erros.
Em resumo, a homogeneidade da variância é a pressuposição que usualmente requer maior
cuidado. Em algumas situações, é possível que uma transformação da variável resposta (tomando
logaritmos ou raízes quadradas, por exemplo ) logre que as pressuposições sejam mais
aproximadamente satisfeitas para as variáveis transformadas. Métodos com esse propósito serão
discutidos mais adiante.
8.4
Verificação da adequação do modelo estatístico através da inspeção dos
resíduos
Os principais métodos para diagnóstico de violações das pressuposições do modelo
estatístico são baseados nos resíduos. No caso do delineamento completamente casualizado, por
exemplo, o resíduo do valor observado da variável resposta em uma parcela com o tratamento i é :
eˆ ij
y ij yˆ ij
= yij yi . .
Assim, os resíduos para o i-ésimo tratamento são obtidos subtraindo do valor observado
da variável resposta a média desse tratamento, em cada parcela com o tratamento i.
A verificação da adequação do modelo usualmente pode ser efetuada por uma inspeção
gráfica dos resíduos. Tal verificação deve ser um procedimento rotineiro inicial de todo processo de
análise que se fundamenta na análise da variação. Se o modelo estatístico é adequado, os resíduos
não devem mostrar qualquer estrutura, isto é, não devem revelar qualquer padrão aparente. Uma
análise dos resíduos pode revelar inadequações do modelo estatístico e violações de suas
pressuposições.
8.4.1
Normalidade da distribuição dos erros
Uma verificação da pressuposição de normalidade pode ser feita pela construção de um
histograma dos resíduos. Se a pressuposição de distribuição dos erros normal com média igual a
zero e variância 2 é satisfeita, o histograma deve assemelhar-se a um histograma de uma amostra
de uma distribuição normal com centro na origem 0. Para dados de pequenas amostras, como é
usualmente o caso de dados de experimentos, a estimação da distribuição de probabilidade na
população através de um histograma é muito precária, pela variabilidade da forma do histograma
em função da amostra. Nessas circunstâncias, um desvio moderado de um histograma de resíduos
da forma do histograma de uma amostra de uma distribuição normal não implica, necessariamente,
uma violação séria da pressuposição de normalidade.
Um outro procedimento é a construção de um gráfico de probabilidade normal dos
resíduos, ou seja, um gráfico da distribuição cumulativa dos resíduos em uma folha especial para
296
Estatística Experimental. 2. Análise Estatística de Experimentos
gráficos, denominada folha de probabilidade normal, na qual a representação gráfica da
distribuição normal cumulativa é uma reta. Para construir um gráfico de probabilidade normal para
uma amostra de n observações, arranja-se os resíduos em ordem crescente e representa-se os
é o k-ésimo resíduo e Pk = (k-0,5)/n, em uma folha de probabilidade
pontos ( , Pk), onde
normal. Se a distribuição de probabilidade dos erros é normal, os pontos devem dispor-se,
aproximadamente, ao longo de uma reta.
Exemplo 8.8. Considerem-se os dados de um experimento conduzido para estudar o efeito
da percentagem de algodão na fibra sobre a resistência tênsil de uma fibra sintética utilizada na
fabricação de um tecido, com cinco níveis de percentagem de algodão: 15, 20, 25, 30 e 35. Cinco
porções de tecido foram fabricadas com cada uma dessas cinco percentagens de algodão, em uma
ordem aleatória. Os resultados do experimento e os correspondentes resíduos do modelo estatístico
postulado são apresentados na Tabela 8.4.
Tabela 8.4. Resistência tênsil observada em cada unidade experimental e
correspondente resíduo do modelo estatístico postulado 1.
Percentagem
Observação
de algodão
1
15
7 (15)
-2,8
20
12 (8) 17 (14) 12 (1) 18 (11) 19 (26)
-3,4
25
1,6
-3,4
2,6
0,4
3,4
0,4
1,4
5
9 (6)
-0,8
19 (9)
-2,6
-0,8
0,2
4,2
15,4
17,6
1,4
22 (2) 19 (24) 23 (10)
0,4
9,8
2,6
21,6
1,4
7 (17) 10 (21) 11 (4) 15 (16) 11 (23)
-3,8
1
4
7 (19) 15 (25) 11 (12)
-2,8
5,2
1,2
19 (22) 25 (5)
-2,6
35
3
14 (18) 18 (13) 18 (20) 19 (7)
-3,6
30
2
10,8
0,2
Em cada célula da tabela, o primeiro número é o valor
observado da resistência tênsil; o número entre parênteses
indica a ordem de coleta dos dados; os resíduos são
apresentados na segunda linha.
Os resíduos, em ordem crescente, e os pontos da correspondente distribuição de
probabilidade cumulativa são apresentados na Tabela 8.5.
Tabela 8.5. Resíduos ordenados e pontos de probabilidade para os dados do Exemplo
8.8.
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
Ordem
k
1
2
3
4
5
6
7
8
9
10
11
12
13
Resíduo
ê k
-3,8
-3,6
-3,4
-3,4
-2,8
-2,8
-2,8
-2,6
-0,8
-0,8
0,2
0,2
0,4
Pk =
(k-0,5)/25
0,02
0,06
0,10
0,14
0,18
0,22
0,26
0,30
0,34
0,38
0,42
0,46
0,50
Ordem
k
14
15
16
17
18
19
20
21
22
23
24
25
Resíduo
ê k
0,4
0,4
1,2
1,4
1,4
1,4
1,6
2,6
2,6
3,4
4,2
5,2
297
Pk =
(k-0,5)/25
0,54
0,58
0,62
0,66
0,70
0,74
0,78
0,82
0,86
0,90
0,94
0,98
O gráfico de probabilidade normal é apresentado na Figura 8.1. Um histograma dos
resíduos é apresentada ao pé dessa figura. O exame da Figura 8.1 revela que a distribuição dos
erros pode ser levemente assimétrica, com a cauda direita mais longa do que a esquerda. A leve
inclinação do gráfico de probabilidade normal à esquerda implica que a cauda esquerda da
distribuição dos erros é um pouco mais fina do que seria esperado em uma distribuição normal; ou
seja, os resíduos negativos não são tão grandes, em valores absolutos, como seria esperado.
Entretanto, o gráfico não revela desvio considerável da normalidade.
298
Estatística Experimental. 2. Análise Estatística de Experimentos
Figura 8.1. Gráfico de probabilidade normal e histograma dos
resíduos para o Exemplo 8.8.
De modo geral, em situações de modelo estatístico de efeitos fixos, desvios moderados da
normalidade são pouco preocupantes. Uma distribuição dos erros com caudas consideravelmente
mais espessas (ou finas) do que a normal deve ser mais preocupante do que uma distribuição
assimétrica. Como o teste F é apenas levemente afetado por desvios da normalidade, diz-se que a
análise da variação e os procedimentos dela derivados são robustos à pressuposição de
normalidade. Desvios da normalidade usualmente causam pequenas diferenças nos níveis de
significância dos testes em relação aos níveis nominais adotados. Também a potência do teste
resulta levemente reduzida. Desvios da normalidade têm impacto mais severo para modelo
estatístico de efeitos aleatórios. Em particular, em estimativas por intervalo de componente de
variância, coeficientes de confiança podem diferir grandemente dos valores nominais.
Em gráficos de probabilidade normal, é muito comum a manifestação de um ou mais
resíduos consideravelmente superiores, em valor absoluto, aos demais. Tais resíduos são
denominados resíduos discrepantes ou resíduos aberrantes e as observações a que
correspondem, observações discrepantes ou observações aberrantes. A presença de resíduos
discrepantes pode causar distorções consideráveis nos procedimentos de inferência baseados na
análise da variação. Assim, quando é revelado um resíduo discrepante, deve ser procedida uma
inspeção cuidadosa dos dados. Freqüentemente, a causa de uma observação discrepante é um
descuido nos cálculos ou um erro de codificação ou de transcrição de dados. Se essa não é a
origem, as circunstâncias experimentais referentes à observação devem ser inspecionadas
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
299
cuidadosamente. Se a observação discrepante é um valor particular desejável (resistência elevada,
custo baixo, por exemplo ), então ela pode ser mais informativa do que o resto dos dados. Assim,
deve-se ter cuidado de não descartar uma observação discrepante, a menos que se tenha base não
estatística razoável para fazê-lo. Na pior das hipóteses, pode-se concluir com duas análises: uma
com a observação discrepante e outra sem ela.
Há vários procedimentos estatísticos para a detecção de observações discrepantes. Uma
verificação rápida pode ser procedida pelo exame dos resíduos padronizados, ou seja:
.
Se os erros eij têm distribuição normal com média igual a 0 e variância 2, o que é
N(0, 2), então os resíduos padronizados devem ter distribuição
denotado por eij
aproximadamente N(0, 1). Dessa forma, cerca de 68% dos resíduos padronizados devem situar-se
no intervalo (-1, 1); cerca de 95% devem situar-se no intervalo (-2, 2) e virtualmente todos eles no
intervalo (-3, 3). Um resíduo que se afaste de zero por mais do que 3 desvios padrões identifica
uma potencial observação discrepante.
Para os dados do Exemplo 8.8, o gráfico de probabilidade normal e o histograma não dão
indicação de observações discrepantes. Essa indicação é corroborada pela inspeção dos resíduos
padronizados, já que o resíduo padronizado mais elevado é:
d̂13
ê13
=
QMErro
,
que é inferior a 3.
8.4.2
Homogeneidade de variância
Se não há erro de especificação do modelo estatístico e se as pressuposições deste são
satisfeitas, os resíduos não devem apresentar qualquer estrutura que revele a presença de
componente sistemático. Em particular, eles não devem se relacionar com qualquer variável
explanatória, com características estranhas controladas e com a variável resposta. Uma verificação
simples é provida pelo gráfico dos resíduos em relação aos valores preditos (ajustados) da variável
resposta. No caso de delineamento completamente casualizado, por exemplo, o gráfico dos
em relação aos valores ajustados
(médias dos tratamentos) não deve revelar
resíduos
qualquer padrão óbvio.
Exemplo 8.8 (continuação ). O gráfico da relação dos resíduos com os valores ajustados
da variável resposta para os dados do Exemplo 8.8 é apresentado na Figura 8.2. Esse gráfico não
revela qualquer estrutura que indique a presença de algum componente sistemático nos erros.
300
Estatística Experimental. 2. Análise Estatística de Experimentos
Figura 8.2. Gráfico dos resíduos em relação aos valores ajustados da
variável resposta, Exemplo 8.8.
Esse gráfico pode revelar variância não constante. Algumas vezes a variância cresce com o
incremento da magnitude da variável resposta. Essa relação entre variância e valor da variável
resposta ocorre, por exemplo, quando o erro é uma percentagem constante da variável resposta.
Isso acontece, comumente, com muitas medidas. Nessa circunstância, os resíduos crescem na
medida em que as observações crescem, de modo que o gráfico dos resíduos em relação aos
valores estimados da resposta toma a forma de um funil ou megafone. Variância não constante
também ocorre em situações em que a distribuição da variável resposta é não normal assimétrica, já
que em distribuições assimétricas a variância tende a ser uma função da média. Heterogeneidade de
variância também pode decorrer de resposta errática aos tratamentos.
Se a pressuposição de homogeneidade de variância é violada, o teste F é afetado apenas
levemente, no caso de modelo estatístico de efeitos fixos e delineamentos balanceados. Entretanto,
em casos de delineamentos não balanceados, ou em casos em que uma variância é muito maior do
que as outras, o problema é mais sério. Para modelo estatístico de efeitos aleatórios, variâncias do
erro heterogêneas podem perturbar consideravelmente inferências referentes a componentes de
variância, mesmo em situação de delineamentos balanceados.
Em algumas situações, a habilidade do pesquisador (ou da unidade experimental) varia
com o progresso do experimento, ou o processo sob pesquisa muda ou torna-se mais errático. Isso
muitas vezes resulta em alteração na variância do erro ao longo do tempo. Essa condição pode ser
revelada em um gráfico dos resíduos em relação ao tempo, pelo aumento da dispersão no sentido
de um dos extremos do intervalo de tempo.
Exemplo 8.8 (continuação). A Tabela 8.4 apresenta os resíduos para os instantes
sucessivos de coleta dos dados do Exemplo 8.8. A Figura 8.3 apresenta o gráfico dos resíduos em
relação ao tempo. A inspeção dessa figura não revela qualquer padrão sistemático dos resíduos.
Assim, não há qualquer razão para suspeita de violação da pressuposição de homogeneidade de
variância para o experimento em questão.
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
301
Figura 8.3. Gráfico dos resíduos em relação ao tempo para os dados
do experimento do Exemplo 8.8.
8.4.3
Independência da distribuição dos erros
A correlação dos erros comumente associa-se à posição relativa das unidades
experimentais no espaço ou no tempo. Em muitas situações, espera-se que unidades próximas
sejam mais semelhantes do que unidades distantes.
Assim, se os dados são valores de uma variável resposta coletados sobre as unidades
experimentais em instantes sucessivos de um intervalo de tempo, um gráfico dos resíduos em
relação ao tempo pode ser útil para detectar correlação entre os resíduos. Uma tendência de
alternância de conjuntos de resíduos positivos e negativos é indicação de correlação positiva. Isso
implicaria violação da pressuposição de independência, um problema potencialmente sério e difícil
de corrigir. Dessa forma, é importante evitar o problema, se possível, no planejamento e na
condução do experimento. A casualização apropriada, quando exeqüível, é um recurso importante
para a obtenção da independência.
Exemplo 8.8 (continuação). O gráfico dos resíduos em relação ao tempo para os dados do
Exemplo 8.8 é apresentado na Erro! A origem da referência não foi encontrada.. A inspeção dessa
figura não revela qualquer razão para suspeita de violação da pressuposição de independência
estatística.
8.5
Teste de homogeneidade de variância
A homogeneidade de variância é a pressuposição usualmente mais crítica. O teste F na
análise da variação é muito robusto (no sentido de que, mesmo na situação de variâncias
heterogêneas, o nível de significância para o teste F não se altera de modo considerável), para
situações de modelo estatístico fixo com estrutura balanceada (ou seja, igual número de repetições
para as combinações dos níveis dos fatores experimentais). Entretanto, heterogeneidade de
302
Estatística Experimental. 2. Análise Estatística de Experimentos
variância pode implicar distorções dos níveis de significâncias nominais
diferentes de repetições e modelo estatístico aleatório ou misto.
em situações de números
Diversos procedimentos têm sido propostos para teste de homogeneidade de variância.
Nenhum desses testes tem sido considerado superior aos demais. Considerar-se-á aqui apenas dois
desses procedimentos: os testes de Hartley e de Cochran.
Preliminarmente, saliente-se que não é disponível uma receita que indique ao pesquisador
em que situações ele deve preocupar-se com a heterogeneidade da variância e, então, procurar
algum remédio, como uma transformação dos dados. Entretanto, as regras que seguem podem ser
úteis para a orientação do pesquisador na tomada de decisão:
1) Se o valor “P”, ou seja, a probabilidade de obter um valor da estatística de teste mais
extremo do que a observado para a amostra sob a hipótese de homogeneidade de variância, for
maior que 0,01, não adotar transformação de dados.
2) Se esse valor P for menor que 0,001, proceder a uma transformação dos dados
apropriada.
3) Se esse valor P situar-se entre 0,01 e 0,001, tentar encontrar a distribuição de
probabilidade apropriada da variável resposta. Se houver alguma razão prática para transformar,
proceda a transformação; caso contrário, não proceda qualquer transformação. Com as facilidades
providas por computação eletrônica tem havido uma tendência para tentar várias transformações,
efetuar o teste de homogeneidade da variância para cada uma dessas transformações e, então,
selecionar a transformação que provê a estatística de teste que se localize mais favoravelmente na
região de aceitação. Embora esse procedimento não seja de todo mau, ele deve ser utilizado apenas
após a utilização de todo o conhecimento teórico disponível para a escolha de uma transformação
que faça sentido de um ponto de vista físico.
Exemplo 8.9. Considere-se um experimento que teve como objetivo a pesquisa do
controle da incidência de uma praga da cultura do arroz. O experimento compreendeu os seguintes
tratamentos:
1 – Diazinon (4),
2 – Diazinon (3),
3 – Diazinon (2),
4 – Diazinon (1),
5 – Diazinon e MCB (2),
6 – Diazinon, MCB e SCB (2),
7 – Diazinon a 12% de infestação (1),
8 - Diazinon a 20% de infestação (1), e
9 – Controle (sem inseticida).
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
303
Os números entre parênteses referem-se à freqüência (número de aplicações). As quantidades em
cada aplicação foram as seguintes: Diazinon – 2 kg/ha, Malation em concentração baixa (MCB) 500cc/ha, Malation e Sumition em concentração baixa (MCB e SCB) - 500 cc/ha.
O experimento foi conduzido em caixas, em casa de vegetação, com delineamento
completamente casualizado, com 4 repetições de cada um dos 9 tratamentos. A Tabela 8.6
apresenta os dados de número de larvas vivas recolhidas por unidade experimental, ao final do
período experimental.
Tabela 8.6. Número de larvas vivas recolhidas por unidade experimental,
após o período experimental.
Tratamento
1
2
3
4
5
6
7
8
9
1
9
4
6
9
27
4
1
10
35
Repetições
2
3
12
0
8
5
15
6
6
4
17
10
10
15
0
0
0
2
28
2
4
1
1
2
5
10
5
0
1
15
m̂
s2
5,50
4,50
7,25
6,00
16,00
8,50
0,25
3,25
20,00
35,000
8,333
30,250
4,667
64,667
25,667
0,250
20,917
212,667
Os resultados da análise da variação e do teste de significância dos efeitos dos tratamentos
referentes a número de larvas vivas estão na Tabela 8.7.
Tabela 8.7. Análise da variação e resultado do teste de significância dos
efeitos dos tratamentos referentes a número de larvas vivas,
Exemplo 8.9.
Fonte
GL
Tratamento
8
SQ
QM
1.255,50 156,938
Erro
27
1.207,25
Total
35
2.462,75
F
Prob,>F
3,5099
0,0066
44,713
Em situações como a desse Exemplo 8.9 em que a variável resposta sabidamente não tem
distribuição normal e em que há suspeita de heterogeneidade de variância entre tratamentos, o
primeiro passo é a estimação separada da variância do erro experimental para cada tratamento. A
variância do erro experimental para o tratamento i é expressa por:
304
Estatística Experimental. 2. Análise Estatística de Experimentos
1
si2
ri
ri 1 j 1
(yij y..) 2 .
Então, para o tratamento 1 tem-se:
1
(9 5,5) 2 (12 5,5) 2 (0 5,5) 2 (1 5,5) 2 = 35,0.
4 1
s12
Semelhantemente, pode-se determinar as estimativas das variâncias dos erros para os 9 tratamentos.
Observe-se que, na situação de delineamento completamente casualizado, a estimativa s2 da
variância do erro experimental comum para todas as observações é a média ponderada das
estimativas si2 das variâncias individuais para os t tratamentos cujos pesos são os respectivos graus
de liberdades ri-1:
t
(ri 1)si2
i 1
t
(ri 1)
1
n t
t
ri
(yij y..) 2
s2 ,
i 1 j1
i i
onde n = r1+r2+...+rt.
A inspeção das estimativas das variâncias e das médias para os tratamentos, nas duas
últimas colunas da Tabela 8.6, e o gráfico da Figura 8.4 revelam uma tendência de estimativas de
variâncias mais elevadas corresponderem a estimativas de médias mais elevadas. Isso significa a
necessidade da consideração de um teste de homogeneidade da variância dentro de tratamentos.
Figura 8.4. Gráfico dos nove pontos correspondentes às estimativas da
média e correspondente desvio padrão para cada um dos 9
tratamentos.
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
305
Teste de Hartley
A estatística para o teste de Hartley, denotada por Fmax é a razão da estimativa de variância
mais elevada para a mais baixa:
max si2
i
Fmax
min si2
,
i
onde si2 , i=1,2,...,k, são as estimativas das variâncias dos k grupos. Sob a hipótese de igualdade das
k variâncias populacionais, essa estatística tem a distribuição Fmax de Hartley com k e n-1 graus de
liberdade, onde k é o número de grupos (variâncias) e n o número de observações em cada grupo.
A hipótese de homogeneidade de variância é rejeitada se o valor observado Fmax é mais elevado que
o valor Fmax(k;n-1; ) que demarca a cauda superior da distribuição de Fmax para k variâncias, n-1
graus de liberdade da variância casual e o nível de significância escolhido.
A Tabela A-8 do Apêndice apresenta os valores que demarcam o ponto superior da
distribuição dessa estatística para caudas de áreas 0,01 e 0,05 e valores de k entre 2 e 12 e de n-1
acima de 2.
Exemplo 8.9 (continuação). Para o Exemplo 8.9 as estimativas de variância para
tratamentos mais elevada e mais baixa são, respectivamente, s62 212,667 e s72 0,250 . Portanto,
212, 667
0, 250
Fmax
850, 668 .
Para um teste de homogeneidade de variância com nível de significância =0,05, obtém-se
da Tabela A-8, para k=9 (número de variâncias), n-1= 3 (graus de liberdade para cada tratamento)
e P=0,05: Fmax(k=9;n-1=3; =0,05) = 93,9. Como o valor observado Fmax = 850,668 é maior que o
valor da tabela Fmax(9;3;0,05) = 93,9, a hipótese de homogeneidade de variância é rejeitada.
Teste de Cochran
A estatística para o teste de Cochran, denotada por C, é a razão da estimativa de variância
mais elevada para a soma das estimativas das variâncias dos k grupos:
C
max si2
i
si2
,
i
onde si2 , i=1,2,...,k, são as estimativas das variâncias dos k grupos. Sob a hipótese de igualdade das
k variâncias populacionais, essa estatística tem a distribuição C de Cochran com k e n-1 graus de
liberdade, onde k é o número de grupos (variâncias) e n o número de observações em cada grupo.
A hipótese de homogeneidade de variância é rejeitada se o valor observado de C é maior que o
valor C(k;n-1; ) que demarca a cauda superior da distribuição de C para k variâncias, n-1 graus de
liberdade da variância casual e o nível de significância .
306
Estatística Experimental. 2. Análise Estatística de Experimentos
A Tabela A-9 do Apêndice apresenta os valores que demarcam o ponto superior da
distribuição dessa estatística para caudas de áreas 0,01 e 0,05 e valores de k entre 2 e 15 e de n-1
entre 1 e 144.
Esse procedimento é apropriado para a situação de igual número de repetições é o mesmo
para todos os grupos. Se os números de repetições diferem levemente, é recomendável o uso do
número de repetições mais elevado para a determinação dos graus de liberdade para o teste. Esse
procedimento conduz a um pequeno viés positivo dos testes, ou seja, a rejeição da hipótese de
homogeneidade mais freqüentemente do que o definido pelo nível de significância e pela potência
do teste 1- .
Exemplo 8.9 (continuação). Considere-se novamente a situação do Exemplo 8.9. A
estimativa de variância para tratamentos mais elevada é s62 212,667 e a soma das estimativas das
si2 = 35,0 + 8,333 + ... + 25,667 = 402,418. Logo,
variâncias para os 9 tratamentos é
i
C
212, 667
402, 418
0,5285 .
Da Tabela A-9, para k=9 (número de variâncias), n-1=3 (graus de liberdade para cada tratamento)
e P=0,05, obtém-se: C(k=9;n-1=3; =0,05) = 0,403. Como o valor observado C = 0,5285 é maior
que C(9;3;0,05) = 0,403, a hipótese de homogeneidade de variância é rejeitada.
Tanto o teste de Hartley como o de Cochran têm sensibilidade adequada para o teste de
homogeneidade de variância em situações em que a heterogeneidade é suspeita. Deve ser
observado, entretanto, que esses testes são sensíveis a desvios da distribuição normal.
8.6
Transformação de dados
Nas situações em que as pressuposições do modelo estatístico referidas na Seção 8.2 não
são razoavelmente satisfeitas para a variável resposta, os procedimentos de inferência considerados
nos Capítulos anteriores não devem ser utilizados. Nessas circunstâncias, o pesquisador pode
recorrer a um dos seguintes procedimentos alternativos:
1) transformação dos dados que logre aquelas pressuposições para a variável resposta
transformada;
2) procedimento que leve em conta a distribuição de probabilidade particular da variável
resposta, se essa distribuição é conhecida;
3) procedimento que demande um conjunto de pressuposições menos restritivo,
particularmente quanto à forma da distribuição de probabilidade dos erros.
Se a distribuição é conhecida, o procedimento geralmente mais recomendável é o emprego
de métodos de inferências que levem em conta essa distribuição particular. Procedimentos de
inferência baseados no usualmente denominado “modelo linear generalizado” permitem a
especificação de algumas distribuições particulares mais usuais. Esses procedimentos de análise são
consideravelmente mais complexos e laboriosos. Entretanto, sua utilização é atualmente viável com
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
307
os recursos de computação disponíveis em “pacotes” de análise estatística que o implementam,
como o PROC GENMOD do “Statistical Analysis Sistem” (SAS).
Procedimentos que demandam pressuposições menos restritivas quanto à distribuição de
probabilidade dos erros são usualmente denominados “não paramétricos” e “livres de distribuição”.
Esses procedimentos são apropriados apenas para situações em que a distribuição de probabilidade
dos erros é desconhecida e para as quais inexiste uma transformação de dados que logre a
satisfação das pressuposições requeridas por procedimentos baseados na especificação de uma
distribuição de probabilidade. São usualmente baseados em uma transformação da variável resposta
para escala ordinal, o que implica em perda de informação se a variável resposta é originalmente
expressa em escala intervalar ou racional. Por essa razão, eles devem ser utilizados apenas em
situações para as quais não sejam disponíveis procedimentos que levem em conta a distribuição de
probabilidade dos erros.
O procedimento de transformação de dados pode ser considerado um recurso
intermediário entre os procedimentos baseados em distribuição conhecida dos erros e os
procedimentos que ignoram essa distribuição. Ele constitui um recurso para as seguintes situações:
- a distribuição é conhecida e para essa distribuição há uma transformação particular que
logre a homogeneidade da variância e a normalidade da distribuição; nesse caso, a transformação de
dados pode ser justificável como um procedimento alternativo por implicar menor complexidade
metodológica e computacional.
- a variável aleatória é contínua, sua distribuição é desconhecida, há uma heterogeneidade
de variância originada de uma relação entre a variância e a média, e uma transformação apropriada
determinada com base nessa relação conduz à homogeneização da variância e uma aproximação da
distribuição normal.
- a transformação conduz à aditividade do modelo estatístico não satisfeita para a variável
resposta original.
Uma transformação de dados pode ser apropriada para algumas formas de relação entre
variância e média. A Figura 8.5 apresenta indicações de transformações de dados para algumas
dessas situações.
308
Estatística Experimental. 2. Análise Estatística de Experimentos
Variância
em função
da média m
Origem dos
dados
Distribuição
relevante
m
Contagem com
números
pequenos
Poisson
m(1-m)/n
Proporção de
indivíduos com
dada
característica
Binomial
m2
m2(1-m2)
4
m
2m2(n-1)
Contagem com
números grandes
Ensaio biológico
e crescimento
de populações
Intervalo entre
falhas, número
de falhas por
unidade de
tempo
Estimativa de
variância
Empírica
Empírica
Transformação
y ou y 3 / 8
para valores
pequenos
arcsen y ou
y 3/8
n 3/ 4
para valores
pequenos
log y ou
log(y+1)
arcsen
log
y
1 y
Designação da
transformação
Raiz quadrada
Arco seno,
Angular
Logarítmica
Logítica
Distribuição
com
achatamento
extremo
1/y
Recíproca
Variância de
amostra
log y
Logarítmica
Figura 8.5. Transformações apropriadas para algumas formas conhecidas de relação
entre variância e média.
Para situações em que a heterogeneidade da variância origina-se essencialmente de uma
relação entre variância e média da forma:
y
mb,
ou seja, em que o desvio padrão é proporcional a uma potência da média, há um procedimento que
permite a derivação de uma transformação apropriada que logra a homogeneidade da variância e
uma aproximação da distribuição normal. Esse procedimento é considerado na Seção 8.7.
O procedimento
Procedimento geral para análise estatística com transformação de dados
geral para a análise estatística com transformação dos valores da variável resposta y é o seguinte:
1 - Efetua-se a transformação apropriada dos dados: z = f(y).
2 - Procede-se a análise
estatística completa com os dados transformados. 3
Reconvertem-se
os
resultados,
particularmente as médias, determinados para os dados transformados para a escala da variável
original, através da transformação inversa: y = f-1(z).Exemplo 8.10. Para ilustração do
procedimento de análise estatística com transformação de dados considerem-se resultados do
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
309
experimento “Competição de fungicidas no tratamento de semente de cebola”, com os seguintes
tratamentos: 1 – Neantina (seco); 2 – Phygon XL; 3 – Granosan 5%; 4 – Carbonato de Cobre; 5 –
Arasan; 6 – Controle. Todos fungicidas foram diluídos a 2%. Esse experimento foi conduzido em
caixas com terra esterilizada, em casa de vegetação, e adotou delineamento completamente
casualizado, com cinco repetições de cada um dos tratamentos. Em cada caixa foram semeadas 110
sementes. A variável resposta sob consideração é o estande, ou seja, o número de plantas por caixa,
na quarta contagem. Os dados dessa variável estão na Tabela 8.8.
Tabela 8.8. Número de plantas na quarta contagem originadas de 110
sementes, Exemplo 8.10.
Tratamento
Repetição
1
2
3
4
5
1
97
68
93
90
90
2
89
88
97
90
83
3
91
78
92
90
94
4
75
66
68
62
81
5
71
89
89
79
87
6
57
60
53
72
65
A variável resposta é o estande na quarta contagem correspondente a 110 sementes
plantadas. Esse estande tem distribuição binomial com parâmetros p e n, onde p é a probabilidade
de uma semente originar uma planta na quarta contagem e n=110. A razão estande/110 é a
proporção de plantas na quarta contagem, determinada a partir do número comum de 110 sementes
plantadas em todas as parcelas. A transformação apropriada para essa situação é a transformação
angular, ou seja:
z
arcsen estande /110 .
O passo preliminar da análise estatística é a transformação dos dados. Os dados
transformados, com o arco expresso em radianos, estão na Tabela 8.9.
310
Estatística Experimental. 2. Análise Estatística de Experimentos
Tabela 8.9. Arco expresso (em radianos) correspondente ao seno da
raiz quadrada da proporção de plantas na quarta
contagem originada das 110 sementes, Exemplo 8.10.
Tratamento
Repetição
1
2
3
4
5
1
1,220
0,905
1,167
1,130
1,130
2
1,119
1,107
1,220
1,130
1,053
3
1,142
1,001
1,154
1,130
1,180
4
0,972
0,886
0,905
0,849
1,032
5
0,933
1,119
1,119
1,011
1,096
6
0,804
0,831
0,767
0,943
0,877
Os resultados da análise da variação e do testes de significância da variação atribuível aos
tratamentos, efetuados para os dados transformados, estão na Tabela 8.10.
Tabela 8.10. Resultados da análise da variação e do testes de significância
da variação atribuível aos tratamentos.
Fonte de variação
GL
SQ
QM
F
Prob.>F
5
0,3471
0,0694
10,51
< 0,0001
Erro
24
0,1585
0,0066
Total
29
0,5057
Tratamento
O coeficiente de variação é determinado como segue:
CV = 100
= 100
QM Erro
m̂
0,00661
= 7,9 % .
1, 0310
As inferências referentes aos efeitos de tratamentos de interesse particular compreendem
as comparações de cada um dos fungicidas com o tratamento controle. Essas comparações podem
ser procedidas através do teste de Dunnett, cujo critério é:
A = t D ( , t, ) sd ,
onde:
tD(24;5;0,05) = 2,36, para teste unilateral, e
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
sd =
2 QM Erro
=
5
311
2×0, 00661
= 0, 0514 ;
5
logo,
A = 2,36
0,0514 = 0,1213.
Subtraindo e somando o valor crítico A da média do tratamento testemunha, tem-se:
zc A = 0,8442 – 0,1213 = 0,7229 e
zc + A = 0,8442 + 0,1213 = 0,9655.
Então, fungicidas cujas médias situam-se acima de 0,9655 ou abaixo de 0,7229 diferiram
significativamente do tratamento controle (sem fungicida). Os resultados dessas comparações estão
na tabela que segue, onde os tratamentos cujas médias diferiram significativamente da média do
tratamento controle são indicadas por um asterisco.
Tratamento
Média 1
1 – Neantina (seco) a 0,2%
1,110 *
2 – Phygon XL a 0,2%
1,126 *
3 – Granosan 5% a 0,2%
1,121 *
4 – Carbonato de Cobre a 0,2%
0,929
5 – Arasan a 0,2%
1,056 *
6 – Controle
0,844
A expressão dos resultados da análise estatística, particularmente das comparações dos
fungicidas com o tratamento controle, deve ser feita na escala original; no presente caso, através da
reconversão das médias em proporções ou percentagens.
Essa reconversão deve ser procedida através da transformação inversa de:
z = arcsen proporção
ou seja:
proporção = sen z
2
2
ou percentagem =100 sen z .
Assim, para o tratamento 1 – Neantina (seco) a 0,2%, por exemplo, tem-se:
percentagem =100 sen 1,110
2
= 80,2 %.
As conclusões das comparações dos fungicidas com o tratamento controle são
apresentadas na Tabela 8.11 que segue:
312
Estatística Experimental. 2. Análise Estatística de Experimentos
Tabela 8.11. Percentagens de plantas na quarta contagem para os
tratamentos do Exemplo 8.10 e resultados das
comparações dos fungicidas com o tratamento controle.
Tratamento
1 – Neantina (seco) a 0,2%
80,3 *
2 – Phygon XL a 0,2%
81,5 *
3 – Granosan 5% a 0,2%
81,1 *
4 – Carbonato de Cobre a 0,2%
64,1
5 – Arasan a 0,2%
75,7 *
6 – Controle
55,9
1
8.7
Média (%) 1
Tratamentos cujas médias são seguidas de um
asterisco diferiram significativamente do tratamento
controle, pelo teste de Dunnett ( =0,05).
Transformação potência para estabilização da variância
Em muitas situações a distribuição da variável resposta não é conhecida. Em algumas
dessas circunstâncias pode ser determinada uma transformação apropriada com base na relação
empírica, ou seja, na relação indicada pelos próprios dados, entre o desvio padrão e a média.
Essa transformação é apropriada para situações muito freqüentes em que o desvio padrão
é proporcional a uma potência da média:
y
mb.
Uma transformação potência da forma:
z = yp
implica uma relação de proporção entre o desvio padrão e a média da forma:
z
mp+b-1.
Então, para p = 1-b o desvio padrão da variável transformada z tornar-se-á constante, porque p+b1=0 implica:
z
m0 = 1.
Isso significa que a variância de z será constante. Assim, logra-se a homogeneidade da variância
com a transformação:
z = y1-b.
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
313
Em análise exploratória de dados essa família de transformações é freqüentemente
representada como uma escada de potências. A Tabela 8.12 apresenta a ordem da escada de
potências para algumas das transformações mais usuais.
Tabela 8.12. Transformações na escada de potências z = yp para diversos valores de p.
p
yp
Designação da
transformação
Observações
2
y2
Quadrado
Usualmente, potência mais elevada
1
1
Dados originais
Sem transformação
y
Raiz quadrada
Distribuição de Poisson
y
½
0
log(y)
Logarítmica
-1/2
1/ y
Recíproca da raiz
quadrada
Sinal negativo preserva a ordem
das observações
-1
1/y
Recíproca
Reexpressa tempo em razão
y
Valores p < 1 são próprios para tornar simétrica uma distribuição assimétrica inclinada à
direita; a transformação potência puxa a cauda direita espalhada das observações e espalha a cauda
inferior encolhida das observações. Valores p > 1 tornam uma distribuição assimétrica inclinada à
esquerda mais simétrica, puxando as observações de menores valores espalhadas e espalhando as
observações mais elevadas encolhidas. A transformação logarítmica é colocada na posição “0” da
escada porque seu efeito sobre as observações é nulo.
A transformação p=-1 pode ser apropriada para variável resposta que exprima tempo da
ocorrência de um evento. O recíproco do tempo pode ser interpretado como a razão em que uma
unidade chega ao evento. É tentador atribuir o valor “0” a unidades para as quais o evento nunca
ocorre; entretanto, deve ser tomado cuidado já que o evento nunca foi observado. Dependendo das
circunstâncias, a observação pode ser melhor tratada como um membro de um conjunto de
observações truncadas ou de observações perdidas.
Estimação empírica da transformação potência
Heterogeneidade de variância implicada por relação entre desvio padrão e média da forma
m usualmente decorre de efeitos diferenciais de tratamentos ou de algum agrupamento das
y
unidades tanto sobre a média como sobre a variância. Então, se são disponíveis estimativas da
média e do desvio padrão para os diferentes tratamentos ou agrupamentos das unidades, pode-se
derivar uma estimativa da potência p da relação:
b
y
= amb.
Essa relação não linear pode ser linearizada, através de uma transformação logarítmica, para a
forma:
314
Estatística Experimental. 2. Análise Estatística de Experimentos
log
y
= log a + b log m,
ou seja:
w = A + b v,onde w = log y, A = log a e v = log m. O gráfico desta relação é uma
reta com interseção A = log a e declividade b.
Dessa forma, os parâmetros a e b da relação y = amb entre y e m podem ser estimados
pela regressão linear de w = log y em relação a v = log m. Então, a estimativa do expoente p da
transformação z = yp que estabiliza a variância pode ser tomada como p̂ 1 bˆ .
A representação gráfica da relação entre o logaritmo do desvio padrão e o logaritmo da
média para o Exemplo 8.9 é apresentada na Figura 8.6.
Figura 8.6. Gráfico dos 9 pares de valores observados do logaritmo do
desvio padrão e do logaritmo da média e segmento de reta
ajustado para expressar a relação linear entre log s y e log y .
A Tabela 8.13 apresenta o resultado do teste de significância da relação linear entre log s y
e log y , ou seja, da hipótese H0: b=0.
Tabela 8.13. Análise da variação para teste de significância da relação
linear entre log s y e log y .
Fonte
GL
SQ
Regressão
1
Resíduo
7
21,714
Total
8
133,157
QM
111,442 111,442
A equação da reta de regressão ajustada é:
3,102
F
Prob,>F
35,926
0,0005
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
315
log(s y ) = 0, 2567 + 0, 6959 log(y) .Sua representação gráfica é apresentada na Figura
8.6. A estimativa da declividade dessa reta é b̂ = 0,6959
0,7; donde se obtém:
Então, a transformação apropriada é:
z = y0,3.
No presente exemplo, a distribuição da variável resposta é conhecida: distribuição de
Poisson. Para essa distribuição, a transformação apropriada é a raiz quadrada. Então, como há
y 3/ 8 .
alguns valores y=0, a transformação a efetuar é: z
Os dados da variável resposta transformada z
y
3/ 8 estão na Tabela 8.14.
Tabela 8.14. Dados transformados do Exemplo 8.9 - Raiz quadrada do
número de larvas vivas recolhidas mais 3/8.
Tratamento
1
2
3
4
5
6
7
8
9
1
3,062
2,092
2,525
3,062
5,232
5,948
1,173
3,221
2,092
Repetições
2
3
3,518
0,612
2,894
2,318
3,921
2,525
2,525
2,092
4,168
3,221
5,327
1,541
0,612
0,612
0,612
1,541
3,221
3,921
4
1,173
1,173
1,541
2,318
3,221
3,921
0,612
1,173
2,318
m̂
s2
2,091
2,119
2,628
2,499
3,961
4,184
0,752
1,637
2,889
1,415
0,716
0,979
0,415
0,958
1,955
0,280
1,123
0,844
Em geral, é conveniente submeter os dados transformados a um teste de homogeneidade
da variância entre tratamentos para verificar se o propósito da transformação da variável resposta
foi bem sucedido.
Teste de Hartley
Tem-se:
Fmax
1,955
0,280
6,982 .
Esse valor observado Fmax = 6,982 é menor que o valor da tabela Fmax(9;3;0,05) = 93,9; logo, a
hipótese de homogeneidade de variância é aceita.
316
Estatística Experimental. 2. Análise Estatística de Experimentos
Teste de Cochran
C
1,955
8,685
0, 2251 ;
Como esse valor C = 0,2861 é menor que C(9;3;0,05) = 0,4775, a hipótese de homogeneidade de
variância é aceita.
Pode-se, então, proceder à análise estatística. Os resultados da análise da variação da
y 3 / 8 é apresentada na Tabela 8.15.
variável z
Tabela 8.15. Análise da variação dos dados transformados (Tabela
8.14) do experimento do Exemplo 8.9.
Fonte de variação
GL
SQ
QM
F
Prob,>F
8
36,9628
4,620
3,98
0,0032
Erro
27
31,3162
1,160
Total
35
68,2790
Tratamento
Média geral: 2,53.
CV: 42,6%.
8.8
Exercícios
1. Os dados que seguem são os resultados de um experimento com quatro tratamentos com
delineamento completamente casualizado.
Tratamento
A
B
C
D
1
3
6
12
20
2
1
8
6
14
Repetição
3
5
7
9
11
4
4
4
3
17
5
2
5
15
8
Soma
15
30
45
70
Estimativa
Média Variância
3
2,5
6
2,5
9
22,5
14
22,5
a) Efetue a análise da variação, ignorando a possível heterogeneidade de variância entre os
tratamentos.
b) Verifique para os dados deste experimento que QMErro é a média aritmética das quatro
estimativas de variâncias para os tratamentos.
8. Pressuposições do Modelo Estatístico: Violações, Implicações, Verificação e Remédios
317
c) Efetue as comparações entre os tratamentos A e B e entre os tratamentos C e D, pelo teste
dms de Fisher ( =0,05).
d) Efetue as mesmas comparações entre tratamentos indicadas no item anterior pelo teste F
( =0,05), através de duas análises de variação separadas, uma para os tratamentos A e B e
outra para os tratamentos C e D.
e) Verifique que as conclusões dos testes efetuados nos itens c) e d) são opostas. Discuta a
contradição entre essas conclusões. Qual dos dois procedimentos de análise é o mais
apropriado? Por que?
2. Considere os dados (peso de grãos de trevo vermelho, em gramas por parcela) referentes ao
experimento para pesquisa do efeito do intracruzamento sobre a incidência de trevo vermelho
de que trata o exercício 3 da Seção 1.7.
a) Determine a estimativa da variância do erro separadamente para cada tratamento.
b) Verifique que o QM Erro é a média ponderada das estimativas das variâncias individuais
para os quatro tratamentos cujos pesos são os graus de liberdades dessas estimativas.
c) Efetue o teste de homogeneidade da variância do erro experimental para os quatro
tratamentos, através da estatística Fmax de Hartley e da estatística C de Cochran.
3. Responda as mesmas questões formuladas no exercício anterior para os dados do experimento
sobre o efeito de um fertilizante mineral sobre o desenvolvimento da planta da ervilha
considerado no exercício 5 da Seção 1.8.
4. Decida se cada uma das seguintes sentenças é verdadeira ou falsa, colocando, entre parênteses,
as letras V ou F, respectivamente. Se a sentença for falsa, explique porque.
(
) A transformação de dados pode ser utilizada como um procedimento alternativo quando
certas condições, como homogeneidade de variância, independência estatística e
normalidade da distribuição dos erros, não se verifica no experimento.
(
) O experimentador não testa a homogeneidade de variância a menos que ele tenha razão
para duvidar dessa usual pressuposição da análise da variação.
(
) Quando em um experimento as médias de tratamentos são relacionadas com as
correspondentes variâncias, uma transformação apropriada dos dados pode resultar em
homogeneidade de variância e ainda permitir uma heterogeneidade de médias.
(
) Quando se usa uma transformação de dados previamente à realização de uma análise
estatística, a expressão das médias de tratamentos nas conclusões deve ser feita a partir
dos dados originais.
(
) Se o resultado de um teste de homogeneidade de variância é significativo quando efetuado
sobre os dados originais, uma transformação adequada deve resulta em não significância
quando o teste for efetuado sobre os dados transformados.
(
) Uma transformação apropriada deve prover um teste F de potência mais elevada do que o
efetuado com os dados originais que não satisfazem às pressuposições da análise da
variação.
318
Estatística Experimental. 2. Análise Estatística de Experimentos
(
) Se os tamanhos de amostras são grandes, o experimentador deve, sempre, verificar a
normalidade antes da execução de uma análise da variação.
(
) A heterogeneidade de variância é mais provável com um modelo de efeitos aleatórios, em
que os grupos são extraídos aleatoriamente de uma população grande, do que com um
modelo de efeitos fixos, em que os grupos são convenientemente escolhidos.
8.9
Bibliografia
BOX, G. E. P.; COX, D. R. An analysis of transformations. Journal of the Royal Statistical
Society, Series B, v. 26, p. 211-243, 1964.
BOX, G. E. P.; HUNTER, W. G.; HUNTER, J. S. Statistics for experimenters: An introduction
to design, data analysis and model building. New York: John Wiley, 1978. 653p.
GILL, J. L. Design and analysis of experiments in the animal and medical sciences. Ames,
Iowa: Iowa State University, 1981. Volume 1. 410p.
GOMEZ, K. A.; GOMEZ, A. A. Statistical procedures for agricultural research; with
emphasis on rice. Los Baños, Philippines: The International Rice Research Institute, ,
1981. 294p.
GOMEZ, K. A.; GOMEZ, A. A. Statistical procedures for agricultural research. 2. ed. New
York: John Wiley, 1984. 680p.
KIRK, R.E. Experimental design: Procedures for the behavioral sciences. Belmont, California:
Brooks/Cole, 577p.
KUEL, R. O. Design of experiments; Statistical principles of research design and analysis. 2
ed. Pacific Grove, California: Duxbury, 2000. 666p.
MONTGOMERY, D.C. Design and Analysis of Experiments. 2nd edition. New York: John
Wiley & Sons. 1976. 538.
COCHRAN, W.G.. Some consequences when the assumptions for the analysis of variance are not
satisfied. Biometrics, v.3, n.1, p.22-38, 1947.
EISENHART, C. The assumptions underlying the analysis of variance. Biometrics, v.3, n.1, p.121, 1947.