Bio 3

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 52

BIOESTATÍSTICA

Unidade 3
Noções de Inferência
estatística
CEO

DAVID LIRA STEPHEN BARROS

Diretora Editorial
ALESSANDRA FERREIRA

Gerente Editorial

LAURA KRISTINA FRANCO DOS SANTOS

Projeto Gráfico

TIAGO DA ROCHA

Autoria

LEANDRO VINHAS DE PAULA


Leandro Vinhas de Paula
AUTORIA

Olá! Meu nome é Leandro Vinhas de Paula. Sou bacharel


e licenciado em Educação Física (Faculdade de Educação Física
e Fisioterapia – Universidade Federal de Uberlândia), mestre
em Ciências do Esporte (Escola de Educação Física, Fisioterapia
e Terapia Ocupacional – Universidade Federal de Minas
Gerais – EEFFTO/UFMG) e especialista em Estatística Aplicada
(Departamento de Estatística – Instituto de Ciências Exatas – ICEX/
UFMG) com uma experiência técnico-profissional na área de
Educação Física e esportes por mais de 10 anos em atividades
de ensino, pesquisa e extensão na Universidade Federal de Ouro
Preto e no meio privado. Atualmente sou doutorando na área de
Biomecânica (EEFFTO – UFMG). Por isso fui convidado pela Editora
Unidade 3

Telesapiens a integrar seu elenco de autores independentes.


Estou muito feliz em poder ajudar você nesta fase de muito estudo
e trabalho. Conte comigo!

4 BIOESTATÍSTICA
Esses ícones aparecerão em sua trilha de aprendizagem nos seguintes casos:

ÍCONES
No início do Caso haja a
desenvolvimento necessidade de
de uma nova apresentar um novo
OBJETIVO competência. DEFINIÇÃO conceito.

Quando são
Se as observações
necessárias
escritas tiverem que
observações ou
IMPORTANTE ser priorizadas.
NOTA complementações.

Se existirem
Se algo precisar ser curiosidades e

Unidade 3
melhor explicado ou indagações lúdicas
EXPLICANDO detalhado. sobre o tema em
MELHOR VOCÊ SABIA?
estudo.

Existência de Se for preciso acessar


textos, referências sites para fazer
bibliográficas e links downloads, assistir
SAIBA MAIS para aprofundar seu ACESSE vídeos, ler textos ou
conhecimento. ouvir podcasts.

Se houver a
necessidade de Quando for preciso
chamar a atenção fazer um resumo
sobre algo a cumulativo das últimas
REFLITA ser refletido ou RESUMINDO abordagens.
discutido.

Quando alguma Quando uma


atividade de competência é
autoaprendizagem concluída e questões
ATIVIDADES for aplicada. TESTANDO são explicadas.

BIOESTATÍSTICA 5
Teste de hipótese .................................................................... 10
SUMÁRIO

Fundamentos dos Testes de Hipóteses......................................................... 10

Conceitos básicos e terminologia..................................................... 10

Teste de hipóteses............................................................................... 12

Intervalo de confiança da média............................................ 18


Conceitos básicos do intervalo de confiança................................................ 18

Definição e significado do intervalo de confiança.......................... 18

Relação entre intervalo de confiança e nível de confiança.......... 20

Cálculo do Intervalo de Confiança................................................................... 21

Métodos para calcular o intervalo de confiança da média.......... 21


Unidade 3

Interpretação do intervalo de confiança na prática...................... 24

Testes para inferência sobre uma amostra........................... 27


Planejamento do Teste de Hipóteses............................................................. 27

Teste “Z” ............................................................................................................... 28

Teste “t” ................................................................................................................ 31

Teste para inferência sobre duas ou mais amostras............ 36


Teste “t” (amostras independentes)................................................................ 38

Análise de variância (amostras independentes)........................................... 43

Teste “t” pareado (amostras dependentes) .................................................. 46

6 BIOESTATÍSTICA
Você sabia que a capacidade de interpretar dados e

APRESENTAÇÃO
aplicar métodos de inferência estatística está se tornando cada
vez mais valiosa no mercado de trabalho atual? Em um mundo
dominado por big data e análise preditiva, as habilidades em
bioestatística abrem portas para oportunidades de carreira em
diversos setores, desde a saúde pública e pesquisa biomédica
até a indústria farmacêutica e organizações de saúde. Esses
profissionais são fundamentais para traduzir números em
insights que podem moldar políticas de saúde, direcionar
inovações médicas e melhorar resultados de tratamentos.
A demanda por especialistas capazes de realizar análises
estatísticas complexas e interpretar seus resultados está em
ascensão, tornando a bioestatística uma área promissora para

Unidade 3
estudantes de graduação.

Ao longo desta unidade letiva, você vai mergulhar neste


universo, explorando os fundamentos da inferência estatística
e sua aplicação no campo da bioestatística. Começaremos
com uma introdução aos conceitos básicos de probabilidade
e distribuições de probabilidade, essenciais para entender os
métodos de inferência. Em seguida, discutiremos como estimar
parâmetros populacionais a partir de amostras, utilizando
técnicas de estimação pontual e por intervalo. Abordaremos
também os testes de hipóteses, uma ferramenta poderosa para
tomar decisões com base em dados experimentais, e como esses
testes são aplicados para comparar grupos, avaliar associações e
testar a eficácia de tratamentos.

Além disso, enfatizaremos a importância da análise


crítica dos resultados, um aspecto fundamental do pensamento
crítico em bioestatística. Aprender a questionar a validade das
conclusões estatísticas e entender as limitações dos estudos evita
interpretações errôneas que podem levar a decisões de saúde
pública mal-informadas.

BIOESTATÍSTICA 7
Prepare-se para uma jornada pelo fascinante mundo
da inferência estatística em bioestatística, onde a matemática
encontra a medicina, e os números contam histórias que podem
salvar vidas. Este é um campo dinâmico e desafiador, que promete
não só enriquecer seu conhecimento acadêmico, como também
equipá-lo com habilidades práticas altamente valorizadas no
mercado de trabalho. Vamos começar?
Unidade 3

8 BIOESTATÍSTICA
Olá. Seja muito bem-vindo à Unidade 3. Nosso objetivo

OBJETIVOS
é auxiliar você no desenvolvimento das seguintes competências
profissionais até o término desta etapa de estudos:

1. Definir os testes de hipóteses.

2. Interpretar o que é o intervalo de confiança da média.

3. Preparar testes de hipóteses sobre uma amostra.

4. Preparar testes de hipóteses sobre duas ou mais


amostras.

Vamos começar? Está preparado? Então vamos ao trabalho!

Unidade 3

BIOESTATÍSTICA 9
Teste de hipótese
Neste capítulo, abordaremos a competência
essencial em bioestatística: definir os testes de
hipóteses. Esse conceito é a pedra angular na
OBJETIVO análise de dados e interpretação de resultados em
pesquisa científica. Compreender os fundamentos
dos testes de hipóteses, os diferentes tipos
de testes disponíveis e como tomar decisões
estatísticas baseadas em dados é importante para
qualquer profissional que trabalha com pesquisa
em ciências da saúde. Ao dominar esses conceitos,
você estará equipado para avaliar a significância
de seus achados de pesquisa de forma confiável e
precisa. Muitos pesquisadores enfrentam desafios
Unidade 3

significativos ao aplicar testes de hipóteses sem a


devida compreensão, resultando em interpretações
incorretas e conclusões equivocadas. E então?
Motivado para desenvolver esta competência?
Vamos lá. Avante!

Fundamentos dos Testes de


Hipóteses
Conceitos básicos e terminologia
Ao adentrarmos o universo dos testes de hipóteses,
embrenhamo-nos em um terreno fundamental para a
compreensão e aplicação da bioestatística. Sampaio (2010) nos
introduz a essa temática, ressaltando a importância da estatística
como um pilar essencial na experimentação animal e, por
extensão, em pesquisas na área da saúde. O conceito de hipótese
nula, conforme delineado por Shahbaba (2012), serve como ponto
de partida para qualquer teste estatístico, em que supomos,
inicialmente, a inexistência de diferença ou efeito.

10 BIOESTATÍSTICA
Aprofundando-nos, Siqueira e Tibúrcio (2011) discorrem
sobre a terminologia específica dessa área, como os erros do
tipo I e II, que são relevantes para o entendimento dos riscos
associados às decisões estatísticas. A distinção entre esses erros,
onde o tipo I representa a rejeição incorreta da hipótese nula e o
tipo II a falha em rejeitar uma hipótese nula falsa, é fundamental
para a definição de estratégias de análise e para a interpretação
correta dos resultados de uma pesquisa.

Pagano e Gauvreau (2004) complementam essa discussão


ao elucidar o conceito de significância estatística e valor-p,
ferramentas que nos permitem quantificar a evidência contra
a hipótese nula. Esses autores enfatizam a importância de uma
compreensão sólida desses conceitos para a correta interpretação

Unidade 3
dos resultados obtidos em pesquisas científicas, em que a decisão
de rejeitar ou não a hipótese nula deve ser tomada com base em
critérios estatísticos rigorosos.

Finalmente, Zar (1999) nos leva a uma reflexão sobre a


aplicabilidade desses conceitos e métodos no vasto campo da
análise bioestatística. Seu trabalho sublinha a relevância dos
testes de hipóteses na análise de dados biológicos e na tomada
de decisões baseadas em evidências. Por meio da utilização
criteriosa dessas ferramentas estatísticas, é possível testar teorias
e hipóteses de pesquisa, bem como contribuir significativamente
para o avanço do conhecimento científico na área da saúde.

Em suma, os fundamentos dos testes de hipóteses


constituem uma base crucial para qualquer pesquisa em
bioestatística. A compreensão desses conceitos e a habilidade
em aplicá-los de forma correta e ética fortalecem a integridade
e a confiabilidade dos resultados científicos, e asseguram que
decisões importantes na área da saúde sejam tomadas com o
maior grau de evidência e precisão possíveis.

BIOESTATÍSTICA 11
Teste de hipóteses
No cerne da bioestatística, os testes de hipóteses
representam uma ferramenta indispensável para a análise de
dados e a tomada de decisões baseada em evidências científicas.
Sampaio (2010) nos introduz a essa temática ao destacar a
aplicação dos testes de hipóteses em experimentação animal,
ressaltando sua importância para assegurar a aplicabilidade e
relevância desses resultados no contexto mais amplo da pesquisa
em saúde.

Considerando apenas uma única variável, quais são as


perguntas mais frequentes a responder após a coleta dos dados?
Separando pelo tipo da variável são:
Unidade 3

Quadro 3.1 – Variáveis quantitativas x qualitativas

Quantitativa Qualitativa

• Qual o valor médio populacional? • Qual é a proporção populacional


• O valor médio encontrado é do evento de interesse?
significativamente diferente das • A proporção encontrada é
expectativas atuais e teóricas? significativamente diferente das
• Qual o nível de incerteza expectativas atuais ou teóricas?
associado com a estimativa do • Qual o nível de incerteza
valor médio? associado com a estimativa da
proporção?

Fonte: Elaborado pela autoria (2023).

Suponha duas variáveis, as questões a responder


nesse caso dependem do tipo das variáveis. Vejamos as três
possibilidades:

12 BIOESTATÍSTICA
Quadro 3.2 – Variáveis quantitativas x qualitativas

Qualitativa vs. Quantitativa vs. Quantitativa vs.


Qualitativa Qualitativa Quantitativa

• Existe associação/ • A variável • Existe correlação


concordância entre quantitativa é entre as variáveis?
as variáveis? diferente entre • Qual tipo de
• Como se dá a as categorias da correlação?
associação? variável qualitativa? • Qual é o grau de
• Qual é o grau • Qual é o nível de associação?
de associação/ incerteza associado
concordância? à existência
dessa diferença?

Fonte: Elaborado pela autoria (2023).

Inicialmente, pode-se definir um teste de hipótese como

Unidade 3
um procedimento padrão para testar uma afirmativa sobre uma
propriedade da amostra. A construção de afirmativas com base na
observação de fenômenos é parte essencial do método científico.
Logo, antes de apresentar as etapas de um teste de hipótese
primeiramente é importante definir alguns conceitos.

• Nível de significância (α): é definido como o nível de


significância, o erro assumido pela testagem da hipótese,
o limite para o valor de probabilidade (“p-valor”), abaixo
do qual se assume que a hipótese nula é falsa.

• μ: é conceituada como a média populacional, a relação


entre o somatório do conjunto total de valores dos
elementos pelo número de elementos observado de
uma determinada variável aleatória.

• ẋ: definida como média amostral, ou a relação


entre o somatório do subconjunto de valores dos
elementos pelo número de elementos observado nessa
amostragem para uma determinada variável aleatória.

BIOESTATÍSTICA 13
• σ: desvio padrão populacional, definido como a raiz
quadrada dos somatórios dos desvios elevados ao
quadrado divididos pelo número elementos da amostra.

• s: desvio padrão amostral, definido como a raiz


quadrada dos somatórios dos desvios elevados ao
quadrado divididos pelo número de elementos da
amostra menos 1.

• H0: hipótese nula, consiste na afirmação produzida


pelo pesquisador, que geralmente aponta que não há
relação entre fenômenos medidos;

• H1: hipótese alternativa, consiste na afirmação


produzida pelo pesquisador, que geralmente aponta
Unidade 3

que há relação entre fenômenos medidos.

• Erro tipo I (α): significa rejeitar a hipótese nula quando


essa era de fato verdadeira.

• Erro tipo II (β): significa não rejeitar a hipótese nula


quando a hipótese nula é falsa.

• Poder do teste (1- β): consiste na probabilidade de


rejeitar a hipótese nula quando a hipótese nula é falsa.

Observem na tabela a seguir as possibilidades de erro:


Quadro 3.3 – Tipos de erros

DECISÃO REJEITAR NÃO REJEITAR


H0 verdadeira Erro tipo I 1–α
H0 falsa 1–β Erro tipo II

Fonte: Elaborado pela autoria (2023).

A seguir, apresentaremos a ideia geral de um teste de


hipótese e mostraremos os princípios e os conceitos que serão

14 BIOESTATÍSTICA
utilizados em todos os testes estatísticos. As etapas de um teste
de hipótese são:

a. Estabelecer as hipóteses:

Uma questão importante aqui é definir o parâmetro que


se está testando (média, proporção ou variância), e se o teste será
bilateral ou unilateral. As diferenças são mostradas a seguir:

I) Teste unilateral:

H0: μ ≥3,32

H1: μ<3,32

II) Teste bilateral:

Unidade 3
H0: μ=3,32

H1: μ≠3,32

A diferença reside no fato de que no teste unilateral,


o objetivo é testar somente se o valor é menor ou maior que o
valor especificado; enquanto no teste bilateral, o objetivo é testar,
ao mesmo tempo, as duas opções dos testes unilaterais. Dessa
forma, o teste unilateral é utilizado quando se possui algum
conhecimento sobre o que se está testando.

b. Determinar a estatística de teste:

A estatística de teste é um valor calculado a partir dos


dados amostrais, usada para se tomar a decisão sobre a rejeição
ou não da hipótese nula.

c. Calcular o valor de probabilidade e tomada de decisão:

Comumente, a estatística de teste está atrelada a alguma


distribuição de probabilidade. Por meio da estatística de teste,
sabe-se a probabilidade de o evento em questão ocorrer, o que

BIOESTATÍSTICA 15
possibilita a tomada de decisão sobre as hipóteses traçadas
previamente. O valor de probabilidade (“p - valor”) é definido
como a probabilidade de se obter um valor da estatística de teste
que seja, no mínimo, tão extremo quanto o que representam os
dados amostrais, supondo a hipótese nula verdadeira. Sendo
assim, fixando o nível de significância em 0,05 (5%), se o p-valor
for menor que 0,05, rejeita-se a hipótese nula.

Uma outra maneira de tomar decisões no teste de hipótese


é sobre a região crítica. A região crítica é definida como o conjunto
de todos os valores da estatística de teste que nos fazem rejeitar
a hipótese nula. Cada teste de hipótese tem sua estatística de
teste e, na medida que o tamanho amostral aumenta, se conhece
a distribuição de probabilidade e sua respectiva distribuição de
Unidade 3

probabilidade da estatística de teste. Porém, qual teste de hipótese


utilizar? Como escolher o teste de hipótese adequado? A fim de
selecionar o teste adequado para garantir que a inferência esteja
correta, é preciso estar atento a alguns fatos sobre a distribuição
dos dados:

• As variáveis são normalmente distribuídas? Conhece-se


a distribuição de probabilidade das variáveis?

• Existem outliers, ou seja, valores extremos no conjunto


de dados?

• A mesma unidade amostral foi coletada ao longo de um


período de tempo, ou seja, os dados são independentes?

• O tamanho da amostra é pequeno?

O teste estatístico mais adequado para testar suas


hipóteses será encontrado por meio da resposta a essas perguntas.
A seguir, apresentaremos alguns dos principais testes estatísticos,
classificados em testes sobre uma amostra ou duas amostras.

16 BIOESTATÍSTICA
A capacidade de definir e aplicar corretamente os
testes de hipóteses é indispensável no campo da
bioestatística, servindo como base para a tomada
RESUMINDO de decisões informadas em pesquisas. Este capítulo
inicia com uma exploração dos fundamentos
dos testes de hipóteses, estabelecendo uma
compreensão sólida dos conceitos-chave, como
hipótese nula e alternativa, e a importância de
distinguir entre erros tipo I e II. Segue-se uma
análise dos tipos de testes de hipóteses, onde
discutimos as diferenças e aplicações de testes
paramétricos e não paramétricos, além de quando
utilizar abordagens unilaterais ou bilaterais.
Por fim, a seção sobre decisão estatística e
interpretação orienta sobre como interpretar
resultados estatísticos, enfatizando a importância

Unidade 3
da significância estatística e do valor-p na validação
de conclusões de pesquisa.
Este capítulo é projetado para cultivar uma
compreensão profunda dos testes de hipóteses,
equipando você com as ferramentas necessárias
para aplicá-los de maneira eficaz em sua própria
pesquisa. Ao longo da leitura, questionamos: como
a escolha entre diferentes tipos de testes influencia
os resultados da pesquisa? E qual a relevância da
interpretação correta dos resultados para a ciência
como um todo?
Entender os princípios e práticas detalhados aqui
não apenas aprimora sua habilidade em realizar
análises estatísticas robustas, mas também
prepara você para enfrentar os desafios comuns
encontrados na pesquisa científica. Ao dominar
esses conceitos, você garante a integridade e a
confiabilidade dos resultados de suas investigações,
contribuindo significativamente para o avanço do
conhecimento na sua área de especialização. E
então? Gostou do que lhe mostramos? Aprendeu
mesmo tudinho? Agora, só para termos certeza de
que você realmente entendeu o tema de estudo.

BIOESTATÍSTICA 17
Intervalo de confiança da
média
Neste capítulo, nos aprofundamos em como
interpretar o que é o intervalo de confiança da
média, uma habilidade essencial para profissionais
OBJETIVO que trabalham com análise de dados na área da
saúde. O entendimento correto do intervalo de
confiança permite avaliar a precisão de estimativas
estatísticas e tomar decisões informadas baseadas
em dados coletados. Muitos profissionais
enfrentam desafios ao interpretar resultados
de pesquisa sem uma compreensão adequada
deste conceito, o que pode levar a conclusões
errôneas e decisões mal-informadas. Ao término
Unidade 3

deste capítulo, você será capaz de entender como


funciona o intervalo de confiança da média e sua
importância para a pesquisa científica e prática
clínica. Isso será fundamental para o exercício de
sua profissão. As pessoas que tentaram analisar
dados e fazer inferências sem a devida instrução
tiveram problemas ao interpretar corretamente os
resultados. E então? Motivado para desenvolver
esta competência? Vamos lá. Avante!

Conceitos básicos do intervalo


de confiança
Definição e significado do intervalo
de confiança
A definição e o significado do intervalo de confiança
são conceitos fundamentais na estatística aplicada à pesquisa
em saúde, oferecendo uma maneira de quantificar a incerteza

18 BIOESTATÍSTICA
associada a uma estimativa de parâmetro. Sampaio (2010) aborda
esse tema enfatizando a importância do intervalo de confiança
na experimentação animal, em que a precisão das estimativas é
importante para a interpretação correta dos resultados e para a
tomada de decisões informadas.

Shahbaba (2012), utilizando a linguagem R para análise


bioestatística, ilustra como o intervalo de confiança pode ser
calculado e interpretado em contextos de pesquisa. Ele destaca
que o intervalo de confiança oferece uma faixa de valores plausíveis
para um parâmetro desconhecido, refletindo a variabilidade
inerente aos dados e à metodologia de amostragem. Essa
abordagem é essencial para entender a precisão e a confiabilidade
das estimativas obtidas a partir dos dados coletados.

Unidade 3
Siqueira e Tibúrcio (2011) complementam essa discussão,
detalhando o significado do nível de confiança associado ao
intervalo. Eles explicam que um intervalo de confiança de 95%, por
exemplo, significa que, em 95% das amostras, o intervalo conterá
o verdadeiro valor do parâmetro. Essa interpretação ajuda os
pesquisadores a compreenderem e comunicarem a incerteza de
suas estimativas de forma clara e objetiva.

Pagano e Gauvreau (2004) ressaltam a aplicabilidade dos


intervalos de confiança na prática da bioestatística, argumentando
que eles são mais informativos do que os testes de hipóteses
isoladamente, pois fornecem uma decisão sobre a rejeição ou não
de uma hipótese, bem como uma estimativa do tamanho do efeito
com uma medida de incerteza.

Em resumo, o intervalo de confiança é um conceito


estatístico-chave, que permite aos pesquisadores quantificar a
incerteza associada a uma estimativa de parâmetro. A compreensão
e a aplicação correta desse conceito são fundamentais para a
interpretação adequada dos resultados de pesquisa e para a

BIOESTATÍSTICA 19
tomada de decisões baseadas em evidências na área da saúde.
Sampaio (2010), Shahbaba (2012), Siqueira e Tibúrcio (2011),
Pagano e Gauvreau (2004) e Zar (1999) fornecem uma base sólida
para a compreensão desse conceito, destacando sua importância
na bioestatística e na pesquisa em saúde.

Relação entre intervalo de confiança e


nível de confiança
Essa relação é essencial para os pesquisadores ao
comunicar a precisão das estimativas de parâmetros populacionais
a partir de dados amostrais. Ao discutir essa temática, é importante
reconhecer a contribuição de acadêmicos que esclarecem esses
Unidade 3

conceitos complexos com grande clareza.

O intervalo de confiança é uma faixa que nos fornece uma


estimativa de onde o verdadeiro valor do parâmetro da população
pode estar, com um certo grau de confiança. Esse intervalo é
impactado pelo nível de confiança selecionado, o qual indica com
que frequência esperamos que o intervalo de confiança inclua o
verdadeiro valor do parâmetro se o experimento fosse repetido
diversas vezes.

Portanto, ao escolher um intervalo de confiança mais


amplo, como 95% em vez de 90%, estamos mais confiantes de que
o intervalo capturará o verdadeiro valor do parâmetro, mas em
troca, o intervalo será mais amplo, resultando em uma estimativa
menos precisa. Por outro lado, ao optar por um intervalo de
confiança mais estreito, como 90%, aumentamos a precisão da
estimativa, mas reduzimos a probabilidade de que o intervalo
inclua o verdadeiro valor do parâmetro.

A relação entre intervalo de confiança e nível de confiança


ilustra um princípio fundamental da inferência estatística: a

20 BIOESTATÍSTICA
necessidade de considerar tanto a precisão das estimativas
quanto a confiabilidade dessas estimativas. A compreensão desses
conceitos é vital para a interpretação apropriada dos resultados
de pesquisa e para a tomada de decisões baseadas em evidências
na prática da saúde.

Cálculo do Intervalo de Confiança


Métodos para calcular o intervalo de
confiança da média
Suponhamos que dispomos de um determinado número
de observações de uma variável muito instável “A”, com média 380

Unidade 3
e desvio padrão de 190, e que a partir desses valores originais,
geraremos vários valores correspondentes às médias de 9 e 25
observações sorteadas aleatoriamente do conjunto original,
representados na segunda e terceira colunas da tabela a seguir:
Tabela 2.1 – Demonstração do número de observações de uma variável

Desvio Desvio
Média de 9 Média de 25
Simulação Padrão de 9 Padrão de 25
Observações Observações
Observações Observações

1 380 63.75 380 36.56

2 380 69.51 380 35.58

3 380 67.32 380 43.66

4 380 65.99 380 41.01

5 380 61.56 380 42.08

Fonte: Elaborada pela autoria (2023).

Podemos verificar que, ao gerarmos várias médias de


9 observações, a grande variação observada entre os valores
individuais fica diminuída pela operação em si, que controla a
variação pela definição de valores médios. O mesmo acontece

BIOESTATÍSTICA 21
com a distribuição de médias obtidas a partir de 25 valores iniciais,
com uma instabilidade (desvio padrão) ainda menor. Entretanto,
as médias para as 3 distribuições serão as mesmas, pois retratam
sempre o mesmo fenômeno. O valor do desvio, porém, diminui à
medida que o número de observações (n), utilizadas para o cálculo
do valor médio, aumenta.

Esclarecemos esse fato e justificamos a redução da


instabilidade quando consideramos que Var (x) = s2. Pelas
propriedades da média e do desvio:
Unidade 3

Onde, são respostas experimentais independentes.

Mas Var (X1) = Var (X2) = Var (Xn) pois se trata da mesma
resposta que está sendo estudada e Var(X) = s2, logo:

Então, a instabilidade (desvio padrão) observada em um


conjunto de médias obtidas de n indivíduos será . Note que
“s” expressa a variação média entre indivíduos e a variação
média entre valores de médias. Uma distribuição de médias
obtidas de “n” valores obtidos ao acaso de uma amostra (n≥120)
teríamos, portanto, o intervalo de confiança:

22 BIOESTATÍSTICA
Entretanto, na experimentação, o valor médio encontrado
se baseia em um número restrito de observações. Como o valor
de 1,96 se refere à distribuição de valores médios de grandes
grupos (n≥120), e o desvio da distribuição de médias aumenta à
medida que n diminui, uma correção no valor de z = 1,96 deverá
ser feita para garantir a definição precisa de uma área central de
95% que constituir-se-á no intervalo de confiança da média obtida
de n observações.
Logo, a distribuição de médias obtidas de 10 observações
terá um desvio padrão maior (s√10) do que aquelas obtidas de
120 observações (s√120). Nesse sentido, a distribuição normal
apresentar-se-á com maior dispersão e os 95% dos valores médios

Unidade 3
possíveis estarão inclusos em um intervalo mais amplo que o de
-1,96 a 1,96, no caso de -2,262 a 2,262.

EXEMPLO: Um veterinário coletou o nível de tiroxina


sérica em cães machos adultos normais a partir de uma
amostra de 55 animais, considerando os valores obtidos
da média (ẋ = 2,04 mcg/100ml) e do desvio padrão (s =
0,78 mcg/100ml) como boas estimativas populacionais,
podemos dizer:

a) Que 95% dos cães nessa categoria em qualquer


amostra realizada estarão com o nível sérico de tiroxina
entre 2,04±1,96(0,78), ou seja, de 0,51 a 3,57 mcg/100ml
(intervalos de respostas típicas ou intervalo de confiança).

b) Caso outro pesquisador repita o estudo utilizando o


mesmo número de animais (n=55), o valor médio de tiroxina
sérica estará possivelmente entre 2,04±2,006(0,78)/√55,
sendo 2,006 o valor “t” correspondente a 55-1=54 graus de
liberdade, ou seja, entre 1,83 e 2,25 mcg/100ml (intervalo
de confiança da média).

BIOESTATÍSTICA 23
Imagem 3.1 – Vetor de dados planta A
> PlantaA <- c(2.20, 3.83, 3.71, 3.49, 3.87, 2.59, 4.72,
+ 3.72, 1.15, 0.68, 0.35, 5.43, 5.66, 1.66, 1.83, 0.81,
+ 2.93, 1.22, 4.01, 4.53, 1.69, 3.50, 2.59, 5.63, 4.27,
+ 1.05, 1.97, 1.36, 2.83, 0.76, 3.09, 4.06, 2.85, 5.92,
+ 5.23, 2.53, 2.37, 5.78, 2.64, 0.81, 2.99, 2.54, 2.11,
+ 2.45, 0.98, 3.71, 1.86, 4.01, 3.06, 4.28)
> qqnorm (PlantaA)
> qwline (PlantaA, lty=2)
> shapiro.test (PlantaA)
Shapiro-Wilk normality test
Data: PantaA
W = 0.96767, p-value = 0.1858
Unidade 3

Fonte: Elaborado pela autoria (2023).

Interpretação do intervalo de confiança


na prática
A interpretação do intervalo de confiança na prática é
uma habilidade essencial para pesquisadores, permitindo uma

24 BIOESTATÍSTICA
compreensão mais profunda da variabilidade e da incerteza
associadas às estimativas estatísticas.
Sampaio (2010) enfatiza que o intervalo de confiança
fornece mais do que uma simples estimativa de parâmetro; ele
oferece uma faixa dentro da qual o verdadeiro valor do parâmetro
de interesse é esperado estar com um determinado nível de
confiança. Essa interpretação é fundamental na prática clínica e
na pesquisa em saúde, onde decisões muitas vezes precisam ser
tomadas sob condições de incerteza.
A interpretação do intervalo de confiança deve considerar
o contexto dos dados e do estudo. Por exemplo, um intervalo de
confiança estreito pode indicar uma estimativa precisa da média,
mas também deve ser avaliado em relação ao tamanho da amostra
e à variabilidade dos dados. Um intervalo mais amplo, por outro

Unidade 3
lado, pode refletir maior incerteza sobre a estimativa, mas isso
não diminui necessariamente o valor dos resultados se o intervalo
ainda indicar uma diferença ou efeito clinicamente significativo.
Outro ponto é a necessidade de comunicar claramente
a interpretação dos intervalos de confiança aos stakeholders
da pesquisa, incluindo colegas de profissão e formuladores de
políticas. Eles argumentam que uma compreensão clara do que o
intervalo de confiança realmente representa pode ajudar a evitar
mal-entendidos e a promover decisões mais informadas.
A interpretação prática do intervalo de confiança envolve
compreensão dos limites numéricos fornecidos pelo intervalo,
além da avaliação de sua relevância clínica ou de pesquisa. Isso
significa considerar o intervalo de confiança no contexto das
questões de pesquisa específicas, dos objetivos do estudo e das
implicações potenciais dos resultados.
Portanto, essa interpretação na prática transcende a
simples análise numérica. Ela exige uma integração da análise
estatística com o raciocínio clínico e científico, permitindo aos
pesquisadores e profissionais da saúde fazer inferências mais

BIOESTATÍSTICA 25
robustas e fundamentadas sobre seus dados. Ao aplicar essa
competência com eficácia, pode-se melhorar significativamente a
qualidade da pesquisa em saúde e a tomada de decisões baseada
em evidências.

E então? Gostou do que lhe mostramos? Aprendeu


mesmo tudinho? Agora, só para termos certeza
de que você realmente entendeu o tema de
RESUMINDO estudo, vamos recapitular os pontos-chave deste
capítulo. Inicialmente, discutimos a importância
de interpretar o intervalo de confiança da média,
uma ferramenta estatística que oferece uma
estimativa do grau de incerteza associado a uma
média amostral. Esse conceito nos permite fazer
inferências mais robustas sobre a população a
partir da qual a amostra foi retirada.
Unidade 3

Avançamos para o cálculo do intervalo de confiança


da média, detalhando os passos necessários para
sua determinação. Esta seção nos ajudou a entender
como os intervalos são construídos e o que eles
significam em termos práticos. A competência em
calcular o intervalo de confiança reforça a base
sobre a qual as decisões baseadas em evidências
são feitas, permitindo aos profissionais da saúde
aplicar os resultados de suas pesquisas de forma
mais confiável e fundamentada.
Finalmente, enfatizamos a relevância do intervalo
de confiança da média no contexto da tomada
de decisões informadas na área da saúde.
Compreender e aplicar corretamente este conceito
é indispensável para a avaliação da variabilidade
dos dados e para a interpretação apropriada
dos resultados de pesquisa. Essa habilidade não
só aprimora a qualidade da pesquisa científica,
como também contribui para uma prática clínica
baseada em evidências mais sólida. Ao dominar a
interpretação e o cálculo do intervalo de confiança
da média, os profissionais estão melhor equipados
para enfrentar os desafios da análise de dados e
da inferência estatística na bioestatística.

26 BIOESTATÍSTICA
Testes para inferência sobre
uma amostra
Neste capítulo, mergulhamos na competência de
preparar testes de hipóteses sobre uma amostra,
um pilar fundamental na pesquisa científica e
OBJETIVO na análise de dados. A habilidade de planejar,
executar e analisar corretamente os testes de
hipóteses valida teorias e hipóteses com rigor
estatístico. Muitos pesquisadores e profissionais
encontram desafios significativos ao tentar
aplicar esses conceitos sem uma compreensão
aprofundada, levando a interpretações errôneas
dos dados e, consequentemente, a conclusões
inválidas. Ao término deste capítulo, você será

Unidade 3
capaz de entender como funciona o processo de
teste de hipóteses, desde seu planejamento até
a análise dos resultados. Isso será fundamental
para o exercício de sua profissão, permitindo que
você conduza pesquisas com maior confiança e
precisão. As pessoas que tentaram realizar testes
de hipóteses sem a devida instrução tiveram
problemas ao interpretar os resultados e ao
tomar decisões baseadas em dados. E então?
Motivado para desenvolver esta competência?
Vamos lá. Avante!

Planejamento do Teste de
Hipóteses
Em um estudo sobre um determinado tipo de planta
específica do cerrado, após o plano de amostragem, foram medidas
as alturas de cada planta. Deseja-se, então, uma estimativa
pontual do valor médio da altura, ou seja, uma estimativa da altura
média populacional. É de interesse, ainda, obter uma estimativa

BIOESTATÍSTICA 27
intervalar e verificar se a média encontrada é equivalente à média
apresentada em outros estudos teóricos. Mas, então, como
responder a essas questões? Quais são as possibilidades de teste
que existem para responder se a média encontrada é equivalente
à média apresentada em outros estudos teóricos? Quais são as
suposições dos testes? Observe o fluxograma a seguir:
Imagem 3.2 – Suposições dos testes para uma amostra

Teste ‘‘Z’’

A variância populacional
é conhecida?

Teste ‘‘T’’
Unidade 3

A população
respeita um
distribuição
normal?

Utilizar métodos
não paramétricos

Fonte: Elaborado pela autoria (2023).

Porém, após definir anteriormente o que é um intervalo


de confiança, também denominado intervalo de respostas típicas,
definiremos o intervalo de confiança da média, na seção seguir.

Teste “Z”
Em um primeiro momento, veja a seguir as alturas
da planta “A” armazenadas em um vetor da Imagem 3.2.
O conhecimento sobre a variância de uma amostra possivelmente
não existe na prática, porém, a título teórico, suponha que a

28 BIOESTATÍSTICA
variância populacional seja de 2,25, ou seja, o desvio padrão
populacional da altura da planta “A” de 1,5. Deve-se verificar se os
dados da altura da planta “A” são normalmente distribuídos. Para
isso, foram utilizados o quantile-quantile plot (Q-Q plot) e o teste
de Shapiro-Wilk. Com o gráfico de Q-Q plot e o teste de Shapiro-
Wilk, pode-se afirmar que existem evidências de que a amostra
da planta “A” tem distribuição normal, pois, ao nível de 5% de
significância, não foi rejeitada a hipótese nula de normalidade,
com o p – valor = 0,1858.
Imagem 3.3 – Intervalo de confiança da média

Unidade 3
Fonte: Elaborado pela autoria (2023).

Para construir o intervalo de confiança da média


(Imagem 3.3), deve-se conhecer a margem de erro (Fórmula 6),
como a altura é normalmente distribuída e a variância populacional
é conhecida, a margem de erro é dada por:

Dessa forma, o intervalo de confiança é dado por:


ẋ - Erro(z) < μ < ẋ + Erro(z). Então, a estimativa pontual para a
média populacional é de 2,946 e, com 95% de confiança, a média
populacional está entre [2,53; 3,36]. Para utilizar o teste “z”,
suponha que na pesquisa anterior a média encontrada foi de 3,32.
Pode-se afirmar que as médias são iguais?

BIOESTATÍSTICA 29
Hipóteses:

H0: μ=3,32

H1: μ≠3,32

Estatística de teste:

A estatística de teste “z” apresenta uma distribuição


normal reduzida. Dessa forma, a partir do valor encontrado, pode-
se tomar decisão referente à rejeição da hipótese nula. A seguir,
são realizados os cálculos com o auxílio do software “R”:
Unidade 3

Imagem 3.4 – Cálculo da estatística de teste “z” e o valor de probabilidade

> z <- (mean (PlantaA) - 3.32) / ( (1.5) / sqrt (length (PlanteA) ) )


>z
[1] -1.76211
> P_valor <- 2*pnorm (z)
> P_valor
[1] 0.0780507
Fonte: Elaborado pela autoria (2023).

Após calcular a estatística de teste, foi utilizado o comando


pnorm() para calcular a probabilidade acumulada até o ponto “z”.
Deve-se ter muita atenção aqui, pois caso valor de “z” fosse positivo,
deveria fazer o cálculo de [2*(pnorm(z))]. O valor é multiplicado
por 2, pois o teste é bilateral e a curva da normal é simétrica.
Observe a importância de definir bem suas hipóteses. Nesse caso,
se o teste fosse unilateral, a hipótese nula seria rejeitada. Como
foi encontrado um p-valor associado ao teste de 0,078, a hipótese
nula não será rejeitada, uma vez que existem evidências que a
altura média encontrada com a nossa amostra é equivalente à
altura média do estudo anterior. Podemos instalar um pacote de

30 BIOESTATÍSTICA
funções para realizar os cálculos, a partir de um computador com
internet, denominado “BSDA” e escolher o servidor de instalação:
Imagem 3.5 – Cálculo do teste “z” em ambiente R

Unidade 3
Fonte: Elaborado pela autoria (2023).

Teste “t”
Em uma segunda situação, surge outra questão: e
se a variância não fosse conhecida? Qual seria a decisão e o
procedimento adotado? Conforme a imagem 3.1, aplica-se o teste
“t”. Nesse caso, a mudança, basicamente, reside na estatística
de teste e na distribuição de probabilidade a ser utilizada, a
distribuição de “t” de Student. A diferença entre a distribuição
normal padronizada e a distribuição de “t” de Student é que esta
última é diferente para tamanhos amostrais diferentes. A sua
forma é um pouco mais larga, refletindo uma maior variabilidade.
No entanto, à medida que o tamanho amostral aumenta a
distribuição “t” de Student se aproxima da normal. Os valores das
duas distribuições são idênticas para tamanhos amostrais maiores
que 2.000 observações, mas dependendo da referência adotada,

BIOESTATÍSTICA 31
tem sido considerado que, para amostras maiores de 30, parece
ser razoável adotar o teste “z” ao invés de “t”, pois é diferença é
muito pequena.
Tabela 3.1 – Distribuição “t” de Student: tabela
Unidade 3

Fonte: elaborado pelo autor.

A Imagem 3.6 ilustra a distribuição “t” de Student. Para


determinar o valor de “t” basta identificar o valor de significância
adotado e o respectivo número de graus de liberdade. O valor de

32 BIOESTATÍSTICA
“t” reside no valor observado na casela comum à coluna (nível de
significância) e linha (graus de liberdade).

Ao recuperar novamente o exemplo anterior, suponhamos


que não se conhece sua variância populacional da planta “A”.
Como visto anteriormente, a altura populacional é normalmente
distribuída e a estimativa pontual para a média populacional
de 2,946. Então, para construir intervalos de confiança para a
estimativa da média e compará-la com a de estudos anteriores,
tem-se que as hipóteses continuam as mesmas, mas a estatística
de teste e margem de erro é modificada:

Hipóteses:

H0: μ=3,32;

Unidade 3
H1: μ≠3,32;

Estatística de teste:

Sendo que tn-1 tem uma distribuição “t” de student


(Imagem 3.6) com n-1 graus de liberdade. A margem de erro para
variáveis normalmente distribuídas e a variância populacional
desconhecida é dada por:

Onde s é estimativa do desvio padrão e é o valor crítico


da distribuição t com o nível de significância de e com n-1 graus
de liberdade. Dessa maneira, o intervalo de confiança é dado por:
ẋ - Erro(t) < μ < ẋ + Erro(t). Com os comandos lançados acima,
pode-se observar que o valor da estatística de teste (t = -1,7587),

BIOESTATÍSTICA 33
com os graus de liberdade (degrees of freedom) df=49, gera um
p-valor = 0,08487. Como foi encontrado um p-valor associado
ao teste de 0,08487, a hipótese nula a 5% de significância
não é rejeitada.

Logo, existem evidências de que a altura média encontrada


em nosso estudo é equivalente a altura média do estudo anterior.
Nas saídas da Imagem 3.7, têm-se também a hipótese alternativa
especificada em língua inglesa, o intervalo de 95% de confiança
e a média amostral. Para estabelecer testes unilaterais, deve-se
apenas mudar o argumento utilizando em alternative da forma
apresentada conforme a Imagem 3.7.
Imagem 3.7 – Aplicação do teste “t” em ambiente R
Unidade 3

Fonte: Elaborado pela autoria (2023).

E então? Gostou do que lhe mostramos? Aprendeu


mesmo tudinho? Agora, só para termos certeza
de que você realmente entendeu o tema de
RESUMINDO estudo, vamos revisar os pontos essenciais deste
capítulo. Iniciamos com o planejamento do teste
de hipóteses, destacando a importância de definir
claramente as hipóteses nula e alternativa, bem
como a escolha do teste estatístico apropriado.
Este passo inicial é crucial para garantir a relevância
e a validade dos resultados obtidos.

34 BIOESTATÍSTICA
Avançamos para a execução do teste de hipóteses,
em que discutimos o processo de coleta de
dados, a aplicação do teste estatístico escolhido
e a importância de utilizar programas estatísticos
para uma análise precisa. A execução cuidadosa
dos testes de hipóteses é essencial para minimizar
erros e para a obtenção de resultados confiáveis.
Por fim, abordamos a análise dos resultados
obtidos, enfatizando a interpretação dos valores-p,
a significância estatística e como esses elementos
contribuem para a aceitação ou rejeição das
hipóteses iniciais. Esta etapa final é decisiva para
a compreensão do estudo e para a contribuição de
novos conhecimentos à área de estudo. O domínio
dessas competências não apenas aprimora a

Unidade 3
qualidade da sua pesquisa, mas também fortalece
sua capacidade de tomar decisões baseadas em
evidências científicas. E então? Confidente em sua
compreensão sobre como preparar e interpretar
testes de hipóteses sobre uma amostra? Avante na
jornada do conhecimento em bioestatística.

BIOESTATÍSTICA 35
Teste para inferência sobre
duas ou mais amostras
Neste capítulo, dedicamo-nos a preparar testes de
hipóteses sobre duas ou mais amostras, um aspecto
da bioestatística que permite a comparação entre
OBJETIVO grupos distintos. Essa habilidade é indispensável
para analisar se diferenças observadas em
amostras são de fato significativas ou se podem
ser atribuídas ao acaso. Muitos profissionais e
pesquisadores enfrentam dificuldades ao aplicar
esses testes sem o conhecimento adequado, o
que pode levar a conclusões imprecisas e afetar
a integridade de suas pesquisas. Ao término
deste capítulo, você será capaz de entender como
Unidade 3

funciona a aplicação e interpretação do teste


“t” para amostras independentes, a análise de
variância para comparar múltiplos grupos, e o
teste “t” pareado para amostras dependentes. Essa
compreensão será fundamental para o exercício de
sua profissão, permitindo que você realize análises
estatísticas com confiança e precisão. As pessoas
que tentaram realizar essas comparações sem a
devida instrução tiveram problemas ao interpretar
corretamente os dados. E então? Motivado para
desenvolver esta competência? Vamos lá. Avante!

Para realizar inferência sobre duas amostras, escolhendo


adequadamente o teste de hipótese a ser utilizado, deve-se estar
atento aos objetivos do teste, ao tipo de informação disponível e
às suposições básicas de cada teste. Neste capítulo, trabalharemos
apenas com métodos de comparação de médias que se adéquem
a uma distribuição normal de probabilidade. A Imagem 3.8, a
seguir, ilustra de maneira geral os testes apropriados em cada

36 BIOESTATÍSTICA
caso. A situação apresentada adiante é considerada como a mais
frequente em pesquisas científicas.
Geralmente, o interesse é comparar o valor médio de
uma variável quantitativa entre as categorias de uma variável
qualitativa, como o nível de colesterol entre faixas de idade, entre
sexo, entre raças etc.
A seguir, exceto para a análise longitudinal, que não é o
escopo desta disciplina, evidenciaremos, para cada situação,
como interpretar e realizar o teste. Iremos iniciar com os testes
apresentados na Imagem 3.8 para o caso de duas variáveis
quantitativas. Em primeiro lugar, serão apresentados os testes
paramétricos para amostras independentes.
Imagem 3.8 – Suposições dos testes para duas amostras para variáveis qualitativas vs.
variáveis quantitativas

Unidade 3
Teste ‘‘t’’

Qualitativa:
possui mais de
2 níveis

Anova
Apresenta
(1 fator)
Qualitativa distribuição
vs. normal.
Quantitativa Amostras
pareadas: Teste ‘‘t’’
pareado

Qualitativa:
possui mais de
2 níveis

Análise
longitudinal*

Fonte: Elaborado pela autoria (2023).

BIOESTATÍSTICA 37
Teste “t” (amostras
independentes)
Para apresentar o teste “t” e a análise de variância, será
utilizado o experimento em que um estudo observacional em
mulheres que realizavam um tratamento especial de fertilização.
Ao iniciar o tratamento foram coletadas as idades das mulheres
e o tipo de infertilidade que cada paciente apresentava. Após o
tratamento, as mulheres foram acompanhadas durante dois
anos e, no final desse período, verificou-se quais pacientes que
tinham engravidado e quais não tinham. Suponha que o objetivo
do estudo seja analisar a influência da idade sobre a gravidez
e se existe alguma relação entre idade e o tipo de infertilidade.
Unidade 3

Observe a seguir a importação do banco de dados e verificação do


pressuposto de normalidade da variável idade:
Imagem 3.9 – Importação de dados e verificação do pressuposto de normalidade dos dados

Fonte: Elaborado pela autoria (2023).

38 BIOESTATÍSTICA
Pode-se observar que a variável idade apresenta
distribuição normal. Dessa forma, para verificar o efeito da idade
sobre a gravidez, pode-se utilizar o teste “t”, porque a variável idade é
normalmente distribuída, a variável gravidez apresenta dois níveis
e o estudo é independente, pois somente observa-se uma medida
de cada paciente. Para realizar o teste “t”, primeiramente, deve ser
realizado um teste para verificar se as variâncias são iguais. Antes
de apresentar os testes e os resultados, segue o boxplot dessas
variáveis para se ter uma visão de como são os dados.
Nota-se com o boxplot que a idade mediana é
aparentemente diferente entre o grupo de pacientes que
conseguiu engravidar e o que não consegui. Pode-se observar
também que aparentemente as pacientes que possuíam o tipo
I de infertilidade, apresentam a idade mediana maior do que

Unidade 3
as pacientes que possuíam os tipos II e III de infertilidade. Para
utilizar o teste “t”, em primeiro lugar, será verificado o efeito da
idade sobre a gravidez.
Imagem 3.10 – Gráficos boxplot para as variáveis gravidez e infertilidade

Fonte: Elaborado pela autoria (2023).

BIOESTATÍSTICA 39
Hipóteses:
H0: As idades são estatisticamente iguais entre grupos (µG = µNG);

H1: As idades são estatisticamente diferentes entre grupos


(µG ≠ µNG);

Estatística de teste, para variâncias populacionais iguais (=):

Onde nA e nB correspondem às amostras dos grupos


experimentais A e B, ẋA e ẋB médias .....amostrais dos grupos A e B,
Unidade 3

µA e µB médias populacionais dos grupos A e B, e

Para variâncias populacionais diferentes, tem-se que:

Como antes de realizar o teste “t” deve-se verificar se as


variâncias são iguais, segue as hipóteses e a estatística de teste do
teste “F”, para variâncias:

Hipóteses:

H0: = ;

H1: ≠ ;

40 BIOESTATÍSTICA
Estatística de teste:

Onde é maior das duas variâncias e os graus de liberdade


do numerador são n1-1 e n2-1.
Imagem 3.11 – Teste de hipótese para variâncias iguais: pré-requisito para realização do
teste “t” para amostras independentes

Unidade 3
Fonte: Elaborado pela autoria (2023).

Nota-se na Imagem 3.11, que como o p-valor é maior que


0,05, não existem evidências para rejeitar H0, ou seja, deve-se
considerar as variâncias como iguais.

EXEMPLO: Em todo e qualquer teste estatístico expressa-


se como elemento principal a variação mais provável entre
indivíduos, por meio da estimativa de desvio padrão ou
variância, onde a variação total é expressa pela fórmula
08. Como exemplo, tomaremos dois grupos experimentais
de 5 elementos A (72; 75; 70; 71; 68) e B (72; 67; 72; 70; 66),
logo temos que a variância entre indivíduos será:

BIOESTATÍSTICA 41
Passemos às comparações entre as médias dos grupos
A e B, utilizando o intervalo de confiança da diferença ẋA - ẋB.
Considerando que a estimativa é calculada a partir de 8 graus de
liberdade e as variâncias populacionais são iguais temos que o
intervalo de confiança, baseado na Fórmula 7, será:

Ou seja, em 95% das respostas típicas testando os grupos


A e B, a diferença entre suas médias oscila de -2,09 a 5,69, intervalo
que inclui o valor 0. Logo, o grupo A apresenta média equivalente
ao grupo B. Adicionalmente, pelo teste “t” temos que:
Unidade 3

Logo, pelo valor de “t” tabelado (2,306) ser maior que


o valor calculado de “t” (1,071), indicando que os grupos
apresentam médias equivalentes. Em ambiente “R”, o mesmo
teste pode ser realizado conforme a Imagem 3.12.
Imagem 3.12 – Teste “t” para amostras independentes (ambiente “R”)

Fonte: Elaborado pela autoria (2023).

Sobre o exemplo anteriormente apresentado, com o


p-valor igual a 0,1058, não existe evidência para rejeitar H0, ou seja,
dessa forma, pode-se concluir que as pacientes que conseguiram
engravidar tinham, em média, 29,92 anos; enquanto as pacientes

42 BIOESTATÍSTICA
que não conseguiram engravidar tinham em média 28,38 anos,
sendo essa diferente significativa ao nível de 5% de significância.

Análise de variância (amostras


independentes)
Anteriormente, vimos que a variância é fundamental para
alcançarmos os objetivos da maioria das investigações científicas
(comparação de médias). O objetivo neste segmento é investigar
se existe alguma relação entre o tipo de infertilidade e a idade
das pacientes. Como a variável tipo de infertilidade apresenta
três níveis, pode-se verificar essa relação, utilizando a análise de
variância de um fator.

Unidade 3
As situações experimentais envolvem muitos fatores,
nem sempre totalmente controlados, além dos tratamentos
que desejamos testar, variações de idade de indivíduos, sexo,
temporalidade ou, ainda, instalações que, se não identificadas
e controladas, serão incorporadas na estimativa da variação
individual (variância). Basicamente, o propósito da análise de
variância é o domínio dos efeitos dessas fontes de variação, de
modo que o valor estimado como variância entre indivíduos
corresponda à sua própria natureza, sem a interferência de fatores
estranhos.

A análise de variância, além da suposição de


normalidade (estudada anteriormente), tem a suposição de
homoscedasticidade, ou seja, as variâncias devem ser iguais entre
os níveis da variável qualitativa. O princípio de homoscedasticidade
reconhece que a instabilidade de uma variável não depende do
grupo experimental em que ela é mensurada. O não cumprimento
dessas premissas inviabiliza a realização da análise de variância.

BIOESTATÍSTICA 43
É possível realizar um teste para verificar a
homogeneidade de variâncias, testando a igualdade entre a
maior e a menor variância dos níveis da variável qualitativa por
meio do teste “F”. No entanto, apesar de não ser o escopo desta
disciplina, um teste de homogeneidade de variâncias deve ser
empregado por ser mais apropriado para essa situação, em que
a hipótese nula do teste é que as variâncias são homogêneas,
como o teste de Bartlett.

Na sequência, veremos como a análise de variância é


realizada por meio da identificação das fontes de variação
que interferem sobre a resposta medida. Em síntese, a análise
de variância avalia como os graus de liberdade e a soma
dos quadrados totais de todos os resultados obtidos em um
Unidade 3

determinado estudo estão distribuídos entre todas as fontes de


variação existentes. Em geral, nos experimentos que comparam
valores médios de tratamentos sobre uma resposta medida, a
fonte de variação total é subdivida em fonte de variação de
tratamentos (grupos) e erro. Porém, existem vários tipos de
partições de variação dependendo do planejamento experimental
adotado. O somatório dos quadrados das fontes de variação é
apresentado a seguir:

Após determinar o somatório dos quadrados para cada


fonte de variação, deve ser determinada a variância das fontes,
que consiste na relação entre as respectivas somas de quadrados
e o número de graus de liberdade da fonte. Logo, a estatística “F”
é obtida por meio da relação entre a variância de tratamentos
e a variância do erro, uma razão de variâncias como observado
na Fórmula 7, na qual são testadas se as variâncias são iguais. A
partir do escore “F”, determina-se se há ou não diferenças entre
tratamentos por meio dos valores de probabilidade da distribuição

44 BIOESTATÍSTICA
“F”, também denominada distribuição de probabilidade de Fisher.
Para informações mais detalhadas sobre os procedimentos
adotados na análise de variância, recomendamos o livro
de Zar (1999).

Por fim, mostramos, a seguir, o quadro de análise de


variância realizada com apenas um fator e suas respectivas
hipóteses são apresentadas (Quadro 3.2).
Quadro 3.2 – Quadro de análise de variância

Fonte de GL Soma dos Variância Estatística


variação quadrados “F”

Total n-1 -

Unidade 3
Tratamentos k-1

Erro n-k

Sendo “k” o número de tratamentos (níveis do fator) da variável qualitativa; “n”, o tamanho
amostral total; “ri” número de repetições do nível “i”; “Ti” repetições do nível “i”; e “xi”,
cada elemento “i” amostral.
Fonte: Elaborado pela autoria (2023).

Estatística de teste:

H0: μ1= μ2= μ3=… μk;

H1: Pelo menos uma das médias diferentes;

Para realizar a análise de variância no “R”, basta utilizar


o comando “aov()”, como realizado na Imagem 3.13, note que
não são apresentados o somatório dos quadrados total. Com
os comandos adiante, consegue-se toda a tabela de análise de
variância calculada, inclusive o p-valor do teste. Como o p-valor
é igual a 0,006, existe evidências para rejeitar H0, logo, existe pelo
menos uma diferença entre os níveis do fator (tipo de infertilidade).
Para identificar quais são os níveis que se diferem, deve-se realizar

BIOESTATÍSTICA 45
algum teste para comparações múltiplas de médias. Existem
diversos testes de comparações múltiplas, mas será utilizado,
nesse exemplo, o teste de Tukey, que é o mais utilizado entre os
diversos testes que estão disponíveis. O comando para executá-lo
é mostrado também a seguir.
Imagem 3.13 – Análise de variância e teste de comparações múltiplas de médias
(ambiente “R”)
Unidade 3

Fonte: Elaborado pela autoria (2023).

Com as comparações múltiplas, pode-se notar que a idade


das pacientes do tipo I de infertilidade é significativamente diferente
das de tipo II, sem diferenças entre os tipos de infertilidade. Sendo
as pacientes que apresentaram o tipo I de infertilidade, em média,
3,57 anos mais jovens do que as pacientes que apresentaram o
tipo II de infertilidade.

Teste “t” pareado (amostras


dependentes)
Neste segmento, veremos os testes de observações
(amostras) dependentes, ou também denominados de “pareados”.
A melhor forma de entender esse conceito é com um exemplo.
Suponha um estudo em que foi medido o peso da mesma

46 BIOESTATÍSTICA
pessoa antes e após da realização de uma determinada dieta.
A Imagem 3.15 mostra os comandos empregados, o banco de
dados e a verificação da distribuição normal de probabilidade.

Após verificar se os pesos seguem registrando uma


distribuição normal de probabilidade, devemos aplicar o teste “t”
pareado. Vamos apresentar as hipóteses e sua estatística de teste
a seguir, considerando que as observações são normalmente
distribuídas e pareadas, onde d é a média das diferenças, sd
é o desvio padrão das diferenças e a µd a média populacional
das diferenças.

Hipóteses:

H0: µd = µANTES - µDEPOIS=0;

Unidade 3
H1: µd = µANTES - µDEPOIS≠0;

Tabela 3.3 – Área de reação epidérmica em cm2 segundo o antígeno utilizado


subcutaneamente e o paciente

Individuo Antígeno A Antígeno B Diferença d=A-B


1 3,58 2,96 0,62
2 1,67 0,62 1,05
3 2,7 2,08 0,62
4 3 2,7 0,3
5 0,88 0,03 0,85
6 0,97 0,41 0,56
7 2,2 1,14 1,06
8 3,9 3,2 0,7
9 2,85 1,93 0,92
10 2,5 1,6 0,9
11 1,3 0,8 0,5

Fonte: Sampaio (2010).

BIOESTATÍSTICA 47
EXEMPLO: No combate a verminoses, na tentativa de
selecionar um antígeno identificador da Schistosomíase,
foram testados dois antígenos (A e B) em 11 pacientes,
um em cada braço, e, após 8 minutos, a área de
reação epidérmica foi medida em cm2 (Quadro 6).
Considerando as 11 observações da nova variável d,
teremos: dmédio=0,73 e sdiferenças=0,24.
Logo o intervalo de confiança da dmédio será:

Sendo assim, o provável valor de dmédio de 0,5424 a


0,8966, demonstra sempre uma superioridade de área do
antígeno A, de 0,57 a 0,89 cm2 a mais do que o antígeno
B. Se o valor zero estivesse incluído nesse intervalo, isso
Unidade 3

significaria que, em algumas situações, o antígeno B


apresentaria área superior à de A.

Na realidade, para que a diferença média dmédio fosse


significativa a condição matemática seria:

Temos:

Como o valor de “t” tabelado para n-1 graus de liberdade


é de 2,228, o valor “t” calculado foi superior não só a esse
nível de 5%, mas como a 1% (3,169) e 0,1% (4,587). Nesse
sentido, concluímos que o antígeno A provoca reação
epidérmica mais extensa do que a do antígeno B, com
probabilidade de erro inferior a 0,1% (p<0,001).

48 BIOESTATÍSTICA
Para realizar o teste “t” pareado no R utilizamos o comando
apresentado na Imagem 3.15. Nota-se que como o p-valor
é menor que 0,05, podemos rejeitar a hipótese nula,
ou seja, não existem evidências de que os pesos antes
e depois da dieta são iguais. Além disso, verifica-se que
a média das diferenças é de 7,19. Isso significa que em
média os indivíduos perdem 2,05 kg com a dieta aplicada
e que a 95% de confiança, as médias das diferenças estão
entre 4,38 e 10,00.
Imagem 3.14 – Teste “t” para amostras dependentes (pareadas)

Unidade 3

Fonte: Elaborado pela autoria (2023).

Caso uma variável explicativa tenha mais de dois níveis e as


observações forem dependentes, é adequado empregar a análise
de variância para medidas repetidas, porém não abordaremos
esse conteúdo em nosso curso.

BIOESTATÍSTICA 49
E então? Gostou do que lhe mostramos? Aprendeu
mesmo tudinho? Agora, só para termos certeza
de que você realmente entendeu o tema de
RESUMINDO estudo, vamos recapitular os pontos-chave deste
capítulo. Inicialmente, exploramos o teste “t”
para amostras independentes, uma ferramenta
estatística fundamental para avaliar se existem
diferenças significativas entre as médias de dois
grupos distintos. Esse teste é essencial quando se
deseja comparar as medidas de dois tratamentos
ou condições diferentes em pesquisa.
Avançamos para a análise de variância, que se
aplica quando estamos diante da necessidade de
comparar as médias de três ou mais grupos. A
ANOVA nos permite determinar se pelo menos um
Unidade 3

dos grupos difere significativamente dos outros,


sem aumentar o risco de cometer erros do Tipo
I, que poderia ocorrer se realizássemos múltiplos
testes “t” independentes.
Por fim, discutimos o teste “t” pareado para
amostras dependentes, utilizado quando as
mesmas unidades experimentais são submetidas
a mais de uma condição ou tratamento. Esse teste
é crucial para avaliar se há diferença significativa
nas médias das mesmas amostras em diferentes
momentos ou condições. A compreensão
desses testes não só enriquece sua prática
em bioestatística, mas também aprimora sua
capacidade de conduzir pesquisas rigorosas e
tomar decisões informadas baseadas em dados. E
então? Confidente na sua habilidade de preparar e
interpretar testes de hipóteses sobre duas ou mais
amostras? Avante na sua jornada de aprendizado e
aplicação da bioestatística.

50 BIOESTATÍSTICA
CRAWLEY, M. J. The R book. San Francisco: John Wiley & Sons,

REFERÊNCIAS
2009. 942 p.
SAMPAIO, I. B. Estatística aplicada à experimentação animal.
Belo Horizonte: FEPMZ, 2010. 264 p.
SHAHBABA, B. Biostatistics with R. New York: Springer,
2012. 352 p.
SIQUEIRA, A. L.; TIBÚRCIO, J. D. Estatística na área da saúde:
conceitos, metodologia, aplicações e prática computacional. Belo
Horizonte: Coopmed, 2011. 520 p.
PAGANO, M.; GAUVREAU, K. Princípios de bioestatística. 2. ed.
São Paulo: Pioneira Thompson Learning, 2004. 522 p.
ZAR, J. H. Biostatistical analysis. New Jersey: Prentice-
Hall.1999. 718 p.

Unidade 3

BIOESTATÍSTICA 51

Você também pode gostar