Apostila 16

UNIVERSIDADE FEDERAL DE UBERLÂNDIA
FACULDADE DE MATEMÁTICA
APOSTILA DE ESTATÍSTICA
Professor: Janser Moura Pereira
Uberlândia
2012
Sumário
1 ESTATÍSTICA DESCRITIVA 5
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Identicando e classicando as variáveis . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Conceitos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Coleta, organização e apresentação de dados . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Organização de dados de variáveis qualitativa e quantitativa discreta . . . . . . 7
1.2.2 Distribuição de frequência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.3 Organização de dados de variáveis quantitativas contínuas . . . . . . . . . . . . 10
1.3 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3.4 Posição relativa da média, mediana e moda . . . . . . . . . . . . . . . . . . . . 22
1.3.5 Comparação entre média e mediana . . . . . . . . . . . . . . . . . . . . . . . . 23
1.4 Medidas Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.5 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.5.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.5.2 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.5.3 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.5.4 Coeciente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.5.5 Erro Padrão da Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.6 Medidas de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.7 Medidas de Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.8 Representação gráca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.8.1 Grácos para variáveis qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.8.2 Grácos para variáveis quantitativas . . . . . . . . . . . . . . . . . . . . . . . . 39
1.8.3 Frequencias acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.8.4 Interpolação em distribuições de frequencias acumuladas . . . . . . . . . . . . . 44
1.8.5 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.9 Exercícios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2 PROBABILIDADES 53
2.1 Probabilidades e espaço amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.1.1 Axiomas de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.1.2 Teoremas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.2 Probabilidade condicional e independência . . . . . . . . . . . . . . . . . . . . . . . . 56
2.2.1 Probabilidade condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
1
Sumário
2.2.2 Independência de eventos dois eventos . . . . . . . . . . . . . . . . . . . . . . . 58
2.2.3 Teorema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3 VARIÁVEL ALEATÓRIA UNIDIMENSIONAL 63

3.1 Variável Aleatória Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2 Variável Aleatória Contínua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.3 Distribuição de Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4 Função Repartição ou Função Distribuição Acumulada . . . . . . . . . . . . . . . . . . 64
3.4.1 Propriedades da Função Distribuição Acumulada ou Função Repartição . . . . 66
3.4.2 Gráco da Função Distribuição Acumulada ou Função Repartição . . . . . . . . 66
3.5 Parâmetros característicos de uma Distribuição de Probabilidade . . . . . . . . . . . . 67
3.5.1 Esperança Matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.5.2 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4 MODELOS PROBABILÍSTICOS DISCRETOS 73

4.1 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.1.1 Parâmetros característicos da distribuição Bernoulli . . . . . . . . . . . . . . . 73
4.2 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.2.1 Parâmetros Característicos da Distribuição Binomial . . . . . . . . . . . . . . . 75
4.3 Distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5 MODELOS PROBABILÍSTICOS CONTÍNUOS 83

5.1 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.1.1 Propriedades da Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.2 Criação da Variável Z - Distribuição Normal Padronizada . . . . . . . . . . . . . . . . 84
5.3 Distribuição t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.3.1 Propriedades da distribuição t-Student . . . . . . . . . . . . . . . . . . . . . . . 90
5.4 Lei Grandes Números - (LGN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.5 Teorema Central do Limite - (TCL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6 AMOSTRAGEM 95
6.1 Denições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.2 Como selecionar uma amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.3 Por que amostrar? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.4 Etapas num processo de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.5 Principais processos de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.5.1 Amostragem Simples ao Acaso ou Amostragem Aleatória Simples (ASA) . . . . 97
6.5.2 Amostragem Estraticada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.5.3 Amostragem Sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.5.4 Amostragem por Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . 101
2
Sumário
6.6 Distribuições amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.6.1 Distribuição amostral das médias . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.6.2 Distribuição amostral das proporções . . . . . . . . . . . . . . . . . . . . . . . . 104
6.6.3 Erro padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7 TEORIA DA ESTIMAÇÃO 107

7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.2 Estimação por ponto e por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.2.1 Estimação por ponto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.2.2 Estimação por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.2.3 Noção básica sobre intervalo de conança . . . . . . . . . . . . . . . . . . . . . 108
7.3 Propriedades dos estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
7.4 Métodos de Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
7.5 Intervalos de conança para a média . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

2

7.5.1 Intervalo de conança para média (µ) com variância populacional σ conhecida 110
7.5.2 Intervalo de conança para média (µ) de uma população Normal com variância
σ2

populacional desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
7.5.3 Conceito de intervalo de conança em uma amostra grande (n ≥ 30) . . . . . . 113
7.5.4 Dimensionamento do tamanho da amostra . . . . . . . . . . . . . . . . . . . . 115
7.6 Intervalos de conança para diferença entre duas médias (amostras independentes) . . 117
7.6.1 Intervalo de conança para diferença entre duas médias com variâncias popula-
cionais conhecidas e independentes . . . . . . . . . . . . . . . . . . . . . . . . . 117
7.6.2 Intervalo de conança para diferença entre duas médias com variâncias popula-
cionais desconhecidas em amostras independentes . . . . . . . . . . . . . . . . . 119
7.7 Intervalos de conança para difrença entre duas médias (amostras dependentes) . . . . 121
7.8 Intervalos de conança para proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.8.1 Dimensionamento do tamanho de amostras . . . . . . . . . . . . . . . . . . . . 125
7.9 Intervalo de conança para diferença entre duas proporções . . . . . . . . . . . . . . . 126
7.10 Intervalo de conança para variância de uma população Normal . . . . . . . . . . . . . 126
7.11 Intervalo de conança para o quociente de variâncias . . . . . . . . . . . . . . . . . . . 127
8 TEORIA DA DECISÃO TESTES DE HIPÓTESES 135

8.1 Hipótese estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.2 Tipos de hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.3 Tipos de testes de hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
8.4 Tipos de erros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
8.5 Procedimento para realização de um teste de hipótese . . . . . . . . . . . . . . . . . . 138
8.6 Testes de hipóteses para média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
σ2

8.6.1 Teste de hipótese para média (µ) com variância populacional conhecida: . 138
8.6.2 Teste de hipótese para média (µ) de uma população Normal com variância po-
σ2

pulacional desconhecida: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
3
Sumário
8.7 Teste de hipótese para diferença de duas médias (amostras independentes) . . . . . . . 147
8.7.1 Teste de hipótese para diferença de duas médias de populações Normal com
variâncias populacionais conhecidas: . . . . . . . . . . . . . . . . . . . . . . . . 147
variâncias populacionais desconhecidas, mas iguais (Populações Homocedásticas) 149
8.7.3 Teste de hipótese para diferença de duas médias de populações Normal com va-
riâncias populacionais desconhecidas, mas desiguais (Populacões Heterocedásticas)149
8.8 Teste de hipótese para diferença de duas médias (amostras dependentes) . . . . . . . . 152
9 REGRESSÃO LINEAR SIMPLES 157

9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
9.2 Modelo de regressão linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
9.2.1 Pressuposições sobre o modelo de regressão linear simples . . . . . . . . . . . . 159
9.2.2 Estimadores de Mínimos Quadrados . . . . . . . . . . . . . . . . . . . . . . . . 159
9.2.3 Interpretação do coeciente da regressão linear simples . . . . . . . . . . . . . . 161
9.2.4 Teste de signicância da regressão linear simples . . . . . . . . . . . . . . . . . 162
9.2.5 Teste de hipótese para a signicância da regressão linear simples . . . . . . . . 166
9.2.6 Intervalo de conança para a signicância da regressão linear simples . . . . . . 166
9.3 Diagrama de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
9.4 Coeciente de determinação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
9.5 Covariância e coeciente de correlação linear de Pearson (ρ) . . . . . . . . . . . . . . . 169
9.5.1 Teste de hipótese para coeciente de correlação . . . . . . . . . . . . . . . . . . 170
4
1 ESTATÍSTICA DESCRITIVA
1.1 Introdução
A Estatística é um conjunto de técnicas (metodologias) que se preocupa com a coleta, organização,
análise e interpretação de dados, ou seja, é um conjunto de métodos de obtenção e utilização de
informação para auxiliar a tomada de decisão em uma situação prática envolvendo certeza. O ramo da
Estatística que lida com a organização, o resumo e apresentação dos dados é denominado de estatística
descritiva. No entanto, a possibilidade de generalizar os resultados obtidos de certos dados para um
contexto maior pertence à parte da Estatística conhecida como Inferência Estatística ou Estatística
Indutiva.
1.1.1 Identicando e classicando as variáveis

Os dados coletados na investigação cientíca podem ser classicados como qualitativos ou quantitativos.
As variáveis que apresentam como possíveis realizações uma qualidade (ou atributo) do indivíduo
pesquisado são denominados de variáveis qualitativas.

Exemplo 1: sexo; estado civil; cor da or de uma espécie que pode ser branca, violeta e vermelha;
altura de plantas, que podem assumir as classicações: baixa, média e alta.
As variáveis que apresentam as possíveis realizações como números resultantes de uma contagem ou
mensuração são denominadas de variáveis quantitativas.

Exemplo 2: número de lhos, salário, idade e peso.
As variáveis qualitativas por sua vez podem ser classicadas como:
i) variáveis qualitativas nominais: não existe nenhuma ordenação nas suas possíveis realizações
(resultados).
Exemplo 3: sexo, estado civil e cor da or de uma espécie de planta que pode ser branca, violeta e
vermelha.
ii) variáveis qualitativas ordinais: os seus possíveis resultados podem ser ordenados por algum
critério.
Exemplo 4: altura de plantas ou pessoas, que pode assumir as classicações: baixa, média e alta;
grau de instrução (ensino fundamental, ensino médio, graduação, mestrado e doutorado).
As variáveis quantitativas por sua vez podem ser classicadas como:
i) variáveis quantitativas discretas: as possíveis realizações formam um conjunto nito ou enume-
rável de números, o qual é resultante geralmente de contagem.
Exemplo 5: número de lhos, número de acidentes numa rodovia num feriado prolongado, número
de circuitos defeituosos.
5
ii) variáveis quantitativas contínuas: os possíveis valores formam um intervalo de números reais
resultantes em geral de mensuração.
Exemplo 6: peso de animais, volume de árvores e peso de matéria seca ou de matéria verde de uma
leguminosa.
1.1.2 Conceitos básicos

A seguir serão apresentados alguns conceitos de termos na área de estatística.
Fenômeno Estatístico: qualquer evento que se pretende analisar cujo estudo seja possível a
aplicação de um método estatístico.
População: Conjunto de indivíduos com características em comum.
Amostra: é um conjunto não vazio da população excetuando-se a população.
Amostragem : é o processo de obtenção (coleta) de amostras de uma população.
Parâmetro: são valores singulares que existem na população e que servem para caracterizarem.
Exemplo: média, desvio padrão, proporção.
Estimativa: é um valor aproximado do parâmetro populacional.
Inferência Estatística: processo por meio do qual procuramos tomar decisões sobre uma po-
pulação a partir de uma amostra.
Variável: característica através da qual é realizada a descrição de uma população.
Amostra Aleatória: para validade das conclusões que são feitas a respeito da população e
em razão das inúmeras maneiras existentes de se extraírem as amostras de uma população, é
necessário retirá-lo de uma maneira aleatória. Para amostrar da população aleatoriamente é
necessário que cada membro da população tenha probabilidade conhecida e que elementos sejam
independentemente selecionados. Em outras palavras, além de cada individuo possuir chance não
nula de pertencer à amostra, a seleção de um deles, de forma alguma, irá inuenciar a seleção do
outro (Ferreira, 2005).
Exemplo 7: (MORETTIN & BUSSAB, 2003) Um pesquisador está interessado em fazer um levanta-
mento sobre alguns aspectos socioeconômicos dos empregados da seção de orçamentos da Companhia
MB. Usando informações obtidas do departamento pessoal, ele elaborou a Tabela 1. Pode-se atribuir
uma letra, digamos X, para representar tal variável. Observa-se na Tabela 1 que o pesquisador colheu
informações sobre oito variáveis:
Tabela 1: Variáveis de interesse do pesquisador.
Variável Representação
Estado civil X
Grau de instrução Y
Número de lhos Z
Salário S
Idade U
Região de procedência V
Sexo R
Classe social T
6
1.2 Coleta, organização e apresentação de dados
a) Quais são variáveis qualitativas e quantitativas?

b) Classique-as em nominais, ordinais, discretas e contínuas?
c) Agora, com base no que foi apresentado, elabore um exemplo análogo relacionado à sua área.

1.2.1 Organização de dados de variáveis qualitativa e quantitativa discreta
Os dados são coletados numa forma sem ordenação e sem nenhum tipo de arranjo sistemático. Nesse
caso, eles são denominados de dados brutos. Então, esses dados sofrerão uma simples organização
(ordenação) e serão denominados de dados elaborados. Para ilustrar apresentaremos exemplo típico
de dados qualitativos nominais na Tabela 2.
Tabela 2: Dados brutos de marca de carros populares predominante em 25 cidades do triângulo, 1998.
Pálio Corsa Uno Gol Corsa

Uno Gol Uno Pálio Uno
Pálio Uno Gol Corsa Gol
Ka Gol Uno Uno Gol
Gol Corsa Gol Uno Uno
Um outro exemplo, agora de dados quantitativos discretos refere-se a contagem de ovos danicados no
mercado municipal da cidade de Lavras, ao chegar um carregamento de ovos de uma cidade distante,
os lojistas zeram uma amostragem e inspecionaram 30 dúzias anotando o número de ovos danicados
em cada uma delas. Os resultados do número de ovos danicados em cada dúzia (embalagem) estão
apresentados na Tabela 3 (FERREIRA, 2005). Frequentemente utilizarei esse exemplo (extraíddo de
FERREIRA, 2005) para ilustrar os procedimentos possíveis no contexto de estatística descritiva.
Tabela 3: Dados brutos referentes ao número de ovos danicados em uma inspeção feita em 30
embalagens, de uma dúzia cada, em um carregamento para o mercado municipal de Lavras proveniente
de uma cidade distante (FERREIRA, 2005).
0 0 1 1 1
3 0 0 0 0
2 3 3 0 0
1 5 4 1 2
2 1 1 1 0
0 0 0 1 0
Essa representação dos dados nas Tabelas 2 e 3 é pouca informativa e para melhorá-la um pouco é
possível ordenar os dados em uma seqüência crescente ou decrescente ou agrupá-los quanto as suas
categorias ou atributos. As Tabelas 4 e 5 contêm os dados das Tabelas 2 e 3, respectivamente, nessa
nova organização. Na Tabela 4 são apresentados as marcas de carro de maior para menor frequencia.
Tabela 4: Dados elaborados de marca de carros populares predominante em 25 cidades do triângulo,
1998.
Uno Uno Gol Gol Corsa

Uno Uno Gol Gol Pálio
Uno Uno Gol Corsa Pálio
Uno Uno Gol Corsa Pálio
Uno Gol Gol Corsa Ka
7
Finalmente, na Tabela 5, estão apresentados os dados (dados elaborados) do número de ovos danicados
na amostra de 30 dúzias do carregamento.
Tabela 5: Dados elaborados referentes ao número de ovos danicados em uma inspeção feita em 30
embalagens, de uma dúzia cada, em um carregamento para o mercado municipal de Lavras proveniente
de uma cidade distante.
0 0 0 1 2
0 0 1 1 3
0 0 1 1 3
0 0 1 1 3
0 0 1 2 4
0 0 1 2 5
1.2.2 Distribuição de frequência
É importante ressaltar que essas representações não são, ainda, a melhor forma de apresentar os dados,
pois se os tamanhos amostrais aqui apresentados fossem de ordem maior de dados (centenas ou milhares
de dados), então essas representações consumiriam muito espaço e consequentemente seriam pouco
funcionais para o propósito que se destinam. Torna-se evidente a necessidade de resumir os dados,
sem perda de muita informação contida neles. Dessa forma, para os dados qualitativos nominais e
para os quantitativos discretos, percebe-se que eles poderiam ser resumidos agrupando suas categorias
e apresentando-os em tabelas e grácos, com suas respectivas frequencias.
Os dados qualitativos nominais da marca de carros populares predominantes em 25 cidades do triângulo
em 1998 estão apresentados na Tabela 6.
Tabela 6: Distribuição de frequencia absoluta, relativa e percentual da marca de carros populares
predominante em 25 cidades do triângulo, 1998.
Marca fi fr fp (%)
Corsa 4 4/25=0,16 16
Gol 8 0,32 32
Ka 1 0,04 4
Pálio 3 0,12 12
Uno 9 0,36 36
P
25 1,00 100
Como determinar as frequencias:
Frequencia Absoluta (fi ): é o número de vezes que o nível/categoria da variável aparece na
amostra.
Frequencia Relativa (fr ) : fr = Pfi

fi = fi
n
Frequencia Percentual (fp (%)) : fp (%) = fr .100
Rotina implementada no freeware R para obtenção da distribuição de frequência associada

a marcas predominantes de carros populares (dados da Tabela 4):
8
dados<-read.table("marcas de carros.txt", h=T)
attach(dados)
tab.dados<-table(dados)
df<-matrix(0,6,3) # matriz 6x3 composta só de elementos "0"
colnames(df )<-c("fa","fr","fp") # nomes das colunas da matriz
rownames(df )<-c("Uno","Palio","Corsa","Gol","Ka","Total") # níveis da variável nas linhas
df[1,1]<-tab.dados["Uno"] # frequencia do "Uno"
df[2,1]<-tab.dados["Palio"] # frequencia do "Pálio"
df[3,1]<-tab.dados["Corsa"] # frequencia do "Corsa"
df[4,1]<-tab.dados["Gol"] # frequencia do "Gol"
df[5,1]<-tab.dados["Ka"] # frequencia do "Ka"
df[6,1]<-sum(df[1:5]) # quantidade de elementos do banco de dados
for(i in 1:6) {df[i,2]<-df[i,1]/df[6,1]} # retorna frequencia relativa
for(i in 1:6) {df[i,3]<-df[i,2]*100} # retorna frequencia percentual
df # retorna a tabela de distribuição de frequencia
Na tabela 5, estão apresentados os dados referentes ao número de ovos danicados em uma inspeção
feita em 30 embalagens de uma dúzia cada, em um carregamento para o mercado municipal de La-
vras. Esses dados podem ser agrupados de modo análogo aos dados da marca de carros populares no
triângulo.
Tabela 7: Distribuição de frequencia Absoluta, Relativa e Percentual referentes ao número de ovos

danicados em uma inspeção feita em 30 embalagens, de uma dúzia cada, em um carregamento para
o mercado municipal de Lavras proveniente de uma cidade distante.
Número de ovos quebrados (xi ) fi Freq. Relat. fr Freq. Perc. fp (%)

0 13 13/30=0,44 44
1 9 9/30=0,30 30
2 3 3/30=0,10 10
3 3 3/30=0,10 10
4 1 1/30=0,03 3
5 1 1/30=0,03 3
P
30 1,00 100
Rotina implementada no software R para obtenção da distribuição de frequência para os

dados da Tabela 3 (Número de ovos quebrados).
9
dados<-read.table("ovos quebrados.txt", h = T)
attach(dados)
df<-matrix(0,7,3)
colnames(df )<-c("fa","fr","fp")
rownames(df )<-c("0","1","2","3","4","5","Total")
df[1,1]<-tab.dados["0"]
df[7,1]<-sum(df[1:6])
for(i in 1:7) {df[i,2]<-df[i,1]/df[7,1]}
for(i in 1:7) {df[i,3]<-df[i,2]*100}
df
1.2.3 Organização de dados de variáveis quantitativas contínuas

Agora, quando os dados são quantitativos contínuos verica-se que não é possível efetuar o mesmo tipo
de tratamento dispensado aos dados qualitativos e aos dados quantitativos discretos. Para resolver
este problema de apresentar a distribuição de dados quantitativos contínuos de uma forma resumida
e manter o máximo de informação contida na amostra será apresentada a distribuição de frequencia
para esse tipo de dados. Nesse tipo de representação, os dados quantitativos contínuos são agrupados
em classes de valores, das quais as frequencias e os limites são apresentados em uma tabela. Para isso
é necessário adotar um critério para determinar o número de classes em que serão agrupados os dados
amostrais. A seguir serão apresentados alguns critérios empíricos para determinar o número de classes
(k) de acordo com o tamanho da amostra (n).
1.2.3.1 Determinando o número de classes (k):

 √n,

n ≤ 100
i) Critério de Oliveira (1994) :k =
 5. log (n) , n ≥ 100
√
ii) Critério de Scott(1979): A n 3
k= 3,49 S
em que A é amplitude total e S o desvio padrão amostral. As estatísticas A e S são denidas nas
equações abaixo da seguinte forma:

v !2 
u  n
P
Xi
u
u n
u 1  i=1

 X2 −
P
A = X(n) − X(1) = Xmáx − Xmı́n e S = u n−1  i n
.

i=1
t
iii) Critério de Sturges: k = 1 + 3, 3 log(n)

O próximo passo será determinar o comprimento de uma classe especíca. O comprimento de classe
é denominado de amplitude de classe e representado por C. Por construção, todas as classes terão o
mesmo comprimento e a regra para determinar C será:
A
C= (K−1) .
10
A seguir é apresentado uma seqüência (algoritmo) para a construção de uma distribuição de frequencia
para variáveis quantitativas contínuas:
1. Organizar (ordenar): dados brutos dados elaborados
2. Cálculo da amplitude total (A): A = X(n) −X(1) = maior valor observado−menor valor observado.
3. Cálculo do número de classes: adotar um dos critérios citados anteriormente.
A
4. Cálculo de amplitude de classe (C): C= K−1
C C
5. Cálculo do limite inferior da primeira classe: LI1ª = X(1) − 2 = menor valor observado − 2
6. Calcular as classes: para determinados cálculos estatísticos, todos os pontos de uma classe podem
ser representados pelo ponto médio da classe. O ponto médio da classe i (X̄i ) é calculado pela
média dos limites da classe. Esse critério é conhecido como hipótese tabular básica.
Exemplo 8: (FERREIRA, 2005) Determinar a distribuição de frequencia absoluta, relativa e per-
centual referente a produção de grãos em g/planta obtidos numa amostra de n = 20 plantas de feijão
da geração F2 do cruzamento das cultivares Flor de Maio e Carioca. Frequentemente utilizarei esse
exemplo (extraíddo de FERREIRA, 2005) para ilustrar os procedimentos possíveis no contexto de
estatística descritiva.
Tabela 8: Dados elaborados da produção de grãos em g/planta obtidos numa amostra de n = 20

plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.
1,38 4,14 6,23 12,13 17,12

3,65 4,54 6,79 12,56 19,68
3,78 5,64 8,21 13,19 21,26
3,87 5,67 9,79 15,60 24,57
Tabela 9: Distribuição de frequencias da produção de grãos em g/planta obtidos numa amostra de n
= 20 plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.
Classes de pesos X̄i fi fr fp

-2,485 5,245 1,38 6 0,30 30
5,245 12,975 9,11 8 0,40 40
12,975 20,705 16,84 4 0,20 20
20,705 28,435 24,57 2 0,10 10
P
20 1,00 100
A seguir são apresentadas informações para a construção da distribuição da Tabela 9.
1. Organizar (ordenar) - Como os dados são elaborados então, eles já estão ordenados.
2. Determinando a amplitude total (A):A = X(n) − X(1) = maior valor observado - menor valor
observado = 24,57 - 1,38 = 23,19
3. Cálculo do número de classes (k):

 √n,

n ≤ 100
No presente exemplo será adotado o Critério de Oliveira (1994): k= .
 5. log (n) , n ≥ 100
√
Dado que n = 20 então, k= 20 = 4, 47 ⇒ k = 4 (inteiro mais próximo). Logo, o número de
classes será 4.
11
A 23,19 23,19
4. Cálculo de amplitude de classe (C): C= k−1 = 4−1 = 3 = 7, 73
C 7,73
5. Cálculo do limite inferior da primeira classe: LI1ª = X(1) − 2 = 1, 38 − 2 = −2, 485
6. Calcular as classes:
Classe 1: [LI1ª ; LS1ª [

LS1ª = LI1ª + C = −2, 485 + 7, 73 = 5, 245 (Limite superior da 1 ª classe)
Classe 2: [LI2ª ; LS2ª [

LI2ª = LS1ª
LS2ª = LI2ª + C = 5, 245 + 7, 73 = 12, 975 (Limite superior da 2 ª classe)
Raciocínio análogo para as demais classes.
Rotina implementada no software R para obtenção da distribuição de frequência referente

aos dados de produção de grãos em g/planta (Tabelas 8 e 9 ).
dados<-read.table("produção de café F2.txt", h = T)
attach(dados)
df<-matrix(0,5,3)
rownames(df )<-c("[-2.485,5.245)","[5.245,12.975)","[12.975,20.705)","[20.705,28.435)","Total")
tab.dados<-table(cut(producao,breaks=c(-2.485,5.245,12.975,20.705,28.435)))
df[1:4,1]<-tab.dados
df[5,1]<-sum(df[1:4])
for(i in 1:5) {df[i,2]<-df[i,1]/df[5,1]}
for(i in 1:5) {df[i,3]<-df[i,2]*100}
df
1.3 Medidas de Posição

Inúmeras vezes, nas mais diversas áreas do conhecimento, são necessárias comparações entre conjuntos
de dados. Essas comparações visam sintetizar a informação e as decisões a serem tomadas a respeito de
determinado conjunto de dados. Essas comparações podem ser realizadas por intermédio das medidas
de posição e medidas de dispersão. As medidas de posição, também, conhecidas como medidas

de tendência central são valores obtidos a partir dos dados, que fornecem uma orientação quanto
à posição da distribuição em relação ao eixo dos valores reais (eixo x), ou seja, o termo medida de
posição é usado para indicar, ao longo da escala de medidas, onde a amostra ou a população está
locada. Portanto, as medidas de posição mostram o valor representativo em torno do qual os dados
tendem a agrupar-se, com maior ou menor frequencia, isto é, são utilizadas para sintetizar em um
único número o conjunto de dados observados. Entre vários tipos de medidas de posição destacam-se a
média, a mediana e a moda. Esses parâmetros são úteis, pois descrevem propriedades da população, ou
seja, caracterizam a população. A média aritmética é a medida de posição mais conhecida e aplicada.
1.3.1 Média Aritmética

É uma medida de fácil compreensão, mais comum e simples de ser calculada. A média aritmética ou
simplesmente média é, por denição, o resultado da divisão das somas de todos os valores da série pelo
número de valores na série. A média é utilizada quando:
12
Deseja-se obter a medida de posição que possui a maior estabilidade;
É base para outros procedimentos estatísticos.
1.3.1.1 Média Aritmética para dados não agrupados

A média de uma população ou média populacional é representada pela letra grega minúscula m,
sendo denida como:
N
P
Xi
i=1 X1 +X2 +X3 +...+XN
µ= N = N . (1)
N
populacional da variável;
P
Em que (µ) é a média Xi é a soma de todos os elementos da população
i=1
e N é o número de elementos na população. O estimador não viesado, mais eciente e consistente da
média populacional é a média amostral, denotada porX̄ (leia-se X barra):
n
P
Xi
i=1 X1 +X2 +X3 +...+Xn
X= n = n . (2)
n
P
Em queX̄ é a média amostral da variável; Xi é a soma de todos os elementos da amostra e n é o
i=1
número de elementos da amostra.
Exemplo 9: Sabendo-se que o número de peças defeituosas observados em amostras retiradas diari-
amente da linha de produção, durante uma semana foi de 10, 14, 13, 15, 16, 18 e 12 peças, têm, para
número médio de peças defeituosas da semana:

n
P 7
P
Xi Xi
i=1 i=1 X1 +X2 +X3 +...+X7 10+14+13+15+16+18+12 98
X̄ = n = 7 = 7 = 7 = 7 = 14 peças/dia
O comando para o cálculo da média aritmética é apresentado a seguir, utilizando o banco de dados do
exemplo 9:
# sintaxe:
mean(dados)
# Exemplo 9: Número de peças defeituosas
npd<-c(10,14,13,15,16,18,12)
mean(npd)
1.3.1.2 Média Aritmética para dados agrupados para variáveis

discretas
O cálculo da média amostral quando os dados estão agrupados, ou seja, estão em uma distribuição de
frequencias e quando a variável em questão é classicada como discreta, segue o mesmo princípio da
fórmula básica da média aritmética, no entanto, as informações utilizadas não são todos os elementos
da distribuição, mas sim cada classe (Xi ) com sua frequencia (fi ). A fórmula passa a ser:
k
P
X̄ = Xi fi /n. (3)
i=1
13
k
P
Em que é a média amostral da variável Xi fi ; : é a somatória das multiplicações dos valores de cada
i=1
classe por sua frequencia; k é o número de classes e n é o número total de elementos da amostra (dados
P
por fi ).
Exemplo 10: Considere os números de gols por partida em um determinado campeonato de futebol,
agrupados e apresentados na Tabela 10. Calcule o número médio de gols por partida.
Tabela 10: Número de gols por partida em um total de 60 jogos.
º
N . de gols por partida (Xi ) fi
0 7
1 12
2 16
3 12
4 9
5 2
6 2
P
60
Observe que cada classe ou atributo ou categorias da variável (n . de gols por partida) apresenta º
sua frequencia. Para calcular a média quando os dados estão agrupados, o modo mais prático é
acrescentar na tabela uma coluna correspondente aos produtos Xi fi (em cada linha da tabela, procede-
se a multiplicação do valor de Xi por sua frequencia fi ), e após a obtenção da somatória desses produtos
k

P
Xi fi . Para o exemplo 10, esse procedimento é apresentado na Tabela 11.
i=1
k
Tabela 11:
P
Número de gols por partida em um total de 60 jogos, com a coluna Xi fi .
i=1
º
n . de gols por partida (Xi ) fi Xi fi
0 7 0
1 12 12
2 16 32
3 12 36
4 9 36
5 2 10
6 2 12
P
60 138
Logo, o cálculo da média amostral será realizado por intermédio da equação (3):
7
P
Xi fi
i=1 X1 f1 +X2 f2 +X3 f 3+...+X7 f7 0+12+...+12 138
X̄ = 60 = 60 = 60 = 60 = 2, 3 gols/partida
k

P
Observe que a somatória dos produtos dos números de gols por suas frequencias Xi fi corresponde
i=1 P
ao número total de gols durante o campeonato. Ao dividirmos esse total pelo número de jogos ( fi )
estamos nos remetendo ao mesmo procedimento do cálculo da média aritmética simples. O que mudou,
portanto, foi apenas a apresentação dos dados, mas não o conceito da medida. O valor encontrado
(X̄ = 2, 3 gols/partida) não é um resultado possível para qualquer jogo (nesse caso poderiam ser 2
gols, 3 gols, mas não 2,3 gols). No entanto, esse valor representa o todo e permite interpretar que a
tendência geral foi de pouco mais de dois gols por partida nesse campeonato.
Agora foi criado um banco de dados no bloco de notas para o exemplo 10. A partir desse banco de
dados calcularemos a média aritmética:
14
# sintaxe:
mean(dados)
# Exemplo 10: Número de gols por partida
dados<-read.table("número de gols por partida.txt", h=T) # read.table(Caminho, h = T) - comando para realizar a leitura do banco de dados
mean(dados)
1.3.1.3 Média Aritmética para dados agrupados para variáveis

contínuas
Para o cálculo da média amostral quando os dados estão agrupados e a variável envolvida no processo
é contínua, utiliza-se o raciocínio análogo ao cálculo da variável discreta, conforme a expressão abaixo:
k
P
X i fi
i=1 X̄1 fi +X̄2 f2 +X̄3 f3 +...+X̄k fk
X̄ = n = n . (4)
Em que X̄i é o ponto médio da classe e fi é a frequencia absoluta da classe i, para i = 1, 2, ..., k e k
é o número de classes.
Exemplo 11: Em uma fábrica de pneus automotivos a matéria prima para a fabricação consiste em
materiais derivados do petróleo, materiais sintéticos e borracha. As características dos diversos tipos de
pneus fabricados são determinadas pela qualidade do material empregado em sua fabricação, e, neste
sentido diversos testes são aplicados a estes produtos para a medição e vericação de sua qualidade.
Considere que um bloco de borracha que deve ser submetido a testes para a vericação do coeciente
de atrito entre o bloco e uma superfície plana de cimento/asfalto. Uma força é aplicada ao bloco e
este é arrastado por uma determinada distância permitindo que o coeciente de atrito seja medido.
Em uma sessão de testes foram realizadas 40 medições e o coeciente de atrito medido foi dividido em
quatro classes cujos resultados estão mostrados na Tabela 12, que indica a frequencia absoluta (fi ) do
coeciente de atrito medido.
Tabela 12: Distribuição de frequencias do coeciente de atrito medido.
Classes de Coeciente de Atrito Cinético fi

0,15 0,35 5
0,35 0,55 10
0,55 0,75 8
0,75 0,95 17
P
40
Analogamente ao procedimento das variáveis discretas será criada uma coluna com os pontos médios

das classes X̄i e a seguir outra coluna correspondente aos produtos X̄i fi , conforme é apresentado
na Tabela 13.
Tabela 13: Distribuição de frequencias, acrescentando-se as colunas X̄i e X̄i fi .
Classes de Coeciente de Atrito Cinético fi X̄i X̄i fi

0,15 0,35 5 0,25 1,25
0,35 0,55 10 0,45 4,50
0,55 0,75 8 0,65 5,20
0,75 0,95 17 0,85 14,45
P
40 - 25,40
15
O coeciente de atrito cinético médio, ou seja, a média será determinada por meio da equação (4):
4
P
X i fi
i=1 X̄1 f1 +X̄2 f2 +X̄3 f3 +X̄4 f4 5∗0,25+10∗0,45+8∗0,65+17∗0,85 25,40
X̄ = n = 40 = 40 = 40 = 0, 635
Observe que a fórmula é exatamente a mesma para variáveis discretas ou contínuas. Todos os elementos
de um determinado intervalo de classe são representados, no cálculo, pelo ponto médio da classe e não
pelos seus valores reais (Hipótese Tabular Básica). Assim, para variáveis contínuas, o cálculo da média
com dados agrupados gera um valor aproximado, e não idêntico ao cálculo com todos os elementos
(dados não-agrupados).
Apartir do banco de dados (coeciente de atrito cinético.txt) para o exemplo 11 calcularemos a média
aritmética:
# sintaxe:
mean(dados)
# Exemplo 11: Coeciente de atrito cinético
dados<-read.table("coeciente de atrito cinético.txt", h=T)
mean(dados)
1.3.2 Mediana
A mediana é uma medida típica de tendência central, sendo denida em um conjunto de dados orde-
nados como o valor central, ou seja, o valor para o qual há tantas mensurações que o superam quanto
são superados por ele. A mediana amostral (Md ) é o melhor estimador da mediana populacional (µd )
(FERREIRA, 2005). Para a estimação da mediana, é necessário ordenar os dados (dados elaborados).
A ordenação pode ser crescente ou decrescente, embora, no presente material, sejam consideradas as
ordens crescentes.
1.3.2.1 Mediana para dados não-agrupados

Para determinar mediana amostral para dados não-agrupados é necessário que determine a posição em
que se encontra a mediana:
i) Se o número de observações for par, a posição da mediana denotada por E será:

E = n2 . (5)
e a mediana amostral será determinada por:
X( n ) +X n+2
2 ( 2 )
Md = 2 . (6)
Exemplo 12: Considere a seguinte amostra de dados: 8, 9, 9, 11, 12, 13, 13, 14 que possui 8
n 8
elementos, portanto . Logo, é par, então por meio da equação (5) tem-se que: E= 2 = 2 = 4, ou seja,
o elemento central apresenta ordem 4. Assim, a mediana será determinada por intermédio da equação
(6):
X( n ) +X n+2 X
2 ( 2 ) ( 82 ) +X( 8+2
2 ) X(4) +X(5) 11+12
Md = 2 = 2 = 2 = 2 = 11, 5
O comando para o cálculo da mediana no R é o seguinte:
16
# sintaxe:
median(dados)
# Exemplo 12: Considerando os dados do exemplo 12 teremos:
dados<-c(8,9,9,11,12,13,13,14)
median(dados)
ii) Se o número de observações for ímpar, a posição da mediana denotada por E será:
n+1
E= 2 . (7)
e a mediana amostra será determinada por:
Md = X( n+1 ) . (8)
2
Exemplo 13: Considere a seguinte amostra de dados: 8, 9, 9, 11, 12, 13, 13 que possui 7 elementos,
isto é, n = 7. Logo, é ímpar, então por meio da equação (7) tem-se que:
n+1 7+1
E = 2 = 2 = 4 , ou seja, o elemento central apresenta ordem 4. Assim, a mediana será
determinada por intermédio da equação (8):
M d = X( n+1 ) = X( 7+1 ) = X(4) = 11

º
2 2
ou seja, o 4 elemento da amostra, que corresponde ao valor 11, é a mediana do conjunto de dados.
# sintaxe:
median(dados)
dados<-c(8,9,9,11,12,13,13)
median(dados)
1.3.2.2 Mediana para dados agrupados para variável discreta

Para dados agrupados, o cálculo da mediana segue o mesmo princípio usado para dados não-agrupados,
ou seja, em um conjunto de valores dispostos de forma ordenada, a mediana é o valor que separa o
conjunto em dois subconjuntos com mesmo número de elementos. Para se fazer essa determinação
necessita-se de determinar as frequencias acumuladas (ordenação dos dados).
Se a variável é discreta, o procedimento para determinar a mediana é o mesmo utilizado para dados
não-agrupados, em que o centro da amostra é diferente para os casos em que n é ímpar, ou n é par,
isto é:
1. Determina-se a ordem do valor central com o uso das mesmas regras dos dados não agrupados;
2. Determina-se a coluna de frequencia acumulada (Fi ) à distribuição com o objetivo de encontrar
o valor central;
17
3. Se n é ímpar, o valor encontrado no 2 passo já é a mediana; º
4. Se n é par, a média dos elementos encontrados no 2 passo é a mediana. º
Exemplo 14: (n par) Utilizando os dados do exemplo 10 apresentados na Tabela 10, que contabilizou
os números de gols por partida em um campeonato de futebol, vamos calcular a mediana desses valores.
O número de gols no campeonato foi 60, isto é, n é par. Então, por meio da equação (5) tem-se que a
ordem do elemento central é: E = n/2 = 60/2 = 30 (regra i).
A Tabela 10 foi reescrita em Tabela 14, acrescendo-se a coluna de frequencia acumulada para baixo
(Fi ), com o intuito de determinar o valor central da distribuição (regra ii).
Tabela 14 Distribuição de frequencias absoluta (fi ) e acumulada (Fi ) referente ao número de gols
por partida em um total de 60 jogos.
º
n . de gols por partida (Xi ) fi Fi
0 7 7
1 12 19
2 16 35
3 12 47
4 9 56
5 2 58
6 2 60
P
60 -
Portanto, o elemento central é o 30º elemento da amostra, ou seja, a classe (categoria ou atributo)
cuja frequencia acumulada é igual, ou imediatamente superior ao 30 º elemento é a terceira classe
(F3 = 35). Logo, a mediana ou o número mediano de gols por partida será calculado por intermédio
da equação (6) (regra iii):

X( n ) +X n+2 X +X 60+2
2 ( 2 ) ( 60
2 ) ( 2 ) X(30) +X(31) 2+2 4
Md = 2 = 2 = 2 = 2 = 2 =2
# sintaxe:
median(dados)
dados<-c(0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,5,5,6,6)
median(dados)
Exemplo 15: (n ímpar) Considere os dados amostrais de números de circuitos defeituosos em sistema
composto por 4 circuitos. Uma amostra de 19 sistemas esta resumida na Tabela 15. Vamos determinar
a mediana, ou seja, o número mediano de circuitos defeituosos por sistema.
A Tabela 15 apresenta uma coluna referente às frequencias acumulada para baixo Fi (regra ii).
Tabela 15: Distribuição de frequencias absoluta (fi ) e acumulada (Fi )dos números de circuitos defei-
tuosos por sistema.
º
n . de circuitos defeituosos (Xi ) fi Fi
1 10 10
2 7 17
3 1 18
4 1 19
P
19 -
18
Observe que o número de elementos (sistemas) é 19, isto é, n é ímpar. Então, por meio da equação (7)
tem-se que a ordem do elemento central é:
n+1 20
E= 2 = 2 = 10 (regra i).
Portanto, o elemento central é o 10º elemento, ou seja, a classe cuja frequencia acumulada é igual,
ou imediatamente superior ao 10 º elemento é a primeira classe (Fi = 10) . Logo, a mediana ou o
número mediano de circuitos defeituosos por sistema será determinado por meio da equação (8) (regra
iii):
Md = X( n+1 ) = x( 19+1 ) = x(10) = 1 circuito de circuito defeituoso por sistema.

2 2
# sintaxe:
median(dados)
dados<-c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,3,4)
median(dados)
Outra forma de obter informação sobre a mediana a partir de um banco de dados seria por meio do
seguinte comando:
# sintaxe:
summary(dados)
dados<-read.table("número de circuitos defeituosos.txt", h = T)
summary(dados) # apresenta informações sobre máximo, mínimo, quartis, média e mediana.
1.3.2.3 Mediana para dados agrupados para variável contínua

Se a variável é contínua é necessária uma interpolação dentro da classe que contém o centro da amostra
para determinar o valor exato da mediana. O procedimento para determinar a mediana é:
1. Determinam-se as frequencias acumuladas;
2. Calcula-se a ordem por meio da equação (5) se n for par ou pela equação (7) se n for ímpar;
3. Marca-se a classe correspondente à frequencia acumulada imediatamente superior à ordem, que
é a classe mediana, e aplica-se a seguinte fórmula de interpolação:
( n2 −F(anterior) )
Md = LIM d + fiM d hM d . (9)
Em que LIM d é o limite inferior da classe mediana; n é o número de elementos no conjunto de dados;
F(anterior) é a frequencia acumulada da classe anterior à classe mediana; hM d é a amplitude do intervalo
da classe mediana; fiM d é a frequencia absoluta da classe mediana;
Exemplo 16: Para ilustrar o exemplo 3.8 serão utilizados os dados do exemplo 11 (Tabela 13), que
representa uma sessão de testes, ou seja, 40 medições referentes ao coeciente de atrito. Na Tabela 16
19
é apresentado as frequencias acumuladas das classes. Vamos calcular a mediana desses Coecientes de
Atrito Cinético.
Tabela 16: Distribuição de frequencias de 40 medições referente ao coeciente de atrito.
Classes de Coeciente de Atrito Cinético fi Fi

0,15 0,35 5 5
0,35 0,55 10 15
0,55 0,75 8 23
0,75 0,95 17 40
P
40 -
São 40 medições, ou seja, n = 40. Portanto a ordem é calculada por meio da equação (5):
n 40
E= 2 = 2 = 20
A classe cuja frequencia acumulada é imediatamente superior à ordem 20 é a terceira classe, portanto
essa é a classe mediana ( 0,55 0,75), destacada na Tabela 3.7. Então, por intermédio da interpolação,
equação (9), tem-se a mediana:
( n2 −F(anterior) ) ( 40
2 −15)
Md = LIM d + fi M d hM d = 0, 55+ 8 0, 20 = 0, 55+ (20−15)
8 0, 20 = 0, 55+ 58 0, 20 = 0, 55+ 18 =
0, 55 + 0, 125 = 0, 675
Nota: Estas informações não são válidas para dados contínuos agrupados.
1. Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana
com um dos elementos da série;
2. Quando o número de elementos da série estatística for par, nunca haverá coincidência da mediana
com um dos elementos da série. A mediana será sempre a média aritmética dos dois elementos
centrais da série.
1.3.3 Moda
A moda é o valor que ocorre com maior frequencia em uma série de dados. Uma melhor denição
poderia ser dada por aquele valor da variável em que há a mais densa concentração de valores na sua
proximidade (FERREIRA, 2005). A moda amostral (Mo ) é o melhor estimador da moda populacional
(µo ). A moda não é afetada pelos extremos e também é uma medida muito utilizada na economia e
quando:
Desejamos obter uma medida rápida e aproximada de posição;
A medida de posição deve ser o valor mais típico da distribuição.
No freeware R, existe duas maneiras de encontrar a moda de uma série de dados. São elas:
1. table(): este comando ordena em ordem crescente os dados e indica o número de vezes em que o
elemento se repete na série de dados apresentada. É utilizado para encontrar a moda em pequenas
amostras.
20
2. subset(): em oposição ao item anterior esta função é utilizada quando o tamanho da amostra é
grande.
1.3.3.1 Moda para dados não-agrupados

Para determinar a moda em determinado conjunto de dados, procura-se o valor que mais se repete
nesse conjunto de dados.
Exemplo 17: Considere a seguinte amostra: 8, 9, 9, 11, 13, 13, 13, 14. O valor que mais se repete é
o 13, que aparece três vezes, portanto a moda é: M o = 13

Vamos considerar os dados do exemplo 17 para ilustrar os comandos para o cálculo da moda no R:
# sintaxe:
subset(table(), table() == max(table()))
dados<-c(8, 9, 9, 11, 13, 13, 13, 14)
table(dados) #retorna a frequencia observada de cada valor
subset(table(dados),table(dados)==max(table(dados))) # retorna a(s) moda(s)
1.3.3.2 Moda para dados agrupados para variáveis discretas

No caso de variáveis discretas, com os dados agrupados, torna-se muito simples a determinação da
moda. Basta observar o valor (Xi ) que apresenta maior frequencia (fi ).
Exemplo 18: Para ilustrar o exemplo 18 serão considerados os dados do exemplo 15 (Tabela 15), que
se refere ao número de circuitos defeituosos por sistema, observados em uma amostra de 19 sistemas.
Tabela 17: Distribuição dos números de circuitos defeituosos por sistema.
º
n . de circuitos defeituosos (Xi ) fi
1 10
2 7
3 1
4 1
P
19
Observa-se que a maior frequencia (f1 = 10) foi a da primeira classe , cujo valor é 1 circuito defeituoso
por sistema (X1 = 1), por isso a moda da distribuição é: Mo = 1 circuito defeituoso/sistema.
Vamos considerar os dados do exemplo 17 para ilustrar os comandos para o cálculo da moda no R:
# sintaxe:
subset(table(), table() == max(table()))
# Exemplo 18: Número de circuitos defeituosos (a partir de um banco de dados).
dados<-read.table("número de circuitos defeituosos.txt", h = T)
table(dados)
subset(table(dados),table(dados)==max(table(dados)))
21
1.3.3.3 Moda para dados agrupados para variáveis contínuas
No caso de variáveis contínuas, a classe que apresenta maior frequencia é denominada classe modal.
Crespo (1999) arma que a moda, nesse caso, é o valor dominante que está compreendido entre os
limites da classe modal.

Depois que a classe modal está denida é necessário fazer a interpolação para determinação do valor
da moda. Para esse m existem diferentes métodos, sendo que nesse texto vamos aplicar o método
de Czuber (citado por FERREIRA, 2005) que permite encontrar o valor da moda de forma mais
elaborada:
41
Mo = LIM o + 41 +42 hM o . (10)
Em que, LIM o é o limite inferior da classe modal; 41 é a diferença entre as frequencias da classe modal
e a imediatamente anterior; 42 é a diferença entre as frequencias da classe modal e a imediatamente
posterior e hM o é a amplitude da classe modal.
Exemplo 19: Os dados da Tabela 18 são os mesmos da Tabela 12, e se referem às 40 medições do
coeciente de atrito. Vamos calcular a moda desses coecientes de atrito cinético.
Tabela 18: Distribuição de frequencias do coeciente de atrito medido.
Classes de Coeciente de Atrito Cinético fi

0,15 0,35 5
0,35 0,55 10
0,55 0,75 8
0,75 P 0,95 17
40
A classe que apresentou maior frequencia (fi ) foi a quarta classe (0,75 0,95), que apresentou dezessete
elementos (f4 = 17). Esta é, então, a classe modal. Agora, será determinada a moda ou o coeciente
de atrito cinético modal por intermédio da equação (10), método de Czuber:

41 (17−8) (9) 9
Mo = LIM o + 41 +42 hM o = 0 , 75 + (17−8)+(17−0) 0, 20 = 0 , 75 + (9)+(17) .0, 20 = 0, 75 + 26 .0, 20 =
1,8
0, 75 + 26 = 0, 75 + 0, 0692 = 0, 8192.
Nota:
É possível encontrar séries de dados nas quais nenhum valor apareça mais do que os outros, como
por exemplo a série: 8, 9, 10, 11, 13, 14 então, esta série é dita amodal.
Em outros casos pode haver dois ou mais valores de concentração, como por exemplo, a série: 8,
9 e 13 ocorrem
9, 9, 11, 12, 13, 13, 14 então, os valores com maior frequencia que os demais.
Esta série apresenta duas modas, sendo dita bimodal.
1.3.4 Posição relativa da média, mediana e moda

Crespo (1999) cita que quando uma distribuição é simétrica, se as três medidas coincidem. Porém, a
assimetria as torna diferentes de modo que quanto maior a assimetria maior será essa diferença entre
as três medidas. Assim, em uma distribuição em forma de sino, temos:
(a) , no caso de curva simétrica;

(b) , no caso de curva assimétrica positiva ( assimétrica à direita);
22
1.4 Medidas Separatrizes
(c) , no caso de curva assimétrica negativa (assimétrica à esquerda).

Assimetria: signica desvio ou afastamento da simetria (grau de deformação de uma curva), ou seja,
existem valores elevados em uma das caudas.
# Simétrica, se a média, a mediana e a moda coincidem.

# Assimétrica à esquerda ou negativa, se a média é menor que a moda.
# Assimétrica à direita ou positiva, se a média é maior que a moda.
Figura 1 - Formas de distribuições em situações reais: (a) distribuição em forma de sino simétrica; (b)
distribuição assimétrica à direita; e (c) distribuição assimétrica à esquerda
Maiores detalhes sobre a característica da distribuição será discutido na seção (1.6) e (1.7).
1.3.5 Comparação entre média e mediana

Suponha que se queira sintetizar em um único número os salários das pessoas que trabalham em deter-
minado restaurante (cozinheiros, copeiros, garçons, recepcionistas etc.). Em uma situação hipotética,
considerem os seguintes valores de salários: 200, 250, 250, 300, 450, 460, 510.
7
P
xi
i=1 200+...+510
Sua média aritmética, isto é, o salário médio é: X̄ = 7 = 7 = 345, 7.
Esse valor representa, ou sintetiza razoavelmente, aquele conjunto de observações. Se incluirmos,
entretanto, o salário de gerente do estabelecimento, os dados seriam: 200, 250, 250, 300, 450, 460,
510, 2300 e a média seria 601,4. Neste caso, não se pode dizer que a média sintetiza adequadamente o
conjunto, pois apenas um valor é maior do que ela.
No entanto, as medianas sem e com o salário do gerente são 300 e 375, respectivamente. Portanto,
o exemplo ilustra um fato de que a média é muito sensível a valores extremos de um conjunto de
observações, enquanto, a mediana não sofre muito com a presença de alguns valores muito altos ou
muito baixos. Costuma-se dizer que a mediana é mais robusta do que a média aritmética. Portanto,
deve-se preferir a mediana como medida sintetizadora quando o histograma do conjunto de valores é
assimétrico, isto é, quando há predominância de valores elevados em uma das caudas.

São números reais que dividem a sequencia ordenada de dados em partes que contêm a mesma quanti-
dade de elementos da série, isto é, divide o conjunto de dados em partes iguais. Por exemplo, a mediana
é uma medida separatriz, pois divide a sequencia ordenada em dois grupos, cada um deles contendo
23
50% dos dados. Além da mediana pode-se destacar as seguintes medidas separatrizes (FONSECA &
MARTINS, 2009):
1. Quartis: Divide a sequencia ordenada em 4 (quatro) partes iguais. Assim, o primeiro quartil (Q1 ),
separa a sequencia ordenada deixando 25% dos valores à esquerda e 75% dos valores a direita;
o segundo quartil (Q2 ), separa a sequencia ordenada deixando 50% dos valores à esquerda e
50% dos valores a direita, ou seja,(Q2 ) é a mediana; o terceiro quartil (Q3 ), separa a sequencia
ordenada deixando 75% dos valores à esquerda e 25% dos valores a direita;
2. Quintis: Divide a sequencia ordenada em 5 (cinco) partes iguais, cada uma cará com 20% dos
dados. Assim, o primeiro quintil (K1 ), separa a sequencia ordenada deixando 20% dos valores
à esquerda e 80% dos valores a direita; o segundo quintil (K2 ), separa a sequencia ordenada
deixando 40% dos valores à esquerda e 60% dos valores a direita; o terceiro quintil (K3 ), separa
a sequencia ordenada deixando 60% dos valores à esquerda e 40% dos valores a direita; o quarto
quintil (K4 ), separa a sequencia ordenada deixando 80% dos valores à esquerda e 20% dos valores
a direita;
3. Decis: Divide a sequencia ordenada em 10 (dez) partes iguais, cada uma cará com 10% dos
dados. Assim, o primeiro decil (D1 ), separa a sequencia ordenada deixando 10% dos valores à
esquerda e 90% dos valores a direita. Analogamente, são denidos os outros decis;
4. Percentis: Divide a sequencia ordenada em 100 (cem) partes iguais, cada uma cará com 1% dos
dados. Assim, o primeiro percentil (P1 ), separa a sequencia ordenada deixando 1% dos valores à
esquerda e 99% dos valores a direita. Analogamente, são denidos os outros percentis.
Diante das informações apresentadas, é possível, estabelecer algumas relações (FONSECA &
MARTINS, 2009):
a) Relações entre quartis e percentis: Q1 = P25 ; Q2 = P50 ; Q3 = P75 .

b) Relações entre quintis e percentis: K1 = P20 ; K2 = P40 ; K3 = P60 ; K4 = P80 .
c) Relações entre decis e percentis: D1 = P10 ; D2 = P20 ; D3 = P30 ; D4 = P40 ; D5 =
P50 ; D6 = P60 ; D7 = P70 ; D8 = P80 ; D9 = P90 .
A seguir será apresentado o procedimento para efetuar o cálculo das medidas de separatrizes (FON-
SECA & MARTINS, 2009):
Caso 1: Determinando medidas separatrizes para dados brutos.
1. Primeiramente ordenam-se os dados;
2. Identica-se a medida desejada relacionando-a com o percentil correspondente, Pi ;

3. Calcula-se i % de n, isto é, (i.n )/100 para localizar a posição do percentil i no Rol;
4. Em seguida, identica-se o elemento que ocupa esta posição.
Nota: O resultado de (i.n )/100 indica a posição do percentil i. Se o resultado for um número inteiro,
tem-se a posição imediata do percentil i. Se o resultado não for um número inteiro, não se tem a posição
imediata do percentil i, então, se calcula a média dos valores que ocupam estas posições aproximadas.
Exemplo 1: Calcule o Q1 da sequencia Y: 12, 13, 14, 13, 2, 2, 4, 10, 9, 11, 5, 5.
Solução:
1. Primeiramente ordenam-se os dados: 2, 2, 4, 5, 5, 9, 10, 11, 12, 13, 13, 14;
2. Identica-se a medida desejada relacionando-a com o percentil correspondente, Pi , isto é, Q1 =

P25 , então, i = 25 e n = 12;
24
3. Calcula-se i % de n, isto é, (i.n )/100 para localizar a posição do percentil i no Rol: (i.n )/100 =
(25x12)/100 = 3 (3 ª posição);
4. Em seguida, identica-se o elemento que ocupa esta posição: Portanto, Q1 = P25 = Y(3) = 4 (2,
4, 5, 5, 9, 10, 11, 12, 13, 13, 14).

2,
Interpretação: 25% dos valores da sequencia são menores ou iguais a 4 e 75% dos valores da sequencia
são maiores ou iguais a 4.
Exemplo 2: Calcule o K3 da sequencia Y: 12, 13, 14, 13, 2, 2, 4, 10, 9, 11, 5, 5.
Solução:
1. Primeiramente ordenam-se os dados: 2, 2, 4, 5, 5, 9, 10, 11, 12, 13, 13, 14;
2. Identica-se a medida desejada relacionando-a com o percentil correspondente, Pi : K3 = P60 ,

então, i = 60 e n = 12;
3. Calcula-se i % de n, isto é, (i.n )/100 para localizar a posição do percentil i no Rol: (i.n )/100 =
(60x12)/100 = 7,2 (Média entre 7º e 8º elemento ordenado);
4. Em seguida, identica-se o elemento que ocupa esta posição: Portanto, K3 = P60 = [Y(7) +
Y(8) ]/2 = (10 + 11)/2 = 10, 5.
Interpretação: 60% dos valores da sequencia são menores ou iguais a 10,5 e 40% dos valores da
sequencia são maiores ou iguais a 10,5.
Caso 2: Variável discreta agrupada.
1. Identica-se a medida desejada relacionando-a com o percentil correspondente, Pi ;

2. Calcula-se i % de n, isto é, (i.n )/100 para localizar a posição do percentil i no Rol;
3. Em seguida, identica-se o elemento que ocupa esta posição por meio da frequencia acumulada.
O valor deste elemento é o Pi .

Exemplo 3: Calcule D4 para a série abaixo:
Yi fi
0 2
1 3
2 5
3 3
4 2
Solução:
Identica-se a medida desejada relacionando-a com o percentil correspondente,
P
Pi : D4 = P40 ,
então, i = 40 e n = 15 = fi ;
Calcula-se i % de n, isto é, (i.n )/100 para localizar a posição do percentil i no Rol: (i.n )/100 =
(40x15)/100 = 6 (6 º elemento ordenado);
Em seguida, identica-se o elemento que ocupa esta posição:
Yi fi Fi
0 2 2
1 3 5
2 5 10
3 3 13
4 2 15
25
Portanto, D4 = P40 = Y(6) = 2.
Interpretação: 40% dos valores da sequencia são menores ou iguais a 2 e 60% dos valores da sequencia
são maiores ou iguais a 2.
Nota: O resultado de (i.n )/100 indica a posição do percentil i. Se o resultado não for um número
inteiro, não se tem a posição imediata do percentil i, então, se calcula a média dos valores que ocupam
estas posições aproximadas.
Caso 3: Variável contínua agrupada.
Identica-se a medida desejada relacionando-a com o percentil correspondente, Pi por meio de:
1.n −F
( 100 (anterior) )
Pi = LI(Pi ) + fi h.
(Pi )
Em que, Pi é o percentil i (i = 1,2, ..., 99); LI(P i) é o limite inferior da classe que contém o percentil
i ; n é o número de elementos da série; F(ant) é a frequencia acumulada da classe anterior a classe que
contém o percentil i ; fi é a frequencia absoluta da classe que contém o percentil i ; h é a amplitude da

classe que contém o percentil i.
Exemplo 4: Calcule Q3 para a série abaixo:
Classes fi
0 |- 10 2
10 |- 20 3
20 |- 30 5
30 |- 40 3
40 |- 50 2
Solução:
Identica-se a medida desejada relacionando-a com o percentil correspondente, Pi : Q3 = P75 , então, i
P i.n 75∗15
= 75 e n = 15 = fi . Logo, 100 = 100 = 11, 25. Isto nos dá a posição do P75 na série. Construindo
a frequencia acumulada temos:
Classes fi Fi
0 |- 10 2 2
10 |- 20 3 5
20 |- 30 5 10
30 |- 40 3 13
40 |- 50 2 15
Substituindo na fórmula, tem-se:
1.n −F
( 100 (anterior) ) (11,25−10)
Pi = LI(Pi ) + fi h ⇒ P75 = 30 + 3 10 = 34, 17.
(Pi )
Portanto Q3 = P75 = 34, 17.

Interpretação: 75% dos valores da sequencia são menores ou iguais a 34,17 e 25% dos valores da
sequencia são maiores ou iguais a 34,17.
26
1.5 Medidas de Dispersão

No entanto, nem sempre é a mais adequada. As medidas de posição são usadas para representar
(sintetizar) um único número típico de uma distribuição de dados. Porém, as medidas de posição nos
dão uma informação incompleta a respeito de um conjunto de dados. Podendo assim nos confundir
a ponto de tomarmos decisões ou escolhas não muito adequadas, ou seja, a média é uma medida de
centro da distribuição, porém, nada informa com relação à dispersão dos valores em torno do centro.
Portanto, torna-se necessário agregarmos mais informações sobre determinado conjunto de dados por
intermédio das medidas de dispersão. Logo, podemos estabelecer algumas relações: quanto maior
a variabilidade (dispersão) dos dados menor a representatividade da média; quanto menor a dispersão,
mais conável é a média. Assim, dizemos que as medidas de dispersão servem para qualicar a média
(LEVIN & FOX, 2004). De forma geral, as medidas de dispersão mostram o grau de afastamento dos
valores observados em relação àquele valor representativo (que nem sempre é a média).
As medidas de dispersão têm como objetivo apresentar um estudo descritivo de um conjunto de dados,
isto é, determinar a variabilidade ou dispersão de um conjunto de dados em relação à medida de
localização ou posição do centro da amostra.
As diferenças individuais em uma amostra ou população denem o que os estatísticos chamam de
variabilidade ou dispersão do conjunto de mensurações, sendo que a variabilidade entre os elementos
é vista pela perspectiva da dispersão em torno do centro da distribuição. As medidas de posição nem
sempre são sucientes para sintetizar a informações contidas nos dados, ou seja, não são sucientes para
caracterizarem completamente a distribuição dos dados. Portanto, são necessárias outras medidas para
isso, e as medidas de dispersão pertencem a um conjunto de medidas que se aplicam na caracterização
de uma distribuição de mensurações (FERREIRA, 2005).
Vamos considerar um exemplo (diagrama abaixo) para discutir um pouco mais sobre a deciência
das medidas de posição. Suponha que queremos comparar o tempo de vida de 3 marcas (A, B e C) de
lâmpadas em meses.
XA = XB = XC = 6 meses
Figura 2: Diagrama de dispersão
As três marcas de lâmpadas apresentaram a mesma média (6 meses) para a variável tempo de vida.
É notório que os conjuntos diferem razoavelmente um do outro. A lâmpada C apresentou uma me-
nor dispersão de valores em torno do valor central (6 meses), sendo seguido pela lâmpada B e por
último a lâmpada A. Se os conjuntos fossem representados apenas pelas respectivas médias eles seriam
considerados iguais. Porém, analisando o diagrama acima vemos que a lâmpada C apresenta menor
variabilidade consequentemente seria a melhor escolha.
1.5.1 Amplitude
A amplitude denotada por A, é a diferença entre o maior e o menor escore em uma distribuição, isto
é, corresponde a diferença entre a maior (máximo) e a menor observação (mínimo) de um conjunto de
dados. Essa medida é inconveniente (grosseira), apesar de ser facilmente calculada, pois não considera
27
todas as observações, ou seja, leva em conta apenas os valores extremos: máximo e mínimo (LEVIN
& FOX, 2004). Consequentemente, a amplitude é facilmente inuenciada.
O estimador da amplitude para dados que não estão agrupados em classe é:
A = X(n) − X(1) = maior valor − menor valor.

O estimador da amplitude para dados agrupados em classe é:
A = X̄k − X̄1 = maior valor − menor valor .

Portanto, a amplitude para dados agrupados e para dados não-agrupados será:
A = maior valor - menos menor valor. (11)
Exemplo 20: Uma amostra do tempo de vida de pneus de determinada marca apresentou os seguintes
resultados: 40.000; 40.500; 35.600; 39.300; 37.200; 39.700; 35.000; 32.300 km. Logo, o tempo de vida
do pneu dessa marca varia de 32.300 a 40.500 km, ou seja, o tempo de vida apresenta uma amplitude
de 8.200 km. Pois, por intermédio da equação (11) tem-se que A = 40.500 - 32.30 = 8.200 km.
A partir de uma série de dados podemos encontrar os valores máximos e mínimos por meio dos seguintes
comandos no R:
# sintaxe:
max(dados) - min(dados)
# Exemplo 20: Tempo de vida de um pneu (a partir de um banco de dados)
dados<-read.table("tempo de vida de pneu.txt", h = T)
max(dados) - min(dados) # retorna o valor da Amplitude total
Outra forma de obter o maior e menor valor da série de dados é utilizar o comando:
# sintaxe:
range(dados)
# Exemplo 20: Tempo de vida de um pneu (a partir de um banco de dados).
range(dados) # retorna o valor mínimo e o valor máximo, respectivamente
Exemplo 21: Para ilustrar o exemplo 21 serão utilizados os dados do exemplo 11 (Tabela 12), que
representa uma sessão de testes, ou seja, 40 medições referentes ao coeciente de atrito cinético de
pneus automotivos. Na Tabela 19 é apresentado as frequencias absolutas e os pontos médios de cada
classe.
Tabela 19: Distribuição de frequencia referente às 40 medições do coeciente de atrito cinético de
pneus automotivos.
Classes de Coeciente de Atrito Cinético fi X̄i

0,15 0,35 5 0,25
0,35 0,55 10 0,45
0,55 0,75 8 0,65
0,75 0,95 17 0,85
P
40 -
Os dados na Tabela 19 estão agrupados em 4 (quatro) classes. Todos os pontos de uma classe podem
ser representados por um único valor conhecido como ponto médio da classe. Observe que a primeira
28
classe (0,15 0,35) é representada pelo valor 0,25, ou seja, esta classe que possui 5 pneus com coeciente
de atrito cinético entre 0,15 e 0,35 será representada pelo ponto médio. O ponto médio da classe é
calculado pela média dos limites da classe. Esse critério é conhecido como hipótese tabular básica.
De acordo com a denição de amplitude (equação (11)) é necessário, determinar o maior e menor valor
dos coecientes de atrito, tendo em vista que os coecientes de atrito estão agrupados em classe e
que cada classe será representada pelo seu respectivo ponto médio. Então, o menor e o maior valor
correspondem ao ponto médio da primeira e da última classe respectivamente, ou seja, 0,25 e 0,85.
Então, a amplitude será: 0,6 , isto é, o coeciente de atrito cinético varia entre 0,25 e 0,85.
Cálculo da Amplitude Total por meio do freeware R:
# sintaxe:
# Exemplo 21: Coeciente de atrito cinético (a partir de um banco de dados)
dados<-read.table("coeciente de atrito cinético.txt", h = T)
max(dados) - min(dados) # retorna o valor da Amplitude total
1.5.2 Variância
A variância é uma boa medida, pois se baseia em todos os valores observados (dados) e é facilmente
calculada e de fácil compreensão.
A variância populacional denotada por é denida como sendo Soma de Quadrado dos Desvios (SQD)
em relação à média dividida pelo tamanho da população (N). A variância pode ser considerada como
um valor médio dos desvios ao quadrado, portanto, sendo conhecida, também, por quadrado médio
(FERREIRA, 2005).
O estimador da variância populacional é:

N
(Xi −µ)2
P
σ2 = i=1
N (12)
N
P
Xi
i=1
em que, µ= N .
A variância amostral denotada por S 2 poderia ser denida de forma análoga à variância populacional,
ou seja, substituindo-se N por n e µ por X. No entanto, isso não ocorre, devido a uma propriedade
importante do estimador denominada de viés (tendenciosidade). Nesse caso, a soma de quadrado dos
desvios é dividida por ao invés de usar o n (FERREIRA, 2005).
A variância amostral é denida da seguinte forma:
n 2
(Xi −X )
P
S2 = i=1
n−1 (13)
n
P
Xi
i=1
em que, X= n .
Exemplo 22: Para a ilustração do cálculo da variância serão considerados os dados do exemplo 19,
referente ao tempo de vida de uma marca de pneu: 40.000; 40.500; 35.600; 39.300; 37.200; 39.700;
35.000; 32.300 km. Primeiramente é preciso calcular o tempo de vida médio do pneu (equação (2)),
para posteriormente obtermos a variância por meio da fórmula (estimador), equação (13):
29
n 2
(Xi −X )
P
S2 = i=1
n−1 .
O tempo médio de vida de uma marca de pneu é:
8
P
Xi
i=1 40.000+40.500+...+32.300
X= 8 = 8 = 37.450 km.
Agora, temos condições de realizar o cálculo da variância:
8 2
(Xi −X )
P
(40.000−37.450)2 +(40.500−37.450)2 +...+(32.300−37.450)2 60.300.000
S2 = i=1
8−1 = 8−1 = 7 =
8.614.285, 714 km ≈ 8.614.286 km2
2
Nota-se que a unidade da variância corresponde à unidade de mensuração ao quadrado, isto é, o tempo
de vida médio foi medido em km e sua variância foi expressa em (km)

2.
Comando para o cálculo da variância no R:
# sintaxe:
var(dados)
# Exemplo 22: Tempo de vida de pneu (a partir de um banco de dados)
var(dados)
1.5.2.1 Fórmula simplicada para cálculo da Variância

As fórmulas simplicadas para variâncias foram desenvolvidas com o objetivo de facilitar o cálculo e
contornar problemas de arredondamento (precisão).
A fórmula simplicada para a variância populacional é (FERREIRA, 2005):

 !2 
N
P
N Xi
1 i=1
P 
σ2 = N
 X2 −
 i N
.
 (14)
i=1
A fórmula simplicada para a variância amostral é (FERREIRA, 2005):
 2 
n

P
n Xi
1
S2 =  Xi2 −
P i=1
. (15)

n−1 n
i=1
Exemplo 23: Neste exemplo utilizaremos os dados do Exemplo 19 para calcular a variância por
intermédio da fórmula simplicada com o objetivo de mostrar que o resultado da variância será o
mesmo obtido no Exemplo 22.
A amostra referente ao tempo de vida de uma marca de pneu é: 40.000; 40.500; 35.600; 39.300; 37.200;
39.700; 35.000; 32.300 km.
Utilizando a fórmula simplicada da variância amostral, ou seja, a equação (15) tem-se:
30
 8
2 
P
8 Xi h i
1 1 (40.000+40.500+...+32.300)2
S2 = Xi2 − (40.0002 + 40.5002 + ... + 32.3002 ) −
P i=1
= =
 
8−1  8 7 8
i=1
(299.600)2
h i
1 1
1, 128032 ∗ 1010 − 1, 128032 ∗ 1010 − 1, 122002 ∗ 1010 = 17 [60.300.000] =

7 8 = 7
8.614.285, 714(km)2 .
1.5.2.2 Variância amostral para dados agrupados

De acordo com Ferreira (2005), o estimador da variância para dados agrupados em classe é dado por:
 !2 
k
P
k X i fi
1  X 2i fi − i=1
P 
S2 = n−1  n
.
 (16)
i=1
em que k é o número de classes, X̄i é o ponto médio da classe i, e fi é a frequencia absoluta da classe
i.
Exemplo 24: Para a ilustração do cálculo da variância para dados agrupados em classe serão con-
siderados os dados do Exemplo 20, referente a uma amostra de 40 medições do coeciente de atrito
cinético de pneus automotivos conforme a Tabela 19. A variância amostral será calculada por meio da
fórmula ou equação (16), então, a variância do coeciente de atrito cinético dos 40 pneus testados é:
Classes de Coecientes de Atrito Cinético fi Xi

0,15 0,35 5 0,25
0,35 0,55 10 0,45
0,55 0,75 8 0,65
0,75 0,95 17 0,85
P
40 -
Utilizando a fórmula da variância amostral para dados agrupados, a equação (16) tem-se:
 4
2 
P
4 X i fi h i
1 2 1 (0,25∗5+...+0,85∗17)2
S2 = (0, 252 ∗ 5 + ... + 0, 852 ∗ 17) −
P i=1
 X i fi − = =

40−1 n 40−1 40
i=1
h i
1 (25,4)2
39 18 − 40 = 0, 0480.
O mesmo estimador pode ser usado substituindo Xi , ponto médio da classe i, por Xi , valor da categoria
ou atributo i, quando os dados são quantitativos discretos, isto é:
 !2 
k
P
k Xi fi
1 i=1
P 
S2 = n−1
 X 2 fi −
 i n
.
 (17)
i=1
Comando para o cálculo da variância:
31
# sintaxe:
var(dados)
# Exemplo 24: Coeciente de atrito cinético (a partir de um banco de dados)
dados<-read.table("coeciente de atrito cinético.txt", h = T)
var(dados)
Exemplo 25: (FERREIRA, 2005) Na Tabela 20, estão apresentados os dados referentes ao número
de ovos danicados da inspeção feita em uma amostra de 30 embalagens de uma dúzia cada, de um
carregamento para o mercado municipal de Lavras. Determine a variância.
Tabela 20: Número de ovos danicados em uma inspeção feita em 30 embalagens, de uma dúzia cada,
em um carregamento para o mercado municipal de Lavras proveniente de uma cidade distante.
Número de ovos quebrados (Xi ) fi

0 13
1 9
2 3
3 3
4 1
5 1
P
30
Para calcular a variância será utilizada a equação (17):

 6
2 
P
6 Xi fi h i
1 1 (0∗13+1∗9+...+5∗1)2
S2 =  Xi2 fi − (02 ∗ 13 + 12 ∗ 9 + ... + 52 ∗ 1) −
P i=1
= =

30−1 30 29 30
i=1
h i
1 (33)2 1 2
29 89 − 30 = 29 [89 − 36, 3] = 1, 8172 ovos danicados .
Comando para o cálculo da variância:
# sintaxe:
var(dados)
# Exemplo 25: Número de ovos quebrados (a partir de um banco de dados)
var(dados)
1.5.3 Desvio Padrão

O desvio padrão é a raiz quadrada da variância. Dessa forma o desvio padrão é expresso na mesma
unidade dos dados (FERREIRA, 2005).
Desvio Padrão Populacional:

v  !2 
u N
u P
u N Xi
σ = u N1
i=1
.
P 
u  X2 − (18)
 i N 
t i=1
Desvio Padrão Amostral:
32
v 
u n
2 
P
Xi
u
u n
1 P 2 i=1
t n−1  Xi −
S=u . (19)

n
i=1
Para dados agrupados em classe o estimador do desvio padrão é:
v
u  k 2 
u P
u
u 1  k X i fi 
X 2 i=1
S=u X f − .(20)

i i
t n − 1  i=1 n
u 

O estimador acima pode ser usado substituindo , ponto médio da classei, por Xi , valor da categoria
ou atributo i, quando os dados são quantitativos discretos, isto é:
v  !2 
u k
u P
u k Xi fi
u 1  i=1

 X 2 fi −
P
S = u n−1  i n

 (21)
t i=1
A variância e o desvio padrão são medidas que só podem assumir valores não negativos
(positivo e igual a zero) e quanto maior for, maior será a dispersão dos dados, ou seja, maior será a
variabilidade dos dados. Em outras palavras o desvio padrão e a variância medem a dispersão dos
dados em torno da média.
Exemplo 26: Para apresentar o cálculo do desvio padrão utilizou-se os dados do Exemplo 25, com
o objetivo de enfatizar a relação entre desvio padrão e variância. Sabe-se por denição, que desvio
padrão é a raiz quadrada da variância, e como já foram calculadas anteriormente no exemplo 25, tem-se
que o desvio padrão de ovos danicados é:

√ √ √ √
S= S2 = 0 , 0480 = 0 , 2190 e S = S2 = 1, 8172 = 1, 3480 ovos danicados
Comando para o cálculo do desvio padrão no R:
# sintaxe:
sd(dados)
sd(dados)
1.5.4 Coeciente de Variação

O desvio padrão e a variância são medidas da variabilidade absoluta dos dados. Essas medidas são
dependentes da grandeza, escala ou unidade de medida empregada para mensurar os dados. Conjuntos
de dados com diferentes unidades de medidas não podem ter suas dispersões comparadas pela variância
ou pelo desvio padrão. Mesmo para uma única unidade, se os conjuntos possuem médias de diferentes
magnitudes, suas variabilidades não podem ser comparadas por essas medidas de dispersão apresenta-
das anteriormente. Para esta situação utiliza-se o coeciente de variação (CV), pois ele não depende
da grandeza, da escala ou unidade de medida empregada para mensurar os dados, ou seja, não possui
33
unidade de medida (medida adimensional). Portanto, ca evidente que se deve usar o CV quando se
tem diferentes unidades de medida e/ou médias de diferentes magnitudes (FERREIRA, 2005).
O coeciente de variação populacional é:

CV = σµ .100%. (22)
O coeciente de variação amostral é:

S
CV = X̄
.100%. (23)
Portamto, o coeente de variação é uma medida relativa de dispersão, útil quando se deseja comparar
duas distribuições e também para avaliar o quanto a média é representativa de um conjunto de dados.
Em geral, um coeciente de variação de até 30% indica que a média é representativa do conjunto de
dados (SILVA, 2008).
Exemplo 27: A média e o desvio padrão do tempo de vida das lâmpadas de marca A e B são
respectivamente: X A = 4, 0 meses, SA = 8, 0 meses, X B = 0, 8 meses e SB = 1, 2 meses. Qual das
lâmpadas possui maior uniformidade de tempo de vida?
Se, ao inspecionar as estatísticas, apresentadas você fosse induzido a responder que a lâmpada (A)
seria a que possui maior uniformidade e que a razão seria o menor desvio padrão apresentado por ela
(0,8 meses), você teria cometido um erro. O fundamento usado aqui para comparar a variabilidade
das lâmpadas não foi correto, uma vez que o desvio padrão é uma medida de variabilidade absoluta.
Embora as unidades não sejam diferentes, as médias das amostras o são. O procedimento adequado
seria o de estimar o CV para ambas as lâmpadas e compará-los. De acordo com a equação (23), os
coecientes de variação são:

SA 0,8 SB 1,2
CVA = X̄A
.100 = 4,0 .100 = 20% e CVB = X̄B
.100 = 8,0 .100 = 15%
É fácil vericar que a lâmpada (B) é a mais uniforme, pois possui um menor CV que a lâmpada (A).
Exemplo 28: Testes de resistência à tração aplicados a dois tipos diferentes de aço produziram os
seguintes resultados:
Tipo I: X̄ = 27, 45 km/mm3 e S = 2, 00 km/mm3

Tipo II: X̄ = 147, 00 km/mm3 e S = 17, 25 km/mm3
Os coecientes de variação são, respectivamente, 7,29% e 11,73%. Conclui-se que, embora menos
resistente, o tipo I se apresenta relativamente mais estável.
Exemplo 29: Com base nos dados do Exemplo 25, calcule o coeciente de variação para a variável
número de ovos quebrados. Utilize os comandos abaixo:
Comando para o cálculo do cociente de variação:
# sintaxe:
100*sd(dados)/mean(dados) #dado em porcentagem
100*sd(dados)/mean(dados) #dado em porcentagem
Exemplo 30: Comparando dispersão de variáveis com diferentes unidades (Ex. temperatura e preci-
pitação). Os dados referentes à precipitação e temperatura de uma determinada região são aprsentados
a seguir:
34
1.6 Medidas de Assimetria
Temperatura ( º C): X̄ = 22 º C e S=5 º C, então, CV = 22, 7%.

Precipitação (mm): X̄ = 800 mm e S = 100 mm, então, CV = 12, 5%.
Conclui-se que a variável precipitação apresenta menor dispersão quando comparada com a variável
temperatura.
1.5.5 Erro Padrão da Média

É uma medida da dispersão das médias amostrais em torno da media da população, ou seja, é uma
medida que fornece uma idéia da precisão com que a média foi estimada (FERREIRA, 2005).
O erro padrão da média populacional é:

q
√σ ou σ2
σx̄ = n
σx̄ = n (24)
em que sv é o desvio padrão populacional e n é o tamanho da amostra.
O erro padrão da média amostral é:
q
√S ou S2
Sx̄ = n
Sx̄ = n (25)
em que S é o desvio padrão amostral e n é o tamanho da amostra.
1.6 Medidas de Assimetria

A assimetria refere-se ao grau de afastamento de uma distribuição da unidade de simetria. Em síntese,
tem-se que (FONSECA & MARTINS, 2009):
Distribuição simétrica, se X = Md = Mo ;
Distribuição assimétrica à esquerda ou negativa, se Mo < Md < X ;
Distribuição assimétrica à direita ou positiva, se X < Md < Mo .
Maiores detalhes das distribuições podem ser observados na Figura 1 da seção (1.3.4).
Conforme Fonseca & Martins (2009), existem várias fórmulas para o cálculo do coeciente de assimetria,
dentre elas são úteis:
1. Coeciente de Pearson:
X−Mo X−Mo
AS = σ ou AS = S .
2. Coeciente de Pearson:
Q1 +Q3 −2Md
AS = Q3 −Q1 .
Se AS = 0, diz-se que a distribuição é simétrica;
Se AS > 0, diz-se que a distribuição é assimétrica positiva (à direita);
Se AS < 0, diz-se que a distribuição é assimétrica negativa (à esquerda).
Qual quer uma das fórmulas pode ser utilizada para identicar o de assimetria de uma distribuição.
Exemplo 31 (FONSECA & MARTINS, 2009): Calcular os dois coecientes de Pearson com base na
distribição amostral apresentado no quadro a seguir.
35
Salários ($ 1.000,00) 30 |- 50 50 |- 100 100 |- 150
Empregados 80 50 30
Primeiramente vamos determinar a distribuição acumulada e os pontos médios de cada classe.
Salários ($ 1.000,00) 30 |- 50 50 |- 100 100 |- 150
Empregados 80 50 30
Xi 40 75 125
Fi 80 130 160
A partir da distribuição acima temos os seguintes resultados:
10700
1. Média: X= 160 = 66, 88
(80−0)
2. Moda: Mo = 30 + (80−0)+(80−50) .20 = 44, 55.
( 160
2 −0)
3. Mediana: Md = 30 + 80 20 = 50.
4. Desvio padrão: S = 31, 96.
P i.n 25∗160
5. Primeiro quantil: Q1 = P25 , então, i = 25 e n = 160 = fi . Logo,
100 = 100 = 40. Isto nos
dá a posição do P25 na série. Substituindo na fórmula, tem-se:

( 25∗160
100 −0)
P25 = 30 + 80 20 = 30 + (40−00)
80 20 = 40.
P i.n 75∗160
6. Terceiro quantil: Q3 = P75 , então, i = 75 e n = 160 = fi . Logo, 100 = 100 = 120. Isto nos

( 75∗160
100 −80) (120−80)
P75 = 50 + 50 50 = 50 + 50 50 = 90.
Agora, a partir das informações acima é possível calcular os coecientes:
X−Mo 66.88−44,55 Q1 +Q3 −2Md 40+90−2∗50

AS = S = 31,96 = 0, 70 e AS = Q3 −Q1 = 90−40 = 0, 60.
Como, nos dois casos, AS > 0 diz-se que a distribuição é assimétrica positiva.
1.7 Medidas de Curtose

Denomina-se curtose o grau de achatamento da distribuição. Ou o quanto uma curva de frequência
será achatada em relação a uma curva normal de referência (FONSECA & MARTINS, 2009).
0.4
Curva Leptocúrtica
Curva Mesocúrtica
Curva Platicúrtica
0.3
0.2
f(x)
0.1
0.0
−4 −2 0 2 4
Figura 3: Caracterização da distribuição em função do grau de achatamento.
36
1.8 Representação gráca
Para medir o grau de curtose utiliza-se o coeciente:
Q3 −Q1
K= 2(P90 −P10 ) ,
em que: Q3 é o terceiro quartil, Q1 é o primeiro quartil, P90 é o nonagésimo percentil e P10 é o décimo
percentil.
Se K = 0,263, diz-se que a curva correspondente à distribuição de frequencia é mesocúrtica;
Se K > 0,263, diz-se que a curva correspondente à distribuição de frequencia é platicúrtica;
Se K < 0,263, diz-se que a curva correspondente à distribuição de frequencia é leptocúrtica.
Exemplo 32: Com base no quadro abaixo discuta que tipo de curva corresponde à distribuição
amostral.
Classes 3 |- 8 8 |- 13 13 |- 18 18 |-23
fi 5 15 20 10
Fi 5 20 40 50
A partir das informações apresentadas acima será calculada as seguintes medidas:

P i.n 25∗50
1. Primeiro quantil: Q1 = P25 , então, i = 25 e n = 50 = fi . Logo,
100 = 100 = 12, 5. Isto nos

( 25∗50
100 −5) (12,5−5)
P25 = 8 + 15 5=8+ 15 5 = 10, 5.
P i.n 75∗50
2. Terceiro quantil: Q3 = P75 , então, i = 75 e n = 50 = fi . Logo,
100 = 100 = 37, 5. Isto nos

( 75∗50
100 −20) (37,5−20)
P75 = 13 + 20 5 = 13 + 20 5 = 17, 38.
P i.n 90∗50
3. Nonagésimo percentil: P90 , então, i = 90 e n = 50 = fi . Logo,
100 = 100 = 45. Isto nos dá
a posição do P90 na série. Substituindo na fórmula, tem-se:

( 90∗50
100 −40)
P90 = 18 + 10 5 = 18 + (45−40)
10 5 = 20, 5.
i.n
= 10∗50
P
4. Décimo percentil: P10 , então, i = 10 e n = 50 = fi . Logo, 100 100 = 5. Isto nos dá a
posição do P10 na série. Substituindo na fórmula, tem-se:
( 10∗50
100 −0) (5−0)
P10 = 3 + 5 5=3+ 5 5 = 8.
Agora, a partir das informações acima é possível calcular o coeciente:
Q3 −Q1 17,38−10,5 6,88

K= 2(P90 −P10 ) = 2(20,5−8) = 25 = 0, 2752.
Portanto, K > 0,263, logo a curva correspondente à distribuição de frequencia é suavemente platicúrtica.

1.8.1 Grácos para variáveis qualitativas
Existem vários tipos de grácos para representar variáveis qualitativas, os quais são versões distintas do
mesmo princípio. Dentro deste contexto, apresentarei apenas dois deles: grácos em barras (horizontais
ou verticais) e de decomposição em setores ( pizza ). A Tabela 1 apresenta a distribuição de frequencias
da variável grau de instrução.
Tabela 21: Distribuição de frequencia absoluta, relativa e percentual dos 36 empregados da seção de
orçamentos da companhia MB segundo o grau de instrução.
37
Grau de instrução fi fr fp (%)
Fundamental 12 0,3333 33,33
Médio 18 0,50 50
Superior 6 0,1667 16,67
Total 36 1,00 100
A seguir veremos a representação gráca por meio de grácos em barras verticais (Figura 4), horizontais
(Figura 5) e de decomposição de setores ou pizza (Figura 6) a partir dos resultados apresentados na
Tabela 21. O princípio para a construção de grácos em barras verticais é o mesmo para horizontais.
Figura 4: Gráco em barras verticais para a variável grau de instrução.
Figura 5: Gráco em barras horizontais para a variável grau de instrução.
38
Figura 6: Gráco em setores para a variável grau de instrução.
A seguir é apresentada a rotina para obtenção o gráco de barras (verticais e horizontais) e gráco de
setores a partir da distribuição de frequencia da variável grau de instrução.
dados<-read.table("grau de instrução.txt", h = T)
df<-matrix(0,4,3)
rownames(df )<-c("Fundamental","Médio","Superior","Total")
df[1,1]<-tab.dados["Fundamental"]
df[2,1]<-tab.dados["Médio"]
df[3,1]<-tab.dados["Superior"]
df[4,1]<-sum(df[1:3])
for(i in 1:4) {df[i,2]<-df[i,1]/df[4,1]}
for(i in 1:4) {df[i,3]<-df[i,2]*100}
df
# sintaxe: gráco de barras ou colunas verticais
# barplot
gcv<-barplot(df[1:3,2],xlab="Graus de Instrução",ylab="Frequência relativa",ylim=c(0,0.5),col=gray(seq(0.4,1.0,length=4)))
# sintaxe: gráco de barras ou colunas horizontais
gch<-barplot(df[1:3,2],horiz=TRUE,ylab="Graus de Instrução",xlim=c(0,0.5),xlab="Frequêcia relativa",col=gray(seq(0.4,1.0,length=4)))
# sintaxe: gráco de setores
# pie()
gs<-pie(df[1:3,2], col = gray(seq(0.4,1.0, length=4)), radius = 1.05)
1.8.2 Grácos para variáveis quantitativas

Os tipos de grácos que serão adotados para representar variáveis quantitativas são grácos de barras,
gráco de linhas, histograma e polígono de frequencia.
Histograma: é constituído de um conjunto de retângulos, com as bases assentadas sobre um eixo
horizontal, tendo como centro da base, o ponto médio da classe que representa. A altura do retângulo
deve ser proporcional a frequencia da classe.
Se os pontos médios dos retângulos forem conectados por uma linha reta, ou se forem conectados por
39
uma curva suave, o polígono de frequência é encontrado.
Primeiramente, será apresentado a representação gráca para uma variável quantitativa discreta. Para
ilustrar consideraremos a distribuição de frequencia referente a variável número de lhos de uma de-
terminada companhia (Tabela 22).
Tabela 22: Distribuição de frequencia absoluta, relativa e percentual dos empregados casados da seção
de orçamentos de uma determinada companhia segundo o número de lhos.
A informação apresentada na Tabela 22 pode ser expressa por meio de grácos, conforme Figura 7.
Figura 7: Gráco de barras verticais (a), barras horizontais (b) e de linhas (c).
A seguir é apresentada a rotina para obtenção dos grácos de barras (verticais e horizontais) e de
linhas, a partir da distribuição de frequencia da variável número de lhos.
40
lhos<-read.table("número de lhos.txt", h = T)
tab.lhos<-table(lhos)
df<-matrix(0,7,3)
rownames(df )<-c("0","1","2","3","4","5","Total")
df[1,1]<-tab.lhos["0"]
df[7,1]<-sum(df[1:6])
for(i in 1:7) {df[i,2]<-df[i,1]/df[7,1]}
for(i in 1:7) {df[i,3]<-df[i,2]*100}
df
# sintaxe: gráco de barras verticais ou gráco de colunas verticais
barplot()
gcv<-barplot(df[1:6,2], ylim=c(0,0.4), xlab="Número de lhos", ylab="frequencia relativa", main = (a), col=gray(seq(0.4,1.0,length=5)))
# sintaxe: gráco de barras horizontais ou gráco de colunas vhorizontais
gch<-barplot(df[1:6,2], horiz=TRUE, ylab="Número de lhos",xlim=c(0,0.4), xlab="Frequêcia relativa", main= "(b)", col=gray(seq(0.4,1.0,length=4)))
# sintaxe: gráco de linhas
gl<-plot(df[1:6,2], type="h", axes=F, ylim=c(0,0.3), xlab="Número de lhos", ylab="frequencia relativa", main = (c))
# sintaxe: axes = F => desconsidera a escala original dos eixos x e y
axis(1,c(1,2,3,4,5,6),c("0","1","2","3","4","5")) # denir a nova escala do eixo x
axis(2) # escala do eixo y
box() # apresenta a caixa
Agora, será apresentado a representação gráca para uma variável quantitativa contínua. Para ilustrar
consideraremos a distribuição de frequencia referente a variável produção de grãos de feijão da geração
F2 (Tabela 23).
Tabela 23: Distribuição de frequencias da produção de grãos em g/planta obtidos numa amostra de
n = 20 plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.
Classe de pesos X̄i fi fr fp (%)

-2,485 5,245 1,38 6 0,30 20
5,245 12,975 9,11 8 0,40 40
12,975 20,705 16,84 4 0,20 20
20,705 28,435 24,57 2 0,10 10
P
20 1,00 100
Dessa forma, a representação gráca por meio do histograma e polígono de frequencia para a variável
produção (g/planta) é apresentada na Figura 8:
41
Figura 8: Histograma (a) e Polígono de Frequencia (b) para a variável Produção (g/planta).
Pode-se obter os grácos Figura 7 a partir das seguinte rotina:
dados<-read.table("produção de café F2.txt", h = T)
attach(dados)
df<-matrix(0,5,3)
rownames(df )<-c("[-2.485,5.245)","[5.245,12.975)","[12.975,20.705)","[20.705,28.435)","Total")
tab.dados<-table(cut(producao,breaks=c(-2.485,5.245,12.975,20.705,28.435)))
df[5,1]<-sum(df[1:4])
for(i in 1:5) {df[i,2]<-df[i,1]/df[5,1]}
for(i in 1:5) {df[i,3]<-df[i,2]*100}
df
# sintaxe: histograma
# hist()
hist(producao, breaks = c(-2.485, 5.245, 12.975, 20.705, 28.435), xlab="Produção (g/planta)",ylab="Frequencia", main=" (a)")
# sintaxe: Polígono de Frequencia
dados<-read.table("poligono de frequencia produção de café F2.txt", h = T)
attach(dados)
xprod<-dados$PM
yprod<-dados$freq
plot(xprod,yprod, main=" (b)", xlab="Produção (g/planta)", ylab="Frequencia", pch=1, col="blue")
lines(xprod,yprod, col="black", lwd=2)
points(xprod,yprod, col="black")
legend(12, 8, c("Polígono de Frequencia"), col=c("black"), lwd=2, lty=1)
1.8.3 Frequencias acumuladas

Uma outra maneira de representar dados contínuos é por meio do acúmulo das frequencias para uma
leitura rápida da proporção de dados que superam um determinado valor ou de quantos são inferiores
distribuição de frequencias
a esse valor. Esse tipo de representação dos dados é denominado de
acumuladas, cujas representações grácas são denominadas de ogivas. Para construção dessa distri-
42
buição, tomam-se os limites de classes e avaliam-se as quantidades acumuladas de elementos amostrais
que superam ou que são inferiores a esses limites.
Exemplo 33: Refere-se a variável produção de grãos (quantitativa contínua).
Tabela 24: Distribuição de frequencia absoluta da produção de grãos em g/planta obtidos numa
amostra de n = 20 plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e
Carioca.
Classe de pesos fi
-2,485 5,245 6
5,245 12,975 8
12,975 20,705 4
20,705 28,435 2
Total 20
Tabela 25: Distribuição de frequencia acumulada da produção de grãos em g/planta obtidos numa
amostra de n = 20 plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.
Limites (Xi ) F Ci (X < Xi ) = f ac ↓ F Ci (X > Xi ) = f ac ↑

-2,485 0 20
5,245 6 14
12,975 14 6
20,705 18 2
28,435 20 0
A representação gráca das distribuições de frequencias acumuladas por meio de ogivas para a produção
de grãos em g/planta obtidas numa amostra de n = 20 plantas de feijão da geração F2 do cruzamento
das cultivares Flor de Maio e Carioca está apresentada na Figura 9.
Figura 9: Ogivas das produções de grãos em g/planta de plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.
Rotina para obtenção de ogivas associadas a variável produção de feijão é apresentada a

seguir:
43
dados<-read.table("freq_acumulada_prod_feijão.txt", h=T)
attach(dados)
vprod<-dados$Limites
vfacbaixo<-dados$facbaixo
vfaccima<-dados$faccima
plot(vprod,vfaccima, main="Gráco de Ogivas", xlab="Produtividade (g/planta)", ylab="Frequencias Acumuladas", pch=1, col="blue")
lines(vprod,vfaccima, col="blue")
lines(vprod,vfacbaixo, col="red")
points(vprod,vfacbaixo, col="red")
Exemplo 34: Variável quantitativa discreta (dados ctícios).
Tabela 26: Distribuição de frequencia absoluta e acumulada para baixo e para cima de dados ctícios.
Xi fi F Ci (X < Xi ) = f ac ↓ F Ci (X > Xi ) = f ac ↑
2 5 5 80
4 10 15 75
6 45 60 65
8 12 72 20
10 5 77 8
12 3 80 3
80
A representação gráca das distribuições de frequencias acumuladas por meio de ogivas para os dados
cticios está apresentada na Figura 10.
Figura 10: Ogivas dos dados cticios.
1.8.4 Interpolação em distribuições de frequencias acumuladas
Para ilustrar o procedimento de interpolação considere o Exemplo 32 referente a distribuição de fre-
quencia acumulada da produção de grãos em g/planta (Tabela 25).
Exemplo 35: Distribuição de frequencia acumulada da produção de grãos em g/planta.
44
Limites (Xi ) F Ci (X < Xi ) = f ac ↓ F Ci (X > Xi ) = f ac ↑

-2,485 0 20
5,245 6 14
12,975 14 6
20,705 18 2
28,435 20 0
Qual a frequencia acumulada abaixo de10?
( )
5, 245 → 6
7, 73 ← →8
12, 975 → 14
Aplicando a regra de três simples temos:
7, 73 → 8 8∗4,755
=⇒ x = 7,73 = 4, 921
4, 755 → x
Então, abaixo de 10 tem-se: 4, 921 + 6 = 10, 921.

Qual a frequencia acumulada acima de10?
( )
5, 425 → 14
7, 73 →8
12, 975 → 6
Aplicando a regra de três simples temos:
7, 73 → 8 8∗2,975
=⇒ x = 7,73 = 3, 079
2, 975 → x
Então, acima de 10 tem-se: 3, 079 + 6 = 9, 079.

Exemplo 36: Considere os dados ctícios apresentados na Tabela 27.
Tabela 27: Distribuição de frequencia acumulada
X̄i fi F Ci (X < Xi ) = f ac ↓ F Ci (X > Xi ) = f ac ↑

0 5 5 80
4 10 15 75
8 45 60 65
12 12 72 20
16 5 77 8
20 3 80 3
80
Qual a frequencia acumulada abaixo e acima de 7?
1.8.5 Boxplot
Os grácos apresentados até o momento fornecem impressões visuais gerais acerca de um conjunto
de dados, enquanto quantidades numéricas, tais como média ou desvio padrão fornecem informação
sobre somente uma características dos dados. O boxplot (gráco de caixa) é um gráco que descreve
45
simultaneamente várias características importantes de um conjunto de dados, tais como centro, dis-
persão, desvio da simetria e identicação das observações que estão surpreendentemente longe do seio
dos dados (MONTGOMERY & RUNGER, 2003). O boxplot é formado pelo primeiro quartil (Q1 ),
terceiro quartil (Q3 ), mediana (Q2 ) e pela amplitude interquatílica (Q3 − Q1 = IQR). As hastes infe-
riores e superiores se estendem, respectivamente, do quartil inferior até o menor valor não inferior ao
limite inferior e do quartil superior até o maior valor não superior ao limite superior. Os limites são
calculados da forma abaixo (SILVA, 2008):
Limite inferior =Q1 − 1, 5 (Q3 − Q1 ) e Limite superior = Q3 + 1, 5 (Q3 − Q1 ).
Para este caso, os pontos fora destes limites são considerados valores discrepantes (outliers), denotado
por asterisco (*). A gura a seguir apresenta o boxplot, destacando suas principais características:
Figura 11: Gráco de Boxplot.
Um ponto além da linha, porém a menos de 3 amplitudes interquartis da extremidade da caixa,
é chamado de outlier. Um ponto a mais de 3 amplitudes interquartis da extremidade da caixa, é
chamado de outlier extremo (MONTGOMERY & RUNGER, 2003).
O boxplot permite avaliar a simetria dos dados, sua dispersão e a existência ou não de outliers nos
mesmos, sendo especialmente adequado para a comparação de dois ou mais conjuntos de dados. Por
exemplo, duas ou mais caixas são colocadas lado a lado e se compara a variabilidade entre elas, a
mediana e assim por diante. Outro ponto importante é a diferença entre os quartis (Q3 − Q1 ) que é
uma medida da variabilidade dos dados (SILVA, 2008).
Exemplo 37: (MONTGOMERY & RUNGER, 2003) A partir dos dados apresentados na tabela 28
construa o diagrama de caixa para a variável resistência referente à compressão de 80 corpos de prova
da liga de Alumínio-Lítio.
Tabela 28: Resistência à compressão de 80 corpos de prova da liga de Alumínio-Lítio
105 221 183 186 121 181 180 143
97 154 153 174 120 168 167 141
245 228 174 199 181 158 176 110
163 131 154 115 160 208 158 133
207 180 190 193 194 133 156 123
134 178 76 167 184 135 229 146
218 157 101 171 165 172 158 169
199 151 142 163 145 171 148 158
160 175 149 87 160 237 150 135
196 201 200 176 150 170 118 149
46
Boxplot
250
200
Resistência
150
100
Figura 12: Gráco de Boxplot da variável resistência à compressão de corpos de prova da liga de Alumínio-Lítio
Ao observar a gura 12, pode-se dizer que a distribuição das resistências compressivas é razoavelmente
simétrica em torno do valor central, porque os bigodes da direita e da esquerda e os comprimentos das
caixas da direita e da esquerda ao redor da mediana são aproximadamente os mesmos. Há também
dois suaves outliers em cada extremidade dos dados (MONTGOMERY & RUNGER, 2003).
O histograma (Figura 13) apresentado a seguir enfatiza que a distribuição das resistências é razoavel-
mente simétrica.
Histograma
0.015
0.010
Frequência
0.005
0.000
100 150 200 250
Resistência
X = 162, 66, M0 = 161, 00 e Md = 161, 50.

Figura 13 - Histograma da variável resistência à compressão de corpos de prova da liga de Alumínio-Lítio
O comando para a obtenção do Boxplot (diagrama de caixas) no R é boxplot(). A seguir é apresentada
a rotina para a construção do gráco e as estimativas das medidas necessárias obtidas a partir do
comando summary().
# Sintaxe:
dados<-read.table("resistencia.txt", h = T)
attach(dados)
boxplot(dados, main="Boxplot", ylab="Resistência")
summary(dados)
resist Min. : 76.0 1st Qu.:144.5 Median :161.5 Mean :162.7 3rd Qu.:181.0 Max. :245.0
47
O comando summary() nos fornece informações sobre mínimo, primeiro quartil, média, mediana,
terceiro quartil e máximo. Os cálculos do pimeiro e terceiro quartil pode ser calculado conforme
instruções apresentadas na seção (1.6).
Nota Importante: Não há um consenso universal sobre um procedimento único para o cálculo dos
quartis, e diferentes programas muitas das vezes produzem resultados diferentes. Por isso, que os
resultados obtidos a partir do comando summary() e do boxplot, não conferem plenamente com os
resultados obtidos a partir das instruções da seção (1.6). A seguir será apresentado os resultados das
medidas necessárias para a construção do boxplot com base nas instruções da seção (1.6).
Primeiramente, ordenam-se os dados. Para a ordenção será utilizado o comando sort():
# sintaxe:
sort(dados$resist)
[1] 76 87 97 101 105 110 115 118 120 121 123 131 133 133 134 135 135 141 142
[20] 143 145 146 148 149 149 150 150 151 153 154 154 156 157 158 158 158 158 160
[39] 160 160 163 163 165 167 167 168 169 170 171 171 172 174 174 175 176 176 178
[58] 180 180 181 181 183 184 186 190 193 194 196 199 199 200 201 207 208 218 221
[77] 228 229 237 245
Agora, calcularemos as medidas:
Mínimo = X(1) = 76, 0;

Primeiro quartil = Q1 = P25 = X(20) = 143 pois,
i.n
100 = 25.80
100 = 20 ª;
Segundo Quartil = Q2 = Md =
X(40) +X(41)
2 = 160+163
2 = 161, 5 pois, E= n
2 = 80
2 ª
= 40 ;
Terceiro Quartil = Q3 = P75 = X(60) = 181 pois,

i.n
100 = 75.80
100 = 60ª ;
Média = X = 162, 66;

Máximo = X(80) = 245, 0.
1.9 Exercícios propostos

Exercício 1 Modicado (ANDERSON et al., 2007): A Wageweb realiza pesquisas de dados salariais
e apresenta os sumários em seu site. A empresa registrou que os salários anuais dos vice-presidentes de
marketing variam de US$ 85.090 a US$ 190.054 (Wageweb.com, 12 de abril de 2000). Suponha que os
dados a seguir sejam uma amostra dos salários anuais de 50 vice-presidentes de marketing. Os dados
são em milhares de dólares.
145 136 95 127 148 143 112 134 132 137

140 155 162 93 118 102 170 154 144 142
145 134 127 165 148 123 165 124 138 124
142 138 173 160 113 157 104 138 141 131
138 114 116 135 178 151 123 138 141 157
a) Quais são os salários mais baixos e quais são os salários mais altos?
b) Use o critério de Oliveira e prepare sumários tabulares dos dados salariais anuais.
c) Prepare um histograma. Comente a respeito da forma de distribuição.
Rotina do Exercício 1
48
dados<-read.table("exer_1_salários.txt", h=T)
attach(dados)
dados
# Medidas de posição #
summary(dados)
# Distribuição de frequencia #
df<-matrix(0,8,3)
rownames(df )<-c("[85.92, 100.08)","[100.08, 114.25)","[114.25, 128.42)","[128.42, 142,58)", "[142.58, 156.75)", "[156.75, 170.92)", "[170.92, 185.08)","Total")
tab.dados<-table(cut(salarios, breaks = c(85.92, 100.08, 114.25, 128.42, 142.58, 156.75, 170.92, 185.08)))
df[8,1]<-sum(df[1:7])
for(i in 1:8) {df[i,2]<-df[i,1]/df[8,1]}
for(i in 1:8) {df[i,3]<-df[i,2]*100}
df
# Histograma #
hist(salarios, breaks = c(85.92, 100.08, 114.25, 128.42, 142.58, 156.75, 170.92, 185.08), xlab="Salários (US$/ano)",ylab="Frequencia", main="Histograma")
Exercício 2 Modicado (ANDERSON et al., 2007): O Nielsen Home Technology Report apresentou
informações sobre a tecnologia dos aparelhos domésticos e a sua utilização por pessoas de 12 anos ou
mais. Os dados a seguir referem-se ao número de horas de uso de computadores pessoais durante uma
semana para uma amostra de 50 pessoas.
4,1 1,5 10,4 5,9 3,4 5,7 1,6 6,1 3,0 3,7
3,1 4,8 2,0 14,8 5,4 4,2 3,9 4,1 11,1 3,5
4,1 4,1 8,8 5,6 4,3 3,3 7,1 10,3 6,2 7,6
10,8 2,8 9,5 12,9 12,1 0,7 4,0 9,2 4,4 5,7
7,2 6,1 5,7 5,9 4,7 3,9 3,7 3,1 6,1 3,1
Pede-se:
a) Construa a tabela de distribuição de frequencia por meio do critério de Oliveira.
b) Construa o histograma.
c) Contrua a tabela de frequencia acumulada para baixo e para cima.
d) Cosntrua o gráco das ogivas.
e) Comente sobre o que os dados indicam a respeito do uso de computadores pessoais em casa.
49
dados<-read.table("exer_2_horas_uso.txt", h=T)
attach(dados)
df<-matrix(0,8,3)
rownames(df )<-c("[0, 1.88)","[1.88, 4.23)","[4.23, 6.58)","[6.58, 8.93)", "[8.93, 11.28)", "[11.28, 13.63)", "[13.63, 15.98)","Total")
tab.dados<-table(cut(horas, breaks = c(0, 1.88, 4.23, 6.58, 8.93, 11.28, 13.63, 15.98)))
df[8,1]<-sum(df[1:7])
for(i in 1:8) {df[i,2]<-df[i,1]/df[8,1]}
for(i in 1:8) {df[i,3]<-df[i,2]*100}
df
# Histograma #
hist(horas, breaks = c(0, 1.88, 4.23, 6.58, 8.93, 11.28, 13.63, 15.98), xlab="Uso (horas)",ylab="Frequencia", main="Histograma")
# Ogivas #
dados<-read.table("exer_2_horas_uso_ogivas.txt", h=T)
attach(dados)
vhoras<-dados$Limites
plot(vhoras,vfaccima, main="Gráco de Ogivas", xlab="Uso(Horas)", ylab="Frequencias Acumuladas", pch=1, col="blue")
lines(vhoras,vfaccima, col="blue", lwd=2)
lines(vhoras,vfacbaixo, col="red", lwd=2)
points(vhoras,vfacbaixo, col="red")
legend(8, 35, c("freq. acum. p/ cima", "freq. acum. p/ baixo"), col=c("blue", "red"), lwd=2, lty=1)
Exercício 3: O Brasil é conhecido como um dos maiores produtores mundiais de café. A tabela
abaixo apresenta dados da produção total (tonelada/hectare) do país entre os anos de 1999-2010,
(http://www.fas.usda.gov/psdonline/psdResult.aspx, 24 março 2011) .Com base nos dados apresesen-
tados na tabela abaixo, pede-se:
Ano Prod. (t/ha) Ano Prod. (t/ha)

1999/2000 30,8 2005/2006 36,1
2000/2001 34,1 2006/2007 46,7
2001/2002 35,1 2007/2008 39,1
2002/2003 53,6 2008/2009 53,3
2003/2004 33,2 2009/2010 44,8
2004/2005 43,6
a) Calcule média, mediana e moda.
b) Calcule variância, desvio padrão e coeciente de variação.
c) Construa a distribuição de frequencia por meio do Critério de Oliveira.
d) Plote o histograma.
e) Construa a tabela de distribuição de frequencia acumulada para cima e para baixo.
f ) Construa o Gráco de Ogivas.
50
dados<-read.table("exer_3_prod_cafe.txt", h=T)
attach(dados)
# Média #
mean(dados)
# Mediana #
median(dados)
# Moda #
table(dados)
subset(table(dados), table(dados)==max(table(dados)))
# Outra forma de obter as medidas de posição #
summary(dados)
# Medidas de dispersão #
# variância #
var(dados)
# desvio padrão #
sd(dados)
# coeente de variação #
cv<-(sd(dados)/mean(dados))*100
cv
df<-matrix(0,4,3)
rownames(df )<-c("[25.10, 36.50)","[36.50, 47.90)","[47.90, 59.30)","Total")
tab.dados<-table(cut(prodcafe, breaks = c(25.10, 36.50, 47.90, 59.30)))
df[4,1]<-sum(df[1:3])
for(i in 1:4) {df[i,2]<-df[i,1]/df[4,1]}
for(i in 1:4) {df[i,3]<-df[i,2]*100}
df
# Histograma #
hist(prodcafe, breaks = c(25.10, 36.50, 47.90, 59.30), xlab="Produção (t/ha)",ylab="Frequencia", main="Histograma")
# Ogivas #
dados<-read.table("exer_3_prod_cafe_ogivas.txt", h=T)
attach(dados)
vprodcafe<-dados$Limites
plot(vprodcafe,vfaccima, main="Gráco de Ogivas", xlab="Produção de café (t/ha)", ylab="Frequencias Acumuladas", pch=1, col="blue")
lines(vprodcafe,vfaccima, col="blue", lwd=2)
lines(vprodcafe,vfacbaixo, col="red", lwd=2)
points(vprodcafe,vfacbaixo, col="red")
Exercício 4 Modicado (ANDERSON et al., 2007): O trabalho de classicação de email-s não
solicitados e span afeta a produtividade de funcionários de escritório. Uma pesquisa levada a efeito
pela InsightExpress monitorou funcionários de escritório para determinar a quantidade de tempo não-
produtivo por dia dedicado a e-mails não-solicitados e span (Usa Taday, 13 de novembro de 2003). Os
dados a seguir fornecem uma amostra de tempo em minutos dedicado a esta tarefa. Pede-se:
2 4 8 4 12 1 5 7 24 19
8 1 2 32 5 5 3 4 4 14
51
a) Calcule média, mediana e moda.
b) Calcule variância, desvio padrão e coeciente de variação.
c) Construa a distribuição de frequencia por meio do Critério de Oliveira.
d) Plote o histograma.
e) Construa a tabela de distribuição de frequencia acumulada para cima e para baixo.
f ) Construa o Gráco de Ogivas.
dados<-read.table("exer_4_minutos_gasto_tarefa.txt", h=T)
attach(dados)
summary(dados)
# Medidas de dispersão #
# variância #
var(dados)
# desvio padrão #
sd(dados)
# coeente de variação #
cv<-(sd(dados)/mean(dados))*100
cv
df<-matrix(0,5,3)
rownames(df )<-c("[0, 6.17)","[6.17, 16.50)","[16.50, 26.83)", "[26.83, 37.17)","Total")
tab.dados<-table(cut(min, breaks = c(0, 6.17, 16.50, 26.83, 37.17)))
df[5,1]<-sum(df[1:4])
for(i in 1:5) {df[i,2]<-df[i,1]/df[5,1]}
for(i in 1:5) {df[i,3]<-df[i,2]*100}
df
# Histograma #
hist(min, breaks = c(0, 6.17, 16.50, 26.83, 37.17), xlab="Tempo não produtivo (min)",ylab="Frequencia", main="Histograma")
# Ogivas #
dados<-read.table("exer_4_minutos_gasto_tarefa_ogivas.txt", h=T)
attach(dados)
vtempo<-dados$Limites
plot(vtempo,vfaccima, main="Gráco de Ogivas", xlab="Tempo não produtivo (min)", ylab="Frequencias Acumuladas", pch=1, col="blue")
lines(vtempo,vfaccima, col="blue", lwd=2)
lines(vtempo,vfacbaixo, col="red", lwd=2)
points(vtempo,vfacbaixo, col="red")
52
2 PROBABILIDADES
Neste capítulo e no próximo serão abordados os conceitos de probabilidade e serão considerados alguns
modelos probabilísticos especícos que desempenham importante papel na estatística. Para o cálculo
de probabilidades é necessário contar o número de vezes que um determinado evento de interesse ocorre,
fazendo o uso de métodos de análise combinatória.
2.1 Probabilidades e espaço amostral

Antes de entrarmos no contexto de probabilidade é necessário entendermos alguns conceitos como:
experimento, espaço amostral e eventos.
Denominamos de experimento a todo fenômeno ou ação que geralmente pode ser repetido e cujo
resultado é aleatório.
Quando lançamos uma moeda, uma única vez estamos fazendo um experimento cujo resultado será
cara ou coroa.
Denominamos de espaço amostral (W) ao conjunto de todos os possíveis resultados de um determinado

experimento.
No lançamento de um dado, o espaço amostral é: W = 1, 2, 3, 4, 5, 6. No lançamento de uma moeda, o
espaço amostral é: W = cara, coroa.

Denominamos de evento a todo subconjunto do espaço amostral.
Outras denições importantes:

i) Evento certo W (caracterizado pelo espaço amostral)
ii) Evento impossível F .
iii) Processo aleatório: Qualquer fenômeno que gere um resultado incerto ou casual.
Exemplo1: lançamento de moeda, lançamento de dado, etc.

Características
1) Pode ser repetido indenidamente sob as mesmas condições.
2) Não se conhece a priori (inicialmente) o resultado, mas todos os resultados possíveis podem ser
descritos.
Dentro deste contexto, probabilidade pode ser denida como o número de eventos (pontos ou elementos)
favoráveis divididos pelo número de elementos do espaço amostral:
X
P = n
Em que X é o número de eventos favoráveis, e n é o número de eventos do espaço amostral.
OPERAÇÕES
A seguir apresentaremos o Diagrama de Venn para ilustrarmos algumas propriedades:
53
2 PROBABILIDADES
Figura1: Diagrama de Venn
S S S
1) União( ):A B=B A
T T T
2) Intersecção ( ):A B=B A
3) Complementar: Ac = Ω − A (lê-se: complementar de A).
T
Observação Importante: SeA eB são conjuntos mutuamente exclusivos (disjuntos) então, A B = Φ.
Exemplo 2: Um casal pretende ter 3 lhos.
a) Determine o espaço amostral referente ao sexo dos lhos.
W = {(M, M, M ); (M, M, F ); (M, F, M ); (F, M, M ); (F, F, M ); (F, M, F ); (M, F, F ); (F, F, F )}

b) Qual o número de elementos (eventos) do espaço amostral?
O espaço amostral possui oito elementos (eventos).
c) Qual a probabilidade do casal ter exatamente 3 lhas?
Evento: X = número de lhas.
1
P (X = 3) = 8 = 0, 125
d) Qual a probabilidade do casal ter exatamente dois lhos?
Evento: Y = número de lhos.
54
2.1 Probabilidades e espaço amostral
3
P (Y = 2) = 8 = 0, 375
e) Qual a probabilidade do casal ter apenas um lho?
Evento: Y = número de lhos.
3
P (Y = 1) = 8 = 0, 375
Exemplo 3: Jogando-se dois dados, calcular a probabilidade da soma dos pontos ser superior a nove.
Evento: X = soma dos pontos
 
11 21 31 41 51 61
 

 12 21 31 41 51 61 

 13 23 33 43 53 63  6 1
Ω=  =⇒ P (X > 9) = = = 0, 1667
 
36 6

 14 24 34 44 54 64 


 15 25 35 45 55 65 

16 26 36 46 56 66
Dessa forma podemos sintetizar a denição de probabilidade de ocorrer um evento A como a razão
entre o número de possíveis resultados favoráveis ao evento A(n(A)) e todos os possíveis resultados do
experimento W
(n( )), ou seja, número de elementos do espaço amostral.
n(A)
P (A) = n(Ω)
2.1.1 Axiomas de probabilidade

Axioma 1: A probabilidade de um certo evento ocorrer corresponde a um número não negativo.
P (A) ≥ 0
Axioma 2: A probabilidade de ocorrer todo o espaço amostral é igual a um.
P (Ω) = 1
2.1.2 Teoremas
Teorema 1: A probabilidade de um evento impossível ocorrer é P (Φ) = 0.
Demonstração:
Seja Ω o espaço amostral. Sabe-se que Ω = Ω + Φ, então aplicando a função probabilidade de ambos
os lados têm-se:
Ω=Ω+Φ
P (Ω) = P (Ω) + P (Φ)
1 = 1 + P (Φ)
55
2 PROBABILIDADES
P (Φ) = 0
Teorema 2 (Probabilidade do complemento): Seja W o espaço amostral. Então, a probabilidade
de um evento A não ocorrer é:
P AC = 1 − P (A)

Demonstração:
Sabe-se que AC = Ω − A,então aplicando a função probabilidade de ambos os lados têm-se:
AC = Ω − A
P AC = P (Ω) − P (A)

P AC = 1 − P (A)

Teorema 3 (Teorema da soma): Se A e B são dois eventos do espaço amostral W a probabilidade

que ocorra A ou B é:
S T
P (A B) = P (A) + P (B) − P (A B)
Corolário:
T
Se dois eventos A e B são mutuamente exclusivos (disjuntos), isto é, A B = Φ, então:
S
P (A B) = P (A) + P (B)
Baseado no Axioma 1 e no Corolário acima segue-se que 0 ≤ P (A) ≤ 1 .
2.2 Probabilidade condicional e independência

2.2.1 Probabilidade condicional
A probabilidade condicional do evento A em relação ao evento B é denotada por:
T
P (A B)
P (A|B) = P (B) , P (B) > 0
A probabilidade condicional do evento B em relação ao evento A é denotada por:
T
P (A( B)
P (B|A) = P (A) , P (A) > 0
Exemplo 4: Qual a probabilidade no lançamento de um dado, a face superior do dado ser maior ou
igual a 4 sabendo que ela é par?
No lançamento de um dado, o espaço amostral é Ω = {1, 2, 3, 4, 5, 6}. Vamos denir o evento A como
sendo face superior par, e o evento B face superior maior ou igual a 4. Então, A = 2, 4, 6 e B = 4, 5, 6
T
P (A B)
P (B|A) =? ⇒ P (B|A) = P (A) , P (A) > 0
56
2.2 Probabilidade condicional e independência
T
Agora, vamos determinar P (A), P (B) e P (A B).
n(A) 3 1
P (A) =
n(Ω) = 6 = 2
P (B) = n(B) 3
n(Ω) T= 6 = 2
1
P (A B) = n(A B)
= 62 = 13
T
n(Ω)
T
P (A B) 1/3
P (B|A) = P (A) = 1/2 = 13 . 12 = 2
3
Exemplo 5: Em uma urna tem-se 40 bolas, sendo 10 pretas e 30 vermelhas (20 com manchas brancas
e 10 sem manchas). Qual a probabilidade de se ter uma bola vermelha com mancha branca, sabendo
que o evento bola vermelha já ocorreu.
Vamos denir o evento VB como sendo bola vermelha com mancha branca, e o eventoV bola vermelha.
P (V B |V ) =?
T
P (VB V )
P (V B |V ) = P (V ) , P (V ) > 0
T
Agora, vamos determinar P (V ) e P (VB V)
T
n(V ) 30 3 T n(VB V ) 20 1
P (V ) = n(Ω) = 40 = 4 e P (V B V)= n(Ω) = 40 = 2.
Então,
T
P (VB V ) 1/2
P (V B |V ) = P (V ) = 3/4 = 12 . 34 = 2
3.
57
2 PROBABILIDADES
2.2.2 Independência de eventos dois eventos

T
A e B são independentes se P (A B) = P (A).P (B).
Exemplo 6: Considere o lançamento de uma moeda (não viciada) três vezes. Cujo evento A corres-
ponde ao primeiro lançamento da moeda sair cara e o evento B corresponde ao segundo lançamento
da moeda sair cara. Esses dois eventos são independentes?
O espaço amostral é Ω = {ccc, ccr, crc, rcc, crr, rcr, rrc, rrr}. Os eventos A e B são: A = {ccc, ccr, crc, crr}
T
e B = {ccc, ccr, rcc, rcr}. Consequentemente, A B = {ccc, ccr}.
T
Agora, vamos vericar se estes dois eventos são independentes, ou seja, se P (A B) = P (A).P (B).
Por denição temos que P (A) = n(A) 4 1 n(B) 4 1 1 1 1
n(Ω) = 8 = 2 e P (B) = n(Ω) = 8 = 2 , então, P (A).P (B) = 2 . 2 = 4 .
P (A B) = n(A∩B) 2 1
B) = P (A).P (B) = 41 . Logo,
T T
Também por denição,
n(Ω) = 8 = 4 . Portanto, P (A
os eventos A e B são independentes.
2.2.3 Teorema
Se os eventos B1 , B2 , B3 , ..., Bk constituem uma partição do espaço amostral W, de modo que P (Bi ) 6= 0
para i = 1, 2, ..., k , então para qualquer evento A de W,
k
P T k
P
P (A) = P (Bi A) = P (Bi ).P (A|Bi )
i=1 i=1
Figura 2 - Partição do espaço amostral Ω.

Demonstração:
T S T S S T
A = (B1 A) (B2 A) ... (Bk A)
T S T S S T
P (A) = P [(B1 A) (B2 A) ... (Bk A)]
T T T
P (A) = P (B1 A) + P (B2 A) + · · · + P (Bk A)
Pk T
P (A) = P (Bi A)
i=1
T
P (A Bi ) T
Sabe-se que P (A|Bi ) = P (Bi ) ⇐⇒ P (A|Bi ).P (Bi ) = P (A Bi ). Então,
k
P T k
P
P (A) = P (Bi A) = P (A|Bi ).P (Bi )
i=1 i=1
Nota: Se a união de n eventos mutuamente exclusivos é o próprio universo W, dizemos que tais eventos
são mutuamente exclusivos e exaustivos, ou formam uma partição em W.
Exemplo 7: Em certa linha de montagem, três máquinas B1 , B2 e B3 produzem 30%, 45% e 25% dos
produtos, respectivamente. Sabe-se de experiências anteriores, que 2%, 3% e 2% dos produtos feitos
por cada máquina são, respectivamente, defeituosos. Agora, suponha que um produto já acabado, seja
selecionado aleatoriamente. Qual é a probabilidade de que tal produto apresente algum defeito?
58
2.3 Teorema de Bayes
Solução:
Denote os eventos A como produto com defeito e Bi produto produzido pela máquina i, com i = 1, 2,
3. Com base nas informações do problema temos que:
P (B1 ) = 0, 30; P (B2 ) = 0, 45; P (B3 ) = 0, 25; P (A|B1 ) = 0, 02; P (A|B2 ) = 0, 03 e P (A|B3 ) = 0, 02.
O que se quer calcular é P (A), ou seja, a probabilidade de que tal produto apresente algum defeito.
Então, pelo teorema temos:
k
P
P (A) = P (A|Bi ).P (Bi ) = P (A|B1 ).P (B1 ) + P (A|B2 ).P (B2 ) + P (A|B3 ).P (B3 ) =
i=1
0, 30 ∗ 0, 22 + 0, 45 ∗ 0, 03 + 0, 25 ∗ 0, 02 = 0, 0245.
2.3 Teorema de Bayes

É um importante teorema que expressa o conceito de uma probabilidade condicional em função de
outras probabilidades condicionais e marginais.
Teorema de Bayes: Se B 1 , B2 , .., Bk são conjuntos mutuamente exclusivos cuja união resulta em ,
então:
P (Bi ).P (A|Bi )

P (Bi |A) = k
P
P (Bi )P (A|Bi )
i=1
Exemplo 8: Considere cinco urnas cada uma com seis bolas. Duas dessas urnas (tipo C1 ), tem três
bolas brancas, duas outras urnas (tipo C2 ), tem duas bolas brancas e a última (tipo C3 ) tem seis bolas
brancas. Escolhe-se uma urna ao acaso e retira-se uma bola desta. Qual a probabilidade de que a urna
escolhida seja do tipo C3 , sabendo-se que a bola retirada á branca?
Resolução:
O evento bola branca será denotado por B, e o que se quer determinar é: P (C 3 |B) =?
Sabe-se que existe 5 urnas (2do tipo C1 , 2 do tipo C2 e 1do tipo C3 ). Pelo Teorema de Bayes temos:
P (Ci ).P (B|Ci ) P (C3 ).P (B|C3 ) P (C3 ).P (B/C3 )

P (Ci |B) = k
P
⇒ P (C 3 |B) = 3
P
= P (C1 )P (B|C1 )+P (C2 )P (B|C2 )+P (C3 )P (B|C3 ) .
P (Ci )P (B|Ci ) P (Ci )P (B|Ci )
I=1 i=1
A probabilidade de selecionar aleatoriamente a urna tipo C1 é:
P (C1 ) = n(C1 )
n(Ωi ) = no de urnas C1
no total de urnas = 2
5 .
Analogamente, a probabilidade de selecionar aleatoriamente a urna do tipo C2 e a urna do tipo C3 é:
P (C2 ) = n(C2 )
5 e P (C3 ) = n(C1 )
5 .
Agora, determinaremos as seguintes probabilidades condicionais:
6 1
P (B|C 1 ) = Prob. de sair bola branca dado que a urna é do tipoP (B|C1 ) = 12 = 2;
4 1
P (B|C 2 ) = Prob. de sair bola branca dado que a urna é do tipoP (B|C2 ) = 12 = 3;
59
2 PROBABILIDADES
6
P (B|C 3 ) = Prob. de sair bola branca dado que a urna é do tipoP (B|C3 ) = 6 = 1.
Então:
1 1 1 1
P (C3 ).P (B|C3 ) .1
P (C 3 |B) = P (C1 )P (B|C1 )+P (C2 )P (B|C2 )+P (C3 )P (B|C3 ) = 2 . 1 + 2 . 1 + 1 .1
5
= 2
5
2
+ 15
= 6
5
2
+ 15
= 5
8 = 15 . 15
8 =
5 2 5 3 5 5 15 15
8
3 = 0, 375.
Exemplo 9: Uma empresa produz circuitos integrados em três fábricas. A fábrica 1 produz 40% dos
circuitos enquanto que as fábricas 2 e 3, produzem 30% cada. A probabilidade de que um circuito
produzido por estas fábricas não funcione é de 0,01, 0,04 e 0,03 respectivamente. Qual a probabilidade
de se pegar um circuito ao acaso da produção total da companhia, sendo ele da fábrica 1 e sabendo
que ele não funciona?
Solução:
P (F1 ).P (def |F1 ) 0,40∗0,01

P (F 1 |def ) = P (F1 ).P (def |F1 )+P (F2 ).P (def |F2 )+P (F3 ).P (def |F3 ) = 0,40∗0,01+0,30∗0,04+0,30∗0,03 = 0, 16.

Exercício 1: Um lote é formado por 11 peças boas, 3 com defeitos leves, e 2 com defeitos graves.
Considere como evento A defeito leve, evento B defeito grave, e evento C nenhum defeito.
Uma peça é retirada ao acaso desse lote. Qual a probabilidade que essa peça:
a) seja boa?
b) tenha defeito leve?
c) tenha defeito grave?
d) seja defeituosa?
Duas peças são retiradas ao acaso com reposição desse lote. Qual a probabilidade de:
e) ambas serem boas?
f ) pelo menos uma boa?
Duas peças são retiradas ao acaso sem reposição desse lote. Qual a probabilidade de:
g) ambas serem boas?
Exercício 2: Se um dado é lançado duas vezes. Determine qual a probabilidade de ocorrer maior do
que 3 no primeiro lance e menor do que 5 no segundo lance.
Exercício 3: Em uma bolsa tem-se duas moedas de 1 centavo, três de 10 centavos e quatro de 1
real. Duas moedas são retiradas aleatoriamente da bolsa, determine as seguintes possibilidades (sem
reposição).
a) ambas moedas serem de 1 centavo.
b) uma moeda de 1centavo e a outra moeda de 1 real.
c) ambas do mesmo valor.
d) pelo menos uma de 10 centavos.
e) Nenhuma moeda de 10 centavos ê
Exercício 4 modicado (BRUNI, 2008): Em uma pesquisa realizada com 200 alunos da Faculdade
Bom Saber, foi obtido o resultado apresentado na tabela seguinte:
60
Curso
Sexo ADM CC PD PSIC
Homens 45 22 38 29
Mulheres 35 16 12 3
Qual a probabilidade de um aluno desse grupo, escolhido ao acaso:
a) ser homem e cursar ADM?
b) ser mulher e cursar PSIC?
c) ser homem e cursar PSIC?
d) ser homem dado que cursa ADM?
e) cursar PSIC dado que é homem?
Exercício 5 (BRUNI, 2008): Uma agencia de propaganda detectou que 80% das residências
estudadas em uma pesquisa de mercado possuíam um aparelho de som com CD Player e 30%
possuíam forno de microondas. Dados da pesquisa também revelam que 20% das casas tinham ambos
os eletrodomésticos. Calcule a porcentagem das casas que não possuem nenhum dos dois
eletrodomésticos.
Exercício 6 (BRUNI, 2008): Um pesquisador estudou o comportamento de consumo de bebidas
lácteas no Brasil. Analisou a classe econômica do consumidor e o principal aspecto determinante da
escolha da marca. Os dados obtidos estão tabulados na tabela seguinte.
Classe/Aspecto Preço Qualidade Total

Alta 42 56 98
Média 37 21 58
Baixa 13 97 110
Total 92 174 266
Qual a probabilidade de um consumidor escolhido ao acaso:
a) Priorizar o preço, dado que é de classe alta;
b) Priorizar a qualidade, dado que é de classe média;
c) Ser de classe baixa, dado que atribui maior importância ao fator de qualidade?
Exercício 7: Distribuição de alunos matriculados em um determinado instituto de Matemática. Com
base na Tabela abaixo, determine:
Sexo
Curso Masculino Feminino Total
Mat. Pura 70 40 110
Mat. Aplicada 15 15 30
Estatística 10 20 30
Computação 20 10 30
Total 115 85 200
a) Probabilidade do sexo masculino.
b) Probabilidade matemática pura.
c) Probabilidade matemática aplicada.
d) Probabilidade matemática pura e sexo feminino.
e) Probabilidade matemática pura dado que ele é do sexo feminino.
f ) Verique se sexo feminino e matemática pura são eventos independentes.
61
3 VARIÁVEL ALEATÓRIA UNIDIMENSIONAL
Para entendermos o conceito de variável aleatória (v.a.), imagine um lançamento de um dado. Tente
dizer qual será o número resultante. É claro que, antes do lançamento, não podemos dizer com
exatidão qual é o número que ocorrerá, pois o resultado depende do fator sorte e, por isso, é uma
variável aleatória.
Variável Aleatória (v.a.) é uma variável cujos valores são determinados pelos resultados de experiências
aleatórias, isto é, uma função que associa valores reais aos eventos de um espaço amostral.
Uma v.a. pode ser entendida como uma variável quantitativa, ou seja, uma v.a. pode ser classicada
como discreta ou contínua. As variáveis aleatórias dizem-se discretas, quando assumem um número
determinado de valores contáveis (valores oriundos de um processo de contagem), ou contínuas, quando
assumem qualquer valor num dado intervalo (valores oriundos de um processo de mensuração).
3.1 Variável Aleatória Discreta

O conceito de v.a. discreta será introduzido por meio de exemplos.
Exemplo 1: Se um experimento consiste no lançamento de dois dados, a função: X = soma das faces
dos dois dados , dene uma variável aleatória discreta, que pode assumir onze valores possíveis: 2, 3,
4, 5, 6, 7, 8, 9, 10, 11 ou 12.
Exemplo 2: Se um experimento consiste em vericar o número de circuitos defeituosos num sistema
formado por quatro circuitos, a função: Y = número de circuitos defeituosos , dene uma variável
aleatória discreta, que pode assumir cinco valores possíveis: 0, 1, 2, 3 ou 4.
Com base nos exemplos acima ca claro que a variável aleatória discreta está vinculada a valores de
uma contagem que resultam a números inteiros.
3.2 Variável Aleatória Contínua

A variável aleatória é dita contínua se corresponder a dados de medida, pertencentes aos números reais
. O conceito de v.a. contínua será melhor entendido por meio do exemplo a seguir.
Exemplo 3: Se um experimento consiste em vericar as alturas de 30 universitários, a função: X
= Altura de um universitário , dene uma variável aleatória contínua, que pode assumir quaisquer
valores entre 130 e 220 cm.
Exemplo 4: Se um experimento consiste em vericar (mensurar) os pesos dos 30 universitários, a
função: Y = Peso de um universitário , dene uma variável aleatória contínua, que pode assumir
quaisquer valores entre 60 e 130 kg.
Exemplo 5: Se um experimento consiste em vericar a durabilidade de um lote de 50 pneus, a função:
Z: tempo de vida útil de um pneu , dene uma v.a. contínua, que pode assumir quaisquer valores
63
entre 50.000 e 70.000 km. Com base nos exemplos apresentados, a v.a. contínua está vinculada a dados
oriundos de uma mensuração que resultam a um intervalo de números reais.
3.3 Distribuição de Probabilidades

Se uma variável aleatória Y pode assumir os valores y1 , y2 , y3 , ..., yn com probabilidades respectivamente,
Pn
P [Y = y1 ] , P [Y = y2 ] , P [Y = y3 ] , ..., P [Y = yn ], tais que P [Y = yi ] = 1, tem-se denida uma
i=1
distribuição de probabilidade .
No tocante a variáveis aleatórias discretas, a cada realização yi corresponde uma probabilidade P [Y = yi ].
Isso dene uma função, chamada função de probabilidade , a qual deve obedecer a algumas condi-
ções, quais sejam:
i) P [Y = yi ] ≥ 0, para todo i;
n
P
ii) P [Y = yi ] = 1
i=1
em que o índice i é empregado para identicar os diferentes valores que a variável pode assumir. Essa
função é denominada por inúmeros autores como função distribuição de probabilidade da variável
aleatória discreta Y.
b
Nota:
P
P [Y = yi ] = P [a < y ≤ b]
yi >a
Exemplo 6: Y: número de circuitos defeituosos num sistema formado por quatro circuitos tem-se:
Y 0 1 2 3 4
5
1 2 2 2 1 P
P [Y = y] 8 8 8 8 8 P [Y = yi ] = 1
i=1
Observa-se que a distribuição de probabilidade acima é uma função de probabilidade pois, as condi-
ções (i) e (ii) foram satisfeitas, isto é, todas as probabilidades são maiores que zero e, a soma das
probabilidades é igual a um.
Se, a variável Y for contínua, somente haverá interesse na probabilidade de que a variável assuma valores
dentro de determinados intervalos, sendo sua distribuição de probabilidades caracterizada por uma
função densidade de probabilidade (f.d.p.), f(y), a qual deverá possuir as seguintes propriedades:
i)f (y) ≥ 0 para qualquer y ∈ R;

´∞
ii)
−∞ f (y) dy = 1.
´b
Nota: P [a ≤ y ≤ b] = P [a < y ≤ b] = P [a ≤ y < b] = P [a < y < b] = a f (y) dy , para qualquer a e
b.
Exemplo 7: Para o caso das alturas dos universitários têm-se:

2
h i
f (x) = √1 exp
σ 2π
− (x−µ)
2σ 2
que é a distribuição normal.
3.4 Função Repartição ou Função Distribuição Acumulada

A função de distribuição acumulada nos fornece a probabilidade de que a variável em questão esteja
abaixo de um determinado valor. Em geral, ela é representada por F (y) ou φ (y). Assim,
64
3.4 Função Repartição ou Função Distribuição Acumulada
F (y) = P [Y ≤ y] .
i) Para uma variável aleatória discreta a função distribuição acumulada será denida como:
k
P
F (yk ) = P [Y ≤ yk ] = P [Y = y1 ] + P [Y = y2 ] + P [Y = y3 ] + ... + P [Y = yk ] = P [Y = yi ].
i=1
ii) Para uma variável aleatória contínua a função distribuição acumulada será denida como:
´ yk
F (yk ) = P [Y ≤ yk ] = −∞ f (y) dy .
Exemplo 8: Numa plantação de café, cujas folhas possuem um número Y variado de lesões provocadas
pela praga bicho mineiro (Perileucoptera coeella), obedecendo as seguintes proporções:
N ° lesões 0 1 2 3 4 5
P
proporção 0,32 0,28 0,20 0,12 0,06 0,02 =1
Essas proporções podem ser interpretadas como probabilidades no sentido de que, se uma folha for
tomada à plantação ao acaso, existe uma probabilidade, por exemplo, de 28% de que ela contenha
apenas uma lesão. A probabilidade de que ela tenha 3 lesões, ou menos, é dada por:
F (Y = 3) = F (3) = P [Y ≤ 3] = P [Y = 0 ou Y = 1 ou Y = 2 ou Y = 3]
F (Y = 3) = F (3) = P [Y ≤ 3] = P [Y = 0] + P [Y = 1] + P [Y = 2] + P [Y = 3]
F (Y = 3) = F (3) = P [Y ≤ 3] = 0, 32 + 0, 28 + 0, 20 + 0, 12 = 0, 92
Rotina para cálculo de probabilidade acumulada
dados<-read.table("exemplo_8_lesão_café.txt",h=T)
dados
attach(dados)
F3<-sum(dados$prob[1:4])
F3
Exemplo 9: Seja a função densidade de probabilidade:



 0, x < 0

f (x) kx, 0 ≤ x ≤ 2



 0, x > 2
Encontre F(1).
Antes de encontrar F(1) é necessário determinar o valor de k. Sabe-se que:
´∞ ´0 ´2 ´∞
−∞ f (x)dx = 1 ⇔ −∞ f (x)dx + 0 f (x)dx + 2 f (x)dx = 1
´2 ´2 2
x.dx = 1 ⇔ k x2 |20 = 1 ⇐⇒ k2 x2 |20 ⇔ k
22 − 02 = 1

0 kx.dx = 1 ⇔ k 0 2
65
k
2 (4) = 1 ⇔ 2k = 1 ⇔ k = 1/2
Dessa forma, a função densidade de probabilidade ca:



 0, x < 0

f (x) 1
2 x, 0≤x≤2



 0, x > 2
Agora, temos condição de determinar F(1). Por denição, tem-se que:
´1 ´0 ´1
F (1) = P [X ≤ 1] = −∞ f (x)dx = −∞ f (x)dx + 0 f (x)dx = 14 x2 |10 = 1
4 = 0, 25
3.4.1 Propriedades da Função Distribuição Acumulada ou Função Repartição

i) 0 ≤ F (y) ≤ 1;
ii) se y1 < y2 , então F (y1 ) ≤ F (y2 );
iii) F (-∞) = lim F (y) = 0
y→−∞
iv) F (+∞) = lim F (y) = 1, corresponde ao evento certo;
y→+∞
v) P [y1 < Y ≤ y2 ] = F (y2 ) − F (y1 );
vi) P [y1 ≤ Y ≤ y2 ] = F (y2 ) − F (y1 ) + P [Y = y1 ] ;
vii) P [y1 < Y < y2 ] = F (y2 ) − F (y1 ) − P [Y = y2 ] ;
3.4.2 Gráco da Função Distribuição Acumulada ou Função Repartição

Seja X a variável aleatória discreta com a seguinte função de probabilidade:
X 0 1 2 3 4
P
P[X=x] 0,1 0,2 0,4 0,1 0,1 =1
Então, sua função distribuição acumulada é:
X 0 1 2 3 4
F(x) 0,1 0,4 0,8 0,9 1,0
Portanto, o gráco da função distribuição acumulada da variável aleatória X é:
Figura 1 Gráco da função distribuição acumulada da variável aleatória X.
66
3.5 Parâmetros característicos de uma Distribuição de Probabilidade
Seja X a variável aleatória contínua, então o gráco genérico da função distribuição acumulada terá o
seguinte comportamento:
Figura 2 Gráco genérico da função distribuição acumulada de uma v.a. contínua X.
Exemplo 10: Plote o gráco da seguinte função distribuição acumulada:




 0, x ≤ 0

f (x) x2 , 0 < x < 1


0, x ≥ 1


Figura 3 Gráco da função distribuição acumulada de uma v.a. contínua X.
Observação: Pode-se encontrar a função densidade de probabilidade, se existir, a partir de F(x), pois:
d
dx F (x) = f (x),
nos pontos onde F(x) é derivável.

3.5.1 Esperança Matemática
Muitas vezes estamos interessados em estimar parâmetros característicos de uma distribuição de pro-
babilidade de uma variável aleatória qualquer. Um primeiro parâmetro é a Esperança Matemática. A
esperança matemática é uma média aritmética ponderada ou um valor esperado de uma variável alea-
tória. Na prática, a esperança pode ser entendida como um centro de distribuição de probabilidade ,
isto é, a média de uma distribuição de probabilidade.
A Esperança Matemática é denida da seguinte forma:
i) Se X é uma variável aleatória discreta, então a esperança matemática é:

n
P
E(X) = µ = xi P [X = xi ]
i=1
ii) Se X é uma variável aleatória contínua, então a esperança matemática é:
67
´∞
E(X) = µ = −∞ xf (x)dx
Exemplo 11: (MORETTIN, 2010) Uma seguradora paga R$ 30.000,00 em caso de acidente de carro
e cobra uma taxa de R$ 1.000,00. Sabe-se que a probabilidade de que um carro sofra acidente é de
3%. Quanto espera a seguradora ganhar por carro segurado?
Suponhamos que entre 100 carros segurados, 97 dão lucro de R$ 1.000,00 e 3 dão prejuízo de R$
29.000,00 (R$30.000,00 R$1.000,00)
Lucro total = 97 x 1.000,00 3 x 29.000,00 = R$ 10.000,00
Lucro médio por carro = 10.000,00/100 = R$ 1.00,00
Se chamarmos de X: lucro por carro e o lucro médio por carro de E(X), teremos:
97x1.000,00−3x29.000,00
E(X) = 100
97x1.000,00 3x29.000,00
E(X) = 100 − 100
E(X) = 0, 97x1.000, 00 − 0, 3x29, 000, 00
E(X) = R$100, 00
Outra forma de calcular o lucro médio da seguradora seria: Dene-se a variável aleatória X como
Lucro por carro. Os dois resultados possíveis da variável aleatória X são: 1.000,00 e -29.000,00
(R$1.000,00 R$30.000,00). Dado que a probabilidade de que um carro sofrer acidente é de 3% (0,03),
então, a probabilidade de um carro não sofrer acidente seria 97% (0,97). Dessa forma, a distribuição
de probabilidade é:
X 1.000,00 -29.000,00
P
P [X = xi ] 0,97 0,03 =1
Portanto, o lucro médio por carro é:
n
P
E (X) = xi P [X = xi ] = 1.000, 00x0, 97 + (−29.000, 00)x0, 3 = R$100, 00.
i=1
3.5.1.1 Propriedades da Esperança Matemática

As propriedades da esperança são:
1) E(k) = k, sendo k uma constante.

Demonstração:
n
P n
P
E(k) = kP [X = xi ] = k P [X = xi ] = k.1 = k.
i=1 i=1
2) E(kX) = kE(X), sendo k uma constante.

Demonstração:
n
P Pn
E(k) = kxi P [X = xi ] = k xi P [X = xi ] = kE(X).
i=1 i=1
68
3) E (aX ± b) = aE(X) ± b , sendo a e b constantes.

Demonstração:
E (aX ± b) = E(aX) ± E(b) = aE(X) ± b
4) E (X − µx ) = 0
Demonstração:
E (X − µx ) = E (X) − E (µx ) = µ − µ = 0.
5) E (X ± Y ) = E (X) ± E (Y )
Essa propriedade será demonstrada posteriormente, quando abordarmos o assunto de variáveis aleató-
rias bidimensionais.
n n

6) E
P P
Xi = E (Xi )
i=1 i=1
Nota: Para demonstração das propriedades acima foi utilizada a denição de esperança matemática
de uma variável aleatória discreta. Analogamente, é possível demonstrar as propriedades da esperança
por meio da denição de esperança de uma variável aleatória contínua.
3.5.2 Variância
Já comentamos anteriormente que a esperança matemática nos fornece a média de uma distribuição
de probabilidade. Porém, não temos informação a respeito do grau de dispersão das probabilidades
em torno da média. Portanto, a medida que usaremos para estimar o grau de dispersão (ou de
concentração) de probabilidade em torno da média será a variância.
A variância é denida da seguinte forma:
n o
V (X) = E [X − E (X)]2 .
No entanto, é possível deduzir uma fórmula mais fácil de ser aplicada para o cálculo da variância.
n o n o
V (X) = E [X − E (X)]2 = E [X − µ]2 = E X 2 − 2µX + µ2 = E X 2 − E (2µX) + E µ2 =

E X 2 − 2µE (X) + µ2 = E X 2 − 2µ2 + µ2 = E X 2 − µ2 = E X 2 − [E (X)]2 .

∴ V (X) = E X 2 − µ2 = E X 2 − [E (X)]2 .

i) Se X é uma variável aleatória discreta, então:

n
E X2 = x2i P [X = xi ].
P
i=1
ii) Se X é uma variável aleatória contínua, então:

´∞
E X 2 = −∞ x2 f (x) dx.
69
3.5.2.1 Propriedades da Variância

As propriedades da variância são:
1) V (k) = 0, sendo k uma constante.
Demonstração:
V (k) = E k 2 − [E (k)]2 = k 2 − [k]2 = 0.

Outra forma de demonstração:
n o n o
V (k) = E [k − E (k)]2 = E [k − k]2 = 0.
2) V (kX) = k 2 V (X), sendo k uma constante.
Demonstração:
h i
V (kX) = E (kX)2 − [E (kX)]2 = E k 2 X 2 − [kE (X)]2 = k 2 E X 2 − k 2 [E (X)]2 =

n o
k 2 E X 2 − [E (X)]2 = k 2 V (X).

Outra forma de demonstração:
n o n o n o
V (kX) = E [kX − E (kX)]2 = E [kX − kE (X)]2 = E k 2 [X − E (X)]2 =
n o
k 2 E [X − E (X)]2 = k 2 V (X).
Nota Importante (denição): A covariância mede o grau de associação (dependência) entre as
variáveis X e Y, e é denida como:
Cov (X, Y ) = E {[X − E (X)] [Y − E (Y )]}.
3) V (X ± Y ) = V (X) + V (Y ) ± 2Cov (X, Y ).

Demonstração:
n o n o
V (X ± Y ) = E [(X ± Y ) − E (X ± Y )]2 = E [(X − E (X)) ± (Y − E (Y ))]2 =
n o n o
E [X − E (X)]2 ± 2 [X − E (X)] [Y − E (Y )] + [Y − E (Y )]2 = E [X − E (X)]2 ±
n o
2E {[X − E (X)] [Y − E (Y )]} + E [Y − E (Y )]2 = V (X) + V (Y ) ± 2Cov (X, Y ).
n n n

4) V
P P P
Xi = V ar (Xi ) + 2 Cov (Xi , Xj ).
i=1 i=1 i<j
5) V (aX ± b) = a2 V (X), sendo a e b constantes.
Demonstração:
V (aX ± b) = V (aX) + V (b) ± 2Cov (aX, b) = a2 V (X) + 0 ± 2E {[aX − E (aX)] [b − E (b)]} =

a2 V (X) + 0 ± 2E {[aX − E (aX)] [b − b]} = a2 V (X) + 0 ± 2E {[aX − E (aX)] .0} =
a2 V (X) + 0 ± 2E (0) = a2 V (X).
A partir da variância, V (X ), é possível determinar o desvio padrão (σ), da seguinte forma:

p
σ= V (X).
70

Exercício 1: (ANDERSON et al., 2007) O processo de elaboração orçamentária de uma universidade
do meio-oeste resultou em previsões de gastos para o ano vindouro equivalentes a (em milhões US$) 9,
10, 11, 12 e 13. Como os gastos atuais são desconhecidos, são atribuídas as seguintes probabilidades
respectivamente: 0,3; 0,2; 0,25; 0,05 e 0,2.
a) Mostre a distribuição de probabilidade correspondente à previsão de gastos.
b) Qual é o valor esperado da previsão de gastos para o ano vindouro?
c) Qual a variância da previsão de gastos para o ano vindouro?
Rotina do exercício 1
dados<-read.table("exer_1_gastos.txt",h=T)
dados
attach(dados)
#cálculo da esperança matemática
produto1<-gastos*prob
média<-sum(produto1)
média
#cálculo da variância
produto2<-(gastos^2)*prob
esperança2<-sum(produto2)
esperança2
var<-esperança2-média^2
var
Exercício 2 modicado (BRUNI, 2008): Um grupo de investidores projetou os seguintes resultados
para uma operação de investimentos. Calcule o valor esperado e da variância.
Resultado Econômico Probabilidade Retorno sobre o investimento

Ótimo 20% 25%
Bom 40% 15%
Mais ou menos 30% 5%
Realmente ruim 10% 0%
Rotina do exercício 2
dados<-read.table("exer_2_retorno.txt",h=T)
dados
attach(dados)
#cálculo da esperança matemática
produto1<-retorno*prob #retorna produto entre os valores da variável e suas respectivas probabilidades
média<-sum(produto1) #retorna o valor esperado (soma do produto)
média
#cálculo da variância
produto2<-(retorno^2)*prob
esperança2<-sum(produto2)
esperança2
var<-esperança2-média^2 #retorna a variância
var
71
4 MODELOS PROBABILÍSTICOS
DISCRETOS
Nesta seção serão apresentados alguns modelos para variáveis aleatórias discretas. O termo modelo
probabilístico quer dizer que será determinado uma lei de formação para as probabilidades dos possíveis
valores que a variável em questão pode assumir.
O primeiro modelo a ser tratado será:
4.1 Distribuição de Bernoulli

Uma variável aleatória X terá distribuição Bernoulli, quando ela assume apenas dois resultados pos-
síveis: sucesso ou fracasso . Então, será associado aos resultados da v.a X os seguintes valores:
X = 1, se o resultado (evento) for sucesso ; X = 0, se o resultado (evento) for fracasso .
Denindo-se p como sendo a probabilidade de sucesso e q a probabilidade se de fracasso. Diz-se que a
v.a X tem distribuição Bernoulli se:
P [X = x] = px (1 − p) 1−x , x = 0; 1 e q = 1 − p.
A função de probabilidade da v.a. X pode ser também representada da seguinte forma:
X 0 1
P
P [X = x] (1 − p) p =1
Pode-se citar como exemplo:
Um jogador de basquete converter ou não um arremesso.
Um indivíduo portador de certa doença morrer ou não.
Uma peça produzida por uma Cia ser perfeita ou defeituosa.
4.1.1 Parâmetros característicos da distribuição Bernoulli

Esperança Matemática (Média):
1
P
E(X) = xP [X = x] = 0 (1 − p) + 1p = p.
x=0
Variância:
1
E X2 = x2 P [X = x] = 02 (1 − p) + 12 p = p.
P
x=0
Então:
73
4 MODELOS PROBABILÍSTICOS DISCRETOS
V (X) = E(X 2 ) − [E(X)]2 = p − p2 = p(1 − p) = pq .
Exemplo 1: No lançamento de um dado vericar a ocorrência de sair face 5 ou não. Determine a
função de probabilidade.
Resolução:
Primeiramente vamos associar valores a nossa variável, ou seja,
X = 0, se não ocorrer face 5.
X = 1, se ocorrer face 5.
1 5
p =probabilidade de ocorrer 5= 6 , então, q =1−p= 6
Logo, a função ou probabilidade será:
X 0 1
5 1 P
P [X = x] 6 6 =1
Determinar esperança E (X)e V (X)

1
E(X) = p = 6
15 5
V (X) = pq = 66 = 36
Rotina do Exemplo 1:
x<-0:1
n<-1
p<-1/6
bern<-dbinom (x, n, p)
bern
plot(x, bern, type="h", xlab="nº de peças com perfeição", ylab="Probabilidade", main="Distribuição Bernoulli")
4.2 Distribuição Binomial

A Distribuição Binomial consiste em n ensaios de Bernoulli em que as repetições dos ensaios são
independentes e a probabilidade de sucesso será sempre igual a p em todos os ensaios.
A notação para uma variável aleatória X que possui distribuição binomial com probabilidade de sucesso
igual a p será, X ∼ B(n, p).

Exemplo 2: Uma moeda é lançada 3 vezes. Qual é a probabilidade de se ter 2 caras?
Resolução:
P [2caras] = P (SSF ) + P (SF S) + P (F SS) = p2 q + p2 q + p2 q = 3p2 q .
X 0 1 2 3
q3 3pq 2 3p2 q p3 = (p + q)3
P
P [X = x]
Se X tem Distribuição Binomial, então a função de probabilidade de X será:
! !
n n n!
P [X = x] = px q n−x , q = 1 − pe = (n−x)!.x! .
x x
74
4.2.1 Parâmetros Característicos da Distribuição Binomial
4.2.1.1 Esperança Matemática

E (X) = np.
4.2.1.2 Variância
V (X) = npq .
Exemplo 3: A chance de que um bit transmitido através de um canal digital de transmissão seja
recebido com erro de 0,1. Suponha que as tentativas de transmissão sejam independentes. Faça X:
número de bits com erro nos próximos quatro bits transmitidos. Determine P (X = 2).
Resolução:
O evento em que X=2 possui seis resultados distintos:
{(E, E, O, O) ; (E, O, E, O) ; (E, O, O, E) ; (O, E, E, O) ; (O, E, O, E) ; (O, O, E, E)}.
Usando a suposição de que as tentativas sejam independentes, a probabilidade de (E, E, O, O) é:
P (E, E, O, O) = P (E).P (E).P (O).P (O) = 0, 12 0.92 = 0, 0081.
Então,
P [X = 2] = 6.0, 0081 = 0, 0486.
Uma outra forma de resolver o problema seria identicar a distribuição (modelo probalístico) da v.a.
X. Diante das informações apresentadas no problema pode-se armar que:
X ∼ B(n = 4, p = 0, 1).
Logo,
!
4 4!
P [X = 2] = 0, 12 0, 92 = 2
(4−2)!2! 0, 1 0, 9
2 = 6.0, 12 .0, 92 = 0, 0486.
2
Rotina para cálculo de uma probabilidade por meio da Distribuição Binomial, com n =
4 e p = 0,1
x<-0:4 # variação do número de sucessos nas amostras
n<-4 #tamanho da a amostras
p<-0.1 #prob. de sucesso
# sintaxe:
# dbinom (x, n, p) ditribuição binomial com parâmetros n e p
bino<-dbinom (x, n, p)
bino #retorna a função de probabilidade
plot(x, bino, type="h", xlab="nº de peças com perfeição", ylab="Probabilidade", main="Distribuição binomial") #plota a distribuição de probabilidade
75
Exemplo 4: Sabendo-se que a probabilidade de um casal gerar lhos de olhos azuis é de

1
4.
a) Determine a probabilidade de que dentre 3 lhos deste casal, nenhum tenha olhos azuis.
Resolução:
Seja X o número de lhos com olhos azuis e p a probabilidade do lho do casal ter olhos azuis. Logo,
1 3
p= 4, q= 4 e n = 3.
!
3 1 0
3 3
3! 1 0
3 3
3! 3 3
3! 3 3
3 3

P [X = 0] = 4 4 = (3−0)!0! 4 4 = 3!0! 1 4 = 3!.1 1 4 = 4 = 0, 421875.
0
Rotina para cálculo de uma probabilidade por meio da Distribuição Binomial, com, n =
3, p = 0,25 e x = 0.
# sintaxe:
x<-0 #número de sucessos
n<-3
p<-0.25
bino
b) Determine a função de distribuição de probabilidade referente ao número de lhos do casal que
poderá apresentar olhos azuis.
Resolução:
!
3 1 0
3 3

P [X = 0] = 4 4 = 0, 421875
0
!
3 1 1
3 2

P [X = 1] = 4 4 = 0, 421875
1
!
3 1 2
3 1

P [X = 2] = 4 4 = 0, 140625
2
!
3 1 3
3 0

P [X = 3] = 4 4 = 0, 015625
3
Então, a função distribuição de probabilidade será:
X 0 1 2 3
P
P [X = xi ] 0, 421875 0, 421875 0, 140625 0, 015625 =1
Rotina para cálculo de uma Distribuição de Probabilidade por meio da Distribuição Bi-
nomial, com n = 3 e p = 0,25.
76
# sintaxe:
x<-0:3
n<-3
p<-0.25
bino
plot(x, bino, type="h", xlab="nº de peças com perfeição", ylab="Probabilidade", main="Distribuição binomial")
c) Determine a E(X) e V (X).
E(X) = np = 3 14 = 3
4 = 0, 75 e V (X) = npq = 3 41 34 = 9
16 = 0, 5625.
Exemplo 5: Dez peças são extraídas ao acaso com reposição de um lote de 500 peças. Sabendo-se
que 10% das peças são defeituosas.
a) Qual a probabilidade de se ter 2 peças defeituosas.
Resolução:
De acordo com o problema temos que n = 10 e p = 0, 10. Seja X, o número de peças defeituosas num
total de dez peças. Logo, a v.a. X tem distribuição Binomial com parâmetros n = 10 e p = 0, 10.
Então,
!
10
P [X = 2] = 0, 102 0, 908 = 45.0, 102 .0, 908 = 0, 1937.
2
b) Qual a probabilidade de se ter 10 peças defeituosas
!
10
P [X = 10] = 0, 1010 0, 900 = 1.10−10 .
10
c) Determine a média e a variância.
E(X) = np = 10.0, 1 = 1 peça defeituosa.
V (X) = npq = 10.0, 1.0, 9 = 0, 9 (peças defeituosas) .

2
Rotina para Exemplo 5
n<-10
x<-0:10
p<-0.10
bino2<-dbinom (2, n, p)
bino2
bino10<-dbinom (10, n, p)
bino10
media<-n*p
media
variancia<-n*p*(1-p)
variancia
77
4.3 Distribuição Poisson

Analisa o número de eventos que ocorrem em um intervalo de tempo, ou comprimento, ou superfície
ou volume.
Exemplo 6: Número de vezes que o corpo de bombeiro é chamado por dia para combater incêndios
em uma cidade grande.
Exemplo 7: Número de peças que saem defeituosas por hora em um processo produtivo.
Se X tem Distribuição de Poisson, então a função de probabilidade de X será:
λx e−λ
P [X = x] = p (x) = f (x) = x! , em que x = 0, 1, 2, ...; com λ > 0.
em que λé a frequecia média de sucessos.
E(X) = V ar(X) = µ = σ 2 = λ = np.
Exemplo 8: Considere um o delgado de cobre, suponha que o número de falhas siga a distribuiçao
de Poisson, com uma média de 2,3 falhas/milímetro. Determine:
a) A probabilidade de existir exatamente 2 falhas em um milímetro de o.
Resolução:
Seja X o número de falhas em um milímetro de o. Logo X tem distribuição de Poisson com λ = 2, 3
falhas por milímetro, ou seja, E(X) = 2, 3 falhas/mm. Então, a probabilidade de existir exatamente 2
falhas em um milímetro de o é:
e−2,3 2,32
P [X = 2] = 2! = 0, 265.
Rotina para cálculo da probabilidade de 2 falhas / mm de o.
# sintaxe:
#dpois (x, lambda) Distribuição de Poison com média lambda
lambda<-2.3 #média de falhas/milímetro
x<-2 #prob. de ter exatamente 2 falhas em 1 milímetro de o
dpois (x, lambda)
b) A probabilidade de possuir 10 falhas em 5 milímetros.
Resolução:
Seja Y o número de falhas em 5 mm. Então, o número médio de falhas em 5 mm será calculado por
meio da regra de três a seguir:
mm λ
1 2, 3 λ2 é o número médio de falhas em 5 mm.
5 λ2 ∴ E(Y ) = λ2 = 5.2, 3 = 11, 5 falhas/5 mm.
Portanto, a probabilidade de possuir 10 falhas em 5 milímetros é:
e−11,5 11,510
P (Y = 10) = 10! = 0, 113.
78
4.3 Distribuição Poisson
Rotina para cálculo da probabilidade de 10 falhas / 5 mm de o.
lambda<-11.5
x<-10
dpois (x, lambda)
c) A probabilidade de existir, no mínimo, uma falha em 2 milímetros de o.
Resolução:
Seja Z o número de falhas em 2 mm de o. Então, o número médio de falhas em 2 mm será, E (Z) =
4, 6 = λ3 (resultado obtido por meio de regra de três). Portanto, a probabilidade de existir, no mínimo,
uma falha em 2 milímetros de o é:
e−4,6 .4,60
P (Z > 1) = 1 − P (Z < 1) = 1 − P (Z = 0) = 1 − 0! = 1 − e−4,6 = 0, 9899.
Rotina para cálculo da probabilidade de no mínimo 1 falha / 2 mm de o.
lambda<-4.6
x<-0
p_0<-dpois (x, lambda)
p_min_1<-1-p_0
p_min_1
Exemplo 9: O corpo de bombeiros atende em média 5 chamadas por dia. Qual é a probabilidade de
num determinado dia atender0, 1, 3, 6 e 10 chamadas?
Resolução:
Seja X o número de chamadas para o corpo de bombeiros em um dia. Sabe-se o número médio de
chamadas por dia é 5. Portanto, a v.a. X tem distribuição de Poisson com λ=5 chamadas por dia.
Então,
50 e−5
P [X = 0] = 0! = 0, 0067;
51 e−5
P [X = 1] = 1! = 0, 0337;
53 e−5
P [X = 3] = 3! = 0, 1403;
56 e−5
P [X = 6] = 6! = 0, 1462;
510 e−5
P [X = 10] = 10! = 0, 0181.
Rotina para cálculo das probabilidades.
79
lambda<-5 lambda<-5
x<-0 x<-3
dpois (x, lambda) dpois (x, lambda)
lambda<-5 lambda<-5
x<-1 x<-6
dpois (x, lambda) dpois (x, lambda)
lambda<-5
x<-10
dpois (x, lambda)

Exercício 1: (BRUNI, 2008) Um time de futebol de botão tem 72% de probabilidade de vitória
sempre que joga. Se o time jogar sete partidas, calcule a probabilidade de ele:
a) Vencer exatamente três partidas.
b) Vencer ao menos uma partida.
c) Vencer mais da metade das partidas.
Rotina do exercício 1.
#letra A #letra B #letra C
p=0.72 y<-0 a<-4
n=7 p_0<-dbinom(y, n, p) b<-5
x=3 p_min_1<-(1 - p_0) c<-6
p_3<-dbinom(x, n, p) p_min_1 d<-7
p_3 p_4<-dbinom(a, n, p)
p_5<-dbinom(b, n, p)
p_6<-dbinom(c, n, p)
p_7<-dbinom(d, n, p)
p_min_4<-p_4 + p_5 + p_6 +p_7
p_min_4
Exercício 2: (BRUNI, 2008) A Olaria Barro Forte fabrica e comercializa dois produtos principais:
telhas e tijolos. A relação da produção do mês de agosto do ano passado pode ser vista na tabela
seguinte. Calcule o que se pede:
Produto Com Defeito Sem Defeito Total

Tijolo 6.000 84.000 90.000
Telha 3.000 27.000 30.000
Total 9.000 111.000 120.000
a) Em uma amostra composta por oito telhas, calcule a probabilidade de pelo menos duas serem
defeituosas.
b) Em uma amostra composta por sete tijolos, calcule a probabilidade de pelo menos seis serem
defeituosos.
c) Em uma amostra formada por quatro produtos, calcule a probabilidade de existirem dois defeituosos.
80
#letra A #letra B #letra C
x<-0 p=2/3 n=4
y<-1 n=7 p=3/4
p=0.1 x<-6 x<-2
n=8 y<-7 p_2<-dbinom (x, n, p)
p_0<-dbinom (x, n, p) p_6<-dbinom (x, n, p) p_2
p_1<-dbinom (y, n, p) p_7<-dbinom (y, n, p)
p_min_2<-1-(p_0 + p_1) p_min_6<-p_6 + p_7
p_min_2 p_min_6
Exercício 3: (BRUNI, 2008) Uma empresa de carros usados tem as suas vendas distribuídas de
acordo com a distribuição de Poisson. Sabendo-se que a empresa vende em média seis carros por
mês (considerando o mês com 30 dias de trabalho) e analisando-se uma quinzena de vendas, qual a
probabilidade de a empresa vender:
a) Apenas três carros?
b) Pelo menos dois carros?
c) Nenhum carro?
# letra A # letra B # letra C
lambda<-3 lambda<-3 lambda<-3
x<-3 x<-0 x<-0
dpois (x, lambda) y<-1 dpois (x, lambda)
p_1<-dpois (y, lambda)
p_min_2<- 1-(p_0 + p_1)
p_min_2
Exercício 4: (BRUNI, 2008) Uma nanceira atende, em média, seis cliente por hora. Calcular a
probabilidade de que em meia hora sejam atendidos:
a) Dois clientes.
b) Três clientes.
c) No máximo três clientes.
# letra A # letra B # letra C
lambda<-3 lambda<-3 lambda<3
x<-2 x<-3 x<-0
dpois (x, lambda) dpois (x, lambda) y<-1
z<-2
w<-3
p_1<-dpois (y, lambda)
p_2<-dpois (z, lambda)
p_3<-dpois (w, lambda)
p_max_3<-sum(p_0,p_1,p_2,p_3)
p_max_3
81
5 MODELOS PROBABILÍSTICOS
CONTÍNUOS
5.1 Distribuição Normal

Se X tem distribuição Normal com média m e variância sv2 , a função densidade de probabilidade é dada
por:
(x−µ)2
h i
f (x) = √1 exp com x∈R e σ 2 > 0.
σ 2π 2σ 2
Notação: X ∼ N (µ, σ 2 )
5.1.1 Propriedades da Normal

1. é simétrica em relação ;
2. tem forma de campana;
3. as três medidas de posição (média, mediana e moda) se confundem no ponto máximo da
curva ;
4. ca perfeitamente denida conhecendo-se a média e o desvio padrão;
5. é assintótica em relação ao eixo das abscissas;
6. a área compreendida entre o eixo x e a curva é igual a probabilidade:
´b
P [a ≤ X ≤ b] = P [a ≤ X ≤ b] = P [a ≤ X ≤ b] = P [a ≤ X ≤ b] = a f (x)dx
Figura 1 Distribuição Normal com média m e variância σ2 .
83
5 MODELOS PROBABILÍSTICOS CONTÍNUOS
Figura 2 Distribuições Normais.
Rotina para grácos da Distribuição Normal

# sintaxe:
#curve(dnorm(x,0,0.7)) Gráco da Distribuição Normal com média 0 e desvio padrão 0,7
curve(dnorm(x,0,0.7),-3*1,3*1,xlab="x", ylab="f(x)", main= "Distribuição Normal", col="blue", lwd = 2)
curve(dnorm(x,0,1),-3*1,3*1,xlab="x", ylab="f(x)", main= "Distribuição Normal", col="red", lwd = 2, add=T)
curve(dnorm(x,0,1.2),-3*1,3*1,xlab="x", ylab="f(x)", main= "Distribuição Normal", col="black", lwd = 2, add=T)
legend(-3,0.45, c("N(0,0.7)", "N(0,1)", "N(0,1.2)"), col=c("blue", "red", "black"), lwd=2)
5.2 Criação da Variável Z - Distribuição Normal Padronizada

x−µ
A variável Z é: Z= σ sendo que Z ∼ N (0, 1) , ou seja, Z tem distribuição Normal com média 0 e
variância 1.
Por meio das propriedades de Esperança Matemática e Variância, é possível vericar que:
x−µ
E (Z) = E σ = σ1 E (x − µ) = 1
σ [E (x) − µ] = 1
σ [µ − µ] = 0;
x−µ 1 1 1 2
V ar (Z) = V ar σ = σ2
V ar(x − µ) = σ2
V ar (x) = σ2
σ = 1.
Exemplo 1: Se X N (100, 25), calcule as seguintes probabilidades:
a) P [X > 108]
Calculando o quantil da Z relacionado a X = 108, tem-se:
x−µ 108−100 8
Z= σ = 5 = 5 = 1, 6 ⇒ P [X > 108] = P [X > 1, 6] = 0, 0548.
Rotina para o cálculo da probabilidade da Distribuição Normal.
84
# sintaxe:
#pnorm(108, 100, 5) Probabilidade da Distrubuição Normal com média 100 e desvio padrão 5
pnorm(108, 100, 5) #Retima a área abaixo de 108
1-pnorm(108, 100, 5)
# sintaxe:
#pnorm(1.6, 0, 1) Probabilidade da Distrubuição Normal com média 0 e desvio padrão 1
pnorm(1.6, 0, 1) # Retorna a área abaixo de 1.6
1-pnorm(1.6, 0, 1) #Retona a área acima de 1.6
Rotina para o gráco da Distribuição Normal.
# sintaxe: situação não padronizada
curve(dnorm(x,0,1), -3*1, 3*1,xlab="X", ylab="Probabilidades", main= "Distribuição Normal")
polygon(x=c(1.6, seq(1.6, 3, l = 1000), 3), y=c(0,dnorm(seq(1.6, 3, l = 1000), 0, 1),0),col="black", density = 3, angle = 45)
axis(1,1.6, col="black", font = 1, lty = 1, lwd = 1)
lines(c(1.6,1.6), c(0,dnorm(1.6, 0,1)), col="black", lty = 1, lwd = 1)
text(2.5,0.05,"0,0548", col="black", font = 1, lty = 1, lwd = 1)
# sintaxe: situação padronizada
curve(dnorm(x,0,1), -3*1, 3*1,xlab="X", ylab="Probabilidades", main= "Distribuição Normal Padrão")
polygon(x=c(1.6, seq(1.6, 3, l = 1000), 3), y=c(0,dnorm(seq(1.6, 3, l = 1000), 0, 1),0),col="black", density = 3, angle = 45)
Figura 3 Gráco da Distribuição Normal Figura 4 Gráco da Distribuição Normal Padronizada
b) P [X ≤ 106] = P [X ≤ 1, 2] = 0, 8849.
85
Rotina para o cálculo da probabilidade da Distribuição Normal.
# sintaxe: Não padronizado
pnorm(106, 100, 5)
# sintaxe: padronizado
pnorm(1.2, 0, 1)
curve(dnorm(x,100,5),100 -4*6, 100 + 4*6, xlab="X", ylab="Probabilidades", main= "Distribuição Normal")
polygon(x=c(76, seq(76, 106, l= 1000), 106), y=c(0,dnorm(seq(76, 106, l=1000), 100,5),0),col="black", density = 3, angle = 45)
axis(1,106, col="black", font = 1, lty = 1, lwd = 1)
lines(c(106,106), c(0,dnorm(106,100,5)), col="black", lty = 1, lwd = 1)
text(100, 0.02,"0,8849", col="black", font = 1, lty = 1, lwd = 1)
curve(dnorm(x,0,1),-4*1,4*1,xlab="Z", ylab="Probabilidades", main= "Distribuição Normal Padrão")
polygon(x=c(-4, seq(-4, 1.2, l= 1000), 1.2), y=c(0,dnorm(seq(-4, 1.2, l=1000)),0),col="black", density = 3, angle = 45)
lines(c(1.2,1.2), c(0,dnorm(1.2,0,1)), col="black", lty = 1, lwd = 1)
Figura 4 Gráco da Distribuição Normal Figura 5 Gráco da Distribuição Normal Padronizada
c) P [106 ≤ X ≤ 108] = P [1, 2 ≤ X ≤ 1, 6] = 0, 0603.
Rotina para o cálculo da probabilidade da Distribuição Normal .
86
# sintaxe: Não padronizado
pnorm(108,100,5) - pnorm(106,100,5)
# sintaxe: padronizado
pnorm(1.2, 0, 1) - pnorm(1.2, 0, 1)
curve(dnorm(x,100,5),100 - 4.5*5, 100 + 4.5*5,xlab="X", ylab="Probabilidades", main= "Distribuição Normal")
polygon(x=c(106, seq(106, 108, l= 100), 108), y=c(0,dnorm(seq(106, 108, l=100), 100, 5),0),col="black", density = 3, angle = 45)
axis(1,106, col="black", font = 1, lty = 1, lwd = 1)
#axis(1,108, col="black", font = 1, lty = 1, lwd = 1)
polygon(x=c(1.2, seq(1.2, 1.6, l= 100), 1.6), y=c(0,dnorm(seq(1.2, 1.6, l=100)),0),col="black", density = 3, angle = 45)
Figura 6 Gráco da Distribuição Normal Figura 7 Gráco da Distribuição Normal Padrão
Exemplo 2: Agora vamos calcular as probabilidades com base no quantil da normal padrão.
a)P [Z > Zα ] = 0, 05
Rotina para cálculo do Z.
87
# sintaxe:
qnorm(0.95,0,1)
Rotina para o gráco da Distribuição Normal Padrão.
# sintaxe:
polygon(x=c(1.64, seq(1.64, 3, l= 1000), 3), y=c(0,dnorm(seq(1.64, 3, l=1000)),0),col="black", density = 3, angle = 45)
Figura 8 Gráco da Distribuição Normal Padrão.
b)P [Z < Zα ] = 0, 025

# sintaxe:
#qnorm(0.025,0,1) Quantil da Normal com média 0 e desvio padrão 1
qnorm(0.025,0,1)
# sintaxe:
polygon(x=c(-3, seq(-3, -1.96, l= 1000), -1.96), y=c(0,dnorm(seq(-3, -1.96, l=1000)),0),col="black", density = 3, angle = 45)
# axis(1,-1.96, col="black", font = 1, lty = 1, lwd = 1)
lines(c(-1.96,-1.96), c(0,dnorm(-1.96, 0,1)), col="black", lty = 1, lwd = 1)
text(-2.5,0.05,"0,025", col="black", font = 1, lty = 1, lwd = 1)
88
Figura 9 Gráco da Distribuição Normal Padrão.

c)P −Zα/2 < Z < Zα/2 = 0, 95
# sintaxe:
qnorm(0.025,0,1)
qnorm(0.975,0,1)
# sintaxe:
curve(dnorm(x,0,1),-3*1,3*1,xlab="Z", ylab="Probabilidades", main= "Distribuição Normal Padrão"))
polygon(x=c(-1.96, seq(-1.96, 1.96, l= 1000), 1.96), y=c(0,dnorm(seq(-1.96, 1.96, l=1000)),0),col="black", density = 3, angle = 45)
# axis(1,-1.96, col="black", font = 1, lty = 1, lwd = 1)
# axis(1,1.96, col="black", font = 1, lty = 1, lwd = 1)
lines(c(-1.96,-1.96), c(0,dnorm(-1.96, 0,1)), col="black", lty = 1, lwd = 1)
text(0,0.15,"0,95", col="black", font = 1, lty = 1, lwd = 1)
89
Figura 10 Gráco da Distribuição Normal Padrão
5.3 Distribuição t-Student

Uma variável aleatória contínua X tem distribuição t-Student com v graus de liberdade se a função
densidade de probabilidade for dada por:
Γ( n+1
−( n+1 )
2 )

x2 2
f (x) = √
nπΓ( n
1+ n .
2)
5.3.1 Propriedades da distribuição t-Student

1. A curca da distribuição t-Student tem a mesma forma em sino da distribuição Normal, mas reete
a maior variabilidade (com curvas mais alargadas) que é de se esperar em amostras pequenas;
2. Quanto maior a dimensão da amostra, mais a distribuição t-Student se aproxima da distribuição
Normal.
Exemplo 3: Obter os seguintes valores da distribuição t-Student.

a) t tal que P(-tc < t < tc) = 0,95 com 13 gl
b) t tal que P(-tc < t < tc) = 0,90 com 25 gl
c) t tal que P(t > tc) = 0,05 com 20gl
d) t tal que P(t < -tc) = 0,10 com 9 gl
5.4 Lei Grandes Números - (LGN)

À medida que um experimento é repetido mais e mais vezes (n grande), a probabilidade empírica de
um evento tende à sua probabilidade teórica (real).
Exemplo 3: X: número de caras em n tentativas.
Situação Hipotética (10 lances): em 10 lançamentos sairam 3 caras.

3
Probabilidade empírica é p= 10 = 0, 3.
Probabilidade teórica é p = 0, 5.
Agora, se jogarmos a moeda milhares de vezes (n = 40.000), de acordo com a lei dos grandes números
a probabilidade empírica será muito próxima da probabilidade teórica (ou real).
90
5.5 Teorema Central do Limite - (TCL)
Figura 11 Lei dos grandes números
5.5 Teorema Central do Limite - (TCL)

Uma razão para a distribuição Normal ser considerada tão importante é porque qualquer que seja a
distribuição da variável de interesse para grande amostras, a distribuição das médias amostrais serão
aproximadamente normalmente distribuídas, e tenderão a uma distribuição normal à medida que o
tamanho de amostra crescer. Então podemos ter uma variável original com uma distribuição muito
diferente da Normal (pode até mesmo ser discreta), mas se tomarmos várias amostras grandes (n≥30)
desta distribuição, e então zermos um histograma das médias amostrais, a forma se parecerá como
uma curva Normal.
Teorema: Se amostras de tamanho n (n ≥ 30) forem tiradas de uma população qualquer, isto é, com
distribuição qualquer com média m e desvio padrão sv, então a distribuição amostral de médias das
amostras será aproximadamente Normal com média µX = µe desvio padrão σX̄ = √σ , ou seja,
n

X ∼?(µ, σ) ⇒ X ∼ N µ, √σn .
a
Consequentemente,
X̄−µ
√
σ/ n
∼ N (0, 1).
A aproximação para a normal melhora à medida que o tamanho amostral cresce. Este resultado é
conhecido como o Teorema Central do Limite e é notável porque permite-nos conduzir alguns proce-
dimentos de inferência sem qualquer conhecimento da distribuição da população.
Se σ for desconhecido, então:
X̄−µ
√
S/ n
∼ t(n−1) .

Exercício 1: (BRUNI, 2008) Os gastos com equipamentos automotivos em uma concessionária da
cidade seguem uma distribuição normal com média igual a $500,00 e desvio padrão igual a $100,00.
Considerando os gastos como x, calcule:
91
a)P (x ≤ 450)
b)P (x ≥ 650)
c)P (550 ≤ x ≤ 650)
d) os valores de x entre os quais estão compreendidos os 40% centrais da distribuição
e) o valor de x, tal que P (x ≤ x) = 0, 05,
# letra A # letra D # letra E
#sintaxe: pnorm - retorna a área abaixo desvio<-100 desvio<-100
p<-pnorm(450, 500, 100) media<-500 media<-500
p q1<-qnorm(0.3) # retorna quantil cuja área abaixo do mesmo é de 0.3 q<-qnorm(0.05)
q1 q
# letra B q2<-qnorm(0.3, lower.tail=F) x<-desvio*q+media
p<-1 - pnorm(650, 500, 100) q2 x
p x1<-desvio*q1+media
x1
# letra C x2<-desvio*q2+media
p<-pnorm(650, 500, 100) - pnorm(550, 500, 100) x2
Exercício 2: (BRUNI, 2008) As vendas diárias de uma lanchonete seguem uma distribuição aproxi-
madamente normal, com médias de $400,00 e desvio igual a $100,00. Calcule a probabilidade de que
em determinado dia a lanchonete fature:
a) Entre $450,00 e $650,00;
b) Entre $350,00 e $500,00.
# letra A
#sintaxe: pnorm - retorna a área abaixo
p<-pnorm(650, 400, 100) - pnorm(450, 400, 100)
# letra B
p<-pnorm(500, 400, 100) - pnorm(350, 400, 100)
Exercício 3 modicado (BRUNI, 2008): O tempo de vida útil de um motor elétrico tem distribuição
aproximadamente normal, com média de 4,6 anos e desvio padrão de 1,3 ano.
a) qual deve ser o valor de tempo de garantia desse motor para que, no máximo, 18% das vendas
originais exija substituição (P [X ≤ x] = 0, 18)?
b) Se esse tipo de motor tiver garantia de 2 anos, que porcentagem de vendas originais exigira substi-
tuição (P [X < 2])?
92
# letra A
desvio<-1.3
media<-4.6
q<-qnorm(0.18) #quantil cuja área abaixo do mesmo é de 0.18
x<-desvio*q+media
# letra B
desvio<-1.3
media<-4.6
p<-pnorm(2, media, desvio)
93
6 AMOSTRAGEM
A necessidade de se trabalhar com técnicas de amostragem surge quando por questões práticas ou
econômicas, é impossível ou quase impossível estudar toda a população. A amostragem pode ser ob-
tida por dois métodos, a amostragem probabilística e a amostragem não probabilística. Na amostragem
probabilística, todos os elementos da população possuem uma probabilidade conhecida e diferente de
zero, de pertencer à amostra. Enquanto, na amostragem não probabilística, não se conhece a proba-
bilidade de um elemento da população pertencer à amostra. O objetivo da amostragem é determinar
métodos para estudar as populações por meio de amostras. A amostragem nos possibilita concluir
(inferir) sobre um todo a partir de apenas uma parte. Para isso é necessário sabermos como deve
ser feito uma amostragem, ou seja, como coletar uma amostra. Antes de apresentar as técnicas de
amostragem, serão apresentadas algumas denições necessárias à familiarização do problema.
6.1 Denições
População ou Universo: é o conjunto de indivíduos, elementos, eventos ou medidas que apresentam
uma ou mais características em comum, pertencentes a uma mesma unidade amostral (universo de
estudo).
Amostra: é um subconjunto nito representativo de uma população.
Amostragem: procedimento através do qual se selecionam alguns membros de uma dada população
como representativos de toda a população, isto é, o ato de tomar amostras representativas da população.
Nota: Para que uma amostra seja representativa da população estudada é necessário:
Denir objetivamente a população alvo;
Que as amostras tenham sido coletadas com imparcialidade;
Que o período ou a área seja condizente com a escala de ocorrência do fenômeno a ser investigado.
Representatividade: a amostra retirada dessa população tem por obrigação de preservar as carac-
terísticas da população.
Exemplo 1:
1) a escolha de passageiros para fazer a revista da bagagem;
2) o cozinheiro ao fazer a Demonstração de um alimento;
3) a escolha de jogadores de futebol para fazer o exame de antidoping.
95
6 AMOSTRAGEM
6.2 Como selecionar uma amostra
6.3 Por que amostrar?

i) Economia: menor custo;
ii) Rapidez: menor quantidade de trabalho, ou seja, menor tempo;
iii) Precisão: melhor qualidade no treinamento proporciona entrevistadores mais homogêneos possí-
veis, consequentemente maior precisão nos resultados.
6.4 Etapas num processo de amostragem

As etapas no planejamento e delineamento de uma pesquisa por amostragem são:
1) Objetivos da pesquisa: escrever ou estabelecer de forma clara os objetivos.
2) População que fornecerá a amostras: denição da população que se quer estudar.
3) Dados a serem coletados: decidir quais os dados serão coletados, ou seja, denir as variáveis
baseando-se nos objetivos da pesquisa (atender ao item 1).
4) Denir o método de medição: entrevistador, a própria pessoa selecionada responde ao questionário,
telefonemas, etc.
5) Grau de precisão desejado: dimensionar o tamanho da amostra, ou seja, denir n.
6) Listagem das unidades amostrais: escolha da unidade amostral.
Exemplo 2: População - Proprietários Rurais do Sul de Minas.
Exemplo 3: População - Proprietários Rurais do Sul de Minas.
96
6.5 Principais processos de amostragem
7) Processo de amostragem mais adequado: a escolha da técnica de amostragem depende da caracte-
rística da população.
8) Organização do trabalho de campo: questionário, estudo piloto (está ligado com a precisão).
9) Processamento e análise de dados: planejamento da tabulação dos dados e análise.

6.5.1 Amostragem Simples ao Acaso ou Amostragem Aleatória Simples (ASA)
A ASA é o processo de amostragem mais simples e é utilizada quando se necessita obter uma amostra
representativa cujos elementos da população são todos homogêneos. Normalmente, este processo de
amostragem é utilizado em associação com outros processos de amostragem, pois nem sempre é possível
de forma imediata identicar todos os elementos da população como sendo homogêneos.
6.5.1.1 Propriedades importantes da ASA

i) qualquer amostra possível (n) tem igual chance de ser sorteada;
ii) cada elemento tem igual chance de pertencer à amostra.
A probabilidade de selecionar um indivíduo especíco da população para uma amostra é 1/N.
A probabilidade de selecionar um indivíduo especíco da população em n situações é n/N.
iii) o número de amostras possíveis de tamanho n que pode ser retirada de uma população de tamanho
N é:
!
N N!
C N,n = = n!(N −n)!
n
6.5.1.2 Procedimento para realizar a ASA

Enumeram-se todos os elementos da população (1, 2,..., N) e sorteiam-se n elementos mediante um
dispositivo aleatório: computador, calculadora, tabela de números aleatórios, etc.
Esquema:
Exemplo 4: Situações de onde deve ou não aplicar a ASA:
(ASA) - Estudar a opinião de alunos de um determinado curso com relação a necessidade de
acrescentar uma disciplina de física avançada na grade curricular;
(outro tipo de amostragem) - Estudar a opinião de alunos de uma determinada universidade

com relação a necessidade de acrescentar uma disciplina de física avançada na grade curricular.
97
6 AMOSTRAGEM
6.5.2 Amostragem Estraticada

O objetivo da amostragem estraticada é dividir a população heterogênea em subpopulações homo-
gêneas (estratos), ou seja, na amostragem estraticada a população é dividida em grupos (estratos)
mutuamente exclusivos e em seguida é feita a ASA em cada estrato. Suponha que uma população
heterogênea seja dividida em L estratos com o objetivo de dividir a população heterogênea em L
subpopulações homogêneas então, têm-se:
L estratos de tamanho: N1 , N2 , . . . , NL sendo N = N1 + N2 + · · · + NL =

L
P
Nh ;
L
h=1
amostras são retiradas (uma amostra de cada estrato): n1 , n2 , . . . , nL sendo n = n1 + n2 +
L
P
· · · + nL = nh .
h=1
Portanto, para cada estrato é possível associarmos uma média e uma variância. A média e variância
do estrato h são respectivamente:
n
 n 2 
P h P h
Xhi nh Xhi
1
Sh2 = 2 −
i=1
P i=1
X̄h = e Xhi .
 
nh nh −1  nh
i=1
Procedimento para realizar a amostragem estraticada

A população é dividida em grupos ou estratos contendo elementos homogêneos e as amostras são
retiradas separadamente de cada um desses grupos por meio da Amostragem Simples ao Acaso (ASA).
Esquema:
A amostragem estraticada pode ser classicada de acordo com a retirada dos elementos em cada
estrato como Uniforme, Proporcional e Partilha Ótima. A seguir discutiremos os critérios.
6.5.2.1 Critério Uniforme

Para aplicar o critério Uniforme o tamanho das amostras de cada estrato deve ser o mesmo. Esse critério
raramente é utilizado, devendo ser recomendado apenas para situações em que os estratos populacionais
forem uniformes em tamanho, ou seja, os tamanhos dos estratos populacionais são iguais. Então, o
tamanho da amostra de cada estrato pode ser obtido da seguinte forma:
n
nh = L
Em que nh é o tamanho da amostra retirada do estrato h, ou seja, o número de elementos que serão
retirados do estrato h; L é a quantidade ou o número de estratos; n é o tamanho da amostra.
Recomendação: (N1 = N2 = N3 = · · · = Nh ).
98
6.5.2.2 Critério Proporcional

No critério proporcional extrai-se de cada estrato uma quantidade de elementos nh proporcional ao
tamanho Nh do respectivo estrato. Este critério é recomendado quando o tamanho dos estratos
são distintos e a variabilidade dos estratos é homogênea, isto é:
Recomendação: N1 6= N2 6= N3 6= · · · =
6 Nh e σ1 = σ2 = σ3 = · · · = σh (homogeinidade de variância
- homocedasticidade).
Para determinarmos a quantidade de elementos que serão amostrados de cada estrato será utilizado a
seguinte relação:
nh Nh n n nNh nNh
n = L
P
ou h
Nh = L
P
⇒ nh = L
P
⇒ nh = N .
Nh Nh Nh
h=1 h=1 h=1
Em que nh é o tamanho da amostra do estrato h, ou seja, o número de elementos que serão retirados
do estrato h; Nh é tamanho do estrato h ; L é a quantidade de estrato; n o tamanho da amostra.
Exemplo 5: Suponha que uma empresa hoteleira deseja realizar uma pesquisa com os seus 84 fun-
cionários, em que 25 pessoas são do sexo feminino (F) e as 59 restantes do sexo masculino (M).
Estabelecendo n = 9 (10% no mínimo), encontre o número de mulheres e de homens que deve ser
entrevistados. Suponha que a variabilidade dos estratos é homogênea.
Resolução:
Dados do problema: n = 9, N = 84, L = 2 estratos (sexo Masculino - M e Feminino - F ) NF = 25

(número de pessoas do sexo feminino) e NM = 59 (número de pessoas do sexo masculino). Então, por
meio do critério de amostragem estraticada proporcional temos:
nNF 9.25 nNM 9.59

nF = N = 84 = 2, 68 nF = 3 mulheres e nM = N = 84 = 6, 32 nM = 6 homens.
6.5.2.3 Critério Partilha Ótima (ou fração variável)

No critério partilha ótima extrai-se uma quantidade de elementos nh proporcional ao tamanhoNh e
ao desvio padrão σh do respectivo estrato. Este critério é recomendado quando os tamanhos dos
estratos são distintos e a variabilidade dos estratos é heterogênea, isto é:
Recomendação: N1 6= N2 6= N3 6= · · · =
6 Nh e σ1 6= σ2 6= σ3 6= · · · 6= σh (heterogeinidade de variância
- heterocedasticidade).
Para determinarmos a quantidade de elementos que serão amostrados de cada estrato será utilizado a
seguinte relação:
nh Nh Nh σh n
nσh = L
P
⇒ nh = L
P
Nh σh Nh σh
h=1 h=1
Em que: nh é o tamanho da amostra do estrato h, ou seja, o número de elementos que serão retirados
do estrato h; Nh é o tamanho do estrato h, ou seja, é o número de elementos do estrato h ; é o desvio
padrão do estrato h ; L é a quantidade de estrato;no tamanho da amostra.
Exemplo 6: Para ilustrar o procedimento da amostragem ótima considerou-se uma população ctícia
de uma região, cujo interesse era obter informações sobre parâmetros de tecnologia dos produtores
agrícolas da região.
99
6 AMOSTRAGEM
Estratos N º de propriedades Desvio Padrão Nh .σh nh

(área em ha) (Nh ) (σh )
0 2 500 10 5.000 21
2 5 320 11 3.520 15
5 10 100 13 1.300 6
10 20 50 20 1.000 4
20 40 30 30 900 4
L=5
P
Totais 1.000 - Nh σh = 11.720 n = 50
h=1
Determine o tamanho amostral de cada estrato, ou seja, o número de propriedades que serão retiradas
dos estratos para obtermos informações sobre parâmetros de tecnologia dos produtores agrícolas da
região.
Nota-se que os tamanhos dos estratos são distintos e a variabilidade dos estratos é heterogênea então
neste caso deve ser aplicado o critério de Partilha Ótima.
Nh σh n
nh = L
P
Nh σh
h=1
N1 σ1 n 500.10.50
n1 = 5
P
= 11720 = 21, 33 = 21
Nh σh
h=1
N2 σ2 n 320.11.50
n2 = 5
P
= 11720 = 15, 02 = 15
Nh σh
h=1
N3 σ3 n 100.13.50
n3 = 5
P
= 11720 = 5, 54 = 6
Nh σh
h=1
N4 σ4 n 50.20.50
n4 = 5
P
= 11720 = 4, 26 = 4
Nh σh
h=1
N5 σ5 n 30.30.50
n5 = 5
P
= 11720 = 3, 84 = 3
Nh σh
h=1
6.5.3 Amostragem Sistemática

A amostragem sistemática é usada quando os elementos da população são heterogêneos e não podem
ser agrupados em subpopulações homogêneas.
6.5.3.1 Procedimento para realizar a amostragem sistemática

Enumeram-se todos os elementos da população (1, 2, . . . , N ) e sorteia-se um primeiro elemento i
para formar parte da amostra. Os demais são retirados em uma progressão aritmética, saltando r
elementos, até completar o total da amostra (n ). O valor r é chamado passos de amostragem e é
determinado por:
100
N
r= n elementos.
O primeiro elemento deve ser sorteado entre os r primeiros
Esquema:
População enumerada: 1, 2, . . . , i, . . . , N .
A amostra sistemática será:
1º elemento: i
2º elemento: i+r
3º elemento: i + 2r
4º elemento: i + 3r
...
n-ésimo elemento: i + (n − 1) r
Exemplo 7: Um hotel mantém um arquivo contendo os registros de antigos hospedes, num total de
10.000 chas das quais serão amostradas 1.000 chas.
Vamos primeiramente determinar o valor r por intermédio de:
N 10.000
r= n = 1.000 = 10.
Enumeram-se todos os elementos da população (1, 2, . . . , 10.000) .
Sorteia-se um primeiro elemento, ou seja, a primeira cha de hospede (um valor entre 1 e 10), por
exemplo a cha de número 5. As chas selecionadas serão:
1ª cha: 5
2ª cha: 5+10=15
3ª cha: 5+2*10=25
...
1.000 ª cha: 5+(1000-1)*10=5+999*10=9.995
6.5.4 Amostragem por Conglomerados

Um Conglomerado é um subgrupo de elementos da população. O objetivo da amostragem por conglo-
merado é facilitar a coleta da informação. Cada conglomerado deve possuir a mesma heterogeneidade
(mesmas características) que a população. Isto é, cada conglomerado deve representar bem toda a
população.
Motivação:
Não tem a necessidade de cadastro de toda a população;
Custo de locomoção (acesso aos elementos).
6.5.4.1 Procedimento para realizar a amostragem por conglomerado

Consiste em subdividir a população em conglomerados de elementos que reproduzam bem as carac-
terísticas da população. Sorteia-se um determinado número de conglomerados. Todos os elementos
contidos nos conglomerados selecionados vão compor a amostra.
Esquema:
101
6 AMOSTRAGEM
Exemplo 8: Para estudar uma determinada característica da população de um país poderia sortear
alguns estados, dentro de cada estado alguns municípios e dentro de cada município localidades.
População: População de um determinado país.
Conglomerados: M estados deste país em questão.
Amostra de conglomerados: m municípios.
Amostra: Bairros (localidades) dentro de cada município.
6.6 Distribuições amostrais

Considerem-se todas as amostras possíveis de tamanho n que podem ser retiradas de uma população
de tamanho N (com ou sem reposição). Para cada amostra pode-se calcular uma grandeza estatística,
como a média, o desvio padrão etc., que varia de amostra para amostra. Com os valores obtidos para
determinada grandeza, podemos construir uma distribuição de probabilidades, que será denominada
de distribuição amostral. Para cada distribuição amostral é possível calcular a sua média, o seu desvio
padrão, etc. Portanto, distribuição amostral é uma distribuição de probabilidade de uma estatística.
6.6.1 Distribuição amostral das médias

Se os valores da média e do desvio padrão de uma população, de tamanho N, forem respectivamente µe
σ , e desta população são retiradas todas as possíveis amostras de tamanho n, sem reposição (população
nita), os valores da média e do desvio padrão da distribuição amostral das médias correspondente
serão:
q
√σ N −n

E X̄ = µx̄ = µ e σX̄ = n N −1
q
N −n
em que é
N −1 conhecido como fator de correção de população nita (populações pequenas).
Se a população for innita (população grande), ou se amostragem for tomada com reposição, os valores
acima carão:
√σ

E X̄ = µx̄ = µ e σX̄ = n
O fator de correção deve ser usado quando n exceder 5% do tamanho da população.

q
N −n
Quando N é muito maior em relação a n, a relação N −1 tende a 1.
A partir da dsitribuição amostral das médias é possível calcular parâmetros característicos, como a
média e a variância e, posteriormente, vericar como estes parâmetros se relacionam com os parâmetros
da população.
102
6.6 Distribuições amostrais
Exemplo 9: considere uma população, de tamanho N = 3, X = {1, 2, 3}, cuja média µ = 2 e
σ 2 = 2/3. Obter a distribuição amostral da média para as amostras de tamanho n = 2 com e sem
repetição dessa população.
1ª situação: amostras com reposição de tamanho n = 2 juntamente com a média amostral são
apresentadas a seguir.
Amostras com reposição Médias Amostrais

1 (1,1) 1,0
2 (1,2) 1,5
3 (1,3) 2,0
4 (2,1) 2,5
5 (2,2) 2,0
6 (2,3) 2,5
7 (3,1) 2,0
8 (3,2) 2,5
9 (3,3) 3,0
X̄ fi fp
1,0 1 1/9
1,5 2 2/9
2,0 3 3/9
2,5 2 2/9
3,0 1 1/9
Calculando a média e a variância de X̄ para todas as 9 médias amostrais, têm-se:

9
P
X̄i
i=9 (1+1,5+1,5+...+3,0)
µx̄ = = =2 ∴ µx̄ = µ.
9 9
9
2 
P
9 X̄i
(1+...+3,0)2
h i
1 P 2  1 1
σx̄2 =  = 9 12 + ... + 3, 02 −
i=9

9 X̄i − 9 9 = 3
i=1
σ2 2/3 σ2
n = 2 = 23 . 21 = 1
3 ∴ σx̄2 = n .
2ª situação: amostras sem reposição de tamanho n=2 juntamente com a média amostral são
apresentadas a seguir.
Amostras com reposição Médias amostrais

1 (1,2) 1,5
2 (1,3) 2,0
3 (2,3) 2,5
X̄ fi fp
1,5 1,0 1/3
2,0 1,0 1/3
2,5 1,0 1/3
3
P
X̄i
i=3 (1,5+2,0+2,5)
µx̄ = = = 2 ∴ µx̄ = µ
3 3
3 2 
P
3 X̄i
(6)2
h i
1 P 2 1 1
σx̄2 = 1, 52 + 2, 02 + 2, 52 −
i=3

X̄ − = =

3  i 3  3 3 6
i=1
103
6 AMOSTRAGEM
σ 2 N −n σ 2 N −n
n . N −1 = 23 . 12 . 21 = 1
6 ∴ σx̄2 = n . N −1
Observação: Amostras com reposição, incorpora fator de correção
6.6.1.1 Teorema do Limite Central

Por intermédio do Teorema do Limite Central, tem-se que quanto maior o tamanho da amostra, a
distribuição de amostragem da média mais se aproxima da forma da distribuição normal, qualquer que
seja a forma da distribuição da população. Na prática, a distribuição de amostragem da média pode
se considerada como normal sempre que n ≥ 30.

Em síntese temos: Se a variável aleatória X possui distribuição qualquer, com média

m e variância σ2 ,
a média amostral X̄ , baseada em amostras aleatórias de tamanho n, possuirá distribuição normal

aproximada com média das médias amostrais igual a média da população
E X̄ = µX̄ = µX = µ e
2 σ2
com a variância das médias amostrais igual a σX̄ = n .
Portanto, esse teorema permite aproximar a distribuição amostral deX̄ por uma curva normal apro-
priada, independente da forma da distribuição da população.
Observações:
⇒Quanto maior o n (tamanho da amostra), melhor a aproximação normal.
⇒Se n ≥ 30 a aproximação normal é adequada, qualquer que seja a distribuição populacional.
⇒Amostragem sem reposição é recomendada quando(n/N > 0, 05), então, deve-se fazer a correção
para população nita e, portanto:
q
√σ N −n
σX̄ = n N −1
Então, temos duas situações:

1. População Innita:X̄
2 = σ2 ;
∼ N µX̄ = µ, σX̄ n

2. População Finita:
2 = σ 2 N −1
X̄ ∼ N µX̄ = µ, σX̄ .
n N −n
Em função desses resultados temos:
Z= X̄−µX̄
σ X̄ =
X̄−µX̄
√σ
n
∼ N (0, 1) se X tem distribuição Normal;
Z= X̄−µX̄
σ X̄ = X̄−µ
√σ
n
∼ N (0, 1)
a
se X não tem distribuição Normal.
Exemplo 10: Sabe-se que a média de tempo que candidatos a um determinado emprego gastam para
responder um teste psicológico é de 30 minutos, com desvio padrão de 10 minutos.
a) Se selecionarmos um indivíduo qualquer dessa população, qual a probabilidade que ele gaste entre
25 e 35 minutos para responder ao teste (revisão de distribuição normal)?
b) Se selecionarmos um grupo de 36 indivíduos dessa população, qual a probabilidade que a média do
tempo gasto pelo grupo seja superior a 32 minutos?
6.6.2 Distribuição amostral das proporções

Se o valor da proporção de ocorrência de um evento em uma população, de tamanhoN , for p, e desta
população são retiradas todas as possíveis amostras de tamanhon, sem reposição, os valores da média
e do desvio padrão da distribuição amostral das proporções correspondente serão:
104
q q
p(1−p) N −n
E(p̂) = p e σp̂ = n N −1
Se a população for innita, ou se amostragem for tomada com reposição, os valores acima carão:
q
p(1−p)
E(p̂) = p e σp̂ = n
Quando n −→ ∞, a distribuição
amostral p̂ de será aproximadamente Normal com média p e variânciap(1−
p)/n, ou seja, p̂ ∼ N p, p(1−p)
n .
a
p̂−µp̂ p̂−p
Conseqüentemente,
σp̂ ∼ N (0, 1), ou seja, Z=√ pq ∼ N (0, 1).
a n a
Quando p é desconhecida e a amostra é sucientemente grande, determinamos p̂0 = X/n , estimativa
p
de p. Então, σp̂ = p̂0 (1 − p̂0 ) /n.
6.6.3 Erro padrão

O desvio padrão da distribuição amostral de uma grandeza estatística é freqüentemente denominado
de seu erro padrão.

Então temos que: σX̄ é chamado de erro padrão da média, e σp̂ é chamado de erro padrão
da proporção.

Exercício 1: (BRUNI, 2008) Um fazendeiro quer testar uma nova técnica de abate dos frangos de
suas fazendas. Só que o mesmo possui quatro fazendas espalhadas pelo interior do nordeste. Neste
caso, qual seria o melhor tipo de amostragem para que o fazendeiro escolhesse a fazenda que seria
estudada para a implantação desta nova técnica?
Exercício 2: (BRUNI, 2008) Suponhamos que desejássemos analisar uma população formada por
proprietários de automóveis do Estado do Mato Grosso. Neste caso, seria mais coerente analisar esta
população com uma amostragem por conglomerados ou uma amostra aleatória simples? Explique sua
resposta.
Exercício 3: (BRUNI, 2008) Um dos sócios de uma empresa automobilística deseja fazer um teste da
sua linha, que prove que a maior exibilidade da chaparia no momento da batida, assim amenizando
os riscos de que o carro sofra maior impacto e projeções bruscas. Sabe-se que a inferência estatística
envolve a formulação de certos julgamentos sobre um todo após examinar uma parte ou a amostra dele.
Então um dos sócios apresenta a seguinte idéia: fazer um censo já que a generalização, neste caso tem
grandes possibilidades de erros. Se você fosse outro acionista concordaria com esta idéia? Por quê?
Exercício 4: (ANDERSON et al., 2007) Lori Jeery é uma bem-sucedida representante de vendas de
uma grande editora de livros universitários. Historicamente, Lori consegue fazer que adotem um livro
em 25% de seus contatos de vendas. Tomando seus contatos de vendas realizados durante um mês com
uma amostra de todo os contatos de vendas possíveis, considere que uma análise estatística dos dados
produza um erro padrão da proporção igual a 0,0625.
a. Qual é o tamanho da amostra usada nesta análise?
b. Considere que p̄ indica a proporção amostral de adoção de livro durante o mês. Apresente a
distribuição amostral de p̄.
105
6 AMOSTRAGEM
c. Usando a distribuição amostral de p̄, calcule a probabilidade de Lori fazer que adotem livros em
30% ou mais de seus contatos de vendas durante o período de um mês?
Exercício 5: (ANDERSON et al., 2007) Um pesquisador relata os resultados de uma pesquisa ar-
mando que o erro padrão da média é 20. O desvio padrão da população é de 500.
a. Qual é o tamanho da amostra utilizada nessa pesquisa?
b. Qual é a probabilidade de estimação por ponto estar dentro de ± 25 da média da população?
Exercício 6: (ANDERSON et al., 2007) A Business Week pesquisou ex-alunos de MBA dez anos após
a graduação (Business Week, 22 setembro 2003). Uma revelação foi que os ex-alunos gastam em média
US$115,50 por semana com almoço e jantares sociais. Você foi solicitado para realizar um estudo de
acompanhamento, tomando uma amostra de 40 esses ex-alunos de MBA. Suponha que o desvio médio
da população seja US$ 35, 00.
a)Apresente a distribuição amostral de x̄, a média amostral de gastos semestrais dos 40 ex-alunos de
MBA?
b)Qual é a probabilidade de a média amostral estar dentro de US$ 10 da média da população?
106
7 TEORIA DA ESTIMAÇÃO
7.1 Introdução
Antes de abordar a teoria da estimação vamos procurar entender o que vem a ser estimador e estimativa.
Um estimador, θ̂, do parâmetro θé uma função qualquer dos elementos da amostra. Estimativa é o
valor numérico assumido pelo estimador quando os valores observados são considerados.
Assim:
n
P
Xi
i
X̄ = n , é um estimador da média populacional µ , e X̄ = 150é uma estimativa da média populaci-
onal.
7.2 Estimação por ponto e por intervalo

7.2.1 Estimação por ponto
Quando a estimativa de um parâmetro populacional é dado por um único valor, tem-se uma estimativa
pontual do parâmetro populacional, ou seja, na estimação pontual é fornecido como estimativa do
parâmetro, apenas um valor numérico. Por exemplo, ao estimar m (média populacional) podemos
fazê-lo mediante o valor X̄ = 20 kg . Então, 20 kg é uma estimativa pontual para m. Portanto, na
estimativa pontual não se tem nenhuma idéia de quão próximo é o valor dessa estimativa em relação
ao valor do parâmetro, ou seja, não se sabe qual é a margem de erro que é cometida ao se estimar
um determinado parâmetro. Uma maneira de se salvar essa desvantagem é usando estimadores por
intervalo (FERREIRA, 2005).
7.2.2 Estimação por intervalo

A estimação por intervalo procura corrigir essa lacuna (margem de erro) a partir da criação de um
intervalo que garanta com alta probabilidade de conter o verdadeiro valor do parâmetro desconhecido.
Um intervalo é construído a partir da distribuição amostral do estimador, de tal maneira que se
possa atribuir probabilidades de que o valor real do parâmetro j esteja ali contido. De modo geral
as estimativas (pontual ou intervalar) devem ser bastante conáveis, e para isso é necessário que os
estimadores que as fornecerão apresentem boas propriedades, aliado ao fato de serem obtidas a partir
de amostras representativas. Na seção (7.3) serão apresentadas as propriedades de um bom estimador
(FERREIRA, 2005).
Um conceito importante para a elaboração de intervalos de conança é o de quantidade pivotal.

Denição: Seja
0
x = [X1 , .., Xn ] uma amostra aleatória de densidade f (.). Uma função W (x, θ),
cuja distribuição não dependa de θ, é chamada de quantidade pivotal.
Um exemplo conhecido é a quantidade:
107
X̄−µ
Z= √σ (1)
n
N µ, σ 2

para f (.) correspondente a uma normal . Nesse caso, a distribuição de Z é uma normal
N (0,1), não depende de µ 2
e σ .
A seguir apresentaremos a construção de um intervalo de conança para a média a partir do conceito
de quantidade pivotal.
Sabe-se que a função pivô Z tem distribuição normal padrão, ou seja, distribuição normal com média
zero e variância 1. A distribuição de Z não depende da quantidade desconhecida µ, sendo possível
obter os quantis inferior e superior α/2 (−Zα/2 e Zα/2 ).

A armativa probabilística seguinte, a denição Z [expressão (1)] e os quantis inferior e superior da
distribuição N (0,1) permitem que se construa a regra de estimação de por intervalo. Assim,

P −Zα/2 ≤ Z ≤ Zα/2 = 1 − α

X̄−µ
P −Zα/2 ≤ √σ ≤ Zα/2 = 1 − α
n
h i
P −Zα/2 √σn ≤ X̄ − µ ≤ Zα/2 √σn = 1 − α
h i
P −X̄ − Zα/2 √σn ≤ −µ ≤ −X̄ + Zα/2 √σn = 1 − α
h i
P X̄ + Zα/2 √σn ≥ µ ≥ X̄ − Zα/2 √σn = 1 − α
h i
P X̄ − Zα/2 √σn ≤ µ ≤ X̄ + Zα/2 √σn = 1 − α
E o intervalo de conança para µ (com variância populacional conhecida), com uma conança de 1 − α
pode então ser escrito como:
IC (µ) : X̄ ± Zα/2 √σn .

100(1−α)%
Isto signica que o parâmetro apresenta uma probabilidade de 1−α de estar entre os limites: X̄ −
Zα/2 √σn e X̄ + Zα/2 √σn .
7.2.3 Noção básica sobre intervalo de conança

Suponha que estejamos interessados num parâmetro populacional verdadeiro θ (desconhecido). Pode-se
estimar o parâmetro θ usando informação de nossa amostra. Chamamos o único número que representa
o valor mais plausível do parâmetro (baseado nos dados amostrais) de uma estimativa pontual de θ.
Entretanto, sabemos que o valor estimado na maior parte das vezes não será exatamente igual ao
valor verdadeiro. Então, também seria interessante encontrar um intervalo de conança que forneça
um intervalo de valores plausíveis para o parâmetro baseado nos dados amostrais . Isso signica que
um intervalo de conança de 90% para um parâmetro populacional (desconhecido), consiste em um
intervalo no qual estariamos 90% conantes de cobertura do verdadeiro valor do parâmentro, isto é,
90 % de todos os intervalos de conança que construimos conterão o verdadeiro valor do parâmetro
(MONTGOMERY et al., 2004).
108
7.3 Propriedades dos estimadores
7.3 Propriedades dos estimadores

1) Não tendenciosidade
Um estimador θ̂ é dito um estimador não tendencioso do parâmetro θ se E θ̂ = θ.
n
P
Xi
Exemplo 1: X̄ = i
n é um estimador não tendencioso da média populacional .
Demonstração:
n !
n
P
Xi
n
1P 1
Xi = n1 E (X 1 + X2 + ... + Xn ) =
i
P
E X̄ = E n =E n Xi = nE
i i
1 1
n [E (X1 ) + E (X2 ) + ... + E (Xn )] = n [µ + µ + ... + µ] = n1 nµ = µ
2) Consistência
Um estimador θ̂ é dito um estimador consistente do parâmetro θ se:

1. lim E θ̂ = θ;
n→∞

2. lim V θ̂ = 0
n→∞
n
P
Xi
Exemplo 2: X̄ = i
n

i)lim E X̄ = lim µ = µ
n→∞ n→∞
2
lim V X̄ = lim σn = 0

ii)
n→∞ n→∞
3) Eciência
Se θ̂1 e θ̂2 são dois estimadores não tendenciosos de θ , então, θ̂1 é mais eciente que q̂2 se:

V θ̂1 < V θ̂2
3.1) Eciência Relativa:

A eciência relativa do estimador q̂1 , em relação ao estimador q̂2 é dada por:
V (θ̂2 )
Efθ̂1 θ̂2 =
V (θ̂1 )
Observação:
Quanto menor for a variância de um estimador maior será a sua eciência;
Se θ̂1 for menos eciente que θ̂2 então Efθ̂1 θ̂2 < 1;
Se θ̂1 for mais eciente que θ̂2 então Efθ̂1 θ̂2 > 1 .
4) Suciência ou Precisão
Um estimador é suciente se contém o máximo de informação com relação ao parâmetro por ele
estimado.
1
Quantidade de informação ou precisão =
V (θ̂)
7.4 Métodos de Estimação

Na teoria de estimação os métodos de estimação são: Métodos dos Momentos; Métodos dos Quadra-
dos Mínimos e Método da Máxima Verossimilhança. No presente material não será apresentada a
metodologia dos métodos, pois este não é o objetivo da disciplina.
109
7.5 Intervalos de conança para a média

7.5.1 Intervalo de conança para média (µ) com variância populacional (σ2 )conhecida
Denição: Se X for a média de uma amostra aleatória, de tamanho n, de uma população com
σ 2 , então o intervalo de conança de

variância populacional conhecida 100 (1 − α) % para µ é dado
por (MONTGOMERY & RUNGER, 2003):
IC (µ) : X̄ ± Zα/2 √σn (2).

100(1−α)%
Em que:
α é o chamado nível de signicância. O nível de signicância é a probabilidade de que o intervalo
encontrado não contém o valor real do parâmetro em estudo. O valor do nível de signicância é
estipulado pelo pesquisador, sendo que em sua maioria e de acordo com padrões internacionais é
usado α = 5% = 0, 05, ou seja, um risco de 5,0%;
γ = 100 (1 − α) % é chamado de nível de conança para o intervalo. O nível de conança é a
probabilidade de que o intervalo encontrado contém o valor real do parâmetro procurado;
X̄ é a média amostral;
Z α/2 é o ponto superior α/2 da distribuição Z;
n é o tamanho da amostra;
αq é o nível de signicância;
N −n
N −1 é o fator de correção;
X̄ − Z σ σ
α/2 √n e X̄ + Zα/2 √n , são chamados de limite inferior e superior de conança, ou seja,
limites inferior e superior do intervalo de conança;
Se ocorrer Amostragem Sem Reposição para População Finita (P.F.A.S.R.), isto é, se

n
N > 0, 05
(N o tamanho da população), então, incorpora-se o fator de correção no intervalo. Logo, o
intervalo de conança será:

q
N −n
IC (µ) : X̄ ± Zα/2 √σn N −1 (3).
100(1−α)%
Nota: Para amostras provenientes de uma população Normal, ou para amostras de tamanho n ≥ 30,
independente da forma da população, o intervalo de conança na expressão (2) fornecerá bons resulta-
dos. Entretanto, para pequenas amostras provenientes de uma população não Normal , não podemos
esperar que o nível de conança seja exato (MONTGOMERY & RUNGER, 2003). Vale ressaltar
que com base na quantidade pivotal [expressão (1)], resultado apresentado na seção (7.2.2), é possível
determinar o intervalo de conança para média com variância conhecida, conforme expressão(2).
Interpretação do Intervalo: Existe 100 (1 − α) % de conança que o intervalo contenha m..

Exemplo 3: Uma máquina produz rolamentos que apresentam desvio padrão de 0,042 polegadas
em seu diâmetro. Desejando-se conhecer o diâmetro médio dos rolamentos produzidos por esta má-
quina extraiu-se uma amostra de 100 rolamentos, observando-se uma média igual a 0,824 polegadas.
Determine o intervalo com 90% de conança para o verdadeiro diâmetro médio dos rolamentos.
Solução: A partir de toda informação apresentada no problema, temos: σ = 0, 042, X = 0, 824 e n

= 100. Como nada foi informado a respeito do tamanho da população (N ), será adotado o seguinte
intervalo de conança:
110
IC (µ) : X̄ ± Zα/2 √σn

100(1−α)%
0,042
IC (µ) : 0, 824 ± Z0,10/2 √ 100
100(1−α)%
0,042
IC (µ) : 0, 824 ± Z0,05 √ 100
100(1−α)%
0,042
IC (µ) : 0, 824 ± 1, 64 √ 100
90%
IC (µ) : 0, 824 ± 0, 007
90%
IC (µ) : [0, 817; 0, 831]
90%
Rotina para a obtenção do intervalo de conança do exemplo 3:

# Sintaxe:
media<-0.824
desviopad<-0.042
n<-100
erropad<-desviopad/sqrt(n)
quantil<-qnorm(0.05,lower.tail=FALSE)
# Intervalo de conança de 90%
erro<-quantil*erropad
LI<-media-erro
LI
LS<-media+erro
LS
Interpretação: Pode-se armar com 90% de conança que o intervalo contém o diâmetro médio dos
m
rolamentos ( ) produzidos por esta máquina.
Exemplo 4 (Exercício): Utilizando os dados do exercício anterior e supondo que a produção diária
seja de 1.000 rolamentos. Determine o intervalo com 90% de conança para o verdadeiro diâmetro
médio dos rolamentos.
Rotina para a obtenção dos intervalos de conança do exemplo 4:

# Sintaxe:
media<-0.824
desviopad<-0.042
n<-100
N<-1000
# se n/N >0,05 incorpora fator de correção
fc<-(sqrt((N-n)/(N-1))) # fator de correção
erropad<-(desviopad/sqrt(n))*fc
quantil
# Intervalo de conança 90%
LI<-media-erro
LI
LS<-media+erro
LS
Exemplo 5: De uma população normal a variável aleatória X apresenta uma variância igual a 9.
25
P
Retiramos uma amostra de 25 observações e obteve-se Xi = 152. Determine um intervalo de limites
i=1
111
de 90,0% de conança para µ.

Primeiramente será retirada toda informação (dados) do problema. Tem-se:
25
152
= 6, 08 e σ 2 = 9 ⇒ σ = 3
P
n = 25; α = 10, 0%; Xi = 152 ⇒ X̄ = 25
i=1
Como nada foi informado a respeito do tamanho da população (N ), será adotado o seguinte intervalo
de conança: IC (µ) : X̄ ± Zα/2 √σn .

100(1−α)%
Dessa forma, temos:
IC (µ) : 6, 08 ± Z0,10/2 √325

90%
IC (µ) : 6, 08 ± Z0,05 √325
90%
IC (µ) : 6, 08 ± 1, 64 √325
90%
IC (µ) : 6, 08 ± 0, 09
90%
IC (µ) : [5, 096; 7, 064]
90%

# Sintaxe:
somax<-152
n<-25
media<-somax/n
media
desviopad<-3
n<-25
LI<-media-erro
LI
LS<-media+erro
LS
Interpretação: Pode-se armar com 90% de conança que o intervalo contém a média populacional
da variável aleatória X.
7.5.2 Intervalo de conança para média (µ) de uma população Normal com variância
populacional (σ2 ) desconhecida
Denição: Se X e S forem a média e o desvio padrão de uma amostra aleatória proveniente de uma
σ2

população Normal, com variância populacional desconhecida , então o intervalo de conança de
100 (1 − α) % para µ é dado por (MONTGOMERY & RUNGER, 2003):
IC (µ) : X̄ ± t(α/2; v=n−1) √Sn . (4)

100(1−α)%
Em que t(n−1,α/2) é o ponto superior α/2 da distribuição t-Student, com v = n−1 graus de liberdade.
n
N > 0, 05 (N
o tamanho da população), então, incorpora-se o fator de correção no intervalo. Logo, o intervalo de
conança será:
112
q
N −n
IC (µ) : X̄ ± t(α/2; v=n−1) √Sn N −1 . (5)
100(1−α)%
Nota: Como determinar o intervalo da expressão (4), a partir de uma quatidade pivotal?
X ∼ N µ, σ 2 σ2

Se , com desconhecida, então
X̄−µ
t= S
√
(6)
n
possui uma distribuição denominada t-Student com v = n−1 graus de liberdade. A expressão (6)
representa uma quantidade pivotal, ou seja, a distribuição de t não depende da quantidade desconhecida
µ, sendo possível obter os quantis inferior e superior α/2 (−tα/2 e tα/2 ).

A armativa probabilística seguinte, a denição t [expressão (6)] e os quantis inferior e superior da
distribuição t-Student permitem que se construa a regra de estimação de por intervalo. Assim,

P −t(α/2; v=n−1) ≤ t ≤ t(α/2; v=n−1) = 1 − α

X̄−µ
P −t(α/2; v=n−1) ≤ S
√
≤ t(α/2; v=n−1) = 1 − α
n
h i
P −t(α/2; v=n−1) √Sn ≤ X̄ − µ ≤ t(α/2; v=n−1) √Sn = 1 − α
h i
P −X̄ − t(α/2; v=n−1) √Sn ≤ −µ ≤ −X̄ + t(α/2; v=n−1) √Sn = 1 − α
h i
P X̄ + t(α/2; v=n−1) √Sn ≥ µ ≥ X̄ − t(α/2; v=n−1) √Sn = 1 − α
h i
P X̄ − t(α/2; v=n−1) √Sn ≤ µ ≤ X̄ + t(α/2; v=n−1) √Sn = 1 − α
E o intervalo de conança para µ (com variância populacional desconhecida), com uma conança de
1−α pode então ser escrito como:
IC (µ) : X̄ ± t(α/2; v=n−1) √Sn .

100(1−α)%
7.5.3 Conceito de intervalo de conança em uma amostra grande (n ≥ 30)

De acordo com (WALPOLE et al., 2009), mesmo que a pressuposição de normalidade não seja satisfeita,
σ é desconhecido e n ≥ 30 (amostra grande), S pode substituir σ e o intervalo de conança a seguir
pode ser usado:
IC (µ) : X̄ ± Zα/2 √Sn . (7)

100(1−α)%
n
N > 0, 05 (N
o tamanho da população), então, incorpora-se o fator de correção no intervalo. Logo, o intervalo de
conança será:
q
N −n
IC (µ) : X̄ ± Zα/2 √Sn N −1 . (8)
100(1−α)%
113
Segundo (WALPOLE et al., 2009), com uma amostra tão grande quanto 30 e uma distribuição de
população não muito simétrica, S será muito próximo de σ e, então, o teorema central do limite
prevalece. Os autores enfatizam que isso é apenas uma aproximação e que a qualidade da abordagem se
torna melhor à medida que se aumenta o tamanho da amostra. Portanto, quando se estiver trabalhando
com amostras grandes (n ≥ 30) pode-se utilizar a distribuição padronizada Z, em lugar da t na obtenção
2
dos intervalos de conança, mesmo que σ seja desconhecida.
Exemplo 6: A altura nos homens de uma cidade apresenta distribuição normal, para se estimar
150
amostra
P
a altura média dessa população levantou-se uma de 150 indivíduos obtendo-se: Xi =
i=1
150
Xi2 = 4.440.075 cm2 .
P
25.800 cm e
i=1
a) Ao nível de 2% de signicância, determine o intervalo de conança para a altura média dos homens
desta cidade.
Solução: Como se trata de uma amostra, a variância que será determinada corresponde a variância
150
(sv2 )
P
amostral, ou seja, a variância populacional é desconhecida. Sabe-se que: Xi = 25.800cm e
i=1
150
Xi2 = 4.440.075cm2 ,
P
então a média e variância são respectivamente:
i=1
v 
u n
2 
P
Xi
u r
150 n
(25.800)2
u h i
P 25.800 1 P 2 i=1 1
X̄ = Xi /150 = = 172 cm e t n−1  Xi −
S=u = 4.440.075 − =

150 n 149 150
i=1 i=1
√
16, 61 = 4, 07 cm.
A amostra é de 150 indivíduos, isto é, n = 150>30 (amostra grande). Logo, o intervalo a ser adotado
para determinar altura média dos homens desta cidade será:
IC (µ) : X̄ ± Zα/2 √Sn

100(1−α)%
IC (µ) : 172 ± Z0,02/2 √4,07
150
98%
IC (µ) : 172 ± Z0,01 √4,07
150
98%
IC (µ) : 172 ± 2, 33 √4,07
150
98%
IC (µ) : [171, 22; 172, 77]
98%

# Sintaxe:
media<-172
desviopad<-4.07
n<-150
LI<-media-erro
LI
LS<-media+erro
LS
Interpretação: Pode-se armar com 98,0% de conança que o intevalo contém a estatura média dos
homens desta cidade.
114
Exemplo 7 (Exercício): Uma Cia adquiriu 500 cabos. Uma amostra de 30 deles ao acaso apresentou
tensão de ruptura média igual a 2.400 kg com desvio padrão de 150 kg. Determine o intervalo com
99% de conança para a verdadeira tensão média de ruptura desses cabos.

# Sintaxe:
N<-500
n<-30
media<-2400
desviopad<-150
# fator de correção => n/N > 0,05 => no exemplo em questão não incorpora fator de correção
quantil<-qnorm(0.005, lower.tail=FALSE)
LI<-media-erro
LI
LS<-media+erro
LS
7.5.4 Dimensionamento do tamanho da amostra

Nosso objetivo agora, será determinar o tamanho da amostra n, de tal forma que o estimador obtido
tenha um erro máximo de estimação igual a ε, com determinado grau de conança (probabilidade). A
σ
precisão do intervalo, [expressão (2)], é Zα/2 √ . Isso signica que usando X para estimar µ, o erro
n
ε =| X̄ − µ |é menor ou igual a Zα/2 √σn , com 100 (1 − α) % de conança. De maneira mais especíca,
o problema consiste em determinarmos n, de modo que
P | X̄ − µ |≤ ε ∼

=1−α
isto é,
h i
P | X̄ − µ |≤ Zα/2 √σn ∼=1−α
Então, para um ε xo, a solução para o problema acima consiste em determinar n de tal forma que
ε = Zα/2 √σn
ou equivalentemente,
ε2 σ2
2
Zα/2
= n . (9)
Resolvendo (9) em relação a n, obém-se:
2 σ2
Zα/2
2
Zα/2 σ
n= ε2
= ε . (10)
Para determinação da amostra, é preciso xar o erro máximo desejado (ε), com algum grau de conança
1−α (traduzido pelo valor tabelado Zα/2 ) e possuir algum conhecimento a priori da variabilidade da
115
σ2

população . Ou seja, o erro máximo desejado e o nível de conança são xados pelo pesquisador.
O uso de pesquisa passadas, estatísticas (informações), ou amostras piloto são os critérios mais usados.
Em muitos casos, uma amostra piloto pode fornecer informação suciente sobre a população, de tal
σ2

forma que se pode obter um estimador inicial razoável para (BOLFARINE & BUSSAB, 2005).
Exemplo 8: (MONTGOMERY & RUNGER, 2003) Os sistemas de escapamento de uma aeronave
funcionam devido a um propelente sólido. A taxa de queima desse propelente é uma característica
importante do produto. As especicações requerem que a taxa média de queima seja de 50 cm/s.
Sabemos que o desvio-padrão da taxa de queima é sv = 2 cm/s. Suponha que quiséssemos um erro
na estimação da taxa média de queima do propelente do foguete menor do que 1,5 cm/s, com uma
conança de 95%. Qual deveria ser o tamanho apropriado da amostra?
Solução: Uma vez que sv = 2 cm/s e γ = 0, 95 (Z0,025 = 1, 96), pode-se determinar o tamanho da
amostra da seguinte forma:

2 2
Z0,025 σ
n= ε = 1,96x2
1,5 = 6, 83 ∼
=7
# sintaxe:
sigma<-2
erro<-1.5
# conança de 95%
# dimensionamento da amostra
n<-((qnorm(0.025,lower.tail=FALSE)*sigma)/erro)^2
n
Exemplo 9: Suponha que uma amostra aleatória de tamanho 10 da variável renda familiar apresente
os seguintes valores: 12, 18, 12, 18, 18, 30, 12, 12, 18, e 30. Determine o tamanho da amostra que
√
apresente uma estimativa com erro máximo ε= 2, com g = 0,95.
Solução: No presente problema não se tem informação a respeito de σ2. Mas, sabe-se que a partir
2
de uma amostra piloto pode-se obter uma estimativa razoável para σ . Para esta amostra, X̄ = 18 e
√
S2 = 48. Com S 2 = 48, para ter uma amostra que apresente uma estimativa com erro máximo ε = 2
, com γ = 0, 95, é necessário que o tamanho da amostra seja
t2(α/2,n−1) S 2 t2(0,025; 9) x48 2,2622 x48

n= ε2
= √ 2 = √ 2 = 122, 80 = 123.
( 2) ( 2)
# sintaxe:
dados<-c(12,18,12,18,18,30,12,12,18,30)
n<-length(dados)
n
v<-n-1
erro<-sqrt(2)
# conança de 95%
n2<-((qt(0.025, v,lower.tail=FALSE)*sd(dados))/erro)^2
n2
116
7.6 Intervalos de conança para diferença entre duas médias (amostras independentes)
7.6 Intervalos de conança para diferença entre duas médias

(amostras independentes)
7.6.1 Intervalo de conança para diferença entre duas médias com variâncias
populacionais conhecidas e independentes
Denição: Se X̄a e X̄b são médias de amostras aleatórias independentes de tamanhos na e nb de popu-
lações com variâncias conhecidas σa2 e σb2 , respectivamente, um intervalo de conança de 100 (1 − α) %
para (µa − µb ) é dado por (WALPOLE et al., 2009):
q
2 σb2
IC (µa − µb ) : X̄a − X̄b ± Zα/2 nσaa +

nb , (11)
100(1−α)%
em que:
X̄ a e X̄b são médias amostrais, isto é, são as estimativas pontuais das médias das populações a
e b, respectivamente;
σ 2
a e σb2 são as variâncias das populações a e b, respectivamente;
n a e nb são os tamanho das amostras retiradas das populações a e b, respectivamente;

n
N > 0, 05
(Na e Nb são os tamanhos das populações a e b, respectivamente), então, incorpora-se o fator de
correção no intervalo. Logo, o intervalo de conança será:

r
σa2 (Na −na ) σb2 (Nb −nb )
IC (µa − µb ) : X̄a − X̄b ± Zα/2 na (Na −1) + nb (Nb −1) . (12)
100(1−α)%
Regras de decisão envolvendo Intervalo de Conança (IC) para diferença entre duas mé-
dias.
1. Se o IC incluir o zero, então, µa = µ b .
2. Se o IC não incluir o zero, então, µa 6= µb . Podendo acontecer:
a) Se os extremos do intervalo forem negativos, então, µa < µb .
b) Se os extremos do intervalo forem positivos, então, µa > µb .

Exemplo 10: Um supermercado não sabe se deve comprar lâmpadas da marca A ou B de mesmo
preço. Testa-se uma amostra de 100 lâmpadas de cada marca. Os resultados obtidos são apresentados
a seguir:
Marca da lâmpada X̄ σ
A 1.160 h 90 h
B 1.140 h 80 h
Construa um intervalo de conança com 2% de signicância e indique qual lâmpada o supermercado
deve comprar.
Solução: Sabe-se que a variâncias populacionais são conhecidas, pois se forneceu informações a respeito
de para cada marca de lâmpada. O valor de a adotado foi de 2% (0,02), e o tamanho das amostras
retiradas é de 100 lâmpadas cada, ou seja, na = nb = 100 lâmpadas. Na presente situação não se
conhece o tamanho das populações, consequentemente não há necessidade de fazer o uso do fator de
correção. Portanto, o intervalo adotado para indicar qual lâmpada o supermercado deve comprar será:
117
q
2 σ2
IC (µa − µb ) : X̄a − X̄b ± Zα/2 nσaa + nbb

100(1−α)% q
2 σb2
IC (µa − µb ) : (1.160 − 1.140) ± Z0,02/2 nσaa + nb
98% q
902 802
IC (µa − µb ) : 20 ± Z0,01 100 + 100
98% q
2 +802
IC (µa − µb ) : 20 ± 2, 33 90 100
98%
IC (µa − µb ) : 20 ± 28, 0569
98%
IC (µa − µb ) : [−8, 0569; 48, 0569]
98%
Interpretação: Portanto, pode-se armar com 98% de conança que não existe diferença signicativa
entre os tempos de vida das lâmpadas das marcas A e B, pois o zero está contido na extensão do
intervalo.
# Sintaxe:
media1<-1160
media2<-1140
var1<-8100
var2<-6400
n1<-100
n2<-100
erropad<-sqrt((var1/n1)+(var2/n2))
LI<-(media1-media2)-erro
LI
LS<-(media1-media2)+erro
LS
Exemplo 11 (Exercício): As empresas A e B produzem tubos de esgoto com variâncias em seus
diâmetros iguais a 8 mm ² ²
e 10 mm , respectivamente. Uma amostra de 48 tubos da empresa A
apresentou diâmetro médio igual a 40 mm, e uma amostra de 36 tubos da empresa B apresentou
diâmetro médio de 42 mm. Verique, por meio de um intervalo de conança com 0,95 de probabilidade,
se existe diferença entre os diâmetros médios dos tubos das marcas A e B.
118
7.6 Intervalos de conança para diferença entre duas médias (amostras independentes)
# Sintaxe:
media1<-40
media2<-42
var1<-8
var2<-10
n1<-48
n2<-36
LI
LS
7.6.2 Intervalo de conança para diferença entre duas médias com variâncias
populacionais desconhecidas em amostras independentes
Quando se desconhece as variâncias populacionais σa2 e σb2 torna-se necessário a substituição de seus
2
valores paramétricos por suas estimativas amostrais Sa e S 2b . Neste caso, deve-se utilizar a distribuição
t-Student, em lugar da normal. Além dessa alteração deve-se considerar ainda se as duas populações são
homocedásticas ou heterocedásticas, isto é, se as variâncias populacionais desconhecidas são iguais ou
diferentes, o que pode ser aferido por meio de um teste de hipótese para homogeneidade de variâncias.
Denição - Populações Homocedásticas - σa2 = σb2 = σ 2 :

Se X̄a e X̄b são médias de amostras
aleatórias independentes de tamanhos na e nb de populações aproximadamente normais com variân-
cias desconhecidas, mas iguais, um intervalo de conança de 100 (1 − α) % para µa − µb é dado por
(WALPOLE et al., 2009):

q
IC (µa − µb ) : X̄a − X̄b ± t(α/2;na +nb −2) Sp n1a + 1

nb , (13)
100(1−α)%
em que:
S
q
(na −1)Sa2 +(nb −1)Sb2
p = na +nb −2 é a estimativa combinada do desvio padrão da população;
t (α/2) é o valor da distribuição t-Student com ν = na + nb − 2 graus de liberdade, que deixa uma
área α/2 à direita.
Denição - Populações Heterocedásticas - σa2 6= σb2 :

Se X̄a e X̄b são médias de amostras ale-
atórias independentes de tamanhos na e nb de populações aproximadamente normais com variâncias
diferentes e desconhecidas, um intervalo de conança de 100 (1 − α) % para µa − µ b é dado por (WAL-
POLE et al., 2009):
q
Sa2 Sb2
IC (µa − µb ) : X̄a − X̄b ± t(α/2;v) na + nb , (14)
100(1−α)%
em que t(α/2) é o valor da distribuição t-Student com ν graus de liberdade:
2
Sb2

2
Sa
na
+ nb
v= 2 2
!
S2
!2 . (15)
Sa b
na nb
na −1
+ n −1
b
119
Exemplo 12: Em uma disciplina de Estatística de 12 alunos de uma turma conseguiram média de
7,8 e desvio padrão de 0,6 ao passo que 15 alunos de outra turma do mesmo curso conseguiram média
7,4 com desvio de 0,8. Considerando distribuição normal para as notas ao nível de 5% de signicância,
determine o intervalo de conança e indique se há diferença entre as turmas em termos de nota.
Considere variâncias populacionais desconhecidas, porém iguais.

Solução: Diante do seguinte enunciado tem-se:
α = 5% = 0, 05; na = 12; X̄a = 7, 8; Sa = 0, 6; nb = 15; X̄b = 7, 4; Sb = 0, 8. Sendo as populações

2 2
homocedásticas σa = σb = σ
2 tem-se que:
q
(12−1)0,62 +(15−1)0,82
Sp = 12+15−2 = 0, 7189
Logo, o intervalo de conança é:
q
IC (µa − µb ) : X̄a − X̄b ± t(α/2; na +nb −2) Sp n11 + n12

95% q
IC (µa − µb ) : (7, 8 − 7, 4) ± t(0,025; 12+15−2) Sp n11 + n12
95% q
1 1
IC (µa − µb ) : 0, 4 ± t(0,025; 25) Sp 12 + 15
95% q
1 1
IC (µa − µb ) : 0, 4 ± 2, 06 ∗ 0, 7189 ∗ 12 + 15
95%
IC (µa − µb ) : 0, 4 ± 0, 5736
95%
IC (µa − µb ) : [−0, 1736; 0, 9736]
95%
Interpretação: Portanto, pode-se armar com 95% de conança que estatisticamente não existe
diferença signicativa entre as médias de notas na disciplina de Estatística.

# Sintaxe:
media1<-7.8
media2<-7.4
var1<-0.36
var2<-0.64
n1<-12
n2<-15
v<- n1 + n2 - 2
sp<-sqrt(((n1 - 1)*var1+(n2 - 1)*var2)/(n1 + n2 - 2))
erropad<-sp*sqrt((1/n1)+(1/n2))
quantil<-qt(0.025, v,lower.tail=FALSE)
# Intervalo de conança 95% - Populações Homocedásticas
LI
LS
Exemplo 13 (Exercício): O QI de 16 estudantes de uma zona pobre de certa cidade apresenta
média de 107 pontos com desvio padrão de 10 pontos, enquanto que 14 estudantes de outra região
rica da cidade apresentam média de 112 pontos, e desvio padrão de 8 pontos. O QI em ambas regiões
120
7.7 Intervalos de conança para difrença entre duas médias (amostras dependentes)
tem distribuição normal. Determine O intervalo de conança com uma certeza de 95%. Considere
desconhecidas, porém diferentes.

variâncias populacionais

# Sintaxe:
media1<-107
media2<-112
var1<-100
var2<-64
n1<-16
n2<-14
num_v<-((var1/n1) + (var2/n2))^2 # numerador da expressão do grau de liberdade de Satterthwaite
den_v<-(((var1/n1)^2)/(n1-1)) + (((var2/n2)^2)/(n2 - 1)) # denominador da expressão do grau de liberdade de Satterthwaite
v<-num_v/den_v
round(v) # arredonda para o inteiro mais próximo
quantil<-qt(0.025, round(v),lower.tail=FALSE)
# Intervalo de conança 95% - Populações Homocedásticas
LI<-(media1-media2) - erro
LI
LS<-(media1-media2) + erro
LS
7.7 Intervalos de conança para difrença entre duas médias

(amostras dependentes)
É muito usado nos casos em que os dados de um mesmo indivíduo serão colhidos antes e depois
de submetido a um tratamento. Serão colhidas duas amostras, x1 , x2 , ..., xn e y1 , y2 , ..., yn que
serão emparelhadas, isto é, a amostra será formada pelos pares (x1 , y1 ) , (x2 , y2 ) , (xn , yn ). Portanto,
fazemos testes de comparação de médias para dados emparelhados (amostras pareadas), obtidas de
populações Normais, quando os resultados das duas amostras são relacionados dois a dois, de acordo
com algum critério que fornece uma inuência entre os vários pares e sobre os valores de cada par.
Para cada par denido, o valor da primeira amostra está claramente associado ao respectivo valor da
segunda amostra. A média e o desvio padrão da amostra de valores d são obtidos pelas fórmula
(MORETTIN, 2010):
v 
n
u n
2 
P P
di di
u
u n
i=1 1 P 2 i=1
D̄ = e SD = u di − .

n t n−1  n
i=1
Denição: Se D e SD são a média e o desvio pardrão, respectivamente, de diferenças normalmente
distribuídas de n pares de medidas aleatórias, o intervalo de conança para de 100 (1 − α) % para µD

é dado por (WALPOLE et al., 2009):
SD
IC (µD ) : D̄ ± t(α/2; v) √ n
, (16)
100(1−α)%
121
com t(α/2) com v =n−1 graus de liberdade.
As amostras são consideradas dependentes quando as observações são correlacionadas.
Exemplo 14: Eciência de uma dieta (MORETTIN, 2010). Para exemplicar, tomaremos um grupo
de pessoas que zeram determinada dieta por uma semana. Medimos o peso no início e no nal
da dieta. As pessoas estão claramente determinadas. A identidade de cada uma tem inuência nos
valores observados de seu peso, porém essa inuência deve ser aproximadamente igual dentro de cada
par de valores do tipo antes e depois . Ao tomarmos a diferença entre varíos pares de valores e
trabalharmos com elas, a inuência de cada pessoa deverá desaparecer, cando apenas a inuência da
dieta. A partir dos dados abaixo será construído um intervalo de conança de 95% de conança.
(1) 2 (2)
Pessoas Peso antes em kg Peso depois em kg di di
1 120 116 4 16
2 104 102 2 4
3 93 90 3 9
4 87 83 4 46
5 85 86 -1 1
6 98 97 1 1
7 102 98 4 16
8 106 108 -2 4
9 88 82 6 6
10 90 85 5 25
di
(1)
é a diferença de observações correlacionadas, ou seja, di = antes depois; d(2)
i é a diferença de observações correlacionadas ao quadrado.
r h
(26)2
i
4+2+...+5 1
D̄ = 10 = 2, 6 kg e SD = 9 (16 + 4 + ...25) − 10 = 2, 59 kg
SD
IC (µD ) : D̄ ± t(α/2; v) √ n
100(1−α)%
2,59
IC (µD ) : 2, 6 ± t(0,05/2; 9) √ 10
95%
2,59
IC (µD ) : 2, 6 ± 2, 262 √ 10
95%
IC (µD ) : [0, 747; 4, 453]

95%
Interpretação: Pode-se armar com 95% de conança que a dieta foi eciente pois, µD > 0.
122
7.8 Intervalos de conança para proporção
# Sintaxe: # Sintaxe: a partir dos comandos t.test e paired

peso_antes<-c(120,104,93,87,85,98,102,106,88,90) # peso antes de experimentar a dieta peso_antes<-c(120,104,93,87,85,98,102,106,88,90) # peso antes de exper
peso_depois<-c(116,102,90,83,86,97,98,108,82,85) # peso depois de experimentar a dieta peso_depois<-c(116,102,90,83,86,97,98,108,82,85) # peso depois de expe
dif<-c(peso_antes - peso_depois) # vetor das diferenças t.test(peso_antes, peso_depois, alternative = "two.sided", conf.level=0.95, pa
n<-length(dif)
v<-n-1
mean(dif) # média da diferenças
sd(dif) # desvio padrão das diferenças
qt(0.025, v, lower.tail = F)
## Intervalo de conança de 95% ##
erro<-qt(0.025, v, lower.tail = F)*((sd(dif))/sqrt(n))
erro
LI<- mean(dif) - erro
round(LI, digits = 3)
LS<- mean(dif) + erro
round(LS, digits = 3)

Denição: Se p̂ é a proporção de sucessos em uma amostra aleatória de tamanho n, e q̂ = 1 − p̂,
um intervalo de conança de 100 (1 − α) % aproximado para o parâmetro binomial p é dado por
Se ocorrer Amostragem com Reposição para População Finita ou para População Innita:
q
p̂q̂
IC (P ) : p̂ ± Zα/2 n . (17)
100(1−α)%
Se ocorrer Amostragem sem Reposição para População Finita (

n
N > 0, 05):
r
p̂q̂ N −n
IC (P ) : p̂ ± Zα/2 n N −1 . (18)
100(1−α)%
Em que p̂ é a proporção estimada na amostra; q̂ = 1 − p̂ ; n é o tamanho da amostra e N é o tamanho

da população.
Quando n é pequeno e acredita-se que a proporção desconhecida p está próxima de 0 ou 1, o procedi-

mento do intervalo de conança estabelecido aqui é duvidoso e, portanto não devve ser utilizado. Para
estar mais seguro, deve-se exigir ambos np̂ e nq̂ maiores ou iguais a 5 (WALPOLE et al., 2009).
Exemplo15: Suponha que uma empresa de pesquisa eleitoral tenha entrevistado por telefone 400
eleitores, perguntando-lhes se votariam no candidato A. Admita que 240 deles tenham respondido que
votariam no candidato A. Determine o intervalo de 95% de conança para a proporção dos que indicam
preferência pelo candidato A.
Solução: Sabe-se que o tamanho da amostra no presente exemplo é de 400 eleitores, ou seja, n = 400.
Desses 400 eleitores, 240 preferem o candidato A. Portanto, a proporção de eleitores que preferem o
candidato A é:
240
p̂ = 400 = 0, 60 = 60%, então q̂ = 1 − p̂ = 1 − 0, 60 = 0, 40 = 40%
Como a amostra é grande e não se sabe o tamanho da população, então, utiliza-se o seguinte intervalo
de proporção:
q
p̂q̂
IC (P ) : p̂ ± Zα/2 n
100(1−α)%
123
q
p̂q̂
IC (P ) : p̂ ± Z0,05/2 n
95%
q
0,6.0,4
IC (P ) : 0, 6 ± Z0,025 400
95%
q
IC (P ) : 0, 6 ± 1, 96 0,24
400
95%
IC (P ) : 0, 6 ± 0, 048
95%
IC (P ) : [0, 552; 0, 648]

95%
Interpretação: Assim, com uma amostra de tamanho 400, a pesquisa apresenta uma margem de erro
de ± 4,8%, ou cerca de 5%. À vista do intervalo de conança resultante (aproximadamente 55% a
65%), o candidato A pode sentir-se razoavelmente seguro quanto as suas perspectivas em relação à
eleição.

# Sintaxe:
x<-240 # nº de sucessos
n<-400
p<-x/n
round(p, digits = 3)
q<-1 - p
round(q, digits = 3)
round(qnorm(0.025, lower.tail = F), digits = 2) # valor tabelado - Normal Padrão
erro<-qnorm(0.025, lower.tail = F)*sqrt(p*q/n)
round(erro, digits = 3)
LI<- p - erro
LS<- p + erro
Exemplo 16 (Exercício): Sabe-se por experiência que 5% da produção de um determinado artigo
é defeituoso. Um novo empregado é contratado das 600 peças produzidas por ele, 82 são defeituosas.
Se ele produzir mais artigos defeituosos do que o padrão da empresa ele é demitido. Determine um
intervalo de 90% de conança e verique se você demitiria o empregado.
124
# Sintaxe:
n<-600
p<-x/n
q<-1 - p
erro<-qnorm(0.05, lower.tail = F)*sqrt(p*q/n)
LI<- p - erro
LS<- p + erro
7.8.1 Dimensionamento do tamanho de amostras

Uma vez que p̂ é o estimador de p, podemos denir o erro na estimação de p por meio de p̂ como
ε =| p − p̂ |. Observe que estamos aproximadamente 100 (1 − α) % conantes de que esse erro seja
p
menor do que Zα/2 p (1 − p) /n. Ou seja, em situações em que o tamanho da amostra puder ser
selecionado, podemos escolher n de modo a estarmos 100 (1 − α) % conantes de que o erro seja menor
p
do que algum valor especicado ε. Se estabelecermos ε = Zα/2 p (1 − p) /n e resolvermos para n, o
tamanho apropriado da amostra será (MONTGOMERY & RUNGER, 2003):
2
Zα/2
n= ε pb (1 − pb) . (19)
Exemplo 17: Em uma amostra aleatória de 85 mancais de eixos de manivelas de motores de auto-
móveis, 10 têm um acabamento de superfície mais rugoso do que as especicações permitidas. Quão
grande deverá ser a amostra se quisermos estar 95% conantes de que o erro em usar p̂ para estimar
p seja menor do que 0,05?
Solução: Tem-se que p̂ = 10/85 = 0, 12 é uma estimativa inicial de p. Dessa forma, o tamanho da
amostra será:
2 2 2
Z0,05/2
n= ε p̂ (1 − p̂) = 1,96
0,05 0, 12 (1 − 0, 12) = 1,96
0,05 0, 12 (0, 88) ∼
= 163.

# Sintaxe:
n<-85
p<-x/n
q<-1 - p
erro<-0.05
## conança de 95%
n<-round((((qnorm(0.025,lower.tail=FALSE))/erro)^2)*p*q)
n
125
7.9 Intervalo de conança para diferença entre duas proporções

Denição: Se p̂a e p̂b são as proporções de sucessos em amostras aleatórias de tamanhos na e nb ,
respectivamente, e q̂a = 1 − p̂a e q̂b = 1 − p̂b , um intervalo de conança de 100 (1 − α) % aproximado
para a diferença dos dois parâmetros binomiais (p̂a − p̂b ) é dado por (WALPOLE et al., 2009):
q
IC (Pa − Pb ) : p̂a − p̂b ± Zα/2 pˆna q̂aa + pˆnb q̂bb , (20)
100(1−α)%
em que: p̂a é a proporção estimada na amostra retirada da população A; p̂b é a proporção estimada na
amostra retirada da população B; na e nb são os tamanhos das amostras retiradas das populações A e
B, respectivamente.
Nota: Se ocorrer P.F.A.S.R., o componente da variância referente a população na qual ocorreu
P.F.A.S.R. deve ser multiplicado pelo seu respectivo fator de correção.
Exemplo 18 (Exercício): Dois setores de uma empresa querem saber se a proporção de funcionários
que chegam atrasados ao trabalho é a mesma. Você como gerente da empresa precisa decidir qual setor
receberá uma bonicação, ou seja, ganhará o setor que apresentar menor proporção de funcionários
atrasados. Com base nos resultados abaixo verique ao nível de 5% de signicância se um ou os dois
setores ganharão a bonicação.
Setor da Empresa Administrativo Financeiro
Proporção de funcionários atrasados 0,08 0,06
Tamanho da amostra 20 30

# Sintaxe:
pa<-0.08
pf<-0.06
na<-20
nf<-30
qa<-1 - pa
round(qa, digits = 3)
qf<-1 - pf
round(qf, digits = 3)
erro<-qnorm(0.025, lower.tail = F)*sqrt((pa*qa/na) + (pf*qf/nf))
LI<- (pa - pf) - erro
LS<- (pa - pf) + erro
7.10 Intervalo de conança para variância de uma população Normal

Denição: Se S2 é a variância da amostra aleatória de tamanho n de uma população normal, um
intervalo de conança de 100 (1 − α) % 2
para σ é dado por (WALPOLE et al., 2009):

(n−1)S 2 (n−1)S 2
IC σ 2

: χ2 α
; χ2 α
, (21)
100(1−α)% ( 2 ; v=n−1) (1− 2 ; v=n−1)
126
7.11 Intervalo de conança para o quociente de variâncias
em que χ2( α ; v=n−1) e χ2(1− α ; v=n−1) são os valores de χ2 com v = n−1 graus de liberdade, que deixam
2 2
uma área α/2 e 1 − α/2 à direita, respectivamente.
Exemplo 19: Sabe-se que o tempo de vida de um certo aparelho tem distribuição aproximadamente
normal. Uma amostra de 25 aparelhos forneceu uma média de 500 horas e desvio padrão de 50 horas.
Construa um intervalo σ2 para de 2% de probabilidade.
Solução: Sabe-se que n = 25, α = 2%, X̄ = 500hs e S = 50hs então:

(n−1)S 2 (n−1)S 2
σ2

IC : χ2 α
; χ2 α
100(1−α)% ( 2 ; v=n−1) (1− 2 ; v=n−1)
" #
(25−1)502 (25−1)502
σ2

IC : χ2 0,02
; χ2
98% ( 2 ;v=25−1 ) (1− 0,02
2 ;v=25−1)
h 2 24∗502
i
IC σ 2 : 25∗50 ;
42,98 10,856
98%
IC σ 2 : [1396; 5527].

98%
Interpretação: Pode-se armar com 98% de conança que o intervalo contém a variabilidade (vari-
ância) do tempo de vida do aparelho.

# sintaxe:
n<-25
v<-n-1
var<-2500
q1<-round(qchisq(0.99, v), digits = 3) # retorna quantil da qui-quadrado cuja área abaixo do mesmo é de 0,99
q1
q2<-round(qchisq(0.01, v), digits = 3) # retorna quantil da qui-quadrado cuja área abaixo do mesmo é de 0,01
q2
LI<- v*var/q1
LS<- v*var/q2

Denição: Se S12 e S22 e forem as variâncias de amostras aleatórias de tamanhos n1 e n2 , respectiva-
mente, provenientes de duas populações normais independentes, com variâncias desconhecidas σ12 e σ22
, então um intervalo de conança de 100(1 − a)% para o quociente (razão) de variâncias é dado por
h S2 S12
i
IC σ12 /σ22 : S12 F(1−α/2; v2 =n2 −1, v1 =n1 −1) ; F
S22 (α/2; v2 =n2 −1, v1 =n1 −1)
, (22)
2
100(1−α)%
127
em que F(α/2;v2 =n2 −1,v1 =n1 −1) e F(1−α/2;v2 =n2 −1,v1 =n1 −1) são os pontos percentuais a/2 superior e inferior da
distribuição F, com n2 −1 graus de liberdade no numerador e n1 −1 graus de liberdade no denominador,
respectivamente.
Nota: A Tabela da distribuição F contém somente pontos percentuais superiores, isto é, F(α/2;u,v) . Os
pontos percentuais inferiores F(1−α/2;u,v) podem ser encontrados como segue:
1
F(1−α/2;u,v) = F(α/2;u,v) . (23)
Dessa forma, F(1−α/2;v2 =n2 −1,v1 =n1 −1) = 1/F(α/2;v1 =n1 −1,v2 =n2 −1) , então o intervalo pode ser escrito
como:
h S2 1 S2
i
IC σ12 /σ22 : S12 F ; S12 F(α/2;v2 =n2 −1,v1 =n1 −1) . (24)
2 (1−α/2;v1 =n1 −1,v2 =n2 −1) 2
100(1−α)%
Regra de decisão para o intervalo de conança (IC) para o quociente de variâncias

1. Se IC inclui 1 em sua extensão, então, estatisticamente σ12 = σ22 ;
2. Se IC > 1, então, estatisticamente σ12 > σ22 ;
3. Se IC < 1, então, estatisticamente σ12 < σ22 .
Exemplo 20: De duas populações normais levantaram-se amostras de tamanho 9 e 11 respectivamente,
2
obtendo-se S1 = 7, 14 e S22 = 3, 21 . Construa um intervalo de conança para o quociente das variâncias
das duas populações ao nível de 10% e verique se as variâncias populacionais podem ser consideradas
relativamente iguais.
Solução: Diante das informações temos que: S12 = 7, 14; S22 = 3, 21; n1 = 9; n2 = 11; S12 /S22 = 2, 2243;
v1 = 9 e v2 = 10, logo, o IC será:
h S2 S12
i
IC σ12 /σ22 : S12 F(1−α/2; v2 =n2 −1; v1 =n1 −1) ; F
S22 (α/2; v2 =n2 −1; v1 =n1 −1)
2
100(1−α)%
h i
IC σ12 /σ22 : 7,14
3,21 F
1
; 7,14
3,21 F(0,10/2; 10; 8)
(0,10/2; 8; 10)
90%
h 1
i
IC σ12 /σ22 : 2, 2243 F ; 2, 2243F(0,05; 10; 8)
(0,05; 8; 10)
90%
h 1
i
IC σ12 /σ22 : 2, 2243 3,0717 ; 2, 2243.3, 3472
90%
IC σ12 /σ22 : [0, 7241; 7, 4452]

90%
Interpretação: Uma vez que esse intervalo de conança inclui a unidade (um), não podemos armar
que as variâncias para as duas populações sejam diferentes com um nível de 90% de conança, ou seja,
as populações são homocedásticas.
128
# sintaxe:
n1<-9
n2<-11
v1<-n1 - 1
v2<-n2 - 1
v1
v2
var1<-7.14
var2<-3.21
q1<-round(qf(0.05, v2, v1), digits = 4) # retorna quantil da F cuja área abaixo do mesmo é de 0,05
q1
q2
LI<- (var1/var2)*q1
LS<- (var1/var2)*q2
Exemplo 21 (Exercício): Uma companhia fabrica propulsores para uso em motores de turbinas de
avião. Uma das operações envolve esmerilhar o acabamento de uma superfície particular para um
componente de liga de titânio. Dois processos diferentes para esmerilhar podem ser usados, podendo
produzir peças com iguais rugosidades médias na superfície. Uma amostra aleatória de n1 = 11peças,
proveniente do primeiro processo, resulta em um desvio padrão de S1 = 5, 1micro polegadas. Uma
amostra aleatória de n2 = 16peças, proveniente do segundo processo, resulta em um desvio padrão S2 =

4, 7de micro polegadas. Considerando que os dois processos sejam independentes e que a rugosidade
na superfície seja normalmente distribuída, encontre um intervalo de conança de 90% para a razão
de duas variâncias. Existe variabilidade da rugosidade da superfície para os dois processos?
Solução: Diante das informações temos que: S1 = 5, 1; S2 = 4, 7; n1 = 11; n2 = 16; S12 /S22 =
1, 177456; v1 = 10 e v2 = 15, logo, o IC será:
h S2 S2
i
IC σ12 /σ22 : S12 F(1−α/2; v2 =n2 −1; v1 =n1 −1) ; S12 F(α/2; v2 =n2 −1; v1 =n1 −1)
2 2
100(1−α)%
h S2 1 S2
i
IC σ12 /σ22 : S12 F ; S12 F(α/2; v2 =n2 −1; v1 =n1 −1)
2 (1−α/2; v1 =n1 −1; v=n2 −1) 2
100(1−α)%
h 2 2
i
IC σ12 /σ22 : 5,1
4,72 F
1
; 5,1 F
4,72 (0,10/2; 15; 10)
(0,10/2; 10; 15)
90%
h 1
i
IC σ12 /σ22 : 1, 177456 F ; 1, 177456.F(0,05; 15; 10)
(0,05; 10; 15)
90%
h 1
i
IC σ12 /σ22 : 1, 177456 2,5437 ; 1, 177456.2, 8450
90%
129
IC σ12 /σ22 : [0, 462891; 3, 349862]

90%
Interpretação: Uma vez que esse intervalo de conança contém 1 em sua extensão, não podemos
armar que as variâncias da rugosidade da superfície para os dois processos sejam diferentes com um
nível de conança de 90%.

# sintaxe:
n1<-11
n2<-16
v1<-n1 - 1
v2<-n2 - 1
v1
v2
var1<-5.1^2
var2<-4.7^2
q1
q2
LI<- (var1/var2)*q1
LS<- (var1/var2)*q2

Exercício 1: (BRUNI, 2008) As vendas semanais de 15 lojas de uma região de um país apresentaram
uma média igual a $20.000,00. Sabendo que as vendas de todas as lojas da região é uma variável
normalmente distribuída, com desvio padrão igual a $8.300,00. Supondo um nível de conança igual
a 96%, qual deve ser a média populacional das vendas?
Rotina do Exercício 1:
media<-20000
sigma<-8300
n<-15
erropad<-sigma/sqrt(n)
LI<-media-erro
LI
LS<-media+erro
LS
Exercício 2: (BRUNI, 2008) Uma amostra de 16 barras de chocolate revelou os pesos apresentados
na tabela seguinte. Qual deve ver o verdadeiro peso, para um nível de conança de 97%? Suponha
população normalmente distribuída.
130
0,212 0,233 0,246 0,271

0,274 0,244 0,288 0,293
0,300 0,215 0,233 0,225
0,265 0,276 0,270 0,202
dados<-read.table("Exer_2_barras_chocolate.txt", h=T)
attach(dados)
dados
media<-mean(dados)
media
s<-sd(dados)
n<-16
v<-n-1
erropad<-s/sqrt(n)
quantil<-qt(0.015, v, lower.tail=FALSE)
LI<-media-erro
LI
LS<-media+erro
LS
Exercício 3: (BRUNI, 2008) O consumo calórico diário de um grupo de alunas da faculdade pode ser
visto na tabela seguinte (valores em calorias). Com base nos valores apresentados, estime qual deve
ser o verdadeiro valor calórico diário médio da população. Suponha um nível de conança igual a 93%
e a população normalmente distribuída.
2.480 3.380 3.020

3.520 2.640 2.650
2.760 2.990 2.890
dados<-read.table("Exer_3_consumo_calorico.txt", h=T)
attach(dados)
dados
media<-mean(dados)
media
s<-sd(dados)
n<-9
v<-n-1
erropad<-s/sqrt(n)
LI<-media-erro
LI
LS<-media+erro
LS
Exercício 4 modicado (BRUNI, 2008) Uma empresa fabricante de linhas de pesca testou uma
amostra de 25 carretéis de náilon, encontrando as resistências em kgf apresentadas no quadro seguinte.
131
Estime o intervalo de 98% de conança para resistência média deste produto. Suponha a população
normalmente distribuída.
10 10 10 11 10
8 10 10 10 11
9 11 9 11 9
7 9 7 9 11
11 11 8 11 10
dados<-read.table("Exer_4_linha_pesca.txt", h=T)
attach(dados)
dados
media<-mean(dados)
media
s<-sd(dados)
n<-25
v<-n-1
erropad<-s/sqrt(n)
quantil<-qnorm(0.01, v, lower.tail=FALSE)
LI<-media-erro
LI
LS<-media+erro
LS
Exercício 5: (BRUNI, 2008) Uma amostra aleatória foi extraída dos alunos da Economia. Os pesos
destes alunos estão representados na tabela seguinte. Com base nos dados expostos e empregando
um nível de signicância igual a 5%, estime qual deve ser o peso médio populacional destes alunos.
Suponha a população normalmente distribuída.
45 51 96 62
68 55 74 57
72 60 43 62
132
dados<-read.table("Exer_5_pesos_alunos.txt", h=T)
attach(dados)
dados
media<-mean(dados)
media
s<-sd(dados)
n<-12
v<-n-1
erropad<-s/sqrt(n)
LI<-media-erro
LI
LS<-media+erro
LS
b) Ao nível de 5% de signicância, determine o intervalo de conança para o peso médio dos alunos
da Economia.
c) Ao nível de 1% de signicância, determine o intervalo de conança para o peso médio dos alunos
da Economia.
Exercício 6: Uma Cia adquiriu 500 cabos. Uma amostra de 30 deles ao acaso apresentou tensão de
ruptura média igual a 2.400 kg com desvio padrão de 150 kg.
a) Obter o intervalo com 99% de conança para a verdadeira tensão média de ruptura desses cabos.
b) Obter o intervalo com 95% de conança para a verdadeira tensão média de ruptura desses cabos.
c) Obter o intervalo com 90% de conança para a verdadeira tensão média de ruptura desses cabos.
133
8 TEORIA DA DECISÃO TESTES DE
HIPÓTESES
O maior objetivo da inferência estatística é realizar inferências sobre os parâmetros desconhecidos
a partir de amostras retiradas da população objeto de estudo. Uma das alternativas, muitas vezes
utilizadas são os Testes de Hipóteses que consistem na tomada de decisões a partir da aceitação ou
não de hipóteses, e por isso a teoria de testes de hipóteses também é chamada de Teoria da Decisão.
A Teoria da Decisão tem como objetivo de fornecer um processo de análise denominado de teste de
hipóteses, que nos permite decidir por um valor do parâmetro θ ou por sua modicação com um grau
de risco conhecido. Suponhamos que certa distribuição dependa de um parâmetro θ e que não se
conheça θ ou, então, há razões para acreditar que θ variou, seja pelo passar do tempo ou, então, pela
introdução de novas técnicas na produção (MORETTIN, 2010).
8.1 Hipótese estatística

Uma hipótese, no contexto de inferência estatística, é denida como uma proposição acerca de um
parâmetro populacional. Além disso, poder-se-ia dizer que é uma proposição cuja veracidade pode
ser colocada em dúvida, ou que da qual não se tem total certeza. Em função da possibilidade de ela
ser falsa, quase sempre pensa-se em uma hipótese complementar, a negação da primeira. A hipótese
estatística é uma suposição quanto ao valor de um parâmetro que será vericado por intermédio de um
teste paramétrico ou uma informação quanto a natureza da população que seria vericado por meio de
um teste não paramétrico (aderência). Portanto, pode-se denir teste de hipótese como a proposição
de hipóteses H0 e H1 .
De modo geral, as hipóteses irão se referir ao valor desconhecido do parâmetro em questão estar contido
em subespaços do espaço paramétrico Θ (universo):

 H : θΘ
0 0
, Θ = Θ0 ∪ Θ1 .
 H : θΘ
1 1
A rejeição de uma hipótese implica na aceitação da outra, e vice versa.
8.2 Tipos de hipóteses

Formulam-se duas hipóteses básicas: a hipótese original de interesse, e sua complementar, que são
respectivamente chamadas de hipótese de nulidade e hipótese alternativa, e são em geral simbolizadas
por H0 e H1 , respectivamente.
H 0 : Hipótese nula ou de nulidade ou da existência consiste na hipótese a ser testada.
135
8 TEORIA DA DECISÃO TESTES DE HIPÓTESES
H 1 : Hipótese alternativa consiste na hipótese contrária a H0 .
Vejamos alguns exemplos de hipótese:
Os pneus da marca A têm vida média µ = µ0 ;
O nível de inteligência de uma população de universitários é µ = µ0 ;
O equipamento A produz peças com variabilidade menor que a do equipamento B:

2 < σ2 ;
σA B
O pneu produzido pelo processo A é mais durável que o pneu produzido pelo processo B: µA > µB .
8.3 Tipos de testes de hipóteses
De acordo com o tipo de hipótese formulada pode-se ter os seguintes tipos de testes de hipóteses:
1) Teste Bilateral:
Apresenta duas regiões de rejeição (regiões críticas) da hipótese H0 situadas nos extremos da distri-
buição amostral que serão denotadas por (RRH0 ), e é utilizado para testar as hipóteses do tipo:
H0 : θ = θ0 versus H1 : θ 6= θ0
Figura 1: Região Crítica
2) Teste Unilateral à Direita:

Apresenta apenas uma única região de rejeição da hipótese H0 , situada no extremo superior (à direita)
da distribuição amostral, e é utilizado para testar hipóteses do tipo:
136
8.4 Tipos de erros
H0 : θ = θ0 versus H1 : θ > θ0
3) Teste Unilateral à Esquerda:

Apresenta apenas uma única região de rejeição da hipótese H0 , situada no extremo inferior (à esquerda)
da distribuição amostral, e é utilizado para testar hipóteses do tipo:
H0 : θ = θ0 versus H1 : θ < θ0
8.4 Tipos de erros
Ao realizar um teste de hipótese, dois tipos de erros são possíveis, rejeitar H0 quando ela é verdadeira,
ou aceitá-la quando ela é falsa. Esses erros são chamados, respectivamente, de erro tipo I e erro tipo
II. No quadro abaixo é ilustrado as decisões sob a hipótese H0 (FONSECA & MARTINS, 2009):
137
Decisão H0 Verdadeira H0 Falsa

Não Rejeitar H0 Não há erro (1 − α) = γ (1) Erro tipo II β
(Decisão correta)
Rejeitar H0 Erro Tipo I α (2) Não há erro (1 − β) (3)
(Decisão correta)
(1) γ : nível de conança; (2) α : nível de signicância; (3) (1 − β): nível de signicância;
Em síntese temos:
1. Erro tipo I (α): ocorre quando rejeita-se H0 e H0 é verdadeira. A probabilidade se cometer o
erro tipo I é denotada por α e denominada como nível de signicância do teste;
2. Erro tipo II (β): ocorre quando não rejeita-se H0 e H0 é falsa. A probabilidade se cometer o erro
tipo II é denotada por β.

O objetivo em nossa decisão, é minimizar as probabbilidades dos dois tipos de erros. Porém, esta é
uma tarefa difícil, porque, para um amostra de determinado tamanho, a probabilidade de se incorrer
em um erro tipo II aumenta à medida que diminui a probabilidade do erro tipo I, e vice-versa. A
redução simultânea dos erros poderá ser alcançada pelo aumento do tamanho da amostra (FONSECA
& MARTINS, 2009).
8.5 Procedimento para realização de um teste de hipótese

1. Formular as hipóteses H0 e H1 ;
2. Fixar o valor de a (nível de signicância);
3. Escolha a estatística adequada para o teste;
4. Construir a regra de decisão: Região de Rejeição de H0 (RRH0 ) e Região de Não Rejeição de
H0 (RN RH0 );
5. Tomar a decisão;
6. Conclusão.
8.6 Testes de hipóteses para média

8.6.1 Teste de hipótese para média (µ) com variância populacional (σ2 ) conhecida:
Suponha que desejamos testar as hipóteses H0 : µ = µ0 versus H1 : µ 6= µ0 sendo µ0 uma constante
especícada. Temos uma amostra aleatória X1 , X2 , X3 , . . . , Xn a partir da população. Visto que X

tem uma distribuição normal (isto é, a distribuição amostral de X é aproximadamente normal) com
√
média µ X = µ0 e desvio padrão σX = σ/ n, se a hipótese nula for verdadeira, poderemos construir
uma região crítica baseada no valor calculado da média amostral X. Geralmente, é mais conveniente
padronizar a média amostral e usar uma estatística de teste baseada na distribuição normal padrão.
Ou seja, o procedimento de teste para H0 : µ = µ0 usa a seguinte estatística de teste (MONTGOMERY
& RUNGER, 2003):
X̄−µ0
Zcalc = √σ .
n
A seguir é apresentado a regra de decisão:
138
H0 versus H1 Teste Rejeita-se H0

µ = µ0 versus µ < µ0 Unilateral à esquerda Z < −Zα
µ = µ0 versus µ > µ0 Unilateral à direita Z > Zα
µ = µ0 versus µ 6= µ0 Bilateral Z < −Zα/2 e Z > Zα/2
Exemplo 1: (MORETTIN, 2010)De uma população normal com variância 36, toma-se uma amostra
casual de tamanho 16, obtendo-se X̄ = 43. Ao nível de 10%, testar as hipóteses, H0 : µ = 45 versus
H1 : µ 6= 45.
De acordo com o procedimento apresentado na seção (8.5) segue-se a resolução do exercício:
(i) H0 : µ = 45 versus H1 : µ 6= 45
(ii) α = 10% = 0, 10
X̄−µ 43−45
(iii) Estatística do Teste: Zcalc = √σ = √6
= −1, 333
n 16
(iv) Plotar região crítica:
Distribuição Normal Padrão

0.4
0.3
Probabilidades
0.2
0.1
RRHo (0,05) RNRHo (0,90) RRHo (0,05)

0.0
−3 −2 −1.64 −1 0 1 1.64 2 3
(v) Decisão: Como −1, 64 < Zcalc < 1, 64, não rejeita-se a hipótese H0 .
(vi) Conclusão: Ao nível de signicância de 10% não há evidências para rejeitar a hipótese nula (H0 ),
ou seja, µ = 45.
>sigma2<-36
>sigma<-sqrt(sigma2)
>mi<-45
>media<-43
>n<-16
>est<-(media-mi)/(sigma/sqrt(n))
>est
[1] -1.333333
>quantil<-qnorm(0.05, lower.tail=FALSE)
>quantil
[1] 1.644854
#Regra de decisão
# se est >quantil ou est <quantil rejeita-se Ho
139
Exemplo 2 (MORETTIN, 2010): Uma fábrica anuncia que o índice de nicotina dos cigarros da marca
X apresenta-se abaixo de 26 mg por cigarro. Um laboratório realiza 10 análises do índice obtendo: 26,
24, 23, 22, 28, 25, 27, 26, 28, 24. Sabe-se que o índice de nicotina dos cigarros da marca X se distribui
2
normalmente com variância 5,36 mg . Pode-se aceitar a armação do fabricante, ao nível de 5%?
(i) H0 : µ = 26 mg versus H1 : µ < 26 mg
(ii) α = 5% = 0, 05
X̄−µ 25,3−26
(iii) Estatística do Teste: Zcalc = √σ = q
5,36
= −0, 96
n
10
(iv) Plotar região crítica

0.4
0.3
Probabilidades
0.2
0.1
RRHo (0,10) RNRHo (0,90)

0.0
−3 −2 −1.64 −1 0 1 2 3
(v) Decisão: Como Zcalc = −0, 96 > −1, 64, não rejeita-se a hipótese H0 .
ou seja, µ = 26. Logo a armação do fabricante é falsa.
>dados<-read.table("Exemplo_2.txt", h=T)
>attach(dados)
>dados
>mi<-26
>mi
[1] 26
>media<-mean(dados)
>media
nicotina
25.3
>sigma2<-5.36
>sigma<-sqrt(sigma2)
>n<-10
>est<-(media-mi)/(sigma/sqrt(n))
>est
nicotina
-0.9561271
>quantil<-qnorm(0.05)
>quantil
[1] -1.644854
140
Exemplo 3 (MORETTIN, 2010): Um fabricante de lajotas de cerâmicas introduz um novo material
em sua fabricação e acredita que aumentará a resistência média, que é de 206 kg. A resistência das
lajotas tem distribuição normal com desvio padrão de 12 kg. Retira-se uma amostra de 30 lajotas,
obtendo-se X̄ = 210 kg. Ao nível de 10%, pode o fabricante aceitar que a resistência média de suas
lajotas tenha aumentado?
(i) H0 : µ = 206 kg versus H1 : µ > 206 kg
(ii) α = 10% = 0, 10
X̄−µ 210−206
(iii) Estatística do Teste: Zcalc = √σ = √12
= 1, 83
n 30

0.4
0.3
Probabilidades
0.2
0.1
RNRHo (0,90) RRHo (0,10)

0.0
−3 −2 −1 0 1 1.28 2 3
(v) Decisão: Como Zcalc = 1, 83 > 1, 28, rejeita-se a hipótese H0 .

(vi) Conclusão: Ao nível de signicância de 10% há evidências para rejeitar a hipótese nula (H0 ), ou
seja, µ > 206. Logo a armação do fabricante é correta.
> mi<-206
> mi
[1] 206
> media<-210
> sigma<-12
> n<-30
> est<-(media-mi)/(sigma/sqrt(n))
> est
[1] 1.825742
> quantil<-qnorm(0.10, lower.tail=FALSE)
> quantil
[1] 1.281552
8.6.2 Teste de hipótese para média (µ) de uma população Normal com variância
populacional (σ2 ) desconhecida:
Suponha que a população de interesse tenha uma distribuição normal, com média µ e variância σ2
desconhecidas. Desejamos testar as hipóteses H0 : µ = µ0 versus H1 : µ 6= µ0 sendo µ0 uma constante
141
especícada. Note que essa situação é similar àquela da seção (8.6.1), exceto que agora µ e σ2, são
desconhecidas. Considere que uma amostra aleatória de tamanho n, como X1 , X2 , X3 , . . . , Xn , seja

retirada a partir da população e sejam X 2
e S a média e a variância amostral, respectivamente. O
procedimento de teste para H0 : µ = µ0 usa a seguinte estatística de teste (MONTGOMERY &
RUNGER, 2003):
tcalc = X̄−µ0
S
√
,
n
tem uma distribuição t-Student, com v =n−1 graus de liberdade (gl).
Regeita-se H0
H0 versus H1 Teste n < 30 com v =n−1 gl n ≥ 30
µ = µ0 versus µ < µ0 Unilateral à esquerda tcalc < −t(α,v) Z < −Zα
µ = µ0 versus µ > µ0 Unilateral à direita tcalc > t(α,v) Z > Zα
µ = µ0 versus µ 6= µ0 Bilateral tcalc < −t(α/2,v) e t > t(α/2,v) Z < −Zα/2 e Z > Zα/2
Nota Importante: Se amostra for grande e a variância populacional for desconhecida, podemos usar
o procedimento de teste baseado na distribuição normal (teste Z). Entretanto, se amostra for pequena
e a variância populacional for desconhecida, usa-se a distribuição t-Student (teste t ). Neste material
será trabalhado apenas o teste t (para variância desconhecida) em ambos os casos. Isso se deve ao
fato de que o teste Z é uma particularidade do teste t para um número razoável de amostras(n ≥ 30)
e a utilização de t em casos de variância conhecida não é um problema, pelo contrário, cobre o teste
para os casos de erro do tipo I.
A função de teste de hipótese para uma média no R é realizada por meio do comando t.test() .
Posteriormente veremos que a mesma função servirá para comparação entre duas médias. Veja abaixo
a sintaxe da função:
#sintase
# Onde as hipóteses podem assumir os seguintes valores:
# greater (teste unilateral de H1 : µ > µ0 - teste unilateral à direita
# less (teste unilateral de H1 : µ < µ0 - teste unilateral á esquerda
# two.sided (teste bilateral de H1 : µ 6= µ0 - teste bilateral
# β= nível de conança do teste (1-α)
8.6.2.1 Teste de normalidade - Shapiro-Wilk

Diante do exposto nesta seção ca evidente a necessidade de vericar se a pressuposição de normalidade
da população é satisfeita quando a variância populacional é desconhecida. No presente material a
pressuposição de normalidade será estudada por meio do teste de Shapiro-Wilk.
As hipóteses do teste são:
H0 : A amostra provém de uma população normal versus H1 : A amostra não provém de uma população
normal.
A seguir será apresentado o procedimento para a aplicação do teste:
142
1. Ordenar as n observações da amostra: x1 ≤ x2 ≤ x3 ≤ . . . ≤ xn ;

n
2
P
n n xi
(xi − x̄)2 = x2i −
P P i=1
2. Carcular: ;
n
i=1 i=1
n/2
P
3. Calcular: b= an−i+1 (xn−i+1 − xi ), se n é ímpar despreze a observação mediana;
i=1
b2
4. Calcular a estatística do teste: Wcalc = n ;
(xi −x̄)2
P
i=1
5. Decisão:
a) Regra de Decisão por meio da tabela: Rejeitar a H0 ao nível de signicância α se Wcalc <
Wα ;
b) Regra de decisão por meio do p-value: Rejeitar a H0 ao nível de signicância α se p−value <
α.
Nota: Para realizar o cálculo de b (denominador da estatística W ) é necessário identicar na tabela

abaixo os coecientes (an−i+1 ).
Tabela 1 - Coecientes (an−i+1 ) para o teste de normalidade W de Shapiro-Wilk.
n
i 5 6 7 8 9 10 11 12
1 0,6646 0,6431 0,6233 0,6052 0,5888 0,5739 0,5601 0,5475
2 0,2413 ,2806 0,3031 0,3164 0,3244 0,3291 0,3315 0,3325
3 0,0000 0,0875 0,1401 0,1743 0,1976 0,2141 0,2260 0,2347
4 0,0000 0,0561 0,0947 0,1224 0,1429 0,1586
5 0,0000 0,0399 0,0695 0,0922
6 0,0000 0,0303
Exemplo 4: (BRUNI, 2008) Um determinado fabricante alega que um componente eletrônico dura,
em média, pelo menos 495 horas. Uma amostra com 12 componentes expôs o seguinte resultado,
que apresenta a duração de cada componente analisado: 475, 460, 511, 457, 468, 441, 484, 450, 476,
503, 447, 500. É possível concordar com o fabricante, assumindo α = 3%? Assume-se população
normalmente distribuída.
Antes de realizar o teste de hipótese para média (teste t), será realizado o teste de Shapiro-Wilk
para vericar se amostra é proveniente de uma população normal. De acordo com o procedimento
apresentado seção (8.6.2.1) segue os resultados do teste de Shapiro-Wilk:
1. As hipóteses do teste são: H0 : A amostra provém de uma população normal e H1 : A amostra

não provém de uma população normal;
2. Ordenar as n observações da amostra: 441, 447, 450, 457, 460, 468, 475, 476, 484, 500, 503, 511;
12 2
P
12 12 xi
(5672)2
(xi − x̄)2 = x2i −
P P i=1
3. Carcular:
n = 2.686.850 − 12 = 5.884, 6667;
i=1 i=1
n/2
P
4. Para calcular b= an−i+1 (xn−i+1 − xi ), montaremos um quadro auxiliar.
i=1
143
i n - i +1 an−i+1 xn−i+1 xi (xn−i+1 − xi ) an−i+1 (xn−i+1 − xi )

1 12 0,5475 511 441 70 0,5475*70 = 38,325
2 11 0,3325 503 447 56 0,3325*56 = 18,62
3 10 0,2347 500 450 50 0,2347*50 = 11,735
4 9 0,1586 484 457 27 0,1586*27 = 4,2822
5 8 0,0922 476 460 16 0,0922*16 = 1,4752
6 7 0,0303 475 468 7 0,0303*7 = 0,2121
6
an−i+1 (xn−i+1 − xi )=74,6495
P
b=
i=1
b2 (74,6495)2
5. Calcular a estatística do teste: Wcalc = n = 5.884,6667 = 0, 947;
P 2
(xi −x̄)
i=1
6. Decisão: Ao nível de signicância de 5% (α = 5%)e com n = 12, tem-se a partir da tabela de

valores críticos da estatística W de Shapiro-Wilk que: W(α=0,05;n=12) = 0, 859. Como Wcalc >
Wα , então não rejeita-se a hipótese H0 , ou seja, a amostra provém de uma população normal.
Dessa forma, pode-se prossegir com o teste de hipótese para média pois a pressuposição de
normalidade foi satisfeita.
Esse teste de normalidade pode ser realizado por meio do comando shapiro.test(). A seguir será
apresentada a rotina e a saída do freeware R referente ao teste de Shapiro-Wilk.
Rotina do Exemplo 4: teste de normalidade de Shapiro-Wilk
# Sintaxe: shapiro.test()
dados<-read.table("Exemplo_4.txt", h=T)
attach(dados)
# vericando pressuposição de normalidade - teste de Shapiro-Wilk
shapiro.test(dados$tempo)
Shapiro-Wilk normality test
data: dados$tempo
W = 0.947, p-value = 0.594
Nota Importante: Conclusão do teste de Shapiro-Wilk a partir do p-value.
Sabe-se que a regra de decisão a partir do p-value, consiste em rejeitar H0 ao nível de signicância α,
se p − value < α. Então, ao nível de signicância de 5% (α = 5%) , não rejeita-se H0 pois p-value =
0,594 > 0,05. Portanto, a amostra provém de uma população normal. Dessa forma, pode-se prossegir
com o teste de hipótese para média pois a pressuposição de normalidade foi satisfeita.
1. Hipóteses: H0 : µ = 495 horas versus H1 : µ > 495 horas.
2. α = 3% = 0, 03
X̄−µ 462,6667−495
3. Estatística do Teste: tcalc = √s = 23,12941
√
= −3, 35
n 12
4. Plotar região crítica
144
Distribuição t−Student com v = 11 g.l.
0.4
0.3
Probabilidades
0.2
0.1
RNRHo (0,97) RRHo (0,03)
0.0
−5 −3.35 0 2.096 5
5. Decisão: Como tcalc = −3, 35 < t(α=0,03; v=11) = 2, 096, não rejeita-se a hipótese H0 .
6. Conclusão: Ao nível de signicância de 3% não há evidências para rejeitar a hipótese nula (H0 ),
ou seja, µ = 485. Logo a armação do fabricante não é correta.
Rotina do Exemplo 4: Rotina do Exemplo 4 por meio do comando t.test:
> dados<-read.table("Exemplo_4.txt", h=T) dados<-read.table("Exemplo_4.txt", h=T)
> attach(dados) attach(dados)
> dados # vericando pressuposição de normalidade - teste de Shapiro-Wilk #
# vericando pressuposição de normalidade - teste de Shapiro-Wilk # shapiro.test(dados$tempo)
shapiro.test(dados$tempo) Shapiro-Wilk normality test
Shapiro-Wilk normality test data: dados$tempo
data: dados$tempo W = 0.947, p-value = 0.594
W = 0.947, p-value = 0.594 # resultado - ao nível de signicãncia de 5 % os dados são normais #
# resultado - ao nível de signicãncia de 5 % os dados são normais # # Aplicando o teste
> mi<-495 > t.test(dados, alternative = "two.sided", mu = 495, conf.level=0.97)
> media<-mean(dados) One Sample t-test
> s<-sd(dados) data: dados
> n<-12 t = -3.3449, df = 11, p-value = 0.006537
> v<-n-1 alternative hypothesis: true mean is not equal to 495
> est<-(media-mi)/(s/sqrt(n)) 97 percent condence interval:
> est 456.0368 489.2965
tempo sample estimates:
-3.344873 mean of x
> quantil<-qt(0.03, v, lower.tail=FALSE) 472.6667
> quantil
[1] 2.096139
Nota: Para interpretar os testes de hipóteses no R temos que comparar o p-value (p-valor) com o
nível de signicância: Se p-value > α, não rejeita-se H0 ; Se p-value < α, rejeita-se H0 .
Portanto, a conclusão a partir do p-valor, para o exemplo 4, seria: Visto que, p-value < 0,03 há
evidências para rejeitar a hipótese nula (H0 ), ou seja, não é possivel concordar com a armação do
fabricante.
Exemplo 5: (MORETTIN, 2010) Uma máquina é projetada para fazer esferas de aço de 1 cm de
raio. Uma amostra de 10 esferas apresentou uma média de 1,004 cm e desvio padrão de 0,003 cm. Há
razões para se suspeitar que a máquina esteja produzindo esferas com raio diferente de 1 cm ao nível
de 10%?
145
(i) H0 : µ = 1 cm versus H1 : µ 6= 1 cm
(ii) α = 10% = 0, 10
X̄−µ0 1,004−1
(iii) Estatística do Teste: tcalc = S
√
= 0,003
√
= 4, 21637
n 10
0.4
0.3
Probabilidades
0.2
0.1
RRHo (0,05) RNRHo (0,90) RRHo (0,05)

0.0
−5 −1.83 0 1.83 5
(v) Decisão: Como tcalc = 4, 21637 > 1, 83, rejeita-se a hipótese H0 .

seja, há razões para se suspeitar que a máquina esteja produzindo esferas com raio diferentes de 1 cm.
> mi<-1
> mi
[1] 1
> media<-1.004
> s<-0.003
> n<-10
> v<-n-1
> est<-(media-mi)/(s/sqrt(n))
> est
[1] 4.21637
> quantil<-qt(0.05, v, lower.tail=FALSE)
> quantil
[1] 1.833113
Exemplo 6: (MORETTIN, 2010) Querendo determinar o peso médio de nicotina dos cigarros de sua
25 25
Xi2 =
P P
produção, um fabricante recolheu uma amostra de 25 cigarros, obtendo Xi = 950mg e
i=1 i=1
36106mg 2 . Supondo a distribuição normal para o peso de nicotina, testar se o peso médio de nicotina
é inferior a 40mg. Adote nível de signicância de 10%.
(i) H0 : µ = 40 mg versus H1 : µ < 40 mg
(ii) α = 10% = 0, 10
146
8.7 Teste de hipótese para diferença de duas médias (amostras independentes)
X̄−µ 38−40
(iii) Estatística do Teste: tcalc = S
√
= 0.5
√
= −20
n 25
0.4
0.3
Probabilidades
0.2
0.1
RRHo (0,10) RNRHo (0,90)

0.0
−5 −1.317 0 5
(v) Decisão: Como t = −20 < −1.317836, rejeita-se a hipótese H0 .

seja, o peso médio de nicotina dos cigarros é inferior a 40 mg.
> mi<-40
> mi
[1] 40
> n<-25
> somax<-950
> somax2<-36106
> media<-somax/n
> media
[1] 38
> s<-sqrt((somax2-((somax)^2)/n)*(1/(n-1)))
> s
[1] 0.5
> est<-(media-mi)/(s/sqrt(n))
> est
[1] -20
> quantil<-qt(0.10, 24)
> quantil
[1]-1.317836
8.7 Teste de hipótese para diferença de duas médias (amostras

independentes)
variâncias populacionais conhecidas:
Suponha que duas amostras aleatórias independentes de tamanhos n1 e n2 , respectivamente, são se-
2 2
lecionadas de duas populações com médias µ1 e µ2 e variâncias σ1 e σ2 . Sabemos que a variável
147
aleatória:
X̄2 )−(µ1 −µ2 )

(X̄1 −r
Zcalc = 2
σ1 σ2
,
n1
+ n2
2
tem uma distribuição normal padrão. Aqui assume-se que n1 e n2 são sucientemente grandes para
aplicarmos o teorema central do limite. É claro, se duas populações são normais, a estatística dada
tem uma distribuição normal padrão, mesmo para n1 e n2 pequenos (WALPOLE et al., 2009).
Suponha que estou interessado em testar a diferença na média (µ1 − µ2 ) como sendo igual a um valor
especíco d0 . Assim, a hipótese nula será estabelecida como H0 : µ1 − µ2 = d0 . Em muitos casos,
d0 = 0, o que signica que estamos testando a igualdade de duas médias, isto é, H0 : µ1 − µ2 = 0

(MONTGOMERY & RUNGER, 2003).
H0 versus H1 Teste Regeita-se H0

µ1 − µ2 = d0 versus µ1 − µ2 < d0 Unilateral à esquerda Zcalc < −Zα
µ1 − µ2 = d0 versus µ1 − µ2 > d0 Unilateral à direita Zcalc > Zα
µ1 − µ2 = d0 versus µ1 − µ2 6= d0 Bilateral Zcalc < −Z α2 ou Zcalc > Z α2
Exemplo 7: Um supermercado não sabe se deve comprar lâmpadas da marca A ou B de mesmo preço.
Testa-se uma amostra de 100 lâmpadas de cada marca e se quer saber se a marca A é melhor que a B
ao nível de 2,5% de probabilidade.
Marca X̄ σ
A 1160 horas 90 horas
B 1140 horas 80 horas
(i) H0 : µA = µB versus H1 : µA > µB

(ii) α = 2, 5% = 0, 025
(X̄1 −r
X̄2 )−(µ1 −µ2 ) (1160−1140)
(iii) Estatística do Teste: Zcalc = 2
= r = 1, 66
σ1 σ2 902 2
+ n2 100
+ 80
n1 2 100

0.4
0.3
Probabilidades
0.2
0.1
RNRHo (0,975) RRHo (0,025)

0.0
−5 0 1.96 5
148
(v) Decisão: Como Zcalc = 1, 66 < 1, 96, não rejeita-se a hipótese H0 .

(vi) Conclusão: Ao nível de signicância de 2,5% não há evidências para rejeitar a hipótese nula (H0 ),
ou seja, não existe diferença signicativa entre o tempo de vida médio das lâmpadas A e B.
Rotina do exemplo 7:
> n1<-100
> n2<-100
> media1<-1160
> media2<-1140
> desvio1<-90
> desvio2<-80
> var1<-desvio1^2
> var2<-desvio2^2
> est<-(media1-media2)/(sqrt((var1/n1)+(var2/n2)))
> est
[1] 1.660910
> quantil<-qnorm(0.025, lower.tail=FALSE)
> quantil
[1] 1.959964
variâncias populacionais desconhecidas, mas iguais (Populações
Homocedásticas)
As situações mais rotineiras que envolvem testes para duas médias são aquelas nas quais as variân-
cias populacionais são desconhecidas. Se assumirmos que ambas as populações possuem distribuições
normais e que σ12 = σ22 = σ 2 , o teste t combinado (teste t em duas amostras) pode ser utilizado. A
estatística do teste é dada pelo procedimento a seguir (WALPOLE et al., 2009):
(X̄1 −X̄q2 )−(µ1 −µ2 )

tcalc = 1
,
Sp n1
+ n1
2
com ν = n1 + n2 − 2 graus de liberdade em que Sp é dado por:
q
Sp= (n1 −1)S12 +(n2 −1)S22
.
n1 +n2 −2

µ1 − µ2 = d 0 versus µ1 − µ2 < d0 Unilateral à esquerda tcalc < −t(α;v)
µ1 − µ2 = d 0 versus µ1 − µ2 > d0 Unilateral à direita tcalc > t(α;v)
µ1 − µ2 = d 0 versus µ1 − µ2 6= d0 Bilateral tcalc < −t( α ;v) ou tcalc > t( α ;v)
2 2
variâncias populacionais desconhecidas, mas desiguais (Populacões
Heterocedásticas)
Uma outra situação possível seria quando as duas populações possuem distribuições normais e que
σ12 6= σ22 . A estatística do teste é dada pelo procedimento a seguir (WALPOLE et al., 2009):
149
(X̄1 −rX̄2 )−(µ1 −µ2 )

tcalc = 2
S1 S2
,
n1
+ n2
2
que tem uma distribuição t aproximada com graus de liberdade aproximados(ν):
2
2
S2

S1
n1
+ n2
2
v= 2
S1
!2
2
S2
!2 .
n1 n2
n1 −1
+ n2 −1
A regra de decisão é análoga a regra de decisão da seção (8.7.2).
Exemplo 8: (MORETTIN, 2010) O QI de 16 estudantes de uma zona pobre de certa cidade apresenta
a média de 107 pontos com desvio padrão de 10 pontos, enquanto os 14 estudantes de outra região rica
da cidade apresentam média de 112 pontos com desvio padrão de 8 pontos. O QI em ambas as regiões
tem distribuição normal. Há uma diferença signicativa entre os QIs médios dos dois grupos a 5% ?
Suponha populações Homocedásticas.
(i) H0 : µA = µB versus H1 : µA 6= µB
(ii) α = 5% = 0, 05
(iii) Estatística do Teste:
(X̄1 −X̄q2 )−(µ1 −µ2 ) (107−112)

tcalc = 1
= q = −1.497091
Sp n1
+ n1 9,1261 161 1
+ 14
2
q
(16−1)100+(14−1)64
Em que, v = n1 + n2 − 2 = 16 + 14 − 2 = 28 e Sp = 16+14−2 = 9, 1261

0.4
0.3
Probabilidades
0.2
0.1
RRHo (0,025) RNRHo (0,95) RRHo (0,025)

0.0
−5 −2.048 0 2.048 5
(v) Decisão: Como −2, 048407 < tcalc < 2, 048407 , não rejeita-se a hipótese H0 .
ou seja, não existe diferença signicativa entre os QIs médios dos dois grupos.
Rotina do exemplo 8:
150
# teste para razão de variâncias - Unilateral à esquerda # TH Diferença de médias - Populações Homocedásticas
> var1<-100 > m1<-107
> var2<-64 > m2<-112
> est<-var1/var2 > var1<-100
> est > var2<-64
[1] 1.5625 > sp<-sqrt(((n1-1)*var1+(n2-1)*var2)/(n1+n2-2))
> sp
# quantil da distribuição F [1] 9.1261
> n1<-16 > est<-(m1-m2)/(sp*sqrt((1/n1)+(1/n2)))
> n2<-14 > est
> v1<-n1-1 [1] -1.497091
> v2<-n2-1
> qf(0.025, v1, v2) # área abaixo # quantil
[1] 0.3418915 > v<-n1 + n2 - 2
> qf(0.975, v1, v2) > qt(0.025, v, lower.tail=FALSE)
[1] 3.052713 [1] 2.048407
Exemplo 9: (MORETTIN, 2010) Em uma Demonstração de Estatística, 12 alunos de uma classe
conseguiram média 7,8 e desvio padrão 0,4, ao passo que 15 alunos de outra turma, do mesmo curso,
conseguiram média 7,4 com desvio padrão de 0,8. Considerando distribuições normais para as notas,
vericar se o primeiro grupo é superior ao segundo, ao nível de 5%. Considere populações heteroce-
dásticas.
(i) H0 : µA = µB versus H1 : µA 6= µB
(ii) α = 5% = 0, 05
(X̄1 −rX̄2 )−(µ1 −µ2 ) (7,8−7,4)−0
tcalc = 2 2
=q 0,16 0,64
= 1, 69
S1 S +
n1
+ n2 12 15
2
com ν graus de liberdade em que v é:
2
2
S2

S1
+ n2 2
n1 2 ( 0,16
12
+ 0,64
15 )
v= 2
!2
2
!2 = 2 2 = 21, 45
S1
n1
S2
n2
0,16
( 12 ) + ( 0,64
15 )
11 14
n1 −1
+ n2 −1

0.4
0.3
Probabilidades
0.2
0.1
RRHo (0,025) RNRHo (0,95) RRHo (0,025)

0.0
−5 −2.079 0 2.079 5
151
(v) Decisão: Como −2.079614 < tcalc < 2.079614 , não rejeita-se a hipótese H0 .
ou seja, não existe diferença entre os dois grupos.
Rotina do Exemplo 9: Na primeira coluna é apresentada uma rotina para vericar se as populações
são heterocedásticas. Na segunda coluna temos a rotina para o teste de hipótese para diferença entre
duas médias (populações heterocedásticas).
# teste para razão de variâncias - bilateral # TH Diferença de médias - Populações Heterocedásticas
> var1<-0.16 > m1<-7.8
> var2<-0.64 > m2<-7.4
> est<-var1/var2 > var1<-0.16
> est > var2<-0.64
[1] 0.25 > est<-(m1-m2)/sqrt((var1/n1)+(var2/n2))
> est
# quantil da distribuição F [1] 1.690309
> n1<-12
> n2<-15 > v<-(((var1/n1)+(var2/n2))^2)/((((var1/n1))^2)/(n1-1)+(((var2/n2))^2)/(n2-1))
> v1<-n1-1 > v<-round(v, digit=0)
> v2<-n2-1 > v
> qf(0.025, v1, v2) # área abaixo [1] 21
[1] 0.2977245
> qf(0.975, v1, v2) # quantil
[1] 3.09459 > qt(0.025, v, lower.tail=FALSE)
[1] 2.079614
8.8 Teste de hipótese para diferença de duas médias (amostras

dependentes)
O teste de comparação das médias anteriormente apresentado aplica-se quando as duas amostras são
independentes, signicando esta independência que cada indivíduo ou unidade experimental de uma
das amostras não está de algum modo associado com qualquer outro indivíduo da outra amostra. Exis-
tem situações em que cada uma das observações de uma das amostras está associada e correlacionada
com uma observação na segunda amostra, de modo que os dados de ambas as amostras aparecem aos
pares, uma observação de cada amostra. É muito usado nos casos em que os dados de um mesmo
indivíduo serão colhidos antes e depois de submetido a um tratamento. Serão colhidas duas amos-
tras, x1 , x2 , ..., xn e y1 , y2 , ..., yn que serão emparelhadas, isto é, a amostra será formada pelos pares
(x1 , y1 ) , (x2 , y2 ) , (xn , yn ). Portanto, fazemos testes de comparação de médias para dados emparelha-
dos (amostras pareadas), obtidas de populações Normais, quando os resultados das duas amostras são
relacionados dois a dois, de acordo com algum critério que fornece uma inuência entre os vários pares
e sobre os valores de cada par. Para cada par denido, o valor da primeira amostra está claramente
associado ao respectivo valor da segunda amostra (MORETTIN, 2010).
Como no caso do teste t combinado (seção 8.7.2), a suposição é de que as observações de cada população
são normais. Esse problema de duas amostras é essencialmente reduzido para um problema de uma
amostra ao usar as diferenças calculadas d1 = x1 − y1 , d2 = x2 − y2 , ..., dn = xn − yn . Portanto, a
hipótese se reduz a (WALPOLE et al., 2009):
H0 : µ1 − µ 2 = µ d = 0 versus H1 : µd > 0 ou µd < 0 ou µd 6= 0.
Então, do ponto de vista de cálculo, o teste é aplicado a uma única amostra de valores d , sendo a
estatística do teste calculada dada por (WALPOLE et al., 2009):
152
8.8 Teste de hipótese para diferença de duas médias (amostras dependentes)
D−µd
tcalc = SD ,
√
n
em que D e SD são variáveis aleatórias que representam a média e o desvio padrão amostrais das
diferenças das observações nas unidades experimentais.
As regiões críticas são construídas usando uma distribuição t com v =n−1 graus de liberdade.

µd = 0 versus µd < 0 Unilateral à esquerda tcalc < −t(α;v)
µd = 0 versus µd > 0 Unilateral à direita tcalc > t(α;v)
µd = 0 versus µd 6= 0 Bilateral tcalc < −t( α ;v) ou tcalc > t( α ;v)
2 2
Exemplo 10: Eciência de uma dieta (MORETTIN, 2010). Para exemplicar, tomaremos um grupo
de pessoas que zeram determinada dieta por uma semana. Medimos o peso no início e no nal
da dieta. As pessoas estão claramente determinadas. A identidade de cada uma tem inuência nos
valores observados de seu peso, porém essa inuência deve ser aproximadamente igual dentro de cada
par de valores do tipo antes e depois . Ao tomarmos a diferença entre varíos pares de valores e
trabalharmos com elas, a inuência de cada pessoa deverá desaparecer, cando apenas a inuência da
dieta. A partir dos dados abaixo será desenvolvido o teste de hipótese, com o intuito de de vericar se
houve diminuição do peso médio pela aplicação da dieta (α = 5%).
(1) 2 (2)
Pessoas Peso antes em kg Peso depois em kg di di
1 120 116 4 16
2 104 102 2 4
3 93 90 3 9
4 87 83 4 46
5 85 86 -1 1
6 98 97 1 1
7 102 98 4 16
8 106 108 -2 4
9 88 82 6 6
10 90 85 5 25
P
26 128
di é a diferença de observações correlacionadas, ou seja, di = antes depois; é a diferença de observações correlacionadas ao quadrado.
(1) (2)
di
Solução: De acordo com o procedimento apresentado na seção (8.5) segue-se a resolução do exemplo
10:
(i) H0 : µd = 0 versus H1 : µd > 0

(ii) α = 5% = 0, 05
D−µd 2,6−0
tcalc = tcalc = SD = 2,59
√
= 3, 17
√
n 10
r h
(26)2
i
4+2+...+5 1
em que D̄ = 10 = 2, 6 kg e SD = 9 (16 + 4 + ...25) − 10 = 2, 59 kg com ν = n−1 = 9
graus de liberdade.
(iv) Plotar região crítica:
153
0.4
0.3
Probabilidades
0.2
0.1
RNRHo (0,95) RRHo (0,05)
0.0
−5 0 1.83 5
(v) Decisão: Como tcalc > 1, 833, rejeita-se a hipótese H0 .

(vi) Conclusão: Com, 95% de conabilidade, concluímos que é signicativa a queda de peso pelo uso
da dieta no grupo.
Rotina para a obtenção do intervalo de conança do exemplo 10: Usaremos novamente o

comando t.test() e função paired para realizar o teste t para dados pareados.
# Sintaxe:
peso_antes<-c(120,104,93,87,85,98,102,106,88,90) # peso antes de experimentar a dieta

peso_depois<-c(116,102,90,83,86,97,98,108,82,85) # peso depois de experimentar a dieta
t.test(peso_antes, peso_depois, alternative = "greater", conf.level=0.95, paired = T)

Exercício 1: (BRUNI, 2008) Em uma amostra de 150 pessoas, 65 consumiam regularmente o biscoito
Saboroso. Em outra amostra de 250 pessoas, 90 eram consumidores costumazes. É possível notar
alguma diferença signicativa de proporção de consumidores? Assuma nível de conança igual a 95%.
Rotina do Execício 1:
n1<-150
n2<-250
x1<-65
x2<-90
p1<-x1/n1
q1<-1-p1
p2<-x2/n2
q2<-1-p2
var1<-(p1*q1)/n1
var2<-(p2*q2)/n2
est<-(p1-p2)/(sqrt(var1+var2))
est
quantil
Exercício 2: (BRUNI, 2008) Os dados a seguir foram obtidos após uma pesquisa amostral realizada
junto a professores de uma renomada instituição de ensino que alegava possuir nos seus quadros pelo
menos 40% dos professores com doutorado. Assumindo alfa igual a 3%,a armação da instituição
poderia ser aceita?
154
Sexo Com Doutorado Sem Doutorado

Masculino 14 26
Feminino 8 14
n<-22
x<-14
p0<-0.4
p<-x/n
q<-1-p
var<-(p*q)/n
est<-(p-p0)/(sqrt(var))
est
quantil
Exercício 3: (BRUNI, 2008) Uma indústria de ração para frangos alega que a adição de um novo
composto químico consegue elevar em mais de 100g o ganho de peso por parte do ciclo de engorda de
45 dias. Duas amostras de aves foram examinadas, sendo os resultados (pesos das aves em kg) apre-
sentados na tabela seguinte. Para alfa igual a 2%, é possível concordar com o fabricante? Assumem-se
populações normalmente distribuídas.
Com composto 1,8 2,3 1,6 2,5 1,9 1,5 2,1 2,2 1,9 1,8
Sem composto 1,2 1,8 1,8 2,1 1,7 1,4 1,8 2,0 1,3 1,5
dados<-read.table("Exercício_3_ração.txt", h=T)
attach(dados)
var.test(ccomp, scomp, ratio = 1, alternative="two.sided", conf.level=0.98)
#t.test(ccomp, scomp, altenative="greater", mu=0, var.equal = F, conf.level=0.98)
#t.test(ccomp, scomp, altenative="greater", mu=0, var.equal = T, conf.level=0.98)
Exercício 4: (BRUNI, 2008) O produtor de uma nova papinha nutritiva realizou um teste para saber a
ecácia se seu novo produto no aumento de peso das crianças. Quinze bebês foram alimentados, durante
três semanas, com a nova papinha e vericaram-se os seguintes aumentos de peso (em gramas):
250 240 370 280 380
300 400 330 300 290
340 320 340 310 320
Deseja-se testar a hipótese de que o ganho de peso médio seja igual à 300g, contra a hipótese de ganho
de peso ser diferente de 300g, sendo alfa igual a 10%. Suponha população normalmente distribuída.
dados<-read.table("Exer_4_papinha.txt", h=T)
attach(dados)
t.test(gramas, alternative="two.sided", mu=300, conf.level=0.90)
Exercício 5: (BRUNI, 2008) Uma determinada empresa deseja estudar a eventual ecácia da aplicação
dos programas de treinamento ministrados pela sua área de recursos humanos. Para isto, analisou duas
amostras de desempenhos de seus funcionários: grupo B funcionários submetidos a 80horas/aula de
treinamento- e grupo A- funcionários submetidos a 20horas/aula de treinamento, apenas. Os desempe-
nhos dos funcionários estão apresentados na tabela seguinte. Verique se existe diferença signicativa
entre os treinamentos dos grupos A e B. Assuma um nível de signicância de 5% e populações normal-
mente distribuídas.
155
Amostra Desempenhos obtidos

Grupo A 7 8 8 7 6 8 9 7 8
Grupo B 5 9 4 8 6 6 7 5 6
dados<-read.table("Exer_5_desempenho.txt", h=T)
attach(dados)
dados<-read.table("Exercício_3_ração.txt", h=T)
attach(dados)
var.test(grupoA, grupoB, ratio = 1, alternative="two.sided", conf.level=0.99)
#t.test(grupoA, grupoB, altenative="greater", mu=0, var.equal = F, conf.level=0.99)
#t.test(grupoA, grupoB, altenative="greater", mu=0, var.equal = T, conf.level=0.99)
156
9 REGRESSÃO LINEAR SIMPLES
9.1 Introdução
Um dos objetivos da ciência é encontrar, descrever e predizer relações entre eventos que ocorrem
na natureza. Um caminho para que isto aconteça é encontrar modelos que relacionem variáveis que
descrevam a realidade. Pode-se atingir este objetivo por meio de modelos de regressão. A análise de
regressão ocupa-se do estudo da dependência de uma variável, a variável dependente, em relação a
uma ou mais variáveis, as variáveis explicativas, com o objetivo de estimar e/ou prever a média (da
população) ou o valor médio da dependente em termos dos valores conhecidos ou xos (em amostragem
repetida) das explicativas. Ou seja, quando ajustamos um modelo que estabelece uma relação linear
entre uma variável dependente e uma variável independente, estamos estimando um modelo de regressão
linear simples. Quando existe uma relação linear entre uma variável dependente e duas ou mais variáveis
independentes, ajusta-se um modelo de regressão linear múltipla.
Primeiramente, vamos entender o signicado de regressão linear simples. Galton (1886), por meio de
um famoso ensaio vericou que, embora houvesse uma tendência de pais altos terem lhos altos e pais
baixos terem lhos baixos, a altura média dos lhos de pais de uma dada altura tendia a se deslocar
ou regredir até a altura média da população como um odo. Daí, o nome de regressão, conhecida
também como a lei de regressão universal de Francis Galton. Pearson & Lee (1903), coletou mais de
mil registros das alturas dos membros de grupos de famílias, neste estudo vericou-se que tanto os
lhos altos como baixos regrediram em direção à altura média de todos os homens. Nas palavras de
Galton, tratava-se de uma regressão á mediocridade .
O termo linear está relacionado à classicação do modelo. Os modelos de regressão são classicados
como lineares, linearizáveis e não-lineares. Nos modelos não-lineares, não é possível encontrar uma
forma analítica para a estimação dos parâmetros, isto é, as expressões dos estimadores não apresentam
uma solução explícita, exigindo o uso de métodos numéricos iterativos.
Draper & Smith (1998) classicam os modelos de regressão como:
a) modelos lineares: aqueles que são lineares em relação aos parâmetros, ou seja:
∂
∂θi fi (X, θ) = h (X)
para I = 1, 2, . . . , p; j = 1, 2, . . . , n, p é o número de parâmetros do modelo e n o número de
observações. Como ilustração, é apresentado o seguinte modelo de regressão:
Y = β0 + β1 X + ε
em que o erro é aditivo e β0 e β1 são os parâmetros a serem estimados. O cálculo das derivadas parciais,
∂Y ∂Y
∂β0 =1 e
∂β1 =X
157
mostra que nenhuma delas depende de algum parâmetro do modelo, portanto, o modelo é dito linear.
b) modelos linearizáveis: são modelos que por meio de alguma transformação se tornam lineares.
Seja o modelo:
Y = θx ε
em que, θ é um parâmetro a ser estimado e o erro é multiplicativo. Aplicando-se o logaritmo em ambos
os lados da equação, tem-se:
log (Y ) = log θX ε

log (Y ) = X log (θ) + log (ε)
Fazendo G = log (Y ) ; c = log (θ) ; e = log (ε), a equação pode ser escrita como:
G = cX + e
sendo linear, pois
∂G
∂c = X = h (X)
que independe do parâmetro, mostrando que o modelo original é linearizável.
c) modelos não-lineares: são modelos em que pelo menos uma das derivadas parciais depende de
algum parâmetro do modelo. Seja o modelo:
Y = θ1 + θ2X + ε
onde θ1 e θ2 são os parâmetros a serem estimados. O cálculo das derivadas parciais de y:
∂Y
∂θ1 =1 e
∂Y
∂θ2 = Xθ2x−1
mostra que a segunda delas depende do parâmetro θ2 , indicando que o modelo em questão é não-linear.
O termo simples e múltipla está relacionado ao número de variáveis independentes do modelo de
regressão, isto é, quando existe uma relação linear entre uma variável dependente e uma variável
independente, ajusta-se um modelo de regressão linear simples. Caso exista uma relação linear entre
uma variável dependente e duas ou mais variáveis independentes, ajusta-se um modelo de regressão
linear múltipla.
9.2 Modelo de regressão linear simples

O modelo de regressão linear simples relata o estudo de como a variável dependente y se relaciona com
uma variável independente x. O modelo estatístico de uma regressão linear simples é:
yi = β 0 + β 1 x i + e i ou y = β0 + β1 x + e. (1)
em que:
yi : representa o i-ésimo valor observado;
xi : representa a variável independente, i = 1, 2, ... , n;
εi : é o erro não observável associado a i-ésima observação;
β0 e β1 : são os parâmetros do modelo (1), que são o intercepto ou coeciente linear e o coeciente
angular de regressão.
158
9.2.1 Pressuposições sobre o modelo de regressão linear simples

Ao estabelecer o modelo de regressão linear simples, pressupomos que:
i) A relação entre x e y é linear;
ii) Os valores de x são xos, isto é, x não é uma variável aleatória; i
ii) A média do erro é zero, isto é, E = (εi ) = 0, ∀i = 1, 2, . . . , n;

V (εi ) = E ε2i =

iv) Para um dado valor de x, a variância do erro εi é sempre constante, isto é,
σ 2 , ∀i = 1, 2, . . . , n. Diz-se, então, que o erro é homocedástico;
v) O erro de uma observação é não correlacionado com o erro de outra observação (os erros são
independentes), ou seja, E (εi εj ) = 0 para i 6= j ;

σ2 εi ∼ N 0, 1σ 2

vi) O erro tem distribuição Normal com média zero e variância constante , isto é,
Em síntese, temos que os erros são independentes e identicamente distribuídos (distribuição Normal
σ2 εi ∼ iiN 0, 1σ 2

com média zero e variância ), ou seja, . A quarta pressuposição se faz necessário
para obter os intervalos de conança e testes de hipóteses.
9.2.2 Estimadores de Mínimos Quadrados

O objetivo na regressão é determinar estimadores de β0 e β1 de tal forma que as distâncias médias
entre a reta de regressão e os valores observados sejam minimizadas, ou seja, o erro cometido deve ser
o menor possível.
A partir do modelo (1) pode-se denir o erro da seguinte forma:
εi = yi − β0 − β1 x1 . (2)
O método que será utilizado para determinar os estimadores de β0 e β1 é denominado de Método de
Mínimos Quadrados. Esse método consiste em minimizar a soma de quadrados do erro ou resíduo do
modelo (1) ao longo de todos os n pares (xi ; yi ). A partir da equação (2) pode-se denir a soma de
quadrados dos resíduos (Q) como:
n n
ε2i = (yi − β0 − β1 xi )2 .
P P
Q= (3)
i=1 i=1
Para obter os estimadores de mínimos quadrados basta derivarmos a expressão (3) em relação aos
parâmetros β0 e β1 e posteriormente, igualarmos essas derivadas parciais a zero. Primeiramente,
vamos obter as derivadas parciais (Sistema de Equações Normais, SEN):
n

∂Q P
= −2 (yi − β0 − β1 xi )


 ∂β0
i=1 (4)
(sen) n
∂Q P


 ∂β1 = −2 (yi − β0 − β1 xi ) xi
i=1
Igualando essas derivadas a zero e substituindo β0 e β1 , pelos respectivos estimadores β̂0 e β̂1 tem-se:
n

P
 −2 yi − β̂0 − β̂1 xi = 0


i=1
n
P


 −2 yi − β̂0 − β̂1 i xi = 0
x
i=1
159
n

P
yi − β̂0 − β̂1 xi = 0 (A)



i=1
n
 P
 yi − β̂0 − β̂1 xi xi = 0 (B)

i=1
n n

P P
yi − nβ̂0 − β̂1 xi = 0



i=1 i=1
n n n
xi yi − β̂0 xi − β̂1 x2i = 0
 P P P


i=1 i=1 i=1
Isolando β̂0 na primeira equação segue-se que
n
P n
P
n
P n
P yi xi
i=1
yi − nβ̂0 − β̂i xi = 0 ⇐⇒ β̂0 = n − β̂1 i=1n = ȳ − β̂1 x̄.
i=1 i=1
Logo, o estimador de mínimos quadrados para β̂0 será:
β̂0 = ȳ − βˆ1 x̄. (5)
n n n
x2i = 0,
P P P
Substituindo o resultado (5) na segunda equação, xi yi − β̂0 xi − β̂1 e resolvendo em
i=1 i=1 i=1
relação a βˆ1 tem-se:
n n n
x2i = 0
P P P
xi yi − β̂0 xi − β̂1
i=1 i=1 i=1
n P n n
xi yi − ȳ − β̂1 x̄ β̂0 xi − β̂1 x2i = 0
P P
i=1 i=1 i=1
n
P n
P

n yi xi n n
x2i = 0
P P P
xi yi −  i=1n − β̂1 i=1n  xi − β̂1
i=1 i=1 i=1
n n
n
2
P P P
n xi yi xi n
x2i = 0
P i=1 i=1 i=1
P
x i yi − n + β̂1 n − β̂1
i=1 i=1
n
2 n n
P P P
xi n n xi yi
x2i =
i=1
P P i=1 i=1
−β̂1 n + β̂1 x i yi − n
i=1 i=1
 2 
n n n

P P P
n xi n xi yi
β̂1  x2i −
P i=1
P i=1 i=1
= x i yi −

n n
i=1 i=1
n
P n
P
n xi yi
P i=1 i=1
xi yi − n
i=1
β̂1 = n
P
!2
n xi
xi − i=1n
P 2
i=1
Logo, o estimador de mínimos quadrados para βˆ1 é:
160
! !
n
P n
P
n xi yi n
P i=1 i=1 P
xi yi − n
(xi −x̄)(yi −ȳ)
i=1 i=1 SP xy
β̂1 = n
!2 = n = Sxx .(6)
P 2
n
P
xi (xi −x̄)
i=1 i=1
x2i −
P
n
i=1
Portanto, os estimadores de mínimos quadrados para β0 e β1 são, respectivamente:
SP xy
β̂0 = ȳ − B̂1 x̄ e β̂1 = Sxx
n
P n
P
xi yi
i=1 i=1
em que: x̄ = n é a média da variável independente x; ȳ = n é a média da variável dependente y;
n
n
n
2
P P P
n xi yi n xi
x2i −
P i=1 i=1
P i=1
SP xy = x i yi − n é a soma de produtos entre x e y e Sxx = n . é a soma
i=1 i=1
de quadrados de x
Exemplo 1: Uma importante aplicação da análise de regressão na contabilidade é a estimação do
custo. Ao coletar dados sobre volume e custo e usar o método de mínimos quadrados para desenvolver
uma equação de regressão estimada relacionando volume e custo, um contador pode estimar o custo
associado a um volume de manufatura particular. Considere a seguinte amostra de volumes de produção
e os dados de custos totais referentes a uma operação de manufatura.
Volume de produção (unidades) Custos totais (US$)
400 4.000
450 5.000
550 5.400
600 5.900
700 6.400
750 7.000
Com esses dados desenvolva uma equação de regressão estimada que possa ser usada para prever o
custo total de determinado volume de produção.
Solução: Primeiramente vamos calcular as informações necessárias:

6 6 6
yi2 = 184.930.000; Syy = 5.648.333, 333;
P P P
n = 6; yi = 33.700; ȳ = 5.616, 67; xi = 3.450; x̄ =
i=1 i=1 i=1
6 6
x2i = 2.077.500; Sxx = 93.750;
P P
575; xi yi = 20.090.000; SP xy = 712.500.
i=1 i=1
Agora, temos condições de determinarβ̂0 e β̂1 ,
! !
n
P n
P
n xi yi
P i=1 i=1
xi yi − n (3.450)(33.700)
SP xy 20.090.000−
βˆ1 = Sxx = i=1
n
!2 = 6
(3.450)2
= 7, 6 e
P
xi 2.077.500− 6
n
i=1
x2i −
P
n
i=1
β̂0 = ȳ − βˆ1 x̄ = 5.616, 67 − 7, 6x575 = 1.146, 67.
Logo, o modelo de regressão estimado é yî = 1.246, 67 + 7, 6xi .
9.2.3 Interpretação do coeciente da regressão linear simples

Na regressão linear simples, interpreta-se βˆ1 como uma estimativa da alteração em y correspondente
à alteração de uma unidade na variável independente. Então pode-se dizer que o incremento de cada
unidade no volume de produção provoca um aumento médio de US$ 7,6 no custo por unidade produzida.
161
9.2.4 Teste de signicância da regressão linear simples

Vale ressaltar que a previsão da variável dependente resultará sempre em um valor médio, pois, a
relação entre x e y é média. Assim, no caso acima, não obteremos, para um determinado volume de
produção, necessariamente um valor exato do custo total da produção. Para fazermos previsões acerca
da variável dependente y, não devemos utilizar valores da variável independente X que extrapolem
o intervalo de valores utilizados no modelo de regressão. Os pares de valores (x, y) estão dispersos
em relação a reta estimada. Isso ocorre, entre outras razões, porque existem inúmeras outras variáveis
externas, não consideradas no modelo que inuenciam y. Por exemplo, no caso do exemplo apresentado
a quantidade média do custo de produção pode ser inuenciada pelo volume de produção, gastos com
mão-de-obra, gastos com matéria-prima, embalagem e outros materiais, etc...
Assim, não basta apenas calcularmos os coecientes βˆ0 e βˆ1 da reta de regressão pelo método de
Mínimos Quadrados. Precisamos vericar até que ponto tais estimativas são sucientes para explicar
o relacionamento entre as variáveis x e y.
Uma forma de testar a signicância da regressão é por meio da Análise de Variância (ANOVA). A
ANOVA consiste na decomposição da variação total (SQT otal) em componentes devido a regressão
linear (SQRegressão) e ao resíduo (SQErro). Cujo objetivo é vericar se a parte da variação total
explicada pelo modelo é signicativamente diferente de zero. Ou seja, o teste de signicância da
regressão é um teste para determinar se existe uma relação linear entre a variável de resposta y e a
variável regressora x. Nessas, condições a hipótese apropriada é:
H0 : β1 = 0 versus H1 : β1 6= 0
Se H0 for rejeitada, o teste nos dá sucientes evidências estatísticas para concluirmos que o parâmetro
b1 não é igual a zero e que a relação entre y e a variável independente x é signicativa. Entretanto, se H0
não puder ser rejeitada, não teremos evidências sucientes para concluir que uma relação signicativa
está presente. Na Tabela 1 é apresentado o procedimento para a construção da ANOVA.
Tabela 1 Análise de Variância de um modelo de regressão linear simples.

FV GL SQ QM F
Regressão p 1 = 1 SQReg SQReg/( p - 1 ) = SQReg QMReg/QMErro
Erro n p = n - 2 SQErro SQErro/(n - 2)
Total n - 1 SQTotal
Em que, p é o número de parâmetros do modelo e n é o número de observações da variável resposta
(variável dependente).
A regra de decisão é:
i) Critério do valor p: Rejeita-se H0 se o valor p ≤ a , em que a é o nível de signicância.

ii) Critério do valor crítico: Rejeita-se H0 se F ≥ Fa em que Fa baseia-se em uma distribuição F com
1 graus de liberdade no numerador e n 2 graus de liberdade no denominador.
A relação entre a SQTotal, SQReg e SQErro é:
SQTotal = SQReg + SQErro. (7)
em que,
162
n
2
P
n n yi
(ayi )2
(yi − ȳ)2 = yi2 − = Y 0Y −
P P i=1
SQT otal = n n = Syy;
i=1 i=1
n
(SP xy)2
(ŷi − ȳ)2 =
P
SQReg = Sxx ;
i=1
n
(yi − yî )2 .
P
SQErro =
i=1
Demonstração:
yi = β0 + β1 x1 + εi
yi = ŷi + εi
yi = ŷi + (yi − ŷi )
(yi − ȳ) = (ŷi − ȳ) + (yi − ŷi )
(yi − ȳ)2 = [(ŷi − ȳ) + (yi − ŷi )]2
(yi − ȳ)2 = (ŷi − ȳ)2 + 2 (ŷi − ȳ) (yi − ŷi ) + (yi − ŷi )2
n n n
(yi − ȳ)2 = (ŷi − ȳ)2 + (yi − ŷi )2
P P P
i=1 i=1 i=1
n
P
porque (ŷi − ȳ) (yi − ŷi ) = 0
i=1
Agora resta demonstrar que
n
P
(ŷi − ȳ) (yi − ŷi ) = 0. (8)
i=1
Substituindo yi − ŷi + εi e aplicando a distributiva do somatório em (8) tem-se:
n
P n
P n
P n
P
(ŷi − ȳ) (yi − ŷi ) = (ŷi − ȳ) εi = ŷi εi − ȳ εi . (9)
i=1 i=1 i=1 i=1
n
P
Vamos analisar primeiramente a seguinte soma ŷi εi :
i=1
n n n n
βˆ0 + β̂1 xi εi = β0 εi + β̂1 xi εi .(10)
P P P P
ŷi εi −
i=1 i=1 i=1 i=1
Da equação (B) tem-se:
n
P
yi − β̂0 − β̂1 xi xi = 0.(B)
i=1
n
P
εi xi = 0. (11)
i=1
163
Da equação (A) tem-se:
n
P
yi − β̂0 − β̂1 xi = 0. (A)
i=1
n
P
εi = 0. (12)
i=1
Logo, substituindo (10) em (9) temos que:
n
P n
P n
P n
P
(ŷi − ȳ) (yi − ŷi ) = (ŷi − ȳ) εi = ŷi εi − ȳ εi .
i=1 i=1 i=1 i=1
n
P n
P n
P n
P
(ŷi − ȳ) (yi − ŷi ) = β̂0 εi = β̂0 εi xi − ȳ εi . (13)
i=1 i=1 i=1 i=1
Substituindo (11) e (12) em (13) temos:
n
P n
P n
P n
P
(ŷi − ȳ) (yi − ŷi ) = β̂0 εi = β̂0 εi xi − ȳ εi .
i=1 i=1 i=1 i=1
n
P
(ŷi − ȳ) (yi − ŷi ) = 0. (14)
i=1
Portanto, temos que:
n n n
(yi − ȳ)2 = (ŷi − ȳ)2 + (yi − ŷi )2
P P P
i=1 i=1 i=1
n
2 n
2
P P
n n yi yi
(ŷi − ȳ)2 = yi2 − = Y 0Y −
P P i=1 i=1
SQT otal = n n = Syy ;
i=1 i=1
n
(SP xy)2
(ŷi − ȳ)2 =
P
SQReg = Sxx ;
i=1
n
(yi − ŷi )2 .
P
SQErro =
i=1
Exemplo 2: O procedimento de construção da ANOVA será ilustrado para o exemplo de volume de
produção versus custos totais.
Para a construção da ANOVA deve-se primeiramente determinar o valor de p, o valor de n, SQTotal,
SQReg e SQErro.
O modelo de regressão linear simples estimado foi yî = 1.246, 67 + 7, 6x, ou seja, o modelo possui 2
parâmetros. Então, p é igual a 2 (dois). Como a coleta dos dados foi realizada durante 6 momentos
segue-se que n é igual a 6 (seis) observações.
Agora, determinaremos as somas de quadrados.
1) Soma de Quadrados Total:

n
2
P
n yi
(33.700)2
yi2 −
P i=1
SQT otal = n = 194.930.000 − 6 = 5.648.333, 333.
i=1
164
2) Soma de Quadrados de Regressão:

! ! 2
 n
P n
P
n xi yi
P i=1 i=1
xi yi −
 
n (3.450)(33.700) 2
  h i
i=1 20.090.000−
(SP xy)2 6
SQReg = Sxx = n
!2 = (3.450)2
P
xi 2.077.500− 6
n
i=1
x2i −
P
n
i=1
712.5002
SQReg = 93.750 = 5.415.000
3) Soma de Quadrados do Erro:
SQErro = SQT otal − SQReg = 5.648.333, 333 − 5.415.000 = 233.333, 333
Observação: As somas de quadrados podem ser obtidas no R por meio do comando aov. Maiores
detalhes podem ser obtidos na rotina do Exemplo 1.
Tabela 2 Análise de Variância do modelo de regressão linear múltipla para o exemplo de Gastos da
Academia.
FV GL SQ QM F
Regressão 1 5.415.000 5.415.000 92,82857
Resíduo 4 233.333,333 58.333,33
Total 5 5.648.333,333
Figura 1 Gráco referente a probabilidade a da cauda superior direita da distribuição de F com
v1 = 1 e v2 = 4 graus de liberdade do numerador e denominador, respectivamente.
Como 92, 82857 = F ≥ F 0, 05(1, 4) = 7, 71 então rejeita-se H0 , ou seja, β1 é signicativo (β1 6= 0).
Então, existe uma relação linear signicativa entre a variável de resposta custo total e a variável
regressora volume de produção.
165
9.2.5 Teste de hipótese para a signicância da regressão linear simples

Outra forma de testar a signicância da regressão é por meio do teste de hipótese do coeciente angular
(β1 ) . Para realizar o teste é necessário calcular o erro médio quadrático (variância) para se ter uma
noção da estimativa de sv2 . Intuitivamente sabemos que quanto maior é a dispersão entre uma série de
números ou população, maior será a diculdade de se ajustar uma reta aos pontos. A dispersão pode
ser estimada pela dispersão dos dados amostrais em relação á reta de regressão. O estimador do erro
médio quadrático (QMErro) para o modelo de regressão linear simples é:
SQErro
S 2 = QM Erro = n−2 . (15)
Conseqüentemente, é possível calcular o erro padrão da estimativa (S). O erro padrão da estimativa
é uma medida que avalia o grau de precisão da reta de regressão. A fórmula pra cálculo do S é a
seguinte:
√ q
SQErro
S= QM Erro = n−2 . (16)
Para testar a hipótese nula H0 : b1 = 0 versus H1 : b1 6= 0, utilizamos a distribuição t com n - 2 graus
de liberdade para estabelecer uma região crítica e, então, basear nossa decisão no valor da seguinte
estatística:
βˆ1
Estatística do teste - tc = √
S/ Sxx
. (17)
Nota: Pode-se testar também o parâmetro b0 . Mas, o fato de b0 ser signicativo não implica que
existirá uma relação linear signicativa entre x e y.
Para testar a hipótese nula H0 : b0 = 0 versus H1 : b0 6= 0, utilizamos a distribuição t com n - 2 graus
de liberdade para estabelecer uma região crítica e, então, basear nossa decisão no valor da seguinte
estatística:
βˆ0
Estatística do teste - tc = s
n
. (18)
x2i /nSxx
P
S/
i=1
Regra de Decisão: Rejeita-se H0 se t ≤ −t(α/2;n−2) ou t ≥ t(α/2;n−2) .
9.2.6 Intervalo de conança para a signicância da regressão linear simples

Outra forma de testar a signicância da regressão é por meio do intervalo de conança do coeciente
angular (β1 ). Sob a suposição de que as observações sejam normal e independentemente distribuí-
das, um intervalo de conança de 100(1 - a)% para a inclinação (β1 ) na regressão linear simples é
(MONTGOMERY & RANGER, 2003):
√
IC (β1 ) : β̂1 ± t(α/2;n−2) S/ Sxx. (19)
100(1−α)%
Se o intervalo contiver o valor zero pode-se concluir que o parâmetro b1 é não signicativo, ou seja,
b1 = 0. Logo, não existe uma relação linear signicativa entre x e y.
Analogamente, um intervalo de conança de 100(1 - a)% para o intercepto (interseção) b0 , pode ser
obtido a partir da expressão (19). Mas, o fato de b0 ser signicativo não implica que existirá uma
relação linear signicativa entre x e y.
166
s
n
x2i /Sxx.
P
IC (β0 ) : β̂0 ± t(α/2;n−2) S (20)
100(1−α)% i=1
Exemplo 3: Construir intervalos de conança e testes de hipóteses para os parâmetros 0 e b b1 referente

ao exemplo de volume de produção versus custos total. Use a = 5%. Solução: Já temos informações
de S
2 = 58.333, 33, S = 241, 523, Sxx = 93.750, β̂1 = 7, 6 e β̂0 = 1.246, 67 . Primeiramente, será
calculado os intervalos de conança:
√
IC (β1 ) : β̂1 ± t(0,025; 4) S/ Sxx
95%
√
IC (β1 ) : 7, 6 ± 2, 776x241, 523/ 93.750
95%
IC (β1 ) : [5, 41; 9, 79]

95%
Interpretação: Ao nível de 5% de signicância pode-se armar que o parâmetro b1 é signicativo.

Logo, existe uma relação linear signicativa entre volume de produção e custo total da produção.
s
n
x2i /Sxx
P
IC (β0 ) : β̂0 ± t(0,025; 4) S
95% i=1
p
IC (β0 ) : 1.246, 67 ± 2, 776x241, 523 2.077.500/6x93.750
95%
IC (β0 ) : [−42, 05; 2.535, 38]

95%
Interpretação: Ao nível de 5% de signicância pode-se armar que o parâmetro b0 é não signicativo.

Pois o zero está contido no intervalo.
Agora, será realizado os testes de hipótese


b1 :
 H :β =0
1) Hipóteses:
0 1
 H β 6= 0
1: 1
2) α = 5%
3) Estatística do teste: tc = β̂1
√
S/ Sxx
= 7,6
√
241,523/ 93.750
= 9, 6348.
4) Região Crítica:
167
Figura 2 Gráco da região critica do teste bilateral da distribuição t com 4 graus de liberdade.
5) Conclusão: Ao nível de 5% de signicância rejeita-se H0 , ou seja, o parâmetro b1 é signicativo
(b1 6= 0). Logo, existe uma relação linear signicativa entre volume de produção e custo total da
produção.
Teste de hipótese para o parâmetro b0 :


 H :β =0
1) Hipóteses:
0 0
 H β 6= 0
1: 0
2) α = 5%
3) Estatística do teste: tc = s
n
βˆ0
= √1.246,67
241,523/ 2.077.500/6x93.750
= 2, 6859
x2i /nSxx
P
S/
i=1
4) Região Crítica: conforme Figura 2
5) Conclusão: Ao nível de 5% de signicância rejeita-se H0 , ou seja, o parâmetro b0 é não signicativo

(b0 = 0).
9.3 Diagrama de dispersão

O diagrama de dispersão nos possibilita observar os dados gracamente e tirar conclusões prévias
sobre a possível relação entre as variáveis. Para ilustrarmos a construção do diagrama de dispersão
trabalharemos com o conjunto de dados do exemplo 1, que refere-se a volume de produção e custos
totais de uma manufatura particular. Quais conclusões prévias se podem tirar da Figura 3? Observa-se
na Figura 1 que maiores valores de custos tendem a se relacionar com maiores volumes de produção.
Além disso, referente a esses dados, a relação entre o volume de produção e o custo total parece
aproximar-se de uma linha reta, de fato, uma relação linear positiva é indicada entre x e y, como pode
ser observado na Figura 2.
Figura 3 Diagrama de dispersão referente ao volume de produção e custo total de uma manufatura
particular.
168
9.4 Coeciente de determinação
Figura 4 Gráco da equação de regressão estimada para os dados de volume de produção e custo
total de uma manufatura particular.
9.4 Coeciente de determinação

O coeciente de determinação nos dá uma medida da eciência (ou da qualidade) do ajuste do modelo,
ou seja, indica quanto da variação de y (variação total) que é explicada pelo modelo de regressão
ajustado. Portanto, o coeciente de determinação pode ser utilizado como um avaliador do modelo
ajustado. O coeciente de determinação é dado por:
SP xy 2
R2 = Sxx Syy , 0 ≤ R2 ≤ 1, (21)
n
2 n
2
P P
n xi n yi
x2i − yi2 −
P i=1
P i=1
em que Sxx = n é a soma de quadrados de x e Sxx = n é a soma de
i=1 i=1
quadrados de y.
9.5 Covariância e coeciente de correlação linear de Pearson (ρ)

A covariância mede a força do relacionamento entre duas variáveis em termos absolutos através da
seguinte equação (covariância amostral):
n
P
(xi −x̄)(yi −ȳ)
i=1
Cov (x, y) = n−1 , −∞ < Cov (x, y) < ∞.
Um coeciente de correlação é a covariância dividida pelo produto do desvio padrão de cada variável. O
coeciente de correlação mede o grau de associação linear entre duas variáveis, x e y, ou seja, determina-
se o grau de relacionamento ou a covariabilidade entre duas variáveis. Enquanto, que a regressão linear
estabelece uma relação (função ou modelo) para as variáveis envolvidas. Outro aspecto importante é
que na análise de regressão é necessário distinguir a variável dependente da variável independente, na
análise de correlação tal distinção não é necessária. O coeciente de correlação nada mais é do que
uma covariância entre duas variáveis x e y que estão padronizadas, cujo objetivo de tal padronização é
justamente para eliminar qualquer inuência da escala. O estimador do coeciente de correlação linear
populacional de Pearson (ρ) é o coeciente de correlação linear amostral, denotado por r:
169
n
P
(xi −x̄)(yi −ȳ)
r= n
i=1
n = √ Cov(x,y)
√ = √ SP√
xy
Sxx Syy
, −1 ≤ r ≤ 1(22)
P
(xi −x̄)2 P
(yi −ȳ) 2 V (x) V (y)
i=1 i=1
n
2 n
2
P P
n xi n yi
x2i − yi2 −
P i=1
P i=1
em que é a soma de quadrados de x e é a soma de quadrados de y.
n n
i=1 i=1
Uma breve discussão é apresentada a respeito do coeciente de correlação linear de Pearson:
Se r = 0, tem-se que as variáveis x e y são não correlacionadas linearmente, ou seja, ausência de
correlação linear entre x e y. Dessa forma, pode-se dizer que não existem meios lineares acurados
(precisos) para realizar previsões de valores de y conhecendo-se os valores de x, ou vice-versa (Figura
5 (c)). Se r > 0, indica que existe uma relação linear positiva entre x e y, o que signica que há uma
tendência de pequenos valores de x estarem associados a pequenos valores de y e vice-versa, isto é,
existe uma relação linear diretamente proporcional (Figura - 5 (a)). Se r < 0, indica que existe uma
relação linear negativa entre x e y, o que signica que há uma tendência de pequenos valores de x
estarem associados a pequenos valores de y e vice-versa, isto é, existe uma relação linear inversamente
proporcional (Figura 5 (b)). Os diferentes tipos de correlação podem ser visualizados na Figura 5.
Figura 5 - Tipos de associação linear entre duas variáveis.

Para facilitar a interpretação do coeciente de correlação vamos admitir as seguintes classicações para
o coeciente de correlação linear:
Coeciente de Correlação Correlação

r = 1 Perfeita Positiva
0,8 ≤r<1 Forte Positiva
0,5 ≤ r < 0,8 Moderada Positiva
0,1 ≤ r < 0,5 Fraca Positiva
0 < r < 0,1 Ínma Positiva
r = 0 Nula
-0,1 < r < 0 Ínma Negativa
-0,5 < r ≤ -0,1 Fraca Negativa
-0,8 < r ≤ -0,5 Moderada Negativa
-1 < r ≤ -0,8 Forte Negativa
r = -1 Perfeita Negativa
9.5.1 Teste de hipótese para coeciente de correlação


 H :ρ=0
Hipóteses:
0
 H : ρ 6= 0
1
170
√
Estatística do Teste: t= r n−2
√
1−R2
com v = n2 graus de liberdade.
Vale ressaltar que o procedimento para o teste de hipótese, H0 : ρ = 0 versus H1 : ρ 6= 0, em que
ρ0 6= 0 é um pouco mais complicado. Para amostras moderadamente grandes (n ≥ 25), a estatística
do teste é:

1 1+r
Z = arctgh (r) = 2 ln 1−r . (23)

1 1+ρ
é distribuída de forma aproximadamente normal, com média µz = arctgh (ρ) = 2 ln 1−ρ e variância
−1
σ22 = (n − 3) .
Logo, para testar a hipótese H0 : ρ = ρ0 , podemos usar a estatística de teste:
√
ZC = [arctgh (r) − arctgh (ρ0 )] n − 3, (24)
e rejeita-se H0 : ρ = ρ0 se o valor da estatística do teste | Zc |> Zα/2 .

Exercício 1: (ANDERSON et al., 2007) São dadas cinco observações referentes a duas variáveis, x e
y.
xi 1 2 3 4 5
yi 3 7 5 11 14
a) Desenvolva um diagrama de dispersão para estes dados.
b) O que o diagrama de dispersão desenvolvido no item (a) indica a respeito da relação entre as duas
variáveis?
c) Tente aproximar a relação entre x e y traçando uma linha reta entre os dados.
d) Use a equação de regressão estimada para prever o valor de y quando x=4.
dados<-read.table("Exemplo_1.txt", h=T)
attach(dados)
dados
#Gráco de dispersão
plot(Xi, Yi, main="Gráco de Dispersão", xlab="X", ylab="Y")
valx<-dados$Xi
valy<-predict(lm(Yi~Xi), col="blue")
lines(valx, valy, col="blue", lwd=2, lty=1)
model<-lm(Yi~Xi) #retorna estimativa de b0 e b1
model
summary(model) #retorna a estatística t
predict(model)
Exercício 2: (BRUNI, 2008) Um professor resolveu analisar as notas de uma amostra formada por
oito alunos. Os dados coletados estão apresentados na tabela seguinte. Pede-se:
171
Teste (x ) 7 5 10 3 8 9 7 5
Demonstração (y ) 10 7 10 5 12 10 10 6
a) Construa um modelo de ajuste linear entre os pontos;
b) Calcule o coeciente de determinação e comente a qualidade do ajuste.
c) Calcule a nota esperada de cada aluno que obteve nota seis no teste.
dados<-read.table("Exercício_2.txt", h=T)
attach(dados)
dados
model<-lm(Demonstração ~ teste)
model
summary(model)
#nota esperada de cada aluno que obteve nota seis no teste
y<-2.72+0.8933*x
x<-6
Exercício 3: (BRUNI, 2008) Uma empresa de telefonia resolveu analisar a relação entre a idade
do seu consumidor e sua conta média mensal. Analisou os dados de uma amostra formada por oito
consumidores, apresentada a seguir. Analise o modelo de ajuste linear entre a idade (x) e a conta (y)
e comente a associação existente entre suas variáveis.
Idade (em anos) 32 17 26 36 34 53 31 29
Conta média (em $/mês) 85 84 36 82 77 70 52 95
attach(dados)
dados
model<-lm(conta ~ idade)
model
summary(model)
aov(model)
Exercício 4: (BRUNI, 2008) Suponha que a Cia. Dos Calhambeques esteja tentando estabelecer uma
previsão de demanda para volumes de automóveis. A empresa vende volantes para veículos zero km e
também para o mercado de reposição. A tabela a seguir apresenta as quantidades vendidas de volantes
separadamente. Os valores referem-se a vendas trimestrais.
Trim. 1 2 3 4 5 6 7 8
0 Km. 2350 2300 2250 2120 2260 1960 2100 2340
Usados 110 97 96 109 133 114 126 130
Pede-se:
a) Utilizando o método dos mínimos quadrados, desenvolva um modelo simples para a previsão de
demandas de volantes para a empresa.
172
b) Efetue a previsão de demanda para os quatro semestres seguintes.
attach(dados)
dados
zero<-dados$zero
zero
usado<-dados$usado
usado
demanda<-zero+usado
demanda
model<-lm(demanda~dados$trim)
model
summary(model)
aov(model)
predict(model)
Exercício 5: (BRUNI, 2008) Uma empresa deseja vericar se existe alguma associação entre o rendi-
mento dos seus operários e o descanso entre os intervalos de horas trabalhadas. Para tanto, considere
o número de carros acabados na linha de montagem e os minutos de descanso. Construa o modelo de
ajuste linear e calcule o coeciente de determinação.
Carros produzidos 20 24 30 32 33
Minutos de descanso 1 2 3 4 5
attach(dados)
dados
model<-lm(prod ~ descanso)
model
summary(model)
Exercício 6: (BRUNI, 2008) Com base nos dados a seguir, determine a equação da reta que melhor
descreve o comportamento da correlação das variáveis.
Variável dependente 10 12 15 17 21
Variável independente 4 5 7 9 12
173
attach(dados)
dados
plot(ind, dep, main="Gráco de Dispersão", xlab="X", ylab="Y")
valx<-dados$ind
valy<-predict(lm(dep ~ ind), col="blue")
model<-lm(dep ~ indep)
model
summary(model)
Exercício 7: (ANDERSON et al., 2007) Foram coletados os seguintes dados sobre a altura (metros)
e peso (quilogramas) de nadadoras:
Altura 1,72 1,63 1,57 1,65 1,68
Peso 59,87 49,98 46,26 56,16 58,05
a) Desenvolva um diagrama de dispersão destes dados, sendo a altura variável independente.
b) O que o diagrama de dispersão desenvolvido no item (a) indica a respeito da relação entre as duas
variáveis?
c) Tente aproximar a relação entre a altura e peso traçando uma linha reta entre os dados.
d) Desenvolva a equação de regressão estimada calculando os valores de β0 e β1

e) Se a altura de uma andadora for de 1,65m, segundo a estimativa qual seria o seu peso?
attach(dados)
dados
model<-lm(peso ~ altura)
model
plot(altura, peso, main="Gráco de Dispersão", xlab="Altura", ylab="Peso")
valx<-dados$altura
valy<-predict(lm(peso ~ altura), col="blue")
summary(model)
aov(model)
predict(model)
Exercício 8: Suponhamos que um pesquisador tenha coletado o seguinte conjunto de dados sobre os
anos de instrução (X) e o número de lhos (Y) para uma amostra de 10 adultos casados.
X 12 14 17 10 8 9 12 14 18 16
Y 2 1 0 3 5 3 4 2 0 2
174
a) Faça o diagrama de dispersão dos dados e trace a reta de regressão. Utilize um software.
b) Calcule a inclinação e o intercepto Y da reta de regressão.
c) Prediga o número de lhos para um adulto com 11 anos de instrução.
d) Ache os coecientes de determinação e correlação. O que eles signicam?
attach(dados)
dados
plot(X, Y, main="Gráco de Dispersão", xlab="Anos de Instrução", ylab="Número de lhos")
valx<-dados$X
valy<-predict(lm(Y~X), col="blue")
model<-lm(Y ~ X)
model
summary(model)
aov(model)
#Nº esperado de lhos para um adulto com 11 anos de instrução
y<-7.575-0.41346*x
x<-11
Exercício 9: Um pesquisador deseja medir o efeito da duração de um julgamento criminal sobre a
duração da deliberação do júri. Para isso, observou, em uma amostra aleatória de 10 julgamentos no
tribunal, os seguintes dados sobre duração do julgamento (em dias) e duração de deliberação do júri
(em horas).
X (dias) 2 7 4 1 1 3 2 5 2 3
Y (horas) 4 12 6 2 1 7 5 9 4 8
a) Faça o diagrama de dispersão dos dados e trace a reta de regressão. Utilize um software.
b) Calcule a inclinação e o intercepto Y da reta de regressão.
c) Prediga a duração da deliberação do júri para um julgamento terminado recentemente, que durou
5 dias.
d) Ache os coecientes de determinação e correlação. O que eles signicam?
175
attach(dados)
dados
plot(X, Y, main="Gráco de Dispersão", xlab="Dias", ylab="Horas")
valx<-dados$X
model<-lm(Y ~ X)
model
summary(model)
aov(model)
predict(model)
Exercício 10: Uma empresa localizada em Uberlândia realizou um estudo para determinar qual a
função que ligava o preço de um determinado produto e a distância do mercado consumidor, obtendo
os seguintes resultados:
Preço (R$) - Yi 36 48 70 50 42 58 91 69
Distância (Km) - Xi 50 240 150 350 100 175 485 335
a) Construa o diagrama de dispersão.
b) Estime a equação de regressão.
c) Interprete a equação de regressão.
d) Teste o ajuste de regressão linear aos dados por meio do teste t ( a = 5%).
e) Calcule e interprete o coeciente de correlação.
f ) Teste o coeciente de correlação.
g) Determine e interprete o coeciente de determinação.
h) Construa e interprete a ANAVA.

attach(dados)
dados
plot(Xi, Yi, main="Gráco de Dispersão", xlab="X", ylab="Y")
valx<-dados$Xi
valy<-predict(lm(Yi~Xi), col="blue")
model<-lm(Yi ~ Xi)
model
summary(model)
aov(model)
Exercício 11: A Tabela 1 a seguir nos mostra a distribuição dos pesos e alturas de oito indivíduos.
176
Peso(kg) - Y 50 53 60 64 70 72 75 78
Altura(cm) - X 130 135 141 146 158 160 170 180
a) Construa o diagrama de dispersão.
b) Estime o modelo de regressão linear.
c) Calcule as três variações admitidas no modelo de regressão.
d) Determine o coeciente de correlação e faça sua interpretação.
e) Determine o coeciente de determinação e faça sua interpretação.
f ) Teste o ajuste de regressão linear aos dados por meio do teste t ( a = 5%).
g) Construa e interprete a ANAVA ( a = 5%).
h) Estime a média de pesos de todos os indivíduos com uma altura de 182 cm.
attach(dados)
dados
plot(X, Y, main="Gráco de Dispersão", xlab="Altura", ylab="Peso")
valx<-dados$X
model<-lm(Y ~ X)
model
summary(model)
aov(model)
y<22.13764+0.57303*x
x<-182
Exercício 12: Os dados mostrados a seguir representam o desempenho medido em milhas por galão,
MPG, de gasolina dos carros em uma auto estrada e o deslocamento do pistão no motor para uma
amostra de 20 carros.
177
MPG (auto estrada)

3
Deslocamento do Pistão (in )
30 97
19 209
29 173
32 121
30 151
24 156
30 135
28 181
31 114
25 302
27 153
33 90
30 119
23 80
24 159
29 97
26 181
29 173
37 122
29 173
a) Usando mínimos quadrados, ajuste um modelo linear simples relacionando MPG (y) ao deslocamento
do pistão (x).
b) Encontre uma estimativa de desempenho médio para um carro com deslocamento de pistão de 150
in3
attach(dados)
dados
model<-lm(MPG ~DP)
model
summary(model)
178
REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística aplicada à administração
e economia. 2 ed. São Paulo: Thomson Learning, 2007.
BOLFARINE, H.; BUSSAB, W.O. Elementos de amostragem. 1 ed. Edgard Blücher, 2005.
BRUNI, L. B. Estatística aplicada à gestão empresarial. 2 ed. São Paulo: Atlas, 2008.
CRESPO A.A. Estatística fácil. 17 ed. São Paulo: Saraiva, 1999.
FONSECA, J. S.; MARTINS, G. de A. Curso de Estatística. 6 ed. São Paulo: Atlas, 2009.
FERREIRA, D. F. Estatítica básica. Lavras: Editora UFLA, 2005.
LEVIN, J; FOX J. A. Estatística para ciências humanas. 9 ed. São Paulo: Person Prentice Hall,
2004.
MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade para engenhei-

ros. 2 ed. Rio de Janeiro: LTC, 2003.
MONTGOMERY, D. C.; RUNGER, G. C.; HUBELE, N. F. Estatística aplicada à engenharia. 2
ed. Rio de Janeiro: LTC, 2004.
MORETTIN, L.G. Estatística básica: probabilidade e inferência. São Paulo: Person Prentice Hall,
2010.
MORETTIN, L. G.; BUSSAB, W. O. Estatística básica. 5 ed. São Paulo: Saraiva, 2003.
SILVA, M. F. Noções de Estatística com ênfase em Análise Exploratória de Dados. 2008
(Notas de Aula ECG-TCE-RJ).
TRIOLA M. F. Introdução à estatística. 10 ed. Rio de Janeiro: LTC, 2008.
WALPOLE, R. E.; MYERS, R. H.; MYERS, S. L.; YE, K. Probabilidade e estatística para
engenharia e ciências. 8 ed. São Paulo: Pearson Prentice Hall, 2009.
BIBLIOGRAFIA SITE http://www.fas.usda.gov/psdonline/psdResult.aspx, 24 março 2011
179

Apostila 16

Enviado por

Direitos autorais:

Formatos disponíveis

Apostila 16

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila 16

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DE UBERLÂNDIA

Professor: Janser Moura Pereira

1.1.1 Identicando e classicando as variáveis . . . . . . . . . . . . . . . . . . . . . . 5

1.1.2 Conceitos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2 Coleta, organização e apresentação de dados . . . . . . . . . . . . . . . . . . . . . . . 7

1.2.1 Organização de dados de variáveis qualitativa e quantitativa discreta . . . . . . 7

1.2.2 Distribuição de frequência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2.3 Organização de dados de variáveis quantitativas contínuas . . . . . . . . . . . . 10

1.3 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3.4 Posição relativa da média, mediana e moda . . . . . . . . . . . . . . . . . . . . 22

1.3.5 Comparação entre média e mediana . . . . . . . . . . . . . . . . . . . . . . . . 23

1.4 Medidas Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.5 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.5.3 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

1.5.4 Coeciente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

1.5.5 Erro Padrão da Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

1.6 Medidas de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

1.7 Medidas de Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

1.8 Representação gráca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.8.1 Grácos para variáveis qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.8.2 Grácos para variáveis quantitativas . . . . . . . . . . . . . . . . . . . . . . . . 39

1.8.3 Frequencias acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

1.8.4 Interpolação em distribuições de frequencias acumuladas . . . . . . . . . . . . . 44

1.9 Exercícios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.1.1 Axiomas de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.2 Probabilidade condicional e independência . . . . . . . . . . . . . . . . . . . . . . . . 56

2.2.1 Probabilidade condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

2.2.2 Independência de eventos dois eventos . . . . . . . . . . . . . . . . . . . . . . . 58

2.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

2.4 Exercícios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3 VARIÁVEL ALEATÓRIA UNIDIMENSIONAL 63

3.2 Variável Aleatória Contínua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.3 Distribuição de Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.4 Função Repartição ou Função Distribuição Acumulada . . . . . . . . . . . . . . . . . . 64

3.4.1 Propriedades da Função Distribuição Acumulada ou Função Repartição . . . . 66

3.4.2 Gráco da Função Distribuição Acumulada ou Função Repartição . . . . . . . . 66

3.5 Parâmetros característicos de uma Distribuição de Probabilidade . . . . . . . . . . . . 67

3.5.1 Esperança Matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.6 Exercícios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4 MODELOS PROBABILÍSTICOS DISCRETOS 73

4.1.1 Parâmetros característicos da distribuição Bernoulli . . . . . . . . . . . . . . . 73

4.2 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.2.1 Parâmetros Característicos da Distribuição Binomial . . . . . . . . . . . . . . . 75

4.3 Distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.4 Exercícios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5 MODELOS PROBABILÍSTICOS CONTÍNUOS 83

5.1.1 Propriedades da Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5.2 Criação da Variável Z - Distribuição Normal Padronizada . . . . . . . . . . . . . . . . 84

5.3 Distribuição t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.3.1 Propriedades da distribuição t-Student . . . . . . . . . . . . . . . . . . . . . . . 90

5.4 Lei Grandes Números - (LGN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.5 Teorema Central do Limite - (TCL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

5.6 Exercícios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

6.2 Como selecionar uma amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.3 Por que amostrar? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.4 Etapas num processo de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.5 Principais processos de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

6.5.1 Amostragem Simples ao Acaso ou Amostragem Aleatória Simples (ASA) . . . . 97

1.1.1 Identicando e classicando as variáveis . . . . . . . . . . . . . . . . . . . . . . 5

1.5.4 Coeciente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

1.8 Representação gráca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.8.1 Grácos para variáveis qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.8.2 Grácos para variáveis quantitativas . . . . . . . . . . . . . . . . . . . . . . . . 39

3.4.2 Gráco da Função Distribuição Acumulada ou Função Repartição . . . . . . . . 66

6.5.2 Amostragem Estraticada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

7.2.3 Noção básica sobre intervalo de conança . . . . . . . . . . . . . . . . . . . . . 108

7.5 Intervalos de conança para a média . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

7.5.3 Conceito de intervalo de conança em uma amostra grande (n ≥ 30) . . . . . . 113

7.8 Intervalos de conança para proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

7.9 Intervalo de conança para diferença entre duas proporções . . . . . . . . . . . . . . . 126

7.10 Intervalo de conança para variância de uma população Normal . . . . . . . . . . . . . 126

7.11 Intervalo de conança para o quociente de variâncias . . . . . . . . . . . . . . . . . . . 127

8 TEORIA DA DECISÃO TESTES DE HIPÓTESES 135

9.2.3 Interpretação do coeciente da regressão linear simples . . . . . . . . . . . . . . 161

9.2.4 Teste de signicância da regressão linear simples . . . . . . . . . . . . . . . . . 162

9.2.5 Teste de hipótese para a signicância da regressão linear simples . . . . . . . . 166

9.2.6 Intervalo de conança para a signicância da regressão linear simples . . . . . . 166

9.4 Coeciente de determinação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

9.5 Covariância e coeciente de correlação linear de Pearson (ρ) . . . . . . . . . . . . . . . 169

9.5.1 Teste de hipótese para coeciente de correlação . . . . . . . . . . . . . . . . . . 170

1.1.1 Identicando e classicando as variáveis

altura de plantas, que podem assumir as classicações: baixa, média e alta.

As variáveis quantitativas por sua vez podem ser classicadas como:

i) variáveis quantitativas discretas: as possíveis realizações formam um conjunto nito ou enume-

População: Conjunto de indivíduos com características em comum.

Amostra: é um conjunto não vazio da população excetuando-se a população.

Amostragem : é o processo de obtenção (coleta) de amostras de uma população.

Estimativa: é um valor aproximado do parâmetro populacional.

Variável: característica através da qual é realizada a descrição de uma população.