Apostila 16

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 180

UNIVERSIDADE FEDERAL DE UBERLÂNDIA

FACULDADE DE MATEMÁTICA

APOSTILA DE ESTATÍSTICA

Professor: Janser Moura Pereira

Uberlândia

2012
Sumário

1 ESTATÍSTICA DESCRITIVA 5
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.1 Identicando e classicando as variáveis . . . . . . . . . . . . . . . . . . . . . . 5

1.1.2 Conceitos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2 Coleta, organização e apresentação de dados . . . . . . . . . . . . . . . . . . . . . . . 7

1.2.1 Organização de dados de variáveis qualitativa e quantitativa discreta . . . . . . 7

1.2.2 Distribuição de frequência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2.3 Organização de dados de variáveis quantitativas contínuas . . . . . . . . . . . . 10

1.3 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.3.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.3.4 Posição relativa da média, mediana e moda . . . . . . . . . . . . . . . . . . . . 22

1.3.5 Comparação entre média e mediana . . . . . . . . . . . . . . . . . . . . . . . . 23

1.4 Medidas Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.5 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.5.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.5.2 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

1.5.3 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

1.5.4 Coeciente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

1.5.5 Erro Padrão da Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

1.6 Medidas de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

1.7 Medidas de Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

1.8 Representação gráca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.8.1 Grácos para variáveis qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.8.2 Grácos para variáveis quantitativas . . . . . . . . . . . . . . . . . . . . . . . . 39

1.8.3 Frequencias acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

1.8.4 Interpolação em distribuições de frequencias acumuladas . . . . . . . . . . . . . 44

1.8.5 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

1.9 Exercícios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2 PROBABILIDADES 53
2.1 Probabilidades e espaço amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.1.1 Axiomas de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.1.2 Teoremas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.2 Probabilidade condicional e independência . . . . . . . . . . . . . . . . . . . . . . . . 56

2.2.1 Probabilidade condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

1
Sumário

2.2.2 Independência de eventos dois eventos . . . . . . . . . . . . . . . . . . . . . . . 58

2.2.3 Teorema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

2.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

2.4 Exercícios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3 VARIÁVEL ALEATÓRIA UNIDIMENSIONAL 63


3.1 Variável Aleatória Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.2 Variável Aleatória Contínua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.3 Distribuição de Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.4 Função Repartição ou Função Distribuição Acumulada . . . . . . . . . . . . . . . . . . 64

3.4.1 Propriedades da Função Distribuição Acumulada ou Função Repartição . . . . 66

3.4.2 Gráco da Função Distribuição Acumulada ou Função Repartição . . . . . . . . 66

3.5 Parâmetros característicos de uma Distribuição de Probabilidade . . . . . . . . . . . . 67

3.5.1 Esperança Matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.5.2 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.6 Exercícios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4 MODELOS PROBABILÍSTICOS DISCRETOS 73


4.1 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.1.1 Parâmetros característicos da distribuição Bernoulli . . . . . . . . . . . . . . . 73

4.2 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.2.1 Parâmetros Característicos da Distribuição Binomial . . . . . . . . . . . . . . . 75

4.3 Distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.4 Exercícios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5 MODELOS PROBABILÍSTICOS CONTÍNUOS 83


5.1 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5.1.1 Propriedades da Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5.2 Criação da Variável Z - Distribuição Normal Padronizada . . . . . . . . . . . . . . . . 84

5.3 Distribuição t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.3.1 Propriedades da distribuição t-Student . . . . . . . . . . . . . . . . . . . . . . . 90

5.4 Lei Grandes Números - (LGN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.5 Teorema Central do Limite - (TCL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

5.6 Exercícios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

6 AMOSTRAGEM 95
6.1 Denições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

6.2 Como selecionar uma amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.3 Por que amostrar? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.4 Etapas num processo de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.5 Principais processos de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

6.5.1 Amostragem Simples ao Acaso ou Amostragem Aleatória Simples (ASA) . . . . 97

6.5.2 Amostragem Estraticada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

6.5.3 Amostragem Sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6.5.4 Amostragem por Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . 101

2
Sumário

6.6 Distribuições amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

6.6.1 Distribuição amostral das médias . . . . . . . . . . . . . . . . . . . . . . . . . . 102

6.6.2 Distribuição amostral das proporções . . . . . . . . . . . . . . . . . . . . . . . . 104

6.6.3 Erro padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

6.7 Exercícios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

7 TEORIA DA ESTIMAÇÃO 107


7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

7.2 Estimação por ponto e por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

7.2.1 Estimação por ponto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

7.2.2 Estimação por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

7.2.3 Noção básica sobre intervalo de conança . . . . . . . . . . . . . . . . . . . . . 108

7.3 Propriedades dos estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

7.4 Métodos de Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

7.5 Intervalos de conança para a média . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110


2

7.5.1 Intervalo de conança para média (µ) com variância populacional σ conhecida 110

7.5.2 Intervalo de conança para média (µ) de uma população Normal com variância

σ2

populacional desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

7.5.3 Conceito de intervalo de conança em uma amostra grande (n ≥ 30) . . . . . . 113

7.5.4 Dimensionamento do tamanho da amostra . . . . . . . . . . . . . . . . . . . . 115

7.6 Intervalos de conança para diferença entre duas médias (amostras independentes) . . 117

7.6.1 Intervalo de conança para diferença entre duas médias com variâncias popula-

cionais conhecidas e independentes . . . . . . . . . . . . . . . . . . . . . . . . . 117

7.6.2 Intervalo de conança para diferença entre duas médias com variâncias popula-

cionais desconhecidas em amostras independentes . . . . . . . . . . . . . . . . . 119

7.7 Intervalos de conança para difrença entre duas médias (amostras dependentes) . . . . 121

7.8 Intervalos de conança para proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

7.8.1 Dimensionamento do tamanho de amostras . . . . . . . . . . . . . . . . . . . . 125

7.9 Intervalo de conança para diferença entre duas proporções . . . . . . . . . . . . . . . 126

7.10 Intervalo de conança para variância de uma população Normal . . . . . . . . . . . . . 126

7.11 Intervalo de conança para o quociente de variâncias . . . . . . . . . . . . . . . . . . . 127

7.12 Exercícios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

8 TEORIA DA DECISÃO  TESTES DE HIPÓTESES 135


8.1 Hipótese estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

8.2 Tipos de hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

8.3 Tipos de testes de hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

8.4 Tipos de erros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

8.5 Procedimento para realização de um teste de hipótese . . . . . . . . . . . . . . . . . . 138

8.6 Testes de hipóteses para média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

σ2

8.6.1 Teste de hipótese para média (µ) com variância populacional conhecida: . 138

8.6.2 Teste de hipótese para média (µ) de uma população Normal com variância po-

σ2

pulacional desconhecida: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

3
Sumário

8.7 Teste de hipótese para diferença de duas médias (amostras independentes) . . . . . . . 147

8.7.1 Teste de hipótese para diferença de duas médias de populações Normal com

variâncias populacionais conhecidas: . . . . . . . . . . . . . . . . . . . . . . . . 147

8.7.2 Teste de hipótese para diferença de duas médias de populações Normal com

variâncias populacionais desconhecidas, mas iguais (Populações Homocedásticas) 149

8.7.3 Teste de hipótese para diferença de duas médias de populações Normal com va-

riâncias populacionais desconhecidas, mas desiguais (Populacões Heterocedásticas)149

8.8 Teste de hipótese para diferença de duas médias (amostras dependentes) . . . . . . . . 152

8.9 Exercícios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

9 REGRESSÃO LINEAR SIMPLES 157


9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

9.2 Modelo de regressão linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

9.2.1 Pressuposições sobre o modelo de regressão linear simples . . . . . . . . . . . . 159

9.2.2 Estimadores de Mínimos Quadrados . . . . . . . . . . . . . . . . . . . . . . . . 159

9.2.3 Interpretação do coeciente da regressão linear simples . . . . . . . . . . . . . . 161

9.2.4 Teste de signicância da regressão linear simples . . . . . . . . . . . . . . . . . 162

9.2.5 Teste de hipótese para a signicância da regressão linear simples . . . . . . . . 166

9.2.6 Intervalo de conança para a signicância da regressão linear simples . . . . . . 166

9.3 Diagrama de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

9.4 Coeciente de determinação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

9.5 Covariância e coeciente de correlação linear de Pearson (ρ) . . . . . . . . . . . . . . . 169

9.5.1 Teste de hipótese para coeciente de correlação . . . . . . . . . . . . . . . . . . 170

9.6 Exercícios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

4
1 ESTATÍSTICA DESCRITIVA

1.1 Introdução
A Estatística é um conjunto de técnicas (metodologias) que se preocupa com a coleta, organização,

análise e interpretação de dados, ou seja, é um conjunto de métodos de obtenção e utilização de

informação para auxiliar a tomada de decisão em uma situação prática envolvendo certeza. O ramo da

Estatística que lida com a organização, o resumo e apresentação dos dados é denominado de estatística

descritiva. No entanto, a possibilidade de generalizar os resultados obtidos de certos dados para um

contexto maior pertence à parte da Estatística conhecida como Inferência Estatística ou Estatística

Indutiva.

1.1.1 Identicando e classicando as variáveis


Os dados coletados na investigação cientíca podem ser classicados como qualitativos ou quantitativos.

As variáveis que apresentam como possíveis realizações uma qualidade (ou atributo) do indivíduo

pesquisado são denominados de variáveis qualitativas.


Exemplo 1: sexo; estado civil; cor da or de uma espécie que pode ser branca, violeta e vermelha;

altura de plantas, que podem assumir as classicações: baixa, média e alta.

As variáveis que apresentam as possíveis realizações como números resultantes de uma contagem ou

mensuração são denominadas de variáveis quantitativas.


Exemplo 2: número de lhos, salário, idade e peso.
As variáveis qualitativas por sua vez podem ser classicadas como:

i) variáveis qualitativas nominais: não existe nenhuma ordenação nas suas possíveis realizações

(resultados).

Exemplo 3: sexo, estado civil e cor da or de uma espécie de planta que pode ser branca, violeta e

vermelha.

ii) variáveis qualitativas ordinais: os seus possíveis resultados podem ser ordenados por algum

critério.

Exemplo 4: altura de plantas ou pessoas, que pode assumir as classicações: baixa, média e alta;

grau de instrução (ensino fundamental, ensino médio, graduação, mestrado e doutorado).

As variáveis quantitativas por sua vez podem ser classicadas como:

i) variáveis quantitativas discretas: as possíveis realizações formam um conjunto nito ou enume-

rável de números, o qual é resultante geralmente de contagem.

Exemplo 5: número de lhos, número de acidentes numa rodovia num feriado prolongado, número

de circuitos defeituosos.

5
1 ESTATÍSTICA DESCRITIVA
ii) variáveis quantitativas contínuas: os possíveis valores formam um intervalo de números reais

resultantes em geral de mensuração.

Exemplo 6: peso de animais, volume de árvores e peso de matéria seca ou de matéria verde de uma

leguminosa.

1.1.2 Conceitos básicos


A seguir serão apresentados alguns conceitos de termos na área de estatística.

ˆ Fenômeno Estatístico: qualquer evento que se pretende analisar cujo estudo seja possível a

aplicação de um método estatístico.

ˆ População: Conjunto de indivíduos com características em comum.

ˆ Amostra: é um conjunto não vazio da população excetuando-se a população.

ˆ Amostragem : é o processo de obtenção (coleta) de amostras de uma população.

ˆ Parâmetro: são valores singulares que existem na população e que servem para caracterizarem.

Exemplo: média, desvio padrão, proporção.

ˆ Estimativa: é um valor aproximado do parâmetro populacional.

ˆ Inferência Estatística: processo por meio do qual procuramos tomar decisões sobre uma po-

pulação a partir de uma amostra.

ˆ Variável: característica através da qual é realizada a descrição de uma população.

ˆ Amostra Aleatória: para validade das conclusões que são feitas a respeito da população e

em razão das inúmeras maneiras existentes de se extraírem as amostras de uma população, é

necessário retirá-lo de uma maneira aleatória. Para amostrar da população aleatoriamente é

necessário que cada membro da população tenha probabilidade conhecida e que elementos sejam

independentemente selecionados. Em outras palavras, além de cada individuo possuir chance não

nula de pertencer à amostra, a seleção de um deles, de forma alguma, irá inuenciar a seleção do

outro (Ferreira, 2005).

Exemplo 7: (MORETTIN & BUSSAB, 2003) Um pesquisador está interessado em fazer um levanta-

mento sobre alguns aspectos socioeconômicos dos empregados da seção de orçamentos da Companhia

MB. Usando informações obtidas do departamento pessoal, ele elaborou a Tabela 1. Pode-se atribuir

uma letra, digamos X, para representar tal variável. Observa-se na Tabela 1 que o pesquisador colheu

informações sobre oito variáveis:

Tabela 1: Variáveis de interesse do pesquisador.

Variável Representação
Estado civil X
Grau de instrução Y
Número de lhos Z
Salário S
Idade U
Região de procedência V
Sexo R
Classe social T

6
1.2 Coleta, organização e apresentação de dados

a) Quais são variáveis qualitativas e quantitativas?


b) Classique-as em nominais, ordinais, discretas e contínuas?
c) Agora, com base no que foi apresentado, elabore um exemplo análogo relacionado à sua área.

1.2 Coleta, organização e apresentação de dados


1.2.1 Organização de dados de variáveis qualitativa e quantitativa discreta
Os dados são coletados numa forma sem ordenação e sem nenhum tipo de arranjo sistemático. Nesse

caso, eles são denominados de dados brutos. Então, esses dados sofrerão uma simples organização

(ordenação) e serão denominados de dados elaborados. Para ilustrar apresentaremos exemplo típico

de dados qualitativos nominais na Tabela 2.

Tabela 2: Dados brutos de marca de carros populares predominante em 25 cidades do triângulo, 1998.

Pálio Corsa Uno Gol Corsa


Uno Gol Uno Pálio Uno
Pálio Uno Gol Corsa Gol
Ka Gol Uno Uno Gol
Gol Corsa Gol Uno Uno

Um outro exemplo, agora de dados quantitativos discretos refere-se a contagem de ovos danicados no

mercado municipal da cidade de Lavras, ao chegar um carregamento de ovos de uma cidade distante,

os lojistas zeram uma amostragem e inspecionaram 30 dúzias anotando o número de ovos danicados

em cada uma delas. Os resultados do número de ovos danicados em cada dúzia (embalagem) estão

apresentados na Tabela 3 (FERREIRA, 2005). Frequentemente utilizarei esse exemplo (extraíddo de

FERREIRA, 2005) para ilustrar os procedimentos possíveis no contexto de estatística descritiva.

Tabela 3: Dados brutos referentes ao número de ovos danicados em uma inspeção feita em 30

embalagens, de uma dúzia cada, em um carregamento para o mercado municipal de Lavras proveniente

de uma cidade distante (FERREIRA, 2005).

0 0 1 1 1
3 0 0 0 0
2 3 3 0 0
1 5 4 1 2
2 1 1 1 0
0 0 0 1 0

Essa representação dos dados nas Tabelas 2 e 3 é pouca informativa e para melhorá-la um pouco é

possível ordenar os dados em uma seqüência crescente ou decrescente ou agrupá-los quanto as suas

categorias ou atributos. As Tabelas 4 e 5 contêm os dados das Tabelas 2 e 3, respectivamente, nessa

nova organização. Na Tabela 4 são apresentados as marcas de carro de maior para menor frequencia.

Tabela 4: Dados elaborados de marca de carros populares predominante em 25 cidades do triângulo,

1998.

Uno Uno Gol Gol Corsa


Uno Uno Gol Gol Pálio
Uno Uno Gol Corsa Pálio
Uno Uno Gol Corsa Pálio
Uno Gol Gol Corsa Ka

7
1 ESTATÍSTICA DESCRITIVA
Finalmente, na Tabela 5, estão apresentados os dados (dados elaborados) do número de ovos danicados

na amostra de 30 dúzias do carregamento.

Tabela 5: Dados elaborados referentes ao número de ovos danicados em uma inspeção feita em 30

embalagens, de uma dúzia cada, em um carregamento para o mercado municipal de Lavras proveniente

de uma cidade distante.

0 0 0 1 2
0 0 1 1 3
0 0 1 1 3
0 0 1 1 3
0 0 1 2 4
0 0 1 2 5

1.2.2 Distribuição de frequência

É importante ressaltar que essas representações não são, ainda, a melhor forma de apresentar os dados,

pois se os tamanhos amostrais aqui apresentados fossem de ordem maior de dados (centenas ou milhares

de dados), então essas representações consumiriam muito espaço e consequentemente seriam pouco

funcionais para o propósito que se destinam. Torna-se evidente a necessidade de resumir os dados,

sem perda de muita informação contida neles. Dessa forma, para os dados qualitativos nominais e

para os quantitativos discretos, percebe-se que eles poderiam ser resumidos agrupando suas categorias

e apresentando-os em tabelas e grácos, com suas respectivas frequencias.

Os dados qualitativos nominais da marca de carros populares predominantes em 25 cidades do triângulo

em 1998 estão apresentados na Tabela 6.

Tabela 6: Distribuição de frequencia absoluta, relativa e percentual da marca de carros populares

predominante em 25 cidades do triângulo, 1998.

Marca fi fr fp (%)
Corsa 4 4/25=0,16 16
Gol 8 0,32 32
Ka 1 0,04 4
Pálio 3 0,12 12
Uno 9 0,36 36
P
25 1,00 100

Como determinar as frequencias:

ˆ Frequencia Absoluta (fi ): é o número de vezes que o nível/categoria da variável aparece na

amostra.

ˆ Frequencia Relativa (fr ) : fr = Pfi


fi = fi
n

ˆ Frequencia Percentual (fp (%)) : fp (%) = fr .100

Rotina implementada no freeware R para obtenção da distribuição de frequência associada


a marcas predominantes de carros populares (dados da Tabela 4):

8
1.2 Coleta, organização e apresentação de dados

dados<-read.table("marcas de carros.txt", h=T)

attach(dados)

tab.dados<-table(dados)

df<-matrix(0,6,3) # matriz 6x3 composta só de elementos "0"

colnames(df )<-c("fa","fr","fp") # nomes das colunas da matriz

rownames(df )<-c("Uno","Palio","Corsa","Gol","Ka","Total") # níveis da variável nas linhas

df[1,1]<-tab.dados["Uno"] # frequencia do "Uno"

df[2,1]<-tab.dados["Palio"] # frequencia do "Pálio"

df[3,1]<-tab.dados["Corsa"] # frequencia do "Corsa"

df[4,1]<-tab.dados["Gol"] # frequencia do "Gol"

df[5,1]<-tab.dados["Ka"] # frequencia do "Ka"

df[6,1]<-sum(df[1:5]) # quantidade de elementos do banco de dados

for(i in 1:6) {df[i,2]<-df[i,1]/df[6,1]} # retorna frequencia relativa

for(i in 1:6) {df[i,3]<-df[i,2]*100} # retorna frequencia percentual

df # retorna a tabela de distribuição de frequencia

Na tabela 5, estão apresentados os dados referentes ao número de ovos danicados em uma inspeção

feita em 30 embalagens de uma dúzia cada, em um carregamento para o mercado municipal de La-

vras. Esses dados podem ser agrupados de modo análogo aos dados da marca de carros populares no

triângulo.

Tabela 7: Distribuição de frequencia Absoluta, Relativa e Percentual referentes ao número de ovos


danicados em uma inspeção feita em 30 embalagens, de uma dúzia cada, em um carregamento para
o mercado municipal de Lavras proveniente de uma cidade distante.

Número de ovos quebrados (xi ) fi Freq. Relat. fr Freq. Perc. fp (%)


0 13 13/30=0,44 44
1 9 9/30=0,30 30
2 3 3/30=0,10 10
3 3 3/30=0,10 10
4 1 1/30=0,03 3
5 1 1/30=0,03 3
P
30 1,00 100

Rotina implementada no software R para obtenção da distribuição de frequência para os


dados da Tabela 3 (Número de ovos quebrados).

9
1 ESTATÍSTICA DESCRITIVA

dados<-read.table("ovos quebrados.txt", h = T)

attach(dados)

tab.dados<-table(dados)

df<-matrix(0,7,3)

colnames(df )<-c("fa","fr","fp")

rownames(df )<-c("0","1","2","3","4","5","Total")

df[1,1]<-tab.dados["0"]

df[2,1]<-tab.dados["1"]

df[3,1]<-tab.dados["2"]

df[4,1]<-tab.dados["3"]

df[5,1]<-tab.dados["4"]

df[6,1]<-tab.dados["5"]

df[7,1]<-sum(df[1:6])

for(i in 1:7) {df[i,2]<-df[i,1]/df[7,1]}

for(i in 1:7) {df[i,3]<-df[i,2]*100}

df

1.2.3 Organização de dados de variáveis quantitativas contínuas


Agora, quando os dados são quantitativos contínuos verica-se que não é possível efetuar o mesmo tipo

de tratamento dispensado aos dados qualitativos e aos dados quantitativos discretos. Para resolver

este problema de apresentar a distribuição de dados quantitativos contínuos de uma forma resumida

e manter o máximo de informação contida na amostra será apresentada a distribuição de frequencia

para esse tipo de dados. Nesse tipo de representação, os dados quantitativos contínuos são agrupados

em classes de valores, das quais as frequencias e os limites são apresentados em uma tabela. Para isso

é necessário adotar um critério para determinar o número de classes em que serão agrupados os dados

amostrais. A seguir serão apresentados alguns critérios empíricos para determinar o número de classes

(k) de acordo com o tamanho da amostra (n).

1.2.3.1 Determinando o número de classes (k):


 √n,

n ≤ 100
i) Critério de Oliveira (1994) :k =
 5. log (n) , n ≥ 100

ii) Critério de Scott(1979): A n 3
k= 3,49 S
em que A é amplitude total e S o desvio padrão amostral. As estatísticas A e S são denidas nas

equações abaixo da seguinte forma:


v !2 
u  n
P
Xi
u
u n
u 1  i=1

 X2 −
P
A = X(n) − X(1) = Xmáx − Xmı́n e S = u n−1  i n
.

i=1
t

iii) Critério de Sturges: k = 1 + 3, 3 log(n)


O próximo passo será determinar o comprimento de uma classe especíca. O comprimento de classe

é denominado de amplitude de classe e representado por C. Por construção, todas as classes terão o

mesmo comprimento e a regra para determinar C será:

A
C= (K−1) .

10
1.2 Coleta, organização e apresentação de dados

A seguir é apresentado uma seqüência (algoritmo) para a construção de uma distribuição de frequencia

para variáveis quantitativas contínuas:

1. Organizar (ordenar): dados brutos  dados elaborados

2. Cálculo da amplitude total (A): A = X(n) −X(1) = maior valor observado−menor valor observado.
3. Cálculo do número de classes: adotar um dos critérios citados anteriormente.

A
4. Cálculo de amplitude de classe (C): C= K−1
C C
5. Cálculo do limite inferior da primeira classe: LI1ª = X(1) − 2 = menor valor observado − 2
6. Calcular as classes: para determinados cálculos estatísticos, todos os pontos de uma classe podem

ser representados pelo ponto médio da classe. O ponto médio da classe i (X̄i ) é calculado pela

média dos limites da classe. Esse critério é conhecido como hipótese tabular básica.

Exemplo 8: (FERREIRA, 2005) Determinar a distribuição de frequencia absoluta, relativa e per-

centual referente a produção de grãos em g/planta obtidos numa amostra de n = 20 plantas de feijão

da geração F2 do cruzamento das cultivares Flor de Maio e Carioca. Frequentemente utilizarei esse

exemplo (extraíddo de FERREIRA, 2005) para ilustrar os procedimentos possíveis no contexto de

estatística descritiva.

Tabela 8: Dados elaborados da produção de grãos em g/planta obtidos numa amostra de n = 20


plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.

1,38 4,14 6,23 12,13 17,12


3,65 4,54 6,79 12,56 19,68
3,78 5,64 8,21 13,19 21,26
3,87 5,67 9,79 15,60 24,57

Tabela 9: Distribuição de frequencias da produção de grãos em g/planta obtidos numa amostra de n

= 20 plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.

Classes de pesos X̄i fi fr fp


-2,485 5,245 1,38 6 0,30 30
5,245 12,975 9,11 8 0,40 40
12,975 20,705 16,84 4 0,20 20
20,705 28,435 24,57 2 0,10 10
P
20 1,00 100

A seguir são apresentadas informações para a construção da distribuição da Tabela 9.

1. Organizar (ordenar) - Como os dados são elaborados então, eles já estão ordenados.

2. Determinando a amplitude total (A):A = X(n) − X(1) = maior valor observado - menor valor

observado = 24,57 - 1,38 = 23,19

3. Cálculo do número de classes (k):


 √n,

n ≤ 100
No presente exemplo será adotado o Critério de Oliveira (1994): k= .
 5. log (n) , n ≥ 100

Dado que n = 20 então, k= 20 = 4, 47 ⇒ k = 4 (inteiro mais próximo). Logo, o número de

classes será 4.

11
1 ESTATÍSTICA DESCRITIVA
A 23,19 23,19
4. Cálculo de amplitude de classe (C): C= k−1 = 4−1 = 3 = 7, 73
C 7,73
5. Cálculo do limite inferior da primeira classe: LI1ª = X(1) − 2 = 1, 38 − 2 = −2, 485
6. Calcular as classes:

Classe 1: [LI1ª ; LS1ª [


LS1ª = LI1ª + C = −2, 485 + 7, 73 = 5, 245 (Limite superior da 1 ª classe)

Classe 2: [LI2ª ; LS2ª [


LI2ª = LS1ª
LS2ª = LI2ª + C = 5, 245 + 7, 73 = 12, 975 (Limite superior da 2 ª classe)

Raciocínio análogo para as demais classes.

Rotina implementada no software R para obtenção da distribuição de frequência referente


aos dados de produção de grãos em g/planta (Tabelas 8 e 9 ).

dados<-read.table("produção de café F2.txt", h = T)

attach(dados)

df<-matrix(0,5,3)

colnames(df )<-c("fa","fr","fp")

rownames(df )<-c("[-2.485,5.245)","[5.245,12.975)","[12.975,20.705)","[20.705,28.435)","Total")

tab.dados<-table(cut(producao,breaks=c(-2.485,5.245,12.975,20.705,28.435)))

df[1:4,1]<-tab.dados

df[5,1]<-sum(df[1:4])

for(i in 1:5) {df[i,2]<-df[i,1]/df[5,1]}

for(i in 1:5) {df[i,3]<-df[i,2]*100}

df

1.3 Medidas de Posição


Inúmeras vezes, nas mais diversas áreas do conhecimento, são necessárias comparações entre conjuntos

de dados. Essas comparações visam sintetizar a informação e as decisões a serem tomadas a respeito de

determinado conjunto de dados. Essas comparações podem ser realizadas por intermédio das medidas

de posição e medidas de dispersão. As medidas de posição, também, conhecidas como medidas


de tendência central são valores obtidos a partir dos dados, que fornecem uma orientação quanto

à posição da distribuição em relação ao eixo dos valores reais (eixo x), ou seja, o termo medida de

posição é usado para indicar, ao longo da escala de medidas, onde a amostra ou a população está

locada. Portanto, as medidas de posição mostram o valor representativo em torno do qual os dados

tendem a agrupar-se, com maior ou menor frequencia, isto é, são utilizadas para sintetizar em um

único número o conjunto de dados observados. Entre vários tipos de medidas de posição destacam-se a

média, a mediana e a moda. Esses parâmetros são úteis, pois descrevem propriedades da população, ou

seja, caracterizam a população. A média aritmética é a medida de posição mais conhecida e aplicada.

1.3.1 Média Aritmética


É uma medida de fácil compreensão, mais comum e simples de ser calculada. A média aritmética ou

simplesmente média é, por denição, o resultado da divisão das somas de todos os valores da série pelo

número de valores na série. A média é utilizada quando:

12
1.3 Medidas de Posição

ˆ Deseja-se obter a medida de posição que possui a maior estabilidade;

ˆ É base para outros procedimentos estatísticos.

1.3.1.1 Média Aritmética para dados não agrupados


A média de uma população ou média populacional é representada pela letra grega minúscula m,
sendo denida como:
N
P
Xi
i=1 X1 +X2 +X3 +...+XN
µ= N = N . (1)

N
populacional da variável;
P
Em que (µ) é a média Xi é a soma de todos os elementos da população
i=1
e N é o número de elementos na população. O estimador não viesado, mais eciente e consistente da

média populacional é a média amostral, denotada porX̄ (leia-se X barra):

n
P
Xi
i=1 X1 +X2 +X3 +...+Xn
X= n = n . (2)
n
P
Em queX̄ é a média amostral da variável; Xi é a soma de todos os elementos da amostra e n é o
i=1
número de elementos da amostra.

Exemplo 9: Sabendo-se que o número de peças defeituosas observados em amostras retiradas diari-
amente da linha de produção, durante uma semana foi de 10, 14, 13, 15, 16, 18 e 12 peças, têm, para

número médio de peças defeituosas da semana:


n
P 7
P
Xi Xi
i=1 i=1 X1 +X2 +X3 +...+X7 10+14+13+15+16+18+12 98
X̄ = n = 7 = 7 = 7 = 7 = 14 peças/dia
O comando para o cálculo da média aritmética é apresentado a seguir, utilizando o banco de dados do

exemplo 9:

# sintaxe:

mean(dados)

# Exemplo 9: Número de peças defeituosas

npd<-c(10,14,13,15,16,18,12)

mean(npd)

1.3.1.2 Média Aritmética para dados agrupados para variáveis


discretas
O cálculo da média amostral quando os dados estão agrupados, ou seja, estão em uma distribuição de

frequencias e quando a variável em questão é classicada como discreta, segue o mesmo princípio da

fórmula básica da média aritmética, no entanto, as informações utilizadas não são todos os elementos

da distribuição, mas sim cada classe (Xi ) com sua frequencia (fi ). A fórmula passa a ser:

k
P
X̄ = Xi fi /n. (3)
i=1

13
1 ESTATÍSTICA DESCRITIVA
k
P
Em que é a média amostral da variável Xi fi ; : é a somatória das multiplicações dos valores de cada
i=1
classe por sua frequencia; k é o número de classes e n é o número total de elementos da amostra (dados
P
por fi ).

Exemplo 10: Considere os números de gols por partida em um determinado campeonato de futebol,

agrupados e apresentados na Tabela 10. Calcule o número médio de gols por partida.

Tabela 10: Número de gols por partida em um total de 60 jogos.

º
N . de gols por partida (Xi ) fi
0 7
1 12
2 16
3 12
4 9
5 2
6 2
P
60

Observe que cada  classe ou atributo ou categorias da variável (n . de gols por partida) apresenta º
sua frequencia. Para calcular a média quando os dados estão agrupados, o modo mais prático é

acrescentar na tabela uma coluna correspondente aos produtos Xi fi (em cada linha da tabela, procede-

se a multiplicação do valor de Xi por sua frequencia fi ), e após a obtenção da somatória desses produtos
k
 
P
Xi fi . Para o exemplo 10, esse procedimento é apresentado na Tabela 11.
i=1
k
Tabela 11:
P
Número de gols por partida em um total de 60 jogos, com a coluna Xi fi .
i=1

º
n . de gols por partida (Xi ) fi Xi fi
0 7 0
1 12 12
2 16 32
3 12 36
4 9 36
5 2 10
6 2 12
P
60 138

Logo, o cálculo da média amostral será realizado por intermédio da equação (3):
7
P
Xi fi
i=1 X1 f1 +X2 f2 +X3 f 3+...+X7 f7 0+12+...+12 138
X̄ = 60 = 60 = 60 = 60 = 2, 3 gols/partida
k
 
P
Observe que a somatória dos produtos dos números de gols por suas frequencias Xi fi corresponde
i=1 P
ao número total de gols durante o campeonato. Ao dividirmos esse total pelo número de jogos ( fi )
estamos nos remetendo ao mesmo procedimento do cálculo da média aritmética simples. O que mudou,

portanto, foi apenas a apresentação dos dados, mas não o conceito da medida. O valor encontrado

(X̄ = 2, 3 gols/partida) não é um resultado possível para qualquer jogo (nesse caso poderiam ser 2

gols, 3 gols, mas não 2,3 gols). No entanto, esse valor representa o todo e permite interpretar que a

tendência geral foi de pouco mais de dois gols por partida nesse campeonato.

Agora foi criado um banco de dados no bloco de notas para o exemplo 10. A partir desse banco de

dados calcularemos a média aritmética:

14
1.3 Medidas de Posição

# sintaxe:

mean(dados)

# Exemplo 10: Número de gols por partida

dados<-read.table("número de gols por partida.txt", h=T) # read.table(Caminho, h = T) - comando para realizar a leitura do banco de dados

mean(dados)

1.3.1.3 Média Aritmética para dados agrupados para variáveis


contínuas
Para o cálculo da média amostral quando os dados estão agrupados e a variável envolvida no processo

é contínua, utiliza-se o raciocínio análogo ao cálculo da variável discreta, conforme a expressão abaixo:
k
P
X i fi
i=1 X̄1 fi +X̄2 f2 +X̄3 f3 +...+X̄k fk
X̄ = n = n . (4)

Em que X̄i é o ponto médio da classe e fi é a frequencia absoluta da classe i, para i = 1, 2, ..., k e k
é o número de classes.

Exemplo 11: Em uma fábrica de pneus automotivos a matéria prima para a fabricação consiste em

materiais derivados do petróleo, materiais sintéticos e borracha. As características dos diversos tipos de

pneus fabricados são determinadas pela qualidade do material empregado em sua fabricação, e, neste

sentido diversos testes são aplicados a estes produtos para a medição e vericação de sua qualidade.

Considere que um bloco de borracha que deve ser submetido a testes para a vericação do coeciente

de atrito entre o bloco e uma superfície plana de cimento/asfalto. Uma força é aplicada ao bloco e

este é arrastado por uma determinada distância permitindo que o coeciente de atrito seja medido.

Em uma sessão de testes foram realizadas 40 medições e o coeciente de atrito medido foi dividido em

quatro classes cujos resultados estão mostrados na Tabela 12, que indica a frequencia absoluta (fi ) do

coeciente de atrito medido.

Tabela 12: Distribuição de frequencias do coeciente de atrito medido.

Classes de Coeciente de Atrito Cinético fi


0,15 0,35 5
0,35 0,55 10
0,55 0,75 8
0,75 0,95 17
P
40

Analogamente ao procedimento das variáveis discretas será criada uma coluna com os pontos médios
 
das classes X̄i e a seguir outra coluna correspondente aos produtos X̄i fi , conforme é apresentado

na Tabela 13.

Tabela 13: Distribuição de frequencias, acrescentando-se as colunas X̄i e X̄i fi .

Classes de Coeciente de Atrito Cinético fi X̄i X̄i fi


0,15 0,35 5 0,25 1,25
0,35 0,55 10 0,45 4,50
0,55 0,75 8 0,65 5,20
0,75 0,95 17 0,85 14,45
P
40 - 25,40

15
1 ESTATÍSTICA DESCRITIVA
O coeciente de atrito cinético médio, ou seja, a média será determinada por meio da equação (4):
4
P
X i fi
i=1 X̄1 f1 +X̄2 f2 +X̄3 f3 +X̄4 f4 5∗0,25+10∗0,45+8∗0,65+17∗0,85 25,40
X̄ = n = 40 = 40 = 40 = 0, 635
Observe que a fórmula é exatamente a mesma para variáveis discretas ou contínuas. Todos os elementos

de um determinado intervalo de classe são representados, no cálculo, pelo ponto médio da classe e não

pelos seus valores reais (Hipótese Tabular Básica). Assim, para variáveis contínuas, o cálculo da média

com dados agrupados gera um valor aproximado, e não idêntico ao cálculo com todos os elementos

(dados não-agrupados).

Apartir do banco de dados (coeciente de atrito cinético.txt) para o exemplo 11 calcularemos a média

aritmética:

# sintaxe:

mean(dados)

# Exemplo 11: Coeciente de atrito cinético

dados<-read.table("coeciente de atrito cinético.txt", h=T)

mean(dados)

1.3.2 Mediana
A mediana é uma medida típica de tendência central, sendo denida em um conjunto de dados orde-

nados como o valor central, ou seja, o valor para o qual há tantas mensurações que o superam quanto

são superados por ele. A mediana amostral (Md ) é o melhor estimador da mediana populacional (µd )
(FERREIRA, 2005). Para a estimação da mediana, é necessário ordenar os dados (dados elaborados).

A ordenação pode ser crescente ou decrescente, embora, no presente material, sejam consideradas as

ordens crescentes.

1.3.2.1 Mediana para dados não-agrupados


Para determinar mediana amostral para dados não-agrupados é necessário que determine a posição em

que se encontra a mediana:

i) Se o número de observações for par, a posição da mediana denotada por E será:


E = n2 . (5)

e a mediana amostral será determinada por:

X( n ) +X n+2
2 ( 2 )
Md = 2 . (6)

Exemplo 12: Considere a seguinte amostra de dados: 8, 9, 9, 11, 12, 13, 13, 14 que possui 8
n 8
elementos, portanto . Logo, é par, então por meio da equação (5) tem-se que: E= 2 = 2 = 4, ou seja,

o elemento central apresenta ordem 4. Assim, a mediana será determinada por intermédio da equação

(6):

X( n ) +X n+2 X
2 ( 2 ) ( 82 ) +X( 8+2
2 ) X(4) +X(5) 11+12
Md = 2 = 2 = 2 = 2 = 11, 5

O comando para o cálculo da mediana no R é o seguinte:

16
1.3 Medidas de Posição

# sintaxe:

median(dados)

# Exemplo 12: Considerando os dados do exemplo 12 teremos:

dados<-c(8,9,9,11,12,13,13,14)

median(dados)

ii) Se o número de observações for ímpar, a posição da mediana denotada por E será:
n+1
E= 2 . (7)

e a mediana amostra será determinada por:

Md = X( n+1 ) . (8)
2

Exemplo 13: Considere a seguinte amostra de dados: 8, 9, 9, 11, 12, 13, 13 que possui 7 elementos,
isto é, n = 7. Logo, é ímpar, então por meio da equação (7) tem-se que:

n+1 7+1
E = 2 = 2 = 4 , ou seja, o elemento central apresenta ordem 4. Assim, a mediana será

determinada por intermédio da equação (8):

M d = X( n+1 ) = X( 7+1 ) = X(4) = 11


º
2 2

ou seja, o 4 elemento da amostra, que corresponde ao valor 11, é a mediana do conjunto de dados.
O comando para o cálculo da mediana no R é o seguinte:

# sintaxe:

median(dados)

# Exemplo 13: Considerando os dados do exemplo 13 teremos:

dados<-c(8,9,9,11,12,13,13)

median(dados)

1.3.2.2 Mediana para dados agrupados para variável discreta


Para dados agrupados, o cálculo da mediana segue o mesmo princípio usado para dados não-agrupados,

ou seja, em um conjunto de valores dispostos de forma ordenada, a mediana é o valor que separa o

conjunto em dois subconjuntos com mesmo número de elementos. Para se fazer essa determinação

necessita-se de determinar as frequencias acumuladas (ordenação dos dados).

Se a variável é discreta, o procedimento para determinar a mediana é o mesmo utilizado para dados

não-agrupados, em que o centro da amostra é diferente para os casos em que n é ímpar, ou n é par,

isto é:

1. Determina-se a ordem do valor central com o uso das mesmas regras dos dados não agrupados;

2. Determina-se a coluna de frequencia acumulada (Fi ) à distribuição com o objetivo de encontrar

o valor central;

17
1 ESTATÍSTICA DESCRITIVA
3. Se n é ímpar, o valor encontrado no 2 passo já é a mediana; º
4. Se n é par, a média dos elementos encontrados no 2 passo é a mediana. º
Exemplo 14: (n par) Utilizando os dados do exemplo 10 apresentados na Tabela 10, que contabilizou

os números de gols por partida em um campeonato de futebol, vamos calcular a mediana desses valores.

O número de gols no campeonato foi 60, isto é, n é par. Então, por meio da equação (5) tem-se que a
ordem do elemento central é: E = n/2 = 60/2 = 30 (regra i).

A Tabela 10 foi reescrita em Tabela 14, acrescendo-se a coluna de frequencia acumulada para baixo

(Fi ), com o intuito de determinar o valor central da distribuição (regra ii).

Tabela 14  Distribuição de frequencias absoluta (fi ) e acumulada (Fi ) referente ao número de gols
por partida em um total de 60 jogos.

º
n . de gols por partida (Xi ) fi Fi
0 7 7
1 12 19
2 16 35
3 12 47
4 9 56
5 2 58
6 2 60
P
60 -

Portanto, o elemento central é o 30º elemento da amostra, ou seja, a  classe (categoria ou atributo)

cuja frequencia acumulada é igual, ou imediatamente superior ao 30 º elemento é a terceira  classe

(F3 = 35). Logo, a mediana ou o número mediano de gols por partida será calculado por intermédio

da equação (6) (regra iii):


X( n ) +X n+2 X +X 60+2
2 ( 2 ) ( 60
2 ) ( 2 ) X(30) +X(31) 2+2 4
Md = 2 = 2 = 2 = 2 = 2 =2
O comando para o cálculo da mediana no R é o seguinte:

# sintaxe:

median(dados)

# Exemplo 14: Considerando os dados do exemplo 14 teremos:

dados<-c(0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,5,5,6,6)

median(dados)

Exemplo 15: (n ímpar) Considere os dados amostrais de números de circuitos defeituosos em sistema

composto por 4 circuitos. Uma amostra de 19 sistemas esta resumida na Tabela 15. Vamos determinar

a mediana, ou seja, o número mediano de circuitos defeituosos por sistema.

A Tabela 15 apresenta uma coluna referente às frequencias acumulada para baixo Fi (regra ii).

Tabela 15: Distribuição de frequencias absoluta (fi ) e acumulada (Fi )dos números de circuitos defei-

tuosos por sistema.

º
n . de circuitos defeituosos (Xi ) fi Fi
1 10 10
2 7 17
3 1 18
4 1 19
P
19 -

18
1.3 Medidas de Posição

Observe que o número de elementos (sistemas) é 19, isto é, n é ímpar. Então, por meio da equação (7)
tem-se que a ordem do elemento central é:

n+1 20
E= 2 = 2 = 10 (regra i).

Portanto, o elemento central é o 10º elemento, ou seja, a  classe cuja frequencia acumulada é igual,

ou imediatamente superior ao 10 º elemento é a primeira  classe (Fi = 10) . Logo, a mediana ou o

número mediano de circuitos defeituosos por sistema será determinado por meio da equação (8) (regra

iii):

Md = X( n+1 ) = x( 19+1 ) = x(10) = 1 circuito de circuito defeituoso por sistema.


2 2

O comando para o cálculo da mediana no R é o seguinte:

# sintaxe:

median(dados)

# Exemplo 15: Considerando os dados do exemplo 15 teremos:

dados<-c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,3,4)

median(dados)

Outra forma de obter informação sobre a mediana a partir de um banco de dados seria por meio do

seguinte comando:

# sintaxe:

summary(dados)

# Exemplo 15: Considerando os dados do exemplo 15 teremos:

dados<-read.table("número de circuitos defeituosos.txt", h = T)

summary(dados) # apresenta informações sobre máximo, mínimo, quartis, média e mediana.

1.3.2.3 Mediana para dados agrupados para variável contínua


Se a variável é contínua é necessária uma interpolação dentro da classe que contém o centro da amostra

para determinar o valor  exato da mediana. O procedimento para determinar a mediana é:

1. Determinam-se as frequencias acumuladas;

2. Calcula-se a ordem por meio da equação (5) se n for par ou pela equação (7) se n for ímpar;

3. Marca-se a classe correspondente à frequencia acumulada imediatamente superior à ordem, que

é a classe mediana, e aplica-se a seguinte fórmula de interpolação:

( n2 −F(anterior) )
Md = LIM d + fiM d hM d . (9)

Em que LIM d é o limite inferior da classe mediana; n é o número de elementos no conjunto de dados;
F(anterior) é a frequencia acumulada da classe anterior à classe mediana; hM d é a amplitude do intervalo

da classe mediana; fiM d é a frequencia absoluta da classe mediana;

Exemplo 16: Para ilustrar o exemplo 3.8 serão utilizados os dados do exemplo 11 (Tabela 13), que

representa uma sessão de testes, ou seja, 40 medições referentes ao coeciente de atrito. Na Tabela 16

19
1 ESTATÍSTICA DESCRITIVA
é apresentado as frequencias acumuladas das classes. Vamos calcular a mediana desses Coecientes de

Atrito Cinético.

Tabela 16: Distribuição de frequencias de 40 medições referente ao coeciente de atrito.

Classes de Coeciente de Atrito Cinético fi Fi


0,15 0,35 5 5
0,35 0,55 10 15
0,55 0,75 8 23
0,75 0,95 17 40
P
40 -

São 40 medições, ou seja, n = 40. Portanto a ordem é calculada por meio da equação (5):

n 40
E= 2 = 2 = 20

A classe cuja frequencia acumulada é imediatamente superior à ordem 20 é a terceira classe, portanto

essa é a classe mediana ( 0,55 0,75), destacada na Tabela 3.7. Então, por intermédio da interpolação,

equação (9), tem-se a mediana:

( n2 −F(anterior) ) ( 40
2 −15)
Md = LIM d + fi M d hM d = 0, 55+ 8 0, 20 = 0, 55+ (20−15)
8 0, 20 = 0, 55+ 58 0, 20 = 0, 55+ 18 =
0, 55 + 0, 125 = 0, 675

Nota: Estas informações não são válidas para dados contínuos agrupados.

1. Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana

com um dos elementos da série;

2. Quando o número de elementos da série estatística for par, nunca haverá coincidência da mediana

com um dos elementos da série. A mediana será sempre a média aritmética dos dois elementos

centrais da série.

1.3.3 Moda
A moda é o valor que ocorre com maior frequencia em uma série de dados. Uma melhor denição

poderia ser dada por aquele valor da variável em que há a mais densa concentração de valores na sua

proximidade (FERREIRA, 2005). A moda amostral (Mo ) é o melhor estimador da moda populacional

(µo ). A moda não é afetada pelos extremos e também é uma medida muito utilizada na economia e

quando:

ˆ Desejamos obter uma medida rápida e aproximada de posição;

ˆ A medida de posição deve ser o valor mais típico da distribuição.

No freeware R, existe duas maneiras de encontrar a moda de uma série de dados. São elas:

1. table(): este comando ordena em ordem crescente os dados e indica o número de vezes em que o
elemento se repete na série de dados apresentada. É utilizado para encontrar a moda em pequenas
amostras.

20
1.3 Medidas de Posição

2. subset(): em oposição ao item anterior esta função é utilizada quando o tamanho da amostra é
grande.

1.3.3.1 Moda para dados não-agrupados


Para determinar a moda em determinado conjunto de dados, procura-se o valor que mais se repete

nesse conjunto de dados.

Exemplo 17: Considere a seguinte amostra: 8, 9, 9, 11, 13, 13, 13, 14. O valor que mais se repete é

o 13, que aparece três vezes, portanto a moda é: M o = 13


Vamos considerar os dados do exemplo 17 para ilustrar os comandos para o cálculo da moda no R:

# sintaxe:

subset(table(), table() == max(table()))

# Exemplo 17: Considerando os dados do exemplo 17 teremos:

dados<-c(8, 9, 9, 11, 13, 13, 13, 14)

table(dados) #retorna a frequencia observada de cada valor

subset(table(dados),table(dados)==max(table(dados))) # retorna a(s) moda(s)

1.3.3.2 Moda para dados agrupados para variáveis discretas


No caso de variáveis discretas, com os dados agrupados, torna-se muito simples a determinação da

moda. Basta observar o valor (Xi ) que apresenta maior frequencia (fi ).
Exemplo 18: Para ilustrar o exemplo 18 serão considerados os dados do exemplo 15 (Tabela 15), que

se refere ao número de circuitos defeituosos por sistema, observados em uma amostra de 19 sistemas.

Tabela 17: Distribuição dos números de circuitos defeituosos por sistema.

º
n . de circuitos defeituosos (Xi ) fi
1 10

2 7

3 1

4 1
P
19

Observa-se que a maior frequencia (f1 = 10) foi a da primeira  classe , cujo valor é 1 circuito defeituoso
por sistema (X1 = 1), por isso a moda da distribuição é: Mo = 1 circuito defeituoso/sistema.

Vamos considerar os dados do exemplo 17 para ilustrar os comandos para o cálculo da moda no R:

# sintaxe:

subset(table(), table() == max(table()))

# Exemplo 18: Número de circuitos defeituosos (a partir de um banco de dados).

dados<-read.table("número de circuitos defeituosos.txt", h = T)

table(dados)

subset(table(dados),table(dados)==max(table(dados)))

21
1 ESTATÍSTICA DESCRITIVA
1.3.3.3 Moda para dados agrupados para variáveis contínuas
No caso de variáveis contínuas, a classe que apresenta maior frequencia é denominada classe modal.

Crespo (1999) arma que a moda, nesse caso, é o valor dominante que está compreendido entre os

limites da classe modal.


Depois que a classe modal está denida é necessário fazer a interpolação para determinação do valor

da moda. Para esse m existem diferentes métodos, sendo que nesse texto vamos aplicar o método

de Czuber (citado por FERREIRA, 2005) que permite encontrar o valor da moda de forma mais

elaborada:

41
Mo = LIM o + 41 +42 hM o . (10)

Em que, LIM o é o limite inferior da classe modal; 41 é a diferença entre as frequencias da classe modal

e a imediatamente anterior; 42 é a diferença entre as frequencias da classe modal e a imediatamente

posterior e hM o é a amplitude da classe modal.

Exemplo 19: Os dados da Tabela 18 são os mesmos da Tabela 12, e se referem às 40 medições do

coeciente de atrito. Vamos calcular a moda desses coecientes de atrito cinético.

Tabela 18: Distribuição de frequencias do coeciente de atrito medido.

Classes de Coeciente de Atrito Cinético fi


0,15 0,35 5
0,35 0,55 10
0,55 0,75 8
0,75 P 0,95 17
40

A classe que apresentou maior frequencia (fi ) foi a quarta classe (0,75 0,95), que apresentou dezessete

elementos (f4 = 17). Esta é, então, a classe modal. Agora, será determinada a moda ou o coeciente

de atrito cinético modal por intermédio da equação (10), método de Czuber:


41 (17−8) (9) 9
Mo = LIM o + 41 +42 hM o = 0 , 75 + (17−8)+(17−0) 0, 20 = 0 , 75 + (9)+(17) .0, 20 = 0, 75 + 26 .0, 20 =
1,8
0, 75 + 26 = 0, 75 + 0, 0692 = 0, 8192.
Nota:
ˆ É possível encontrar séries de dados nas quais nenhum valor apareça mais do que os outros, como

por exemplo a série: 8, 9, 10, 11, 13, 14 então, esta série é dita amodal.
ˆ Em outros casos pode haver dois ou mais valores de concentração, como por exemplo, a série: 8,

9 e 13 ocorrem
9, 9, 11, 12, 13, 13, 14 então, os valores com maior frequencia que os demais.

Esta série apresenta duas modas, sendo dita bimodal.

1.3.4 Posição relativa da média, mediana e moda


Crespo (1999) cita que quando uma distribuição é simétrica, se as três medidas coincidem. Porém, a

assimetria as torna diferentes de modo que quanto maior a assimetria maior será essa diferença entre

as três medidas. Assim, em uma distribuição em forma de sino, temos:

(a) , no caso de curva simétrica;


(b) , no caso de curva assimétrica positiva ( assimétrica à direita);

22
1.4 Medidas Separatrizes

(c) , no caso de curva assimétrica negativa (assimétrica à esquerda).


Assimetria: signica desvio ou afastamento da simetria (grau de deformação de uma curva), ou seja,

existem valores elevados em uma das caudas.

# Simétrica, se a média, a mediana e a moda coincidem.


# Assimétrica à esquerda ou negativa, se a média é menor que a moda.

# Assimétrica à direita ou positiva, se a média é maior que a moda.

Figura 1 - Formas de distribuições em situações reais: (a) distribuição em forma de sino simétrica; (b)

distribuição assimétrica à direita; e (c) distribuição assimétrica à esquerda

Maiores detalhes sobre a característica da distribuição será discutido na seção (1.6) e (1.7).

1.3.5 Comparação entre média e mediana


Suponha que se queira sintetizar em um único número os salários das pessoas que trabalham em deter-

minado restaurante (cozinheiros, copeiros, garçons, recepcionistas etc.). Em uma situação hipotética,

considerem os seguintes valores de salários: 200, 250, 250, 300, 450, 460, 510.
7
P
xi
i=1 200+...+510
Sua média aritmética, isto é, o salário médio é: X̄ = 7 = 7 = 345, 7.
Esse valor representa, ou sintetiza razoavelmente, aquele conjunto de observações. Se incluirmos,

entretanto, o salário de gerente do estabelecimento, os dados seriam: 200, 250, 250, 300, 450, 460,

510, 2300 e a média seria 601,4. Neste caso, não se pode dizer que a média sintetiza adequadamente o

conjunto, pois apenas um valor é maior do que ela.

No entanto, as medianas sem e com o salário do gerente são 300 e 375, respectivamente. Portanto,

o exemplo ilustra um fato de que a média é muito sensível a valores extremos de um conjunto de

observações, enquanto, a mediana não sofre muito com a presença de alguns valores muito altos ou

muito baixos. Costuma-se dizer que a mediana é mais robusta do que a média aritmética. Portanto,

deve-se preferir a mediana como medida sintetizadora quando o histograma do conjunto de valores é

assimétrico, isto é, quando há predominância de valores elevados em uma das caudas.

1.4 Medidas Separatrizes


São números reais que dividem a sequencia ordenada de dados em partes que contêm a mesma quanti-

dade de elementos da série, isto é, divide o conjunto de dados em partes iguais. Por exemplo, a mediana

é uma medida separatriz, pois divide a sequencia ordenada em dois grupos, cada um deles contendo

23
1 ESTATÍSTICA DESCRITIVA
50% dos dados. Além da mediana pode-se destacar as seguintes medidas separatrizes (FONSECA &

MARTINS, 2009):

1. Quartis: Divide a sequencia ordenada em 4 (quatro) partes iguais. Assim, o primeiro quartil (Q1 ),
separa a sequencia ordenada deixando 25% dos valores à esquerda e 75% dos valores a direita;

o segundo quartil (Q2 ), separa a sequencia ordenada deixando 50% dos valores à esquerda e

50% dos valores a direita, ou seja,(Q2 ) é a mediana; o terceiro quartil (Q3 ), separa a sequencia

ordenada deixando 75% dos valores à esquerda e 25% dos valores a direita;

2. Quintis: Divide a sequencia ordenada em 5 (cinco) partes iguais, cada uma cará com 20% dos

dados. Assim, o primeiro quintil (K1 ), separa a sequencia ordenada deixando 20% dos valores

à esquerda e 80% dos valores a direita; o segundo quintil (K2 ), separa a sequencia ordenada

deixando 40% dos valores à esquerda e 60% dos valores a direita; o terceiro quintil (K3 ), separa

a sequencia ordenada deixando 60% dos valores à esquerda e 40% dos valores a direita; o quarto

quintil (K4 ), separa a sequencia ordenada deixando 80% dos valores à esquerda e 20% dos valores
a direita;

3. Decis: Divide a sequencia ordenada em 10 (dez) partes iguais, cada uma cará com 10% dos

dados. Assim, o primeiro decil (D1 ), separa a sequencia ordenada deixando 10% dos valores à

esquerda e 90% dos valores a direita. Analogamente, são denidos os outros decis;

4. Percentis: Divide a sequencia ordenada em 100 (cem) partes iguais, cada uma cará com 1% dos

dados. Assim, o primeiro percentil (P1 ), separa a sequencia ordenada deixando 1% dos valores à

esquerda e 99% dos valores a direita. Analogamente, são denidos os outros percentis.

Diante das informações apresentadas, é possível, estabelecer algumas relações (FONSECA &

MARTINS, 2009):

a) Relações entre quartis e percentis: Q1 = P25 ; Q2 = P50 ; Q3 = P75 .


b) Relações entre quintis e percentis: K1 = P20 ; K2 = P40 ; K3 = P60 ; K4 = P80 .
c) Relações entre decis e percentis: D1 = P10 ; D2 = P20 ; D3 = P30 ; D4 = P40 ; D5 =
P50 ; D6 = P60 ; D7 = P70 ; D8 = P80 ; D9 = P90 .
A seguir será apresentado o procedimento para efetuar o cálculo das medidas de separatrizes (FON-

SECA & MARTINS, 2009):

Caso 1: Determinando medidas separatrizes para dados brutos.

1. Primeiramente ordenam-se os dados;

2. Identica-se a medida desejada relacionando-a com o percentil correspondente, Pi ;


3. Calcula-se i % de n, isto é, (i.n )/100 para localizar a posição do percentil i no Rol;

4. Em seguida, identica-se o elemento que ocupa esta posição.

Nota: O resultado de (i.n )/100 indica a posição do percentil i. Se o resultado for um número inteiro,

tem-se a posição imediata do percentil i. Se o resultado não for um número inteiro, não se tem a posição

imediata do percentil i, então, se calcula a média dos valores que ocupam estas posições aproximadas.

Exemplo 1: Calcule o Q1 da sequencia Y: 12, 13, 14, 13, 2, 2, 4, 10, 9, 11, 5, 5.

Solução:
1. Primeiramente ordenam-se os dados: 2, 2, 4, 5, 5, 9, 10, 11, 12, 13, 13, 14;

2. Identica-se a medida desejada relacionando-a com o percentil correspondente, Pi , isto é, Q1 =


P25 , então, i = 25 e n = 12;

24
1.4 Medidas Separatrizes

3. Calcula-se i % de n, isto é, (i.n )/100 para localizar a posição do percentil i no Rol: (i.n )/100 =
(25x12)/100 = 3 (3 ª posição);

4. Em seguida, identica-se o elemento que ocupa esta posição: Portanto, Q1 = P25 = Y(3) = 4 (2,

4, 5, 5, 9, 10, 11, 12, 13, 13, 14).


2,

Interpretação: 25% dos valores da sequencia são menores ou iguais a 4 e 75% dos valores da sequencia
são maiores ou iguais a 4.

Exemplo 2: Calcule o K3 da sequencia Y: 12, 13, 14, 13, 2, 2, 4, 10, 9, 11, 5, 5.

Solução:
1. Primeiramente ordenam-se os dados: 2, 2, 4, 5, 5, 9, 10, 11, 12, 13, 13, 14;

2. Identica-se a medida desejada relacionando-a com o percentil correspondente, Pi : K3 = P60 ,


então, i = 60 e n = 12;

3. Calcula-se i % de n, isto é, (i.n )/100 para localizar a posição do percentil i no Rol: (i.n )/100 =
(60x12)/100 = 7,2 (Média entre 7º e 8º elemento ordenado);
4. Em seguida, identica-se o elemento que ocupa esta posição: Portanto, K3 = P60 = [Y(7) +
Y(8) ]/2 = (10 + 11)/2 = 10, 5.
Interpretação: 60% dos valores da sequencia são menores ou iguais a 10,5 e 40% dos valores da

sequencia são maiores ou iguais a 10,5.

Caso 2: Variável discreta agrupada.

1. Identica-se a medida desejada relacionando-a com o percentil correspondente, Pi ;


2. Calcula-se i % de n, isto é, (i.n )/100 para localizar a posição do percentil i no Rol;

3. Em seguida, identica-se o elemento que ocupa esta posição por meio da frequencia acumulada.

O valor deste elemento é o Pi .


Exemplo 3: Calcule D4 para a série abaixo:

Yi fi
0 2

1 3

2 5

3 3

4 2

Solução:
ˆ Identica-se a medida desejada relacionando-a com o percentil correspondente,
P
Pi : D4 = P40 ,
então, i = 40 e n = 15 = fi ;
ˆ Calcula-se i % de n, isto é, (i.n )/100 para localizar a posição do percentil i no Rol: (i.n )/100 =
(40x15)/100 = 6 (6 º elemento ordenado);

ˆ Em seguida, identica-se o elemento que ocupa esta posição:

Yi fi Fi
0 2 2

1 3 5

2 5 10
3 3 13

4 2 15

25
1 ESTATÍSTICA DESCRITIVA
Portanto, D4 = P40 = Y(6) = 2.
Interpretação: 40% dos valores da sequencia são menores ou iguais a 2 e 60% dos valores da sequencia

são maiores ou iguais a 2.

Nota: O resultado de (i.n )/100 indica a posição do percentil i. Se o resultado não for um número
inteiro, não se tem a posição imediata do percentil i, então, se calcula a média dos valores que ocupam

estas posições aproximadas.

Caso 3: Variável contínua agrupada.

Identica-se a medida desejada relacionando-a com o percentil correspondente, Pi por meio de:

1.n −F
( 100 (anterior) )
Pi = LI(Pi ) + fi h.
(Pi )

Em que, Pi é o percentil i (i = 1,2, ..., 99); LI(P i) é o limite inferior da classe que contém o percentil

i ; n é o número de elementos da série; F(ant) é a frequencia acumulada da classe anterior a classe que

contém o percentil i ; fi é a frequencia absoluta da classe que contém o percentil i ; h é a amplitude da


classe que contém o percentil i.

Exemplo 4: Calcule Q3 para a série abaixo:

Classes fi
0 |- 10 2

10 |- 20 3

20 |- 30 5

30 |- 40 3

40 |- 50 2

Solução:
Identica-se a medida desejada relacionando-a com o percentil correspondente, Pi : Q3 = P75 , então, i
P i.n 75∗15
= 75 e n = 15 = fi . Logo, 100 = 100 = 11, 25. Isto nos dá a posição do P75 na série. Construindo

a frequencia acumulada temos:

Classes fi Fi
0 |- 10 2 2

10 |- 20 3 5

20 |- 30 5 10

30 |- 40 3 13
40 |- 50 2 15

Substituindo na fórmula, tem-se:

1.n −F
( 100 (anterior) ) (11,25−10)
Pi = LI(Pi ) + fi h ⇒ P75 = 30 + 3 10 = 34, 17.
(Pi )

Portanto Q3 = P75 = 34, 17.


Interpretação: 75% dos valores da sequencia são menores ou iguais a 34,17 e 25% dos valores da

sequencia são maiores ou iguais a 34,17.

26
1.5 Medidas de Dispersão

1.5 Medidas de Dispersão


No entanto, nem sempre é a mais adequada. As medidas de posição são usadas para representar

(sintetizar) um único número típico de uma distribuição de dados. Porém, as medidas de posição nos

dão uma informação incompleta a respeito de um conjunto de dados. Podendo assim nos confundir

a ponto de tomarmos decisões ou escolhas não muito adequadas, ou seja, a média é uma medida de

centro da distribuição, porém, nada informa com relação à dispersão dos valores em torno do centro.

Portanto, torna-se necessário agregarmos mais informações sobre determinado conjunto de dados por

intermédio das medidas de dispersão. Logo, podemos estabelecer algumas relações: quanto maior

a variabilidade (dispersão) dos dados menor a representatividade da média; quanto menor a dispersão,

mais conável é a média. Assim, dizemos que as medidas de dispersão servem para qualicar a média

(LEVIN & FOX, 2004). De forma geral, as medidas de dispersão mostram o grau de afastamento dos

valores observados em relação àquele valor representativo (que nem sempre é a média).

As medidas de dispersão têm como objetivo apresentar um estudo descritivo de um conjunto de dados,

isto é, determinar a variabilidade ou dispersão de um conjunto de dados em relação à medida de

localização ou posição do centro da amostra.

As diferenças individuais em uma amostra ou população denem o que os estatísticos chamam de

variabilidade ou dispersão do conjunto de mensurações, sendo que a variabilidade entre os elementos

é vista pela perspectiva da dispersão em torno do centro da distribuição. As medidas de posição nem

sempre são sucientes para sintetizar a informações contidas nos dados, ou seja, não são sucientes para

caracterizarem completamente a distribuição dos dados. Portanto, são necessárias outras medidas para

isso, e as medidas de dispersão pertencem a um conjunto de medidas que se aplicam na caracterização

de uma distribuição de mensurações (FERREIRA, 2005).

Vamos considerar um exemplo (diagrama abaixo) para discutir um pouco mais sobre a  deciência

das medidas de posição. Suponha que queremos comparar o tempo de vida de 3 marcas (A, B e C) de

lâmpadas em meses.

XA = XB = XC = 6 meses
Figura 2: Diagrama de dispersão

As três marcas de lâmpadas apresentaram a mesma média (6 meses) para a variável tempo de vida.

É notório que os conjuntos diferem razoavelmente um do outro. A lâmpada C apresentou uma me-

nor dispersão de valores em torno do valor central (6 meses), sendo seguido pela lâmpada B e por

último a lâmpada A. Se os conjuntos fossem representados apenas pelas respectivas médias eles seriam

considerados iguais. Porém, analisando o diagrama acima vemos que a lâmpada C apresenta menor

variabilidade consequentemente seria a melhor escolha.

1.5.1 Amplitude
A amplitude denotada por A, é a diferença entre o maior e o menor escore em uma distribuição, isto

é, corresponde a diferença entre a maior (máximo) e a menor observação (mínimo) de um conjunto de

dados. Essa medida é inconveniente (grosseira), apesar de ser facilmente calculada, pois não considera

27
1 ESTATÍSTICA DESCRITIVA
todas as observações, ou seja, leva em conta apenas os valores extremos: máximo e mínimo (LEVIN

& FOX, 2004). Consequentemente, a amplitude é facilmente inuenciada.

O estimador da amplitude para dados que não estão agrupados em classe é:

A = X(n) − X(1) = maior valor − menor valor.


O estimador da amplitude para dados agrupados em classe é:

A = X̄k − X̄1 = maior valor − menor valor .


Portanto, a amplitude para dados agrupados e para dados não-agrupados será:

A = maior valor - menos menor valor. (11)

Exemplo 20: Uma amostra do tempo de vida de pneus de determinada marca apresentou os seguintes

resultados: 40.000; 40.500; 35.600; 39.300; 37.200; 39.700; 35.000; 32.300 km. Logo, o tempo de vida

do pneu dessa marca varia de 32.300 a 40.500 km, ou seja, o tempo de vida apresenta uma amplitude

de 8.200 km. Pois, por intermédio da equação (11) tem-se que A = 40.500 - 32.30 = 8.200 km.

A partir de uma série de dados podemos encontrar os valores máximos e mínimos por meio dos seguintes

comandos no R:

# sintaxe:

max(dados) - min(dados)

# Exemplo 20: Tempo de vida de um pneu (a partir de um banco de dados)

dados<-read.table("tempo de vida de pneu.txt", h = T)

max(dados) - min(dados) # retorna o valor da Amplitude total

Outra forma de obter o maior e menor valor da série de dados é utilizar o comando:

# sintaxe:

range(dados)

# Exemplo 20: Tempo de vida de um pneu (a partir de um banco de dados).

dados<-read.table("tempo de vida de pneu.txt", h = T)

range(dados) # retorna o valor mínimo e o valor máximo, respectivamente

Exemplo 21: Para ilustrar o exemplo 21 serão utilizados os dados do exemplo 11 (Tabela 12), que

representa uma sessão de testes, ou seja, 40 medições referentes ao coeciente de atrito cinético de

pneus automotivos. Na Tabela 19 é apresentado as frequencias absolutas e os pontos médios de cada

classe.

Tabela 19: Distribuição de frequencia referente às 40 medições do coeciente de atrito cinético de

pneus automotivos.

Classes de Coeciente de Atrito Cinético fi X̄i


0,15 0,35 5 0,25
0,35 0,55 10 0,45
0,55 0,75 8 0,65
0,75 0,95 17 0,85
P
40 -

Os dados na Tabela 19 estão agrupados em 4 (quatro) classes. Todos os pontos de uma classe podem

ser representados por um único valor conhecido como ponto médio da classe. Observe que a primeira

28
1.5 Medidas de Dispersão

classe (0,15 0,35) é representada pelo valor 0,25, ou seja, esta classe que possui 5 pneus com coeciente

de atrito cinético entre 0,15 e 0,35 será representada pelo ponto médio. O ponto médio da classe é

calculado pela média dos limites da classe. Esse critério é conhecido como hipótese tabular básica.

De acordo com a denição de amplitude (equação (11)) é necessário, determinar o maior e menor valor

dos coecientes de atrito, tendo em vista que os coecientes de atrito estão agrupados em classe e

que cada classe será representada pelo seu respectivo ponto médio. Então, o menor e o maior valor

correspondem ao ponto médio da primeira e da última classe respectivamente, ou seja, 0,25 e 0,85.

Então, a amplitude será: 0,6 , isto é, o coeciente de atrito cinético varia entre 0,25 e 0,85.

Cálculo da Amplitude Total por meio do freeware R:

# sintaxe:

# Exemplo 21: Coeciente de atrito cinético (a partir de um banco de dados)

dados<-read.table("coeciente de atrito cinético.txt", h = T)

max(dados) - min(dados) # retorna o valor da Amplitude total

1.5.2 Variância
A variância é uma boa medida, pois se baseia em todos os valores observados (dados) e é facilmente

calculada e de fácil compreensão.

A variância populacional denotada por é denida como sendo Soma de Quadrado dos Desvios (SQD)

em relação à média dividida pelo tamanho da população (N). A variância pode ser considerada como

um valor médio dos desvios ao quadrado, portanto, sendo conhecida, também, por quadrado médio

(FERREIRA, 2005).

O estimador da variância populacional é:


N
(Xi −µ)2
P

σ2 = i=1
N (12)

N
P
Xi
i=1
em que, µ= N .
A variância amostral denotada por S 2 poderia ser denida de forma análoga à variância populacional,
ou seja, substituindo-se N por n e µ por X. No entanto, isso não ocorre, devido a uma propriedade

importante do estimador denominada de viés (tendenciosidade). Nesse caso, a soma de quadrado dos

desvios é dividida por ao invés de usar o n (FERREIRA, 2005).

A variância amostral é denida da seguinte forma:

n 2
(Xi −X )
P

S2 = i=1
n−1 (13)

n
P
Xi
i=1
em que, X= n .
Exemplo 22: Para a ilustração do cálculo da variância serão considerados os dados do exemplo 19,

referente ao tempo de vida de uma marca de pneu: 40.000; 40.500; 35.600; 39.300; 37.200; 39.700;

35.000; 32.300 km. Primeiramente é preciso calcular o tempo de vida médio do pneu (equação (2)),

para posteriormente obtermos a variância por meio da fórmula (estimador), equação (13):

29
1 ESTATÍSTICA DESCRITIVA
n 2
(Xi −X )
P

S2 = i=1
n−1 .

O tempo médio de vida de uma marca de pneu é:

8
P
Xi
i=1 40.000+40.500+...+32.300
X= 8 = 8 = 37.450 km.

Agora, temos condições de realizar o cálculo da variância:

8 2
(Xi −X )
P
(40.000−37.450)2 +(40.500−37.450)2 +...+(32.300−37.450)2 60.300.000
S2 = i=1
8−1 = 8−1 = 7 =
8.614.285, 714 km ≈ 8.614.286 km2
2

Nota-se que a unidade da variância corresponde à unidade de mensuração ao quadrado, isto é, o tempo

de vida médio foi medido em km e sua variância foi expressa em (km)


2.

Comando para o cálculo da variância no R:

# sintaxe:

var(dados)

# Exemplo 22: Tempo de vida de pneu (a partir de um banco de dados)

dados<-read.table("tempo de vida de pneu.txt", h = T)

var(dados)

1.5.2.1 Fórmula simplicada para cálculo da Variância


As fórmulas simplicadas para variâncias foram desenvolvidas com o objetivo de facilitar o cálculo e

contornar problemas de arredondamento (precisão).

A fórmula simplicada para a variância populacional é (FERREIRA, 2005):


 !2 
N
P
N Xi
1 i=1
P 
σ2 = N
 X2 −
 i N
.
 (14)
i=1

A fórmula simplicada para a variância amostral é (FERREIRA, 2005):

 2 
n

P
n Xi
1
S2 =  Xi2 −
P i=1
. (15)

n−1 n
i=1

Exemplo 23: Neste exemplo utilizaremos os dados do Exemplo 19 para calcular a variância por

intermédio da fórmula simplicada com o objetivo de mostrar que o resultado da variância será o

mesmo obtido no Exemplo 22.

A amostra referente ao tempo de vida de uma marca de pneu é: 40.000; 40.500; 35.600; 39.300; 37.200;

39.700; 35.000; 32.300 km.

Utilizando a fórmula simplicada da variância amostral, ou seja, a equação (15) tem-se:

30
1.5 Medidas de Dispersão
  8
2 
P
8 Xi h i
1 1 (40.000+40.500+...+32.300)2
S2 = Xi2 − (40.0002 + 40.5002 + ... + 32.3002 ) −
P i=1
= =
 
8−1  8 7 8
i=1

(299.600)2
h i
1 1
1, 128032 ∗ 1010 − 1, 128032 ∗ 1010 − 1, 122002 ∗ 1010 = 17 [60.300.000] =
 
7 8 = 7
8.614.285, 714(km)2 .

1.5.2.2 Variância amostral para dados agrupados


De acordo com Ferreira (2005), o estimador da variância para dados agrupados em classe é dado por:
 !2 
k
P
k X i fi
1  X 2i fi − i=1
P 
S2 = n−1  n
.
 (16)
i=1

em que k é o número de classes, X̄i é o ponto médio da classe i, e fi é a frequencia absoluta da classe

i.

Exemplo 24: Para a ilustração do cálculo da variância para dados agrupados em classe serão con-

siderados os dados do Exemplo 20, referente a uma amostra de 40 medições do coeciente de atrito
cinético de pneus automotivos conforme a Tabela 19. A variância amostral será calculada por meio da

fórmula ou equação (16), então, a variância do coeciente de atrito cinético dos 40 pneus testados é:

Classes de Coecientes de Atrito Cinético fi Xi


0,15 0,35 5 0,25
0,35 0,55 10 0,45
0,55 0,75 8 0,65
0,75 0,95 17 0,85
P
40 -

Utilizando a fórmula da variância amostral para dados agrupados, a equação (16) tem-se:
  4
2 
P
4 X i fi h i
1 2 1 (0,25∗5+...+0,85∗17)2
S2 = (0, 252 ∗ 5 + ... + 0, 852 ∗ 17) −
P i=1
 X i fi − = =

40−1 n 40−1 40
i=1
h i
1 (25,4)2
39 18 − 40 = 0, 0480.

O mesmo estimador pode ser usado substituindo Xi , ponto médio da classe i, por Xi , valor da categoria
ou atributo i, quando os dados são quantitativos discretos, isto é:

 !2 
k
P
k Xi fi
1 i=1
P 
S2 = n−1
 X 2 fi −
 i n
.
 (17)
i=1

Comando para o cálculo da variância:

31
1 ESTATÍSTICA DESCRITIVA

# sintaxe:

var(dados)

# Exemplo 24: Coeciente de atrito cinético (a partir de um banco de dados)

dados<-read.table("coeciente de atrito cinético.txt", h = T)

var(dados)

Exemplo 25: (FERREIRA, 2005) Na Tabela 20, estão apresentados os dados referentes ao número

de ovos danicados da inspeção feita em uma amostra de 30 embalagens de uma dúzia cada, de um
carregamento para o mercado municipal de Lavras. Determine a variância.

Tabela 20: Número de ovos danicados em uma inspeção feita em 30 embalagens, de uma dúzia cada,

em um carregamento para o mercado municipal de Lavras proveniente de uma cidade distante.

Número de ovos quebrados (Xi ) fi


0 13
1 9
2 3
3 3
4 1
5 1
P
30

Para calcular a variância será utilizada a equação (17):


  6
2 
P
6 Xi fi h i
1 1 (0∗13+1∗9+...+5∗1)2
S2 =  Xi2 fi − (02 ∗ 13 + 12 ∗ 9 + ... + 52 ∗ 1) −
P i=1
= =

30−1 30 29 30
i=1
h i
1 (33)2 1 2
29 89 − 30 = 29 [89 − 36, 3] = 1, 8172 ovos danicados .

Comando para o cálculo da variância:

# sintaxe:

var(dados)

# Exemplo 25: Número de ovos quebrados (a partir de um banco de dados)

dados<-read.table("ovos quebrados.txt", h = T)

var(dados)

1.5.3 Desvio Padrão


O desvio padrão é a raiz quadrada da variância. Dessa forma o desvio padrão é expresso na mesma

unidade dos dados (FERREIRA, 2005).

Desvio Padrão Populacional:


v  !2 
u N
u P
u N Xi
σ = u N1
i=1
.
P 
u  X2 − (18)
 i N 
t i=1

Desvio Padrão Amostral:

32
1.5 Medidas de Dispersão
v 
u  n
2 
P
Xi
u
u n
1 P 2 i=1
t n−1  Xi −
S=u . (19)

n
i=1

Para dados agrupados em classe o estimador do desvio padrão é:

v
u   k 2 
u P
u
u 1  k X i fi 
X 2 i=1
S=u X f − .(20)

i i
t n − 1  i=1 n
u 

O estimador acima pode ser usado substituindo , ponto médio da classei, por Xi , valor da categoria

ou atributo i, quando os dados são quantitativos discretos, isto é:

v  !2 
u k
u P
u k Xi fi
u 1  i=1

 X 2 fi −
P
S = u n−1  i n

 (21)
t i=1

A variância e o desvio padrão são medidas que só podem assumir valores não negativos
(positivo e igual a zero) e quanto maior for, maior será a dispersão dos dados, ou seja, maior será a

variabilidade dos dados. Em outras palavras o desvio padrão e a variância medem a dispersão dos

dados em torno da média.

Exemplo 26: Para apresentar o cálculo do desvio padrão utilizou-se os dados do Exemplo 25, com

o objetivo de enfatizar a relação entre desvio padrão e variância. Sabe-se por denição, que desvio

padrão é a raiz quadrada da variância, e como já foram calculadas anteriormente no exemplo 25, tem-se

que o desvio padrão de ovos danicados é:


√ √ √ √
S= S2 = 0 , 0480 = 0 , 2190 e S = S2 = 1, 8172 = 1, 3480 ovos danicados

Comando para o cálculo do desvio padrão no R:

# sintaxe:

sd(dados)

# Exemplo 26: Número de ovos quebrados (a partir de um banco de dados)

dados<-read.table("ovos quebrados.txt", h = T)

sd(dados)

1.5.4 Coeciente de Variação


O desvio padrão e a variância são medidas da variabilidade absoluta dos dados. Essas medidas são

dependentes da grandeza, escala ou unidade de medida empregada para mensurar os dados. Conjuntos

de dados com diferentes unidades de medidas não podem ter suas dispersões comparadas pela variância

ou pelo desvio padrão. Mesmo para uma única unidade, se os conjuntos possuem médias de diferentes

magnitudes, suas variabilidades não podem ser comparadas por essas medidas de dispersão apresenta-

das anteriormente. Para esta situação utiliza-se o coeciente de variação (CV), pois ele não depende

da grandeza, da escala ou unidade de medida empregada para mensurar os dados, ou seja, não possui

33
1 ESTATÍSTICA DESCRITIVA
unidade de medida (medida adimensional). Portanto, ca evidente que se deve usar o CV quando se

tem diferentes unidades de medida e/ou médias de diferentes magnitudes (FERREIRA, 2005).

O coeciente de variação populacional é:


CV = σµ .100%. (22)

O coeciente de variação amostral é:


S
CV = X̄
.100%. (23)

Portamto, o coeente de variação é uma medida relativa de dispersão, útil quando se deseja comparar

duas distribuições e também para avaliar o quanto a média é representativa de um conjunto de dados.

Em geral, um coeciente de variação de até 30% indica que a média é representativa do conjunto de

dados (SILVA, 2008).

Exemplo 27: A média e o desvio padrão do tempo de vida das lâmpadas de marca A e B são

respectivamente: X A = 4, 0 meses, SA = 8, 0 meses, X B = 0, 8 meses e SB = 1, 2 meses. Qual das

lâmpadas possui maior uniformidade de tempo de vida?

Se, ao inspecionar as estatísticas, apresentadas você fosse induzido a responder que a lâmpada (A)

seria a que possui maior uniformidade e que a razão seria o menor desvio padrão apresentado por ela

(0,8 meses), você teria cometido um erro. O fundamento usado aqui para comparar a variabilidade

das lâmpadas não foi correto, uma vez que o desvio padrão é uma medida de variabilidade absoluta.

Embora as unidades não sejam diferentes, as médias das amostras o são. O procedimento adequado

seria o de estimar o CV para ambas as lâmpadas e compará-los. De acordo com a equação (23), os

coecientes de variação são:


SA 0,8 SB 1,2
CVA = X̄A
.100 = 4,0 .100 = 20% e CVB = X̄B
.100 = 8,0 .100 = 15%
É fácil vericar que a lâmpada (B) é a mais uniforme, pois possui um menor CV que a lâmpada (A).

Exemplo 28: Testes de resistência à tração aplicados a dois tipos diferentes de aço produziram os

seguintes resultados:

Tipo I: X̄ = 27, 45 km/mm3 e S = 2, 00 km/mm3


Tipo II: X̄ = 147, 00 km/mm3 e S = 17, 25 km/mm3
Os coecientes de variação são, respectivamente, 7,29% e 11,73%. Conclui-se que, embora menos

resistente, o tipo I se apresenta relativamente mais estável.

Exemplo 29: Com base nos dados do Exemplo 25, calcule o coeciente de variação para a variável

número de ovos quebrados. Utilize os comandos abaixo:

Comando para o cálculo do cociente de variação:

# sintaxe:

100*sd(dados)/mean(dados) #dado em porcentagem

# Exemplo 29: Número de ovos quebrados (a partir de um banco de dados)

dados<-read.table("ovos quebrados.txt", h = T)

100*sd(dados)/mean(dados) #dado em porcentagem

Exemplo 30: Comparando dispersão de variáveis com diferentes unidades (Ex. temperatura e preci-

pitação). Os dados referentes à precipitação e temperatura de uma determinada região são aprsentados

a seguir:

34
1.6 Medidas de Assimetria

Temperatura ( º C): X̄ = 22 º C e S=5 º C, então, CV = 22, 7%.


Precipitação (mm): X̄ = 800 mm e S = 100 mm, então, CV = 12, 5%.
Conclui-se que a variável precipitação apresenta menor dispersão quando comparada com a variável

temperatura.

1.5.5 Erro Padrão da Média


É uma medida da dispersão das médias amostrais em torno da media da população, ou seja, é uma

medida que fornece uma idéia da precisão com que a média foi estimada (FERREIRA, 2005).

O erro padrão da média populacional é:


q
√σ ou σ2
σx̄ = n
σx̄ = n (24)

em que sv é o desvio padrão populacional e n é o tamanho da amostra.

O erro padrão da média amostral é:

q
√S ou S2
Sx̄ = n
Sx̄ = n (25)

em que S é o desvio padrão amostral e n é o tamanho da amostra.

1.6 Medidas de Assimetria


A assimetria refere-se ao grau de afastamento de uma distribuição da unidade de simetria. Em síntese,

tem-se que (FONSECA & MARTINS, 2009):

ˆ Distribuição simétrica, se X = Md = Mo ;
ˆ Distribuição assimétrica à esquerda ou negativa, se Mo < Md < X ;

ˆ Distribuição assimétrica à direita ou positiva, se X < Md < Mo .

Maiores detalhes das distribuições podem ser observados na Figura 1 da seção (1.3.4).

Conforme Fonseca & Martins (2009), existem várias fórmulas para o cálculo do coeciente de assimetria,

dentre elas são úteis:

1. Coeciente de Pearson:

X−Mo X−Mo
AS = σ ou AS = S .

2. Coeciente de Pearson:

Q1 +Q3 −2Md
AS = Q3 −Q1 .

ˆ Se AS = 0, diz-se que a distribuição é simétrica;

ˆ Se AS > 0, diz-se que a distribuição é assimétrica positiva (à direita);

ˆ Se AS < 0, diz-se que a distribuição é assimétrica negativa (à esquerda).

Qual quer uma das fórmulas pode ser utilizada para identicar o de assimetria de uma distribuição.

Exemplo 31 (FONSECA & MARTINS, 2009): Calcular os dois coecientes de Pearson com base na

distribição amostral apresentado no quadro a seguir.

35
1 ESTATÍSTICA DESCRITIVA
Salários ($ 1.000,00) 30 |- 50 50 |- 100 100 |- 150
Empregados 80 50 30

Primeiramente vamos determinar a distribuição acumulada e os pontos médios de cada classe.

Salários ($ 1.000,00) 30 |- 50 50 |- 100 100 |- 150

Empregados 80 50 30

Xi 40 75 125

Fi 80 130 160

A partir da distribuição acima temos os seguintes resultados:

10700
1. Média: X= 160 = 66, 88
(80−0)
2. Moda: Mo = 30 + (80−0)+(80−50) .20 = 44, 55.
( 160
2 −0)
3. Mediana: Md = 30 + 80 20 = 50.
4. Desvio padrão: S = 31, 96.
P i.n 25∗160
5. Primeiro quantil: Q1 = P25 , então, i = 25 e n = 160 = fi . Logo,
100 = 100 = 40. Isto nos

dá a posição do P25 na série. Substituindo na fórmula, tem-se:


( 25∗160
100 −0)
P25 = 30 + 80 20 = 30 + (40−00)
80 20 = 40.
P i.n 75∗160
6. Terceiro quantil: Q3 = P75 , então, i = 75 e n = 160 = fi . Logo, 100 = 100 = 120. Isto nos

dá a posição do P75 na série. Substituindo na fórmula, tem-se:


( 75∗160
100 −80) (120−80)
P75 = 50 + 50 50 = 50 + 50 50 = 90.
Agora, a partir das informações acima é possível calcular os coecientes:

X−Mo 66.88−44,55 Q1 +Q3 −2Md 40+90−2∗50


AS = S = 31,96 = 0, 70 e AS = Q3 −Q1 = 90−40 = 0, 60.

Como, nos dois casos, AS > 0 diz-se que a distribuição é assimétrica positiva.

1.7 Medidas de Curtose


Denomina-se curtose o grau de achatamento da distribuição. Ou o quanto uma curva de frequência

será achatada em relação a uma curva normal de referência (FONSECA & MARTINS, 2009).
0.4

Curva Leptocúrtica
Curva Mesocúrtica
Curva Platicúrtica
0.3
0.2
f(x)

0.1
0.0

−4 −2 0 2 4

Figura 3: Caracterização da distribuição em função do grau de achatamento.

36
1.8 Representação gráca

Para medir o grau de curtose utiliza-se o coeciente:

Q3 −Q1
K= 2(P90 −P10 ) ,

em que: Q3 é o terceiro quartil, Q1 é o primeiro quartil, P90 é o nonagésimo percentil e P10 é o décimo

percentil.

ˆ Se K = 0,263, diz-se que a curva correspondente à distribuição de frequencia é mesocúrtica;

ˆ Se K > 0,263, diz-se que a curva correspondente à distribuição de frequencia é platicúrtica;

ˆ Se K < 0,263, diz-se que a curva correspondente à distribuição de frequencia é leptocúrtica.

Exemplo 32: Com base no quadro abaixo discuta que tipo de curva corresponde à distribuição

amostral.

Classes 3 |- 8 8 |- 13 13 |- 18 18 |-23
fi 5 15 20 10
Fi 5 20 40 50

A partir das informações apresentadas acima será calculada as seguintes medidas:


P i.n 25∗50
1. Primeiro quantil: Q1 = P25 , então, i = 25 e n = 50 = fi . Logo,
100 = 100 = 12, 5. Isto nos

dá a posição do P25 na série. Substituindo na fórmula, tem-se:


( 25∗50
100 −5) (12,5−5)
P25 = 8 + 15 5=8+ 15 5 = 10, 5.
P i.n 75∗50
2. Terceiro quantil: Q3 = P75 , então, i = 75 e n = 50 = fi . Logo,
100 = 100 = 37, 5. Isto nos

dá a posição do P75 na série. Substituindo na fórmula, tem-se:


( 75∗50
100 −20) (37,5−20)
P75 = 13 + 20 5 = 13 + 20 5 = 17, 38.
P i.n 90∗50
3. Nonagésimo percentil: P90 , então, i = 90 e n = 50 = fi . Logo,
100 = 100 = 45. Isto nos dá

a posição do P90 na série. Substituindo na fórmula, tem-se:


( 90∗50
100 −40)
P90 = 18 + 10 5 = 18 + (45−40)
10 5 = 20, 5.
i.n
= 10∗50
P
4. Décimo percentil: P10 , então, i = 10 e n = 50 = fi . Logo, 100 100 = 5. Isto nos dá a

posição do P10 na série. Substituindo na fórmula, tem-se:

( 10∗50
100 −0) (5−0)
P10 = 3 + 5 5=3+ 5 5 = 8.

Agora, a partir das informações acima é possível calcular o coeciente:

Q3 −Q1 17,38−10,5 6,88


K= 2(P90 −P10 ) = 2(20,5−8) = 25 = 0, 2752.

Portanto, K > 0,263, logo a curva correspondente à distribuição de frequencia é suavemente platicúrtica.

1.8 Representação gráca


1.8.1 Grácos para variáveis qualitativas
Existem vários tipos de grácos para representar variáveis qualitativas, os quais são versões distintas do

mesmo princípio. Dentro deste contexto, apresentarei apenas dois deles: grácos em barras (horizontais

ou verticais) e de decomposição em setores ( pizza ). A Tabela 1 apresenta a distribuição de frequencias

da variável grau de instrução.

Tabela 21: Distribuição de frequencia absoluta, relativa e percentual dos 36 empregados da seção de

orçamentos da companhia MB segundo o grau de instrução.

37
1 ESTATÍSTICA DESCRITIVA
Grau de instrução fi fr fp (%)
Fundamental 12 0,3333 33,33
Médio 18 0,50 50
Superior 6 0,1667 16,67
Total 36 1,00 100

A seguir veremos a representação gráca por meio de grácos em barras verticais (Figura 4), horizontais

(Figura 5) e de decomposição de setores ou  pizza (Figura 6) a partir dos resultados apresentados na

Tabela 21. O princípio para a construção de grácos em barras verticais é o mesmo para horizontais.

Figura 4: Gráco em barras verticais para a variável grau de instrução.

Figura 5: Gráco em barras horizontais para a variável grau de instrução.

38
1.8 Representação gráca

Figura 6: Gráco em setores para a variável grau de instrução.

A seguir é apresentada a rotina para obtenção o gráco de barras (verticais e horizontais) e gráco de

setores a partir da distribuição de frequencia da variável grau de instrução.

dados<-read.table("grau de instrução.txt", h = T)

tab.dados<-table(dados)

df<-matrix(0,4,3)

colnames(df )<-c("fa","fr","fp")

rownames(df )<-c("Fundamental","Médio","Superior","Total")

df[1,1]<-tab.dados["Fundamental"]

df[2,1]<-tab.dados["Médio"]

df[3,1]<-tab.dados["Superior"]

df[4,1]<-sum(df[1:3])

for(i in 1:4) {df[i,2]<-df[i,1]/df[4,1]}

for(i in 1:4) {df[i,3]<-df[i,2]*100}

df

# sintaxe: gráco de barras ou colunas verticais

# barplot

gcv<-barplot(df[1:3,2],xlab="Graus de Instrução",ylab="Frequência relativa",ylim=c(0,0.5),col=gray(seq(0.4,1.0,length=4)))

# sintaxe: gráco de barras ou colunas horizontais

gch<-barplot(df[1:3,2],horiz=TRUE,ylab="Graus de Instrução",xlim=c(0,0.5),xlab="Frequêcia relativa",col=gray(seq(0.4,1.0,length=4)))

# sintaxe: gráco de setores

# pie()

gs<-pie(df[1:3,2], col = gray(seq(0.4,1.0, length=4)), radius = 1.05)

1.8.2 Grácos para variáveis quantitativas


Os tipos de grácos que serão adotados para representar variáveis quantitativas são grácos de barras,

gráco de linhas, histograma e polígono de frequencia.

Histograma: é constituído de um conjunto de retângulos, com as bases assentadas sobre um eixo

horizontal, tendo como centro da base, o ponto médio da classe que representa. A altura do retângulo

deve ser proporcional a frequencia da classe.

Se os pontos médios dos retângulos forem conectados por uma linha reta, ou se forem conectados por

39
1 ESTATÍSTICA DESCRITIVA
uma curva suave, o polígono de frequência é encontrado.

Primeiramente, será apresentado a representação gráca para uma variável quantitativa discreta. Para

ilustrar consideraremos a distribuição de frequencia referente a variável número de lhos de uma de-

terminada companhia (Tabela 22).

Tabela 22: Distribuição de frequencia absoluta, relativa e percentual dos empregados casados da seção

de orçamentos de uma determinada companhia segundo o número de lhos.

A informação apresentada na Tabela 22 pode ser expressa por meio de grácos, conforme Figura 7.

Figura 7: Gráco de barras verticais (a), barras horizontais (b) e de linhas (c).

A seguir é apresentada a rotina para obtenção dos grácos de barras (verticais e horizontais) e de

linhas, a partir da distribuição de frequencia da variável número de lhos.

40
1.8 Representação gráca

lhos<-read.table("número de lhos.txt", h = T)

tab.lhos<-table(lhos)

df<-matrix(0,7,3)

colnames(df )<-c("fa","fr","fp")

rownames(df )<-c("0","1","2","3","4","5","Total")

df[1,1]<-tab.lhos["0"]

df[2,1]<-tab.lhos["1"]

df[3,1]<-tab.lhos["2"]

df[4,1]<-tab.lhos["3"]

df[5,1]<-tab.lhos["4"]

df[6,1]<-tab.lhos["5"]

df[7,1]<-sum(df[1:6])

for(i in 1:7) {df[i,2]<-df[i,1]/df[7,1]}

for(i in 1:7) {df[i,3]<-df[i,2]*100}

df

# sintaxe: gráco de barras verticais ou gráco de colunas verticais

barplot()

gcv<-barplot(df[1:6,2], ylim=c(0,0.4), xlab="Número de lhos", ylab="frequencia relativa", main = (a), col=gray(seq(0.4,1.0,length=5)))

# sintaxe: gráco de barras horizontais ou gráco de colunas vhorizontais

gch<-barplot(df[1:6,2], horiz=TRUE, ylab="Número de lhos",xlim=c(0,0.4), xlab="Frequêcia relativa", main= "(b)", col=gray(seq(0.4,1.0,length=4)))

# sintaxe: gráco de linhas

gl<-plot(df[1:6,2], type="h", axes=F, ylim=c(0,0.3), xlab="Número de lhos", ylab="frequencia relativa", main = (c))

# sintaxe: axes = F => desconsidera a escala original dos eixos x e y

axis(1,c(1,2,3,4,5,6),c("0","1","2","3","4","5")) # denir a nova escala do eixo x

axis(2) # escala do eixo y

box() # apresenta a caixa

Agora, será apresentado a representação gráca para uma variável quantitativa contínua. Para ilustrar

consideraremos a distribuição de frequencia referente a variável produção de grãos de feijão da geração

F2 (Tabela 23).

Tabela 23: Distribuição de frequencias da produção de grãos em g/planta obtidos numa amostra de

n = 20 plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.

Classe de pesos X̄i fi fr fp (%)


-2,485 5,245 1,38 6 0,30 20
5,245 12,975 9,11 8 0,40 40
12,975 20,705 16,84 4 0,20 20
20,705 28,435 24,57 2 0,10 10
P
20 1,00 100

Dessa forma, a representação gráca por meio do histograma e polígono de frequencia para a variável

produção (g/planta) é apresentada na Figura 8:

41
1 ESTATÍSTICA DESCRITIVA

Figura 8: Histograma (a) e Polígono de Frequencia (b) para a variável Produção (g/planta).

Pode-se obter os grácos Figura 7 a partir das seguinte rotina:

dados<-read.table("produção de café F2.txt", h = T)

attach(dados)

df<-matrix(0,5,3)

colnames(df )<-c("fa","fr","fp")

rownames(df )<-c("[-2.485,5.245)","[5.245,12.975)","[12.975,20.705)","[20.705,28.435)","Total")

tab.dados<-table(cut(producao,breaks=c(-2.485,5.245,12.975,20.705,28.435)))

df[1:4,1]<-tab.dados

df[5,1]<-sum(df[1:4])

for(i in 1:5) {df[i,2]<-df[i,1]/df[5,1]}

for(i in 1:5) {df[i,3]<-df[i,2]*100}

df

# sintaxe: histograma

# hist()

hist(producao, breaks = c(-2.485, 5.245, 12.975, 20.705, 28.435), xlab="Produção (g/planta)",ylab="Frequencia", main=" (a)")

# sintaxe: Polígono de Frequencia

dados<-read.table("poligono de frequencia produção de café F2.txt", h = T)

attach(dados)

xprod<-dados$PM

yprod<-dados$freq

plot(xprod,yprod, main=" (b)", xlab="Produção (g/planta)", ylab="Frequencia", pch=1, col="blue")

lines(xprod,yprod, col="black", lwd=2)

points(xprod,yprod, col="black")

legend(12, 8, c("Polígono de Frequencia"), col=c("black"), lwd=2, lty=1)

1.8.3 Frequencias acumuladas


Uma outra maneira de representar dados contínuos é por meio do acúmulo das frequencias para uma

leitura rápida da proporção de dados que superam um determinado valor ou de quantos são inferiores

distribuição de frequencias
a esse valor. Esse tipo de representação dos dados é denominado de

acumuladas, cujas representações grácas são denominadas de ogivas. Para construção dessa distri-

42
1.8 Representação gráca

buição, tomam-se os limites de classes e avaliam-se as quantidades acumuladas de elementos amostrais

que superam ou que são inferiores a esses limites.

Exemplo 33: Refere-se a variável produção de grãos (quantitativa contínua).

Tabela 24: Distribuição de frequencia absoluta da produção de grãos em g/planta obtidos numa

amostra de n = 20 plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e

Carioca.

Classe de pesos fi
-2,485 5,245 6
5,245 12,975 8
12,975 20,705 4
20,705 28,435 2
Total 20

Tabela 25: Distribuição de frequencia acumulada da produção de grãos em g/planta obtidos numa

amostra de n = 20 plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.

Limites (Xi ) F Ci (X < Xi ) = f ac ↓ F Ci (X > Xi ) = f ac ↑


-2,485 0 20
5,245 6 14
12,975 14 6
20,705 18 2
28,435 20 0

A representação gráca das distribuições de frequencias acumuladas por meio de ogivas para a produção

de grãos em g/planta obtidas numa amostra de n = 20 plantas de feijão da geração F2 do cruzamento

das cultivares Flor de Maio e Carioca está apresentada na Figura 9.

Figura 9: Ogivas das produções de grãos em g/planta de plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.

Rotina para obtenção de ogivas associadas a variável produção de feijão é apresentada a


seguir:

43
1 ESTATÍSTICA DESCRITIVA

dados<-read.table("freq_acumulada_prod_feijão.txt", h=T)

attach(dados)

vprod<-dados$Limites

vfacbaixo<-dados$facbaixo

vfaccima<-dados$faccima

plot(vprod,vfaccima, main="Gráco de Ogivas", xlab="Produtividade (g/planta)", ylab="Frequencias Acumuladas", pch=1, col="blue")

lines(vprod,vfaccima, col="blue")

lines(vprod,vfacbaixo, col="red")

points(vprod,vfacbaixo, col="red")

Exemplo 34: Variável quantitativa discreta (dados ctícios).

Tabela 26: Distribuição de frequencia absoluta e acumulada para baixo e para cima de dados ctícios.

Xi fi F Ci (X < Xi ) = f ac ↓ F Ci (X > Xi ) = f ac ↑
2 5 5 80
4 10 15 75
6 45 60 65
8 12 72 20
10 5 77 8
12 3 80 3
80

A representação gráca das distribuições de frequencias acumuladas por meio de ogivas para os dados

cticios está apresentada na Figura 10.

Figura 10: Ogivas dos dados cticios.

1.8.4 Interpolação em distribuições de frequencias acumuladas

Para ilustrar o procedimento de interpolação considere o Exemplo 32 referente a distribuição de fre-

quencia acumulada da produção de grãos em g/planta (Tabela 25).

Exemplo 35: Distribuição de frequencia acumulada da produção de grãos em g/planta.

44
1.8 Representação gráca

Limites (Xi ) F Ci (X < Xi ) = f ac ↓ F Ci (X > Xi ) = f ac ↑


-2,485 0 20
5,245 6 14
12,975 14 6
20,705 18 2
28,435 20 0

Qual a frequencia acumulada abaixo de10?

( )
5, 245 → 6
7, 73 ← →8
12, 975 → 14

Aplicando a regra de três simples temos:

7, 73 → 8 8∗4,755
=⇒ x = 7,73 = 4, 921
4, 755 → x

Então, abaixo de 10 tem-se: 4, 921 + 6 = 10, 921.


Qual a frequencia acumulada acima de10?

( )
5, 425 → 14
7, 73 →8
12, 975 → 6

Aplicando a regra de três simples temos:

7, 73 → 8 8∗2,975
=⇒ x = 7,73 = 3, 079
2, 975 → x

Então, acima de 10 tem-se: 3, 079 + 6 = 9, 079.


Exemplo 36: Considere os dados ctícios apresentados na Tabela 27.

Tabela 27: Distribuição de frequencia acumulada

X̄i fi F Ci (X < Xi ) = f ac ↓ F Ci (X > Xi ) = f ac ↑


0 5 5 80
4 10 15 75
8 45 60 65
12 12 72 20
16 5 77 8
20 3 80 3
80

Qual a frequencia acumulada abaixo e acima de 7?

1.8.5 Boxplot
Os grácos apresentados até o momento fornecem impressões visuais gerais acerca de um conjunto

de dados, enquanto quantidades numéricas, tais como média ou desvio padrão fornecem informação

sobre somente uma características dos dados. O boxplot (gráco de caixa) é um gráco que descreve

45
1 ESTATÍSTICA DESCRITIVA
simultaneamente várias características importantes de um conjunto de dados, tais como centro, dis-

persão, desvio da simetria e identicação das observações que estão surpreendentemente longe do seio

dos dados (MONTGOMERY & RUNGER, 2003). O boxplot é formado pelo primeiro quartil (Q1 ),
terceiro quartil (Q3 ), mediana (Q2 ) e pela amplitude interquatílica (Q3 − Q1 = IQR). As hastes infe-

riores e superiores se estendem, respectivamente, do quartil inferior até o menor valor não inferior ao

limite inferior e do quartil superior até o maior valor não superior ao limite superior. Os limites são

calculados da forma abaixo (SILVA, 2008):

Limite inferior =Q1 − 1, 5 (Q3 − Q1 ) e Limite superior = Q3 + 1, 5 (Q3 − Q1 ).

Para este caso, os pontos fora destes limites são considerados valores discrepantes (outliers), denotado

por asterisco (*). A gura a seguir apresenta o boxplot, destacando suas principais características:

Figura 11: Gráco de Boxplot.

Um ponto além da linha, porém a menos de 3 amplitudes interquartis da extremidade da caixa,

é chamado de outlier. Um ponto a mais de 3 amplitudes interquartis da extremidade da caixa, é

chamado de outlier extremo (MONTGOMERY & RUNGER, 2003).

O boxplot permite avaliar a simetria dos dados, sua dispersão e a existência ou não de outliers nos

mesmos, sendo especialmente adequado para a comparação de dois ou mais conjuntos de dados. Por

exemplo, duas ou mais caixas são colocadas lado a lado e se compara a variabilidade entre elas, a

mediana e assim por diante. Outro ponto importante é a diferença entre os quartis (Q3 − Q1 ) que é

uma medida da variabilidade dos dados (SILVA, 2008).

Exemplo 37: (MONTGOMERY & RUNGER, 2003) A partir dos dados apresentados na tabela 28

construa o diagrama de caixa para a variável resistência referente à compressão de 80 corpos de prova

da liga de Alumínio-Lítio.

Tabela 28: Resistência à compressão de 80 corpos de prova da liga de Alumínio-Lítio

105 221 183 186 121 181 180 143

97 154 153 174 120 168 167 141

245 228 174 199 181 158 176 110

163 131 154 115 160 208 158 133

207 180 190 193 194 133 156 123

134 178 76 167 184 135 229 146

218 157 101 171 165 172 158 169

199 151 142 163 145 171 148 158

160 175 149 87 160 237 150 135

196 201 200 176 150 170 118 149

46
1.8 Representação gráca

Boxplot

250
200
Resistência

150
100

Figura 12: Gráco de Boxplot da variável resistência à compressão de corpos de prova da liga de Alumínio-Lítio
Ao observar a gura 12, pode-se dizer que a distribuição das resistências compressivas é razoavelmente
simétrica em torno do valor central, porque os bigodes da direita e da esquerda e os comprimentos das

caixas da direita e da esquerda ao redor da mediana são aproximadamente os mesmos. Há também

dois suaves outliers em cada extremidade dos dados (MONTGOMERY & RUNGER, 2003).

O histograma (Figura 13) apresentado a seguir enfatiza que a distribuição das resistências é razoavel-

mente simétrica.

Histograma
0.015
0.010
Frequência

0.005
0.000

100 150 200 250

Resistência

X = 162, 66, M0 = 161, 00 e Md = 161, 50.


Figura 13 - Histograma da variável resistência à compressão de corpos de prova da liga de Alumínio-Lítio
O comando para a obtenção do Boxplot (diagrama de caixas) no R é boxplot(). A seguir é apresentada

a rotina para a construção do gráco e as estimativas das medidas necessárias obtidas a partir do

comando summary().

# Sintaxe:
dados<-read.table("resistencia.txt", h = T)
attach(dados)
boxplot(dados, main="Boxplot", ylab="Resistência")
summary(dados)
resist Min. : 76.0 1st Qu.:144.5 Median :161.5 Mean :162.7 3rd Qu.:181.0 Max. :245.0

47
1 ESTATÍSTICA DESCRITIVA
O comando summary() nos fornece informações sobre mínimo, primeiro quartil, média, mediana,

terceiro quartil e máximo. Os cálculos do pimeiro e terceiro quartil pode ser calculado conforme

instruções apresentadas na seção (1.6).

Nota Importante: Não há um consenso universal sobre um procedimento único para o cálculo dos

quartis, e diferentes programas muitas das vezes produzem resultados diferentes. Por isso, que os

resultados obtidos a partir do comando summary() e do boxplot, não conferem plenamente com os

resultados obtidos a partir das instruções da seção (1.6). A seguir será apresentado os resultados das

medidas necessárias para a construção do boxplot com base nas instruções da seção (1.6).

Primeiramente, ordenam-se os dados. Para a ordenção será utilizado o comando sort():

# sintaxe:
sort(dados$resist)
[1] 76 87 97 101 105 110 115 118 120 121 123 131 133 133 134 135 135 141 142
[20] 143 145 146 148 149 149 150 150 151 153 154 154 156 157 158 158 158 158 160
[39] 160 160 163 163 165 167 167 168 169 170 171 171 172 174 174 175 176 176 178
[58] 180 180 181 181 183 184 186 190 193 194 196 199 199 200 201 207 208 218 221
[77] 228 229 237 245
Agora, calcularemos as medidas:

Mínimo = X(1) = 76, 0;


Primeiro quartil = Q1 = P25 = X(20) = 143 pois,
i.n
100 = 25.80
100 = 20 ª;

Segundo Quartil = Q2 = Md =
X(40) +X(41)
2 = 160+163
2 = 161, 5 pois, E= n
2 = 80
2 ª
= 40 ;

Terceiro Quartil = Q3 = P75 = X(60) = 181 pois,


i.n
100 = 75.80
100 = 60ª ;

Média = X = 162, 66;


Máximo = X(80) = 245, 0.

1.9 Exercícios propostos


Exercício 1 Modicado (ANDERSON et al., 2007): A Wageweb realiza pesquisas de dados salariais

e apresenta os sumários em seu site. A empresa registrou que os salários anuais dos vice-presidentes de

marketing variam de US$ 85.090 a US$ 190.054 (Wageweb.com, 12 de abril de 2000). Suponha que os

dados a seguir sejam uma amostra dos salários anuais de 50 vice-presidentes de marketing. Os dados

são em milhares de dólares.

145 136 95 127 148 143 112 134 132 137


140 155 162 93 118 102 170 154 144 142
145 134 127 165 148 123 165 124 138 124
142 138 173 160 113 157 104 138 141 131
138 114 116 135 178 151 123 138 141 157

a) Quais são os salários mais baixos e quais são os salários mais altos?

b) Use o critério de Oliveira e prepare sumários tabulares dos dados salariais anuais.

c) Prepare um histograma. Comente a respeito da forma de distribuição.

Rotina do Exercício 1

48
1.9 Exercícios propostos

dados<-read.table("exer_1_salários.txt", h=T)

attach(dados)

dados

# Medidas de posição #

summary(dados)

# Distribuição de frequencia #

df<-matrix(0,8,3)

colnames(df )<-c("fa","fr","fp")

rownames(df )<-c("[85.92, 100.08)","[100.08, 114.25)","[114.25, 128.42)","[128.42, 142,58)", "[142.58, 156.75)", "[156.75, 170.92)", "[170.92, 185.08)","Total")

tab.dados<-table(cut(salarios, breaks = c(85.92, 100.08, 114.25, 128.42, 142.58, 156.75, 170.92, 185.08)))

df[1:7,1]<-tab.dados

df[8,1]<-sum(df[1:7])

for(i in 1:8) {df[i,2]<-df[i,1]/df[8,1]}

for(i in 1:8) {df[i,3]<-df[i,2]*100}

df

# Histograma #

hist(salarios, breaks = c(85.92, 100.08, 114.25, 128.42, 142.58, 156.75, 170.92, 185.08), xlab="Salários (US$/ano)",ylab="Frequencia", main="Histograma")

Exercício 2 Modicado (ANDERSON et al., 2007): O Nielsen Home Technology Report apresentou

informações sobre a tecnologia dos aparelhos domésticos e a sua utilização por pessoas de 12 anos ou

mais. Os dados a seguir referem-se ao número de horas de uso de computadores pessoais durante uma

semana para uma amostra de 50 pessoas.

4,1 1,5 10,4 5,9 3,4 5,7 1,6 6,1 3,0 3,7
3,1 4,8 2,0 14,8 5,4 4,2 3,9 4,1 11,1 3,5
4,1 4,1 8,8 5,6 4,3 3,3 7,1 10,3 6,2 7,6
10,8 2,8 9,5 12,9 12,1 0,7 4,0 9,2 4,4 5,7
7,2 6,1 5,7 5,9 4,7 3,9 3,7 3,1 6,1 3,1

Pede-se:

a) Construa a tabela de distribuição de frequencia por meio do critério de Oliveira.

b) Construa o histograma.

c) Contrua a tabela de frequencia acumulada para baixo e para cima.

d) Cosntrua o gráco das ogivas.

e) Comente sobre o que os dados indicam a respeito do uso de computadores pessoais em casa.

Rotina do Exercício 2

49
1 ESTATÍSTICA DESCRITIVA

dados<-read.table("exer_2_horas_uso.txt", h=T)

attach(dados)

# Distribuição de frequencia #

df<-matrix(0,8,3)

colnames(df )<-c("fa","fr","fp")

rownames(df )<-c("[0, 1.88)","[1.88, 4.23)","[4.23, 6.58)","[6.58, 8.93)", "[8.93, 11.28)", "[11.28, 13.63)", "[13.63, 15.98)","Total")

tab.dados<-table(cut(horas, breaks = c(0, 1.88, 4.23, 6.58, 8.93, 11.28, 13.63, 15.98)))

df[1:7,1]<-tab.dados

df[8,1]<-sum(df[1:7])

for(i in 1:8) {df[i,2]<-df[i,1]/df[8,1]}

for(i in 1:8) {df[i,3]<-df[i,2]*100}

df

# Histograma #

hist(horas, breaks = c(0, 1.88, 4.23, 6.58, 8.93, 11.28, 13.63, 15.98), xlab="Uso (horas)",ylab="Frequencia", main="Histograma")

# Ogivas #

dados<-read.table("exer_2_horas_uso_ogivas.txt", h=T)

attach(dados)

vhoras<-dados$Limites

vfacbaixo<-dados$facbaixo

vfaccima<-dados$faccima

plot(vhoras,vfaccima, main="Gráco de Ogivas", xlab="Uso(Horas)", ylab="Frequencias Acumuladas", pch=1, col="blue")

lines(vhoras,vfaccima, col="blue", lwd=2)

lines(vhoras,vfacbaixo, col="red", lwd=2)

points(vhoras,vfacbaixo, col="red")

legend(8, 35, c("freq. acum. p/ cima", "freq. acum. p/ baixo"), col=c("blue", "red"), lwd=2, lty=1)

Exercício 3: O Brasil é conhecido como um dos maiores produtores mundiais de café. A tabela

abaixo apresenta dados da produção total (tonelada/hectare) do país entre os anos de 1999-2010,

(http://www.fas.usda.gov/psdonline/psdResult.aspx, 24 março 2011) .Com base nos dados apresesen-

tados na tabela abaixo, pede-se:

Ano Prod. (t/ha) Ano Prod. (t/ha)


1999/2000 30,8 2005/2006 36,1
2000/2001 34,1 2006/2007 46,7
2001/2002 35,1 2007/2008 39,1
2002/2003 53,6 2008/2009 53,3
2003/2004 33,2 2009/2010 44,8
2004/2005 43,6  

a) Calcule média, mediana e moda.

b) Calcule variância, desvio padrão e coeciente de variação.

c) Construa a distribuição de frequencia por meio do Critério de Oliveira.

d) Plote o histograma.

e) Construa a tabela de distribuição de frequencia acumulada para cima e para baixo.

f ) Construa o Gráco de Ogivas.

Rotina do Exercício 3

50
1.9 Exercícios propostos

dados<-read.table("exer_3_prod_cafe.txt", h=T)

attach(dados)

# Medidas de posição #

# Média #

mean(dados)

# Mediana #

median(dados)

# Moda #

table(dados)

subset(table(dados), table(dados)==max(table(dados)))

# Outra forma de obter as medidas de posição #

summary(dados)

# Medidas de dispersão #

# variância #

var(dados)

# desvio padrão #

sd(dados)

# coeente de variação #

cv<-(sd(dados)/mean(dados))*100

cv

# Distribuição de frequencia #

df<-matrix(0,4,3)

colnames(df )<-c("fa","fr","fp")

rownames(df )<-c("[25.10, 36.50)","[36.50, 47.90)","[47.90, 59.30)","Total")

tab.dados<-table(cut(prodcafe, breaks = c(25.10, 36.50, 47.90, 59.30)))

df[1:3,1]<-tab.dados

df[4,1]<-sum(df[1:3])

for(i in 1:4) {df[i,2]<-df[i,1]/df[4,1]}

for(i in 1:4) {df[i,3]<-df[i,2]*100}

df

# Histograma #

hist(prodcafe, breaks = c(25.10, 36.50, 47.90, 59.30), xlab="Produção (t/ha)",ylab="Frequencia", main="Histograma")

# Ogivas #

dados<-read.table("exer_3_prod_cafe_ogivas.txt", h=T)

attach(dados)

vprodcafe<-dados$Limites

vfacbaixo<-dados$facbaixo

vfaccima<-dados$faccima

plot(vprodcafe,vfaccima, main="Gráco de Ogivas", xlab="Produção de café (t/ha)", ylab="Frequencias Acumuladas", pch=1, col="blue")

lines(vprodcafe,vfaccima, col="blue", lwd=2)

lines(vprodcafe,vfacbaixo, col="red", lwd=2)

points(vprodcafe,vfacbaixo, col="red")

legend(45, 6, c("freq. acum. p/ cima", "freq. acum. p/ baixo"), col=c("blue", "red"), lwd=2, lty=1)

Exercício 4 Modicado (ANDERSON et al., 2007): O trabalho de classicação de email-s não

solicitados e span afeta a produtividade de funcionários de escritório. Uma pesquisa levada a efeito

pela InsightExpress monitorou funcionários de escritório para determinar a quantidade de tempo não-

produtivo por dia dedicado a e-mails não-solicitados e span (Usa Taday, 13 de novembro de 2003). Os

dados a seguir fornecem uma amostra de tempo em minutos dedicado a esta tarefa. Pede-se:

2 4 8 4 12 1 5 7 24 19
8 1 2 32 5 5 3 4 4 14

51
1 ESTATÍSTICA DESCRITIVA
a) Calcule média, mediana e moda.

b) Calcule variância, desvio padrão e coeciente de variação.

c) Construa a distribuição de frequencia por meio do Critério de Oliveira.

d) Plote o histograma.

e) Construa a tabela de distribuição de frequencia acumulada para cima e para baixo.

f ) Construa o Gráco de Ogivas.

Rotina do Exercício 4

dados<-read.table("exer_4_minutos_gasto_tarefa.txt", h=T)

attach(dados)

# Medidas de posição #

summary(dados)

# Medidas de dispersão #

# variância #

var(dados)

# desvio padrão #

sd(dados)

# coeente de variação #

cv<-(sd(dados)/mean(dados))*100

cv

# Distribuição de frequencia #

df<-matrix(0,5,3)

colnames(df )<-c("fa","fr","fp")

rownames(df )<-c("[0, 6.17)","[6.17, 16.50)","[16.50, 26.83)", "[26.83, 37.17)","Total")

tab.dados<-table(cut(min, breaks = c(0, 6.17, 16.50, 26.83, 37.17)))

df[1:4,1]<-tab.dados

df[5,1]<-sum(df[1:4])

for(i in 1:5) {df[i,2]<-df[i,1]/df[5,1]}

for(i in 1:5) {df[i,3]<-df[i,2]*100}

df

# Histograma #

hist(min, breaks = c(0, 6.17, 16.50, 26.83, 37.17), xlab="Tempo não produtivo (min)",ylab="Frequencia", main="Histograma")

# Ogivas #

dados<-read.table("exer_4_minutos_gasto_tarefa_ogivas.txt", h=T)

attach(dados)

vtempo<-dados$Limites

vfacbaixo<-dados$facbaixo

vfaccima<-dados$faccima

plot(vtempo,vfaccima, main="Gráco de Ogivas", xlab="Tempo não produtivo (min)", ylab="Frequencias Acumuladas", pch=1, col="blue")

lines(vtempo,vfaccima, col="blue", lwd=2)

lines(vtempo,vfacbaixo, col="red", lwd=2)

points(vtempo,vfacbaixo, col="red")

legend(10, 10, c("freq. acum. p/ cima", "freq. acum. p/ baixo"), col=c("blue", "red"), lwd=2, lty=1)

52
2 PROBABILIDADES

Neste capítulo e no próximo serão abordados os conceitos de probabilidade e serão considerados alguns

modelos probabilísticos especícos que desempenham importante papel na estatística. Para o cálculo

de probabilidades é necessário contar o número de vezes que um determinado evento de interesse ocorre,

fazendo o uso de métodos de análise combinatória.

2.1 Probabilidades e espaço amostral


Antes de entrarmos no contexto de probabilidade é necessário entendermos alguns conceitos como:

experimento, espaço amostral e eventos.

Denominamos de experimento a todo fenômeno ou ação que geralmente pode ser repetido e cujo

resultado é aleatório.

Quando lançamos uma moeda, uma única vez estamos fazendo um experimento cujo resultado será

cara ou coroa.

Denominamos de espaço amostral (W) ao conjunto de todos os possíveis resultados de um determinado


experimento.

No lançamento de um dado, o espaço amostral é: W = 1, 2, 3, 4, 5, 6. No lançamento de uma moeda, o

espaço amostral é: W = cara, coroa.


Denominamos de evento a todo subconjunto do espaço amostral.

Outras denições importantes:


i) Evento certo W (caracterizado pelo espaço amostral)

ii) Evento impossível F .

iii) Processo aleatório: Qualquer fenômeno que gere um resultado incerto ou casual.

Exemplo1: lançamento de moeda, lançamento de dado, etc.


Características
1) Pode ser repetido indenidamente sob as mesmas condições.

2) Não se conhece a priori (inicialmente) o resultado, mas todos os resultados possíveis podem ser

descritos.

Dentro deste contexto, probabilidade pode ser denida como o número de eventos (pontos ou elementos)

favoráveis divididos pelo número de elementos do espaço amostral:

X
P = n

Em que X é o número de eventos favoráveis, e n é o número de eventos do espaço amostral.

OPERAÇÕES
A seguir apresentaremos o Diagrama de Venn para ilustrarmos algumas propriedades:

53
2 PROBABILIDADES

Figura1: Diagrama de Venn

S S S
1) União( ):A B=B A

T T T
2) Intersecção ( ):A B=B A

3) Complementar: Ac = Ω − A (lê-se: complementar de A).

T
Observação Importante: SeA eB são conjuntos mutuamente exclusivos (disjuntos) então, A B = Φ.

Exemplo 2: Um casal pretende ter 3 lhos.

a) Determine o espaço amostral referente ao sexo dos lhos.

W = {(M, M, M ); (M, M, F ); (M, F, M ); (F, M, M ); (F, F, M ); (F, M, F ); (M, F, F ); (F, F, F )}


b) Qual o número de elementos (eventos) do espaço amostral?

O espaço amostral possui oito elementos (eventos).

c) Qual a probabilidade do casal ter exatamente 3 lhas?

Evento: X = número de lhas.

1
P (X = 3) = 8 = 0, 125

d) Qual a probabilidade do casal ter exatamente dois lhos?

Evento: Y = número de lhos.

54
2.1 Probabilidades e espaço amostral

3
P (Y = 2) = 8 = 0, 375

e) Qual a probabilidade do casal ter apenas um lho?

Evento: Y = número de lhos.

3
P (Y = 1) = 8 = 0, 375

Exemplo 3: Jogando-se dois dados, calcular a probabilidade da soma dos pontos ser superior a nove.

Evento: X = soma dos pontos

 
11 21 31 41 51 61
 

 12 21 31 41 51 61 

 13 23 33 43 53 63  6 1
Ω=  =⇒ P (X > 9) = = = 0, 1667
 
36 6

 14 24 34 44 54 64 


 15 25 35 45 55 65 

16 26 36 46 56 66

Dessa forma podemos sintetizar a denição de probabilidade de ocorrer um evento A como a razão
entre o número de possíveis resultados favoráveis ao evento A(n(A)) e todos os possíveis resultados do

experimento W
(n( )), ou seja, número de elementos do espaço amostral.

n(A)
P (A) = n(Ω)

2.1.1 Axiomas de probabilidade


Axioma 1: A probabilidade de um certo evento ocorrer corresponde a um número não negativo.

P (A) ≥ 0

Axioma 2: A probabilidade de ocorrer todo o espaço amostral é igual a um.

P (Ω) = 1

2.1.2 Teoremas
Teorema 1: A probabilidade de um evento impossível ocorrer é P (Φ) = 0.
Demonstração:

Seja Ω o espaço amostral. Sabe-se que Ω = Ω + Φ, então aplicando a função probabilidade de ambos

os lados têm-se:

Ω=Ω+Φ

P (Ω) = P (Ω) + P (Φ)

1 = 1 + P (Φ)

55
2 PROBABILIDADES

P (Φ) = 0

Teorema 2 (Probabilidade do complemento): Seja W o espaço amostral. Então, a probabilidade

de um evento A não ocorrer é:

P AC = 1 − P (A)


Demonstração:

Sabe-se que AC = Ω − A,então aplicando a função probabilidade de ambos os lados têm-se:

AC = Ω − A

P AC = P (Ω) − P (A)


P AC = 1 − P (A)


Teorema 3 (Teorema da soma): Se A e B são dois eventos do espaço amostral W a probabilidade


que ocorra A ou B é:

S T
P (A B) = P (A) + P (B) − P (A B)

Corolário:
T
Se dois eventos A e B são mutuamente exclusivos (disjuntos), isto é, A B = Φ, então:

S
P (A B) = P (A) + P (B)

Baseado no Axioma 1 e no Corolário acima segue-se que 0 ≤ P (A) ≤ 1 .

2.2 Probabilidade condicional e independência


2.2.1 Probabilidade condicional
A probabilidade condicional do evento A em relação ao evento B é denotada por:
T
P (A B)
P (A|B) = P (B) , P (B) > 0

A probabilidade condicional do evento B em relação ao evento A é denotada por:

T
P (A( B)
P (B|A) = P (A) , P (A) > 0

Exemplo 4: Qual a probabilidade no lançamento de um dado, a face superior do dado ser maior ou

igual a 4 sabendo que ela é par?

No lançamento de um dado, o espaço amostral é Ω = {1, 2, 3, 4, 5, 6}. Vamos denir o evento A como

sendo face superior par, e o evento B face superior maior ou igual a 4. Então, A = 2, 4, 6 e B = 4, 5, 6
T
P (A B)
P (B|A) =? ⇒ P (B|A) = P (A) , P (A) > 0

56
2.2 Probabilidade condicional e independência

T
Agora, vamos determinar P (A), P (B) e P (A B).

n(A) 3 1
P (A) =
n(Ω) = 6 = 2
P (B) = n(B) 3
n(Ω) T= 6 = 2
1

P (A B) = n(A B)
= 62 = 13
T
n(Ω)

T
P (A B) 1/3
P (B|A) = P (A) = 1/2 = 13 . 12 = 2
3

Exemplo 5: Em uma urna tem-se 40 bolas, sendo 10 pretas e 30 vermelhas (20 com manchas brancas

e 10 sem manchas). Qual a probabilidade de se ter uma bola vermelha com mancha branca, sabendo

que o evento bola vermelha já ocorreu.

Vamos denir o evento VB como sendo bola vermelha com mancha branca, e o eventoV bola vermelha.

P (V B |V ) =?

T
P (VB V )
P (V B |V ) = P (V ) , P (V ) > 0

T
Agora, vamos determinar P (V ) e P (VB V)
T
n(V ) 30 3 T n(VB V ) 20 1
P (V ) = n(Ω) = 40 = 4 e P (V B V)= n(Ω) = 40 = 2.

Então,

T
P (VB V ) 1/2
P (V B |V ) = P (V ) = 3/4 = 12 . 34 = 2
3.

57
2 PROBABILIDADES

2.2.2 Independência de eventos dois eventos


T
A e B são independentes se P (A B) = P (A).P (B).
Exemplo 6: Considere o lançamento de uma moeda (não viciada) três vezes. Cujo evento A corres-

ponde ao primeiro lançamento da moeda sair cara e o evento B corresponde ao segundo lançamento

da moeda sair cara. Esses dois eventos são independentes?

O espaço amostral é Ω = {ccc, ccr, crc, rcc, crr, rcr, rrc, rrr}. Os eventos A e B são: A = {ccc, ccr, crc, crr}
T
e B = {ccc, ccr, rcc, rcr}. Consequentemente, A B = {ccc, ccr}.
T
Agora, vamos vericar se estes dois eventos são independentes, ou seja, se P (A B) = P (A).P (B).
Por denição temos que P (A) = n(A) 4 1 n(B) 4 1 1 1 1
n(Ω) = 8 = 2 e P (B) = n(Ω) = 8 = 2 , então, P (A).P (B) = 2 . 2 = 4 .
P (A B) = n(A∩B) 2 1
B) = P (A).P (B) = 41 . Logo,
T T
Também por denição,
n(Ω) = 8 = 4 . Portanto, P (A
os eventos A e B são independentes.

2.2.3 Teorema
Se os eventos B1 , B2 , B3 , ..., Bk constituem uma partição do espaço amostral W, de modo que P (Bi ) 6= 0
para i = 1, 2, ..., k , então para qualquer evento A de W,
k
P T k
P
P (A) = P (Bi A) = P (Bi ).P (A|Bi )
i=1 i=1

Figura 2 - Partição do espaço amostral Ω.


Demonstração:
T S T S S T
A = (B1 A) (B2 A) ... (Bk A)
T S T S S T
P (A) = P [(B1 A) (B2 A) ... (Bk A)]
T T T
P (A) = P (B1 A) + P (B2 A) + · · · + P (Bk A)
Pk T
P (A) = P (Bi A)
i=1
T
P (A Bi ) T
Sabe-se que P (A|Bi ) = P (Bi ) ⇐⇒ P (A|Bi ).P (Bi ) = P (A Bi ). Então,

k
P T k
P
P (A) = P (Bi A) = P (A|Bi ).P (Bi )
i=1 i=1
Nota: Se a união de n eventos mutuamente exclusivos é o próprio universo W, dizemos que tais eventos
são mutuamente exclusivos e exaustivos, ou formam uma partição em W.
Exemplo 7: Em certa linha de montagem, três máquinas B1 , B2 e B3 produzem 30%, 45% e 25% dos

produtos, respectivamente. Sabe-se de experiências anteriores, que 2%, 3% e 2% dos produtos feitos

por cada máquina são, respectivamente, defeituosos. Agora, suponha que um produto já acabado, seja

selecionado aleatoriamente. Qual é a probabilidade de que tal produto apresente algum defeito?

58
2.3 Teorema de Bayes

Solução:

Denote os eventos A como produto com defeito e Bi produto produzido pela máquina i, com i = 1, 2,
3. Com base nas informações do problema temos que:

P (B1 ) = 0, 30; P (B2 ) = 0, 45; P (B3 ) = 0, 25; P (A|B1 ) = 0, 02; P (A|B2 ) = 0, 03 e P (A|B3 ) = 0, 02.

O que se quer calcular é P (A), ou seja, a probabilidade de que tal produto apresente algum defeito.
Então, pelo teorema temos:

k
P
P (A) = P (A|Bi ).P (Bi ) = P (A|B1 ).P (B1 ) + P (A|B2 ).P (B2 ) + P (A|B3 ).P (B3 ) =
i=1
0, 30 ∗ 0, 22 + 0, 45 ∗ 0, 03 + 0, 25 ∗ 0, 02 = 0, 0245.

2.3 Teorema de Bayes


É um importante teorema que expressa o conceito de uma probabilidade condicional em função de

outras probabilidades condicionais e marginais.

Teorema de Bayes: Se B 1 , B2 , .., Bk são conjuntos mutuamente exclusivos cuja união resulta em ,

então:

P (Bi ).P (A|Bi )


P (Bi |A) = k
P
P (Bi )P (A|Bi )
i=1

Exemplo 8: Considere cinco urnas cada uma com seis bolas. Duas dessas urnas (tipo C1 ), tem três

bolas brancas, duas outras urnas (tipo C2 ), tem duas bolas brancas e a última (tipo C3 ) tem seis bolas
brancas. Escolhe-se uma urna ao acaso e retira-se uma bola desta. Qual a probabilidade de que a urna

escolhida seja do tipo C3 , sabendo-se que a bola retirada á branca?

Resolução:

O evento bola branca será denotado por B, e o que se quer determinar é: P (C 3 |B) =?
Sabe-se que existe 5 urnas (2do tipo C1 , 2 do tipo C2 e 1do tipo C3 ). Pelo Teorema de Bayes temos:

P (Ci ).P (B|Ci ) P (C3 ).P (B|C3 ) P (C3 ).P (B/C3 )


P (Ci |B) = k
P
⇒ P (C 3 |B) = 3
P
= P (C1 )P (B|C1 )+P (C2 )P (B|C2 )+P (C3 )P (B|C3 ) .
P (Ci )P (B|Ci ) P (Ci )P (B|Ci )
I=1 i=1

A probabilidade de selecionar aleatoriamente a urna tipo C1 é:

P (C1 ) = n(C1 )
n(Ωi ) = no de urnas C1
no total de urnas = 2
5 .

Analogamente, a probabilidade de selecionar aleatoriamente a urna do tipo C2 e a urna do tipo C3 é:

P (C2 ) = n(C2 )
n(Ωi ) = no de urnas C3
no total de urnas = 2
5 e P (C3 ) = n(C1 )
n(Ωi ) = no de urnas C3
no total de urnas = 1
5 .

Agora, determinaremos as seguintes probabilidades condicionais:

6 1
P (B|C 1 ) = Prob. de sair bola branca dado que a urna é do tipoP (B|C1 ) = 12 = 2;

4 1
P (B|C 2 ) = Prob. de sair bola branca dado que a urna é do tipoP (B|C2 ) = 12 = 3;

59
2 PROBABILIDADES

6
P (B|C 3 ) = Prob. de sair bola branca dado que a urna é do tipoP (B|C3 ) = 6 = 1.

Então:

1 1 1 1
P (C3 ).P (B|C3 ) .1
P (C 3 |B) = P (C1 )P (B|C1 )+P (C2 )P (B|C2 )+P (C3 )P (B|C3 ) = 2 . 1 + 2 . 1 + 1 .1
5
= 2
5
2
+ 15
= 6
5
2
+ 15
= 5
8 = 15 . 15
8 =
5 2 5 3 5 5 15 15
8
3 = 0, 375.

Exemplo 9: Uma empresa produz circuitos integrados em três fábricas. A fábrica 1 produz 40% dos

circuitos enquanto que as fábricas 2 e 3, produzem 30% cada. A probabilidade de que um circuito

produzido por estas fábricas não funcione é de 0,01, 0,04 e 0,03 respectivamente. Qual a probabilidade

de se pegar um circuito ao acaso da produção total da companhia, sendo ele da fábrica 1 e sabendo

que ele não funciona?

Solução:

P (F1 ).P (def |F1 ) 0,40∗0,01


P (F 1 |def ) = P (F1 ).P (def |F1 )+P (F2 ).P (def |F2 )+P (F3 ).P (def |F3 ) = 0,40∗0,01+0,30∗0,04+0,30∗0,03 = 0, 16.

2.4 Exercícios propostos


Exercício 1: Um lote é formado por 11 peças boas, 3 com defeitos leves, e 2 com defeitos graves.

Considere como evento A defeito leve, evento B defeito grave, e evento C nenhum defeito.
Uma peça é retirada ao acaso desse lote. Qual a probabilidade que essa peça:

a) seja boa?

b) tenha defeito leve?

c) tenha defeito grave?

d) seja defeituosa?

Duas peças são retiradas ao acaso com reposição desse lote. Qual a probabilidade de:

e) ambas serem boas?

f ) pelo menos uma boa?

Duas peças são retiradas ao acaso sem reposição desse lote. Qual a probabilidade de:

g) ambas serem boas?

Exercício 2: Se um dado é lançado duas vezes. Determine qual a probabilidade de ocorrer maior do

que 3 no primeiro lance e menor do que 5 no segundo lance.

Exercício 3: Em uma bolsa tem-se duas moedas de 1 centavo, três de 10 centavos e quatro de 1

real. Duas moedas são retiradas aleatoriamente da bolsa, determine as seguintes possibilidades (sem

reposição).

a) ambas moedas serem de 1 centavo.

b) uma moeda de 1centavo e a outra moeda de 1 real.

c) ambas do mesmo valor.

d) pelo menos uma de 10 centavos.

e) Nenhuma moeda de 10 centavos ê

Exercício 4 modicado (BRUNI, 2008): Em uma pesquisa realizada com 200 alunos da Faculdade

Bom Saber, foi obtido o resultado apresentado na tabela seguinte:

60
2.4 Exercícios propostos

Curso
Sexo ADM CC PD PSIC
Homens 45 22 38 29
Mulheres 35 16 12 3

Qual a probabilidade de um aluno desse grupo, escolhido ao acaso:

a) ser homem e cursar ADM?

b) ser mulher e cursar PSIC?

c) ser homem e cursar PSIC?

d) ser homem dado que cursa ADM?

e) cursar PSIC dado que é homem?

Exercício 5 (BRUNI, 2008): Uma agencia de propaganda detectou que 80% das residências

estudadas em uma pesquisa de mercado possuíam um aparelho de som com CD Player e 30%

possuíam forno de microondas. Dados da pesquisa também revelam que 20% das casas tinham ambos

os eletrodomésticos. Calcule a porcentagem das casas que não possuem nenhum dos dois

eletrodomésticos.

Exercício 6 (BRUNI, 2008): Um pesquisador estudou o comportamento de consumo de bebidas

lácteas no Brasil. Analisou a classe econômica do consumidor e o principal aspecto determinante da

escolha da marca. Os dados obtidos estão tabulados na tabela seguinte.

Classe/Aspecto Preço Qualidade Total


Alta 42 56 98
Média 37 21 58
Baixa 13 97 110
Total 92 174 266

Qual a probabilidade de um consumidor escolhido ao acaso:

a) Priorizar o preço, dado que é de classe alta;

b) Priorizar a qualidade, dado que é de classe média;

c) Ser de classe baixa, dado que atribui maior importância ao fator de qualidade?

Exercício 7: Distribuição de alunos matriculados em um determinado instituto de Matemática. Com

base na Tabela abaixo, determine:

Sexo
Curso Masculino Feminino Total
Mat. Pura 70 40 110
Mat. Aplicada 15 15 30
Estatística 10 20 30
Computação 20 10 30
Total 115 85 200

a) Probabilidade do sexo masculino.

b) Probabilidade matemática pura.

c) Probabilidade matemática aplicada.

d) Probabilidade matemática pura e sexo feminino.

e) Probabilidade matemática pura dado que ele é do sexo feminino.

f ) Verique se sexo feminino e matemática pura são eventos independentes.

61
3 VARIÁVEL ALEATÓRIA UNIDIMENSIONAL
Para entendermos o conceito de variável aleatória (v.a.), imagine um lançamento de um dado. Tente

dizer qual será o número resultante. É claro que, antes do lançamento, não podemos dizer com

exatidão qual é o número que ocorrerá, pois o resultado depende do fator sorte e, por isso, é uma

variável aleatória.

Variável Aleatória (v.a.) é uma variável cujos valores são determinados pelos resultados de experiências

aleatórias, isto é, uma função que associa valores reais aos eventos de um espaço amostral.

Uma v.a. pode ser entendida como uma variável quantitativa, ou seja, uma v.a. pode ser classicada

como discreta ou contínua. As variáveis aleatórias dizem-se discretas, quando assumem um número

determinado de valores contáveis (valores oriundos de um processo de contagem), ou contínuas, quando

assumem qualquer valor num dado intervalo (valores oriundos de um processo de mensuração).

3.1 Variável Aleatória Discreta


O conceito de v.a. discreta será introduzido por meio de exemplos.

Exemplo 1: Se um experimento consiste no lançamento de dois dados, a função: X =  soma das faces

dos dois dados , dene uma variável aleatória discreta, que pode assumir onze valores possíveis: 2, 3,

4, 5, 6, 7, 8, 9, 10, 11 ou 12.

Exemplo 2: Se um experimento consiste em vericar o número de circuitos defeituosos num sistema

formado por quatro circuitos, a função: Y =  número de circuitos defeituosos , dene uma variável

aleatória discreta, que pode assumir cinco valores possíveis: 0, 1, 2, 3 ou 4.

Com base nos exemplos acima ca claro que a variável aleatória discreta está vinculada a valores de

uma contagem que resultam a números inteiros.

3.2 Variável Aleatória Contínua


A variável aleatória é dita contínua se corresponder a dados de medida, pertencentes aos números reais

. O conceito de v.a. contínua será melhor entendido por meio do exemplo a seguir.

Exemplo 3: Se um experimento consiste em vericar as alturas de 30 universitários, a função: X

=  Altura de um universitário , dene uma variável aleatória contínua, que pode assumir quaisquer

valores entre 130 e 220 cm.

Exemplo 4: Se um experimento consiste em vericar (mensurar) os pesos dos 30 universitários, a

função: Y =  Peso de um universitário , dene uma variável aleatória contínua, que pode assumir

quaisquer valores entre 60 e 130 kg.

Exemplo 5: Se um experimento consiste em vericar a durabilidade de um lote de 50 pneus, a função:

Z:  tempo de vida útil de um pneu , dene uma v.a. contínua, que pode assumir quaisquer valores

63
3 VARIÁVEL ALEATÓRIA UNIDIMENSIONAL

entre 50.000 e 70.000 km. Com base nos exemplos apresentados, a v.a. contínua está vinculada a dados

oriundos de uma mensuração que resultam a um intervalo de números reais.

3.3 Distribuição de Probabilidades


Se uma variável aleatória Y pode assumir os valores y1 , y2 , y3 , ..., yn com probabilidades respectivamente,
Pn
P [Y = y1 ] , P [Y = y2 ] , P [Y = y3 ] , ..., P [Y = yn ], tais que P [Y = yi ] = 1, tem-se denida uma
i=1
distribuição de probabilidade .
No tocante a variáveis aleatórias discretas, a cada realização yi corresponde uma probabilidade P [Y = yi ].
Isso dene uma função, chamada função de probabilidade , a qual deve obedecer a algumas condi-
ções, quais sejam:

i) P [Y = yi ] ≥ 0, para todo i;
n
P
ii) P [Y = yi ] = 1
i=1
em que o índice i é empregado para identicar os diferentes valores que a variável pode assumir. Essa

função é denominada por inúmeros autores como função distribuição de probabilidade da variável
aleatória discreta Y.
b
Nota:
P
P [Y = yi ] = P [a < y ≤ b]
yi >a
Exemplo 6: Y: número de circuitos defeituosos num sistema formado por quatro circuitos tem-se:

Y 0 1 2 3 4
5
1 2 2 2 1 P
P [Y = y] 8 8 8 8 8 P [Y = yi ] = 1
i=1

Observa-se que a distribuição de probabilidade acima é uma função de probabilidade pois, as condi-

ções (i) e (ii) foram satisfeitas, isto é, todas as probabilidades são maiores que zero e, a soma das

probabilidades é igual a um.

Se, a variável Y for contínua, somente haverá interesse na probabilidade de que a variável assuma valores

dentro de determinados intervalos, sendo sua distribuição de probabilidades caracterizada por uma

função densidade de probabilidade (f.d.p.), f(y), a qual deverá possuir as seguintes propriedades:

i)f (y) ≥ 0 para qualquer y ∈ R;


´∞
ii)
−∞ f (y) dy = 1.
´b
Nota: P [a ≤ y ≤ b] = P [a < y ≤ b] = P [a ≤ y < b] = P [a < y < b] = a f (y) dy , para qualquer a e
b.

Exemplo 7: Para o caso das alturas dos universitários têm-se:


2
h i
f (x) = √1 exp
σ 2π
− (x−µ)
2σ 2

que é a distribuição normal.

3.4 Função Repartição ou Função Distribuição Acumulada


A função de distribuição acumulada nos fornece a probabilidade de que a variável em questão esteja

abaixo de um determinado valor. Em geral, ela é representada por F (y) ou φ (y). Assim,

64
3.4 Função Repartição ou Função Distribuição Acumulada

F (y) = P [Y ≤ y] .

i) Para uma variável aleatória discreta a função distribuição acumulada será denida como:
k
P
F (yk ) = P [Y ≤ yk ] = P [Y = y1 ] + P [Y = y2 ] + P [Y = y3 ] + ... + P [Y = yk ] = P [Y = yi ].
i=1

ii) Para uma variável aleatória contínua a função distribuição acumulada será denida como:
´ yk
F (yk ) = P [Y ≤ yk ] = −∞ f (y) dy .

Exemplo 8: Numa plantação de café, cujas folhas possuem um número Y variado de lesões provocadas

pela praga bicho mineiro (Perileucoptera coeella), obedecendo as seguintes proporções:

N ° lesões 0 1 2 3 4 5
P
proporção 0,32 0,28 0,20 0,12 0,06 0,02 =1

Essas proporções podem ser interpretadas como probabilidades no sentido de que, se uma folha for

tomada à plantação ao acaso, existe uma probabilidade, por exemplo, de 28% de que ela contenha

apenas uma lesão. A probabilidade de que ela tenha 3 lesões, ou menos, é dada por:

F (Y = 3) = F (3) = P [Y ≤ 3] = P [Y = 0 ou Y = 1 ou Y = 2 ou Y = 3]

F (Y = 3) = F (3) = P [Y ≤ 3] = P [Y = 0] + P [Y = 1] + P [Y = 2] + P [Y = 3]

F (Y = 3) = F (3) = P [Y ≤ 3] = 0, 32 + 0, 28 + 0, 20 + 0, 12 = 0, 92

Rotina para cálculo de probabilidade acumulada

dados<-read.table("exemplo_8_lesão_café.txt",h=T)

dados

attach(dados)

F3<-sum(dados$prob[1:4])

F3

Exemplo 9: Seja a função densidade de probabilidade:




 0, x < 0

f (x) kx, 0 ≤ x ≤ 2



 0, x > 2

Encontre F(1).

Antes de encontrar F(1) é necessário determinar o valor de k. Sabe-se que:

´∞ ´0 ´2 ´∞
−∞ f (x)dx = 1 ⇔ −∞ f (x)dx + 0 f (x)dx + 2 f (x)dx = 1

´2 ´2 2
x.dx = 1 ⇔ k x2 |20 = 1 ⇐⇒ k2 x2 |20 ⇔ k
22 − 02 = 1

0 kx.dx = 1 ⇔ k 0 2

65
3 VARIÁVEL ALEATÓRIA UNIDIMENSIONAL

k
2 (4) = 1 ⇔ 2k = 1 ⇔ k = 1/2

Dessa forma, a função densidade de probabilidade ca:




 0, x < 0

f (x) 1
2 x, 0≤x≤2



 0, x > 2

Agora, temos condição de determinar F(1). Por denição, tem-se que:

´1 ´0 ´1
F (1) = P [X ≤ 1] = −∞ f (x)dx = −∞ f (x)dx + 0 f (x)dx = 14 x2 |10 = 1
4 = 0, 25

3.4.1 Propriedades da Função Distribuição Acumulada ou Função Repartição


i) 0 ≤ F (y) ≤ 1;
ii) se y1 < y2 , então F (y1 ) ≤ F (y2 );
iii) F (-∞) = lim F (y) = 0
y→−∞
iv) F (+∞) = lim F (y) = 1, corresponde ao evento certo;
y→+∞
v) P [y1 < Y ≤ y2 ] = F (y2 ) − F (y1 );
vi) P [y1 ≤ Y ≤ y2 ] = F (y2 ) − F (y1 ) + P [Y = y1 ] ;
vii) P [y1 < Y < y2 ] = F (y2 ) − F (y1 ) − P [Y = y2 ] ;

3.4.2 Gráco da Função Distribuição Acumulada ou Função Repartição


Seja X a variável aleatória discreta com a seguinte função de probabilidade:

X 0 1 2 3 4
P
P[X=x] 0,1 0,2 0,4 0,1 0,1 =1

Então, sua função distribuição acumulada é:

X 0 1 2 3 4

F(x) 0,1 0,4 0,8 0,9 1,0

Portanto, o gráco da função distribuição acumulada da variável aleatória X é:

Figura 1  Gráco da função distribuição acumulada da variável aleatória X.

66
3.5 Parâmetros característicos de uma Distribuição de Probabilidade

Seja X a variável aleatória contínua, então o gráco genérico da função distribuição acumulada terá o

seguinte comportamento:

Figura 2  Gráco genérico da função distribuição acumulada de uma v.a. contínua X.

Exemplo 10: Plote o gráco da seguinte função distribuição acumulada:





 0, x ≤ 0

f (x) x2 , 0 < x < 1


0, x ≥ 1

Figura 3  Gráco da função distribuição acumulada de uma v.a. contínua X.

Observação: Pode-se encontrar a função densidade de probabilidade, se existir, a partir de F(x), pois:

d
dx F (x) = f (x),

nos pontos onde F(x) é derivável.

3.5 Parâmetros característicos de uma Distribuição de Probabilidade


3.5.1 Esperança Matemática
Muitas vezes estamos interessados em estimar parâmetros característicos de uma distribuição de pro-

babilidade de uma variável aleatória qualquer. Um primeiro parâmetro é a Esperança Matemática. A

esperança matemática é uma média aritmética ponderada ou um valor esperado de uma variável alea-

tória. Na prática, a esperança pode ser entendida como um  centro de distribuição de probabilidade ,

isto é, a média de uma distribuição de probabilidade.

A Esperança Matemática é denida da seguinte forma:

i) Se X é uma variável aleatória discreta, então a esperança matemática é:


n
P
E(X) = µ = xi P [X = xi ]
i=1

ii) Se X é uma variável aleatória contínua, então a esperança matemática é:

67
3 VARIÁVEL ALEATÓRIA UNIDIMENSIONAL

´∞
E(X) = µ = −∞ xf (x)dx

Exemplo 11: (MORETTIN, 2010) Uma seguradora paga R$ 30.000,00 em caso de acidente de carro

e cobra uma taxa de R$ 1.000,00. Sabe-se que a probabilidade de que um carro sofra acidente é de

3%. Quanto espera a seguradora ganhar por carro segurado?

Suponhamos que entre 100 carros segurados, 97 dão lucro de R$ 1.000,00 e 3 dão prejuízo de R$

29.000,00 (R$30.000,00  R$1.000,00)

Lucro total = 97 x 1.000,00  3 x 29.000,00 = R$ 10.000,00

Lucro médio por carro = 10.000,00/100 = R$ 1.00,00

Se chamarmos de X: lucro por carro e o lucro médio por carro de E(X), teremos:

97x1.000,00−3x29.000,00
E(X) = 100

97x1.000,00 3x29.000,00
E(X) = 100 − 100

E(X) = 0, 97x1.000, 00 − 0, 3x29, 000, 00

E(X) = R$100, 00

Outra forma de calcular o lucro médio da seguradora seria: Dene-se a variável aleatória X como

 Lucro por carro. Os dois resultados possíveis da variável aleatória X são: 1.000,00 e -29.000,00

(R$1.000,00  R$30.000,00). Dado que a probabilidade de que um carro sofrer acidente é de 3% (0,03),

então, a probabilidade de um carro não sofrer acidente seria 97% (0,97). Dessa forma, a distribuição

de probabilidade é:

X 1.000,00 -29.000,00
P
P [X = xi ] 0,97 0,03 =1

Portanto, o lucro médio por carro é:

n
P
E (X) = xi P [X = xi ] = 1.000, 00x0, 97 + (−29.000, 00)x0, 3 = R$100, 00.
i=1

3.5.1.1 Propriedades da Esperança Matemática


As propriedades da esperança são:

1) E(k) = k, sendo k uma constante.


Demonstração:

n
P n
P
E(k) = kP [X = xi ] = k P [X = xi ] = k.1 = k.
i=1 i=1

2) E(kX) = kE(X), sendo k uma constante.


Demonstração:

n
P Pn
E(k) = kxi P [X = xi ] = k xi P [X = xi ] = kE(X).
i=1 i=1

68
3.5 Parâmetros característicos de uma Distribuição de Probabilidade

3) E (aX ± b) = aE(X) ± b , sendo a e b constantes.


Demonstração:

E (aX ± b) = E(aX) ± E(b) = aE(X) ± b

4) E (X − µx ) = 0
Demonstração:

E (X − µx ) = E (X) − E (µx ) = µ − µ = 0.

5) E (X ± Y ) = E (X) ± E (Y )
Essa propriedade será demonstrada posteriormente, quando abordarmos o assunto de variáveis aleató-

rias bidimensionais.
n n
 
6) E
P P
Xi = E (Xi )
i=1 i=1
Nota: Para demonstração das propriedades acima foi utilizada a denição de esperança matemática

de uma variável aleatória discreta. Analogamente, é possível demonstrar as propriedades da esperança

por meio da denição de esperança de uma variável aleatória contínua.

3.5.2 Variância
Já comentamos anteriormente que a esperança matemática nos fornece a média de uma distribuição

de probabilidade. Porém, não temos informação a respeito do grau de dispersão das probabilidades

em torno da média. Portanto, a medida que usaremos para estimar o grau de dispersão (ou de

concentração) de probabilidade em torno da média será a variância.

A variância é denida da seguinte forma:

n o
V (X) = E [X − E (X)]2 .

No entanto, é possível deduzir uma fórmula mais fácil de ser aplicada para o cálculo da variância.

n o n o
V (X) = E [X − E (X)]2 = E [X − µ]2 = E X 2 − 2µX + µ2 = E X 2 − E (2µX) + E µ2 =
  

E X 2 − 2µE (X) + µ2 = E X 2 − 2µ2 + µ2 = E X 2 − µ2 = E X 2 − [E (X)]2 .


   

∴ V (X) = E X 2 − µ2 = E X 2 − [E (X)]2 .
 

i) Se X é uma variável aleatória discreta, então:


n
E X2 = x2i P [X = xi ].
 P
i=1

ii) Se X é uma variável aleatória contínua, então:


 ´∞
E X 2 = −∞ x2 f (x) dx.

69
3 VARIÁVEL ALEATÓRIA UNIDIMENSIONAL

3.5.2.1 Propriedades da Variância


As propriedades da variância são:

1) V (k) = 0, sendo k uma constante.

Demonstração:

V (k) = E k 2 − [E (k)]2 = k 2 − [k]2 = 0.




Outra forma de demonstração:

n o n o
V (k) = E [k − E (k)]2 = E [k − k]2 = 0.

2) V (kX) = k 2 V (X), sendo k uma constante.

Demonstração:

h i
V (kX) = E (kX)2 − [E (kX)]2 = E k 2 X 2 − [kE (X)]2 = k 2 E X 2 − k 2 [E (X)]2 =
  
n o
k 2 E X 2 − [E (X)]2 = k 2 V (X).


Outra forma de demonstração:

n o n o n o
V (kX) = E [kX − E (kX)]2 = E [kX − kE (X)]2 = E k 2 [X − E (X)]2 =
n o
k 2 E [X − E (X)]2 = k 2 V (X).

Nota Importante (denição): A covariância mede o grau de associação (dependência) entre as

variáveis X e Y, e é denida como:

Cov (X, Y ) = E {[X − E (X)] [Y − E (Y )]}.

3) V (X ± Y ) = V (X) + V (Y ) ± 2Cov (X, Y ).


Demonstração:

n o n o
V (X ± Y ) = E [(X ± Y ) − E (X ± Y )]2 = E [(X − E (X)) ± (Y − E (Y ))]2 =
n o n o
E [X − E (X)]2 ± 2 [X − E (X)] [Y − E (Y )] + [Y − E (Y )]2 = E [X − E (X)]2 ±
n o
2E {[X − E (X)] [Y − E (Y )]} + E [Y − E (Y )]2 = V (X) + V (Y ) ± 2Cov (X, Y ).

n n n
 
4) V
P P P
Xi = V ar (Xi ) + 2 Cov (Xi , Xj ).
i=1 i=1 i<j
5) V (aX ± b) = a2 V (X), sendo a e b constantes.

Demonstração:

V (aX ± b) = V (aX) + V (b) ± 2Cov (aX, b) = a2 V (X) + 0 ± 2E {[aX − E (aX)] [b − E (b)]} =


a2 V (X) + 0 ± 2E {[aX − E (aX)] [b − b]} = a2 V (X) + 0 ± 2E {[aX − E (aX)] .0} =
a2 V (X) + 0 ± 2E (0) = a2 V (X).

A partir da variância, V (X ), é possível determinar o desvio padrão (σ), da seguinte forma:


p
σ= V (X).

70
3.6 Exercícios propostos

3.6 Exercícios propostos


Exercício 1: (ANDERSON et al., 2007) O processo de elaboração orçamentária de uma universidade

do meio-oeste resultou em previsões de gastos para o ano vindouro equivalentes a (em milhões US$) 9,

10, 11, 12 e 13. Como os gastos atuais são desconhecidos, são atribuídas as seguintes probabilidades

respectivamente: 0,3; 0,2; 0,25; 0,05 e 0,2.

a) Mostre a distribuição de probabilidade correspondente à previsão de gastos.

b) Qual é o valor esperado da previsão de gastos para o ano vindouro?

c) Qual a variância da previsão de gastos para o ano vindouro?

Rotina do exercício 1
dados<-read.table("exer_1_gastos.txt",h=T)

dados

attach(dados)

#cálculo da esperança matemática

produto1<-gastos*prob

média<-sum(produto1)

média

#cálculo da variância

produto2<-(gastos^2)*prob

esperança2<-sum(produto2)

esperança2

var<-esperança2-média^2

var

Exercício 2 modicado (BRUNI, 2008): Um grupo de investidores projetou os seguintes resultados

para uma operação de investimentos. Calcule o valor esperado e da variância.

Resultado Econômico Probabilidade Retorno sobre o investimento


Ótimo 20% 25%
Bom 40% 15%
Mais ou menos 30% 5%
Realmente ruim 10% 0%

Rotina do exercício 2
dados<-read.table("exer_2_retorno.txt",h=T)

dados

attach(dados)

#cálculo da esperança matemática

produto1<-retorno*prob #retorna produto entre os valores da variável e suas respectivas probabilidades

média<-sum(produto1) #retorna o valor esperado (soma do produto)

média

#cálculo da variância

produto2<-(retorno^2)*prob

esperança2<-sum(produto2)

esperança2

var<-esperança2-média^2 #retorna a variância

var

71
4 MODELOS PROBABILÍSTICOS
DISCRETOS
Nesta seção serão apresentados alguns modelos para variáveis aleatórias discretas. O termo modelo

probabilístico quer dizer que será determinado uma lei de formação para as probabilidades dos possíveis

valores que a variável em questão pode assumir.

O primeiro modelo a ser tratado será:

4.1 Distribuição de Bernoulli


Uma variável aleatória X terá distribuição Bernoulli, quando ela assume apenas dois resultados pos-

síveis:  sucesso ou  fracasso . Então, será associado aos resultados da v.a X os seguintes valores:

X = 1, se o resultado (evento) for  sucesso ; X = 0, se o resultado (evento) for  fracasso .

Denindo-se p como sendo a probabilidade de sucesso e q a probabilidade se de fracasso. Diz-se que a

v.a X tem distribuição Bernoulli se:

P [X = x] = px (1 − p) 1−x , x = 0; 1 e q = 1 − p.

A função de probabilidade da v.a. X pode ser também representada da seguinte forma:

X 0 1
P
P [X = x] (1 − p) p =1

Pode-se citar como exemplo:

Um jogador de basquete converter ou não um arremesso.

Um indivíduo portador de certa doença morrer ou não.

Uma peça produzida por uma Cia ser perfeita ou defeituosa.

4.1.1 Parâmetros característicos da distribuição Bernoulli


Esperança Matemática (Média):
1
P
E(X) = xP [X = x] = 0 (1 − p) + 1p = p.
x=0

Variância:
1
E X2 = x2 P [X = x] = 02 (1 − p) + 12 p = p.
 P
x=0

Então:

73
4 MODELOS PROBABILÍSTICOS DISCRETOS

V (X) = E(X 2 ) − [E(X)]2 = p − p2 = p(1 − p) = pq .

Exemplo 1: No lançamento de um dado vericar a ocorrência de sair face 5 ou não. Determine a

função de probabilidade.

Resolução:

Primeiramente vamos associar valores a nossa variável, ou seja,

X = 0, se não ocorrer face 5.

X = 1, se ocorrer face 5.

1 5
p =probabilidade de ocorrer 5= 6 , então, q =1−p= 6
Logo, a função ou probabilidade será:

X 0 1
5 1 P
P [X = x] 6 6 =1

Determinar esperança E (X)e V (X)


1
E(X) = p = 6
15 5
V (X) = pq = 66 = 36
Rotina do Exemplo 1:

x<-0:1

n<-1

p<-1/6

bern<-dbinom (x, n, p)

bern

plot(x, bern, type="h", xlab="nº de peças com perfeição", ylab="Probabilidade", main="Distribuição Bernoulli")

4.2 Distribuição Binomial


A Distribuição Binomial consiste em n ensaios de Bernoulli em que as repetições dos ensaios são

independentes e a probabilidade de sucesso será sempre igual a p em todos os ensaios.

A notação para uma variável aleatória X que possui distribuição binomial com probabilidade de sucesso

igual a p será, X ∼ B(n, p).


Exemplo 2: Uma moeda é lançada 3 vezes. Qual é a probabilidade de se ter 2 caras?

Resolução:

P [2caras] = P (SSF ) + P (SF S) + P (F SS) = p2 q + p2 q + p2 q = 3p2 q .

X 0 1 2 3
q3 3pq 2 3p2 q p3 = (p + q)3
P
P [X = x]

Se X tem Distribuição Binomial, então a função de probabilidade de X será:

! !
n n n!
P [X = x] = px q n−x , q = 1 − pe = (n−x)!.x! .
x x

74
4.2 Distribuição Binomial

4.2.1 Parâmetros Característicos da Distribuição Binomial

4.2.1.1 Esperança Matemática


E (X) = np.

4.2.1.2 Variância
V (X) = npq .

Exemplo 3: A chance de que um bit transmitido através de um canal digital de transmissão seja

recebido com erro de 0,1. Suponha que as tentativas de transmissão sejam independentes. Faça X:

número de bits com erro nos próximos quatro bits transmitidos. Determine P (X = 2).
Resolução:

O evento em que X=2 possui seis resultados distintos:

{(E, E, O, O) ; (E, O, E, O) ; (E, O, O, E) ; (O, E, E, O) ; (O, E, O, E) ; (O, O, E, E)}.

Usando a suposição de que as tentativas sejam independentes, a probabilidade de (E, E, O, O) é:

P (E, E, O, O) = P (E).P (E).P (O).P (O) = 0, 12 0.92 = 0, 0081.

Então,

P [X = 2] = 6.0, 0081 = 0, 0486.

Uma outra forma de resolver o problema seria identicar a distribuição (modelo probalístico) da v.a.

X. Diante das informações apresentadas no problema pode-se armar que:

X ∼ B(n = 4, p = 0, 1).

Logo,
!
4 4!
P [X = 2] = 0, 12 0, 92 = 2
(4−2)!2! 0, 1 0, 9
2 = 6.0, 12 .0, 92 = 0, 0486.
2

Rotina para cálculo de uma probabilidade por meio da Distribuição Binomial, com n =
4 e p = 0,1

x<-0:4 # variação do número de sucessos nas amostras

n<-4 #tamanho da a amostras

p<-0.1 #prob. de sucesso

# sintaxe:

# dbinom (x, n, p) ditribuição binomial com parâmetros n e p

bino<-dbinom (x, n, p)

bino #retorna a função de probabilidade

plot(x, bino, type="h", xlab="nº de peças com perfeição", ylab="Probabilidade", main="Distribuição binomial") #plota a distribuição de probabilidade

75
4 MODELOS PROBABILÍSTICOS DISCRETOS

Exemplo 4: Sabendo-se que a probabilidade de um casal gerar lhos de olhos azuis é de


1
4.

a) Determine a probabilidade de que dentre 3 lhos deste casal, nenhum tenha olhos azuis.

Resolução:

Seja X o número de lhos com olhos azuis e p a probabilidade do lho do casal ter olhos azuis. Logo,
1 3
p= 4, q= 4 e n = 3.
!
3 1 0
 3 3
 3! 1 0
 3 3
 3! 3 3
 3! 3 3
 3 3

P [X = 0] = 4 4 = (3−0)!0! 4 4 = 3!0! 1 4 = 3!.1 1 4 = 4 = 0, 421875.
0

Rotina para cálculo de uma probabilidade por meio da Distribuição Binomial, com, n =
3, p = 0,25 e x = 0.

# sintaxe:

x<-0 #número de sucessos

n<-3

p<-0.25

bino<-dbinom (x, n, p)

bino

b) Determine a função de distribuição de probabilidade referente ao número de lhos do casal que

poderá apresentar olhos azuis.

Resolução:

!
3 1 0
 3 3

P [X = 0] = 4 4 = 0, 421875
0

!
3 1 1
 3 2

P [X = 1] = 4 4 = 0, 421875
1

!
3 1 2
 3 1

P [X = 2] = 4 4 = 0, 140625
2

!
3 1 3
 3 0

P [X = 3] = 4 4 = 0, 015625
3

Então, a função distribuição de probabilidade será:

X 0 1 2 3
P
P [X = xi ] 0, 421875 0, 421875 0, 140625 0, 015625 =1

Rotina para cálculo de uma Distribuição de Probabilidade por meio da Distribuição Bi-
nomial, com n = 3 e p = 0,25.

76
4.2 Distribuição Binomial

# sintaxe:

x<-0:3

n<-3

p<-0.25

bino<-dbinom (x, n, p)

bino

plot(x, bino, type="h", xlab="nº de peças com perfeição", ylab="Probabilidade", main="Distribuição binomial")

c) Determine a E(X) e V (X).

E(X) = np = 3 14 = 3
4 = 0, 75 e V (X) = npq = 3 41 34 = 9
16 = 0, 5625.

Exemplo 5: Dez peças são extraídas ao acaso com reposição de um lote de 500 peças. Sabendo-se

que 10% das peças são defeituosas.

a) Qual a probabilidade de se ter 2 peças defeituosas.

Resolução:

De acordo com o problema temos que n = 10 e p = 0, 10. Seja X, o número de peças defeituosas num

total de dez peças. Logo, a v.a. X tem distribuição Binomial com parâmetros n = 10 e p = 0, 10.
Então,
!
10
P [X = 2] = 0, 102 0, 908 = 45.0, 102 .0, 908 = 0, 1937.
2
b) Qual a probabilidade de se ter 10 peças defeituosas
!
10
P [X = 10] = 0, 1010 0, 900 = 1.10−10 .
10
c) Determine a média e a variância.

E(X) = np = 10.0, 1 = 1 peça defeituosa.

V (X) = npq = 10.0, 1.0, 9 = 0, 9 (peças defeituosas) .


2

Rotina para Exemplo 5

n<-10

x<-0:10

p<-0.10

bino2<-dbinom (2, n, p)

bino2

bino10<-dbinom (10, n, p)

bino10

media<-n*p

media

variancia<-n*p*(1-p)

variancia

77
4 MODELOS PROBABILÍSTICOS DISCRETOS

4.3 Distribuição Poisson


Analisa o número de eventos que ocorrem em um intervalo de tempo, ou comprimento, ou superfície

ou volume.

Exemplo 6: Número de vezes que o corpo de bombeiro é chamado por dia para combater incêndios

em uma cidade grande.

Exemplo 7: Número de peças que saem defeituosas por hora em um processo produtivo.

Se X tem Distribuição de Poisson, então a função de probabilidade de X será:

λx e−λ
P [X = x] = p (x) = f (x) = x! , em que x = 0, 1, 2, ...; com λ > 0.

em que λé a frequecia média de sucessos.

E(X) = V ar(X) = µ = σ 2 = λ = np.

Exemplo 8: Considere um o delgado de cobre, suponha que o número de falhas siga a distribuiçao

de Poisson, com uma média de 2,3 falhas/milímetro. Determine:

a) A probabilidade de existir exatamente 2 falhas em um milímetro de o.

Resolução:

Seja X o número de falhas em um milímetro de o. Logo X tem distribuição de Poisson com λ = 2, 3
falhas por milímetro, ou seja, E(X) = 2, 3 falhas/mm. Então, a probabilidade de existir exatamente 2

falhas em um milímetro de o é:

e−2,3 2,32
P [X = 2] = 2! = 0, 265.

Rotina para cálculo da probabilidade de 2 falhas / mm de o.

# sintaxe:

#dpois (x, lambda) Distribuição de Poison com média lambda

lambda<-2.3 #média de falhas/milímetro

x<-2 #prob. de ter exatamente 2 falhas em 1 milímetro de o

dpois (x, lambda)

b) A probabilidade de possuir 10 falhas em 5 milímetros.

Resolução:

Seja Y o número de falhas em 5 mm. Então, o número médio de falhas em 5 mm será calculado por

meio da regra de três a seguir:

mm λ
1 2, 3 λ2 é o número médio de falhas em 5 mm.

5 λ2 ∴ E(Y ) = λ2 = 5.2, 3 = 11, 5 falhas/5 mm.

Portanto, a probabilidade de possuir 10 falhas em 5 milímetros é:

e−11,5 11,510
P (Y = 10) = 10! = 0, 113.

78
4.3 Distribuição Poisson

Rotina para cálculo da probabilidade de 10 falhas / 5 mm de o.

lambda<-11.5

x<-10

dpois (x, lambda)

c) A probabilidade de existir, no mínimo, uma falha em 2 milímetros de o.

Resolução:

Seja Z o número de falhas em 2 mm de o. Então, o número médio de falhas em 2 mm será, E (Z) =
4, 6 = λ3 (resultado obtido por meio de regra de três). Portanto, a probabilidade de existir, no mínimo,

uma falha em 2 milímetros de o é:

e−4,6 .4,60
P (Z > 1) = 1 − P (Z < 1) = 1 − P (Z = 0) = 1 − 0! = 1 − e−4,6 = 0, 9899.

Rotina para cálculo da probabilidade de no mínimo 1 falha / 2 mm de o.

lambda<-4.6

x<-0

p_0<-dpois (x, lambda)

p_min_1<-1-p_0

p_min_1

Exemplo 9: O corpo de bombeiros atende em média 5 chamadas por dia. Qual é a probabilidade de

num determinado dia atender0, 1, 3, 6 e 10 chamadas?

Resolução:

Seja X o número de chamadas para o corpo de bombeiros em um dia. Sabe-se o número médio de

chamadas por dia é 5. Portanto, a v.a. X tem distribuição de Poisson com λ=5 chamadas por dia.

Então,

50 e−5
P [X = 0] = 0! = 0, 0067;

51 e−5
P [X = 1] = 1! = 0, 0337;

53 e−5
P [X = 3] = 3! = 0, 1403;

56 e−5
P [X = 6] = 6! = 0, 1462;

510 e−5
P [X = 10] = 10! = 0, 0181.

Rotina para cálculo das probabilidades.

79
4 MODELOS PROBABILÍSTICOS DISCRETOS

lambda<-5 lambda<-5

x<-0 x<-3

dpois (x, lambda) dpois (x, lambda)

lambda<-5 lambda<-5

x<-1 x<-6

dpois (x, lambda) dpois (x, lambda)

lambda<-5

x<-10

dpois (x, lambda)

4.4 Exercícios propostos


Exercício 1: (BRUNI, 2008) Um time de futebol de botão tem 72% de probabilidade de vitória

sempre que joga. Se o time jogar sete partidas, calcule a probabilidade de ele:

a) Vencer exatamente três partidas.

b) Vencer ao menos uma partida.

c) Vencer mais da metade das partidas.

Rotina do exercício 1.
#letra A #letra B #letra C

p=0.72 y<-0 a<-4

n=7 p_0<-dbinom(y, n, p) b<-5

x=3 p_min_1<-(1 - p_0) c<-6

p_3<-dbinom(x, n, p) p_min_1 d<-7

p_3 p_4<-dbinom(a, n, p)

p_5<-dbinom(b, n, p)

p_6<-dbinom(c, n, p)

p_7<-dbinom(d, n, p)

p_min_4<-p_4 + p_5 + p_6 +p_7

p_min_4

Exercício 2: (BRUNI, 2008) A Olaria Barro Forte fabrica e comercializa dois produtos principais:

telhas e tijolos. A relação da produção do mês de agosto do ano passado pode ser vista na tabela

seguinte. Calcule o que se pede:

Produto Com Defeito Sem Defeito Total


Tijolo 6.000 84.000 90.000
Telha 3.000 27.000 30.000
Total 9.000 111.000 120.000

a) Em uma amostra composta por oito telhas, calcule a probabilidade de pelo menos duas serem

defeituosas.

b) Em uma amostra composta por sete tijolos, calcule a probabilidade de pelo menos seis serem

defeituosos.

c) Em uma amostra formada por quatro produtos, calcule a probabilidade de existirem dois defeituosos.

80
4.4 Exercícios propostos

Rotina do exercício 2.
#letra A #letra B #letra C

x<-0 p=2/3 n=4

y<-1 n=7 p=3/4

p=0.1 x<-6 x<-2

n=8 y<-7 p_2<-dbinom (x, n, p)

p_0<-dbinom (x, n, p) p_6<-dbinom (x, n, p) p_2

p_1<-dbinom (y, n, p) p_7<-dbinom (y, n, p)

p_min_2<-1-(p_0 + p_1) p_min_6<-p_6 + p_7

p_min_2 p_min_6

Exercício 3: (BRUNI, 2008) Uma empresa de carros usados tem as suas vendas distribuídas de

acordo com a distribuição de Poisson. Sabendo-se que a empresa vende em média seis carros por

mês (considerando o mês com 30 dias de trabalho) e analisando-se uma quinzena de vendas, qual a

probabilidade de a empresa vender:

a) Apenas três carros?

b) Pelo menos dois carros?

c) Nenhum carro?

Rotina do exercício 3.
# letra A # letra B # letra C

lambda<-3 lambda<-3 lambda<-3

x<-3 x<-0 x<-0

dpois (x, lambda) y<-1 dpois (x, lambda)

p_0<-dpois (x, lambda)

p_1<-dpois (y, lambda)

p_min_2<- 1-(p_0 + p_1)

p_min_2

Exercício 4: (BRUNI, 2008) Uma nanceira atende, em média, seis cliente por hora. Calcular a

probabilidade de que em meia hora sejam atendidos:

a) Dois clientes.

b) Três clientes.

c) No máximo três clientes.

Rotina do exercício 4.
# letra A # letra B # letra C

lambda<-3 lambda<-3 lambda<3

x<-2 x<-3 x<-0

dpois (x, lambda) dpois (x, lambda) y<-1

z<-2

w<-3

p_0<-dpois (x, lambda)

p_1<-dpois (y, lambda)

p_2<-dpois (z, lambda)

p_3<-dpois (w, lambda)

p_max_3<-sum(p_0,p_1,p_2,p_3)

p_max_3

81
5 MODELOS PROBABILÍSTICOS
CONTÍNUOS

5.1 Distribuição Normal


Se X tem distribuição Normal com média m e variância sv2 , a função densidade de probabilidade é dada
por:

(x−µ)2
h i
f (x) = √1 exp com x∈R e σ 2 > 0.
σ 2π 2σ 2

Notação: X ∼ N (µ, σ 2 )

5.1.1 Propriedades da Normal


1. é simétrica em relação ;
2. tem forma de campana;

3. as três medidas de posição (média, mediana e moda) se  confundem no ponto máximo da

curva ;

4. ca perfeitamente denida conhecendo-se a média e o desvio padrão;

5. é assintótica em relação ao eixo das abscissas;

6. a área compreendida entre o eixo x e a curva é igual a probabilidade:

´b
P [a ≤ X ≤ b] = P [a ≤ X ≤ b] = P [a ≤ X ≤ b] = P [a ≤ X ≤ b] = a f (x)dx

Figura 1  Distribuição Normal com média m e variância σ2 .

83
5 MODELOS PROBABILÍSTICOS CONTÍNUOS

Figura 2  Distribuições Normais.

Rotina para grácos da Distribuição Normal


# sintaxe:

#curve(dnorm(x,0,0.7)) Gráco da Distribuição Normal com média 0 e desvio padrão 0,7

curve(dnorm(x,0,0.7),-3*1,3*1,xlab="x", ylab="f(x)", main= "Distribuição Normal", col="blue", lwd = 2)

curve(dnorm(x,0,1),-3*1,3*1,xlab="x", ylab="f(x)", main= "Distribuição Normal", col="red", lwd = 2, add=T)

curve(dnorm(x,0,1.2),-3*1,3*1,xlab="x", ylab="f(x)", main= "Distribuição Normal", col="black", lwd = 2, add=T)

legend(-3,0.45, c("N(0,0.7)", "N(0,1)", "N(0,1.2)"), col=c("blue", "red", "black"), lwd=2)

5.2 Criação da Variável Z - Distribuição Normal Padronizada


x−µ
A variável Z é: Z= σ sendo que Z ∼ N (0, 1) , ou seja, Z tem distribuição Normal com média 0 e

variância 1.
Por meio das propriedades de Esperança Matemática e Variância, é possível vericar que:

x−µ 
E (Z) = E σ = σ1 E (x − µ) = 1
σ [E (x) − µ] = 1
σ [µ − µ] = 0;

x−µ  1 1 1 2
V ar (Z) = V ar σ = σ2
V ar(x − µ) = σ2
V ar (x) = σ2
σ = 1.

Exemplo 1: Se X N (100, 25), calcule as seguintes probabilidades:

a) P [X > 108]
Calculando o quantil da Z relacionado a X = 108, tem-se:

x−µ 108−100 8
Z= σ = 5 = 5 = 1, 6 ⇒ P [X > 108] = P [X > 1, 6] = 0, 0548.

Rotina para o cálculo da probabilidade da Distribuição Normal.

84
5.2 Criação da Variável Z - Distribuição Normal Padronizada

# sintaxe:

#pnorm(108, 100, 5) Probabilidade da Distrubuição Normal com média 100 e desvio padrão 5

pnorm(108, 100, 5) #Retima a área abaixo de 108

1-pnorm(108, 100, 5)

# sintaxe:

#pnorm(1.6, 0, 1) Probabilidade da Distrubuição Normal com média 0 e desvio padrão 1

pnorm(1.6, 0, 1) # Retorna a área abaixo de 1.6

1-pnorm(1.6, 0, 1) #Retona a área acima de 1.6

Rotina para o gráco da Distribuição Normal.

# sintaxe: situação não padronizada

curve(dnorm(x,0,1), -3*1, 3*1,xlab="X", ylab="Probabilidades", main= "Distribuição Normal")

polygon(x=c(1.6, seq(1.6, 3, l = 1000), 3), y=c(0,dnorm(seq(1.6, 3, l = 1000), 0, 1),0),col="black", density = 3, angle = 45)

axis(1,1.6, col="black", font = 1, lty = 1, lwd = 1)

lines(c(1.6,1.6), c(0,dnorm(1.6, 0,1)), col="black", lty = 1, lwd = 1)

text(2.5,0.05,"0,0548", col="black", font = 1, lty = 1, lwd = 1)

# sintaxe: situação padronizada

curve(dnorm(x,0,1), -3*1, 3*1,xlab="X", ylab="Probabilidades", main= "Distribuição Normal Padrão")

polygon(x=c(1.6, seq(1.6, 3, l = 1000), 3), y=c(0,dnorm(seq(1.6, 3, l = 1000), 0, 1),0),col="black", density = 3, angle = 45)

axis(1,1.6, col="black", font = 1, lty = 1, lwd = 1)

lines(c(1.6,1.6), c(0,dnorm(1.6, 0,1)), col="black", lty = 1, lwd = 1)

text(2.5,0.05,"0,0548", col="black", font = 1, lty = 1, lwd = 1)

Figura 3 Gráco da Distribuição Normal Figura 4 Gráco da Distribuição Normal Padronizada

b) P [X ≤ 106] = P [X ≤ 1, 2] = 0, 8849.

85
5 MODELOS PROBABILÍSTICOS CONTÍNUOS

Rotina para o cálculo da probabilidade da Distribuição Normal.

# sintaxe: Não padronizado

pnorm(106, 100, 5)

# sintaxe: padronizado

pnorm(1.2, 0, 1)

Rotina para o gráco da Distribuição Normal.

# sintaxe: situação não padronizada

curve(dnorm(x,100,5),100 -4*6, 100 + 4*6, xlab="X", ylab="Probabilidades", main= "Distribuição Normal")

polygon(x=c(76, seq(76, 106, l= 1000), 106), y=c(0,dnorm(seq(76, 106, l=1000), 100,5),0),col="black", density = 3, angle = 45)

axis(1,106, col="black", font = 1, lty = 1, lwd = 1)

lines(c(106,106), c(0,dnorm(106,100,5)), col="black", lty = 1, lwd = 1)

text(100, 0.02,"0,8849", col="black", font = 1, lty = 1, lwd = 1)

# sintaxe: situação padronizada

curve(dnorm(x,0,1),-4*1,4*1,xlab="Z", ylab="Probabilidades", main= "Distribuição Normal Padrão")

polygon(x=c(-4, seq(-4, 1.2, l= 1000), 1.2), y=c(0,dnorm(seq(-4, 1.2, l=1000)),0),col="black", density = 3, angle = 45)

axis(1,1.2, col="black", font = 1, lty = 1, lwd = 1)

lines(c(1.2,1.2), c(0,dnorm(1.2,0,1)), col="black", lty = 1, lwd = 1)

text(0, 0.1,"0,8849", col="black", font = 1, lty = 1, lwd = 1)

Figura 4 Gráco da Distribuição Normal Figura 5 Gráco da Distribuição Normal Padronizada

c) P [106 ≤ X ≤ 108] = P [1, 2 ≤ X ≤ 1, 6] = 0, 0603.

Rotina para o cálculo da probabilidade da Distribuição Normal .

86
5.2 Criação da Variável Z - Distribuição Normal Padronizada

# sintaxe: Não padronizado

pnorm(108,100,5) - pnorm(106,100,5)

# sintaxe: padronizado

pnorm(1.2, 0, 1) - pnorm(1.2, 0, 1)

Rotina para o gráco da Distribuição Normal.

# sintaxe: situação não padronizada

curve(dnorm(x,100,5),100 - 4.5*5, 100 + 4.5*5,xlab="X", ylab="Probabilidades", main= "Distribuição Normal")

polygon(x=c(106, seq(106, 108, l= 100), 108), y=c(0,dnorm(seq(106, 108, l=100), 100, 5),0),col="black", density = 3, angle = 45)

axis(1,106, col="black", font = 1, lty = 1, lwd = 1)

#axis(1,108, col="black", font = 1, lty = 1, lwd = 1)

lines(c(106,106), c(0,dnorm(106,100,5)), col="black", lty = 1, lwd = 1)

lines(c(108,108), c(0,dnorm(108,100,5)), col="black", lty = 1, lwd = 1)

text(110, 0.03,"0,0603", col="black", font = 1, lty = 1, lwd = 1)

# sintaxe: situação padronizada

curve(dnorm(x,0,1),-4*1,4*1,xlab="Z", ylab="Probabilidades", main= "Distribuição Normal Padrão")

polygon(x=c(1.2, seq(1.2, 1.6, l= 100), 1.6), y=c(0,dnorm(seq(1.2, 1.6, l=100)),0),col="black", density = 3, angle = 45)

axis(1,1.2, col="black", font = 1, lty = 1, lwd = 1)

axis(1,1.6, col="black", font = 1, lty = 1, lwd = 1)

lines(c(1.2,1.2), c(0,dnorm(1.2,0,1)), col="black", lty = 1, lwd = 1)

lines(c(1.6,1.6), c(0,dnorm(1.6,0,1)), col="black", lty = 1, lwd = 1)

text(2, 0.15,"0,0603", col="black", font = 1, lty = 1, lwd = 1)

Figura 6 Gráco da Distribuição Normal Figura 7 Gráco da Distribuição Normal Padrão

Exemplo 2: Agora vamos calcular as probabilidades com base no quantil da normal padrão.

a)P [Z > Zα ] = 0, 05
Rotina para cálculo do Z.

87
5 MODELOS PROBABILÍSTICOS CONTÍNUOS

# sintaxe:

qnorm(0.95,0,1)

Rotina para o gráco da Distribuição Normal Padrão.

# sintaxe:

curve(dnorm(x,0,1),-3*1,3*1,xlab="Z", ylab="Probabilidades", main= "Distribuição Normal Padrão")

polygon(x=c(1.64, seq(1.64, 3, l= 1000), 3), y=c(0,dnorm(seq(1.64, 3, l=1000)),0),col="black", density = 3, angle = 45)

axis(1,1.64, col="black", font = 1, lty = 1, lwd = 1)

lines(c(1.64,1.64), c(0,dnorm(1.64, 0,1)), col="black", lty = 1, lwd = 1)

text(2.5,0.05,"0,05", col="black", font = 1, lty = 1, lwd = 1)

Figura 8 Gráco da Distribuição Normal Padrão.

b)P [Z < Zα ] = 0, 025


Rotina para cálculo do Z.

# sintaxe:

#qnorm(0.025,0,1) Quantil da Normal com média 0 e desvio padrão 1

qnorm(0.025,0,1)

Rotina para o gráco da Distribuição Normal Padrão.

# sintaxe:

curve(dnorm(x,0,1),-3*1,3*1,xlab="Z", ylab="Probabilidades", main= "Distribuição Normal Padrão")

polygon(x=c(-3, seq(-3, -1.96, l= 1000), -1.96), y=c(0,dnorm(seq(-3, -1.96, l=1000)),0),col="black", density = 3, angle = 45)

# axis(1,-1.96, col="black", font = 1, lty = 1, lwd = 1)

lines(c(-1.96,-1.96), c(0,dnorm(-1.96, 0,1)), col="black", lty = 1, lwd = 1)

text(-2.5,0.05,"0,025", col="black", font = 1, lty = 1, lwd = 1)

88
5.2 Criação da Variável Z - Distribuição Normal Padronizada

Figura 9 Gráco da Distribuição Normal Padrão.

 
c)P −Zα/2 < Z < Zα/2 = 0, 95

Rotina para cálculo do Z.

# sintaxe:

qnorm(0.025,0,1)

qnorm(0.975,0,1)

Rotina para o gráco da Distribuição Normal Padrão.

# sintaxe:

curve(dnorm(x,0,1),-3*1,3*1,xlab="Z", ylab="Probabilidades", main= "Distribuição Normal Padrão"))

polygon(x=c(-1.96, seq(-1.96, 1.96, l= 1000), 1.96), y=c(0,dnorm(seq(-1.96, 1.96, l=1000)),0),col="black", density = 3, angle = 45)

# axis(1,-1.96, col="black", font = 1, lty = 1, lwd = 1)

# axis(1,1.96, col="black", font = 1, lty = 1, lwd = 1)

lines(c(-1.96,-1.96), c(0,dnorm(-1.96, 0,1)), col="black", lty = 1, lwd = 1)

lines(c(1.96,1.96), c(0,dnorm(1.96, 0,1)), col="black", lty = 1, lwd = 1)

text(0,0.15,"0,95", col="black", font = 1, lty = 1, lwd = 1)

89
5 MODELOS PROBABILÍSTICOS CONTÍNUOS

Figura 10 Gráco da Distribuição Normal Padrão

5.3 Distribuição t-Student


Uma variável aleatória contínua X tem distribuição t-Student com v graus de liberdade se a função

densidade de probabilidade for dada por:

Γ( n+1
−( n+1 )
2 )

x2 2
f (x) = √
nπΓ( n
1+ n .
2)

5.3.1 Propriedades da distribuição t-Student


1. A curca da distribuição t-Student tem a mesma forma em sino da distribuição Normal, mas reete

a maior variabilidade (com curvas mais alargadas) que é de se esperar em amostras pequenas;

2. Quanto maior a dimensão da amostra, mais a distribuição t-Student se aproxima da distribuição

Normal.

Exemplo 3: Obter os seguintes valores da distribuição t-Student.


a) t tal que P(-tc < t < tc) = 0,95 com 13 gl
b) t tal que P(-tc < t < tc) = 0,90 com 25 gl
c) t tal que P(t > tc) = 0,05 com 20gl
d) t tal que P(t < -tc) = 0,10 com 9 gl

5.4 Lei Grandes Números - (LGN)


À medida que um experimento é repetido mais e mais vezes (n grande), a probabilidade empírica de

um evento tende à sua probabilidade teórica (real).

Exemplo 3: X: número de caras em n tentativas.

Situação Hipotética (10 lances): em 10 lançamentos sairam 3 caras.


3
Probabilidade empírica é p= 10 = 0, 3.
Probabilidade teórica é p = 0, 5.
Agora, se jogarmos a moeda milhares de vezes (n = 40.000), de acordo com a lei dos grandes números

a probabilidade empírica será muito próxima da probabilidade teórica (ou real).

90
5.5 Teorema Central do Limite - (TCL)

Figura 11 Lei dos grandes números

5.5 Teorema Central do Limite - (TCL)


Uma razão para a distribuição Normal ser considerada tão importante é porque qualquer que seja a

distribuição da variável de interesse para grande amostras, a distribuição das médias amostrais serão

aproximadamente normalmente distribuídas, e tenderão a uma distribuição normal à medida que o

tamanho de amostra crescer. Então podemos ter uma variável original com uma distribuição muito

diferente da Normal (pode até mesmo ser discreta), mas se tomarmos várias amostras grandes (n≥30)
desta distribuição, e então zermos um histograma das médias amostrais, a forma se parecerá como

uma curva Normal.

Teorema: Se amostras de tamanho n (n ≥ 30) forem tiradas de uma população qualquer, isto é, com

distribuição qualquer com média m e desvio padrão sv, então a distribuição amostral de médias das

amostras será aproximadamente Normal com média µX = µe desvio padrão σX̄ = √σ , ou seja,
n
 
X ∼?(µ, σ) ⇒ X ∼ N µ, √σn .
a

Consequentemente,

X̄−µ

σ/ n
∼ N (0, 1).

A aproximação para a normal melhora à medida que o tamanho amostral cresce. Este resultado é

conhecido como o Teorema Central do Limite e é notável porque permite-nos conduzir alguns proce-

dimentos de inferência sem qualquer conhecimento da distribuição da população.

Se σ for desconhecido, então:

X̄−µ

S/ n
∼ t(n−1) .

5.6 Exercícios propostos


Exercício 1: (BRUNI, 2008) Os gastos com equipamentos automotivos em uma concessionária da

cidade seguem uma distribuição normal com média igual a $500,00 e desvio padrão igual a $100,00.

Considerando os gastos como x, calcule:

91
5 MODELOS PROBABILÍSTICOS CONTÍNUOS

a)P (x ≤ 450)

b)P (x ≥ 650)

c)P (550 ≤ x ≤ 650)

d) os valores de x entre os quais estão compreendidos os 40% centrais da distribuição

e) o valor de x, tal que P (x ≤ x) = 0, 05,

Rotina do exercício 1.

# letra A # letra D # letra E

#sintaxe: pnorm - retorna a área abaixo desvio<-100 desvio<-100

p<-pnorm(450, 500, 100) media<-500 media<-500

p q1<-qnorm(0.3) # retorna quantil cuja área abaixo do mesmo é de 0.3 q<-qnorm(0.05)

q1 q

# letra B q2<-qnorm(0.3, lower.tail=F) x<-desvio*q+media

p<-1 - pnorm(650, 500, 100) q2 x

p x1<-desvio*q1+media

x1

# letra C x2<-desvio*q2+media

p<-pnorm(650, 500, 100) - pnorm(550, 500, 100) x2

Exercício 2: (BRUNI, 2008) As vendas diárias de uma lanchonete seguem uma distribuição aproxi-

madamente normal, com médias de $400,00 e desvio igual a $100,00. Calcule a probabilidade de que

em determinado dia a lanchonete fature:

a) Entre $450,00 e $650,00;

b) Entre $350,00 e $500,00.

Rotina do exercício 2.
# letra A

#sintaxe: pnorm - retorna a área abaixo

p<-pnorm(650, 400, 100) - pnorm(450, 400, 100)

# letra B

p<-pnorm(500, 400, 100) - pnorm(350, 400, 100)

Exercício 3 modicado (BRUNI, 2008): O tempo de vida útil de um motor elétrico tem distribuição

aproximadamente normal, com média de 4,6 anos e desvio padrão de 1,3 ano.

a) qual deve ser o valor de tempo de garantia desse motor para que, no máximo, 18% das vendas

originais exija substituição (P [X ≤ x] = 0, 18)?

b) Se esse tipo de motor tiver garantia de 2 anos, que porcentagem de vendas originais exigira substi-

tuição (P [X < 2])?

Rotina do exercício 3.

92
5.6 Exercícios propostos

# letra A

desvio<-1.3

media<-4.6

q<-qnorm(0.18) #quantil cuja área abaixo do mesmo é de 0.18

x<-desvio*q+media

# letra B

desvio<-1.3

media<-4.6

p<-pnorm(2, media, desvio)

93
6 AMOSTRAGEM

A necessidade de se trabalhar com técnicas de amostragem surge quando por questões práticas ou

econômicas, é impossível ou quase impossível estudar toda a população. A amostragem pode ser ob-

tida por dois métodos, a amostragem probabilística e a amostragem não probabilística. Na amostragem

probabilística, todos os elementos da população possuem uma probabilidade conhecida e diferente de

zero, de pertencer à amostra. Enquanto, na amostragem não probabilística, não se conhece a proba-

bilidade de um elemento da população pertencer à amostra. O objetivo da amostragem é determinar

métodos para estudar as populações por meio de amostras. A amostragem nos possibilita concluir

(inferir) sobre um todo a partir de apenas uma parte. Para isso é necessário sabermos como deve

ser feito uma amostragem, ou seja, como coletar uma amostra. Antes de apresentar as técnicas de

amostragem, serão apresentadas algumas denições necessárias à familiarização do problema.

6.1 Denições

População ou Universo: é o conjunto de indivíduos, elementos, eventos ou medidas que apresentam

uma ou mais características em comum, pertencentes a uma mesma unidade amostral (universo de

estudo).

Amostra: é um subconjunto nito representativo de uma população.

Amostragem: procedimento através do qual se selecionam alguns membros de uma dada população

como representativos de toda a população, isto é, o ato de tomar amostras representativas da população.

Nota: Para que uma amostra seja representativa da população estudada é necessário:

ˆ Denir objetivamente a população alvo;

ˆ Que as amostras tenham sido coletadas com imparcialidade;

ˆ Que o período ou a área seja condizente com a escala de ocorrência do fenômeno a ser investigado.

Representatividade: a amostra retirada dessa população tem por obrigação de preservar as carac-

terísticas da população.

Exemplo 1:
1) a escolha de passageiros para fazer a revista da bagagem;

2) o cozinheiro ao fazer a Demonstração de um alimento;

3) a escolha de jogadores de futebol para fazer o exame de antidoping.

95
6 AMOSTRAGEM

6.2 Como selecionar uma amostra

6.3 Por que amostrar?


i) Economia: menor custo;
ii) Rapidez: menor quantidade de trabalho, ou seja, menor tempo;
iii) Precisão: melhor qualidade no treinamento proporciona entrevistadores mais homogêneos possí-
veis, consequentemente maior precisão nos resultados.

6.4 Etapas num processo de amostragem


As etapas no planejamento e delineamento de uma pesquisa por amostragem são:

1) Objetivos da pesquisa: escrever ou estabelecer de forma clara os objetivos.

2) População que fornecerá a amostras: denição da população que se quer estudar.

3) Dados a serem coletados: decidir quais os dados serão coletados, ou seja, denir as variáveis

baseando-se nos objetivos da pesquisa (atender ao item 1).

4) Denir o método de medição: entrevistador, a própria pessoa selecionada responde ao questionário,

telefonemas, etc.

5) Grau de precisão desejado: dimensionar o tamanho da amostra, ou seja, denir n.

6) Listagem das unidades amostrais: escolha da unidade amostral.

Exemplo 2: População - Proprietários Rurais do Sul de Minas.

Exemplo 3: População - Proprietários Rurais do Sul de Minas.

96
6.5 Principais processos de amostragem

7) Processo de amostragem mais adequado: a escolha da técnica de amostragem depende da caracte-

rística da população.

8) Organização do trabalho de campo: questionário, estudo piloto (está ligado com a precisão).

9) Processamento e análise de dados: planejamento da tabulação dos dados e análise.

6.5 Principais processos de amostragem


6.5.1 Amostragem Simples ao Acaso ou Amostragem Aleatória Simples (ASA)
A ASA é o processo de amostragem mais simples e é utilizada quando se necessita obter uma amostra

representativa cujos elementos da população são todos homogêneos. Normalmente, este processo de

amostragem é utilizado em associação com outros processos de amostragem, pois nem sempre é possível

de forma imediata identicar todos os elementos da população como sendo homogêneos.

6.5.1.1 Propriedades importantes da ASA


i) qualquer amostra possível (n) tem igual chance de ser sorteada;

ii) cada elemento tem igual chance de pertencer à amostra.

A probabilidade de selecionar um indivíduo especíco da população para uma amostra é 1/N.

A probabilidade de selecionar um indivíduo especíco da população em n situações é n/N.

iii) o número de amostras possíveis de tamanho n que pode ser retirada de uma população de tamanho

N é:

!
N N!
C N,n = = n!(N −n)!
n

6.5.1.2 Procedimento para realizar a ASA


Enumeram-se todos os elementos da população (1, 2,..., N) e sorteiam-se n elementos mediante um

dispositivo aleatório: computador, calculadora, tabela de números aleatórios, etc.

Esquema:

Exemplo 4: Situações de onde deve ou não aplicar a ASA:

ˆ (ASA) - Estudar a opinião de alunos de um determinado curso com relação a necessidade de

acrescentar uma disciplina de física avançada na grade curricular;

ˆ (outro tipo de amostragem) - Estudar a opinião de alunos de uma determinada universidade


com relação a necessidade de acrescentar uma disciplina de física avançada na grade curricular.

97
6 AMOSTRAGEM

6.5.2 Amostragem Estraticada


O objetivo da amostragem estraticada é dividir a população heterogênea em subpopulações homo-

gêneas (estratos), ou seja, na amostragem estraticada a população é dividida em grupos (estratos)

mutuamente exclusivos e em seguida é feita a ASA em cada estrato. Suponha que uma população

heterogênea seja dividida em L estratos com o objetivo de dividir a população heterogênea em L

subpopulações homogêneas então, têm-se:

ˆL estratos de tamanho: N1 , N2 , . . . , NL sendo N = N1 + N2 + · · · + NL =


L
P
Nh ;

ˆL
h=1
amostras são retiradas (uma amostra de cada estrato): n1 , n2 , . . . , nL sendo n = n1 + n2 +
L
P
· · · + nL = nh .
h=1
Portanto, para cada estrato é possível associarmos uma média e uma variância. A média e variância

do estrato h são respectivamente:

n
 n 2 
P h P h
Xhi nh Xhi
1
Sh2 = 2 −
i=1
P i=1
X̄h = e Xhi .
 
nh nh −1  nh
i=1

Procedimento para realizar a amostragem estraticada


A população é dividida em grupos ou estratos contendo elementos homogêneos e as amostras são

retiradas separadamente de cada um desses grupos por meio da Amostragem Simples ao Acaso (ASA).

Esquema:

A amostragem estraticada pode ser classicada de acordo com a retirada dos elementos em cada

estrato como Uniforme, Proporcional e Partilha Ótima. A seguir discutiremos os critérios.

6.5.2.1 Critério Uniforme


Para aplicar o critério Uniforme o tamanho das amostras de cada estrato deve ser o mesmo. Esse critério

raramente é utilizado, devendo ser recomendado apenas para situações em que os estratos populacionais

forem uniformes em tamanho, ou seja, os tamanhos dos estratos populacionais são iguais. Então, o

tamanho da amostra de cada estrato pode ser obtido da seguinte forma:

n
nh = L

Em que nh é o tamanho da amostra retirada do estrato h, ou seja, o número de elementos que serão

retirados do estrato h; L é a quantidade ou o número de estratos; n é o tamanho da amostra.

Recomendação: (N1 = N2 = N3 = · · · = Nh ).

98
6.5 Principais processos de amostragem

6.5.2.2 Critério Proporcional


No critério proporcional extrai-se de cada estrato uma quantidade de elementos nh proporcional ao

tamanho Nh do respectivo estrato. Este critério é recomendado quando o tamanho dos estratos
são distintos e a variabilidade dos estratos é homogênea, isto é:
Recomendação: N1 6= N2 6= N3 6= · · · =
6 Nh e σ1 = σ2 = σ3 = · · · = σh (homogeinidade de variância
- homocedasticidade).

Para determinarmos a quantidade de elementos que serão amostrados de cada estrato será utilizado a

seguinte relação:

nh Nh n n nNh nNh
n = L
P
ou h
Nh = L
P
⇒ nh = L
P
⇒ nh = N .
Nh Nh Nh
h=1 h=1 h=1

Em que nh é o tamanho da amostra do estrato h, ou seja, o número de elementos que serão retirados
do estrato h; Nh é tamanho do estrato h ; L é a quantidade de estrato; n o tamanho da amostra.

Exemplo 5: Suponha que uma empresa hoteleira deseja realizar uma pesquisa com os seus 84 fun-

cionários, em que 25 pessoas são do sexo feminino (F) e as 59 restantes do sexo masculino (M).

Estabelecendo n = 9 (10% no mínimo), encontre o número de mulheres e de homens que deve ser
entrevistados. Suponha que a variabilidade dos estratos é homogênea.

Resolução:

Dados do problema: n = 9, N = 84, L = 2 estratos (sexo Masculino - M e Feminino - F ) NF = 25


(número de pessoas do sexo feminino) e NM = 59 (número de pessoas do sexo masculino). Então, por

meio do critério de amostragem estraticada proporcional temos:

nNF 9.25 nNM 9.59


nF = N = 84 = 2, 68 nF = 3 mulheres e nM = N = 84 = 6, 32 nM = 6 homens.

6.5.2.3 Critério Partilha Ótima (ou fração variável)


No critério partilha ótima extrai-se uma quantidade de elementos nh proporcional ao tamanhoNh e

ao desvio padrão σh do respectivo estrato. Este critério é recomendado quando os tamanhos dos
estratos são distintos e a variabilidade dos estratos é heterogênea, isto é:
Recomendação: N1 6= N2 6= N3 6= · · · =
6 Nh e σ1 6= σ2 6= σ3 6= · · · 6= σh (heterogeinidade de variância
- heterocedasticidade).

Para determinarmos a quantidade de elementos que serão amostrados de cada estrato será utilizado a

seguinte relação:

nh Nh Nh σh n
nσh = L
P
⇒ nh = L
P
Nh σh Nh σh
h=1 h=1

Em que: nh é o tamanho da amostra do estrato h, ou seja, o número de elementos que serão retirados
do estrato h; Nh é o tamanho do estrato h, ou seja, é o número de elementos do estrato h ; é o desvio
padrão do estrato h ; L é a quantidade de estrato;no tamanho da amostra.

Exemplo 6: Para ilustrar o procedimento da amostragem ótima considerou-se uma população ctícia

de uma região, cujo interesse era obter informações sobre parâmetros de tecnologia dos produtores

agrícolas da região.

99
6 AMOSTRAGEM

Estratos N º de propriedades Desvio Padrão Nh .σh nh


(área em ha) (Nh ) (σh )

0 2 500 10 5.000 21

2 5 320 11 3.520 15

5 10 100 13 1.300 6

10 20 50 20 1.000 4

20 40 30 30 900 4
L=5
P
Totais 1.000 - Nh σh = 11.720 n = 50
h=1

Determine o tamanho amostral de cada estrato, ou seja, o número de propriedades que serão retiradas

dos estratos para obtermos informações sobre parâmetros de tecnologia dos produtores agrícolas da

região.

Nota-se que os tamanhos dos estratos são distintos e a variabilidade dos estratos é heterogênea então

neste caso deve ser aplicado o critério de Partilha Ótima.

Nh σh n
nh = L
P
Nh σh
h=1

N1 σ1 n 500.10.50
n1 = 5
P
= 11720 = 21, 33 = 21
Nh σh
h=1

N2 σ2 n 320.11.50
n2 = 5
P
= 11720 = 15, 02 = 15
Nh σh
h=1

N3 σ3 n 100.13.50
n3 = 5
P
= 11720 = 5, 54 = 6
Nh σh
h=1

N4 σ4 n 50.20.50
n4 = 5
P
= 11720 = 4, 26 = 4
Nh σh
h=1

N5 σ5 n 30.30.50
n5 = 5
P
= 11720 = 3, 84 = 3
Nh σh
h=1

6.5.3 Amostragem Sistemática


A amostragem sistemática é usada quando os elementos da população são heterogêneos e não podem

ser agrupados em subpopulações homogêneas.

6.5.3.1 Procedimento para realizar a amostragem sistemática


Enumeram-se todos os elementos da população (1, 2, . . . , N ) e sorteia-se um primeiro elemento  i 

para formar parte da amostra. Os demais são retirados em uma progressão aritmética, saltando  r

elementos, até completar o total da amostra (n ). O valor  r  é chamado passos de amostragem e é

determinado por:

100
6.5 Principais processos de amostragem

N
r= n elementos.

O primeiro elemento deve ser sorteado entre os r primeiros

Esquema:
População enumerada: 1, 2, . . . , i, . . . , N .
A amostra sistemática será:

1º elemento: i
2º elemento: i+r
3º elemento: i + 2r
4º elemento: i + 3r
...

n-ésimo elemento: i + (n − 1) r
Exemplo 7: Um hotel mantém um arquivo contendo os registros de antigos hospedes, num total de

10.000 chas das quais serão amostradas 1.000 chas.

Vamos primeiramente determinar o valor  r  por intermédio de:

N 10.000
r= n = 1.000 = 10.

Enumeram-se todos os elementos da população (1, 2, . . . , 10.000) .

Sorteia-se um primeiro elemento, ou seja, a primeira cha de hospede (um valor entre 1 e 10), por

exemplo a cha de número 5. As chas selecionadas serão:

1ª cha: 5

2ª cha: 5+10=15

3ª cha: 5+2*10=25

...

1.000 ª cha: 5+(1000-1)*10=5+999*10=9.995

6.5.4 Amostragem por Conglomerados


Um Conglomerado é um subgrupo de elementos da população. O objetivo da amostragem por conglo-

merado é facilitar a coleta da informação. Cada conglomerado deve possuir a mesma heterogeneidade

(mesmas características) que a população. Isto é, cada conglomerado deve representar bem toda a

população.

Motivação:
ˆ Não tem a necessidade de cadastro de toda a população;

ˆ Custo de locomoção (acesso aos elementos).

6.5.4.1 Procedimento para realizar a amostragem por conglomerado


Consiste em subdividir a população em conglomerados de elementos que reproduzam bem as carac-

terísticas da população. Sorteia-se um determinado número de conglomerados. Todos os elementos

contidos nos conglomerados selecionados vão compor a amostra.

Esquema:

101
6 AMOSTRAGEM

Exemplo 8: Para estudar uma determinada característica da população de um país poderia sortear

alguns estados, dentro de cada estado alguns municípios e dentro de cada município localidades.

População: População de um determinado país.

Conglomerados:  M estados deste país em questão.

Amostra de conglomerados:  m municípios.

Amostra: Bairros (localidades) dentro de cada município.

6.6 Distribuições amostrais


Considerem-se todas as amostras possíveis de tamanho  n que podem ser retiradas de uma população

de tamanho  N (com ou sem reposição). Para cada amostra pode-se calcular uma grandeza estatística,

como a média, o desvio padrão etc., que varia de amostra para amostra. Com os valores obtidos para

determinada grandeza, podemos construir uma distribuição de probabilidades, que será denominada

de distribuição amostral. Para cada distribuição amostral é possível calcular a sua média, o seu desvio

padrão, etc. Portanto, distribuição amostral é uma distribuição de probabilidade de uma estatística.

6.6.1 Distribuição amostral das médias


Se os valores da média e do desvio padrão de uma população, de tamanho N, forem respectivamente µe
σ , e desta população são retiradas todas as possíveis amostras de tamanho n, sem reposição (população
nita), os valores da média e do desvio padrão da distribuição amostral das médias correspondente

serão:

q
√σ N −n

E X̄ = µx̄ = µ e σX̄ = n N −1

q
N −n
em que é
N −1 conhecido como fator de correção de população nita (populações pequenas).
Se a população for innita (população grande), ou se amostragem for tomada com reposição, os valores

acima carão:

√σ

E X̄ = µx̄ = µ e σX̄ = n

O fator de correção deve ser usado quando n exceder 5% do tamanho da população.


q
N −n
Quando N é muito maior em relação a n, a relação N −1 tende a 1.
A partir da dsitribuição amostral das médias é possível calcular parâmetros característicos, como a

média e a variância e, posteriormente, vericar como estes parâmetros se relacionam com os parâmetros

da população.

102
6.6 Distribuições amostrais

Exemplo 9: considere uma população, de tamanho N = 3, X = {1, 2, 3}, cuja média µ = 2 e

σ 2 = 2/3. Obter a distribuição amostral da média para as amostras de tamanho n = 2 com e sem
repetição dessa população.

1ª situação: amostras com reposição de tamanho n = 2 juntamente com a média amostral são
apresentadas a seguir.

Amostras com reposição Médias Amostrais


1 (1,1) 1,0
2 (1,2) 1,5
3 (1,3) 2,0
4 (2,1) 2,5
5 (2,2) 2,0
6 (2,3) 2,5
7 (3,1) 2,0
8 (3,2) 2,5
9 (3,3) 3,0

X̄ fi fp
1,0 1 1/9

1,5 2 2/9

2,0 3 3/9

2,5 2 2/9

3,0 1 1/9

Calculando a média e a variância de X̄ para todas as 9 médias amostrais, têm-se:


9
P
X̄i
i=9 (1+1,5+1,5+...+3,0)
µx̄ = = =2 ∴ µx̄ = µ.
9  9
9
2 
P
9 X̄i
(1+...+3,0)2
h i
1 P 2  1 1
σx̄2 =  = 9 12 + ... + 3, 02 −
i=9

9 X̄i − 9 9 = 3
i=1

σ2 2/3 σ2
n = 2 = 23 . 21 = 1
3 ∴ σx̄2 = n .
2ª situação: amostras sem reposição de tamanho n=2 juntamente com a média amostral são

apresentadas a seguir.

Amostras com reposição Médias amostrais


1 (1,2) 1,5
2 (1,3) 2,0
3 (2,3) 2,5

X̄ fi fp
1,5 1,0 1/3
2,0 1,0 1/3
2,5 1,0 1/3

3
P
X̄i
i=3 (1,5+2,0+2,5)
µx̄ = = = 2 ∴ µx̄ = µ
3 3
 3 2 
P
3 X̄i
(6)2
h i
1 P 2 1 1
σx̄2 = 1, 52 + 2, 02 + 2, 52 −
i=3

X̄ − = =

3  i 3  3 3 6
i=1

103
6 AMOSTRAGEM

σ 2 N −n σ 2 N −n
n . N −1 = 23 . 12 . 21 = 1
6 ∴ σx̄2 = n . N −1
Observação: Amostras com reposição, incorpora fator de correção

6.6.1.1 Teorema do Limite Central


Por intermédio do Teorema do Limite Central, tem-se que quanto maior o tamanho da amostra, a

distribuição de amostragem da média mais se aproxima da forma da distribuição normal, qualquer que

seja a forma da distribuição da população. Na prática, a distribuição de amostragem da média pode

se considerada como normal sempre que n ≥ 30.


Em síntese temos:  Se a variável aleatória X possui distribuição qualquer, com média

m e variância σ2 ,
a média amostral X̄ , baseada em amostras aleatórias de tamanho n, possuirá distribuição normal
 
aproximada com média das médias amostrais igual a média da população
  E X̄ = µX̄ = µX = µ e
2 σ2
com a variância das médias amostrais igual a σX̄ = n .

Portanto, esse teorema permite aproximar a distribuição amostral deX̄ por uma curva normal apro-

priada, independente da forma da distribuição da população.

Observações:

⇒Quanto maior o n (tamanho da amostra), melhor a aproximação normal.

⇒Se n ≥ 30 a aproximação normal é adequada, qualquer que seja a distribuição populacional.

⇒Amostragem sem reposição é recomendada quando(n/N > 0, 05), então, deve-se fazer a correção

para população nita e, portanto:

q
√σ N −n
σX̄ = n N −1

Então, temos duas situações:


 
1. População Innita:X̄
2 = σ2 ;
∼ N µX̄ = µ, σX̄ n
  
2. População Finita:
2 = σ 2 N −1
X̄ ∼ N µX̄ = µ, σX̄ .
n N −n
Em função desses resultados temos:

ˆ Z= X̄−µX̄
σ X̄ =
X̄−µX̄
√σ
n
∼ N (0, 1) se X tem distribuição Normal;

ˆ Z= X̄−µX̄
σ X̄ = X̄−µ
√σ
n
∼ N (0, 1)
a
se X não tem distribuição Normal.

Exemplo 10: Sabe-se que a média de tempo que candidatos a um determinado emprego gastam para

responder um teste psicológico é de 30 minutos, com desvio padrão de 10 minutos.

a) Se selecionarmos um indivíduo qualquer dessa população, qual a probabilidade que ele gaste entre

25 e 35 minutos para responder ao teste (revisão de distribuição normal)?

b) Se selecionarmos um grupo de 36 indivíduos dessa população, qual a probabilidade que a média do

tempo gasto pelo grupo seja superior a 32 minutos?

6.6.2 Distribuição amostral das proporções


Se o valor da proporção de ocorrência de um evento em uma população, de tamanhoN , for p, e desta

população são retiradas todas as possíveis amostras de tamanhon, sem reposição, os valores da média

e do desvio padrão da distribuição amostral das proporções correspondente serão:

104
6.7 Exercícios propostos
q q
p(1−p) N −n
E(p̂) = p e σp̂ = n N −1

Se a população for innita, ou se amostragem for tomada com reposição, os valores acima carão:

q
p(1−p)
E(p̂) = p e σp̂ = n

Quando n −→ ∞, a distribuição
  amostral p̂ de será aproximadamente Normal com média p e variânciap(1−
p)/n, ou seja, p̂ ∼ N p, p(1−p)
n .
a
p̂−µp̂ p̂−p
Conseqüentemente,
σp̂ ∼ N (0, 1), ou seja, Z=√ pq ∼ N (0, 1).
a n a
Quando p é desconhecida e a amostra é sucientemente grande, determinamos p̂0 = X/n , estimativa
p
de p. Então, σp̂ = p̂0 (1 − p̂0 ) /n.

6.6.3 Erro padrão


O desvio padrão da distribuição amostral de uma grandeza estatística é freqüentemente denominado

de seu erro padrão.


Então temos que: σX̄ é chamado de erro padrão da média, e σp̂ é chamado de erro padrão
da proporção.

6.7 Exercícios propostos


Exercício 1: (BRUNI, 2008) Um fazendeiro quer testar uma nova técnica de abate dos frangos de

suas fazendas. Só que o mesmo possui quatro fazendas espalhadas pelo interior do nordeste. Neste

caso, qual seria o melhor tipo de amostragem para que o fazendeiro escolhesse a fazenda que seria

estudada para a implantação desta nova técnica?

Exercício 2: (BRUNI, 2008) Suponhamos que desejássemos analisar uma população formada por

proprietários de automóveis do Estado do Mato Grosso. Neste caso, seria mais coerente analisar esta

população com uma amostragem por conglomerados ou uma amostra aleatória simples? Explique sua

resposta.

Exercício 3: (BRUNI, 2008) Um dos sócios de uma empresa automobilística deseja fazer um teste da

sua linha, que prove que a maior exibilidade da chaparia no momento da batida, assim amenizando

os riscos de que o carro sofra maior impacto e projeções bruscas. Sabe-se que a inferência estatística

envolve a formulação de certos julgamentos sobre um todo após examinar uma parte ou a amostra dele.

Então um dos sócios apresenta a seguinte idéia: fazer um censo já que a generalização, neste caso tem

grandes possibilidades de erros. Se você fosse outro acionista concordaria com esta idéia? Por quê?

Exercício 4: (ANDERSON et al., 2007) Lori Jeery é uma bem-sucedida representante de vendas de

uma grande editora de livros universitários. Historicamente, Lori consegue fazer que adotem um livro

em 25% de seus contatos de vendas. Tomando seus contatos de vendas realizados durante um mês com

uma amostra de todo os contatos de vendas possíveis, considere que uma análise estatística dos dados

produza um erro padrão da proporção igual a 0,0625.

a. Qual é o tamanho da amostra usada nesta análise?

b. Considere que p̄ indica a proporção amostral de adoção de livro durante o mês. Apresente a

distribuição amostral de p̄.

105
6 AMOSTRAGEM

c. Usando a distribuição amostral de p̄, calcule a probabilidade de Lori fazer que adotem livros em

30% ou mais de seus contatos de vendas durante o período de um mês?

Exercício 5: (ANDERSON et al., 2007) Um pesquisador relata os resultados de uma pesquisa ar-

mando que o erro padrão da média é 20. O desvio padrão da população é de 500.

a. Qual é o tamanho da amostra utilizada nessa pesquisa?

b. Qual é a probabilidade de estimação por ponto estar dentro de ± 25 da média da população?

Exercício 6: (ANDERSON et al., 2007) A Business Week pesquisou ex-alunos de MBA dez anos após

a graduação (Business Week, 22 setembro 2003). Uma revelação foi que os ex-alunos gastam em média

US$115,50 por semana com almoço e jantares sociais. Você foi solicitado para realizar um estudo de

acompanhamento, tomando uma amostra de 40 esses ex-alunos de MBA. Suponha que o desvio médio

da população seja US$ 35, 00.

a)Apresente a distribuição amostral de x̄, a média amostral de gastos semestrais dos 40 ex-alunos de

MBA?

b)Qual é a probabilidade de a média amostral estar dentro de US$ 10 da média da população?

106
7 TEORIA DA ESTIMAÇÃO

7.1 Introdução
Antes de abordar a teoria da estimação vamos procurar entender o que vem a ser estimador e estimativa.

Um estimador, θ̂, do parâmetro θé uma função qualquer dos elementos da amostra. Estimativa é o

valor numérico assumido pelo estimador quando os valores observados são considerados.

Assim:
n
P
Xi
i
X̄ = n , é um estimador da média populacional µ , e X̄ = 150é uma estimativa da média populaci-

onal.

7.2 Estimação por ponto e por intervalo


7.2.1 Estimação por ponto
Quando a estimativa de um parâmetro populacional é dado por um único valor, tem-se uma estimativa

pontual do parâmetro populacional, ou seja, na estimação pontual é fornecido como estimativa do

parâmetro, apenas um valor numérico. Por exemplo, ao estimar m (média populacional) podemos

fazê-lo mediante o valor X̄ = 20 kg . Então, 20 kg é uma estimativa pontual para m. Portanto, na

estimativa pontual não se tem nenhuma idéia de quão próximo é o valor dessa estimativa em relação

ao valor do parâmetro, ou seja, não se sabe qual é a margem de erro que é cometida ao se estimar

um determinado parâmetro. Uma maneira de se salvar essa desvantagem é usando estimadores por

intervalo (FERREIRA, 2005).

7.2.2 Estimação por intervalo


A estimação por intervalo procura corrigir essa lacuna (margem de erro) a partir da criação de um

intervalo que garanta com alta probabilidade de conter o verdadeiro valor do parâmetro desconhecido.

Um intervalo é construído a partir da distribuição amostral do estimador, de tal maneira que se

possa atribuir probabilidades de que o valor real do parâmetro j esteja ali contido. De modo geral

as estimativas (pontual ou intervalar) devem ser bastante conáveis, e para isso é necessário que os

estimadores que as fornecerão apresentem boas propriedades, aliado ao fato de serem obtidas a partir

de amostras representativas. Na seção (7.3) serão apresentadas as propriedades de um bom estimador

(FERREIRA, 2005).

Um conceito importante para a elaboração de intervalos de conança é o de quantidade pivotal.


Denição: Seja
0
x = [X1 , .., Xn ] uma amostra aleatória de densidade f (.). Uma função W (x, θ),
cuja distribuição não dependa de θ, é chamada de quantidade pivotal.
Um exemplo conhecido é a quantidade:

107
7 TEORIA DA ESTIMAÇÃO

X̄−µ
Z= √σ (1)
n

N µ, σ 2

para f (.) correspondente a uma normal . Nesse caso, a distribuição de Z é uma normal
N (0,1), não depende de µ 2
e σ .

A seguir apresentaremos a construção de um intervalo de conança para a média a partir do conceito

de quantidade pivotal.

Sabe-se que a função pivô Z tem distribuição normal padrão, ou seja, distribuição normal com média
zero e variância 1. A distribuição de Z não depende da quantidade desconhecida µ, sendo possível

obter os quantis inferior e superior α/2 (−Zα/2 e Zα/2 ).


A armativa probabilística seguinte, a denição Z [expressão (1)] e os quantis inferior e superior da

distribuição N (0,1) permitem que se construa a regra de estimação de por intervalo. Assim,


P −Zα/2 ≤ Z ≤ Zα/2 = 1 − α
 
X̄−µ
P −Zα/2 ≤ √σ ≤ Zα/2 = 1 − α
n

h i
P −Zα/2 √σn ≤ X̄ − µ ≤ Zα/2 √σn = 1 − α

h i
P −X̄ − Zα/2 √σn ≤ −µ ≤ −X̄ + Zα/2 √σn = 1 − α

h i
P X̄ + Zα/2 √σn ≥ µ ≥ X̄ − Zα/2 √σn = 1 − α

h i
P X̄ − Zα/2 √σn ≤ µ ≤ X̄ + Zα/2 √σn = 1 − α

E o intervalo de conança para µ (com variância populacional conhecida), com uma conança de 1 − α
pode então ser escrito como:

IC (µ) : X̄ ± Zα/2 √σn .


100(1−α)%

Isto signica que o parâmetro apresenta uma probabilidade de 1−α de estar entre os limites: X̄ −
Zα/2 √σn e X̄ + Zα/2 √σn .

7.2.3 Noção básica sobre intervalo de conança


Suponha que estejamos interessados num parâmetro populacional verdadeiro θ (desconhecido). Pode-se

estimar o parâmetro θ usando informação de nossa amostra. Chamamos o único número que representa

o valor mais plausível do parâmetro (baseado nos dados amostrais) de uma estimativa pontual de θ.
Entretanto, sabemos que o valor estimado na maior parte das vezes não será exatamente igual ao

valor verdadeiro. Então, também seria interessante encontrar um intervalo de conança que forneça

um intervalo de valores plausíveis para o parâmetro baseado nos dados amostrais . Isso signica que

um intervalo de conança de 90% para um parâmetro populacional (desconhecido), consiste em um

intervalo no qual estariamos 90% conantes de cobertura do verdadeiro valor do parâmentro, isto é,

90 % de todos os intervalos de conança que construimos conterão o verdadeiro valor do parâmetro

(MONTGOMERY et al., 2004).

108
7.3 Propriedades dos estimadores

7.3 Propriedades dos estimadores


1) Não tendenciosidade  
Um estimador θ̂ é dito um estimador não tendencioso do parâmetro θ se E θ̂ = θ.
n
P
Xi
Exemplo 1: X̄ = i
n é um estimador não tendencioso da média populacional .

Demonstração:
n !
n
P
Xi
  n 
1P 1
Xi = n1 E (X 1 + X2 + ... + Xn ) =
 i
P
E X̄ = E n =E n Xi = nE
i i
1 1
n [E (X1 ) + E (X2 ) + ... + E (Xn )] = n [µ + µ + ... + µ] = n1 nµ = µ

2) Consistência
Um estimador θ̂ é dito um estimador consistente do parâmetro θ se:
 
1. lim E θ̂ = θ;
n→∞
 
2. lim V θ̂ = 0
n→∞
n
P
Xi
Exemplo 2: X̄ = i
n

i)lim E X̄ = lim µ = µ
n→∞ n→∞
2
lim V X̄ = lim σn = 0

ii)
n→∞ n→∞
3) Eciência
Se θ̂1 e θ̂2 são dois estimadores não tendenciosos de θ , então, θ̂1 é mais eciente que q̂2 se:
   
V θ̂1 < V θ̂2

3.1) Eciência Relativa:


A eciência relativa do estimador q̂1 , em relação ao estimador q̂2 é dada por:

V (θ̂2 )
Efθ̂1 θ̂2 =
V (θ̂1 )

Observação:
ˆ Quanto menor for a variância de um estimador maior será a sua eciência;

ˆ Se θ̂1 for menos eciente que θ̂2 então Efθ̂1 θ̂2 < 1;
ˆ Se θ̂1 for mais eciente que θ̂2 então Efθ̂1 θ̂2 > 1 .

4) Suciência ou Precisão
Um estimador é suciente se contém o máximo de informação com relação ao parâmetro por ele

estimado.

1
Quantidade de informação ou precisão =
V (θ̂)

7.4 Métodos de Estimação


Na teoria de estimação os métodos de estimação são: Métodos dos Momentos; Métodos dos Quadra-

dos Mínimos e Método da Máxima Verossimilhança. No presente material não será apresentada a

metodologia dos métodos, pois este não é o objetivo da disciplina.

109
7 TEORIA DA ESTIMAÇÃO

7.5 Intervalos de conança para a média


7.5.1 Intervalo de conança para média (µ) com variância populacional (σ2 )conhecida
Denição: Se X for a média de uma amostra aleatória, de tamanho n, de uma população com
σ 2 , então o intervalo de conança de

variância populacional conhecida 100 (1 − α) % para µ é dado

por (MONTGOMERY & RUNGER, 2003):

IC (µ) : X̄ ± Zα/2 √σn (2).


100(1−α)%

Em que:

ˆα é o chamado nível de signicância. O nível de signicância é a probabilidade de que o intervalo

encontrado não contém o valor real do parâmetro em estudo. O valor do nível de signicância é

estipulado pelo pesquisador, sendo que em sua maioria e de acordo com padrões internacionais é

usado α = 5% = 0, 05, ou seja, um risco de 5,0%;

ˆ γ = 100 (1 − α) % é chamado de nível de conança para o intervalo. O nível de conança é a

probabilidade de que o intervalo encontrado contém o valor real do parâmetro procurado;

ˆ X̄ é a média amostral;

ˆZ α/2 é o ponto superior α/2 da distribuição Z;

ˆn é o tamanho da amostra;

ˆ αq é o nível de signicância;

ˆ N −n
N −1 é o fator de correção;
ˆ X̄ − Z σ σ
α/2 √n e X̄ + Zα/2 √n , são chamados de limite inferior e superior de conança, ou seja,
limites inferior e superior do intervalo de conança;

ˆ Se ocorrer Amostragem Sem Reposição para População Finita (P.F.A.S.R.), isto é, se


n
N > 0, 05
(N o tamanho da população), então, incorpora-se o fator de correção no intervalo. Logo, o

intervalo de conança será:


q
N −n
IC (µ) : X̄ ± Zα/2 √σn N −1 (3).
100(1−α)%

Nota: Para amostras provenientes de uma população Normal, ou para amostras de tamanho n ≥ 30,
independente da forma da população, o intervalo de conança na expressão (2) fornecerá bons resulta-

dos. Entretanto, para pequenas amostras provenientes de uma população não Normal , não podemos
esperar que o nível de conança seja exato (MONTGOMERY & RUNGER, 2003). Vale ressaltar

que com base na quantidade pivotal [expressão (1)], resultado apresentado na seção (7.2.2), é possível

determinar o intervalo de conança para média com variância conhecida, conforme expressão(2).

Interpretação do Intervalo: Existe 100 (1 − α) % de conança que o intervalo contenha m..


Exemplo 3: Uma máquina produz rolamentos que apresentam desvio padrão de 0,042 polegadas
em seu diâmetro. Desejando-se conhecer o diâmetro médio dos rolamentos produzidos por esta má-

quina extraiu-se uma amostra de 100 rolamentos, observando-se uma média igual a 0,824 polegadas.

Determine o intervalo com 90% de conança para o verdadeiro diâmetro médio dos rolamentos.

Solução: A partir de toda informação apresentada no problema, temos: σ = 0, 042, X = 0, 824 e n


= 100. Como nada foi informado a respeito do tamanho da população (N ), será adotado o seguinte

intervalo de conança:

110
7.5 Intervalos de conança para a média

IC (µ) : X̄ ± Zα/2 √σn


100(1−α)%
0,042
IC (µ) : 0, 824 ± Z0,10/2 √ 100
100(1−α)%
0,042
IC (µ) : 0, 824 ± Z0,05 √ 100
100(1−α)%
0,042
IC (µ) : 0, 824 ± 1, 64 √ 100
90%
IC (µ) : 0, 824 ± 0, 007
90%
IC (µ) : [0, 817; 0, 831]
90%

Rotina para a obtenção do intervalo de conança do exemplo 3:


# Sintaxe:

media<-0.824

desviopad<-0.042

n<-100

erropad<-desviopad/sqrt(n)

quantil<-qnorm(0.05,lower.tail=FALSE)

# Intervalo de conança de 90%

erro<-quantil*erropad

LI<-media-erro

LI

LS<-media+erro

LS

Interpretação: Pode-se armar com 90% de conança que o intervalo contém o diâmetro médio dos

m
rolamentos ( ) produzidos por esta máquina.

Exemplo 4 (Exercício): Utilizando os dados do exercício anterior e supondo que a produção diária

seja de 1.000 rolamentos. Determine o intervalo com 90% de conança para o verdadeiro diâmetro

médio dos rolamentos.

Rotina para a obtenção dos intervalos de conança do exemplo 4:


# Sintaxe:

media<-0.824

desviopad<-0.042

n<-100

N<-1000

# se n/N >0,05 incorpora fator de correção

fc<-(sqrt((N-n)/(N-1))) # fator de correção

erropad<-(desviopad/sqrt(n))*fc

quantil<-qnorm(0.05,lower.tail=FALSE)

quantil

# Intervalo de conança 90%

erro<-quantil*erropad

LI<-media-erro

LI

LS<-media+erro

LS

Exemplo 5: De uma população normal a variável aleatória X apresenta uma variância igual a 9.
25
P
Retiramos uma amostra de 25 observações e obteve-se Xi = 152. Determine um intervalo de limites
i=1

111
7 TEORIA DA ESTIMAÇÃO

de 90,0% de conança para µ.


Primeiramente será retirada toda informação (dados) do problema. Tem-se:
25
152
= 6, 08 e σ 2 = 9 ⇒ σ = 3
P
n = 25; α = 10, 0%; Xi = 152 ⇒ X̄ = 25
i=1
Como nada foi informado a respeito do tamanho da população (N ), será adotado o seguinte intervalo

de conança: IC (µ) : X̄ ± Zα/2 √σn .


100(1−α)%
Dessa forma, temos:

IC (µ) : 6, 08 ± Z0,10/2 √325


90%
IC (µ) : 6, 08 ± Z0,05 √325
90%
IC (µ) : 6, 08 ± 1, 64 √325
90%
IC (µ) : 6, 08 ± 0, 09
90%
IC (µ) : [5, 096; 7, 064]
90%

Rotina para a obtenção do intervalo de conança do exemplo 5:


# Sintaxe:

somax<-152

n<-25

media<-somax/n

media

desviopad<-3

n<-25

erropad<-desviopad/sqrt(n)

quantil<-qnorm(0.05,lower.tail=FALSE)

# Intervalo de conança 90%

erro<-quantil*erropad

LI<-media-erro

LI

LS<-media+erro

LS

Interpretação: Pode-se armar com 90% de conança que o intervalo contém a média populacional

da variável aleatória X.

7.5.2 Intervalo de conança para média (µ) de uma população Normal com variância
populacional (σ2 ) desconhecida
Denição: Se X e S forem a média e o desvio padrão de uma amostra aleatória proveniente de uma
σ2

população Normal, com variância populacional desconhecida , então o intervalo de conança de

100 (1 − α) % para µ é dado por (MONTGOMERY & RUNGER, 2003):

IC (µ) : X̄ ± t(α/2; v=n−1) √Sn . (4)


100(1−α)%

Em que t(n−1,α/2) é o ponto superior α/2 da distribuição t-Student, com v = n−1 graus de liberdade.
n
Se ocorrer Amostragem Sem Reposição para População Finita (P.F.A.S.R.), isto é, se
N > 0, 05 (N
o tamanho da população), então, incorpora-se o fator de correção no intervalo. Logo, o intervalo de

conança será:

112
7.5 Intervalos de conança para a média
q
N −n
IC (µ) : X̄ ± t(α/2; v=n−1) √Sn N −1 . (5)
100(1−α)%

Nota: Como determinar o intervalo da expressão (4), a partir de uma quatidade pivotal?

X ∼ N µ, σ 2 σ2

Se , com desconhecida, então

X̄−µ
t= S

(6)
n

possui uma distribuição denominada t-Student com v = n−1 graus de liberdade. A expressão (6)

representa uma quantidade pivotal, ou seja, a distribuição de t não depende da quantidade desconhecida

µ, sendo possível obter os quantis inferior e superior α/2 (−tα/2 e tα/2 ).


A armativa probabilística seguinte, a denição t [expressão (6)] e os quantis inferior e superior da

distribuição t-Student permitem que se construa a regra de estimação de por intervalo. Assim,


P −t(α/2; v=n−1) ≤ t ≤ t(α/2; v=n−1) = 1 − α
 
X̄−µ
P −t(α/2; v=n−1) ≤ S

≤ t(α/2; v=n−1) = 1 − α
n

h i
P −t(α/2; v=n−1) √Sn ≤ X̄ − µ ≤ t(α/2; v=n−1) √Sn = 1 − α

h i
P −X̄ − t(α/2; v=n−1) √Sn ≤ −µ ≤ −X̄ + t(α/2; v=n−1) √Sn = 1 − α

h i
P X̄ + t(α/2; v=n−1) √Sn ≥ µ ≥ X̄ − t(α/2; v=n−1) √Sn = 1 − α

h i
P X̄ − t(α/2; v=n−1) √Sn ≤ µ ≤ X̄ + t(α/2; v=n−1) √Sn = 1 − α

E o intervalo de conança para µ (com variância populacional desconhecida), com uma conança de

1−α pode então ser escrito como:

IC (µ) : X̄ ± t(α/2; v=n−1) √Sn .


100(1−α)%

7.5.3 Conceito de intervalo de conança em uma amostra grande (n ≥ 30)


De acordo com (WALPOLE et al., 2009), mesmo que a pressuposição de normalidade não seja satisfeita,

σ é desconhecido e n ≥ 30 (amostra grande), S pode substituir σ e o intervalo de conança a seguir

pode ser usado:

IC (µ) : X̄ ± Zα/2 √Sn . (7)


100(1−α)%

n
Se ocorrer Amostragem Sem Reposição para População Finita (P.F.A.S.R.), isto é, se
N > 0, 05 (N
o tamanho da população), então, incorpora-se o fator de correção no intervalo. Logo, o intervalo de

conança será:

q
N −n
IC (µ) : X̄ ± Zα/2 √Sn N −1 . (8)
100(1−α)%

113
7 TEORIA DA ESTIMAÇÃO

Segundo (WALPOLE et al., 2009), com uma amostra tão grande quanto 30 e uma distribuição de

população não muito simétrica, S será muito próximo de σ e, então, o teorema central do limite

prevalece. Os autores enfatizam que isso é apenas uma aproximação e que a qualidade da abordagem se

torna melhor à medida que se aumenta o tamanho da amostra. Portanto, quando se estiver trabalhando

com amostras grandes (n ≥ 30) pode-se utilizar a distribuição padronizada Z, em lugar da t na obtenção
2
dos intervalos de conança, mesmo que σ seja desconhecida.

Exemplo 6: A altura nos homens de uma cidade apresenta distribuição normal, para se estimar
150
amostra
P
a altura média dessa população levantou-se uma de 150 indivíduos obtendo-se: Xi =
i=1
150
Xi2 = 4.440.075 cm2 .
P
25.800 cm e
i=1
a) Ao nível de 2% de signicância, determine o intervalo de conança para a altura média dos homens
desta cidade.

Solução: Como se trata de uma amostra, a variância que será determinada corresponde a variância
150
(sv2 )
P
amostral, ou seja, a variância populacional é desconhecida. Sabe-se que: Xi = 25.800cm e
i=1
150
Xi2 = 4.440.075cm2 ,
P
então a média e variância são respectivamente:
i=1
v 
u  n
2 
P
Xi
u r
150 n
(25.800)2
u h i
P 25.800 1 P 2 i=1 1
X̄ = Xi /150 = = 172 cm e t n−1  Xi −
S=u = 4.440.075 − =

150 n 149 150
i=1 i=1

16, 61 = 4, 07 cm.

A amostra é de 150 indivíduos, isto é, n = 150>30 (amostra grande). Logo, o intervalo a ser adotado

para determinar altura média dos homens desta cidade será:

IC (µ) : X̄ ± Zα/2 √Sn


100(1−α)%
IC (µ) : 172 ± Z0,02/2 √4,07
150
98%
IC (µ) : 172 ± Z0,01 √4,07
150
98%
IC (µ) : 172 ± 2, 33 √4,07
150
98%
IC (µ) : [171, 22; 172, 77]
98%

Rotina para a obtenção do intervalo de conança do exemplo 6:


# Sintaxe:

media<-172

desviopad<-4.07

n<-150

erropad<-desviopad/sqrt(n)

quantil<-qnorm(0.01,lower.tail=FALSE)

# Intervalo de conança 98%

erro<-quantil*erropad

LI<-media-erro

LI

LS<-media+erro

LS

Interpretação: Pode-se armar com 98,0% de conança que o intevalo contém a estatura média dos

homens desta cidade.

114
7.5 Intervalos de conança para a média

Exemplo 7 (Exercício): Uma Cia adquiriu 500 cabos. Uma amostra de 30 deles ao acaso apresentou

tensão de ruptura média igual a 2.400 kg com desvio padrão de 150 kg. Determine o intervalo com

99% de conança para a verdadeira tensão média de ruptura desses cabos.

Rotina para a obtenção do intervalo de conança do exemplo 7:


# Sintaxe:

N<-500
n<-30
media<-2400
desviopad<-150
# fator de correção => n/N > 0,05 => no exemplo em questão não incorpora fator de correção
erropad<-desviopad/sqrt(n)
quantil<-qnorm(0.005, lower.tail=FALSE)
# Intervalo de conança 99%
erro<-quantil*erropad
LI<-media-erro
LI
LS<-media+erro
LS

7.5.4 Dimensionamento do tamanho da amostra


Nosso objetivo agora, será determinar o tamanho da amostra n, de tal forma que o estimador obtido
tenha um erro máximo de estimação igual a ε, com determinado grau de conança (probabilidade). A
σ
precisão do intervalo, [expressão (2)], é Zα/2 √ . Isso signica que usando X para estimar µ, o erro
n
ε =| X̄ − µ |é menor ou igual a Zα/2 √σn , com 100 (1 − α) % de conança. De maneira mais especíca,
o problema consiste em determinarmos n, de modo que

P | X̄ − µ |≤ ε ∼
 
=1−α

isto é,

h i
P | X̄ − µ |≤ Zα/2 √σn ∼=1−α

Então, para um ε xo, a solução para o problema acima consiste em determinar n de tal forma que

ε = Zα/2 √σn

ou equivalentemente,

ε2 σ2
2
Zα/2
= n . (9)

Resolvendo (9) em relação a n, obém-se:

2 σ2
Zα/2
 2
Zα/2 σ
n= ε2
= ε . (10)

Para determinação da amostra, é preciso xar o erro máximo desejado (ε), com algum grau de conança
1−α (traduzido pelo valor tabelado Zα/2 ) e possuir algum conhecimento a priori da variabilidade da

115
7 TEORIA DA ESTIMAÇÃO

σ2

população . Ou seja, o erro máximo desejado e o nível de conança são xados pelo pesquisador.

O uso de pesquisa passadas, estatísticas (informações), ou amostras piloto são os critérios mais usados.

Em muitos casos, uma amostra piloto pode fornecer informação suciente sobre a população, de tal

σ2

forma que se pode obter um estimador inicial razoável para (BOLFARINE & BUSSAB, 2005).

Exemplo 8: (MONTGOMERY & RUNGER, 2003) Os sistemas de escapamento de uma aeronave

funcionam devido a um propelente sólido. A taxa de queima desse propelente é uma característica

importante do produto. As especicações requerem que a taxa média de queima seja de 50 cm/s.

Sabemos que o desvio-padrão da taxa de queima é sv = 2 cm/s. Suponha que quiséssemos um erro

na estimação da taxa média de queima do propelente do foguete menor do que 1,5 cm/s, com uma

conança de 95%. Qual deveria ser o tamanho apropriado da amostra?

Solução: Uma vez que sv = 2 cm/s e γ = 0, 95 (Z0,025 = 1, 96), pode-se determinar o tamanho da

amostra da seguinte forma:


 2  2
Z0,025 σ
n= ε = 1,96x2
1,5 = 6, 83 ∼
=7

Rotina para a obtenção do intervalo de conança do exemplo 8:

# sintaxe:
sigma<-2
erro<-1.5
# conança de 95%
# dimensionamento da amostra
n<-((qnorm(0.025,lower.tail=FALSE)*sigma)/erro)^2
n

Exemplo 9: Suponha que uma amostra aleatória de tamanho 10 da variável renda familiar apresente

os seguintes valores: 12, 18, 12, 18, 18, 30, 12, 12, 18, e 30. Determine o tamanho da amostra que

apresente uma estimativa com erro máximo ε= 2, com g = 0,95.
Solução: No presente problema não se tem informação a respeito de σ2. Mas, sabe-se que a partir
2
de uma amostra piloto pode-se obter uma estimativa razoável para σ . Para esta amostra, X̄ = 18 e

S2 = 48. Com S 2 = 48, para ter uma amostra que apresente uma estimativa com erro máximo ε = 2
, com γ = 0, 95, é necessário que o tamanho da amostra seja

t2(α/2,n−1) S 2 t2(0,025; 9) x48 2,2622 x48


n= ε2
= √ 2 = √ 2 = 122, 80 = 123.
( 2) ( 2)

Rotina para a obtenção do intervalo de conança do exemplo 9:

# sintaxe:
dados<-c(12,18,12,18,18,30,12,12,18,30)
n<-length(dados)
n
v<-n-1
erro<-sqrt(2)
# conança de 95%
# dimensionamento da amostra
n2<-((qt(0.025, v,lower.tail=FALSE)*sd(dados))/erro)^2
n2

116
7.6 Intervalos de conança para diferença entre duas médias (amostras independentes)

7.6 Intervalos de conança para diferença entre duas médias


(amostras independentes)
7.6.1 Intervalo de conança para diferença entre duas médias com variâncias
populacionais conhecidas e independentes
Denição: Se X̄a e X̄b são médias de amostras aleatórias independentes de tamanhos na e nb de popu-
lações com variâncias conhecidas σa2 e σb2 , respectivamente, um intervalo de conança de 100 (1 − α) %
para (µa − µb ) é dado por (WALPOLE et al., 2009):
q
2 σb2
IC (µa − µb ) : X̄a − X̄b ± Zα/2 nσaa +

nb , (11)
100(1−α)%

em que:

ˆ X̄ a e X̄b são médias amostrais, isto é, são as estimativas pontuais das médias das populações a

e b, respectivamente;

ˆσ 2
a e σb2 são as variâncias das populações a e b, respectivamente;

ˆn a e nb são os tamanho das amostras retiradas das populações a e b, respectivamente;

ˆ Se ocorrer Amostragem Sem Reposição para População Finita (P.F.A.S.R.), isto é, se


n
N > 0, 05
(Na e Nb são os tamanhos das populações a e b, respectivamente), então, incorpora-se o fator de

correção no intervalo. Logo, o intervalo de conança será:


r
 σa2 (Na −na ) σb2 (Nb −nb )
IC (µa − µb ) : X̄a − X̄b ± Zα/2 na (Na −1) + nb (Nb −1) . (12)
100(1−α)%

Regras de decisão envolvendo Intervalo de Conança (IC) para diferença entre duas mé-
dias.
1. Se o IC incluir o zero, então, µa = µ b .
2. Se o IC não incluir o zero, então, µa 6= µb . Podendo acontecer:

a) Se os extremos do intervalo forem negativos, então, µa < µb .

b) Se os extremos do intervalo forem positivos, então, µa > µb .


Exemplo 10: Um supermercado não sabe se deve comprar lâmpadas da marca A ou B de mesmo

preço. Testa-se uma amostra de 100 lâmpadas de cada marca. Os resultados obtidos são apresentados

a seguir:

Marca da lâmpada X̄ σ
A 1.160 h 90 h

B 1.140 h 80 h

Construa um intervalo de conança com 2% de signicância e indique qual lâmpada o supermercado

deve comprar.

Solução: Sabe-se que a variâncias populacionais são conhecidas, pois se forneceu informações a respeito

de para cada marca de lâmpada. O valor de a adotado foi de 2% (0,02), e o tamanho das amostras
retiradas é de 100 lâmpadas cada, ou seja, na = nb = 100 lâmpadas. Na presente situação não se

conhece o tamanho das populações, consequentemente não há necessidade de fazer o uso do fator de

correção. Portanto, o intervalo adotado para indicar qual lâmpada o supermercado deve comprar será:

117
7 TEORIA DA ESTIMAÇÃO
q
2 σ2
IC (µa − µb ) : X̄a − X̄b ± Zα/2 nσaa + nbb

100(1−α)% q
2 σb2
IC (µa − µb ) : (1.160 − 1.140) ± Z0,02/2 nσaa + nb
98% q
902 802
IC (µa − µb ) : 20 ± Z0,01 100 + 100
98% q
2 +802
IC (µa − µb ) : 20 ± 2, 33 90 100
98%
IC (µa − µb ) : 20 ± 28, 0569
98%
IC (µa − µb ) : [−8, 0569; 48, 0569]
98%

Interpretação: Portanto, pode-se armar com 98% de conança que não existe diferença signicativa

entre os tempos de vida das lâmpadas das marcas A e B, pois o zero está contido na extensão do

intervalo.

Rotina para a obtenção do intervalo de conança do exemplo 10:

# Sintaxe:

media1<-1160

media2<-1140

var1<-8100

var2<-6400

n1<-100

n2<-100

erropad<-sqrt((var1/n1)+(var2/n2))

quantil<-qnorm(0.01,lower.tail=FALSE)

# Intervalo de conança 98%

erro<-quantil*erropad

LI<-(media1-media2)-erro

LI

LS<-(media1-media2)+erro

LS

Exemplo 11 (Exercício): As empresas A e B produzem tubos de esgoto com variâncias em seus

diâmetros iguais a 8 mm ² ²
e 10 mm , respectivamente. Uma amostra de 48 tubos da empresa A

apresentou diâmetro médio igual a 40 mm, e uma amostra de 36 tubos da empresa B apresentou

diâmetro médio de 42 mm. Verique, por meio de um intervalo de conança com 0,95 de probabilidade,

se existe diferença entre os diâmetros médios dos tubos das marcas A e B.

Rotina para a obtenção do intervalo de conança do exemplo 11:

118
7.6 Intervalos de conança para diferença entre duas médias (amostras independentes)

# Sintaxe:

media1<-40

media2<-42

var1<-8

var2<-10

n1<-48

n2<-36

erropad<-sqrt((var1/n1)+(var2/n2))

quantil<-qnorm(0.025,lower.tail=FALSE)

# Intervalo de conança 95%

erro<-quantil*erropad

LI<-(media1-media2)-erro

LI

LS<-(media1-media2)+erro

LS

7.6.2 Intervalo de conança para diferença entre duas médias com variâncias
populacionais desconhecidas em amostras independentes
Quando se desconhece as variâncias populacionais σa2 e σb2 torna-se necessário a substituição de seus
2
valores paramétricos por suas estimativas amostrais Sa e S 2b . Neste caso, deve-se utilizar a distribuição
t-Student, em lugar da normal. Além dessa alteração deve-se considerar ainda se as duas populações são

homocedásticas ou heterocedásticas, isto é, se as variâncias populacionais desconhecidas são iguais ou

diferentes, o que pode ser aferido por meio de um teste de hipótese para homogeneidade de variâncias.

Denição - Populações Homocedásticas - σa2 = σb2 = σ 2 :



Se X̄a e X̄b são médias de amostras

aleatórias independentes de tamanhos na e nb de populações aproximadamente normais com variân-

cias desconhecidas, mas iguais, um intervalo de conança de 100 (1 − α) % para µa − µb é dado por

(WALPOLE et al., 2009):


q
IC (µa − µb ) : X̄a − X̄b ± t(α/2;na +nb −2) Sp n1a + 1

nb , (13)
100(1−α)%

em que:

ˆS
q
(na −1)Sa2 +(nb −1)Sb2
p = na +nb −2 é a estimativa combinada do desvio padrão da população;

ˆt (α/2) é o valor da distribuição t-Student com ν = na + nb − 2 graus de liberdade, que deixa uma

área α/2 à direita.

Denição - Populações Heterocedásticas - σa2 6= σb2 :



Se X̄a e X̄b são médias de amostras ale-

atórias independentes de tamanhos na e nb de populações aproximadamente normais com variâncias

diferentes e desconhecidas, um intervalo de conança de 100 (1 − α) % para µa − µ b é dado por (WAL-

POLE et al., 2009):

q
 Sa2 Sb2
IC (µa − µb ) : X̄a − X̄b ± t(α/2;v) na + nb , (14)
100(1−α)%

em que t(α/2) é o valor da distribuição t-Student com ν graus de liberdade:

2
Sb2

2
Sa
na
+ nb
v= 2 2
!
S2
!2 . (15)
Sa b
na nb
na −1
+ n −1
b

119
7 TEORIA DA ESTIMAÇÃO

Exemplo 12: Em uma disciplina de Estatística de 12 alunos de uma turma conseguiram média de

7,8 e desvio padrão de 0,6 ao passo que 15 alunos de outra turma do mesmo curso conseguiram média

7,4 com desvio de 0,8. Considerando distribuição normal para as notas ao nível de 5% de signicância,

determine o intervalo de conança e indique se há diferença entre as turmas em termos de nota.

Considere variâncias populacionais desconhecidas, porém iguais.


Solução: Diante do seguinte enunciado tem-se:

α = 5% = 0, 05; na = 12; X̄a = 7, 8; Sa = 0, 6; nb = 15; X̄b = 7, 4; Sb = 0, 8. Sendo as populações


2 2
homocedásticas σa = σb = σ
2 tem-se que:

q
(12−1)0,62 +(15−1)0,82
Sp = 12+15−2 = 0, 7189

Logo, o intervalo de conança é:

q
IC (µa − µb ) : X̄a − X̄b ± t(α/2; na +nb −2) Sp n11 + n12

95% q
IC (µa − µb ) : (7, 8 − 7, 4) ± t(0,025; 12+15−2) Sp n11 + n12
95% q
1 1
IC (µa − µb ) : 0, 4 ± t(0,025; 25) Sp 12 + 15
95% q
1 1
IC (µa − µb ) : 0, 4 ± 2, 06 ∗ 0, 7189 ∗ 12 + 15
95%
IC (µa − µb ) : 0, 4 ± 0, 5736
95%
IC (µa − µb ) : [−0, 1736; 0, 9736]
95%

Interpretação: Portanto, pode-se armar com 95% de conança que estatisticamente não existe

diferença signicativa entre as médias de notas na disciplina de Estatística.

Rotina para a obtenção do intervalo de conança do exemplo 12:


# Sintaxe:

media1<-7.8

media2<-7.4

var1<-0.36

var2<-0.64

n1<-12

n2<-15

v<- n1 + n2 - 2

sp<-sqrt(((n1 - 1)*var1+(n2 - 1)*var2)/(n1 + n2 - 2))

erropad<-sp*sqrt((1/n1)+(1/n2))

quantil<-qt(0.025, v,lower.tail=FALSE)

# Intervalo de conança 95% - Populações Homocedásticas

erro<-quantil*erropad

LI<-(media1-media2)-erro

LI

LS<-(media1-media2)+erro

LS

Exemplo 13 (Exercício): O QI de 16 estudantes de uma zona pobre de certa cidade apresenta

média de 107 pontos com desvio padrão de 10 pontos, enquanto que 14 estudantes de outra região

rica da cidade apresentam média de 112 pontos, e desvio padrão de 8 pontos. O QI em ambas regiões

120
7.7 Intervalos de conança para difrença entre duas médias (amostras dependentes)

tem distribuição normal. Determine O intervalo de conança com uma certeza de 95%. Considere

desconhecidas, porém diferentes.


variâncias populacionais

Rotina para a obtenção do intervalo de conança do exemplo 13:


# Sintaxe:

media1<-107

media2<-112

var1<-100

var2<-64

n1<-16

n2<-14

num_v<-((var1/n1) + (var2/n2))^2 # numerador da expressão do grau de liberdade de Satterthwaite

den_v<-(((var1/n1)^2)/(n1-1)) + (((var2/n2)^2)/(n2 - 1)) # denominador da expressão do grau de liberdade de Satterthwaite

v<-num_v/den_v

round(v) # arredonda para o inteiro mais próximo

erropad<-sqrt((var1/n1)+(var2/n2))

quantil<-qt(0.025, round(v),lower.tail=FALSE)

# Intervalo de conança 95% - Populações Homocedásticas

erro<-quantil*erropad

LI<-(media1-media2) - erro

LI

LS<-(media1-media2) + erro

LS

7.7 Intervalos de conança para difrença entre duas médias


(amostras dependentes)
É muito usado nos casos em que os dados de um mesmo indivíduo serão colhidos antes e depois

de submetido a um tratamento. Serão colhidas duas amostras, x1 , x2 , ..., xn e y1 , y2 , ..., yn que

serão emparelhadas, isto é, a amostra será formada pelos pares (x1 , y1 ) , (x2 , y2 ) , (xn , yn ). Portanto,

fazemos testes de comparação de médias para dados emparelhados (amostras pareadas), obtidas de

populações Normais, quando os resultados das duas amostras são relacionados dois a dois, de acordo

com algum critério que fornece uma inuência entre os vários pares e sobre os valores de cada par.

Para cada par denido, o valor da primeira amostra está claramente associado ao respectivo valor da

segunda amostra. A média e o desvio padrão da amostra de valores  d são obtidos pelas fórmula

(MORETTIN, 2010):

v 
n
u  n
2 
P P
di di
u
u n
i=1 1 P 2 i=1
D̄ = e SD = u di − .

n t n−1  n
i=1

Denição: Se D e SD são a média e o desvio pardrão, respectivamente, de diferenças normalmente

distribuídas de n pares de medidas aleatórias, o intervalo de conança para de 100 (1 − α) % para µD


é dado por (WALPOLE et al., 2009):

SD
IC (µD ) : D̄ ± t(α/2; v) √ n
, (16)
100(1−α)%

121
7 TEORIA DA ESTIMAÇÃO

com t(α/2) com v =n−1 graus de liberdade.

As amostras são consideradas dependentes quando as observações são correlacionadas.

Exemplo 14: Eciência de uma dieta (MORETTIN, 2010). Para exemplicar, tomaremos um grupo

de pessoas que zeram determinada dieta por uma semana. Medimos o peso no início e no nal

da dieta. As pessoas estão claramente determinadas. A identidade de cada uma tem inuência nos

valores observados de seu peso, porém essa inuência deve ser aproximadamente igual dentro de cada

par de valores do tipo  antes e  depois . Ao tomarmos a diferença entre varíos pares de valores e

trabalharmos com elas, a inuência de cada pessoa deverá desaparecer, cando apenas a inuência da

dieta. A partir dos dados abaixo será construído um intervalo de conança de 95% de conança.

(1) 2 (2)
Pessoas Peso antes em kg Peso depois em kg di di
1 120 116 4 16
2 104 102 2 4
3 93 90 3 9
4 87 83 4 46
5 85 86 -1 1
6 98 97 1 1
7 102 98 4 16
8 106 108 -2 4
9 88 82 6 6
10 90 85 5 25
di
(1)
é a diferença de observações correlacionadas, ou seja, di = antes  depois; d(2)
i é a diferença de observações correlacionadas ao quadrado.

r h
(26)2
i
4+2+...+5 1
D̄ = 10 = 2, 6 kg e SD = 9 (16 + 4 + ...25) − 10 = 2, 59 kg

SD
IC (µD ) : D̄ ± t(α/2; v) √ n
100(1−α)%

2,59
IC (µD ) : 2, 6 ± t(0,05/2; 9) √ 10
95%

2,59
IC (µD ) : 2, 6 ± 2, 262 √ 10
95%

IC (µD ) : [0, 747; 4, 453]


95%

Interpretação: Pode-se armar com 95% de conança que a dieta foi eciente pois, µD > 0.

Rotina para a obtenção do intervalo de conança do exemplo 14:

122
7.8 Intervalos de conança para proporção

# Sintaxe: # Sintaxe: a partir dos comandos t.test e paired


peso_antes<-c(120,104,93,87,85,98,102,106,88,90) # peso antes de experimentar a dieta peso_antes<-c(120,104,93,87,85,98,102,106,88,90) # peso antes de exper
peso_depois<-c(116,102,90,83,86,97,98,108,82,85) # peso depois de experimentar a dieta peso_depois<-c(116,102,90,83,86,97,98,108,82,85) # peso depois de expe
dif<-c(peso_antes - peso_depois) # vetor das diferenças t.test(peso_antes, peso_depois, alternative = "two.sided", conf.level=0.95, pa

n<-length(dif)
v<-n-1
mean(dif) # média da diferenças
sd(dif) # desvio padrão das diferenças
qt(0.025, v, lower.tail = F)
## Intervalo de conança de 95% ##
erro<-qt(0.025, v, lower.tail = F)*((sd(dif))/sqrt(n))
erro
LI<- mean(dif) - erro
round(LI, digits = 3)
LS<- mean(dif) + erro
round(LS, digits = 3)

7.8 Intervalos de conança para proporção


Denição: Se p̂ é a proporção de sucessos em uma amostra aleatória de tamanho n, e q̂ = 1 − p̂,
um intervalo de conança de 100 (1 − α) % aproximado para o parâmetro binomial p é dado por
(WALPOLE et al., 2009):

ˆ Se ocorrer Amostragem com Reposição para População Finita ou para População Innita:
q
p̂q̂
IC (P ) : p̂ ± Zα/2 n . (17)
100(1−α)%

ˆ Se ocorrer Amostragem sem Reposição para População Finita (


n
N > 0, 05):
r  
p̂q̂ N −n
IC (P ) : p̂ ± Zα/2 n N −1 . (18)
100(1−α)%

Em que p̂ é a proporção estimada na amostra; q̂ = 1 − p̂ ; n é o tamanho da amostra e N é o tamanho


da população.

Quando n é pequeno e acredita-se que a proporção desconhecida p está próxima de 0 ou 1, o procedi-


mento do intervalo de conança estabelecido aqui é duvidoso e, portanto não devve ser utilizado. Para

estar mais seguro, deve-se exigir ambos np̂ e nq̂ maiores ou iguais a 5 (WALPOLE et al., 2009).

Exemplo15: Suponha que uma empresa de pesquisa eleitoral tenha entrevistado por telefone 400

eleitores, perguntando-lhes se votariam no candidato A. Admita que 240 deles tenham respondido que

votariam no candidato A. Determine o intervalo de 95% de conança para a proporção dos que indicam

preferência pelo candidato A.

Solução: Sabe-se que o tamanho da amostra no presente exemplo é de 400 eleitores, ou seja, n = 400.

Desses 400 eleitores, 240 preferem o candidato A. Portanto, a proporção de eleitores que preferem o

candidato A é:

240
p̂ = 400 = 0, 60 = 60%, então q̂ = 1 − p̂ = 1 − 0, 60 = 0, 40 = 40%
Como a amostra é grande e não se sabe o tamanho da população, então, utiliza-se o seguinte intervalo

de proporção:

q
p̂q̂
IC (P ) : p̂ ± Zα/2 n
100(1−α)%

123
7 TEORIA DA ESTIMAÇÃO
q
p̂q̂
IC (P ) : p̂ ± Z0,05/2 n
95%

q
0,6.0,4
IC (P ) : 0, 6 ± Z0,025 400
95%

q
IC (P ) : 0, 6 ± 1, 96 0,24
400
95%

IC (P ) : 0, 6 ± 0, 048
95%

IC (P ) : [0, 552; 0, 648]


95%

Interpretação: Assim, com uma amostra de tamanho 400, a pesquisa apresenta uma margem de erro

de ± 4,8%, ou cerca de 5%. À vista do intervalo de conança resultante (aproximadamente 55% a

65%), o candidato A pode sentir-se razoavelmente seguro quanto as suas perspectivas em relação à

eleição.

Rotina para a obtenção do intervalo de conança do exemplo 15:


# Sintaxe:

x<-240 # nº de sucessos
n<-400
p<-x/n
round(p, digits = 3)
q<-1 - p
round(q, digits = 3)
round(qnorm(0.025, lower.tail = F), digits = 2) # valor tabelado - Normal Padrão
## Intervalo de conança de 95% ##
erro<-qnorm(0.025, lower.tail = F)*sqrt(p*q/n)
round(erro, digits = 3)
LI<- p - erro
round(LI, digits = 3)
LS<- p + erro
round(LS, digits = 3)

Exemplo 16 (Exercício): Sabe-se por experiência que 5% da produção de um determinado artigo

é defeituoso. Um novo empregado é contratado das 600 peças produzidas por ele, 82 são defeituosas.

Se ele produzir mais artigos defeituosos do que o padrão da empresa ele é demitido. Determine um

intervalo de 90% de conança e verique se você demitiria o empregado.

Rotina para a obtenção do intervalo de conança do exemplo 16:

124
7.8 Intervalos de conança para proporção

# Sintaxe:

x<-82 # nº de sucessos
n<-600
p<-x/n
round(p, digits = 3)
q<-1 - p
round(q, digits = 3)
round(qnorm(0.05, lower.tail = F), digits = 2) # valor tabelado - Normal Padrão
## Intervalo de conança de 90% ##
erro<-qnorm(0.05, lower.tail = F)*sqrt(p*q/n)
round(erro, digits = 3)
LI<- p - erro
round(LI, digits = 3)
LS<- p + erro
round(LS, digits = 3)

7.8.1 Dimensionamento do tamanho de amostras


Uma vez que p̂ é o estimador de p, podemos denir o erro na estimação de p por meio de p̂ como

ε =| p − p̂ |. Observe que estamos aproximadamente 100 (1 − α) % conantes de que esse erro seja
p
menor do que Zα/2 p (1 − p) /n. Ou seja, em situações em que o tamanho da amostra puder ser

selecionado, podemos escolher n de modo a estarmos 100 (1 − α) % conantes de que o erro seja menor
p
do que algum valor especicado ε. Se estabelecermos ε = Zα/2 p (1 − p) /n e resolvermos para n, o
tamanho apropriado da amostra será (MONTGOMERY & RUNGER, 2003):

 2
Zα/2
n= ε pb (1 − pb) . (19)

Exemplo 17: Em uma amostra aleatória de 85 mancais de eixos de manivelas de motores de auto-

móveis, 10 têm um acabamento de superfície mais rugoso do que as especicações permitidas. Quão

grande deverá ser a amostra se quisermos estar 95% conantes de que o erro em usar p̂ para estimar

p seja menor do que 0,05?

Solução: Tem-se que p̂ = 10/85 = 0, 12 é uma estimativa inicial de p. Dessa forma, o tamanho da
amostra será:
 2  2  2
Z0,05/2
n= ε p̂ (1 − p̂) = 1,96
0,05 0, 12 (1 − 0, 12) = 1,96
0,05 0, 12 (0, 88) ∼
= 163.

Rotina para a obtenção do intervalo de conança do exemplo 17:


# Sintaxe:

x<-10 # nº de sucessos
n<-85
p<-x/n
round(p, digits = 2)
q<-1 - p
round(q, digits = 2)
round(qnorm(0.025, lower.tail = F), digits = 2) # valor tabelado - Normal Padrão
erro<-0.05
## conança de 95%
# dimensionamento da amostra
n<-round((((qnorm(0.025,lower.tail=FALSE))/erro)^2)*p*q)
n

125
7 TEORIA DA ESTIMAÇÃO

7.9 Intervalo de conança para diferença entre duas proporções


Denição: Se p̂a e p̂b são as proporções de sucessos em amostras aleatórias de tamanhos na e nb ,
respectivamente, e q̂a = 1 − p̂a e q̂b = 1 − p̂b , um intervalo de conança de 100 (1 − α) % aproximado

para a diferença dos dois parâmetros binomiais (p̂a − p̂b ) é dado por (WALPOLE et al., 2009):
q
IC (Pa − Pb ) : p̂a − p̂b ± Zα/2 pˆna q̂aa + pˆnb q̂bb , (20)
100(1−α)%

em que: p̂a é a proporção estimada na amostra retirada da população A; p̂b é a proporção estimada na

amostra retirada da população B; na e nb são os tamanhos das amostras retiradas das populações A e

B, respectivamente.

Nota: Se ocorrer P.F.A.S.R., o componente da variância referente a população na qual ocorreu

P.F.A.S.R. deve ser multiplicado pelo seu respectivo fator de correção.

Exemplo 18 (Exercício): Dois setores de uma empresa querem saber se a proporção de funcionários

que chegam atrasados ao trabalho é a mesma. Você como gerente da empresa precisa decidir qual setor

receberá uma bonicação, ou seja, ganhará o setor que apresentar menor proporção de funcionários

atrasados. Com base nos resultados abaixo verique ao nível de 5% de signicância se um ou os dois

setores ganharão a bonicação.

Setor da Empresa Administrativo Financeiro

Proporção de funcionários atrasados 0,08 0,06

Tamanho da amostra 20 30

Rotina para a obtenção do intervalo de conança do exemplo 18:


# Sintaxe:

pa<-0.08
pf<-0.06
na<-20
nf<-30
qa<-1 - pa
round(qa, digits = 3)
qf<-1 - pf
round(qf, digits = 3)
round(qnorm(0.025, lower.tail = F), digits = 2) # valor tabelado - Normal Padrão
## Intervalo de conança de 95% ##
erro<-qnorm(0.025, lower.tail = F)*sqrt((pa*qa/na) + (pf*qf/nf))
round(erro, digits = 3)
LI<- (pa - pf) - erro
round(LI, digits = 3)
LS<- (pa - pf) + erro
round(LS, digits = 3)

7.10 Intervalo de conança para variância de uma população Normal


Denição: Se S2 é a variância da amostra aleatória de tamanho n de uma população normal, um
intervalo de conança de 100 (1 − α) % 2
para σ é dado por (WALPOLE et al., 2009):
 
(n−1)S 2 (n−1)S 2
IC σ 2

: χ2 α
; χ2 α
, (21)
100(1−α)% ( 2 ; v=n−1) (1− 2 ; v=n−1)

126
7.11 Intervalo de conança para o quociente de variâncias

em que χ2( α ; v=n−1) e χ2(1− α ; v=n−1) são os valores de χ2 com v = n−1 graus de liberdade, que deixam
2 2

uma área α/2 e 1 − α/2 à direita, respectivamente.

Exemplo 19: Sabe-se que o tempo de vida de um certo aparelho tem distribuição aproximadamente

normal. Uma amostra de 25 aparelhos forneceu uma média de 500 horas e desvio padrão de 50 horas.

Construa um intervalo σ2 para de 2% de probabilidade.

Solução: Sabe-se que n = 25, α = 2%, X̄ = 500hs e S = 50hs então:

 
(n−1)S 2 (n−1)S 2
σ2

IC : χ2 α
; χ2 α
100(1−α)% ( 2 ; v=n−1) (1− 2 ; v=n−1)

" #
(25−1)502 (25−1)502
σ2

IC : χ2 0,02
; χ2
98% ( 2 ;v=25−1 ) (1− 0,02
2 ;v=25−1)

 h 2 24∗502
i
IC σ 2 : 25∗50 ;
42,98 10,856
98%

IC σ 2 : [1396; 5527].

98%

Interpretação: Pode-se armar com 98% de conança que o intervalo contém a variabilidade (vari-

ância) do tempo de vida do aparelho.

Rotina para a obtenção do intervalo de conança do exemplo 19:


# sintaxe:

n<-25

v<-n-1

var<-2500

q1<-round(qchisq(0.99, v), digits = 3) # retorna quantil da qui-quadrado cuja área abaixo do mesmo é de 0,99

q1

q2<-round(qchisq(0.01, v), digits = 3) # retorna quantil da qui-quadrado cuja área abaixo do mesmo é de 0,01

q2

## Intervalo de conança de 99% ##

LI<- v*var/q1

round(LI, digits = 3)

LS<- v*var/q2

round(LS, digits = 3)

7.11 Intervalo de conança para o quociente de variâncias


Denição: Se S12 e S22 e forem as variâncias de amostras aleatórias de tamanhos n1 e n2 , respectiva-

mente, provenientes de duas populações normais independentes, com variâncias desconhecidas σ12 e σ22
, então um intervalo de conança de 100(1 − a)% para o quociente (razão) de variâncias é dado por

(WALPOLE et al., 2009):

 h S2 S12
i
IC σ12 /σ22 : S12 F(1−α/2; v2 =n2 −1, v1 =n1 −1) ; F
S22 (α/2; v2 =n2 −1, v1 =n1 −1)
, (22)
2
100(1−α)%

127
7 TEORIA DA ESTIMAÇÃO

em que F(α/2;v2 =n2 −1,v1 =n1 −1) e F(1−α/2;v2 =n2 −1,v1 =n1 −1) são os pontos percentuais a/2 superior e inferior da
distribuição F, com n2 −1 graus de liberdade no numerador e n1 −1 graus de liberdade no denominador,
respectivamente.

Nota: A Tabela da distribuição F contém somente pontos percentuais superiores, isto é, F(α/2;u,v) . Os
pontos percentuais inferiores F(1−α/2;u,v) podem ser encontrados como segue:

1
F(1−α/2;u,v) = F(α/2;u,v) . (23)

Dessa forma, F(1−α/2;v2 =n2 −1,v1 =n1 −1) = 1/F(α/2;v1 =n1 −1,v2 =n2 −1) , então o intervalo pode ser escrito

como:

 h S2 1 S2
i
IC σ12 /σ22 : S12 F ; S12 F(α/2;v2 =n2 −1,v1 =n1 −1) . (24)
2 (1−α/2;v1 =n1 −1,v2 =n2 −1) 2
100(1−α)%

Regra de decisão para o intervalo de conança (IC) para o quociente de variâncias


1. Se IC inclui 1 em sua extensão, então, estatisticamente σ12 = σ22 ;
2. Se IC > 1, então, estatisticamente σ12 > σ22 ;
3. Se IC < 1, então, estatisticamente σ12 < σ22 .
Exemplo 20: De duas populações normais levantaram-se amostras de tamanho 9 e 11 respectivamente,
2
obtendo-se S1 = 7, 14 e S22 = 3, 21 . Construa um intervalo de conança para o quociente das variâncias

das duas populações ao nível de 10% e verique se as variâncias populacionais podem ser consideradas

relativamente iguais.

Solução: Diante das informações temos que: S12 = 7, 14; S22 = 3, 21; n1 = 9; n2 = 11; S12 /S22 = 2, 2243;
v1 = 9 e v2 = 10, logo, o IC será:

 h S2 S12
i
IC σ12 /σ22 : S12 F(1−α/2; v2 =n2 −1; v1 =n1 −1) ; F
S22 (α/2; v2 =n2 −1; v1 =n1 −1)
2
100(1−α)%

 h i
IC σ12 /σ22 : 7,14
3,21 F
1
; 7,14
3,21 F(0,10/2; 10; 8)
(0,10/2; 8; 10)
90%

 h 1
i
IC σ12 /σ22 : 2, 2243 F ; 2, 2243F(0,05; 10; 8)
(0,05; 8; 10)
90%

 h 1
i
IC σ12 /σ22 : 2, 2243 3,0717 ; 2, 2243.3, 3472
90%

IC σ12 /σ22 : [0, 7241; 7, 4452]



90%

Interpretação: Uma vez que esse intervalo de conança inclui a unidade (um), não podemos armar

que as variâncias para as duas populações sejam diferentes com um nível de 90% de conança, ou seja,

as populações são homocedásticas.

Rotina para a obtenção do intervalo de conança do exemplo 20:

128
7.11 Intervalo de conança para o quociente de variâncias

# sintaxe:

n1<-9

n2<-11

v1<-n1 - 1

v2<-n2 - 1

v1

v2

var1<-7.14

var2<-3.21

q1<-round(qf(0.05, v2, v1), digits = 4) # retorna quantil da F cuja área abaixo do mesmo é de 0,05

q1

q2<-round(qf(0.95, v2, v1), digits = 4) # retorna quantil da F cuja área abaixo do mesmo é de 0,95

q2

## Intervalo de conança de 90% ##

LI<- (var1/var2)*q1

round(LI, digits = 4)

LS<- (var1/var2)*q2

round(LS, digits = 4)

Exemplo 21 (Exercício): Uma companhia fabrica propulsores para uso em motores de turbinas de

avião. Uma das operações envolve esmerilhar o acabamento de uma superfície particular para um

componente de liga de titânio. Dois processos diferentes para esmerilhar podem ser usados, podendo

produzir peças com iguais rugosidades médias na superfície. Uma amostra aleatória de n1 = 11peças,
proveniente do primeiro processo, resulta em um desvio padrão de S1 = 5, 1micro polegadas. Uma

amostra aleatória de n2 = 16peças, proveniente do segundo processo, resulta em um desvio padrão S2 =


4, 7de micro polegadas. Considerando que os dois processos sejam independentes e que a rugosidade

na superfície seja normalmente distribuída, encontre um intervalo de conança de 90% para a razão

de duas variâncias. Existe variabilidade da rugosidade da superfície para os dois processos?

Solução: Diante das informações temos que: S1 = 5, 1; S2 = 4, 7; n1 = 11; n2 = 16; S12 /S22 =
1, 177456; v1 = 10 e v2 = 15, logo, o IC será:

 h S2 S2
i
IC σ12 /σ22 : S12 F(1−α/2; v2 =n2 −1; v1 =n1 −1) ; S12 F(α/2; v2 =n2 −1; v1 =n1 −1)
2 2
100(1−α)%

 h S2 1 S2
i
IC σ12 /σ22 : S12 F ; S12 F(α/2; v2 =n2 −1; v1 =n1 −1)
2 (1−α/2; v1 =n1 −1; v=n2 −1) 2
100(1−α)%

 h 2 2
i
IC σ12 /σ22 : 5,1
4,72 F
1
; 5,1 F
4,72 (0,10/2; 15; 10)
(0,10/2; 10; 15)
90%

 h 1
i
IC σ12 /σ22 : 1, 177456 F ; 1, 177456.F(0,05; 15; 10)
(0,05; 10; 15)
90%

 h 1
i
IC σ12 /σ22 : 1, 177456 2,5437 ; 1, 177456.2, 8450
90%

129
7 TEORIA DA ESTIMAÇÃO

IC σ12 /σ22 : [0, 462891; 3, 349862]



90%

Interpretação: Uma vez que esse intervalo de conança contém 1 em sua extensão, não podemos

armar que as variâncias da rugosidade da superfície para os dois processos sejam diferentes com um

nível de conança de 90%.

Rotina para a obtenção do intervalo de conança do exemplo 21:


# sintaxe:

n1<-11

n2<-16

v1<-n1 - 1

v2<-n2 - 1

v1

v2

var1<-5.1^2

var2<-4.7^2

q1<-round(qf(0.05, v2, v1), digits = 4) # retorna quantil da F cuja área abaixo do mesmo é de 0,05

q1

q2<-round(qf(0.95, v2, v1), digits = 4) # retorna quantil da F cuja área abaixo do mesmo é de 0,95

q2

## Intervalo de conança de 90% ##

LI<- (var1/var2)*q1

round(LI, digits = 4)

LS<- (var1/var2)*q2

round(LS, digits = 4)

7.12 Exercícios propostos


Exercício 1: (BRUNI, 2008) As vendas semanais de 15 lojas de uma região de um país apresentaram

uma média igual a $20.000,00. Sabendo que as vendas de todas as lojas da região é uma variável

normalmente distribuída, com desvio padrão igual a $8.300,00. Supondo um nível de conança igual

a 96%, qual deve ser a média populacional das vendas?

Rotina do Exercício 1:
media<-20000

sigma<-8300

n<-15

erropad<-sigma/sqrt(n)

quantil<-qnorm(0.02,lower.tail=FALSE)

# Intervalo de conança 96%

erro<-quantil*erropad

LI<-media-erro

LI

LS<-media+erro

LS

Exercício 2: (BRUNI, 2008) Uma amostra de 16 barras de chocolate revelou os pesos apresentados

na tabela seguinte. Qual deve ver o verdadeiro peso, para um nível de conança de 97%? Suponha

população normalmente distribuída.

130
7.12 Exercícios propostos

0,212 0,233 0,246 0,271


0,274 0,244 0,288 0,293
0,300 0,215 0,233 0,225
0,265 0,276 0,270 0,202

Rotina do Exercício 2:
dados<-read.table("Exer_2_barras_chocolate.txt", h=T)

attach(dados)

dados

media<-mean(dados)

media

s<-sd(dados)

n<-16

v<-n-1

erropad<-s/sqrt(n)

quantil<-qt(0.015, v, lower.tail=FALSE)

# Intervalo de conança 97%

erro<-quantil*erropad

LI<-media-erro

LI

LS<-media+erro

LS

Exercício 3: (BRUNI, 2008) O consumo calórico diário de um grupo de alunas da faculdade pode ser

visto na tabela seguinte (valores em calorias). Com base nos valores apresentados, estime qual deve

ser o verdadeiro valor calórico diário médio da população. Suponha um nível de conança igual a 93%

e a população normalmente distribuída.

2.480 3.380 3.020


3.520 2.640 2.650
2.760 2.990 2.890

Rotina do Exercício 3:
dados<-read.table("Exer_3_consumo_calorico.txt", h=T)

attach(dados)

dados

media<-mean(dados)

media

s<-sd(dados)

n<-9

v<-n-1

erropad<-s/sqrt(n)

quantil<-qt(0.035, v, lower.tail=FALSE)

# Intervalo de conança 93%

erro<-quantil*erropad

LI<-media-erro

LI

LS<-media+erro

LS

Exercício 4 modicado (BRUNI, 2008) Uma empresa fabricante de linhas de pesca testou uma

amostra de 25 carretéis de náilon, encontrando as resistências em kgf apresentadas no quadro seguinte.

131
7 TEORIA DA ESTIMAÇÃO

Estime o intervalo de 98% de conança para resistência média deste produto. Suponha a população

normalmente distribuída.

10 10 10 11 10
8 10 10 10 11
9 11 9 11 9
7 9 7 9 11
11 11 8 11 10

Rotina do Exercício 4:
dados<-read.table("Exer_4_linha_pesca.txt", h=T)

attach(dados)

dados

media<-mean(dados)

media

s<-sd(dados)

n<-25

v<-n-1

erropad<-s/sqrt(n)

quantil<-qnorm(0.01, v, lower.tail=FALSE)

# Intervalo de conança 98%

erro<-quantil*erropad

LI<-media-erro

LI

LS<-media+erro

LS

Exercício 5: (BRUNI, 2008) Uma amostra aleatória foi extraída dos alunos da Economia. Os pesos

destes alunos estão representados na tabela seguinte. Com base nos dados expostos e empregando

um nível de signicância igual a 5%, estime qual deve ser o peso médio populacional destes alunos.

Suponha a população normalmente distribuída.

45 51 96 62

68 55 74 57

72 60 43 62

Rotina do Exercício 5:

132
7.12 Exercícios propostos

dados<-read.table("Exer_5_pesos_alunos.txt", h=T)

attach(dados)

dados

media<-mean(dados)

media

s<-sd(dados)

n<-12

v<-n-1

erropad<-s/sqrt(n)

quantil<-qt(0.025, v, lower.tail=FALSE)

# Intervalo de conança 97%

erro<-quantil*erropad

LI<-media-erro

LI

LS<-media+erro

LS

b) Ao nível de 5% de signicância, determine o intervalo de conança para o peso médio dos alunos

da Economia.

c) Ao nível de 1% de signicância, determine o intervalo de conança para o peso médio dos alunos

da Economia.

Exercício 6: Uma Cia adquiriu 500 cabos. Uma amostra de 30 deles ao acaso apresentou tensão de

ruptura média igual a 2.400 kg com desvio padrão de 150 kg.

a) Obter o intervalo com 99% de conança para a verdadeira tensão média de ruptura desses cabos.
b) Obter o intervalo com 95% de conança para a verdadeira tensão média de ruptura desses cabos.
c) Obter o intervalo com 90% de conança para a verdadeira tensão média de ruptura desses cabos.

133
8 TEORIA DA DECISÃO  TESTES DE
HIPÓTESES

O maior objetivo da inferência estatística é realizar inferências sobre os parâmetros desconhecidos

a partir de amostras retiradas da população objeto de estudo. Uma das alternativas, muitas vezes

utilizadas são os Testes de Hipóteses que consistem na tomada de decisões a partir da aceitação ou

não de hipóteses, e por isso a teoria de testes de hipóteses também é chamada de Teoria da Decisão.

A Teoria da Decisão tem como objetivo de fornecer um processo de análise denominado de teste de

hipóteses, que nos permite decidir por um valor do parâmetro θ ou por sua modicação com um grau

de risco conhecido. Suponhamos que certa distribuição dependa de um parâmetro θ e que não se

conheça θ ou, então, há razões para acreditar que θ variou, seja pelo passar do tempo ou, então, pela

introdução de novas técnicas na produção (MORETTIN, 2010).

8.1 Hipótese estatística


Uma hipótese, no contexto de inferência estatística, é denida como uma proposição acerca de um

parâmetro populacional. Além disso, poder-se-ia dizer que é uma proposição cuja veracidade pode

ser colocada em dúvida, ou que da qual não se tem total certeza. Em função da possibilidade de ela

ser falsa, quase sempre pensa-se em uma hipótese complementar, a negação da primeira. A hipótese

estatística é uma suposição quanto ao valor de um parâmetro que será vericado por intermédio de um

teste paramétrico ou uma informação quanto a natureza da população que seria vericado por meio de

um teste não paramétrico (aderência). Portanto, pode-se denir teste de hipótese como a proposição

de hipóteses H0 e H1 .
De modo geral, as hipóteses irão se referir ao valor desconhecido do parâmetro em questão estar contido

em subespaços do espaço paramétrico Θ (universo):


 H : θΘ
0 0
, Θ = Θ0 ∪ Θ1 .
 H : θΘ
1 1

A rejeição de uma hipótese implica na aceitação da outra, e vice versa.

8.2 Tipos de hipóteses


Formulam-se duas hipóteses básicas: a hipótese original de interesse, e sua complementar, que são

respectivamente chamadas de hipótese de nulidade e hipótese alternativa, e são em geral simbolizadas

por H0 e H1 , respectivamente.

ˆH 0 : Hipótese nula ou de nulidade ou da existência  consiste na hipótese a ser testada.

135
8 TEORIA DA DECISÃO  TESTES DE HIPÓTESES

ˆH 1 : Hipótese alternativa  consiste na hipótese contrária a H0 .

Vejamos alguns exemplos de hipótese:

ˆ Os pneus da marca A têm vida média µ = µ0 ;

ˆ O nível de inteligência de uma população de universitários é µ = µ0 ;

ˆ O equipamento A produz peças com variabilidade menor que a do equipamento B:


2 < σ2 ;
σA B

ˆ O pneu produzido pelo processo A é mais durável que o pneu produzido pelo processo B: µA > µB .

8.3 Tipos de testes de hipóteses

De acordo com o tipo de hipótese formulada pode-se ter os seguintes tipos de testes de hipóteses:

1) Teste Bilateral:
Apresenta duas regiões de rejeição (regiões críticas) da hipótese H0 situadas nos extremos da distri-

buição amostral que serão denotadas por (RRH0 ), e é utilizado para testar as hipóteses do tipo:

H0 : θ = θ0 versus H1 : θ 6= θ0

Figura 1: Região Crítica

2) Teste Unilateral à Direita:


Apresenta apenas uma única região de rejeição da hipótese H0 , situada no extremo superior (à direita)
da distribuição amostral, e é utilizado para testar hipóteses do tipo:

136
8.4 Tipos de erros

H0 : θ = θ0 versus H1 : θ > θ0

Figura 2: Região Crítica

3) Teste Unilateral à Esquerda:


Apresenta apenas uma única região de rejeição da hipótese H0 , situada no extremo inferior (à esquerda)
da distribuição amostral, e é utilizado para testar hipóteses do tipo:

H0 : θ = θ0 versus H1 : θ < θ0

Figura 3: Região Crítica

8.4 Tipos de erros

Ao realizar um teste de hipótese, dois tipos de erros são possíveis, rejeitar H0 quando ela é verdadeira,

ou aceitá-la quando ela é falsa. Esses erros são chamados, respectivamente, de erro tipo I e erro tipo

II. No quadro abaixo é ilustrado as decisões sob a hipótese H0 (FONSECA & MARTINS, 2009):

137
8 TEORIA DA DECISÃO  TESTES DE HIPÓTESES

Decisão H0 Verdadeira H0 Falsa


Não Rejeitar H0 Não há erro  (1 − α) = γ (1) Erro tipo II β
(Decisão correta)
Rejeitar H0 Erro Tipo I α (2) Não há erro  (1 − β) (3)

(Decisão correta)
(1) γ : nível de conança; (2) α : nível de signicância; (3) (1 − β): nível de signicância;

Em síntese temos:

1. Erro tipo I (α): ocorre quando rejeita-se H0 e H0 é verdadeira. A probabilidade se cometer o

erro tipo I é denotada por α e denominada como nível de signicância do teste;

2. Erro tipo II (β): ocorre quando não rejeita-se H0 e H0 é falsa. A probabilidade se cometer o erro

tipo II é denotada por β.


O objetivo em nossa decisão, é minimizar as probabbilidades dos dois tipos de erros. Porém, esta é

uma tarefa difícil, porque, para um amostra de determinado tamanho, a probabilidade de se incorrer

em um erro tipo II aumenta à medida que diminui a probabilidade do erro tipo I, e vice-versa. A

redução simultânea dos erros poderá ser alcançada pelo aumento do tamanho da amostra (FONSECA

& MARTINS, 2009).

8.5 Procedimento para realização de um teste de hipótese


1. Formular as hipóteses H0 e H1 ;
2. Fixar o valor de a (nível de signicância);
3. Escolha a estatística adequada para o teste;

4. Construir a regra de decisão: Região de Rejeição de H0 (RRH0 ) e Região de Não Rejeição de

H0 (RN RH0 );
5. Tomar a decisão;

6. Conclusão.

8.6 Testes de hipóteses para média


8.6.1 Teste de hipótese para média (µ) com variância populacional (σ2 ) conhecida:
Suponha que desejamos testar as hipóteses H0 : µ = µ0 versus H1 : µ 6= µ0 sendo µ0 uma constante

especícada. Temos uma amostra aleatória X1 , X2 , X3 , . . . , Xn a partir da população. Visto que X


tem uma distribuição normal (isto é, a distribuição amostral de X é aproximadamente normal) com

média µ X = µ0 e desvio padrão σX = σ/ n, se a hipótese nula for verdadeira, poderemos construir

uma região crítica baseada no valor calculado da média amostral X. Geralmente, é mais conveniente

padronizar a média amostral e usar uma estatística de teste baseada na distribuição normal padrão.

Ou seja, o procedimento de teste para H0 : µ = µ0 usa a seguinte estatística de teste (MONTGOMERY

& RUNGER, 2003):

X̄−µ0
Zcalc = √σ .
n

A seguir é apresentado a regra de decisão:

138
8.6 Testes de hipóteses para média

H0 versus H1 Teste Rejeita-se H0


µ = µ0 versus µ < µ0 Unilateral à esquerda Z < −Zα
µ = µ0 versus µ > µ0 Unilateral à direita Z > Zα
µ = µ0 versus µ 6= µ0 Bilateral Z < −Zα/2 e Z > Zα/2

Exemplo 1: (MORETTIN, 2010)De uma população normal com variância 36, toma-se uma amostra

casual de tamanho 16, obtendo-se X̄ = 43. Ao nível de 10%, testar as hipóteses, H0 : µ = 45 versus

H1 : µ 6= 45.
De acordo com o procedimento apresentado na seção (8.5) segue-se a resolução do exercício:

(i) H0 : µ = 45 versus H1 : µ 6= 45
(ii) α = 10% = 0, 10
X̄−µ 43−45
(iii) Estatística do Teste: Zcalc = √σ = √6
= −1, 333
n 16

(iv) Plotar região crítica:

Distribuição Normal Padrão


0.4
0.3
Probabilidades

0.2
0.1

RRHo (0,05) RNRHo (0,90) RRHo (0,05)


0.0

−3 −2 −1.64 −1 0 1 1.64 2 3

Figura 4: Região Crítica

(v) Decisão: Como −1, 64 < Zcalc < 1, 64, não rejeita-se a hipótese H0 .
(vi) Conclusão: Ao nível de signicância de 10% não há evidências para rejeitar a hipótese nula (H0 ),

ou seja, µ = 45.
Rotina do Exemplo 1:
>sigma2<-36

>sigma<-sqrt(sigma2)

>mi<-45

>media<-43

>n<-16

>est<-(media-mi)/(sigma/sqrt(n))

>est

[1] -1.333333

>quantil<-qnorm(0.05, lower.tail=FALSE)

>quantil

[1] 1.644854

#Regra de decisão

# se est >quantil ou est <quantil rejeita-se Ho

139
8 TEORIA DA DECISÃO  TESTES DE HIPÓTESES

Exemplo 2 (MORETTIN, 2010): Uma fábrica anuncia que o índice de nicotina dos cigarros da marca

X apresenta-se abaixo de 26 mg por cigarro. Um laboratório realiza 10 análises do índice obtendo: 26,

24, 23, 22, 28, 25, 27, 26, 28, 24. Sabe-se que o índice de nicotina dos cigarros da marca X se distribui
2
normalmente com variância 5,36 mg . Pode-se aceitar a armação do fabricante, ao nível de 5%?

De acordo com o procedimento apresentado na seção (8.5) segue-se a resolução do exercício:

(i) H0 : µ = 26 mg versus H1 : µ < 26 mg

(ii) α = 5% = 0, 05
X̄−µ 25,3−26
(iii) Estatística do Teste: Zcalc = √σ = q
5,36
= −0, 96
n
10

(iv) Plotar região crítica

Distribuição Normal Padrão


0.4
0.3
Probabilidades

0.2
0.1

RRHo (0,10) RNRHo (0,90)


0.0

−3 −2 −1.64 −1 0 1 2 3

Figura 5: Região Crítica

(v) Decisão: Como Zcalc = −0, 96 > −1, 64, não rejeita-se a hipótese H0 .
(vi) Conclusão: Ao nível de signicância de 10% não há evidências para rejeitar a hipótese nula (H0 ),
ou seja, µ = 26. Logo a armação do fabricante é falsa.

Rotina do Exemplo 2:
>dados<-read.table("Exemplo_2.txt", h=T)

>attach(dados)

>dados

>mi<-26

>mi

[1] 26

>media<-mean(dados)

>media

nicotina

25.3

>sigma2<-5.36

>sigma<-sqrt(sigma2)

>n<-10

>est<-(media-mi)/(sigma/sqrt(n))

>est

nicotina

-0.9561271

>quantil<-qnorm(0.05)

>quantil

[1] -1.644854

140
8.6 Testes de hipóteses para média

Exemplo 3 (MORETTIN, 2010): Um fabricante de lajotas de cerâmicas introduz um novo material

em sua fabricação e acredita que aumentará a resistência média, que é de 206 kg. A resistência das

lajotas tem distribuição normal com desvio padrão de 12 kg. Retira-se uma amostra de 30 lajotas,

obtendo-se X̄ = 210 kg. Ao nível de 10%, pode o fabricante aceitar que a resistência média de suas

lajotas tenha aumentado?

De acordo com o procedimento apresentado na seção (8.5) segue-se a resolução do exercício:

(i) H0 : µ = 206 kg versus H1 : µ > 206 kg

(ii) α = 10% = 0, 10
X̄−µ 210−206
(iii) Estatística do Teste: Zcalc = √σ = √12
= 1, 83
n 30

(iv) Plotar região crítica

Distribuição Normal Padrão


0.4
0.3
Probabilidades

0.2
0.1

RNRHo (0,90) RRHo (0,10)


0.0

−3 −2 −1 0 1 1.28 2 3

Figura 6: Região Crítica

(v) Decisão: Como Zcalc = 1, 83 > 1, 28, rejeita-se a hipótese H0 .


(vi) Conclusão: Ao nível de signicância de 10% há evidências para rejeitar a hipótese nula (H0 ), ou
seja, µ > 206. Logo a armação do fabricante é correta.

Rotina do Exemplo 3:
> mi<-206

> mi

[1] 206

> media<-210

> sigma<-12

> n<-30

> est<-(media-mi)/(sigma/sqrt(n))

> est

[1] 1.825742

> quantil<-qnorm(0.10, lower.tail=FALSE)

> quantil

[1] 1.281552

8.6.2 Teste de hipótese para média (µ) de uma população Normal com variância
populacional (σ2 ) desconhecida:
Suponha que a população de interesse tenha uma distribuição normal, com média µ e variância σ2
desconhecidas. Desejamos testar as hipóteses H0 : µ = µ0 versus H1 : µ 6= µ0 sendo µ0 uma constante

141
8 TEORIA DA DECISÃO  TESTES DE HIPÓTESES

especícada. Note que essa situação é similar àquela da seção (8.6.1), exceto que agora µ e σ2, são

desconhecidas. Considere que uma amostra aleatória de tamanho n, como X1 , X2 , X3 , . . . , Xn , seja


retirada a partir da população e sejam X 2
e S a média e a variância amostral, respectivamente. O

procedimento de teste para H0 : µ = µ0 usa a seguinte estatística de teste (MONTGOMERY &

RUNGER, 2003):

tcalc = X̄−µ0
S

,
n

tem uma distribuição t-Student, com v =n−1 graus de liberdade (gl).

A seguir é apresentado a regra de decisão:

Regeita-se H0
H0 versus H1 Teste n < 30 com v =n−1 gl n ≥ 30
µ = µ0 versus µ < µ0 Unilateral à esquerda tcalc < −t(α,v) Z < −Zα
µ = µ0 versus µ > µ0 Unilateral à direita tcalc > t(α,v) Z > Zα
µ = µ0 versus µ 6= µ0 Bilateral tcalc < −t(α/2,v) e t > t(α/2,v) Z < −Zα/2 e Z > Zα/2

Nota Importante: Se amostra for grande e a variância populacional for desconhecida, podemos usar

o procedimento de teste baseado na distribuição normal (teste  Z). Entretanto, se amostra for pequena

e a variância populacional for desconhecida, usa-se a distribuição t-Student (teste  t ). Neste material

será trabalhado apenas o teste  t (para variância desconhecida) em ambos os casos. Isso se deve ao

fato de que o teste  Z é uma particularidade do teste  t para um número razoável de amostras(n ≥ 30)
e a utilização de  t em casos de variância conhecida não é um problema, pelo contrário, cobre o teste

para os casos de erro do tipo I.

A função de teste de hipótese para uma média no R é realizada por meio do comando  t.test() .

Posteriormente veremos que a mesma função servirá para comparação entre duas médias. Veja abaixo

a sintaxe da função:

#sintase

# Onde as hipóteses podem assumir os seguintes valores:

# greater (teste unilateral de H1 : µ > µ0 - teste unilateral à direita

# less (teste unilateral de H1 : µ < µ0 - teste unilateral á esquerda

# two.sided (teste bilateral de H1 : µ 6= µ0 - teste bilateral

# β= nível de conança do teste (1-α)

8.6.2.1 Teste de normalidade - Shapiro-Wilk


Diante do exposto nesta seção ca evidente a necessidade de vericar se a pressuposição de normalidade

da população é satisfeita quando a variância populacional é desconhecida. No presente material a

pressuposição de normalidade será estudada por meio do teste de Shapiro-Wilk.

As hipóteses do teste são:

H0 : A amostra provém de uma população normal versus H1 : A amostra não provém de uma população
normal.

A seguir será apresentado o procedimento para a aplicação do teste:

142
8.6 Testes de hipóteses para média

1. Ordenar as n observações da amostra: x1 ≤ x2 ≤ x3 ≤ . . . ≤ xn ;


 n
2
P
n n xi
(xi − x̄)2 = x2i −
P P i=1
2. Carcular: ;
n
i=1 i=1
n/2
P
3. Calcular: b= an−i+1 (xn−i+1 − xi ), se n é ímpar despreze a observação mediana;
i=1
b2
4. Calcular a estatística do teste: Wcalc = n ;
(xi −x̄)2
P
i=1

5. Decisão:

a) Regra de Decisão por meio da tabela: Rejeitar a H0 ao nível de signicância α se Wcalc <
Wα ;
b) Regra de decisão por meio do p-value: Rejeitar a H0 ao nível de signicância α se p−value <
α.

Nota: Para realizar o cálculo de b (denominador da estatística W ) é necessário identicar na tabela


abaixo os coecientes (an−i+1 ).

Tabela 1 - Coecientes (an−i+1 ) para o teste de normalidade W de Shapiro-Wilk.

n
i 5 6 7 8 9 10 11 12

1 0,6646 0,6431 0,6233 0,6052 0,5888 0,5739 0,5601 0,5475

2 0,2413 ,2806 0,3031 0,3164 0,3244 0,3291 0,3315 0,3325

3 0,0000 0,0875 0,1401 0,1743 0,1976 0,2141 0,2260 0,2347

4 0,0000 0,0561 0,0947 0,1224 0,1429 0,1586

5 0,0000 0,0399 0,0695 0,0922

6 0,0000 0,0303

Exemplo 4: (BRUNI, 2008) Um determinado fabricante alega que um componente eletrônico dura,

em média, pelo menos 495 horas. Uma amostra com 12 componentes expôs o seguinte resultado,

que apresenta a duração de cada componente analisado: 475, 460, 511, 457, 468, 441, 484, 450, 476,

503, 447, 500. É possível concordar com o fabricante, assumindo α = 3%? Assume-se população

normalmente distribuída.

Antes de realizar o teste de hipótese para média (teste t), será realizado o teste de Shapiro-Wilk

para vericar se amostra é proveniente de uma população normal. De acordo com o procedimento

apresentado seção (8.6.2.1) segue os resultados do teste de Shapiro-Wilk:

1. As hipóteses do teste são: H0 : A amostra provém de uma população normal e H1 : A amostra


não provém de uma população normal;

2. Ordenar as n observações da amostra: 441, 447, 450, 457, 460, 468, 475, 476, 484, 500, 503, 511;
 12 2
P
12 12 xi
(5672)2
(xi − x̄)2 = x2i −
P P i=1
3. Carcular:
n = 2.686.850 − 12 = 5.884, 6667;
i=1 i=1
n/2
P
4. Para calcular b= an−i+1 (xn−i+1 − xi ), montaremos um quadro auxiliar.
i=1

143
8 TEORIA DA DECISÃO  TESTES DE HIPÓTESES

i n - i +1 an−i+1 xn−i+1 xi (xn−i+1 − xi ) an−i+1 (xn−i+1 − xi )


1 12 0,5475 511 441 70 0,5475*70 = 38,325
2 11 0,3325 503 447 56 0,3325*56 = 18,62
3 10 0,2347 500 450 50 0,2347*50 = 11,735
4 9 0,1586 484 457 27 0,1586*27 = 4,2822
5 8 0,0922 476 460 16 0,0922*16 = 1,4752
6 7 0,0303 475 468 7 0,0303*7 = 0,2121
6
an−i+1 (xn−i+1 − xi )=74,6495
P
b=
i=1

b2 (74,6495)2
5. Calcular a estatística do teste: Wcalc = n = 5.884,6667 = 0, 947;
P 2
(xi −x̄)
i=1

6. Decisão: Ao nível de signicância de 5% (α = 5%)e com n = 12, tem-se a partir da tabela de


valores críticos da estatística W de Shapiro-Wilk que: W(α=0,05;n=12) = 0, 859. Como Wcalc >
Wα , então não rejeita-se a hipótese H0 , ou seja, a amostra provém de uma população normal.
Dessa forma, pode-se prossegir com o teste de hipótese para média pois a pressuposição de
normalidade foi satisfeita.

Esse teste de normalidade pode ser realizado por meio do comando  shapiro.test(). A seguir será

apresentada a rotina e a saída do freeware R referente ao teste de Shapiro-Wilk.

Rotina do Exemplo 4: teste de normalidade de Shapiro-Wilk

# Sintaxe: shapiro.test()
dados<-read.table("Exemplo_4.txt", h=T)
attach(dados)
# vericando pressuposição de normalidade - teste de Shapiro-Wilk
shapiro.test(dados$tempo)
Shapiro-Wilk normality test
data: dados$tempo
W = 0.947, p-value = 0.594

Nota Importante: Conclusão do teste de Shapiro-Wilk a partir do p-value.

Sabe-se que a regra de decisão a partir do p-value, consiste em rejeitar H0 ao nível de signicância α,
se p − value < α. Então, ao nível de signicância de 5% (α = 5%) , não rejeita-se H0 pois p-value =

0,594 > 0,05. Portanto, a amostra provém de uma população normal. Dessa forma, pode-se prossegir

com o teste de hipótese para média pois a pressuposição de normalidade foi satisfeita.

De acordo com o procedimento apresentado na seção (8.5) segue-se a resolução do exercício:

1. Hipóteses: H0 : µ = 495 horas versus H1 : µ > 495 horas.

2. α = 3% = 0, 03

X̄−µ 462,6667−495
3. Estatística do Teste: tcalc = √s = 23,12941

= −3, 35
n 12

4. Plotar região crítica

144
8.6 Testes de hipóteses para média

Distribuição t−Student com v = 11 g.l.

0.4
0.3
Probabilidades

0.2
0.1
RNRHo (0,97) RRHo (0,03)

0.0

−5 −3.35 0 2.096 5

Figura 7: Região Crítica

5. Decisão: Como tcalc = −3, 35 < t(α=0,03; v=11) = 2, 096, não rejeita-se a hipótese H0 .
6. Conclusão: Ao nível de signicância de 3% não há evidências para rejeitar a hipótese nula (H0 ),
ou seja, µ = 485. Logo a armação do fabricante não é correta.

Rotina do Exemplo 4: Rotina do Exemplo 4 por meio do comando t.test:

> dados<-read.table("Exemplo_4.txt", h=T) dados<-read.table("Exemplo_4.txt", h=T)

> attach(dados) attach(dados)

> dados # vericando pressuposição de normalidade - teste de Shapiro-Wilk #

# vericando pressuposição de normalidade - teste de Shapiro-Wilk # shapiro.test(dados$tempo)

shapiro.test(dados$tempo) Shapiro-Wilk normality test

Shapiro-Wilk normality test data: dados$tempo

data: dados$tempo W = 0.947, p-value = 0.594

W = 0.947, p-value = 0.594 # resultado - ao nível de signicãncia de 5 % os dados são normais #

# resultado - ao nível de signicãncia de 5 % os dados são normais # # Aplicando o teste

> mi<-495 > t.test(dados, alternative = "two.sided", mu = 495, conf.level=0.97)

> media<-mean(dados) One Sample t-test

> s<-sd(dados) data: dados

> n<-12 t = -3.3449, df = 11, p-value = 0.006537

> v<-n-1 alternative hypothesis: true mean is not equal to 495

> est<-(media-mi)/(s/sqrt(n)) 97 percent condence interval:

> est 456.0368 489.2965

tempo sample estimates:

-3.344873 mean of x

> quantil<-qt(0.03, v, lower.tail=FALSE) 472.6667

> quantil

[1] 2.096139

Nota: Para interpretar os testes de hipóteses no R temos que comparar o p-value (p-valor) com o
nível de signicância: Se p-value > α, não rejeita-se H0 ; Se p-value < α, rejeita-se H0 .
Portanto, a conclusão a partir do p-valor, para o exemplo 4, seria: Visto que, p-value < 0,03 há
evidências para rejeitar a hipótese nula (H0 ), ou seja, não é possivel concordar com a armação do
fabricante.

Exemplo 5: (MORETTIN, 2010) Uma máquina é projetada para fazer esferas de aço de 1 cm de

raio. Uma amostra de 10 esferas apresentou uma média de 1,004 cm e desvio padrão de 0,003 cm. Há

razões para se suspeitar que a máquina esteja produzindo esferas com raio diferente de 1 cm ao nível

de 10%?

145
8 TEORIA DA DECISÃO  TESTES DE HIPÓTESES

De acordo com o procedimento apresentado na seção (8.5) segue-se a resolução do exercício:

(i) H0 : µ = 1 cm versus H1 : µ 6= 1 cm

(ii) α = 10% = 0, 10
X̄−µ0 1,004−1
(iii) Estatística do Teste: tcalc = S

= 0,003

= 4, 21637
n 10

(iv) Plotar região crítica

Distribuição t−Student com v = 9 g.l.

0.4
0.3
Probabilidades

0.2
0.1

RRHo (0,05) RNRHo (0,90) RRHo (0,05)


0.0

−5 −1.83 0 1.83 5

Figura 8: Região Crítica

(v) Decisão: Como tcalc = 4, 21637 > 1, 83, rejeita-se a hipótese H0 .


(vi) Conclusão: Ao nível de signicância de 10% há evidências para rejeitar a hipótese nula (H0 ), ou

seja, há razões para se suspeitar que a máquina esteja produzindo esferas com raio diferentes de 1 cm.

Rotina do Exemplo 5:
> mi<-1

> mi

[1] 1

> media<-1.004

> s<-0.003

> n<-10

> v<-n-1

> est<-(media-mi)/(s/sqrt(n))

> est

[1] 4.21637

> quantil<-qt(0.05, v, lower.tail=FALSE)

> quantil

[1] 1.833113

Exemplo 6: (MORETTIN, 2010) Querendo determinar o peso médio de nicotina dos cigarros de sua
25 25
Xi2 =
P P
produção, um fabricante recolheu uma amostra de 25 cigarros, obtendo Xi = 950mg e
i=1 i=1
36106mg 2 . Supondo a distribuição normal para o peso de nicotina, testar se o peso médio de nicotina

é inferior a 40mg. Adote nível de signicância de 10%.

De acordo com o procedimento apresentado na seção (8.5) segue-se a resolução do exercício:

(i) H0 : µ = 40 mg versus H1 : µ < 40 mg

(ii) α = 10% = 0, 10

146
8.7 Teste de hipótese para diferença de duas médias (amostras independentes)

X̄−µ 38−40
(iii) Estatística do Teste: tcalc = S

= 0.5

= −20
n 25

(iv) Plotar região crítica

Distribuição t−Student com v = 24 g.l.

0.4
0.3
Probabilidades

0.2
0.1

RRHo (0,10) RNRHo (0,90)


0.0

−5 −1.317 0 5

Figura 9: Região Crítica

(v) Decisão: Como t = −20 < −1.317836, rejeita-se a hipótese H0 .


(vi) Conclusão: Ao nível de signicância de 10% há evidências para rejeitar a hipótese nula (H0 ), ou

seja, o peso médio de nicotina dos cigarros é inferior a 40 mg.

Rotina do Exemplo 6:
> mi<-40

> mi

[1] 40

> n<-25

> somax<-950

> somax2<-36106

> media<-somax/n

> media

[1] 38

> s<-sqrt((somax2-((somax)^2)/n)*(1/(n-1)))

> s

[1] 0.5

> est<-(media-mi)/(s/sqrt(n))

> est

[1] -20

> quantil<-qt(0.10, 24)

> quantil

[1]-1.317836

8.7 Teste de hipótese para diferença de duas médias (amostras


independentes)
8.7.1 Teste de hipótese para diferença de duas médias de populações Normal com
variâncias populacionais conhecidas:
Suponha que duas amostras aleatórias independentes de tamanhos n1 e n2 , respectivamente, são se-
2 2
lecionadas de duas populações com médias µ1 e µ2 e variâncias σ1 e σ2 . Sabemos que a variável

147
8 TEORIA DA DECISÃO  TESTES DE HIPÓTESES

aleatória:

X̄2 )−(µ1 −µ2 )


(X̄1 −r
Zcalc = 2
σ1 σ2
,
n1
+ n2
2

tem uma distribuição normal padrão. Aqui assume-se que n1 e n2 são sucientemente grandes para

aplicarmos o teorema central do limite. É claro, se duas populações são normais, a estatística dada

tem uma distribuição normal padrão, mesmo para n1 e n2 pequenos (WALPOLE et al., 2009).

Suponha que estou interessado em testar a diferença na média (µ1 − µ2 ) como sendo igual a um valor

especíco d0 . Assim, a hipótese nula será estabelecida como H0 : µ1 − µ2 = d0 . Em muitos casos,

d0 = 0, o que signica que estamos testando a igualdade de duas médias, isto é, H0 : µ1 − µ2 = 0


(MONTGOMERY & RUNGER, 2003).

A seguir é apresentado a regra de decisão:

H0 versus H1 Teste Regeita-se H0


µ1 − µ2 = d0 versus µ1 − µ2 < d0 Unilateral à esquerda Zcalc < −Zα
µ1 − µ2 = d0 versus µ1 − µ2 > d0 Unilateral à direita Zcalc > Zα
µ1 − µ2 = d0 versus µ1 − µ2 6= d0 Bilateral Zcalc < −Z α2 ou Zcalc > Z α2

Exemplo 7: Um supermercado não sabe se deve comprar lâmpadas da marca A ou B de mesmo preço.

Testa-se uma amostra de 100 lâmpadas de cada marca e se quer saber se a marca A é melhor que a B

ao nível de 2,5% de probabilidade.

Marca X̄ σ
A 1160 horas 90 horas

B 1140 horas 80 horas

De acordo com o procedimento apresentado na seção (8.5) segue-se a resolução do exercício:

(i) H0 : µA = µB versus H1 : µA > µB


(ii) α = 2, 5% = 0, 025
(X̄1 −r
X̄2 )−(µ1 −µ2 ) (1160−1140)
(iii) Estatística do Teste: Zcalc = 2
= r = 1, 66
σ1 σ2 902 2
+ n2 100
+ 80
n1 2 100

(iv) Plotar região crítica

Distribuição Normal Padrão


0.4
0.3
Probabilidades

0.2
0.1

RNRHo (0,975) RRHo (0,025)


0.0

−5 0 1.96 5

Figura 10: Região Crítica

148
8.7 Teste de hipótese para diferença de duas médias (amostras independentes)

(v) Decisão: Como Zcalc = 1, 66 < 1, 96, não rejeita-se a hipótese H0 .


(vi) Conclusão: Ao nível de signicância de 2,5% não há evidências para rejeitar a hipótese nula (H0 ),

ou seja, não existe diferença signicativa entre o tempo de vida médio das lâmpadas A e B.

Rotina do exemplo 7:
> n1<-100

> n2<-100

> media1<-1160

> media2<-1140

> desvio1<-90

> desvio2<-80

> var1<-desvio1^2

> var2<-desvio2^2

> est<-(media1-media2)/(sqrt((var1/n1)+(var2/n2)))

> est

[1] 1.660910

> quantil<-qnorm(0.025, lower.tail=FALSE)

> quantil

[1] 1.959964

8.7.2 Teste de hipótese para diferença de duas médias de populações Normal com
variâncias populacionais desconhecidas, mas iguais (Populações
Homocedásticas)
As situações mais rotineiras que envolvem testes para duas médias são aquelas nas quais as variân-

cias populacionais são desconhecidas. Se assumirmos que ambas as populações possuem distribuições

normais e que σ12 = σ22 = σ 2 , o teste t combinado (teste t em duas amostras) pode ser utilizado. A
estatística do teste é dada pelo procedimento a seguir (WALPOLE et al., 2009):

(X̄1 −X̄q2 )−(µ1 −µ2 )


tcalc = 1
,
Sp n1
+ n1
2

com ν = n1 + n2 − 2 graus de liberdade em que Sp é dado por:

q
Sp= (n1 −1)S12 +(n2 −1)S22
.
n1 +n2 −2

A seguir é apresentado a regra de decisão:

H0 versus H1 Teste Regeita-se H0


µ1 − µ2 = d 0 versus µ1 − µ2 < d0 Unilateral à esquerda tcalc < −t(α;v)
µ1 − µ2 = d 0 versus µ1 − µ2 > d0 Unilateral à direita tcalc > t(α;v)
µ1 − µ2 = d 0 versus µ1 − µ2 6= d0 Bilateral tcalc < −t( α ;v) ou tcalc > t( α ;v)
2 2

8.7.3 Teste de hipótese para diferença de duas médias de populações Normal com
variâncias populacionais desconhecidas, mas desiguais (Populacões
Heterocedásticas)
Uma outra situação possível seria quando as duas populações possuem distribuições normais e que

σ12 6= σ22 . A estatística do teste é dada pelo procedimento a seguir (WALPOLE et al., 2009):

149
8 TEORIA DA DECISÃO  TESTES DE HIPÓTESES

(X̄1 −rX̄2 )−(µ1 −µ2 )


tcalc = 2
S1 S2
,
n1
+ n2
2

que tem uma distribuição t aproximada com graus de liberdade aproximados(ν):

2
2
S2

S1
n1
+ n2
2
v= 2
S1
!2
2
S2
!2 .
n1 n2
n1 −1
+ n2 −1

A regra de decisão é análoga a regra de decisão da seção (8.7.2).

Exemplo 8: (MORETTIN, 2010) O QI de 16 estudantes de uma zona pobre de certa cidade apresenta

a média de 107 pontos com desvio padrão de 10 pontos, enquanto os 14 estudantes de outra região rica

da cidade apresentam média de 112 pontos com desvio padrão de 8 pontos. O QI em ambas as regiões

tem distribuição normal. Há uma diferença signicativa entre os QIs médios dos dois grupos a 5% ?

Suponha populações Homocedásticas.

De acordo com o procedimento apresentado na seção (8.5) segue-se a resolução do exercício:

(i) H0 : µA = µB versus H1 : µA 6= µB
(ii) α = 5% = 0, 05
(iii) Estatística do Teste:

(X̄1 −X̄q2 )−(µ1 −µ2 ) (107−112)


tcalc = 1
= q = −1.497091
Sp n1
+ n1 9,1261 161 1
+ 14
2
q
(16−1)100+(14−1)64
Em que, v = n1 + n2 − 2 = 16 + 14 − 2 = 28 e Sp = 16+14−2 = 9, 1261
(iv) Plotar região crítica

Distribuição t−Student com v = 28 g.l.


0.4
0.3
Probabilidades

0.2
0.1

RRHo (0,025) RNRHo (0,95) RRHo (0,025)


0.0

−5 −2.048 0 2.048 5

Figura 11: Região Crítica

(v) Decisão: Como −2, 048407 < tcalc < 2, 048407 , não rejeita-se a hipótese H0 .
(vi) Conclusão: Ao nível de signicância de 5% não há evidências para rejeitar a hipótese nula (H0 ),

ou seja, não existe diferença signicativa entre os QIs médios dos dois grupos.

Rotina do exemplo 8:

150
8.7 Teste de hipótese para diferença de duas médias (amostras independentes)

# teste para razão de variâncias - Unilateral à esquerda # TH Diferença de médias - Populações Homocedásticas

> var1<-100 > m1<-107

> var2<-64 > m2<-112

> est<-var1/var2 > var1<-100

> est > var2<-64

[1] 1.5625 > sp<-sqrt(((n1-1)*var1+(n2-1)*var2)/(n1+n2-2))

> sp

# quantil da distribuição F [1] 9.1261

> n1<-16 > est<-(m1-m2)/(sp*sqrt((1/n1)+(1/n2)))

> n2<-14 > est

> v1<-n1-1 [1] -1.497091

> v2<-n2-1

> qf(0.025, v1, v2) # área abaixo # quantil

[1] 0.3418915 > v<-n1 + n2 - 2

> qf(0.975, v1, v2) > qt(0.025, v, lower.tail=FALSE)

[1] 3.052713 [1] 2.048407

Exemplo 9: (MORETTIN, 2010) Em uma Demonstração de Estatística, 12 alunos de uma classe

conseguiram média 7,8 e desvio padrão 0,4, ao passo que 15 alunos de outra turma, do mesmo curso,

conseguiram média 7,4 com desvio padrão de 0,8. Considerando distribuições normais para as notas,

vericar se o primeiro grupo é superior ao segundo, ao nível de 5%. Considere populações heteroce-

dásticas.

De acordo com o procedimento apresentado na seção (8.5) segue-se a resolução do exercício:

(i) H0 : µA = µB versus H1 : µA 6= µB
(ii) α = 5% = 0, 05
(iii) Estatística do Teste:
(X̄1 −rX̄2 )−(µ1 −µ2 ) (7,8−7,4)−0
tcalc = 2 2
=q 0,16 0,64
= 1, 69
S1 S +
n1
+ n2 12 15
2
com ν graus de liberdade em que v é:
2
2
S2

S1
+ n2 2
n1 2 ( 0,16
12
+ 0,64
15 )
v= 2
!2
2
!2 = 2 2 = 21, 45
S1
n1
S2
n2
0,16
( 12 ) + ( 0,64
15 )
11 14
n1 −1
+ n2 −1

(iv) Plotar região crítica

Distribuição t−Student com v = 21 g.l.


0.4
0.3
Probabilidades

0.2
0.1

RRHo (0,025) RNRHo (0,95) RRHo (0,025)


0.0

−5 −2.079 0 2.079 5

Figura 12: Região Crítica

151
8 TEORIA DA DECISÃO  TESTES DE HIPÓTESES

(v) Decisão: Como −2.079614 < tcalc < 2.079614 , não rejeita-se a hipótese H0 .
(vi) Conclusão: Ao nível de signicância de 5% não há evidências para rejeitar a hipótese nula (H0 ),
ou seja, não existe diferença entre os dois grupos.

Rotina do Exemplo 9: Na primeira coluna é apresentada uma rotina para vericar se as populações
são heterocedásticas. Na segunda coluna temos a rotina para o teste de hipótese para diferença entre
duas médias (populações heterocedásticas).

# teste para razão de variâncias - bilateral # TH Diferença de médias - Populações Heterocedásticas

> var1<-0.16 > m1<-7.8

> var2<-0.64 > m2<-7.4

> est<-var1/var2 > var1<-0.16

> est > var2<-0.64

[1] 0.25 > est<-(m1-m2)/sqrt((var1/n1)+(var2/n2))

> est

# quantil da distribuição F [1] 1.690309

> n1<-12

> n2<-15 > v<-(((var1/n1)+(var2/n2))^2)/((((var1/n1))^2)/(n1-1)+(((var2/n2))^2)/(n2-1))

> v1<-n1-1 > v<-round(v, digit=0)

> v2<-n2-1 > v

> qf(0.025, v1, v2) # área abaixo [1] 21

[1] 0.2977245

> qf(0.975, v1, v2) # quantil

[1] 3.09459 > qt(0.025, v, lower.tail=FALSE)

[1] 2.079614

8.8 Teste de hipótese para diferença de duas médias (amostras


dependentes)
O teste de comparação das médias anteriormente apresentado aplica-se quando as duas amostras são

independentes, signicando esta independência que cada indivíduo ou unidade experimental de uma

das amostras não está de algum modo associado com qualquer outro indivíduo da outra amostra. Exis-

tem situações em que cada uma das observações de uma das amostras está associada e correlacionada

com uma observação na segunda amostra, de modo que os dados de ambas as amostras aparecem aos

pares, uma observação de cada amostra. É muito usado nos casos em que os dados de um mesmo

indivíduo serão colhidos antes e depois de submetido a um tratamento. Serão colhidas duas amos-

tras, x1 , x2 , ..., xn e y1 , y2 , ..., yn que serão emparelhadas, isto é, a amostra será formada pelos pares

(x1 , y1 ) , (x2 , y2 ) , (xn , yn ). Portanto, fazemos testes de comparação de médias para dados emparelha-

dos (amostras pareadas), obtidas de populações Normais, quando os resultados das duas amostras são

relacionados dois a dois, de acordo com algum critério que fornece uma inuência entre os vários pares

e sobre os valores de cada par. Para cada par denido, o valor da primeira amostra está claramente

associado ao respectivo valor da segunda amostra (MORETTIN, 2010).

Como no caso do teste t combinado (seção 8.7.2), a suposição é de que as observações de cada população

são normais. Esse problema de duas amostras é essencialmente reduzido para um problema de uma

amostra ao usar as diferenças calculadas d1 = x1 − y1 , d2 = x2 − y2 , ..., dn = xn − yn . Portanto, a

hipótese se reduz a (WALPOLE et al., 2009):

H0 : µ1 − µ 2 = µ d = 0 versus H1 : µd > 0 ou µd < 0 ou µd 6= 0.

Então, do ponto de vista de cálculo, o teste é aplicado a uma única amostra de valores  d , sendo a

estatística do teste calculada dada por (WALPOLE et al., 2009):

152
8.8 Teste de hipótese para diferença de duas médias (amostras dependentes)

D−µd
tcalc = SD ,

n

em que D e SD são variáveis aleatórias que representam a média e o desvio padrão amostrais das

diferenças das observações nas unidades experimentais.

As regiões críticas são construídas usando uma distribuição t com v =n−1 graus de liberdade.

H0 versus H1 Teste Regeita-se H0


µd = 0 versus µd < 0 Unilateral à esquerda tcalc < −t(α;v)
µd = 0 versus µd > 0 Unilateral à direita tcalc > t(α;v)
µd = 0 versus µd 6= 0 Bilateral tcalc < −t( α ;v) ou tcalc > t( α ;v)
2 2

Exemplo 10: Eciência de uma dieta (MORETTIN, 2010). Para exemplicar, tomaremos um grupo

de pessoas que zeram determinada dieta por uma semana. Medimos o peso no início e no nal

da dieta. As pessoas estão claramente determinadas. A identidade de cada uma tem inuência nos

valores observados de seu peso, porém essa inuência deve ser aproximadamente igual dentro de cada

par de valores do tipo  antes e  depois . Ao tomarmos a diferença entre varíos pares de valores e

trabalharmos com elas, a inuência de cada pessoa deverá desaparecer, cando apenas a inuência da

dieta. A partir dos dados abaixo será desenvolvido o teste de hipótese, com o intuito de de vericar se

houve diminuição do peso médio pela aplicação da dieta (α = 5%).

(1) 2 (2)
Pessoas Peso antes em kg Peso depois em kg di di
1 120 116 4 16
2 104 102 2 4
3 93 90 3 9
4 87 83 4 46
5 85 86 -1 1
6 98 97 1 1
7 102 98 4 16
8 106 108 -2 4
9 88 82 6 6
10 90 85 5 25
P
26 128
di é a diferença de observações correlacionadas, ou seja, di = antes  depois; é a diferença de observações correlacionadas ao quadrado.
(1) (2)
di

Solução: De acordo com o procedimento apresentado na seção (8.5) segue-se a resolução do exemplo

10:

(i) H0 : µd = 0 versus H1 : µd > 0


(ii) α = 5% = 0, 05
(iii) Estatística do Teste:

D−µd 2,6−0
tcalc = tcalc = SD = 2,59

= 3, 17

n 10
r h
(26)2
i
4+2+...+5 1
em que D̄ = 10 = 2, 6 kg e SD = 9 (16 + 4 + ...25) − 10 = 2, 59 kg com ν = n−1 = 9
graus de liberdade.

(iv) Plotar região crítica:

153
8 TEORIA DA DECISÃO  TESTES DE HIPÓTESES

Distribuição t−Student com v = 9 g.l.

0.4
0.3
Probabilidades

0.2
0.1
RNRHo (0,95) RRHo (0,05)
0.0

−5 0 1.83 5

Figura 13: Região Crítica

(v) Decisão: Como tcalc > 1, 833, rejeita-se a hipótese H0 .


(vi) Conclusão: Com, 95% de conabilidade, concluímos que é signicativa a queda de peso pelo uso
da dieta no grupo.

Rotina para a obtenção do intervalo de conança do exemplo 10: Usaremos novamente o


comando t.test() e função paired para realizar o teste t para dados pareados.

# Sintaxe:

peso_antes<-c(120,104,93,87,85,98,102,106,88,90) # peso antes de experimentar a dieta


peso_depois<-c(116,102,90,83,86,97,98,108,82,85) # peso depois de experimentar a dieta
t.test(peso_antes, peso_depois, alternative = "greater", conf.level=0.95, paired = T)

8.9 Exercícios propostos


Exercício 1: (BRUNI, 2008) Em uma amostra de 150 pessoas, 65 consumiam regularmente o biscoito

Saboroso. Em outra amostra de 250 pessoas, 90 eram consumidores costumazes. É possível notar

alguma diferença signicativa de proporção de consumidores? Assuma nível de conança igual a 95%.

Rotina do Execício 1:
n1<-150

n2<-250

x1<-65

x2<-90

p1<-x1/n1

q1<-1-p1

p2<-x2/n2

q2<-1-p2

var1<-(p1*q1)/n1

var2<-(p2*q2)/n2

est<-(p1-p2)/(sqrt(var1+var2))

est

quantil<-qnorm(0.025, lower.tail=FALSE)

quantil

Exercício 2: (BRUNI, 2008) Os dados a seguir foram obtidos após uma pesquisa amostral realizada

junto a professores de uma renomada instituição de ensino que alegava possuir nos seus quadros pelo

menos 40% dos professores com doutorado. Assumindo alfa igual a 3%,a armação da instituição

poderia ser aceita?

154
8.9 Exercícios propostos

Sexo Com Doutorado Sem Doutorado


Masculino 14 26
Feminino 8 14

Rotina do Execício 2:
n<-22

x<-14

p0<-0.4

p<-x/n

q<-1-p

var<-(p*q)/n

est<-(p-p0)/(sqrt(var))

est

quantil<-qnorm(0.03, lower.tail=FALSE)

quantil

Exercício 3: (BRUNI, 2008) Uma indústria de ração para frangos alega que a adição de um novo

composto químico consegue elevar em mais de 100g o ganho de peso por parte do ciclo de engorda de

45 dias. Duas amostras de aves foram examinadas, sendo os resultados (pesos das aves em kg) apre-

sentados na tabela seguinte. Para alfa igual a 2%, é possível concordar com o fabricante? Assumem-se

populações normalmente distribuídas.

Com composto 1,8 2,3 1,6 2,5 1,9 1,5 2,1 2,2 1,9 1,8
Sem composto 1,2 1,8 1,8 2,1 1,7 1,4 1,8 2,0 1,3 1,5

Rotina do Execício 3:
dados<-read.table("Exercício_3_ração.txt", h=T)

attach(dados)

var.test(ccomp, scomp, ratio = 1, alternative="two.sided", conf.level=0.98)

#t.test(ccomp, scomp, altenative="greater", mu=0, var.equal = F, conf.level=0.98)

#t.test(ccomp, scomp, altenative="greater", mu=0, var.equal = T, conf.level=0.98)

Exercício 4: (BRUNI, 2008) O produtor de uma nova papinha nutritiva realizou um teste para saber a

ecácia se seu novo produto no aumento de peso das crianças. Quinze bebês foram alimentados, durante

três semanas, com a nova papinha e vericaram-se os seguintes aumentos de peso (em gramas):

250 240 370 280 380

300 400 330 300 290

340 320 340 310 320

Deseja-se testar a hipótese de que o ganho de peso médio seja igual à 300g, contra a hipótese de ganho

de peso ser diferente de 300g, sendo alfa igual a 10%. Suponha população normalmente distribuída.

Rotina do Execício 4:
dados<-read.table("Exer_4_papinha.txt", h=T)

attach(dados)

t.test(gramas, alternative="two.sided", mu=300, conf.level=0.90)

Exercício 5: (BRUNI, 2008) Uma determinada empresa deseja estudar a eventual ecácia da aplicação

dos programas de treinamento ministrados pela sua área de recursos humanos. Para isto, analisou duas

amostras de desempenhos de seus funcionários: grupo B  funcionários submetidos a 80horas/aula de

treinamento- e grupo A- funcionários submetidos a 20horas/aula de treinamento, apenas. Os desempe-

nhos dos funcionários estão apresentados na tabela seguinte. Verique se existe diferença signicativa

entre os treinamentos dos grupos A e B. Assuma um nível de signicância de 5% e populações normal-

mente distribuídas.

155
8 TEORIA DA DECISÃO  TESTES DE HIPÓTESES

Amostra Desempenhos obtidos


Grupo A 7 8 8 7 6 8 9 7 8
Grupo B 5 9 4 8 6 6 7 5 6

Rotina do Execício 5:
dados<-read.table("Exer_5_desempenho.txt", h=T)

attach(dados)

dados<-read.table("Exercício_3_ração.txt", h=T)

attach(dados)

var.test(grupoA, grupoB, ratio = 1, alternative="two.sided", conf.level=0.99)

#t.test(grupoA, grupoB, altenative="greater", mu=0, var.equal = F, conf.level=0.99)

#t.test(grupoA, grupoB, altenative="greater", mu=0, var.equal = T, conf.level=0.99)

156
9 REGRESSÃO LINEAR SIMPLES

9.1 Introdução
Um dos objetivos da ciência é encontrar, descrever e predizer relações entre eventos que ocorrem

na natureza. Um caminho para que isto aconteça é encontrar modelos que relacionem variáveis que

descrevam a realidade. Pode-se atingir este objetivo por meio de modelos de regressão. A análise de

regressão ocupa-se do estudo da dependência de uma variável, a variável dependente, em relação a

uma ou mais variáveis, as variáveis explicativas, com o objetivo de estimar e/ou prever a média (da

população) ou o valor médio da dependente em termos dos valores conhecidos ou xos (em amostragem

repetida) das explicativas. Ou seja, quando ajustamos um modelo que estabelece uma relação linear

entre uma variável dependente e uma variável independente, estamos estimando um modelo de regressão

linear simples. Quando existe uma relação linear entre uma variável dependente e duas ou mais variáveis

independentes, ajusta-se um modelo de regressão linear múltipla.

Primeiramente, vamos entender o signicado de regressão linear simples. Galton (1886), por meio de

um famoso ensaio vericou que, embora houvesse uma tendência de pais altos terem lhos altos e pais

baixos terem lhos baixos, a altura média dos lhos de pais de uma dada altura tendia a se deslocar

ou  regredir até a altura média da população como um odo. Daí, o nome de regressão, conhecida

também como a lei de regressão universal de Francis Galton. Pearson & Lee (1903), coletou mais de

mil registros das alturas dos membros de grupos de famílias, neste estudo vericou-se que tanto os

lhos altos como baixos  regrediram em direção à altura média de todos os homens. Nas palavras de

Galton, tratava-se de uma regressão á  mediocridade .

O termo linear está relacionado à classicação do modelo. Os modelos de regressão são classicados

como lineares, linearizáveis e não-lineares. Nos modelos não-lineares, não é possível encontrar uma

forma analítica para a estimação dos parâmetros, isto é, as expressões dos estimadores não apresentam

uma solução explícita, exigindo o uso de métodos numéricos iterativos.

Draper & Smith (1998) classicam os modelos de regressão como:

a) modelos lineares: aqueles que são lineares em relação aos parâmetros, ou seja:


∂θi fi (X, θ) = h (X)

para I = 1, 2, . . . , p; j = 1, 2, . . . , n,  p é o número de parâmetros do modelo e  n o número de

observações. Como ilustração, é apresentado o seguinte modelo de regressão:

Y = β0 + β1 X + ε

em que o erro é aditivo e β0 e β1 são os parâmetros a serem estimados. O cálculo das derivadas parciais,

∂Y ∂Y
∂β0 =1 e
∂β1 =X

157
9 REGRESSÃO LINEAR SIMPLES

mostra que nenhuma delas depende de algum parâmetro do modelo, portanto, o modelo é dito linear.

b) modelos linearizáveis: são modelos que por meio de alguma transformação se tornam lineares.

Seja o modelo:

Y = θx ε

em que, θ é um parâmetro a ser estimado e o erro é multiplicativo. Aplicando-se o logaritmo em ambos

os lados da equação, tem-se:

log (Y ) = log θX ε


log (Y ) = X log (θ) + log (ε)

Fazendo G = log (Y ) ; c = log (θ) ; e = log (ε), a equação pode ser escrita como:

G = cX + e

sendo linear, pois

∂G
∂c = X = h (X)

que independe do parâmetro, mostrando que o modelo original é linearizável.

c) modelos não-lineares: são modelos em que pelo menos uma das derivadas parciais depende de

algum parâmetro do modelo. Seja o modelo:

Y = θ1 + θ2X + ε

onde θ1 e θ2 são os parâmetros a serem estimados. O cálculo das derivadas parciais de y:

∂Y
∂θ1 =1 e
∂Y
∂θ2 = Xθ2x−1

mostra que a segunda delas depende do parâmetro θ2 , indicando que o modelo em questão é não-linear.
O termo simples e múltipla está relacionado ao número de variáveis independentes do modelo de

regressão, isto é, quando existe uma relação linear entre uma variável dependente e uma variável

independente, ajusta-se um modelo de regressão linear simples. Caso exista uma relação linear entre

uma variável dependente e duas ou mais variáveis independentes, ajusta-se um modelo de regressão

linear múltipla.

9.2 Modelo de regressão linear simples


O modelo de regressão linear simples relata o estudo de como a variável dependente y se relaciona com

uma variável independente x. O modelo estatístico de uma regressão linear simples é:

yi = β 0 + β 1 x i + e i ou y = β0 + β1 x + e. (1)

em que:

yi : representa o i-ésimo valor observado;

xi : representa a variável independente, i = 1, 2, ... , n;

εi : é o erro não observável associado a i-ésima observação;

β0 e β1 : são os parâmetros do modelo (1), que são o intercepto ou coeciente linear e o coeciente

angular de regressão.

158
9.2 Modelo de regressão linear simples

9.2.1 Pressuposições sobre o modelo de regressão linear simples


Ao estabelecer o modelo de regressão linear simples, pressupomos que:

i) A relação entre x e y é linear;

ii) Os valores de x são xos, isto é, x não é uma variável aleatória; i

ii) A média do erro é zero, isto é, E = (εi ) = 0, ∀i = 1, 2, . . . , n;


V (εi ) = E ε2i =

iv) Para um dado valor de x, a variância do erro εi é sempre constante, isto é,

σ 2 , ∀i = 1, 2, . . . , n. Diz-se, então, que o erro é homocedástico;

v) O erro de uma observação é não correlacionado com o erro de outra observação (os erros são

independentes), ou seja, E (εi εj ) = 0 para i 6= j ;


σ2 εi ∼ N 0, 1σ 2
 
vi) O erro tem distribuição Normal com média zero e variância constante , isto é,

Em síntese, temos que os erros são independentes e identicamente distribuídos (distribuição Normal

σ2 εi ∼ iiN 0, 1σ 2

com média zero e variância ), ou seja, . A quarta pressuposição se faz necessário

para obter os intervalos de conança e testes de hipóteses.

9.2.2 Estimadores de Mínimos Quadrados


O objetivo na regressão é determinar estimadores de β0 e β1 de tal forma que as distâncias médias

entre a reta de regressão e os valores observados sejam minimizadas, ou seja, o erro cometido deve ser

o menor possível.

A partir do modelo (1) pode-se denir o erro da seguinte forma:

εi = yi − β0 − β1 x1 . (2)

O método que será utilizado para determinar os estimadores de β0 e β1 é denominado de Método de

Mínimos Quadrados. Esse método consiste em minimizar a soma de quadrados do erro ou resíduo do

modelo (1) ao longo de todos os n pares (xi ; yi ). A partir da equação (2) pode-se denir a soma de

quadrados dos resíduos (Q) como:

n n
ε2i = (yi − β0 − β1 xi )2 .
P P
Q= (3)
i=1 i=1

Para obter os estimadores de mínimos quadrados basta derivarmos a expressão (3) em relação aos

parâmetros β0 e β1 e posteriormente, igualarmos essas derivadas parciais a zero. Primeiramente,

vamos obter as derivadas parciais (Sistema de Equações Normais, SEN):

n

∂Q P
= −2 (yi − β0 − β1 xi )


 ∂β0
i=1 (4)
(sen) n
∂Q P


 ∂β1 = −2 (yi − β0 − β1 xi ) xi
i=1

Igualando essas derivadas a zero e substituindo β0 e β1 , pelos respectivos estimadores β̂0 e β̂1 tem-se:

n 
 
P
 −2 yi − β̂0 − β̂1 xi = 0


i=1
n 
P 


 −2 yi − β̂0 − β̂1 i xi = 0
x
i=1

159
9 REGRESSÃO LINEAR SIMPLES

n 
 
P
yi − β̂0 − β̂1 xi = 0 (A)



i=1
n  
 P
 yi − β̂0 − β̂1 xi xi = 0 (B)

i=1

n n

P P
yi − nβ̂0 − β̂1 xi = 0



i=1 i=1
n n n
xi yi − β̂0 xi − β̂1 x2i = 0
 P P P


i=1 i=1 i=1

Isolando β̂0 na primeira equação segue-se que

n
P n
P
n
P n
P yi xi
i=1
yi − nβ̂0 − β̂i xi = 0 ⇐⇒ β̂0 = n − β̂1 i=1n = ȳ − β̂1 x̄.
i=1 i=1

Logo, o estimador de mínimos quadrados para β̂0 será:

β̂0 = ȳ − βˆ1 x̄. (5)

n n n
x2i = 0,
P P P
Substituindo o resultado (5) na segunda equação, xi yi − β̂0 xi − β̂1 e resolvendo em
i=1 i=1 i=1
relação a βˆ1 tem-se:

n n n
x2i = 0
P P P
xi yi − β̂0 xi − β̂1
i=1 i=1 i=1

n   P n n
xi yi − ȳ − β̂1 x̄ β̂0 xi − β̂1 x2i = 0
P P
i=1 i=1 i=1

n
P n
P

n yi xi n n
x2i = 0
P P P
xi yi −  i=1n − β̂1 i=1n  xi − β̂1
i=1 i=1 i=1

n n
 n
2
P P P
n xi yi xi n
x2i = 0
P i=1 i=1 i=1
P
x i yi − n + β̂1 n − β̂1
i=1 i=1

 n
2 n n
P P P
xi n n xi yi
x2i =
i=1
P P i=1 i=1
−β̂1 n + β̂1 x i yi − n
i=1 i=1

 2 
n n n

P P P
n xi n xi yi
β̂1  x2i −
P i=1
P i=1 i=1
= x i yi −

n n
i=1 i=1

n
P n
P
n xi yi
P i=1 i=1
xi yi − n
i=1
β̂1 = n
P
!2

n xi
xi − i=1n
P 2
i=1

Logo, o estimador de mínimos quadrados para βˆ1 é:

160
9.2 Modelo de regressão linear simples
! !
n
P n
P
n xi yi n
P i=1 i=1 P
xi yi − n
(xi −x̄)(yi −ȳ)
i=1 i=1 SP xy
β̂1 = n
!2 = n = Sxx .(6)
P 2
n
P
xi (xi −x̄)
i=1 i=1
x2i −
P
n
i=1

Portanto, os estimadores de mínimos quadrados para β0 e β1 são, respectivamente:

SP xy
β̂0 = ȳ − B̂1 x̄ e β̂1 = Sxx
n
P n
P
xi yi
i=1 i=1
em que: x̄ = n é a média da variável independente x; ȳ = n é a média da variável dependente y;
 n
 n
  n
2
P P P
n xi yi n xi
x2i −
P i=1 i=1
P i=1
SP xy = x i yi − n é a soma de produtos entre x e y e Sxx = n . é a soma
i=1 i=1
de quadrados de x

Exemplo 1: Uma importante aplicação da análise de regressão na contabilidade é a estimação do

custo. Ao coletar dados sobre volume e custo e usar o método de mínimos quadrados para desenvolver

uma equação de regressão estimada relacionando volume e custo, um contador pode estimar o custo

associado a um volume de manufatura particular. Considere a seguinte amostra de volumes de produção

e os dados de custos totais referentes a uma operação de manufatura.

Volume de produção (unidades) Custos totais (US$)

400 4.000

450 5.000

550 5.400

600 5.900

700 6.400

750 7.000

Com esses dados desenvolva uma equação de regressão estimada que possa ser usada para prever o

custo total de determinado volume de produção.

Solução: Primeiramente vamos calcular as informações necessárias:


6 6 6
yi2 = 184.930.000; Syy = 5.648.333, 333;
P P P
n = 6; yi = 33.700; ȳ = 5.616, 67; xi = 3.450; x̄ =
i=1 i=1 i=1
6 6
x2i = 2.077.500; Sxx = 93.750;
P P
575; xi yi = 20.090.000; SP xy = 712.500.
i=1 i=1
Agora, temos condições de determinarβ̂0 e β̂1 ,
! !
n
P n
P
n xi yi
P i=1 i=1
xi yi − n (3.450)(33.700)
SP xy 20.090.000−
βˆ1 = Sxx = i=1
n
!2 = 6
(3.450)2
= 7, 6 e
P
xi 2.077.500− 6
n
i=1
x2i −
P
n
i=1

β̂0 = ȳ − βˆ1 x̄ = 5.616, 67 − 7, 6x575 = 1.146, 67.

Logo, o modelo de regressão estimado é yˆi = 1.246, 67 + 7, 6xi .

9.2.3 Interpretação do coeciente da regressão linear simples


Na regressão linear simples, interpreta-se βˆ1 como uma estimativa da alteração em y correspondente

à alteração de uma unidade na variável independente. Então pode-se dizer que o incremento de cada

unidade no volume de produção provoca um aumento médio de US$ 7,6 no custo por unidade produzida.

161
9 REGRESSÃO LINEAR SIMPLES

9.2.4 Teste de signicância da regressão linear simples


Vale ressaltar que a previsão da variável dependente resultará sempre em um valor médio, pois, a

relação entre x e y é média. Assim, no caso acima, não obteremos, para um determinado volume de

produção, necessariamente um valor exato do custo total da produção. Para fazermos previsões acerca

da variável dependente y, não devemos utilizar valores da variável independente X que extrapolem

o intervalo de valores utilizados no modelo de regressão. Os pares de valores (x, y) estão dispersos

em relação a reta estimada. Isso ocorre, entre outras razões, porque existem inúmeras outras variáveis

externas, não consideradas no modelo que inuenciam y. Por exemplo, no caso do exemplo apresentado

a quantidade média do custo de produção pode ser inuenciada pelo volume de produção, gastos com

mão-de-obra, gastos com matéria-prima, embalagem e outros materiais, etc...

Assim, não basta apenas calcularmos os coecientes βˆ0 e βˆ1 da reta de regressão pelo método de

Mínimos Quadrados. Precisamos vericar até que ponto tais estimativas são sucientes para explicar

o relacionamento entre as variáveis x e y.

Uma forma de testar a signicância da regressão é por meio da Análise de Variância (ANOVA). A

ANOVA consiste na decomposição da variação total (SQT otal) em componentes devido a regressão

linear (SQRegressão) e ao resíduo (SQErro). Cujo objetivo é vericar se a parte da variação total

explicada pelo modelo é signicativamente diferente de zero. Ou seja, o teste de signicância da

regressão é um teste para determinar se existe uma relação linear entre a variável de resposta y e a

variável regressora x. Nessas, condições a hipótese apropriada é:

H0 : β1 = 0 versus H1 : β1 6= 0

Se H0 for rejeitada, o teste nos dá sucientes evidências estatísticas para concluirmos que o parâmetro

b1 não é igual a zero e que a relação entre y e a variável independente x é signicativa. Entretanto, se H0
não puder ser rejeitada, não teremos evidências sucientes para concluir que uma relação signicativa

está presente. Na Tabela 1 é apresentado o procedimento para a construção da ANOVA.

Tabela 1  Análise de Variância de um modelo de regressão linear simples.


FV GL SQ QM F

Regressão p  1 = 1 SQReg SQReg/( p - 1 ) = SQReg QMReg/QMErro

Erro n  p = n - 2 SQErro SQErro/(n - 2)

Total n - 1 SQTotal

Em que, p é o número de parâmetros do modelo e n é o número de observações da variável resposta

(variável dependente).

A regra de decisão é:

i) Critério do valor p: Rejeita-se H0 se o valor p ≤ a , em que a é o nível de signicância.


ii) Critério do valor crítico: Rejeita-se H0 se F ≥ Fa em que Fa baseia-se em uma distribuição F com

1 graus de liberdade no numerador e n  2 graus de liberdade no denominador.

A relação entre a SQTotal, SQReg e SQErro é:

SQTotal = SQReg + SQErro. (7)

em que,

162
9.2 Modelo de regressão linear simples

 n
2
P
n n yi
(ayi )2
(yi − ȳ)2 = yi2 − = Y 0Y −
P P i=1
SQT otal = n n = Syy;
i=1 i=1

n
(SP xy)2
(ŷi − ȳ)2 =
P
SQReg = Sxx ;
i=1

n
(yi − yˆi )2 .
P
SQErro =
i=1

Demonstração:

yi = β0 + β1 x1 + εi

yi = ŷi + εi

yi = ŷi + (yi − ŷi )

(yi − ȳ) = (ŷi − ȳ) + (yi − ŷi )

(yi − ȳ)2 = [(ŷi − ȳ) + (yi − ŷi )]2

(yi − ȳ)2 = (ŷi − ȳ)2 + 2 (ŷi − ȳ) (yi − ŷi ) + (yi − ŷi )2

n n n
(yi − ȳ)2 = (ŷi − ȳ)2 + (yi − ŷi )2
P P P
i=1 i=1 i=1

n
P
porque (ŷi − ȳ) (yi − ŷi ) = 0
i=1
Agora resta demonstrar que

n
P
(ŷi − ȳ) (yi − ŷi ) = 0. (8)
i=1

Substituindo yi − ŷi + εi e aplicando a distributiva do somatório em (8) tem-se:

n
P n
P n
P n
P
(ŷi − ȳ) (yi − ŷi ) = (ŷi − ȳ) εi = ŷi εi − ȳ εi . (9)
i=1 i=1 i=1 i=1

n
P
Vamos analisar primeiramente a seguinte soma ŷi εi :
i=1

n n   n n
βˆ0 + β̂1 xi εi = β0 εi + β̂1 xi εi .(10)
P P P P
ŷi εi −
i=1 i=1 i=1 i=1

Da equação (B) tem-se:

n 
P 
yi − β̂0 − β̂1 xi xi = 0.(B)
i=1

n
P
εi xi = 0. (11)
i=1

163
9 REGRESSÃO LINEAR SIMPLES

Da equação (A) tem-se:

n 
P 
yi − β̂0 − β̂1 xi = 0. (A)
i=1

n
P
εi = 0. (12)
i=1

Logo, substituindo (10) em (9) temos que:

n
P n
P n
P n
P
(ŷi − ȳ) (yi − ŷi ) = (ŷi − ȳ) εi = ŷi εi − ȳ εi .
i=1 i=1 i=1 i=1

n
P n
P n
P n
P
(ŷi − ȳ) (yi − ŷi ) = β̂0 εi = β̂0 εi xi − ȳ εi . (13)
i=1 i=1 i=1 i=1

Substituindo (11) e (12) em (13) temos:

n
P n
P n
P n
P
(ŷi − ȳ) (yi − ŷi ) = β̂0 εi = β̂0 εi xi − ȳ εi .
i=1 i=1 i=1 i=1

n
P
(ŷi − ȳ) (yi − ŷi ) = 0. (14)
i=1

Portanto, temos que:

n n n
(yi − ȳ)2 = (ŷi − ȳ)2 + (yi − ŷi )2
P P P
i=1 i=1 i=1

 n
2  n
2
P P
n n yi yi
(ŷi − ȳ)2 = yi2 − = Y 0Y −
P P i=1 i=1
SQT otal = n n = Syy ;
i=1 i=1

n
(SP xy)2
(ŷi − ȳ)2 =
P
SQReg = Sxx ;
i=1

n
(yi − ŷi )2 .
P
SQErro =
i=1

Exemplo 2: O procedimento de construção da ANOVA será ilustrado para o exemplo de volume de

produção versus custos totais.

Para a construção da ANOVA deve-se primeiramente determinar o valor de p, o valor de n, SQTotal,

SQReg e SQErro.

O modelo de regressão linear simples estimado foi yˆi = 1.246, 67 + 7, 6x, ou seja, o modelo possui 2

parâmetros. Então, p é igual a 2 (dois). Como a coleta dos dados foi realizada durante 6 momentos

segue-se que n é igual a 6 (seis) observações.

Agora, determinaremos as somas de quadrados.

1) Soma de Quadrados Total:


 n
2
P
n yi
(33.700)2
yi2 −
P i=1
SQT otal = n = 194.930.000 − 6 = 5.648.333, 333.
i=1

164
9.2 Modelo de regressão linear simples

2) Soma de Quadrados de Regressão:


! ! 2
 n
P n
P
n xi yi
P i=1 i=1
xi yi −
 
n (3.450)(33.700) 2
  h i
i=1 20.090.000−
(SP xy)2 6
SQReg = Sxx = n
!2 = (3.450)2
P
xi 2.077.500− 6
n
i=1
x2i −
P
n
i=1

712.5002
SQReg = 93.750 = 5.415.000

3) Soma de Quadrados do Erro:

SQErro = SQT otal − SQReg = 5.648.333, 333 − 5.415.000 = 233.333, 333

Observação: As somas de quadrados podem ser obtidas no R por meio do comando aov. Maiores

detalhes podem ser obtidos na rotina do Exemplo 1.

Tabela 2  Análise de Variância do modelo de regressão linear múltipla para o exemplo de Gastos da
Academia.

FV GL SQ QM F

Regressão 1 5.415.000 5.415.000 92,82857

Resíduo 4 233.333,333 58.333,33

Total 5 5.648.333,333

Figura 1  Gráco referente a probabilidade a da cauda superior direita da distribuição de F com

v1 = 1 e v2 = 4 graus de liberdade do numerador e denominador, respectivamente.

Como 92, 82857 = F ≥ F 0, 05(1, 4) = 7, 71 então rejeita-se H0 , ou seja, β1 é signicativo (β1 6= 0).
Então, existe uma relação linear signicativa entre a variável de resposta custo total e a variável

regressora volume de produção.

165
9 REGRESSÃO LINEAR SIMPLES

9.2.5 Teste de hipótese para a signicância da regressão linear simples


Outra forma de testar a signicância da regressão é por meio do teste de hipótese do coeciente angular

(β1 ) . Para realizar o teste é necessário calcular o erro médio quadrático (variância) para se ter uma

noção da estimativa de sv2 . Intuitivamente sabemos que quanto maior é a dispersão entre uma série de

números ou população, maior será a diculdade de se ajustar uma reta aos pontos. A dispersão pode

ser estimada pela dispersão dos dados amostrais em relação á reta de regressão. O estimador do erro

médio quadrático (QMErro) para o modelo de regressão linear simples é:

SQErro
S 2 = QM Erro = n−2 . (15)

Conseqüentemente, é possível calcular o erro padrão da estimativa (S). O erro padrão da estimativa

é uma medida que avalia o grau de precisão da reta de regressão. A fórmula pra cálculo do S é a

seguinte:

√ q
SQErro
S= QM Erro = n−2 . (16)

Para testar a hipótese nula H0 : b1 = 0 versus H1 : b1 6= 0, utilizamos a distribuição t com n - 2 graus

de liberdade para estabelecer uma região crítica e, então, basear nossa decisão no valor da seguinte

estatística:

βˆ1
Estatística do teste - tc = √
S/ Sxx
. (17)
Nota: Pode-se testar também o parâmetro b0 . Mas, o fato de b0 ser signicativo não implica que

existirá uma relação linear signicativa entre x e y.

Para testar a hipótese nula H0 : b0 = 0 versus H1 : b0 6= 0, utilizamos a distribuição t com n - 2 graus

de liberdade para estabelecer uma região crítica e, então, basear nossa decisão no valor da seguinte

estatística:

βˆ0
Estatística do teste - tc = s
n
. (18)
x2i /nSxx
P
S/
i=1

Regra de Decisão: Rejeita-se H0 se t ≤ −t(α/2;n−2) ou t ≥ t(α/2;n−2) .

9.2.6 Intervalo de conança para a signicância da regressão linear simples


Outra forma de testar a signicância da regressão é por meio do intervalo de conança do coeciente

angular (β1 ). Sob a suposição de que as observações sejam normal e independentemente distribuí-

das, um intervalo de conança de 100(1 - a)% para a inclinação (β1 ) na regressão linear simples é

(MONTGOMERY & RANGER, 2003):


IC (β1 ) : β̂1 ± t(α/2;n−2) S/ Sxx. (19)
100(1−α)%

Se o intervalo contiver o valor zero pode-se concluir que o parâmetro b1 é não signicativo, ou seja,

b1 = 0. Logo, não existe uma relação linear signicativa entre x e y.

Analogamente, um intervalo de conança de 100(1 - a)% para o intercepto (interseção) b0 , pode ser
obtido a partir da expressão (19). Mas, o fato de b0 ser signicativo não implica que existirá uma

relação linear signicativa entre x e y.

166
9.2 Modelo de regressão linear simples
s
n
x2i /Sxx.
P
IC (β0 ) : β̂0 ± t(α/2;n−2) S (20)
100(1−α)% i=1

Exemplo 3: Construir intervalos de conança e testes de hipóteses para os parâmetros 0 e b b1 referente


ao exemplo de volume de produção versus custos total. Use a = 5%. Solução: Já temos informações

de S
2 = 58.333, 33, S = 241, 523, Sxx = 93.750, β̂1 = 7, 6 e β̂0 = 1.246, 67 . Primeiramente, será

calculado os intervalos de conança:


IC (β1 ) : β̂1 ± t(0,025; 4) S/ Sxx
95%


IC (β1 ) : 7, 6 ± 2, 776x241, 523/ 93.750
95%

IC (β1 ) : [5, 41; 9, 79]


95%

Interpretação: Ao nível de 5% de signicância pode-se armar que o parâmetro b1 é signicativo.


Logo, existe uma relação linear signicativa entre volume de produção e custo total da produção.
s
n
x2i /Sxx
P
IC (β0 ) : β̂0 ± t(0,025; 4) S
95% i=1

p
IC (β0 ) : 1.246, 67 ± 2, 776x241, 523 2.077.500/6x93.750
95%

IC (β0 ) : [−42, 05; 2.535, 38]


95%

Interpretação: Ao nível de 5% de signicância pode-se armar que o parâmetro b0 é não signicativo.


Pois o zero está contido no intervalo.

Agora, será realizado os testes de hipótese



b1 :
 H :β =0
1) Hipóteses:
0 1
 H β 6= 0
1: 1
2) α = 5%
3) Estatística do teste: tc = β̂1

S/ Sxx
= 7,6

241,523/ 93.750
= 9, 6348.
4) Região Crítica:

167
9 REGRESSÃO LINEAR SIMPLES

Figura 2  Gráco da região critica do teste bilateral da distribuição t com 4 graus de liberdade.
5) Conclusão: Ao nível de 5% de signicância rejeita-se H0 , ou seja, o parâmetro b1 é signicativo
(b1 6= 0). Logo, existe uma relação linear signicativa entre volume de produção e custo total da

produção.

Teste de hipótese para o parâmetro b0 :



 H :β =0
1) Hipóteses:
0 0
 H β 6= 0
1: 0

2) α = 5%
3) Estatística do teste: tc = s
n
βˆ0
= √1.246,67
241,523/ 2.077.500/6x93.750
= 2, 6859
x2i /nSxx
P
S/
i=1

4) Região Crítica: conforme Figura 2

5) Conclusão: Ao nível de 5% de signicância rejeita-se H0 , ou seja, o parâmetro b0 é não signicativo


(b0 = 0).

9.3 Diagrama de dispersão


O diagrama de dispersão nos possibilita observar os dados gracamente e tirar conclusões prévias

sobre a possível relação entre as variáveis. Para ilustrarmos a construção do diagrama de dispersão

trabalharemos com o conjunto de dados do exemplo 1, que refere-se a volume de produção e custos

totais de uma manufatura particular. Quais conclusões prévias se podem tirar da Figura 3? Observa-se

na Figura 1 que maiores valores de custos tendem a se relacionar com maiores volumes de produção.

Além disso, referente a esses dados, a relação entre o volume de produção e o custo total parece

aproximar-se de uma linha reta, de fato, uma relação linear positiva é indicada entre x e y, como pode

ser observado na Figura 2.

Figura 3  Diagrama de dispersão referente ao volume de produção e custo total de uma manufatura
particular.

168
9.4 Coeciente de determinação

Figura 4  Gráco da equação de regressão estimada para os dados de volume de produção e custo

total de uma manufatura particular.

9.4 Coeciente de determinação


O coeciente de determinação nos dá uma medida da eciência (ou da qualidade) do ajuste do modelo,

ou seja, indica quanto da variação de y (variação total) que é  explicada pelo modelo de regressão

ajustado. Portanto, o coeciente de determinação pode ser utilizado como um avaliador do modelo

ajustado. O coeciente de determinação é dado por:

SP xy 2
R2 = Sxx Syy , 0 ≤ R2 ≤ 1, (21)

 n
2  n
2
P P
n xi n yi
x2i − yi2 −
P i=1
P i=1
em que Sxx = n é a soma de quadrados de x e Sxx = n é a soma de
i=1 i=1
quadrados de y.

9.5 Covariância e coeciente de correlação linear de Pearson (ρ)


A covariância mede a força do relacionamento entre duas variáveis em termos absolutos através da

seguinte equação (covariância amostral):

n
P
(xi −x̄)(yi −ȳ)
i=1
Cov (x, y) = n−1 , −∞ < Cov (x, y) < ∞.

Um coeciente de correlação é a covariância dividida pelo produto do desvio padrão de cada variável. O

coeciente de correlação mede o grau de associação linear entre duas variáveis, x e y, ou seja, determina-

se o grau de relacionamento ou a covariabilidade entre duas variáveis. Enquanto, que a regressão linear

estabelece uma relação (função ou modelo) para as variáveis envolvidas. Outro aspecto importante é

que na análise de regressão é necessário distinguir a variável dependente da variável independente, na

análise de correlação tal distinção não é necessária. O coeciente de correlação nada mais é do que

uma covariância entre duas variáveis x e y que estão padronizadas, cujo objetivo de tal padronização é

justamente para eliminar qualquer inuência da escala. O estimador do coeciente de correlação linear

populacional de Pearson (ρ) é o coeciente de correlação linear amostral, denotado por r:

169
9 REGRESSÃO LINEAR SIMPLES

n
P
(xi −x̄)(yi −ȳ)
r= n
i=1
n = √ Cov(x,y)
√ = √ SP√
xy
Sxx Syy
, −1 ≤ r ≤ 1(22)
P
(xi −x̄)2 P
(yi −ȳ) 2 V (x) V (y)
i=1 i=1

 n
2  n
2
P P
n xi n yi
x2i − yi2 −
P i=1
P i=1
em que é a soma de quadrados de x e é a soma de quadrados de y.
n n
i=1 i=1
Uma breve discussão é apresentada a respeito do coeciente de correlação linear de Pearson:

Se r = 0, tem-se que as variáveis x e y são não correlacionadas linearmente, ou seja, ausência de

correlação linear entre x e y. Dessa forma, pode-se dizer que não existem meios lineares acurados

(precisos) para realizar previsões de valores de y conhecendo-se os valores de x, ou vice-versa (Figura

5 (c)). Se r > 0, indica que existe uma relação linear positiva entre x e y, o que signica que há uma
tendência de pequenos valores de x estarem associados a pequenos valores de y e vice-versa, isto é,

existe uma relação linear diretamente proporcional (Figura - 5 (a)). Se r < 0, indica que existe uma
relação linear negativa entre x e y, o que signica que há uma tendência de pequenos valores de x

estarem associados a pequenos valores de y e vice-versa, isto é, existe uma relação linear inversamente

proporcional (Figura 5 (b)). Os diferentes tipos de correlação podem ser visualizados na Figura 5.

Figura 5 - Tipos de associação linear entre duas variáveis.


Para facilitar a interpretação do coeciente de correlação vamos admitir as seguintes classicações para

o coeciente de correlação linear:

Coeciente de Correlação Correlação


r = 1 Perfeita Positiva
0,8 ≤r<1 Forte Positiva
0,5 ≤ r < 0,8 Moderada Positiva
0,1 ≤ r < 0,5 Fraca Positiva
0 < r < 0,1 Ínma Positiva
r = 0 Nula
-0,1 < r < 0 Ínma Negativa
-0,5 < r ≤ -0,1 Fraca Negativa
-0,8 < r ≤ -0,5 Moderada Negativa
-1 < r ≤ -0,8 Forte Negativa
r = -1 Perfeita Negativa

9.5.1 Teste de hipótese para coeciente de correlação



 H :ρ=0
Hipóteses:
0
 H : ρ 6= 0
1

170
9.6 Exercícios propostos

Estatística do Teste: t= r n−2

1−R2
com v = n2 graus de liberdade.

Vale ressaltar que o procedimento para o teste de hipótese, H0 : ρ = 0 versus H1 : ρ 6= 0, em que

ρ0 6= 0 é um pouco mais complicado. Para amostras moderadamente grandes (n ≥ 25), a estatística

do teste é:

 
1 1+r
Z = arctgh (r) = 2 ln 1−r . (23)

 
1 1+ρ
é distribuída de forma aproximadamente normal, com média µz = arctgh (ρ) = 2 ln 1−ρ e variância
−1
σ22 = (n − 3) .

Logo, para testar a hipótese H0 : ρ = ρ0 , podemos usar a estatística de teste:


ZC = [arctgh (r) − arctgh (ρ0 )] n − 3, (24)

e rejeita-se H0 : ρ = ρ0 se o valor da estatística do teste | Zc |> Zα/2 .

9.6 Exercícios propostos


Exercício 1: (ANDERSON et al., 2007) São dadas cinco observações referentes a duas variáveis, x e

y.

xi 1 2 3 4 5

yi 3 7 5 11 14

a) Desenvolva um diagrama de dispersão para estes dados.

b) O que o diagrama de dispersão desenvolvido no item (a) indica a respeito da relação entre as duas

variáveis?

c) Tente aproximar a relação entre x e y traçando uma linha reta entre os dados.

d) Use a equação de regressão estimada para prever o valor de y quando x=4.

Rotina do Execício 1:
dados<-read.table("Exemplo_1.txt", h=T)

attach(dados)

dados

#Gráco de dispersão

plot(Xi, Yi, main="Gráco de Dispersão", xlab="X", ylab="Y")

valx<-dados$Xi

valy<-predict(lm(Yi~Xi), col="blue")

lines(valx, valy, col="blue", lwd=2, lty=1)

model<-lm(Yi~Xi) #retorna estimativa de b0 e b1

model

summary(model) #retorna a estatística t

predict(model)

Exercício 2: (BRUNI, 2008) Um professor resolveu analisar as notas de uma amostra formada por

oito alunos. Os dados coletados estão apresentados na tabela seguinte. Pede-se:

171
9 REGRESSÃO LINEAR SIMPLES

Teste (x ) 7 5 10 3 8 9 7 5

Demonstração (y ) 10 7 10 5 12 10 10 6

a) Construa um modelo de ajuste linear entre os pontos;

b) Calcule o coeciente de determinação e comente a qualidade do ajuste.

c) Calcule a nota esperada de cada aluno que obteve nota seis no teste.

Rotina do Execício 2:
dados<-read.table("Exercício_2.txt", h=T)

attach(dados)

dados

model<-lm(Demonstração ~ teste)

model

summary(model)

#nota esperada de cada aluno que obteve nota seis no teste

y<-2.72+0.8933*x

x<-6

Exercício 3: (BRUNI, 2008) Uma empresa de telefonia resolveu analisar a relação entre a idade

do seu consumidor e sua conta média mensal. Analisou os dados de uma amostra formada por oito

consumidores, apresentada a seguir. Analise o modelo de ajuste linear entre a idade (x) e a conta (y)

e comente a associação existente entre suas variáveis.

Idade (em anos) 32 17 26 36 34 53 31 29

Conta média (em $/mês) 85 84 36 82 77 70 52 95

Rotina do Execício 3:
dados<-read.table("Exercício_3.txt", h=T)

attach(dados)

dados

model<-lm(conta ~ idade)

model

summary(model)

aov(model)

Exercício 4: (BRUNI, 2008) Suponha que a Cia. Dos Calhambeques esteja tentando estabelecer uma

previsão de demanda para volumes de automóveis. A empresa vende volantes para veículos  zero km e

também para o mercado de reposição. A tabela a seguir apresenta as quantidades vendidas de volantes

separadamente. Os valores referem-se a vendas trimestrais.

Trim. 1 2 3 4 5 6 7 8

0 Km. 2350 2300 2250 2120 2260 1960 2100 2340

Usados 110 97 96 109 133 114 126 130

Pede-se:

a) Utilizando o método dos mínimos quadrados, desenvolva um modelo simples para a previsão de

demandas de volantes para a empresa.

172
9.6 Exercícios propostos

b) Efetue a previsão de demanda para os quatro semestres seguintes.

Rotina do Execício 4:
dados<-read.table("Exercício_4.txt", h=T)

attach(dados)

dados

zero<-dados$zero

zero

usado<-dados$usado

usado

demanda<-zero+usado

demanda

model<-lm(demanda~dados$trim)

model

summary(model)

aov(model)

predict(model)

Exercício 5: (BRUNI, 2008) Uma empresa deseja vericar se existe alguma associação entre o rendi-

mento dos seus operários e o descanso entre os intervalos de horas trabalhadas. Para tanto, considere

o número de carros acabados na linha de montagem e os minutos de descanso. Construa o modelo de

ajuste linear e calcule o coeciente de determinação.

Carros produzidos 20 24 30 32 33

Minutos de descanso 1 2 3 4 5

Rotina do Execício 5:
dados<-read.table("Exercício_5.txt", h=T)

attach(dados)

dados

model<-lm(prod ~ descanso)

model

summary(model)

Exercício 6: (BRUNI, 2008) Com base nos dados a seguir, determine a equação da reta que melhor

descreve o comportamento da correlação das variáveis.

Variável dependente 10 12 15 17 21

Variável independente 4 5 7 9 12

Rotina do Execício 6:

173
9 REGRESSÃO LINEAR SIMPLES

dados<-read.table("Exercício_6.txt", h=T)

attach(dados)

dados

plot(ind, dep, main="Gráco de Dispersão", xlab="X", ylab="Y")

valx<-dados$ind

valy<-predict(lm(dep ~ ind), col="blue")

lines(valx, valy, col="blue", lwd=2, lty=1)

model<-lm(dep ~ indep)

model

summary(model)

Exercício 7: (ANDERSON et al., 2007) Foram coletados os seguintes dados sobre a altura (metros)

e peso (quilogramas) de nadadoras:

Altura 1,72 1,63 1,57 1,65 1,68

Peso 59,87 49,98 46,26 56,16 58,05

a) Desenvolva um diagrama de dispersão destes dados, sendo a altura variável independente.

b) O que o diagrama de dispersão desenvolvido no item (a) indica a respeito da relação entre as duas

variáveis?

c) Tente aproximar a relação entre a altura e peso traçando uma linha reta entre os dados.

d) Desenvolva a equação de regressão estimada calculando os valores de β0 e β1


e) Se a altura de uma andadora for de 1,65m, segundo a estimativa qual seria o seu peso?

Rotina do Execício 7:
dados<-read.table("Exercício_7.txt", h=T)

attach(dados)

dados

model<-lm(peso ~ altura)

model

plot(altura, peso, main="Gráco de Dispersão", xlab="Altura", ylab="Peso")

valx<-dados$altura

valy<-predict(lm(peso ~ altura), col="blue")

lines(valx, valy, col="blue", lwd=2, lty=1)

summary(model)

aov(model)

predict(model)

Exercício 8: Suponhamos que um pesquisador tenha coletado o seguinte conjunto de dados sobre os

anos de instrução (X) e o número de lhos (Y) para uma amostra de 10 adultos casados.

X 12 14 17 10 8 9 12 14 18 16

Y 2 1 0 3 5 3 4 2 0 2

174
9.6 Exercícios propostos

a) Faça o diagrama de dispersão dos dados e trace a reta de regressão. Utilize um software.

b) Calcule a inclinação e o intercepto Y da reta de regressão.

c) Prediga o número de lhos para um adulto com 11 anos de instrução.

d) Ache os coecientes de determinação e correlação. O que eles signicam?

Rotina do Execício 8:
dados<-read.table("Exercício_8.txt", h=T)

attach(dados)

dados

plot(X, Y, main="Gráco de Dispersão", xlab="Anos de Instrução", ylab="Número de lhos")

valx<-dados$X

valy<-predict(lm(Y~X), col="blue")

lines(valx, valy, col="blue", lwd=2, lty=1)

model<-lm(Y ~ X)

model

summary(model)

aov(model)

#Nº esperado de lhos para um adulto com 11 anos de instrução

y<-7.575-0.41346*x

x<-11

Exercício 9: Um pesquisador deseja medir o efeito da duração de um julgamento criminal sobre a

duração da deliberação do júri. Para isso, observou, em uma amostra aleatória de 10 julgamentos no

tribunal, os seguintes dados sobre duração do julgamento (em dias) e duração de deliberação do júri

(em horas).

X (dias) 2 7 4 1 1 3 2 5 2 3

Y (horas) 4 12 6 2 1 7 5 9 4 8

a) Faça o diagrama de dispersão dos dados e trace a reta de regressão. Utilize um software.

b) Calcule a inclinação e o intercepto Y da reta de regressão.

c) Prediga a duração da deliberação do júri para um julgamento terminado recentemente, que durou

5 dias.

d) Ache os coecientes de determinação e correlação. O que eles signicam?

Rotina do Execício 9:

175
9 REGRESSÃO LINEAR SIMPLES

dados<-read.table("Exercício_9.txt", h=T)

attach(dados)

dados

plot(X, Y, main="Gráco de Dispersão", xlab="Dias", ylab="Horas")

valx<-dados$X

valy<-predict(lm(Y~X), col="blue")

lines(valx, valy, col="blue", lwd=2, lty=1)

model<-lm(Y ~ X)

model

summary(model)

aov(model)

predict(model)

Exercício 10: Uma empresa localizada em Uberlândia realizou um estudo para determinar qual a

função que ligava o preço de um determinado produto e a distância do mercado consumidor, obtendo

os seguintes resultados:

Preço (R$) - Yi 36 48 70 50 42 58 91 69

Distância (Km) - Xi 50 240 150 350 100 175 485 335

a) Construa o diagrama de dispersão.

b) Estime a equação de regressão.

c) Interprete a equação de regressão.

d) Teste o ajuste de regressão linear aos dados por meio do teste t ( a = 5%).
e) Calcule e interprete o coeciente de correlação.

f ) Teste o coeciente de correlação.

g) Determine e interprete o coeciente de determinação.

h) Construa e interprete a ANAVA.

Rotina do Execício 10:


dados<-read.table("Exercício_10.txt", h=T)

attach(dados)

dados

plot(Xi, Yi, main="Gráco de Dispersão", xlab="X", ylab="Y")

valx<-dados$Xi

valy<-predict(lm(Yi~Xi), col="blue")

lines(valx, valy, col="blue", lwd=2, lty=1)

model<-lm(Yi ~ Xi)

model

summary(model)

aov(model)

Exercício 11: A Tabela 1 a seguir nos mostra a distribuição dos pesos e alturas de oito indivíduos.

176
9.6 Exercícios propostos

Peso(kg) - Y 50 53 60 64 70 72 75 78

Altura(cm) - X 130 135 141 146 158 160 170 180

a) Construa o diagrama de dispersão.

b) Estime o modelo de regressão linear.

c) Calcule as três variações admitidas no modelo de regressão.

d) Determine o coeciente de correlação e faça sua interpretação.

e) Determine o coeciente de determinação e faça sua interpretação.

f ) Teste o ajuste de regressão linear aos dados por meio do teste t ( a = 5%).

g) Construa e interprete a ANAVA ( a = 5%).

h) Estime a média de pesos de todos os indivíduos com uma altura de 182 cm.

Rotina do Execício 11:

dados<-read.table("Exercício_11.txt", h=T)

attach(dados)

dados

plot(X, Y, main="Gráco de Dispersão", xlab="Altura", ylab="Peso")

valx<-dados$X

valy<-predict(lm(Y~X), col="blue")

lines(valx, valy, col="blue", lwd=2, lty=1)

model<-lm(Y ~ X)

model

summary(model)

aov(model)

y<22.13764+0.57303*x

x<-182

Exercício 12: Os dados mostrados a seguir representam o desempenho medido em milhas por galão,

MPG, de gasolina dos carros em uma auto estrada e o deslocamento do pistão no motor para uma

amostra de 20 carros.

177
9 REGRESSÃO LINEAR SIMPLES

MPG (auto estrada)


3
Deslocamento do Pistão (in )

30 97

19 209

29 173

32 121

30 151

24 156

30 135

28 181

31 114

25 302

27 153

33 90

30 119

23 80

24 159

29 97

26 181

29 173

37 122

29 173

a) Usando mínimos quadrados, ajuste um modelo linear simples relacionando MPG (y) ao deslocamento

do pistão (x).

b) Encontre uma estimativa de desempenho médio para um carro com deslocamento de pistão de 150

in3
Rotina do Execício 12:
dados<-read.table("Exercício_12.txt", h=T)

attach(dados)

dados

model<-lm(MPG ~DP)

model

summary(model)

178
REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística aplicada à administração
e economia. 2 ed. São Paulo: Thomson Learning, 2007.

BOLFARINE, H.; BUSSAB, W.O. Elementos de amostragem. 1 ed. Edgard Blücher, 2005.
BRUNI, L. B. Estatística aplicada à gestão empresarial. 2 ed. São Paulo: Atlas, 2008.

CRESPO A.A. Estatística fácil. 17 ed. São Paulo: Saraiva, 1999.

FONSECA, J. S.; MARTINS, G. de A. Curso de Estatística. 6 ed. São Paulo: Atlas, 2009.

FERREIRA, D. F. Estatítica básica. Lavras: Editora UFLA, 2005.

LEVIN, J; FOX J. A. Estatística para ciências humanas. 9 ed. São Paulo: Person Prentice Hall,

2004.

MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade para engenhei-


ros. 2 ed. Rio de Janeiro: LTC, 2003.

MONTGOMERY, D. C.; RUNGER, G. C.; HUBELE, N. F. Estatística aplicada à engenharia. 2

ed. Rio de Janeiro: LTC, 2004.

MORETTIN, L.G. Estatística básica: probabilidade e inferência. São Paulo: Person Prentice Hall,

2010.

MORETTIN, L. G.; BUSSAB, W. O. Estatística básica. 5 ed. São Paulo: Saraiva, 2003.
SILVA, M. F. Noções de Estatística com ênfase em Análise Exploratória de Dados. 2008

(Notas de Aula ECG-TCE-RJ).

TRIOLA M. F. Introdução à estatística. 10 ed. Rio de Janeiro: LTC, 2008.

WALPOLE, R. E.; MYERS, R. H.; MYERS, S. L.; YE, K. Probabilidade e estatística para
engenharia e ciências. 8 ed. São Paulo: Pearson Prentice Hall, 2009.

BIBLIOGRAFIA SITE http://www.fas.usda.gov/psdonline/psdResult.aspx, 24 março 2011

179

Você também pode gostar