Apostila 16
Apostila 16
Apostila 16
FACULDADE DE MATEMÁTICA
APOSTILA DE ESTATÍSTICA
Uberlândia
2012
Sumário
1 ESTATÍSTICA DESCRITIVA 5
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.5.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.5.2 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.8.5 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2 PROBABILIDADES 53
2.1 Probabilidades e espaço amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.1.2 Teoremas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1
Sumário
2.2.3 Teorema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.5.2 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6 AMOSTRAGEM 95
6.1 Denições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
2
Sumário
7.5.2 Intervalo de conança para média (µ) de uma população Normal com variância
σ2
populacional desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
7.6 Intervalos de conança para diferença entre duas médias (amostras independentes) . . 117
7.6.1 Intervalo de conança para diferença entre duas médias com variâncias popula-
7.6.2 Intervalo de conança para diferença entre duas médias com variâncias popula-
7.7 Intervalos de conança para difrença entre duas médias (amostras dependentes) . . . . 121
σ2
8.6.1 Teste de hipótese para média (µ) com variância populacional conhecida: . 138
8.6.2 Teste de hipótese para média (µ) de uma população Normal com variância po-
σ2
pulacional desconhecida: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
3
Sumário
8.7 Teste de hipótese para diferença de duas médias (amostras independentes) . . . . . . . 147
8.7.1 Teste de hipótese para diferença de duas médias de populações Normal com
8.7.2 Teste de hipótese para diferença de duas médias de populações Normal com
8.7.3 Teste de hipótese para diferença de duas médias de populações Normal com va-
8.8 Teste de hipótese para diferença de duas médias (amostras dependentes) . . . . . . . . 152
4
1 ESTATÍSTICA DESCRITIVA
1.1 Introdução
A Estatística é um conjunto de técnicas (metodologias) que se preocupa com a coleta, organização,
informação para auxiliar a tomada de decisão em uma situação prática envolvendo certeza. O ramo da
Estatística que lida com a organização, o resumo e apresentação dos dados é denominado de estatística
contexto maior pertence à parte da Estatística conhecida como Inferência Estatística ou Estatística
Indutiva.
As variáveis que apresentam como possíveis realizações uma qualidade (ou atributo) do indivíduo
As variáveis que apresentam as possíveis realizações como números resultantes de uma contagem ou
i) variáveis qualitativas nominais: não existe nenhuma ordenação nas suas possíveis realizações
(resultados).
Exemplo 3: sexo, estado civil e cor da or de uma espécie de planta que pode ser branca, violeta e
vermelha.
ii) variáveis qualitativas ordinais: os seus possíveis resultados podem ser ordenados por algum
critério.
Exemplo 4: altura de plantas ou pessoas, que pode assumir as classicações: baixa, média e alta;
Exemplo 5: número de lhos, número de acidentes numa rodovia num feriado prolongado, número
de circuitos defeituosos.
5
1 ESTATÍSTICA DESCRITIVA
ii) variáveis quantitativas contínuas: os possíveis valores formam um intervalo de números reais
Exemplo 6: peso de animais, volume de árvores e peso de matéria seca ou de matéria verde de uma
leguminosa.
Fenômeno Estatístico: qualquer evento que se pretende analisar cujo estudo seja possível a
Parâmetro: são valores singulares que existem na população e que servem para caracterizarem.
Inferência Estatística: processo por meio do qual procuramos tomar decisões sobre uma po-
Amostra Aleatória: para validade das conclusões que são feitas a respeito da população e
necessário que cada membro da população tenha probabilidade conhecida e que elementos sejam
independentemente selecionados. Em outras palavras, além de cada individuo possuir chance não
nula de pertencer à amostra, a seleção de um deles, de forma alguma, irá inuenciar a seleção do
Exemplo 7: (MORETTIN & BUSSAB, 2003) Um pesquisador está interessado em fazer um levanta-
mento sobre alguns aspectos socioeconômicos dos empregados da seção de orçamentos da Companhia
MB. Usando informações obtidas do departamento pessoal, ele elaborou a Tabela 1. Pode-se atribuir
uma letra, digamos X, para representar tal variável. Observa-se na Tabela 1 que o pesquisador colheu
Variável Representação
Estado civil X
Grau de instrução Y
Número de lhos Z
Salário S
Idade U
Região de procedência V
Sexo R
Classe social T
6
1.2 Coleta, organização e apresentação de dados
caso, eles são denominados de dados brutos. Então, esses dados sofrerão uma simples organização
(ordenação) e serão denominados de dados elaborados. Para ilustrar apresentaremos exemplo típico
Tabela 2: Dados brutos de marca de carros populares predominante em 25 cidades do triângulo, 1998.
Um outro exemplo, agora de dados quantitativos discretos refere-se a contagem de ovos danicados no
mercado municipal da cidade de Lavras, ao chegar um carregamento de ovos de uma cidade distante,
os lojistas zeram uma amostragem e inspecionaram 30 dúzias anotando o número de ovos danicados
em cada uma delas. Os resultados do número de ovos danicados em cada dúzia (embalagem) estão
Tabela 3: Dados brutos referentes ao número de ovos danicados em uma inspeção feita em 30
embalagens, de uma dúzia cada, em um carregamento para o mercado municipal de Lavras proveniente
0 0 1 1 1
3 0 0 0 0
2 3 3 0 0
1 5 4 1 2
2 1 1 1 0
0 0 0 1 0
Essa representação dos dados nas Tabelas 2 e 3 é pouca informativa e para melhorá-la um pouco é
possível ordenar os dados em uma seqüência crescente ou decrescente ou agrupá-los quanto as suas
nova organização. Na Tabela 4 são apresentados as marcas de carro de maior para menor frequencia.
1998.
7
1 ESTATÍSTICA DESCRITIVA
Finalmente, na Tabela 5, estão apresentados os dados (dados elaborados) do número de ovos danicados
Tabela 5: Dados elaborados referentes ao número de ovos danicados em uma inspeção feita em 30
embalagens, de uma dúzia cada, em um carregamento para o mercado municipal de Lavras proveniente
0 0 0 1 2
0 0 1 1 3
0 0 1 1 3
0 0 1 1 3
0 0 1 2 4
0 0 1 2 5
É importante ressaltar que essas representações não são, ainda, a melhor forma de apresentar os dados,
pois se os tamanhos amostrais aqui apresentados fossem de ordem maior de dados (centenas ou milhares
de dados), então essas representações consumiriam muito espaço e consequentemente seriam pouco
funcionais para o propósito que se destinam. Torna-se evidente a necessidade de resumir os dados,
sem perda de muita informação contida neles. Dessa forma, para os dados qualitativos nominais e
para os quantitativos discretos, percebe-se que eles poderiam ser resumidos agrupando suas categorias
Marca fi fr fp (%)
Corsa 4 4/25=0,16 16
Gol 8 0,32 32
Ka 1 0,04 4
Pálio 3 0,12 12
Uno 9 0,36 36
P
25 1,00 100
amostra.
8
1.2 Coleta, organização e apresentação de dados
attach(dados)
tab.dados<-table(dados)
Na tabela 5, estão apresentados os dados referentes ao número de ovos danicados em uma inspeção
feita em 30 embalagens de uma dúzia cada, em um carregamento para o mercado municipal de La-
vras. Esses dados podem ser agrupados de modo análogo aos dados da marca de carros populares no
triângulo.
9
1 ESTATÍSTICA DESCRITIVA
dados<-read.table("ovos quebrados.txt", h = T)
attach(dados)
tab.dados<-table(dados)
df<-matrix(0,7,3)
colnames(df )<-c("fa","fr","fp")
rownames(df )<-c("0","1","2","3","4","5","Total")
df[1,1]<-tab.dados["0"]
df[2,1]<-tab.dados["1"]
df[3,1]<-tab.dados["2"]
df[4,1]<-tab.dados["3"]
df[5,1]<-tab.dados["4"]
df[6,1]<-tab.dados["5"]
df[7,1]<-sum(df[1:6])
df
de tratamento dispensado aos dados qualitativos e aos dados quantitativos discretos. Para resolver
este problema de apresentar a distribuição de dados quantitativos contínuos de uma forma resumida
para esse tipo de dados. Nesse tipo de representação, os dados quantitativos contínuos são agrupados
em classes de valores, das quais as frequencias e os limites são apresentados em uma tabela. Para isso
é necessário adotar um critério para determinar o número de classes em que serão agrupados os dados
amostrais. A seguir serão apresentados alguns critérios empíricos para determinar o número de classes
é denominado de amplitude de classe e representado por C. Por construção, todas as classes terão o
A
C= (K−1) .
10
1.2 Coleta, organização e apresentação de dados
A seguir é apresentado uma seqüência (algoritmo) para a construção de uma distribuição de frequencia
2. Cálculo da amplitude total (A): A = X(n) −X(1) = maior valor observado−menor valor observado.
3. Cálculo do número de classes: adotar um dos critérios citados anteriormente.
A
4. Cálculo de amplitude de classe (C): C= K−1
C C
5. Cálculo do limite inferior da primeira classe: LI1ª = X(1) − 2 = menor valor observado − 2
6. Calcular as classes: para determinados cálculos estatísticos, todos os pontos de uma classe podem
ser representados pelo ponto médio da classe. O ponto médio da classe i (X̄i ) é calculado pela
média dos limites da classe. Esse critério é conhecido como hipótese tabular básica.
centual referente a produção de grãos em g/planta obtidos numa amostra de n = 20 plantas de feijão
da geração F2 do cruzamento das cultivares Flor de Maio e Carioca. Frequentemente utilizarei esse
estatística descritiva.
1. Organizar (ordenar) - Como os dados são elaborados então, eles já estão ordenados.
2. Determinando a amplitude total (A):A = X(n) − X(1) = maior valor observado - menor valor
classes será 4.
11
1 ESTATÍSTICA DESCRITIVA
A 23,19 23,19
4. Cálculo de amplitude de classe (C): C= k−1 = 4−1 = 3 = 7, 73
C 7,73
5. Cálculo do limite inferior da primeira classe: LI1ª = X(1) − 2 = 1, 38 − 2 = −2, 485
6. Calcular as classes:
attach(dados)
df<-matrix(0,5,3)
colnames(df )<-c("fa","fr","fp")
rownames(df )<-c("[-2.485,5.245)","[5.245,12.975)","[12.975,20.705)","[20.705,28.435)","Total")
tab.dados<-table(cut(producao,breaks=c(-2.485,5.245,12.975,20.705,28.435)))
df[1:4,1]<-tab.dados
df[5,1]<-sum(df[1:4])
df
de dados. Essas comparações visam sintetizar a informação e as decisões a serem tomadas a respeito de
determinado conjunto de dados. Essas comparações podem ser realizadas por intermédio das medidas
à posição da distribuição em relação ao eixo dos valores reais (eixo x), ou seja, o termo medida de
posição é usado para indicar, ao longo da escala de medidas, onde a amostra ou a população está
locada. Portanto, as medidas de posição mostram o valor representativo em torno do qual os dados
tendem a agrupar-se, com maior ou menor frequencia, isto é, são utilizadas para sintetizar em um
único número o conjunto de dados observados. Entre vários tipos de medidas de posição destacam-se a
média, a mediana e a moda. Esses parâmetros são úteis, pois descrevem propriedades da população, ou
seja, caracterizam a população. A média aritmética é a medida de posição mais conhecida e aplicada.
simplesmente média é, por denição, o resultado da divisão das somas de todos os valores da série pelo
12
1.3 Medidas de Posição
N
populacional da variável;
P
Em que (µ) é a média Xi é a soma de todos os elementos da população
i=1
e N é o número de elementos na população. O estimador não viesado, mais eciente e consistente da
n
P
Xi
i=1 X1 +X2 +X3 +...+Xn
X= n = n . (2)
n
P
Em queX̄ é a média amostral da variável; Xi é a soma de todos os elementos da amostra e n é o
i=1
número de elementos da amostra.
Exemplo 9: Sabendo-se que o número de peças defeituosas observados em amostras retiradas diari-
amente da linha de produção, durante uma semana foi de 10, 14, 13, 15, 16, 18 e 12 peças, têm, para
exemplo 9:
# sintaxe:
mean(dados)
npd<-c(10,14,13,15,16,18,12)
mean(npd)
frequencias e quando a variável em questão é classicada como discreta, segue o mesmo princípio da
fórmula básica da média aritmética, no entanto, as informações utilizadas não são todos os elementos
da distribuição, mas sim cada classe (Xi ) com sua frequencia (fi ). A fórmula passa a ser:
k
P
X̄ = Xi fi /n. (3)
i=1
13
1 ESTATÍSTICA DESCRITIVA
k
P
Em que é a média amostral da variável Xi fi ; : é a somatória das multiplicações dos valores de cada
i=1
classe por sua frequencia; k é o número de classes e n é o número total de elementos da amostra (dados
P
por fi ).
Exemplo 10: Considere os números de gols por partida em um determinado campeonato de futebol,
agrupados e apresentados na Tabela 10. Calcule o número médio de gols por partida.
º
N . de gols por partida (Xi ) fi
0 7
1 12
2 16
3 12
4 9
5 2
6 2
P
60
Observe que cada classe ou atributo ou categorias da variável (n . de gols por partida) apresenta º
sua frequencia. Para calcular a média quando os dados estão agrupados, o modo mais prático é
acrescentar na tabela uma coluna correspondente aos produtos Xi fi (em cada linha da tabela, procede-
se a multiplicação do valor de Xi por sua frequencia fi ), e após a obtenção da somatória desses produtos
k
P
Xi fi . Para o exemplo 10, esse procedimento é apresentado na Tabela 11.
i=1
k
Tabela 11:
P
Número de gols por partida em um total de 60 jogos, com a coluna Xi fi .
i=1
º
n . de gols por partida (Xi ) fi Xi fi
0 7 0
1 12 12
2 16 32
3 12 36
4 9 36
5 2 10
6 2 12
P
60 138
Logo, o cálculo da média amostral será realizado por intermédio da equação (3):
7
P
Xi fi
i=1 X1 f1 +X2 f2 +X3 f 3+...+X7 f7 0+12+...+12 138
X̄ = 60 = 60 = 60 = 60 = 2, 3 gols/partida
k
P
Observe que a somatória dos produtos dos números de gols por suas frequencias Xi fi corresponde
i=1 P
ao número total de gols durante o campeonato. Ao dividirmos esse total pelo número de jogos ( fi )
estamos nos remetendo ao mesmo procedimento do cálculo da média aritmética simples. O que mudou,
portanto, foi apenas a apresentação dos dados, mas não o conceito da medida. O valor encontrado
(X̄ = 2, 3 gols/partida) não é um resultado possível para qualquer jogo (nesse caso poderiam ser 2
gols, 3 gols, mas não 2,3 gols). No entanto, esse valor representa o todo e permite interpretar que a
tendência geral foi de pouco mais de dois gols por partida nesse campeonato.
Agora foi criado um banco de dados no bloco de notas para o exemplo 10. A partir desse banco de
14
1.3 Medidas de Posição
# sintaxe:
mean(dados)
dados<-read.table("número de gols por partida.txt", h=T) # read.table(Caminho, h = T) - comando para realizar a leitura do banco de dados
mean(dados)
é contínua, utiliza-se o raciocínio análogo ao cálculo da variável discreta, conforme a expressão abaixo:
k
P
X i fi
i=1 X̄1 fi +X̄2 f2 +X̄3 f3 +...+X̄k fk
X̄ = n = n . (4)
Em que X̄i é o ponto médio da classe e fi é a frequencia absoluta da classe i, para i = 1, 2, ..., k e k
é o número de classes.
Exemplo 11: Em uma fábrica de pneus automotivos a matéria prima para a fabricação consiste em
materiais derivados do petróleo, materiais sintéticos e borracha. As características dos diversos tipos de
pneus fabricados são determinadas pela qualidade do material empregado em sua fabricação, e, neste
sentido diversos testes são aplicados a estes produtos para a medição e vericação de sua qualidade.
Considere que um bloco de borracha que deve ser submetido a testes para a vericação do coeciente
de atrito entre o bloco e uma superfície plana de cimento/asfalto. Uma força é aplicada ao bloco e
este é arrastado por uma determinada distância permitindo que o coeciente de atrito seja medido.
Em uma sessão de testes foram realizadas 40 medições e o coeciente de atrito medido foi dividido em
quatro classes cujos resultados estão mostrados na Tabela 12, que indica a frequencia absoluta (fi ) do
Analogamente ao procedimento das variáveis discretas será criada uma coluna com os pontos médios
das classes X̄i e a seguir outra coluna correspondente aos produtos X̄i fi , conforme é apresentado
na Tabela 13.
15
1 ESTATÍSTICA DESCRITIVA
O coeciente de atrito cinético médio, ou seja, a média será determinada por meio da equação (4):
4
P
X i fi
i=1 X̄1 f1 +X̄2 f2 +X̄3 f3 +X̄4 f4 5∗0,25+10∗0,45+8∗0,65+17∗0,85 25,40
X̄ = n = 40 = 40 = 40 = 0, 635
Observe que a fórmula é exatamente a mesma para variáveis discretas ou contínuas. Todos os elementos
de um determinado intervalo de classe são representados, no cálculo, pelo ponto médio da classe e não
pelos seus valores reais (Hipótese Tabular Básica). Assim, para variáveis contínuas, o cálculo da média
com dados agrupados gera um valor aproximado, e não idêntico ao cálculo com todos os elementos
(dados não-agrupados).
Apartir do banco de dados (coeciente de atrito cinético.txt) para o exemplo 11 calcularemos a média
aritmética:
# sintaxe:
mean(dados)
mean(dados)
1.3.2 Mediana
A mediana é uma medida típica de tendência central, sendo denida em um conjunto de dados orde-
nados como o valor central, ou seja, o valor para o qual há tantas mensurações que o superam quanto
são superados por ele. A mediana amostral (Md ) é o melhor estimador da mediana populacional (µd )
(FERREIRA, 2005). Para a estimação da mediana, é necessário ordenar os dados (dados elaborados).
A ordenação pode ser crescente ou decrescente, embora, no presente material, sejam consideradas as
ordens crescentes.
X( n ) +X n+2
2 ( 2 )
Md = 2 . (6)
Exemplo 12: Considere a seguinte amostra de dados: 8, 9, 9, 11, 12, 13, 13, 14 que possui 8
n 8
elementos, portanto . Logo, é par, então por meio da equação (5) tem-se que: E= 2 = 2 = 4, ou seja,
o elemento central apresenta ordem 4. Assim, a mediana será determinada por intermédio da equação
(6):
X( n ) +X n+2 X
2 ( 2 ) ( 82 ) +X( 8+2
2 ) X(4) +X(5) 11+12
Md = 2 = 2 = 2 = 2 = 11, 5
16
1.3 Medidas de Posição
# sintaxe:
median(dados)
dados<-c(8,9,9,11,12,13,13,14)
median(dados)
ii) Se o número de observações for ímpar, a posição da mediana denotada por E será:
n+1
E= 2 . (7)
Md = X( n+1 ) . (8)
2
Exemplo 13: Considere a seguinte amostra de dados: 8, 9, 9, 11, 12, 13, 13 que possui 7 elementos,
isto é, n = 7. Logo, é ímpar, então por meio da equação (7) tem-se que:
n+1 7+1
E = 2 = 2 = 4 , ou seja, o elemento central apresenta ordem 4. Assim, a mediana será
ou seja, o 4 elemento da amostra, que corresponde ao valor 11, é a mediana do conjunto de dados.
O comando para o cálculo da mediana no R é o seguinte:
# sintaxe:
median(dados)
dados<-c(8,9,9,11,12,13,13)
median(dados)
ou seja, em um conjunto de valores dispostos de forma ordenada, a mediana é o valor que separa o
conjunto em dois subconjuntos com mesmo número de elementos. Para se fazer essa determinação
Se a variável é discreta, o procedimento para determinar a mediana é o mesmo utilizado para dados
não-agrupados, em que o centro da amostra é diferente para os casos em que n é ímpar, ou n é par,
isto é:
1. Determina-se a ordem do valor central com o uso das mesmas regras dos dados não agrupados;
o valor central;
17
1 ESTATÍSTICA DESCRITIVA
3. Se n é ímpar, o valor encontrado no 2 passo já é a mediana; º
4. Se n é par, a média dos elementos encontrados no 2 passo é a mediana. º
Exemplo 14: (n par) Utilizando os dados do exemplo 10 apresentados na Tabela 10, que contabilizou
os números de gols por partida em um campeonato de futebol, vamos calcular a mediana desses valores.
O número de gols no campeonato foi 60, isto é, n é par. Então, por meio da equação (5) tem-se que a
ordem do elemento central é: E = n/2 = 60/2 = 30 (regra i).
A Tabela 10 foi reescrita em Tabela 14, acrescendo-se a coluna de frequencia acumulada para baixo
Tabela 14 Distribuição de frequencias absoluta (fi ) e acumulada (Fi ) referente ao número de gols
por partida em um total de 60 jogos.
º
n . de gols por partida (Xi ) fi Fi
0 7 7
1 12 19
2 16 35
3 12 47
4 9 56
5 2 58
6 2 60
P
60 -
Portanto, o elemento central é o 30º elemento da amostra, ou seja, a classe (categoria ou atributo)
(F3 = 35). Logo, a mediana ou o número mediano de gols por partida será calculado por intermédio
# sintaxe:
median(dados)
dados<-c(0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,5,5,6,6)
median(dados)
Exemplo 15: (n ímpar) Considere os dados amostrais de números de circuitos defeituosos em sistema
composto por 4 circuitos. Uma amostra de 19 sistemas esta resumida na Tabela 15. Vamos determinar
A Tabela 15 apresenta uma coluna referente às frequencias acumulada para baixo Fi (regra ii).
Tabela 15: Distribuição de frequencias absoluta (fi ) e acumulada (Fi )dos números de circuitos defei-
º
n . de circuitos defeituosos (Xi ) fi Fi
1 10 10
2 7 17
3 1 18
4 1 19
P
19 -
18
1.3 Medidas de Posição
Observe que o número de elementos (sistemas) é 19, isto é, n é ímpar. Então, por meio da equação (7)
tem-se que a ordem do elemento central é:
n+1 20
E= 2 = 2 = 10 (regra i).
Portanto, o elemento central é o 10º elemento, ou seja, a classe cuja frequencia acumulada é igual,
número mediano de circuitos defeituosos por sistema será determinado por meio da equação (8) (regra
iii):
# sintaxe:
median(dados)
dados<-c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,3,4)
median(dados)
Outra forma de obter informação sobre a mediana a partir de um banco de dados seria por meio do
seguinte comando:
# sintaxe:
summary(dados)
2. Calcula-se a ordem por meio da equação (5) se n for par ou pela equação (7) se n for ímpar;
( n2 −F(anterior) )
Md = LIM d + fiM d hM d . (9)
Em que LIM d é o limite inferior da classe mediana; n é o número de elementos no conjunto de dados;
F(anterior) é a frequencia acumulada da classe anterior à classe mediana; hM d é a amplitude do intervalo
Exemplo 16: Para ilustrar o exemplo 3.8 serão utilizados os dados do exemplo 11 (Tabela 13), que
representa uma sessão de testes, ou seja, 40 medições referentes ao coeciente de atrito. Na Tabela 16
19
1 ESTATÍSTICA DESCRITIVA
é apresentado as frequencias acumuladas das classes. Vamos calcular a mediana desses Coecientes de
Atrito Cinético.
São 40 medições, ou seja, n = 40. Portanto a ordem é calculada por meio da equação (5):
n 40
E= 2 = 2 = 20
A classe cuja frequencia acumulada é imediatamente superior à ordem 20 é a terceira classe, portanto
essa é a classe mediana ( 0,55 0,75), destacada na Tabela 3.7. Então, por intermédio da interpolação,
( n2 −F(anterior) ) ( 40
2 −15)
Md = LIM d + fi M d hM d = 0, 55+ 8 0, 20 = 0, 55+ (20−15)
8 0, 20 = 0, 55+ 58 0, 20 = 0, 55+ 18 =
0, 55 + 0, 125 = 0, 675
Nota: Estas informações não são válidas para dados contínuos agrupados.
1. Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana
2. Quando o número de elementos da série estatística for par, nunca haverá coincidência da mediana
com um dos elementos da série. A mediana será sempre a média aritmética dos dois elementos
centrais da série.
1.3.3 Moda
A moda é o valor que ocorre com maior frequencia em uma série de dados. Uma melhor denição
poderia ser dada por aquele valor da variável em que há a mais densa concentração de valores na sua
proximidade (FERREIRA, 2005). A moda amostral (Mo ) é o melhor estimador da moda populacional
(µo ). A moda não é afetada pelos extremos e também é uma medida muito utilizada na economia e
quando:
No freeware R, existe duas maneiras de encontrar a moda de uma série de dados. São elas:
1. table(): este comando ordena em ordem crescente os dados e indica o número de vezes em que o
elemento se repete na série de dados apresentada. É utilizado para encontrar a moda em pequenas
amostras.
20
1.3 Medidas de Posição
2. subset(): em oposição ao item anterior esta função é utilizada quando o tamanho da amostra é
grande.
Exemplo 17: Considere a seguinte amostra: 8, 9, 9, 11, 13, 13, 13, 14. O valor que mais se repete é
# sintaxe:
moda. Basta observar o valor (Xi ) que apresenta maior frequencia (fi ).
Exemplo 18: Para ilustrar o exemplo 18 serão considerados os dados do exemplo 15 (Tabela 15), que
se refere ao número de circuitos defeituosos por sistema, observados em uma amostra de 19 sistemas.
º
n . de circuitos defeituosos (Xi ) fi
1 10
2 7
3 1
4 1
P
19
Observa-se que a maior frequencia (f1 = 10) foi a da primeira classe , cujo valor é 1 circuito defeituoso
por sistema (X1 = 1), por isso a moda da distribuição é: Mo = 1 circuito defeituoso/sistema.
Vamos considerar os dados do exemplo 17 para ilustrar os comandos para o cálculo da moda no R:
# sintaxe:
table(dados)
subset(table(dados),table(dados)==max(table(dados)))
21
1 ESTATÍSTICA DESCRITIVA
1.3.3.3 Moda para dados agrupados para variáveis contínuas
No caso de variáveis contínuas, a classe que apresenta maior frequencia é denominada classe modal.
Crespo (1999) arma que a moda, nesse caso, é o valor dominante que está compreendido entre os
da moda. Para esse m existem diferentes métodos, sendo que nesse texto vamos aplicar o método
de Czuber (citado por FERREIRA, 2005) que permite encontrar o valor da moda de forma mais
elaborada:
41
Mo = LIM o + 41 +42 hM o . (10)
Em que, LIM o é o limite inferior da classe modal; 41 é a diferença entre as frequencias da classe modal
Exemplo 19: Os dados da Tabela 18 são os mesmos da Tabela 12, e se referem às 40 medições do
A classe que apresentou maior frequencia (fi ) foi a quarta classe (0,75 0,95), que apresentou dezessete
elementos (f4 = 17). Esta é, então, a classe modal. Agora, será determinada a moda ou o coeciente
por exemplo a série: 8, 9, 10, 11, 13, 14 então, esta série é dita amodal.
Em outros casos pode haver dois ou mais valores de concentração, como por exemplo, a série: 8,
9 e 13 ocorrem
9, 9, 11, 12, 13, 13, 14 então, os valores com maior frequencia que os demais.
assimetria as torna diferentes de modo que quanto maior a assimetria maior será essa diferença entre
22
1.4 Medidas Separatrizes
Figura 1 - Formas de distribuições em situações reais: (a) distribuição em forma de sino simétrica; (b)
Maiores detalhes sobre a característica da distribuição será discutido na seção (1.6) e (1.7).
minado restaurante (cozinheiros, copeiros, garçons, recepcionistas etc.). Em uma situação hipotética,
considerem os seguintes valores de salários: 200, 250, 250, 300, 450, 460, 510.
7
P
xi
i=1 200+...+510
Sua média aritmética, isto é, o salário médio é: X̄ = 7 = 7 = 345, 7.
Esse valor representa, ou sintetiza razoavelmente, aquele conjunto de observações. Se incluirmos,
entretanto, o salário de gerente do estabelecimento, os dados seriam: 200, 250, 250, 300, 450, 460,
510, 2300 e a média seria 601,4. Neste caso, não se pode dizer que a média sintetiza adequadamente o
No entanto, as medianas sem e com o salário do gerente são 300 e 375, respectivamente. Portanto,
o exemplo ilustra um fato de que a média é muito sensível a valores extremos de um conjunto de
observações, enquanto, a mediana não sofre muito com a presença de alguns valores muito altos ou
muito baixos. Costuma-se dizer que a mediana é mais robusta do que a média aritmética. Portanto,
deve-se preferir a mediana como medida sintetizadora quando o histograma do conjunto de valores é
dade de elementos da série, isto é, divide o conjunto de dados em partes iguais. Por exemplo, a mediana
é uma medida separatriz, pois divide a sequencia ordenada em dois grupos, cada um deles contendo
23
1 ESTATÍSTICA DESCRITIVA
50% dos dados. Além da mediana pode-se destacar as seguintes medidas separatrizes (FONSECA &
MARTINS, 2009):
1. Quartis: Divide a sequencia ordenada em 4 (quatro) partes iguais. Assim, o primeiro quartil (Q1 ),
separa a sequencia ordenada deixando 25% dos valores à esquerda e 75% dos valores a direita;
o segundo quartil (Q2 ), separa a sequencia ordenada deixando 50% dos valores à esquerda e
50% dos valores a direita, ou seja,(Q2 ) é a mediana; o terceiro quartil (Q3 ), separa a sequencia
ordenada deixando 75% dos valores à esquerda e 25% dos valores a direita;
2. Quintis: Divide a sequencia ordenada em 5 (cinco) partes iguais, cada uma cará com 20% dos
dados. Assim, o primeiro quintil (K1 ), separa a sequencia ordenada deixando 20% dos valores
à esquerda e 80% dos valores a direita; o segundo quintil (K2 ), separa a sequencia ordenada
deixando 40% dos valores à esquerda e 60% dos valores a direita; o terceiro quintil (K3 ), separa
a sequencia ordenada deixando 60% dos valores à esquerda e 40% dos valores a direita; o quarto
quintil (K4 ), separa a sequencia ordenada deixando 80% dos valores à esquerda e 20% dos valores
a direita;
3. Decis: Divide a sequencia ordenada em 10 (dez) partes iguais, cada uma cará com 10% dos
dados. Assim, o primeiro decil (D1 ), separa a sequencia ordenada deixando 10% dos valores à
esquerda e 90% dos valores a direita. Analogamente, são denidos os outros decis;
4. Percentis: Divide a sequencia ordenada em 100 (cem) partes iguais, cada uma cará com 1% dos
dados. Assim, o primeiro percentil (P1 ), separa a sequencia ordenada deixando 1% dos valores à
esquerda e 99% dos valores a direita. Analogamente, são denidos os outros percentis.
Diante das informações apresentadas, é possível, estabelecer algumas relações (FONSECA &
MARTINS, 2009):
Nota: O resultado de (i.n )/100 indica a posição do percentil i. Se o resultado for um número inteiro,
tem-se a posição imediata do percentil i. Se o resultado não for um número inteiro, não se tem a posição
imediata do percentil i, então, se calcula a média dos valores que ocupam estas posições aproximadas.
Solução:
1. Primeiramente ordenam-se os dados: 2, 2, 4, 5, 5, 9, 10, 11, 12, 13, 13, 14;
24
1.4 Medidas Separatrizes
3. Calcula-se i % de n, isto é, (i.n )/100 para localizar a posição do percentil i no Rol: (i.n )/100 =
(25x12)/100 = 3 (3 ª posição);
4. Em seguida, identica-se o elemento que ocupa esta posição: Portanto, Q1 = P25 = Y(3) = 4 (2,
Interpretação: 25% dos valores da sequencia são menores ou iguais a 4 e 75% dos valores da sequencia
são maiores ou iguais a 4.
Solução:
1. Primeiramente ordenam-se os dados: 2, 2, 4, 5, 5, 9, 10, 11, 12, 13, 13, 14;
3. Calcula-se i % de n, isto é, (i.n )/100 para localizar a posição do percentil i no Rol: (i.n )/100 =
(60x12)/100 = 7,2 (Média entre 7º e 8º elemento ordenado);
4. Em seguida, identica-se o elemento que ocupa esta posição: Portanto, K3 = P60 = [Y(7) +
Y(8) ]/2 = (10 + 11)/2 = 10, 5.
Interpretação: 60% dos valores da sequencia são menores ou iguais a 10,5 e 40% dos valores da
3. Em seguida, identica-se o elemento que ocupa esta posição por meio da frequencia acumulada.
Yi fi
0 2
1 3
2 5
3 3
4 2
Solução:
Identica-se a medida desejada relacionando-a com o percentil correspondente,
P
Pi : D4 = P40 ,
então, i = 40 e n = 15 = fi ;
Calcula-se i % de n, isto é, (i.n )/100 para localizar a posição do percentil i no Rol: (i.n )/100 =
(40x15)/100 = 6 (6 º elemento ordenado);
Yi fi Fi
0 2 2
1 3 5
2 5 10
3 3 13
4 2 15
25
1 ESTATÍSTICA DESCRITIVA
Portanto, D4 = P40 = Y(6) = 2.
Interpretação: 40% dos valores da sequencia são menores ou iguais a 2 e 60% dos valores da sequencia
Nota: O resultado de (i.n )/100 indica a posição do percentil i. Se o resultado não for um número
inteiro, não se tem a posição imediata do percentil i, então, se calcula a média dos valores que ocupam
Identica-se a medida desejada relacionando-a com o percentil correspondente, Pi por meio de:
1.n −F
( 100 (anterior) )
Pi = LI(Pi ) + fi h.
(Pi )
Em que, Pi é o percentil i (i = 1,2, ..., 99); LI(P i) é o limite inferior da classe que contém o percentil
i ; n é o número de elementos da série; F(ant) é a frequencia acumulada da classe anterior a classe que
Classes fi
0 |- 10 2
10 |- 20 3
20 |- 30 5
30 |- 40 3
40 |- 50 2
Solução:
Identica-se a medida desejada relacionando-a com o percentil correspondente, Pi : Q3 = P75 , então, i
P i.n 75∗15
= 75 e n = 15 = fi . Logo, 100 = 100 = 11, 25. Isto nos dá a posição do P75 na série. Construindo
Classes fi Fi
0 |- 10 2 2
10 |- 20 3 5
20 |- 30 5 10
30 |- 40 3 13
40 |- 50 2 15
1.n −F
( 100 (anterior) ) (11,25−10)
Pi = LI(Pi ) + fi h ⇒ P75 = 30 + 3 10 = 34, 17.
(Pi )
26
1.5 Medidas de Dispersão
(sintetizar) um único número típico de uma distribuição de dados. Porém, as medidas de posição nos
dão uma informação incompleta a respeito de um conjunto de dados. Podendo assim nos confundir
a ponto de tomarmos decisões ou escolhas não muito adequadas, ou seja, a média é uma medida de
centro da distribuição, porém, nada informa com relação à dispersão dos valores em torno do centro.
Portanto, torna-se necessário agregarmos mais informações sobre determinado conjunto de dados por
intermédio das medidas de dispersão. Logo, podemos estabelecer algumas relações: quanto maior
a variabilidade (dispersão) dos dados menor a representatividade da média; quanto menor a dispersão,
mais conável é a média. Assim, dizemos que as medidas de dispersão servem para qualicar a média
(LEVIN & FOX, 2004). De forma geral, as medidas de dispersão mostram o grau de afastamento dos
valores observados em relação àquele valor representativo (que nem sempre é a média).
As medidas de dispersão têm como objetivo apresentar um estudo descritivo de um conjunto de dados,
é vista pela perspectiva da dispersão em torno do centro da distribuição. As medidas de posição nem
sempre são sucientes para sintetizar a informações contidas nos dados, ou seja, não são sucientes para
caracterizarem completamente a distribuição dos dados. Portanto, são necessárias outras medidas para
Vamos considerar um exemplo (diagrama abaixo) para discutir um pouco mais sobre a deciência
das medidas de posição. Suponha que queremos comparar o tempo de vida de 3 marcas (A, B e C) de
lâmpadas em meses.
XA = XB = XC = 6 meses
Figura 2: Diagrama de dispersão
As três marcas de lâmpadas apresentaram a mesma média (6 meses) para a variável tempo de vida.
É notório que os conjuntos diferem razoavelmente um do outro. A lâmpada C apresentou uma me-
nor dispersão de valores em torno do valor central (6 meses), sendo seguido pela lâmpada B e por
último a lâmpada A. Se os conjuntos fossem representados apenas pelas respectivas médias eles seriam
considerados iguais. Porém, analisando o diagrama acima vemos que a lâmpada C apresenta menor
1.5.1 Amplitude
A amplitude denotada por A, é a diferença entre o maior e o menor escore em uma distribuição, isto
dados. Essa medida é inconveniente (grosseira), apesar de ser facilmente calculada, pois não considera
27
1 ESTATÍSTICA DESCRITIVA
todas as observações, ou seja, leva em conta apenas os valores extremos: máximo e mínimo (LEVIN
Exemplo 20: Uma amostra do tempo de vida de pneus de determinada marca apresentou os seguintes
resultados: 40.000; 40.500; 35.600; 39.300; 37.200; 39.700; 35.000; 32.300 km. Logo, o tempo de vida
do pneu dessa marca varia de 32.300 a 40.500 km, ou seja, o tempo de vida apresenta uma amplitude
de 8.200 km. Pois, por intermédio da equação (11) tem-se que A = 40.500 - 32.30 = 8.200 km.
A partir de uma série de dados podemos encontrar os valores máximos e mínimos por meio dos seguintes
comandos no R:
# sintaxe:
max(dados) - min(dados)
Outra forma de obter o maior e menor valor da série de dados é utilizar o comando:
# sintaxe:
range(dados)
Exemplo 21: Para ilustrar o exemplo 21 serão utilizados os dados do exemplo 11 (Tabela 12), que
representa uma sessão de testes, ou seja, 40 medições referentes ao coeciente de atrito cinético de
classe.
pneus automotivos.
Os dados na Tabela 19 estão agrupados em 4 (quatro) classes. Todos os pontos de uma classe podem
ser representados por um único valor conhecido como ponto médio da classe. Observe que a primeira
28
1.5 Medidas de Dispersão
classe (0,15 0,35) é representada pelo valor 0,25, ou seja, esta classe que possui 5 pneus com coeciente
de atrito cinético entre 0,15 e 0,35 será representada pelo ponto médio. O ponto médio da classe é
calculado pela média dos limites da classe. Esse critério é conhecido como hipótese tabular básica.
De acordo com a denição de amplitude (equação (11)) é necessário, determinar o maior e menor valor
dos coecientes de atrito, tendo em vista que os coecientes de atrito estão agrupados em classe e
que cada classe será representada pelo seu respectivo ponto médio. Então, o menor e o maior valor
correspondem ao ponto médio da primeira e da última classe respectivamente, ou seja, 0,25 e 0,85.
Então, a amplitude será: 0,6 , isto é, o coeciente de atrito cinético varia entre 0,25 e 0,85.
# sintaxe:
1.5.2 Variância
A variância é uma boa medida, pois se baseia em todos os valores observados (dados) e é facilmente
A variância populacional denotada por é denida como sendo Soma de Quadrado dos Desvios (SQD)
em relação à média dividida pelo tamanho da população (N). A variância pode ser considerada como
um valor médio dos desvios ao quadrado, portanto, sendo conhecida, também, por quadrado médio
(FERREIRA, 2005).
σ2 = i=1
N (12)
N
P
Xi
i=1
em que, µ= N .
A variância amostral denotada por S 2 poderia ser denida de forma análoga à variância populacional,
ou seja, substituindo-se N por n e µ por X. No entanto, isso não ocorre, devido a uma propriedade
importante do estimador denominada de viés (tendenciosidade). Nesse caso, a soma de quadrado dos
n 2
(Xi −X )
P
S2 = i=1
n−1 (13)
n
P
Xi
i=1
em que, X= n .
Exemplo 22: Para a ilustração do cálculo da variância serão considerados os dados do exemplo 19,
referente ao tempo de vida de uma marca de pneu: 40.000; 40.500; 35.600; 39.300; 37.200; 39.700;
35.000; 32.300 km. Primeiramente é preciso calcular o tempo de vida médio do pneu (equação (2)),
para posteriormente obtermos a variância por meio da fórmula (estimador), equação (13):
29
1 ESTATÍSTICA DESCRITIVA
n 2
(Xi −X )
P
S2 = i=1
n−1 .
8
P
Xi
i=1 40.000+40.500+...+32.300
X= 8 = 8 = 37.450 km.
8 2
(Xi −X )
P
(40.000−37.450)2 +(40.500−37.450)2 +...+(32.300−37.450)2 60.300.000
S2 = i=1
8−1 = 8−1 = 7 =
8.614.285, 714 km ≈ 8.614.286 km2
2
Nota-se que a unidade da variância corresponde à unidade de mensuração ao quadrado, isto é, o tempo
# sintaxe:
var(dados)
var(dados)
2
n
P
n Xi
1
S2 = Xi2 −
P i=1
. (15)
n−1 n
i=1
Exemplo 23: Neste exemplo utilizaremos os dados do Exemplo 19 para calcular a variância por
intermédio da fórmula simplicada com o objetivo de mostrar que o resultado da variância será o
A amostra referente ao tempo de vida de uma marca de pneu é: 40.000; 40.500; 35.600; 39.300; 37.200;
30
1.5 Medidas de Dispersão
8
2
P
8 Xi h i
1 1 (40.000+40.500+...+32.300)2
S2 = Xi2 − (40.0002 + 40.5002 + ... + 32.3002 ) −
P i=1
= =
8−1 8 7 8
i=1
(299.600)2
h i
1 1
1, 128032 ∗ 1010 − 1, 128032 ∗ 1010 − 1, 122002 ∗ 1010 = 17 [60.300.000] =
7 8 = 7
8.614.285, 714(km)2 .
em que k é o número de classes, X̄i é o ponto médio da classe i, e fi é a frequencia absoluta da classe
i.
Exemplo 24: Para a ilustração do cálculo da variância para dados agrupados em classe serão con-
siderados os dados do Exemplo 20, referente a uma amostra de 40 medições do coeciente de atrito
cinético de pneus automotivos conforme a Tabela 19. A variância amostral será calculada por meio da
fórmula ou equação (16), então, a variância do coeciente de atrito cinético dos 40 pneus testados é:
Utilizando a fórmula da variância amostral para dados agrupados, a equação (16) tem-se:
4
2
P
4 X i fi h i
1 2 1 (0,25∗5+...+0,85∗17)2
S2 = (0, 252 ∗ 5 + ... + 0, 852 ∗ 17) −
P i=1
X i fi − = =
40−1 n 40−1 40
i=1
h i
1 (25,4)2
39 18 − 40 = 0, 0480.
O mesmo estimador pode ser usado substituindo Xi , ponto médio da classe i, por Xi , valor da categoria
ou atributo i, quando os dados são quantitativos discretos, isto é:
!2
k
P
k Xi fi
1 i=1
P
S2 = n−1
X 2 fi −
i n
.
(17)
i=1
31
1 ESTATÍSTICA DESCRITIVA
# sintaxe:
var(dados)
var(dados)
Exemplo 25: (FERREIRA, 2005) Na Tabela 20, estão apresentados os dados referentes ao número
de ovos danicados da inspeção feita em uma amostra de 30 embalagens de uma dúzia cada, de um
carregamento para o mercado municipal de Lavras. Determine a variância.
Tabela 20: Número de ovos danicados em uma inspeção feita em 30 embalagens, de uma dúzia cada,
# sintaxe:
var(dados)
dados<-read.table("ovos quebrados.txt", h = T)
var(dados)
32
1.5 Medidas de Dispersão
v
u n
2
P
Xi
u
u n
1 P 2 i=1
t n−1 Xi −
S=u . (19)
n
i=1
v
u k 2
u P
u
u 1 k X i fi
X 2 i=1
S=u X f − .(20)
i i
t n − 1 i=1 n
u
O estimador acima pode ser usado substituindo , ponto médio da classei, por Xi , valor da categoria
v !2
u k
u P
u k Xi fi
u 1 i=1
X 2 fi −
P
S = u n−1 i n
(21)
t i=1
A variância e o desvio padrão são medidas que só podem assumir valores não negativos
(positivo e igual a zero) e quanto maior for, maior será a dispersão dos dados, ou seja, maior será a
variabilidade dos dados. Em outras palavras o desvio padrão e a variância medem a dispersão dos
Exemplo 26: Para apresentar o cálculo do desvio padrão utilizou-se os dados do Exemplo 25, com
o objetivo de enfatizar a relação entre desvio padrão e variância. Sabe-se por denição, que desvio
padrão é a raiz quadrada da variância, e como já foram calculadas anteriormente no exemplo 25, tem-se
# sintaxe:
sd(dados)
dados<-read.table("ovos quebrados.txt", h = T)
sd(dados)
dependentes da grandeza, escala ou unidade de medida empregada para mensurar os dados. Conjuntos
de dados com diferentes unidades de medidas não podem ter suas dispersões comparadas pela variância
ou pelo desvio padrão. Mesmo para uma única unidade, se os conjuntos possuem médias de diferentes
magnitudes, suas variabilidades não podem ser comparadas por essas medidas de dispersão apresenta-
das anteriormente. Para esta situação utiliza-se o coeciente de variação (CV), pois ele não depende
da grandeza, da escala ou unidade de medida empregada para mensurar os dados, ou seja, não possui
33
1 ESTATÍSTICA DESCRITIVA
unidade de medida (medida adimensional). Portanto, ca evidente que se deve usar o CV quando se
tem diferentes unidades de medida e/ou médias de diferentes magnitudes (FERREIRA, 2005).
Portamto, o coeente de variação é uma medida relativa de dispersão, útil quando se deseja comparar
duas distribuições e também para avaliar o quanto a média é representativa de um conjunto de dados.
Em geral, um coeciente de variação de até 30% indica que a média é representativa do conjunto de
Exemplo 27: A média e o desvio padrão do tempo de vida das lâmpadas de marca A e B são
Se, ao inspecionar as estatísticas, apresentadas você fosse induzido a responder que a lâmpada (A)
seria a que possui maior uniformidade e que a razão seria o menor desvio padrão apresentado por ela
(0,8 meses), você teria cometido um erro. O fundamento usado aqui para comparar a variabilidade
das lâmpadas não foi correto, uma vez que o desvio padrão é uma medida de variabilidade absoluta.
Embora as unidades não sejam diferentes, as médias das amostras o são. O procedimento adequado
seria o de estimar o CV para ambas as lâmpadas e compará-los. De acordo com a equação (23), os
Exemplo 28: Testes de resistência à tração aplicados a dois tipos diferentes de aço produziram os
seguintes resultados:
Exemplo 29: Com base nos dados do Exemplo 25, calcule o coeciente de variação para a variável
# sintaxe:
dados<-read.table("ovos quebrados.txt", h = T)
Exemplo 30: Comparando dispersão de variáveis com diferentes unidades (Ex. temperatura e preci-
pitação). Os dados referentes à precipitação e temperatura de uma determinada região são aprsentados
a seguir:
34
1.6 Medidas de Assimetria
temperatura.
medida que fornece uma idéia da precisão com que a média foi estimada (FERREIRA, 2005).
q
√S ou S2
Sx̄ = n
Sx̄ = n (25)
Distribuição simétrica, se X = Md = Mo ;
Distribuição assimétrica à esquerda ou negativa, se Mo < Md < X ;
Maiores detalhes das distribuições podem ser observados na Figura 1 da seção (1.3.4).
Conforme Fonseca & Martins (2009), existem várias fórmulas para o cálculo do coeciente de assimetria,
1. Coeciente de Pearson:
X−Mo X−Mo
AS = σ ou AS = S .
2. Coeciente de Pearson:
Q1 +Q3 −2Md
AS = Q3 −Q1 .
Qual quer uma das fórmulas pode ser utilizada para identicar o de assimetria de uma distribuição.
Exemplo 31 (FONSECA & MARTINS, 2009): Calcular os dois coecientes de Pearson com base na
35
1 ESTATÍSTICA DESCRITIVA
Salários ($ 1.000,00) 30 |- 50 50 |- 100 100 |- 150
Empregados 80 50 30
Empregados 80 50 30
Xi 40 75 125
Fi 80 130 160
10700
1. Média: X= 160 = 66, 88
(80−0)
2. Moda: Mo = 30 + (80−0)+(80−50) .20 = 44, 55.
( 160
2 −0)
3. Mediana: Md = 30 + 80 20 = 50.
4. Desvio padrão: S = 31, 96.
P i.n 25∗160
5. Primeiro quantil: Q1 = P25 , então, i = 25 e n = 160 = fi . Logo,
100 = 100 = 40. Isto nos
Como, nos dois casos, AS > 0 diz-se que a distribuição é assimétrica positiva.
será achatada em relação a uma curva normal de referência (FONSECA & MARTINS, 2009).
0.4
Curva Leptocúrtica
Curva Mesocúrtica
Curva Platicúrtica
0.3
0.2
f(x)
0.1
0.0
−4 −2 0 2 4
36
1.8 Representação gráca
Q3 −Q1
K= 2(P90 −P10 ) ,
em que: Q3 é o terceiro quartil, Q1 é o primeiro quartil, P90 é o nonagésimo percentil e P10 é o décimo
percentil.
Exemplo 32: Com base no quadro abaixo discuta que tipo de curva corresponde à distribuição
amostral.
Classes 3 |- 8 8 |- 13 13 |- 18 18 |-23
fi 5 15 20 10
Fi 5 20 40 50
( 10∗50
100 −0) (5−0)
P10 = 3 + 5 5=3+ 5 5 = 8.
Portanto, K > 0,263, logo a curva correspondente à distribuição de frequencia é suavemente platicúrtica.
mesmo princípio. Dentro deste contexto, apresentarei apenas dois deles: grácos em barras (horizontais
Tabela 21: Distribuição de frequencia absoluta, relativa e percentual dos 36 empregados da seção de
37
1 ESTATÍSTICA DESCRITIVA
Grau de instrução fi fr fp (%)
Fundamental 12 0,3333 33,33
Médio 18 0,50 50
Superior 6 0,1667 16,67
Total 36 1,00 100
A seguir veremos a representação gráca por meio de grácos em barras verticais (Figura 4), horizontais
Tabela 21. O princípio para a construção de grácos em barras verticais é o mesmo para horizontais.
38
1.8 Representação gráca
A seguir é apresentada a rotina para obtenção o gráco de barras (verticais e horizontais) e gráco de
dados<-read.table("grau de instrução.txt", h = T)
tab.dados<-table(dados)
df<-matrix(0,4,3)
colnames(df )<-c("fa","fr","fp")
rownames(df )<-c("Fundamental","Médio","Superior","Total")
df[1,1]<-tab.dados["Fundamental"]
df[2,1]<-tab.dados["Médio"]
df[3,1]<-tab.dados["Superior"]
df[4,1]<-sum(df[1:3])
df
# barplot
# pie()
horizontal, tendo como centro da base, o ponto médio da classe que representa. A altura do retângulo
Se os pontos médios dos retângulos forem conectados por uma linha reta, ou se forem conectados por
39
1 ESTATÍSTICA DESCRITIVA
uma curva suave, o polígono de frequência é encontrado.
Primeiramente, será apresentado a representação gráca para uma variável quantitativa discreta. Para
ilustrar consideraremos a distribuição de frequencia referente a variável número de lhos de uma de-
Tabela 22: Distribuição de frequencia absoluta, relativa e percentual dos empregados casados da seção
A informação apresentada na Tabela 22 pode ser expressa por meio de grácos, conforme Figura 7.
Figura 7: Gráco de barras verticais (a), barras horizontais (b) e de linhas (c).
A seguir é apresentada a rotina para obtenção dos grácos de barras (verticais e horizontais) e de
40
1.8 Representação gráca
lhos<-read.table("número de lhos.txt", h = T)
tab.lhos<-table(lhos)
df<-matrix(0,7,3)
colnames(df )<-c("fa","fr","fp")
rownames(df )<-c("0","1","2","3","4","5","Total")
df[1,1]<-tab.lhos["0"]
df[2,1]<-tab.lhos["1"]
df[3,1]<-tab.lhos["2"]
df[4,1]<-tab.lhos["3"]
df[5,1]<-tab.lhos["4"]
df[6,1]<-tab.lhos["5"]
df[7,1]<-sum(df[1:6])
df
barplot()
gl<-plot(df[1:6,2], type="h", axes=F, ylim=c(0,0.3), xlab="Número de lhos", ylab="frequencia relativa", main = (c))
Agora, será apresentado a representação gráca para uma variável quantitativa contínua. Para ilustrar
F2 (Tabela 23).
Tabela 23: Distribuição de frequencias da produção de grãos em g/planta obtidos numa amostra de
Dessa forma, a representação gráca por meio do histograma e polígono de frequencia para a variável
41
1 ESTATÍSTICA DESCRITIVA
Figura 8: Histograma (a) e Polígono de Frequencia (b) para a variável Produção (g/planta).
attach(dados)
df<-matrix(0,5,3)
colnames(df )<-c("fa","fr","fp")
rownames(df )<-c("[-2.485,5.245)","[5.245,12.975)","[12.975,20.705)","[20.705,28.435)","Total")
tab.dados<-table(cut(producao,breaks=c(-2.485,5.245,12.975,20.705,28.435)))
df[1:4,1]<-tab.dados
df[5,1]<-sum(df[1:4])
df
# sintaxe: histograma
# hist()
hist(producao, breaks = c(-2.485, 5.245, 12.975, 20.705, 28.435), xlab="Produção (g/planta)",ylab="Frequencia", main=" (a)")
attach(dados)
xprod<-dados$PM
yprod<-dados$freq
points(xprod,yprod, col="black")
leitura rápida da proporção de dados que superam um determinado valor ou de quantos são inferiores
distribuição de frequencias
a esse valor. Esse tipo de representação dos dados é denominado de
acumuladas, cujas representações grácas são denominadas de ogivas. Para construção dessa distri-
42
1.8 Representação gráca
Tabela 24: Distribuição de frequencia absoluta da produção de grãos em g/planta obtidos numa
Carioca.
Classe de pesos fi
-2,485 5,245 6
5,245 12,975 8
12,975 20,705 4
20,705 28,435 2
Total 20
Tabela 25: Distribuição de frequencia acumulada da produção de grãos em g/planta obtidos numa
amostra de n = 20 plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.
A representação gráca das distribuições de frequencias acumuladas por meio de ogivas para a produção
Figura 9: Ogivas das produções de grãos em g/planta de plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.
43
1 ESTATÍSTICA DESCRITIVA
dados<-read.table("freq_acumulada_prod_feijão.txt", h=T)
attach(dados)
vprod<-dados$Limites
vfacbaixo<-dados$facbaixo
vfaccima<-dados$faccima
lines(vprod,vfaccima, col="blue")
lines(vprod,vfacbaixo, col="red")
points(vprod,vfacbaixo, col="red")
Tabela 26: Distribuição de frequencia absoluta e acumulada para baixo e para cima de dados ctícios.
Xi fi F Ci (X < Xi ) = f ac ↓ F Ci (X > Xi ) = f ac ↑
2 5 5 80
4 10 15 75
6 45 60 65
8 12 72 20
10 5 77 8
12 3 80 3
80
A representação gráca das distribuições de frequencias acumuladas por meio de ogivas para os dados
44
1.8 Representação gráca
( )
5, 245 → 6
7, 73 ← →8
12, 975 → 14
7, 73 → 8 8∗4,755
=⇒ x = 7,73 = 4, 921
4, 755 → x
( )
5, 425 → 14
7, 73 →8
12, 975 → 6
7, 73 → 8 8∗2,975
=⇒ x = 7,73 = 3, 079
2, 975 → x
1.8.5 Boxplot
Os grácos apresentados até o momento fornecem impressões visuais gerais acerca de um conjunto
de dados, enquanto quantidades numéricas, tais como média ou desvio padrão fornecem informação
sobre somente uma características dos dados. O boxplot (gráco de caixa) é um gráco que descreve
45
1 ESTATÍSTICA DESCRITIVA
simultaneamente várias características importantes de um conjunto de dados, tais como centro, dis-
persão, desvio da simetria e identicação das observações que estão surpreendentemente longe do seio
dos dados (MONTGOMERY & RUNGER, 2003). O boxplot é formado pelo primeiro quartil (Q1 ),
terceiro quartil (Q3 ), mediana (Q2 ) e pela amplitude interquatílica (Q3 − Q1 = IQR). As hastes infe-
riores e superiores se estendem, respectivamente, do quartil inferior até o menor valor não inferior ao
limite inferior e do quartil superior até o maior valor não superior ao limite superior. Os limites são
Para este caso, os pontos fora destes limites são considerados valores discrepantes (outliers), denotado
por asterisco (*). A gura a seguir apresenta o boxplot, destacando suas principais características:
O boxplot permite avaliar a simetria dos dados, sua dispersão e a existência ou não de outliers nos
mesmos, sendo especialmente adequado para a comparação de dois ou mais conjuntos de dados. Por
exemplo, duas ou mais caixas são colocadas lado a lado e se compara a variabilidade entre elas, a
mediana e assim por diante. Outro ponto importante é a diferença entre os quartis (Q3 − Q1 ) que é
Exemplo 37: (MONTGOMERY & RUNGER, 2003) A partir dos dados apresentados na tabela 28
construa o diagrama de caixa para a variável resistência referente à compressão de 80 corpos de prova
da liga de Alumínio-Lítio.
46
1.8 Representação gráca
Boxplot
250
200
Resistência
150
100
Figura 12: Gráco de Boxplot da variável resistência à compressão de corpos de prova da liga de Alumínio-Lítio
Ao observar a gura 12, pode-se dizer que a distribuição das resistências compressivas é razoavelmente
simétrica em torno do valor central, porque os bigodes da direita e da esquerda e os comprimentos das
dois suaves outliers em cada extremidade dos dados (MONTGOMERY & RUNGER, 2003).
O histograma (Figura 13) apresentado a seguir enfatiza que a distribuição das resistências é razoavel-
mente simétrica.
Histograma
0.015
0.010
Frequência
0.005
0.000
Resistência
a rotina para a construção do gráco e as estimativas das medidas necessárias obtidas a partir do
comando summary().
# Sintaxe:
dados<-read.table("resistencia.txt", h = T)
attach(dados)
boxplot(dados, main="Boxplot", ylab="Resistência")
summary(dados)
resist Min. : 76.0 1st Qu.:144.5 Median :161.5 Mean :162.7 3rd Qu.:181.0 Max. :245.0
47
1 ESTATÍSTICA DESCRITIVA
O comando summary() nos fornece informações sobre mínimo, primeiro quartil, média, mediana,
terceiro quartil e máximo. Os cálculos do pimeiro e terceiro quartil pode ser calculado conforme
Nota Importante: Não há um consenso universal sobre um procedimento único para o cálculo dos
quartis, e diferentes programas muitas das vezes produzem resultados diferentes. Por isso, que os
resultados obtidos a partir do comando summary() e do boxplot, não conferem plenamente com os
resultados obtidos a partir das instruções da seção (1.6). A seguir será apresentado os resultados das
medidas necessárias para a construção do boxplot com base nas instruções da seção (1.6).
# sintaxe:
sort(dados$resist)
[1] 76 87 97 101 105 110 115 118 120 121 123 131 133 133 134 135 135 141 142
[20] 143 145 146 148 149 149 150 150 151 153 154 154 156 157 158 158 158 158 160
[39] 160 160 163 163 165 167 167 168 169 170 171 171 172 174 174 175 176 176 178
[58] 180 180 181 181 183 184 186 190 193 194 196 199 199 200 201 207 208 218 221
[77] 228 229 237 245
Agora, calcularemos as medidas:
Segundo Quartil = Q2 = Md =
X(40) +X(41)
2 = 160+163
2 = 161, 5 pois, E= n
2 = 80
2 ª
= 40 ;
e apresenta os sumários em seu site. A empresa registrou que os salários anuais dos vice-presidentes de
marketing variam de US$ 85.090 a US$ 190.054 (Wageweb.com, 12 de abril de 2000). Suponha que os
dados a seguir sejam uma amostra dos salários anuais de 50 vice-presidentes de marketing. Os dados
a) Quais são os salários mais baixos e quais são os salários mais altos?
b) Use o critério de Oliveira e prepare sumários tabulares dos dados salariais anuais.
Rotina do Exercício 1
48
1.9 Exercícios propostos
dados<-read.table("exer_1_salários.txt", h=T)
attach(dados)
dados
# Medidas de posição #
summary(dados)
# Distribuição de frequencia #
df<-matrix(0,8,3)
colnames(df )<-c("fa","fr","fp")
rownames(df )<-c("[85.92, 100.08)","[100.08, 114.25)","[114.25, 128.42)","[128.42, 142,58)", "[142.58, 156.75)", "[156.75, 170.92)", "[170.92, 185.08)","Total")
tab.dados<-table(cut(salarios, breaks = c(85.92, 100.08, 114.25, 128.42, 142.58, 156.75, 170.92, 185.08)))
df[1:7,1]<-tab.dados
df[8,1]<-sum(df[1:7])
df
# Histograma #
hist(salarios, breaks = c(85.92, 100.08, 114.25, 128.42, 142.58, 156.75, 170.92, 185.08), xlab="Salários (US$/ano)",ylab="Frequencia", main="Histograma")
Exercício 2 Modicado (ANDERSON et al., 2007): O Nielsen Home Technology Report apresentou
informações sobre a tecnologia dos aparelhos domésticos e a sua utilização por pessoas de 12 anos ou
mais. Os dados a seguir referem-se ao número de horas de uso de computadores pessoais durante uma
4,1 1,5 10,4 5,9 3,4 5,7 1,6 6,1 3,0 3,7
3,1 4,8 2,0 14,8 5,4 4,2 3,9 4,1 11,1 3,5
4,1 4,1 8,8 5,6 4,3 3,3 7,1 10,3 6,2 7,6
10,8 2,8 9,5 12,9 12,1 0,7 4,0 9,2 4,4 5,7
7,2 6,1 5,7 5,9 4,7 3,9 3,7 3,1 6,1 3,1
Pede-se:
b) Construa o histograma.
e) Comente sobre o que os dados indicam a respeito do uso de computadores pessoais em casa.
Rotina do Exercício 2
49
1 ESTATÍSTICA DESCRITIVA
dados<-read.table("exer_2_horas_uso.txt", h=T)
attach(dados)
# Distribuição de frequencia #
df<-matrix(0,8,3)
colnames(df )<-c("fa","fr","fp")
rownames(df )<-c("[0, 1.88)","[1.88, 4.23)","[4.23, 6.58)","[6.58, 8.93)", "[8.93, 11.28)", "[11.28, 13.63)", "[13.63, 15.98)","Total")
tab.dados<-table(cut(horas, breaks = c(0, 1.88, 4.23, 6.58, 8.93, 11.28, 13.63, 15.98)))
df[1:7,1]<-tab.dados
df[8,1]<-sum(df[1:7])
df
# Histograma #
hist(horas, breaks = c(0, 1.88, 4.23, 6.58, 8.93, 11.28, 13.63, 15.98), xlab="Uso (horas)",ylab="Frequencia", main="Histograma")
# Ogivas #
dados<-read.table("exer_2_horas_uso_ogivas.txt", h=T)
attach(dados)
vhoras<-dados$Limites
vfacbaixo<-dados$facbaixo
vfaccima<-dados$faccima
points(vhoras,vfacbaixo, col="red")
legend(8, 35, c("freq. acum. p/ cima", "freq. acum. p/ baixo"), col=c("blue", "red"), lwd=2, lty=1)
Exercício 3: O Brasil é conhecido como um dos maiores produtores mundiais de café. A tabela
abaixo apresenta dados da produção total (tonelada/hectare) do país entre os anos de 1999-2010,
d) Plote o histograma.
Rotina do Exercício 3
50
1.9 Exercícios propostos
dados<-read.table("exer_3_prod_cafe.txt", h=T)
attach(dados)
# Medidas de posição #
# Média #
mean(dados)
# Mediana #
median(dados)
# Moda #
table(dados)
subset(table(dados), table(dados)==max(table(dados)))
summary(dados)
# Medidas de dispersão #
# variância #
var(dados)
# desvio padrão #
sd(dados)
# coeente de variação #
cv<-(sd(dados)/mean(dados))*100
cv
# Distribuição de frequencia #
df<-matrix(0,4,3)
colnames(df )<-c("fa","fr","fp")
df[1:3,1]<-tab.dados
df[4,1]<-sum(df[1:3])
df
# Histograma #
# Ogivas #
dados<-read.table("exer_3_prod_cafe_ogivas.txt", h=T)
attach(dados)
vprodcafe<-dados$Limites
vfacbaixo<-dados$facbaixo
vfaccima<-dados$faccima
plot(vprodcafe,vfaccima, main="Gráco de Ogivas", xlab="Produção de café (t/ha)", ylab="Frequencias Acumuladas", pch=1, col="blue")
points(vprodcafe,vfacbaixo, col="red")
legend(45, 6, c("freq. acum. p/ cima", "freq. acum. p/ baixo"), col=c("blue", "red"), lwd=2, lty=1)
solicitados e span afeta a produtividade de funcionários de escritório. Uma pesquisa levada a efeito
pela InsightExpress monitorou funcionários de escritório para determinar a quantidade de tempo não-
produtivo por dia dedicado a e-mails não-solicitados e span (Usa Taday, 13 de novembro de 2003). Os
dados a seguir fornecem uma amostra de tempo em minutos dedicado a esta tarefa. Pede-se:
2 4 8 4 12 1 5 7 24 19
8 1 2 32 5 5 3 4 4 14
51
1 ESTATÍSTICA DESCRITIVA
a) Calcule média, mediana e moda.
d) Plote o histograma.
Rotina do Exercício 4
dados<-read.table("exer_4_minutos_gasto_tarefa.txt", h=T)
attach(dados)
# Medidas de posição #
summary(dados)
# Medidas de dispersão #
# variância #
var(dados)
# desvio padrão #
sd(dados)
# coeente de variação #
cv<-(sd(dados)/mean(dados))*100
cv
# Distribuição de frequencia #
df<-matrix(0,5,3)
colnames(df )<-c("fa","fr","fp")
df[1:4,1]<-tab.dados
df[5,1]<-sum(df[1:4])
df
# Histograma #
hist(min, breaks = c(0, 6.17, 16.50, 26.83, 37.17), xlab="Tempo não produtivo (min)",ylab="Frequencia", main="Histograma")
# Ogivas #
dados<-read.table("exer_4_minutos_gasto_tarefa_ogivas.txt", h=T)
attach(dados)
vtempo<-dados$Limites
vfacbaixo<-dados$facbaixo
vfaccima<-dados$faccima
plot(vtempo,vfaccima, main="Gráco de Ogivas", xlab="Tempo não produtivo (min)", ylab="Frequencias Acumuladas", pch=1, col="blue")
points(vtempo,vfacbaixo, col="red")
legend(10, 10, c("freq. acum. p/ cima", "freq. acum. p/ baixo"), col=c("blue", "red"), lwd=2, lty=1)
52
2 PROBABILIDADES
Neste capítulo e no próximo serão abordados os conceitos de probabilidade e serão considerados alguns
modelos probabilísticos especícos que desempenham importante papel na estatística. Para o cálculo
de probabilidades é necessário contar o número de vezes que um determinado evento de interesse ocorre,
Denominamos de experimento a todo fenômeno ou ação que geralmente pode ser repetido e cujo
resultado é aleatório.
Quando lançamos uma moeda, uma única vez estamos fazendo um experimento cujo resultado será
cara ou coroa.
iii) Processo aleatório: Qualquer fenômeno que gere um resultado incerto ou casual.
2) Não se conhece a priori (inicialmente) o resultado, mas todos os resultados possíveis podem ser
descritos.
Dentro deste contexto, probabilidade pode ser denida como o número de eventos (pontos ou elementos)
X
P = n
OPERAÇÕES
A seguir apresentaremos o Diagrama de Venn para ilustrarmos algumas propriedades:
53
2 PROBABILIDADES
S S S
1) União( ):A B=B A
T T T
2) Intersecção ( ):A B=B A
T
Observação Importante: SeA eB são conjuntos mutuamente exclusivos (disjuntos) então, A B = Φ.
1
P (X = 3) = 8 = 0, 125
54
2.1 Probabilidades e espaço amostral
3
P (Y = 2) = 8 = 0, 375
3
P (Y = 1) = 8 = 0, 375
Exemplo 3: Jogando-se dois dados, calcular a probabilidade da soma dos pontos ser superior a nove.
11 21 31 41 51 61
12 21 31 41 51 61
13 23 33 43 53 63 6 1
Ω= =⇒ P (X > 9) = = = 0, 1667
36 6
14 24 34 44 54 64
15 25 35 45 55 65
16 26 36 46 56 66
Dessa forma podemos sintetizar a denição de probabilidade de ocorrer um evento A como a razão
entre o número de possíveis resultados favoráveis ao evento A(n(A)) e todos os possíveis resultados do
experimento W
(n( )), ou seja, número de elementos do espaço amostral.
n(A)
P (A) = n(Ω)
P (A) ≥ 0
P (Ω) = 1
2.1.2 Teoremas
Teorema 1: A probabilidade de um evento impossível ocorrer é P (Φ) = 0.
Demonstração:
Seja Ω o espaço amostral. Sabe-se que Ω = Ω + Φ, então aplicando a função probabilidade de ambos
os lados têm-se:
Ω=Ω+Φ
1 = 1 + P (Φ)
55
2 PROBABILIDADES
P (Φ) = 0
P AC = 1 − P (A)
Demonstração:
AC = Ω − A
P AC = P (Ω) − P (A)
P AC = 1 − P (A)
S T
P (A B) = P (A) + P (B) − P (A B)
Corolário:
T
Se dois eventos A e B são mutuamente exclusivos (disjuntos), isto é, A B = Φ, então:
S
P (A B) = P (A) + P (B)
T
P (A( B)
P (B|A) = P (A) , P (A) > 0
Exemplo 4: Qual a probabilidade no lançamento de um dado, a face superior do dado ser maior ou
No lançamento de um dado, o espaço amostral é Ω = {1, 2, 3, 4, 5, 6}. Vamos denir o evento A como
sendo face superior par, e o evento B face superior maior ou igual a 4. Então, A = 2, 4, 6 e B = 4, 5, 6
T
P (A B)
P (B|A) =? ⇒ P (B|A) = P (A) , P (A) > 0
56
2.2 Probabilidade condicional e independência
T
Agora, vamos determinar P (A), P (B) e P (A B).
n(A) 3 1
P (A) =
n(Ω) = 6 = 2
P (B) = n(B) 3
n(Ω) T= 6 = 2
1
P (A B) = n(A B)
= 62 = 13
T
n(Ω)
T
P (A B) 1/3
P (B|A) = P (A) = 1/2 = 13 . 12 = 2
3
Exemplo 5: Em uma urna tem-se 40 bolas, sendo 10 pretas e 30 vermelhas (20 com manchas brancas
e 10 sem manchas). Qual a probabilidade de se ter uma bola vermelha com mancha branca, sabendo
Vamos denir o evento VB como sendo bola vermelha com mancha branca, e o eventoV bola vermelha.
P (V B |V ) =?
T
P (VB V )
P (V B |V ) = P (V ) , P (V ) > 0
T
Agora, vamos determinar P (V ) e P (VB V)
T
n(V ) 30 3 T n(VB V ) 20 1
P (V ) = n(Ω) = 40 = 4 e P (V B V)= n(Ω) = 40 = 2.
Então,
T
P (VB V ) 1/2
P (V B |V ) = P (V ) = 3/4 = 12 . 34 = 2
3.
57
2 PROBABILIDADES
ponde ao primeiro lançamento da moeda sair cara e o evento B corresponde ao segundo lançamento
O espaço amostral é Ω = {ccc, ccr, crc, rcc, crr, rcr, rrc, rrr}. Os eventos A e B são: A = {ccc, ccr, crc, crr}
T
e B = {ccc, ccr, rcc, rcr}. Consequentemente, A B = {ccc, ccr}.
T
Agora, vamos vericar se estes dois eventos são independentes, ou seja, se P (A B) = P (A).P (B).
Por denição temos que P (A) = n(A) 4 1 n(B) 4 1 1 1 1
n(Ω) = 8 = 2 e P (B) = n(Ω) = 8 = 2 , então, P (A).P (B) = 2 . 2 = 4 .
P (A B) = n(A∩B) 2 1
B) = P (A).P (B) = 41 . Logo,
T T
Também por denição,
n(Ω) = 8 = 4 . Portanto, P (A
os eventos A e B são independentes.
2.2.3 Teorema
Se os eventos B1 , B2 , B3 , ..., Bk constituem uma partição do espaço amostral W, de modo que P (Bi ) 6= 0
para i = 1, 2, ..., k , então para qualquer evento A de W,
k
P T k
P
P (A) = P (Bi A) = P (Bi ).P (A|Bi )
i=1 i=1
k
P T k
P
P (A) = P (Bi A) = P (A|Bi ).P (Bi )
i=1 i=1
Nota: Se a união de n eventos mutuamente exclusivos é o próprio universo W, dizemos que tais eventos
são mutuamente exclusivos e exaustivos, ou formam uma partição em W.
Exemplo 7: Em certa linha de montagem, três máquinas B1 , B2 e B3 produzem 30%, 45% e 25% dos
produtos, respectivamente. Sabe-se de experiências anteriores, que 2%, 3% e 2% dos produtos feitos
por cada máquina são, respectivamente, defeituosos. Agora, suponha que um produto já acabado, seja
selecionado aleatoriamente. Qual é a probabilidade de que tal produto apresente algum defeito?
58
2.3 Teorema de Bayes
Solução:
Denote os eventos A como produto com defeito e Bi produto produzido pela máquina i, com i = 1, 2,
3. Com base nas informações do problema temos que:
P (B1 ) = 0, 30; P (B2 ) = 0, 45; P (B3 ) = 0, 25; P (A|B1 ) = 0, 02; P (A|B2 ) = 0, 03 e P (A|B3 ) = 0, 02.
O que se quer calcular é P (A), ou seja, a probabilidade de que tal produto apresente algum defeito.
Então, pelo teorema temos:
k
P
P (A) = P (A|Bi ).P (Bi ) = P (A|B1 ).P (B1 ) + P (A|B2 ).P (B2 ) + P (A|B3 ).P (B3 ) =
i=1
0, 30 ∗ 0, 22 + 0, 45 ∗ 0, 03 + 0, 25 ∗ 0, 02 = 0, 0245.
Teorema de Bayes: Se B 1 , B2 , .., Bk são conjuntos mutuamente exclusivos cuja união resulta em ,
então:
Exemplo 8: Considere cinco urnas cada uma com seis bolas. Duas dessas urnas (tipo C1 ), tem três
bolas brancas, duas outras urnas (tipo C2 ), tem duas bolas brancas e a última (tipo C3 ) tem seis bolas
brancas. Escolhe-se uma urna ao acaso e retira-se uma bola desta. Qual a probabilidade de que a urna
Resolução:
O evento bola branca será denotado por B, e o que se quer determinar é: P (C 3 |B) =?
Sabe-se que existe 5 urnas (2do tipo C1 , 2 do tipo C2 e 1do tipo C3 ). Pelo Teorema de Bayes temos:
P (C1 ) = n(C1 )
n(Ωi ) = no de urnas C1
no total de urnas = 2
5 .
P (C2 ) = n(C2 )
n(Ωi ) = no de urnas C3
no total de urnas = 2
5 e P (C3 ) = n(C1 )
n(Ωi ) = no de urnas C3
no total de urnas = 1
5 .
6 1
P (B|C 1 ) = Prob. de sair bola branca dado que a urna é do tipoP (B|C1 ) = 12 = 2;
4 1
P (B|C 2 ) = Prob. de sair bola branca dado que a urna é do tipoP (B|C2 ) = 12 = 3;
59
2 PROBABILIDADES
6
P (B|C 3 ) = Prob. de sair bola branca dado que a urna é do tipoP (B|C3 ) = 6 = 1.
Então:
1 1 1 1
P (C3 ).P (B|C3 ) .1
P (C 3 |B) = P (C1 )P (B|C1 )+P (C2 )P (B|C2 )+P (C3 )P (B|C3 ) = 2 . 1 + 2 . 1 + 1 .1
5
= 2
5
2
+ 15
= 6
5
2
+ 15
= 5
8 = 15 . 15
8 =
5 2 5 3 5 5 15 15
8
3 = 0, 375.
Exemplo 9: Uma empresa produz circuitos integrados em três fábricas. A fábrica 1 produz 40% dos
circuitos enquanto que as fábricas 2 e 3, produzem 30% cada. A probabilidade de que um circuito
produzido por estas fábricas não funcione é de 0,01, 0,04 e 0,03 respectivamente. Qual a probabilidade
de se pegar um circuito ao acaso da produção total da companhia, sendo ele da fábrica 1 e sabendo
Solução:
Considere como evento A defeito leve, evento B defeito grave, e evento C nenhum defeito.
Uma peça é retirada ao acaso desse lote. Qual a probabilidade que essa peça:
a) seja boa?
d) seja defeituosa?
Duas peças são retiradas ao acaso com reposição desse lote. Qual a probabilidade de:
Duas peças são retiradas ao acaso sem reposição desse lote. Qual a probabilidade de:
Exercício 2: Se um dado é lançado duas vezes. Determine qual a probabilidade de ocorrer maior do
Exercício 3: Em uma bolsa tem-se duas moedas de 1 centavo, três de 10 centavos e quatro de 1
real. Duas moedas são retiradas aleatoriamente da bolsa, determine as seguintes possibilidades (sem
reposição).
Exercício 4 modicado (BRUNI, 2008): Em uma pesquisa realizada com 200 alunos da Faculdade
60
2.4 Exercícios propostos
Curso
Sexo ADM CC PD PSIC
Homens 45 22 38 29
Mulheres 35 16 12 3
Exercício 5 (BRUNI, 2008): Uma agencia de propaganda detectou que 80% das residências
estudadas em uma pesquisa de mercado possuíam um aparelho de som com CD Player e 30%
possuíam forno de microondas. Dados da pesquisa também revelam que 20% das casas tinham ambos
os eletrodomésticos. Calcule a porcentagem das casas que não possuem nenhum dos dois
eletrodomésticos.
c) Ser de classe baixa, dado que atribui maior importância ao fator de qualidade?
Sexo
Curso Masculino Feminino Total
Mat. Pura 70 40 110
Mat. Aplicada 15 15 30
Estatística 10 20 30
Computação 20 10 30
Total 115 85 200
61
3 VARIÁVEL ALEATÓRIA UNIDIMENSIONAL
Para entendermos o conceito de variável aleatória (v.a.), imagine um lançamento de um dado. Tente
dizer qual será o número resultante. É claro que, antes do lançamento, não podemos dizer com
exatidão qual é o número que ocorrerá, pois o resultado depende do fator sorte e, por isso, é uma
variável aleatória.
Variável Aleatória (v.a.) é uma variável cujos valores são determinados pelos resultados de experiências
aleatórias, isto é, uma função que associa valores reais aos eventos de um espaço amostral.
Uma v.a. pode ser entendida como uma variável quantitativa, ou seja, uma v.a. pode ser classicada
como discreta ou contínua. As variáveis aleatórias dizem-se discretas, quando assumem um número
assumem qualquer valor num dado intervalo (valores oriundos de um processo de mensuração).
Exemplo 1: Se um experimento consiste no lançamento de dois dados, a função: X = soma das faces
dos dois dados , dene uma variável aleatória discreta, que pode assumir onze valores possíveis: 2, 3,
4, 5, 6, 7, 8, 9, 10, 11 ou 12.
formado por quatro circuitos, a função: Y = número de circuitos defeituosos , dene uma variável
Com base nos exemplos acima ca claro que a variável aleatória discreta está vinculada a valores de
. O conceito de v.a. contínua será melhor entendido por meio do exemplo a seguir.
= Altura de um universitário , dene uma variável aleatória contínua, que pode assumir quaisquer
função: Y = Peso de um universitário , dene uma variável aleatória contínua, que pode assumir
Z: tempo de vida útil de um pneu , dene uma v.a. contínua, que pode assumir quaisquer valores
63
3 VARIÁVEL ALEATÓRIA UNIDIMENSIONAL
entre 50.000 e 70.000 km. Com base nos exemplos apresentados, a v.a. contínua está vinculada a dados
i) P [Y = yi ] ≥ 0, para todo i;
n
P
ii) P [Y = yi ] = 1
i=1
em que o índice i é empregado para identicar os diferentes valores que a variável pode assumir. Essa
função é denominada por inúmeros autores como função distribuição de probabilidade da variável
aleatória discreta Y.
b
Nota:
P
P [Y = yi ] = P [a < y ≤ b]
yi >a
Exemplo 6: Y: número de circuitos defeituosos num sistema formado por quatro circuitos tem-se:
Y 0 1 2 3 4
5
1 2 2 2 1 P
P [Y = y] 8 8 8 8 8 P [Y = yi ] = 1
i=1
Observa-se que a distribuição de probabilidade acima é uma função de probabilidade pois, as condi-
ções (i) e (ii) foram satisfeitas, isto é, todas as probabilidades são maiores que zero e, a soma das
Se, a variável Y for contínua, somente haverá interesse na probabilidade de que a variável assuma valores
dentro de determinados intervalos, sendo sua distribuição de probabilidades caracterizada por uma
função densidade de probabilidade (f.d.p.), f(y), a qual deverá possuir as seguintes propriedades:
abaixo de um determinado valor. Em geral, ela é representada por F (y) ou φ (y). Assim,
64
3.4 Função Repartição ou Função Distribuição Acumulada
F (y) = P [Y ≤ y] .
i) Para uma variável aleatória discreta a função distribuição acumulada será denida como:
k
P
F (yk ) = P [Y ≤ yk ] = P [Y = y1 ] + P [Y = y2 ] + P [Y = y3 ] + ... + P [Y = yk ] = P [Y = yi ].
i=1
ii) Para uma variável aleatória contínua a função distribuição acumulada será denida como:
´ yk
F (yk ) = P [Y ≤ yk ] = −∞ f (y) dy .
Exemplo 8: Numa plantação de café, cujas folhas possuem um número Y variado de lesões provocadas
N ° lesões 0 1 2 3 4 5
P
proporção 0,32 0,28 0,20 0,12 0,06 0,02 =1
Essas proporções podem ser interpretadas como probabilidades no sentido de que, se uma folha for
tomada à plantação ao acaso, existe uma probabilidade, por exemplo, de 28% de que ela contenha
apenas uma lesão. A probabilidade de que ela tenha 3 lesões, ou menos, é dada por:
F (Y = 3) = F (3) = P [Y ≤ 3] = P [Y = 0 ou Y = 1 ou Y = 2 ou Y = 3]
F (Y = 3) = F (3) = P [Y ≤ 3] = P [Y = 0] + P [Y = 1] + P [Y = 2] + P [Y = 3]
F (Y = 3) = F (3) = P [Y ≤ 3] = 0, 32 + 0, 28 + 0, 20 + 0, 12 = 0, 92
dados<-read.table("exemplo_8_lesão_café.txt",h=T)
dados
attach(dados)
F3<-sum(dados$prob[1:4])
F3
0, x < 0
f (x) kx, 0 ≤ x ≤ 2
0, x > 2
Encontre F(1).
´∞ ´0 ´2 ´∞
−∞ f (x)dx = 1 ⇔ −∞ f (x)dx + 0 f (x)dx + 2 f (x)dx = 1
´2 ´2 2
x.dx = 1 ⇔ k x2 |20 = 1 ⇐⇒ k2 x2 |20 ⇔ k
22 − 02 = 1
0 kx.dx = 1 ⇔ k 0 2
65
3 VARIÁVEL ALEATÓRIA UNIDIMENSIONAL
k
2 (4) = 1 ⇔ 2k = 1 ⇔ k = 1/2
0, x < 0
f (x) 1
2 x, 0≤x≤2
0, x > 2
´1 ´0 ´1
F (1) = P [X ≤ 1] = −∞ f (x)dx = −∞ f (x)dx + 0 f (x)dx = 14 x2 |10 = 1
4 = 0, 25
X 0 1 2 3 4
P
P[X=x] 0,1 0,2 0,4 0,1 0,1 =1
X 0 1 2 3 4
66
3.5 Parâmetros característicos de uma Distribuição de Probabilidade
Seja X a variável aleatória contínua, então o gráco genérico da função distribuição acumulada terá o
seguinte comportamento:
Observação: Pode-se encontrar a função densidade de probabilidade, se existir, a partir de F(x), pois:
d
dx F (x) = f (x),
esperança matemática é uma média aritmética ponderada ou um valor esperado de uma variável alea-
tória. Na prática, a esperança pode ser entendida como um centro de distribuição de probabilidade ,
67
3 VARIÁVEL ALEATÓRIA UNIDIMENSIONAL
´∞
E(X) = µ = −∞ xf (x)dx
Exemplo 11: (MORETTIN, 2010) Uma seguradora paga R$ 30.000,00 em caso de acidente de carro
e cobra uma taxa de R$ 1.000,00. Sabe-se que a probabilidade de que um carro sofra acidente é de
Suponhamos que entre 100 carros segurados, 97 dão lucro de R$ 1.000,00 e 3 dão prejuízo de R$
Se chamarmos de X: lucro por carro e o lucro médio por carro de E(X), teremos:
97x1.000,00−3x29.000,00
E(X) = 100
97x1.000,00 3x29.000,00
E(X) = 100 − 100
E(X) = R$100, 00
Outra forma de calcular o lucro médio da seguradora seria: Dene-se a variável aleatória X como
Lucro por carro. Os dois resultados possíveis da variável aleatória X são: 1.000,00 e -29.000,00
(R$1.000,00 R$30.000,00). Dado que a probabilidade de que um carro sofrer acidente é de 3% (0,03),
então, a probabilidade de um carro não sofrer acidente seria 97% (0,97). Dessa forma, a distribuição
de probabilidade é:
X 1.000,00 -29.000,00
P
P [X = xi ] 0,97 0,03 =1
n
P
E (X) = xi P [X = xi ] = 1.000, 00x0, 97 + (−29.000, 00)x0, 3 = R$100, 00.
i=1
n
P n
P
E(k) = kP [X = xi ] = k P [X = xi ] = k.1 = k.
i=1 i=1
n
P Pn
E(k) = kxi P [X = xi ] = k xi P [X = xi ] = kE(X).
i=1 i=1
68
3.5 Parâmetros característicos de uma Distribuição de Probabilidade
4) E (X − µx ) = 0
Demonstração:
E (X − µx ) = E (X) − E (µx ) = µ − µ = 0.
5) E (X ± Y ) = E (X) ± E (Y )
Essa propriedade será demonstrada posteriormente, quando abordarmos o assunto de variáveis aleató-
rias bidimensionais.
n n
6) E
P P
Xi = E (Xi )
i=1 i=1
Nota: Para demonstração das propriedades acima foi utilizada a denição de esperança matemática
3.5.2 Variância
Já comentamos anteriormente que a esperança matemática nos fornece a média de uma distribuição
de probabilidade. Porém, não temos informação a respeito do grau de dispersão das probabilidades
em torno da média. Portanto, a medida que usaremos para estimar o grau de dispersão (ou de
n o
V (X) = E [X − E (X)]2 .
No entanto, é possível deduzir uma fórmula mais fácil de ser aplicada para o cálculo da variância.
n o n o
V (X) = E [X − E (X)]2 = E [X − µ]2 = E X 2 − 2µX + µ2 = E X 2 − E (2µX) + E µ2 =
∴ V (X) = E X 2 − µ2 = E X 2 − [E (X)]2 .
69
3 VARIÁVEL ALEATÓRIA UNIDIMENSIONAL
Demonstração:
n o n o
V (k) = E [k − E (k)]2 = E [k − k]2 = 0.
Demonstração:
h i
V (kX) = E (kX)2 − [E (kX)]2 = E k 2 X 2 − [kE (X)]2 = k 2 E X 2 − k 2 [E (X)]2 =
n o
k 2 E X 2 − [E (X)]2 = k 2 V (X).
n o n o n o
V (kX) = E [kX − E (kX)]2 = E [kX − kE (X)]2 = E k 2 [X − E (X)]2 =
n o
k 2 E [X − E (X)]2 = k 2 V (X).
n o n o
V (X ± Y ) = E [(X ± Y ) − E (X ± Y )]2 = E [(X − E (X)) ± (Y − E (Y ))]2 =
n o n o
E [X − E (X)]2 ± 2 [X − E (X)] [Y − E (Y )] + [Y − E (Y )]2 = E [X − E (X)]2 ±
n o
2E {[X − E (X)] [Y − E (Y )]} + E [Y − E (Y )]2 = V (X) + V (Y ) ± 2Cov (X, Y ).
n n n
4) V
P P P
Xi = V ar (Xi ) + 2 Cov (Xi , Xj ).
i=1 i=1 i<j
5) V (aX ± b) = a2 V (X), sendo a e b constantes.
Demonstração:
70
3.6 Exercícios propostos
do meio-oeste resultou em previsões de gastos para o ano vindouro equivalentes a (em milhões US$) 9,
10, 11, 12 e 13. Como os gastos atuais são desconhecidos, são atribuídas as seguintes probabilidades
Rotina do exercício 1
dados<-read.table("exer_1_gastos.txt",h=T)
dados
attach(dados)
produto1<-gastos*prob
média<-sum(produto1)
média
#cálculo da variância
produto2<-(gastos^2)*prob
esperança2<-sum(produto2)
esperança2
var<-esperança2-média^2
var
Rotina do exercício 2
dados<-read.table("exer_2_retorno.txt",h=T)
dados
attach(dados)
média
#cálculo da variância
produto2<-(retorno^2)*prob
esperança2<-sum(produto2)
esperança2
var
71
4 MODELOS PROBABILÍSTICOS
DISCRETOS
Nesta seção serão apresentados alguns modelos para variáveis aleatórias discretas. O termo modelo
probabilístico quer dizer que será determinado uma lei de formação para as probabilidades dos possíveis
síveis: sucesso ou fracasso . Então, será associado aos resultados da v.a X os seguintes valores:
P [X = x] = px (1 − p) 1−x , x = 0; 1 e q = 1 − p.
X 0 1
P
P [X = x] (1 − p) p =1
Variância:
1
E X2 = x2 P [X = x] = 02 (1 − p) + 12 p = p.
P
x=0
Então:
73
4 MODELOS PROBABILÍSTICOS DISCRETOS
função de probabilidade.
Resolução:
X = 1, se ocorrer face 5.
1 5
p =probabilidade de ocorrer 5= 6 , então, q =1−p= 6
Logo, a função ou probabilidade será:
X 0 1
5 1 P
P [X = x] 6 6 =1
x<-0:1
n<-1
p<-1/6
bern<-dbinom (x, n, p)
bern
plot(x, bern, type="h", xlab="nº de peças com perfeição", ylab="Probabilidade", main="Distribuição Bernoulli")
A notação para uma variável aleatória X que possui distribuição binomial com probabilidade de sucesso
Resolução:
X 0 1 2 3
q3 3pq 2 3p2 q p3 = (p + q)3
P
P [X = x]
! !
n n n!
P [X = x] = px q n−x , q = 1 − pe = (n−x)!.x! .
x x
74
4.2 Distribuição Binomial
4.2.1.2 Variância
V (X) = npq .
Exemplo 3: A chance de que um bit transmitido através de um canal digital de transmissão seja
recebido com erro de 0,1. Suponha que as tentativas de transmissão sejam independentes. Faça X:
número de bits com erro nos próximos quatro bits transmitidos. Determine P (X = 2).
Resolução:
Então,
Uma outra forma de resolver o problema seria identicar a distribuição (modelo probalístico) da v.a.
X ∼ B(n = 4, p = 0, 1).
Logo,
!
4 4!
P [X = 2] = 0, 12 0, 92 = 2
(4−2)!2! 0, 1 0, 9
2 = 6.0, 12 .0, 92 = 0, 0486.
2
Rotina para cálculo de uma probabilidade por meio da Distribuição Binomial, com n =
4 e p = 0,1
# sintaxe:
bino<-dbinom (x, n, p)
plot(x, bino, type="h", xlab="nº de peças com perfeição", ylab="Probabilidade", main="Distribuição binomial") #plota a distribuição de probabilidade
75
4 MODELOS PROBABILÍSTICOS DISCRETOS
a) Determine a probabilidade de que dentre 3 lhos deste casal, nenhum tenha olhos azuis.
Resolução:
Seja X o número de lhos com olhos azuis e p a probabilidade do lho do casal ter olhos azuis. Logo,
1 3
p= 4, q= 4 e n = 3.
!
3 1 0
3 3
3! 1 0
3 3
3! 3 3
3! 3 3
3 3
P [X = 0] = 4 4 = (3−0)!0! 4 4 = 3!0! 1 4 = 3!.1 1 4 = 4 = 0, 421875.
0
Rotina para cálculo de uma probabilidade por meio da Distribuição Binomial, com, n =
3, p = 0,25 e x = 0.
# sintaxe:
n<-3
p<-0.25
bino<-dbinom (x, n, p)
bino
Resolução:
!
3 1 0
3 3
P [X = 0] = 4 4 = 0, 421875
0
!
3 1 1
3 2
P [X = 1] = 4 4 = 0, 421875
1
!
3 1 2
3 1
P [X = 2] = 4 4 = 0, 140625
2
!
3 1 3
3 0
P [X = 3] = 4 4 = 0, 015625
3
X 0 1 2 3
P
P [X = xi ] 0, 421875 0, 421875 0, 140625 0, 015625 =1
Rotina para cálculo de uma Distribuição de Probabilidade por meio da Distribuição Bi-
nomial, com n = 3 e p = 0,25.
76
4.2 Distribuição Binomial
# sintaxe:
x<-0:3
n<-3
p<-0.25
bino<-dbinom (x, n, p)
bino
plot(x, bino, type="h", xlab="nº de peças com perfeição", ylab="Probabilidade", main="Distribuição binomial")
E(X) = np = 3 14 = 3
4 = 0, 75 e V (X) = npq = 3 41 34 = 9
16 = 0, 5625.
Exemplo 5: Dez peças são extraídas ao acaso com reposição de um lote de 500 peças. Sabendo-se
Resolução:
De acordo com o problema temos que n = 10 e p = 0, 10. Seja X, o número de peças defeituosas num
total de dez peças. Logo, a v.a. X tem distribuição Binomial com parâmetros n = 10 e p = 0, 10.
Então,
!
10
P [X = 2] = 0, 102 0, 908 = 45.0, 102 .0, 908 = 0, 1937.
2
b) Qual a probabilidade de se ter 10 peças defeituosas
!
10
P [X = 10] = 0, 1010 0, 900 = 1.10−10 .
10
c) Determine a média e a variância.
n<-10
x<-0:10
p<-0.10
bino2<-dbinom (2, n, p)
bino2
bino10<-dbinom (10, n, p)
bino10
media<-n*p
media
variancia<-n*p*(1-p)
variancia
77
4 MODELOS PROBABILÍSTICOS DISCRETOS
ou volume.
Exemplo 6: Número de vezes que o corpo de bombeiro é chamado por dia para combater incêndios
Exemplo 7: Número de peças que saem defeituosas por hora em um processo produtivo.
λx e−λ
P [X = x] = p (x) = f (x) = x! , em que x = 0, 1, 2, ...; com λ > 0.
Exemplo 8: Considere um o delgado de cobre, suponha que o número de falhas siga a distribuiçao
Resolução:
Seja X o número de falhas em um milímetro de o. Logo X tem distribuição de Poisson com λ = 2, 3
falhas por milímetro, ou seja, E(X) = 2, 3 falhas/mm. Então, a probabilidade de existir exatamente 2
falhas em um milímetro de o é:
e−2,3 2,32
P [X = 2] = 2! = 0, 265.
# sintaxe:
Resolução:
Seja Y o número de falhas em 5 mm. Então, o número médio de falhas em 5 mm será calculado por
mm λ
1 2, 3 λ2 é o número médio de falhas em 5 mm.
e−11,5 11,510
P (Y = 10) = 10! = 0, 113.
78
4.3 Distribuição Poisson
lambda<-11.5
x<-10
Resolução:
Seja Z o número de falhas em 2 mm de o. Então, o número médio de falhas em 2 mm será, E (Z) =
4, 6 = λ3 (resultado obtido por meio de regra de três). Portanto, a probabilidade de existir, no mínimo,
e−4,6 .4,60
P (Z > 1) = 1 − P (Z < 1) = 1 − P (Z = 0) = 1 − 0! = 1 − e−4,6 = 0, 9899.
lambda<-4.6
x<-0
p_min_1<-1-p_0
p_min_1
Exemplo 9: O corpo de bombeiros atende em média 5 chamadas por dia. Qual é a probabilidade de
Resolução:
Seja X o número de chamadas para o corpo de bombeiros em um dia. Sabe-se o número médio de
chamadas por dia é 5. Portanto, a v.a. X tem distribuição de Poisson com λ=5 chamadas por dia.
Então,
50 e−5
P [X = 0] = 0! = 0, 0067;
51 e−5
P [X = 1] = 1! = 0, 0337;
53 e−5
P [X = 3] = 3! = 0, 1403;
56 e−5
P [X = 6] = 6! = 0, 1462;
510 e−5
P [X = 10] = 10! = 0, 0181.
79
4 MODELOS PROBABILÍSTICOS DISCRETOS
lambda<-5 lambda<-5
x<-0 x<-3
lambda<-5 lambda<-5
x<-1 x<-6
lambda<-5
x<-10
sempre que joga. Se o time jogar sete partidas, calcule a probabilidade de ele:
Rotina do exercício 1.
#letra A #letra B #letra C
p_3 p_4<-dbinom(a, n, p)
p_5<-dbinom(b, n, p)
p_6<-dbinom(c, n, p)
p_7<-dbinom(d, n, p)
p_min_4
Exercício 2: (BRUNI, 2008) A Olaria Barro Forte fabrica e comercializa dois produtos principais:
telhas e tijolos. A relação da produção do mês de agosto do ano passado pode ser vista na tabela
a) Em uma amostra composta por oito telhas, calcule a probabilidade de pelo menos duas serem
defeituosas.
b) Em uma amostra composta por sete tijolos, calcule a probabilidade de pelo menos seis serem
defeituosos.
c) Em uma amostra formada por quatro produtos, calcule a probabilidade de existirem dois defeituosos.
80
4.4 Exercícios propostos
Rotina do exercício 2.
#letra A #letra B #letra C
p_min_2 p_min_6
Exercício 3: (BRUNI, 2008) Uma empresa de carros usados tem as suas vendas distribuídas de
acordo com a distribuição de Poisson. Sabendo-se que a empresa vende em média seis carros por
mês (considerando o mês com 30 dias de trabalho) e analisando-se uma quinzena de vendas, qual a
c) Nenhum carro?
Rotina do exercício 3.
# letra A # letra B # letra C
p_min_2
Exercício 4: (BRUNI, 2008) Uma nanceira atende, em média, seis cliente por hora. Calcular a
a) Dois clientes.
b) Três clientes.
Rotina do exercício 4.
# letra A # letra B # letra C
z<-2
w<-3
p_max_3<-sum(p_0,p_1,p_2,p_3)
p_max_3
81
5 MODELOS PROBABILÍSTICOS
CONTÍNUOS
(x−µ)2
h i
f (x) = √1 exp com x∈R e σ 2 > 0.
σ 2π 2σ 2
Notação: X ∼ N (µ, σ 2 )
curva ;
´b
P [a ≤ X ≤ b] = P [a ≤ X ≤ b] = P [a ≤ X ≤ b] = P [a ≤ X ≤ b] = a f (x)dx
83
5 MODELOS PROBABILÍSTICOS CONTÍNUOS
variância 1.
Por meio das propriedades de Esperança Matemática e Variância, é possível vericar que:
x−µ
E (Z) = E σ = σ1 E (x − µ) = 1
σ [E (x) − µ] = 1
σ [µ − µ] = 0;
x−µ 1 1 1 2
V ar (Z) = V ar σ = σ2
V ar(x − µ) = σ2
V ar (x) = σ2
σ = 1.
a) P [X > 108]
Calculando o quantil da Z relacionado a X = 108, tem-se:
x−µ 108−100 8
Z= σ = 5 = 5 = 1, 6 ⇒ P [X > 108] = P [X > 1, 6] = 0, 0548.
84
5.2 Criação da Variável Z - Distribuição Normal Padronizada
# sintaxe:
#pnorm(108, 100, 5) Probabilidade da Distrubuição Normal com média 100 e desvio padrão 5
1-pnorm(108, 100, 5)
# sintaxe:
polygon(x=c(1.6, seq(1.6, 3, l = 1000), 3), y=c(0,dnorm(seq(1.6, 3, l = 1000), 0, 1),0),col="black", density = 3, angle = 45)
polygon(x=c(1.6, seq(1.6, 3, l = 1000), 3), y=c(0,dnorm(seq(1.6, 3, l = 1000), 0, 1),0),col="black", density = 3, angle = 45)
b) P [X ≤ 106] = P [X ≤ 1, 2] = 0, 8849.
85
5 MODELOS PROBABILÍSTICOS CONTÍNUOS
pnorm(106, 100, 5)
# sintaxe: padronizado
pnorm(1.2, 0, 1)
polygon(x=c(76, seq(76, 106, l= 1000), 106), y=c(0,dnorm(seq(76, 106, l=1000), 100,5),0),col="black", density = 3, angle = 45)
polygon(x=c(-4, seq(-4, 1.2, l= 1000), 1.2), y=c(0,dnorm(seq(-4, 1.2, l=1000)),0),col="black", density = 3, angle = 45)
86
5.2 Criação da Variável Z - Distribuição Normal Padronizada
pnorm(108,100,5) - pnorm(106,100,5)
# sintaxe: padronizado
pnorm(1.2, 0, 1) - pnorm(1.2, 0, 1)
polygon(x=c(106, seq(106, 108, l= 100), 108), y=c(0,dnorm(seq(106, 108, l=100), 100, 5),0),col="black", density = 3, angle = 45)
polygon(x=c(1.2, seq(1.2, 1.6, l= 100), 1.6), y=c(0,dnorm(seq(1.2, 1.6, l=100)),0),col="black", density = 3, angle = 45)
Exemplo 2: Agora vamos calcular as probabilidades com base no quantil da normal padrão.
a)P [Z > Zα ] = 0, 05
Rotina para cálculo do Z.
87
5 MODELOS PROBABILÍSTICOS CONTÍNUOS
# sintaxe:
qnorm(0.95,0,1)
# sintaxe:
# sintaxe:
qnorm(0.025,0,1)
# sintaxe:
polygon(x=c(-3, seq(-3, -1.96, l= 1000), -1.96), y=c(0,dnorm(seq(-3, -1.96, l=1000)),0),col="black", density = 3, angle = 45)
88
5.2 Criação da Variável Z - Distribuição Normal Padronizada
c)P −Zα/2 < Z < Zα/2 = 0, 95
# sintaxe:
qnorm(0.025,0,1)
qnorm(0.975,0,1)
# sintaxe:
polygon(x=c(-1.96, seq(-1.96, 1.96, l= 1000), 1.96), y=c(0,dnorm(seq(-1.96, 1.96, l=1000)),0),col="black", density = 3, angle = 45)
89
5 MODELOS PROBABILÍSTICOS CONTÍNUOS
Γ( n+1
−( n+1 )
2 )
x2 2
f (x) = √
nπΓ( n
1+ n .
2)
a maior variabilidade (com curvas mais alargadas) que é de se esperar em amostras pequenas;
Normal.
90
5.5 Teorema Central do Limite - (TCL)
distribuição da variável de interesse para grande amostras, a distribuição das médias amostrais serão
tamanho de amostra crescer. Então podemos ter uma variável original com uma distribuição muito
diferente da Normal (pode até mesmo ser discreta), mas se tomarmos várias amostras grandes (n≥30)
desta distribuição, e então zermos um histograma das médias amostrais, a forma se parecerá como
Teorema: Se amostras de tamanho n (n ≥ 30) forem tiradas de uma população qualquer, isto é, com
distribuição qualquer com média m e desvio padrão sv, então a distribuição amostral de médias das
amostras será aproximadamente Normal com média µX = µe desvio padrão σX̄ = √σ , ou seja,
n
X ∼?(µ, σ) ⇒ X ∼ N µ, √σn .
a
Consequentemente,
X̄−µ
√
σ/ n
∼ N (0, 1).
A aproximação para a normal melhora à medida que o tamanho amostral cresce. Este resultado é
conhecido como o Teorema Central do Limite e é notável porque permite-nos conduzir alguns proce-
X̄−µ
√
S/ n
∼ t(n−1) .
cidade seguem uma distribuição normal com média igual a $500,00 e desvio padrão igual a $100,00.
91
5 MODELOS PROBABILÍSTICOS CONTÍNUOS
a)P (x ≤ 450)
b)P (x ≥ 650)
Rotina do exercício 1.
q1 q
p x1<-desvio*q1+media
x1
# letra C x2<-desvio*q2+media
Exercício 2: (BRUNI, 2008) As vendas diárias de uma lanchonete seguem uma distribuição aproxi-
madamente normal, com médias de $400,00 e desvio igual a $100,00. Calcule a probabilidade de que
Rotina do exercício 2.
# letra A
# letra B
Exercício 3 modicado (BRUNI, 2008): O tempo de vida útil de um motor elétrico tem distribuição
aproximadamente normal, com média de 4,6 anos e desvio padrão de 1,3 ano.
a) qual deve ser o valor de tempo de garantia desse motor para que, no máximo, 18% das vendas
b) Se esse tipo de motor tiver garantia de 2 anos, que porcentagem de vendas originais exigira substi-
Rotina do exercício 3.
92
5.6 Exercícios propostos
# letra A
desvio<-1.3
media<-4.6
x<-desvio*q+media
# letra B
desvio<-1.3
media<-4.6
93
6 AMOSTRAGEM
A necessidade de se trabalhar com técnicas de amostragem surge quando por questões práticas ou
econômicas, é impossível ou quase impossível estudar toda a população. A amostragem pode ser ob-
tida por dois métodos, a amostragem probabilística e a amostragem não probabilística. Na amostragem
zero, de pertencer à amostra. Enquanto, na amostragem não probabilística, não se conhece a proba-
métodos para estudar as populações por meio de amostras. A amostragem nos possibilita concluir
(inferir) sobre um todo a partir de apenas uma parte. Para isso é necessário sabermos como deve
ser feito uma amostragem, ou seja, como coletar uma amostra. Antes de apresentar as técnicas de
6.1 Denições
uma ou mais características em comum, pertencentes a uma mesma unidade amostral (universo de
estudo).
Amostragem: procedimento através do qual se selecionam alguns membros de uma dada população
como representativos de toda a população, isto é, o ato de tomar amostras representativas da população.
Nota: Para que uma amostra seja representativa da população estudada é necessário:
Que o período ou a área seja condizente com a escala de ocorrência do fenômeno a ser investigado.
Representatividade: a amostra retirada dessa população tem por obrigação de preservar as carac-
terísticas da população.
Exemplo 1:
1) a escolha de passageiros para fazer a revista da bagagem;
95
6 AMOSTRAGEM
3) Dados a serem coletados: decidir quais os dados serão coletados, ou seja, denir as variáveis
telefonemas, etc.
96
6.5 Principais processos de amostragem
rística da população.
8) Organização do trabalho de campo: questionário, estudo piloto (está ligado com a precisão).
representativa cujos elementos da população são todos homogêneos. Normalmente, este processo de
amostragem é utilizado em associação com outros processos de amostragem, pois nem sempre é possível
iii) o número de amostras possíveis de tamanho n que pode ser retirada de uma população de tamanho
N é:
!
N N!
C N,n = = n!(N −n)!
n
Esquema:
97
6 AMOSTRAGEM
mutuamente exclusivos e em seguida é feita a ASA em cada estrato. Suponha que uma população
L
h=1
amostras são retiradas (uma amostra de cada estrato): n1 , n2 , . . . , nL sendo n = n1 + n2 +
L
P
· · · + nL = nh .
h=1
Portanto, para cada estrato é possível associarmos uma média e uma variância. A média e variância
n
n 2
P h P h
Xhi nh Xhi
1
Sh2 = 2 −
i=1
P i=1
X̄h = e Xhi .
nh nh −1 nh
i=1
retiradas separadamente de cada um desses grupos por meio da Amostragem Simples ao Acaso (ASA).
Esquema:
A amostragem estraticada pode ser classicada de acordo com a retirada dos elementos em cada
raramente é utilizado, devendo ser recomendado apenas para situações em que os estratos populacionais
forem uniformes em tamanho, ou seja, os tamanhos dos estratos populacionais são iguais. Então, o
n
nh = L
Em que nh é o tamanho da amostra retirada do estrato h, ou seja, o número de elementos que serão
Recomendação: (N1 = N2 = N3 = · · · = Nh ).
98
6.5 Principais processos de amostragem
tamanho Nh do respectivo estrato. Este critério é recomendado quando o tamanho dos estratos
são distintos e a variabilidade dos estratos é homogênea, isto é:
Recomendação: N1 6= N2 6= N3 6= · · · =
6 Nh e σ1 = σ2 = σ3 = · · · = σh (homogeinidade de variância
- homocedasticidade).
Para determinarmos a quantidade de elementos que serão amostrados de cada estrato será utilizado a
seguinte relação:
nh Nh n n nNh nNh
n = L
P
ou h
Nh = L
P
⇒ nh = L
P
⇒ nh = N .
Nh Nh Nh
h=1 h=1 h=1
Em que nh é o tamanho da amostra do estrato h, ou seja, o número de elementos que serão retirados
do estrato h; Nh é tamanho do estrato h ; L é a quantidade de estrato; n o tamanho da amostra.
Exemplo 5: Suponha que uma empresa hoteleira deseja realizar uma pesquisa com os seus 84 fun-
cionários, em que 25 pessoas são do sexo feminino (F) e as 59 restantes do sexo masculino (M).
Estabelecendo n = 9 (10% no mínimo), encontre o número de mulheres e de homens que deve ser
entrevistados. Suponha que a variabilidade dos estratos é homogênea.
Resolução:
ao desvio padrão σh do respectivo estrato. Este critério é recomendado quando os tamanhos dos
estratos são distintos e a variabilidade dos estratos é heterogênea, isto é:
Recomendação: N1 6= N2 6= N3 6= · · · =
6 Nh e σ1 6= σ2 6= σ3 6= · · · 6= σh (heterogeinidade de variância
- heterocedasticidade).
Para determinarmos a quantidade de elementos que serão amostrados de cada estrato será utilizado a
seguinte relação:
nh Nh Nh σh n
nσh = L
P
⇒ nh = L
P
Nh σh Nh σh
h=1 h=1
Em que: nh é o tamanho da amostra do estrato h, ou seja, o número de elementos que serão retirados
do estrato h; Nh é o tamanho do estrato h, ou seja, é o número de elementos do estrato h ; é o desvio
padrão do estrato h ; L é a quantidade de estrato;no tamanho da amostra.
Exemplo 6: Para ilustrar o procedimento da amostragem ótima considerou-se uma população ctícia
de uma região, cujo interesse era obter informações sobre parâmetros de tecnologia dos produtores
agrícolas da região.
99
6 AMOSTRAGEM
0 2 500 10 5.000 21
2 5 320 11 3.520 15
5 10 100 13 1.300 6
10 20 50 20 1.000 4
20 40 30 30 900 4
L=5
P
Totais 1.000 - Nh σh = 11.720 n = 50
h=1
Determine o tamanho amostral de cada estrato, ou seja, o número de propriedades que serão retiradas
dos estratos para obtermos informações sobre parâmetros de tecnologia dos produtores agrícolas da
região.
Nota-se que os tamanhos dos estratos são distintos e a variabilidade dos estratos é heterogênea então
Nh σh n
nh = L
P
Nh σh
h=1
N1 σ1 n 500.10.50
n1 = 5
P
= 11720 = 21, 33 = 21
Nh σh
h=1
N2 σ2 n 320.11.50
n2 = 5
P
= 11720 = 15, 02 = 15
Nh σh
h=1
N3 σ3 n 100.13.50
n3 = 5
P
= 11720 = 5, 54 = 6
Nh σh
h=1
N4 σ4 n 50.20.50
n4 = 5
P
= 11720 = 4, 26 = 4
Nh σh
h=1
N5 σ5 n 30.30.50
n5 = 5
P
= 11720 = 3, 84 = 3
Nh σh
h=1
para formar parte da amostra. Os demais são retirados em uma progressão aritmética, saltando r
determinado por:
100
6.5 Principais processos de amostragem
N
r= n elementos.
Esquema:
População enumerada: 1, 2, . . . , i, . . . , N .
A amostra sistemática será:
1º elemento: i
2º elemento: i+r
3º elemento: i + 2r
4º elemento: i + 3r
...
n-ésimo elemento: i + (n − 1) r
Exemplo 7: Um hotel mantém um arquivo contendo os registros de antigos hospedes, num total de
N 10.000
r= n = 1.000 = 10.
Sorteia-se um primeiro elemento, ou seja, a primeira cha de hospede (um valor entre 1 e 10), por
1ª cha: 5
2ª cha: 5+10=15
3ª cha: 5+2*10=25
...
merado é facilitar a coleta da informação. Cada conglomerado deve possuir a mesma heterogeneidade
(mesmas características) que a população. Isto é, cada conglomerado deve representar bem toda a
população.
Motivação:
Não tem a necessidade de cadastro de toda a população;
Esquema:
101
6 AMOSTRAGEM
Exemplo 8: Para estudar uma determinada característica da população de um país poderia sortear
alguns estados, dentro de cada estado alguns municípios e dentro de cada município localidades.
de tamanho N (com ou sem reposição). Para cada amostra pode-se calcular uma grandeza estatística,
como a média, o desvio padrão etc., que varia de amostra para amostra. Com os valores obtidos para
determinada grandeza, podemos construir uma distribuição de probabilidades, que será denominada
de distribuição amostral. Para cada distribuição amostral é possível calcular a sua média, o seu desvio
padrão, etc. Portanto, distribuição amostral é uma distribuição de probabilidade de uma estatística.
serão:
q
√σ N −n
E X̄ = µx̄ = µ e σX̄ = n N −1
q
N −n
em que é
N −1 conhecido como fator de correção de população nita (populações pequenas).
Se a população for innita (população grande), ou se amostragem for tomada com reposição, os valores
acima carão:
√σ
E X̄ = µx̄ = µ e σX̄ = n
média e a variância e, posteriormente, vericar como estes parâmetros se relacionam com os parâmetros
da população.
102
6.6 Distribuições amostrais
σ 2 = 2/3. Obter a distribuição amostral da média para as amostras de tamanho n = 2 com e sem
repetição dessa população.
1ª situação: amostras com reposição de tamanho n = 2 juntamente com a média amostral são
apresentadas a seguir.
X̄ fi fp
1,0 1 1/9
1,5 2 2/9
2,0 3 3/9
2,5 2 2/9
3,0 1 1/9
σ2 2/3 σ2
n = 2 = 23 . 21 = 1
3 ∴ σx̄2 = n .
2ª situação: amostras sem reposição de tamanho n=2 juntamente com a média amostral são
apresentadas a seguir.
X̄ fi fp
1,5 1,0 1/3
2,0 1,0 1/3
2,5 1,0 1/3
3
P
X̄i
i=3 (1,5+2,0+2,5)
µx̄ = = = 2 ∴ µx̄ = µ
3 3
3 2
P
3 X̄i
(6)2
h i
1 P 2 1 1
σx̄2 = 1, 52 + 2, 02 + 2, 52 −
i=3
X̄ − = =
3 i 3 3 3 6
i=1
103
6 AMOSTRAGEM
σ 2 N −n σ 2 N −n
n . N −1 = 23 . 12 . 21 = 1
6 ∴ σx̄2 = n . N −1
Observação: Amostras com reposição, incorpora fator de correção
distribuição de amostragem da média mais se aproxima da forma da distribuição normal, qualquer que
Portanto, esse teorema permite aproximar a distribuição amostral deX̄ por uma curva normal apro-
Observações:
⇒Amostragem sem reposição é recomendada quando(n/N > 0, 05), então, deve-se fazer a correção
q
√σ N −n
σX̄ = n N −1
Z= X̄−µX̄
σ X̄ =
X̄−µX̄
√σ
n
∼ N (0, 1) se X tem distribuição Normal;
Z= X̄−µX̄
σ X̄ = X̄−µ
√σ
n
∼ N (0, 1)
a
se X não tem distribuição Normal.
Exemplo 10: Sabe-se que a média de tempo que candidatos a um determinado emprego gastam para
a) Se selecionarmos um indivíduo qualquer dessa população, qual a probabilidade que ele gaste entre
população são retiradas todas as possíveis amostras de tamanhon, sem reposição, os valores da média
104
6.7 Exercícios propostos
q q
p(1−p) N −n
E(p̂) = p e σp̂ = n N −1
Se a população for innita, ou se amostragem for tomada com reposição, os valores acima carão:
q
p(1−p)
E(p̂) = p e σp̂ = n
Quando n −→ ∞, a distribuição
amostral p̂ de será aproximadamente Normal com média p e variânciap(1−
p)/n, ou seja, p̂ ∼ N p, p(1−p)
n .
a
p̂−µp̂ p̂−p
Conseqüentemente,
σp̂ ∼ N (0, 1), ou seja, Z=√ pq ∼ N (0, 1).
a n a
Quando p é desconhecida e a amostra é sucientemente grande, determinamos p̂0 = X/n , estimativa
p
de p. Então, σp̂ = p̂0 (1 − p̂0 ) /n.
suas fazendas. Só que o mesmo possui quatro fazendas espalhadas pelo interior do nordeste. Neste
caso, qual seria o melhor tipo de amostragem para que o fazendeiro escolhesse a fazenda que seria
Exercício 2: (BRUNI, 2008) Suponhamos que desejássemos analisar uma população formada por
proprietários de automóveis do Estado do Mato Grosso. Neste caso, seria mais coerente analisar esta
população com uma amostragem por conglomerados ou uma amostra aleatória simples? Explique sua
resposta.
Exercício 3: (BRUNI, 2008) Um dos sócios de uma empresa automobilística deseja fazer um teste da
sua linha, que prove que a maior exibilidade da chaparia no momento da batida, assim amenizando
os riscos de que o carro sofra maior impacto e projeções bruscas. Sabe-se que a inferência estatística
envolve a formulação de certos julgamentos sobre um todo após examinar uma parte ou a amostra dele.
Então um dos sócios apresenta a seguinte idéia: fazer um censo já que a generalização, neste caso tem
grandes possibilidades de erros. Se você fosse outro acionista concordaria com esta idéia? Por quê?
Exercício 4: (ANDERSON et al., 2007) Lori Jeery é uma bem-sucedida representante de vendas de
uma grande editora de livros universitários. Historicamente, Lori consegue fazer que adotem um livro
em 25% de seus contatos de vendas. Tomando seus contatos de vendas realizados durante um mês com
uma amostra de todo os contatos de vendas possíveis, considere que uma análise estatística dos dados
b. Considere que p̄ indica a proporção amostral de adoção de livro durante o mês. Apresente a
105
6 AMOSTRAGEM
c. Usando a distribuição amostral de p̄, calcule a probabilidade de Lori fazer que adotem livros em
Exercício 5: (ANDERSON et al., 2007) Um pesquisador relata os resultados de uma pesquisa ar-
mando que o erro padrão da média é 20. O desvio padrão da população é de 500.
Exercício 6: (ANDERSON et al., 2007) A Business Week pesquisou ex-alunos de MBA dez anos após
a graduação (Business Week, 22 setembro 2003). Uma revelação foi que os ex-alunos gastam em média
US$115,50 por semana com almoço e jantares sociais. Você foi solicitado para realizar um estudo de
acompanhamento, tomando uma amostra de 40 esses ex-alunos de MBA. Suponha que o desvio médio
a)Apresente a distribuição amostral de x̄, a média amostral de gastos semestrais dos 40 ex-alunos de
MBA?
106
7 TEORIA DA ESTIMAÇÃO
7.1 Introdução
Antes de abordar a teoria da estimação vamos procurar entender o que vem a ser estimador e estimativa.
Um estimador, θ̂, do parâmetro θé uma função qualquer dos elementos da amostra. Estimativa é o
valor numérico assumido pelo estimador quando os valores observados são considerados.
Assim:
n
P
Xi
i
X̄ = n , é um estimador da média populacional µ , e X̄ = 150é uma estimativa da média populaci-
onal.
parâmetro, apenas um valor numérico. Por exemplo, ao estimar m (média populacional) podemos
estimativa pontual não se tem nenhuma idéia de quão próximo é o valor dessa estimativa em relação
ao valor do parâmetro, ou seja, não se sabe qual é a margem de erro que é cometida ao se estimar
um determinado parâmetro. Uma maneira de se salvar essa desvantagem é usando estimadores por
intervalo que garanta com alta probabilidade de conter o verdadeiro valor do parâmetro desconhecido.
possa atribuir probabilidades de que o valor real do parâmetro j esteja ali contido. De modo geral
as estimativas (pontual ou intervalar) devem ser bastante conáveis, e para isso é necessário que os
estimadores que as fornecerão apresentem boas propriedades, aliado ao fato de serem obtidas a partir
(FERREIRA, 2005).
107
7 TEORIA DA ESTIMAÇÃO
X̄−µ
Z= √σ (1)
n
N µ, σ 2
para f (.) correspondente a uma normal . Nesse caso, a distribuição de Z é uma normal
N (0,1), não depende de µ 2
e σ .
de quantidade pivotal.
Sabe-se que a função pivô Z tem distribuição normal padrão, ou seja, distribuição normal com média
zero e variância 1. A distribuição de Z não depende da quantidade desconhecida µ, sendo possível
distribuição N (0,1) permitem que se construa a regra de estimação de por intervalo. Assim,
P −Zα/2 ≤ Z ≤ Zα/2 = 1 − α
X̄−µ
P −Zα/2 ≤ √σ ≤ Zα/2 = 1 − α
n
h i
P −Zα/2 √σn ≤ X̄ − µ ≤ Zα/2 √σn = 1 − α
h i
P −X̄ − Zα/2 √σn ≤ −µ ≤ −X̄ + Zα/2 √σn = 1 − α
h i
P X̄ + Zα/2 √σn ≥ µ ≥ X̄ − Zα/2 √σn = 1 − α
h i
P X̄ − Zα/2 √σn ≤ µ ≤ X̄ + Zα/2 √σn = 1 − α
E o intervalo de conança para µ (com variância populacional conhecida), com uma conança de 1 − α
pode então ser escrito como:
Isto signica que o parâmetro apresenta uma probabilidade de 1−α de estar entre os limites: X̄ −
Zα/2 √σn e X̄ + Zα/2 √σn .
estimar o parâmetro θ usando informação de nossa amostra. Chamamos o único número que representa
o valor mais plausível do parâmetro (baseado nos dados amostrais) de uma estimativa pontual de θ.
Entretanto, sabemos que o valor estimado na maior parte das vezes não será exatamente igual ao
valor verdadeiro. Então, também seria interessante encontrar um intervalo de conança que forneça
um intervalo de valores plausíveis para o parâmetro baseado nos dados amostrais . Isso signica que
intervalo no qual estariamos 90% conantes de cobertura do verdadeiro valor do parâmentro, isto é,
108
7.3 Propriedades dos estimadores
Demonstração:
n !
n
P
Xi
n
1P 1
Xi = n1 E (X 1 + X2 + ... + Xn ) =
i
P
E X̄ = E n =E n Xi = nE
i i
1 1
n [E (X1 ) + E (X2 ) + ... + E (Xn )] = n [µ + µ + ... + µ] = n1 nµ = µ
2) Consistência
Um estimador θ̂ é dito um estimador consistente do parâmetro θ se:
1. lim E θ̂ = θ;
n→∞
2. lim V θ̂ = 0
n→∞
n
P
Xi
Exemplo 2: X̄ = i
n
i)lim E X̄ = lim µ = µ
n→∞ n→∞
2
lim V X̄ = lim σn = 0
ii)
n→∞ n→∞
3) Eciência
Se θ̂1 e θ̂2 são dois estimadores não tendenciosos de θ , então, θ̂1 é mais eciente que q̂2 se:
V θ̂1 < V θ̂2
V (θ̂2 )
Efθ̂1 θ̂2 =
V (θ̂1 )
Observação:
Quanto menor for a variância de um estimador maior será a sua eciência;
Se θ̂1 for menos eciente que θ̂2 então Efθ̂1 θ̂2 < 1;
Se θ̂1 for mais eciente que θ̂2 então Efθ̂1 θ̂2 > 1 .
4) Suciência ou Precisão
Um estimador é suciente se contém o máximo de informação com relação ao parâmetro por ele
estimado.
1
Quantidade de informação ou precisão =
V (θ̂)
dos Mínimos e Método da Máxima Verossimilhança. No presente material não será apresentada a
109
7 TEORIA DA ESTIMAÇÃO
Em que:
encontrado não contém o valor real do parâmetro em estudo. O valor do nível de signicância é
estipulado pelo pesquisador, sendo que em sua maioria e de acordo com padrões internacionais é
X̄ é a média amostral;
n é o tamanho da amostra;
αq é o nível de signicância;
N −n
N −1 é o fator de correção;
X̄ − Z σ σ
α/2 √n e X̄ + Zα/2 √n , são chamados de limite inferior e superior de conança, ou seja,
limites inferior e superior do intervalo de conança;
Nota: Para amostras provenientes de uma população Normal, ou para amostras de tamanho n ≥ 30,
independente da forma da população, o intervalo de conança na expressão (2) fornecerá bons resulta-
dos. Entretanto, para pequenas amostras provenientes de uma população não Normal , não podemos
esperar que o nível de conança seja exato (MONTGOMERY & RUNGER, 2003). Vale ressaltar
que com base na quantidade pivotal [expressão (1)], resultado apresentado na seção (7.2.2), é possível
determinar o intervalo de conança para média com variância conhecida, conforme expressão(2).
quina extraiu-se uma amostra de 100 rolamentos, observando-se uma média igual a 0,824 polegadas.
Determine o intervalo com 90% de conança para o verdadeiro diâmetro médio dos rolamentos.
intervalo de conança:
110
7.5 Intervalos de conança para a média
media<-0.824
desviopad<-0.042
n<-100
erropad<-desviopad/sqrt(n)
quantil<-qnorm(0.05,lower.tail=FALSE)
erro<-quantil*erropad
LI<-media-erro
LI
LS<-media+erro
LS
Interpretação: Pode-se armar com 90% de conança que o intervalo contém o diâmetro médio dos
m
rolamentos ( ) produzidos por esta máquina.
Exemplo 4 (Exercício): Utilizando os dados do exercício anterior e supondo que a produção diária
seja de 1.000 rolamentos. Determine o intervalo com 90% de conança para o verdadeiro diâmetro
media<-0.824
desviopad<-0.042
n<-100
N<-1000
erropad<-(desviopad/sqrt(n))*fc
quantil<-qnorm(0.05,lower.tail=FALSE)
quantil
erro<-quantil*erropad
LI<-media-erro
LI
LS<-media+erro
LS
Exemplo 5: De uma população normal a variável aleatória X apresenta uma variância igual a 9.
25
P
Retiramos uma amostra de 25 observações e obteve-se Xi = 152. Determine um intervalo de limites
i=1
111
7 TEORIA DA ESTIMAÇÃO
somax<-152
n<-25
media<-somax/n
media
desviopad<-3
n<-25
erropad<-desviopad/sqrt(n)
quantil<-qnorm(0.05,lower.tail=FALSE)
erro<-quantil*erropad
LI<-media-erro
LI
LS<-media+erro
LS
Interpretação: Pode-se armar com 90% de conança que o intervalo contém a média populacional
da variável aleatória X.
7.5.2 Intervalo de conança para média (µ) de uma população Normal com variância
populacional (σ2 ) desconhecida
Denição: Se X e S forem a média e o desvio padrão de uma amostra aleatória proveniente de uma
σ2
população Normal, com variância populacional desconhecida , então o intervalo de conança de
Em que t(n−1,α/2) é o ponto superior α/2 da distribuição t-Student, com v = n−1 graus de liberdade.
n
Se ocorrer Amostragem Sem Reposição para População Finita (P.F.A.S.R.), isto é, se
N > 0, 05 (N
o tamanho da população), então, incorpora-se o fator de correção no intervalo. Logo, o intervalo de
conança será:
112
7.5 Intervalos de conança para a média
q
N −n
IC (µ) : X̄ ± t(α/2; v=n−1) √Sn N −1 . (5)
100(1−α)%
Nota: Como determinar o intervalo da expressão (4), a partir de uma quatidade pivotal?
X ∼ N µ, σ 2 σ2
Se , com desconhecida, então
X̄−µ
t= S
√
(6)
n
possui uma distribuição denominada t-Student com v = n−1 graus de liberdade. A expressão (6)
representa uma quantidade pivotal, ou seja, a distribuição de t não depende da quantidade desconhecida
distribuição t-Student permitem que se construa a regra de estimação de por intervalo. Assim,
P −t(α/2; v=n−1) ≤ t ≤ t(α/2; v=n−1) = 1 − α
X̄−µ
P −t(α/2; v=n−1) ≤ S
√
≤ t(α/2; v=n−1) = 1 − α
n
h i
P −t(α/2; v=n−1) √Sn ≤ X̄ − µ ≤ t(α/2; v=n−1) √Sn = 1 − α
h i
P −X̄ − t(α/2; v=n−1) √Sn ≤ −µ ≤ −X̄ + t(α/2; v=n−1) √Sn = 1 − α
h i
P X̄ + t(α/2; v=n−1) √Sn ≥ µ ≥ X̄ − t(α/2; v=n−1) √Sn = 1 − α
h i
P X̄ − t(α/2; v=n−1) √Sn ≤ µ ≤ X̄ + t(α/2; v=n−1) √Sn = 1 − α
E o intervalo de conança para µ (com variância populacional desconhecida), com uma conança de
n
Se ocorrer Amostragem Sem Reposição para População Finita (P.F.A.S.R.), isto é, se
N > 0, 05 (N
o tamanho da população), então, incorpora-se o fator de correção no intervalo. Logo, o intervalo de
conança será:
q
N −n
IC (µ) : X̄ ± Zα/2 √Sn N −1 . (8)
100(1−α)%
113
7 TEORIA DA ESTIMAÇÃO
Segundo (WALPOLE et al., 2009), com uma amostra tão grande quanto 30 e uma distribuição de
população não muito simétrica, S será muito próximo de σ e, então, o teorema central do limite
prevalece. Os autores enfatizam que isso é apenas uma aproximação e que a qualidade da abordagem se
torna melhor à medida que se aumenta o tamanho da amostra. Portanto, quando se estiver trabalhando
com amostras grandes (n ≥ 30) pode-se utilizar a distribuição padronizada Z, em lugar da t na obtenção
2
dos intervalos de conança, mesmo que σ seja desconhecida.
Exemplo 6: A altura nos homens de uma cidade apresenta distribuição normal, para se estimar
150
amostra
P
a altura média dessa população levantou-se uma de 150 indivíduos obtendo-se: Xi =
i=1
150
Xi2 = 4.440.075 cm2 .
P
25.800 cm e
i=1
a) Ao nível de 2% de signicância, determine o intervalo de conança para a altura média dos homens
desta cidade.
Solução: Como se trata de uma amostra, a variância que será determinada corresponde a variância
150
(sv2 )
P
amostral, ou seja, a variância populacional é desconhecida. Sabe-se que: Xi = 25.800cm e
i=1
150
Xi2 = 4.440.075cm2 ,
P
então a média e variância são respectivamente:
i=1
v
u n
2
P
Xi
u r
150 n
(25.800)2
u h i
P 25.800 1 P 2 i=1 1
X̄ = Xi /150 = = 172 cm e t n−1 Xi −
S=u = 4.440.075 − =
150 n 149 150
i=1 i=1
√
16, 61 = 4, 07 cm.
A amostra é de 150 indivíduos, isto é, n = 150>30 (amostra grande). Logo, o intervalo a ser adotado
media<-172
desviopad<-4.07
n<-150
erropad<-desviopad/sqrt(n)
quantil<-qnorm(0.01,lower.tail=FALSE)
erro<-quantil*erropad
LI<-media-erro
LI
LS<-media+erro
LS
Interpretação: Pode-se armar com 98,0% de conança que o intevalo contém a estatura média dos
114
7.5 Intervalos de conança para a média
Exemplo 7 (Exercício): Uma Cia adquiriu 500 cabos. Uma amostra de 30 deles ao acaso apresentou
tensão de ruptura média igual a 2.400 kg com desvio padrão de 150 kg. Determine o intervalo com
N<-500
n<-30
media<-2400
desviopad<-150
# fator de correção => n/N > 0,05 => no exemplo em questão não incorpora fator de correção
erropad<-desviopad/sqrt(n)
quantil<-qnorm(0.005, lower.tail=FALSE)
# Intervalo de conança 99%
erro<-quantil*erropad
LI<-media-erro
LI
LS<-media+erro
LS
P | X̄ − µ |≤ ε ∼
=1−α
isto é,
h i
P | X̄ − µ |≤ Zα/2 √σn ∼=1−α
Então, para um ε xo, a solução para o problema acima consiste em determinar n de tal forma que
ε = Zα/2 √σn
ou equivalentemente,
ε2 σ2
2
Zα/2
= n . (9)
2 σ2
Zα/2
2
Zα/2 σ
n= ε2
= ε . (10)
Para determinação da amostra, é preciso xar o erro máximo desejado (ε), com algum grau de conança
1−α (traduzido pelo valor tabelado Zα/2 ) e possuir algum conhecimento a priori da variabilidade da
115
7 TEORIA DA ESTIMAÇÃO
σ2
população . Ou seja, o erro máximo desejado e o nível de conança são xados pelo pesquisador.
O uso de pesquisa passadas, estatísticas (informações), ou amostras piloto são os critérios mais usados.
Em muitos casos, uma amostra piloto pode fornecer informação suciente sobre a população, de tal
σ2
forma que se pode obter um estimador inicial razoável para (BOLFARINE & BUSSAB, 2005).
funcionam devido a um propelente sólido. A taxa de queima desse propelente é uma característica
importante do produto. As especicações requerem que a taxa média de queima seja de 50 cm/s.
Sabemos que o desvio-padrão da taxa de queima é sv = 2 cm/s. Suponha que quiséssemos um erro
na estimação da taxa média de queima do propelente do foguete menor do que 1,5 cm/s, com uma
Solução: Uma vez que sv = 2 cm/s e γ = 0, 95 (Z0,025 = 1, 96), pode-se determinar o tamanho da
# sintaxe:
sigma<-2
erro<-1.5
# conança de 95%
# dimensionamento da amostra
n<-((qnorm(0.025,lower.tail=FALSE)*sigma)/erro)^2
n
Exemplo 9: Suponha que uma amostra aleatória de tamanho 10 da variável renda familiar apresente
os seguintes valores: 12, 18, 12, 18, 18, 30, 12, 12, 18, e 30. Determine o tamanho da amostra que
√
apresente uma estimativa com erro máximo ε= 2, com g = 0,95.
Solução: No presente problema não se tem informação a respeito de σ2. Mas, sabe-se que a partir
2
de uma amostra piloto pode-se obter uma estimativa razoável para σ . Para esta amostra, X̄ = 18 e
√
S2 = 48. Com S 2 = 48, para ter uma amostra que apresente uma estimativa com erro máximo ε = 2
, com γ = 0, 95, é necessário que o tamanho da amostra seja
# sintaxe:
dados<-c(12,18,12,18,18,30,12,12,18,30)
n<-length(dados)
n
v<-n-1
erro<-sqrt(2)
# conança de 95%
# dimensionamento da amostra
n2<-((qt(0.025, v,lower.tail=FALSE)*sd(dados))/erro)^2
n2
116
7.6 Intervalos de conança para diferença entre duas médias (amostras independentes)
em que:
X̄ a e X̄b são médias amostrais, isto é, são as estimativas pontuais das médias das populações a
e b, respectivamente;
σ 2
a e σb2 são as variâncias das populações a e b, respectivamente;
Regras de decisão envolvendo Intervalo de Conança (IC) para diferença entre duas mé-
dias.
1. Se o IC incluir o zero, então, µa = µ b .
2. Se o IC não incluir o zero, então, µa 6= µb . Podendo acontecer:
preço. Testa-se uma amostra de 100 lâmpadas de cada marca. Os resultados obtidos são apresentados
a seguir:
Marca da lâmpada X̄ σ
A 1.160 h 90 h
B 1.140 h 80 h
deve comprar.
Solução: Sabe-se que a variâncias populacionais são conhecidas, pois se forneceu informações a respeito
de para cada marca de lâmpada. O valor de a adotado foi de 2% (0,02), e o tamanho das amostras
retiradas é de 100 lâmpadas cada, ou seja, na = nb = 100 lâmpadas. Na presente situação não se
conhece o tamanho das populações, consequentemente não há necessidade de fazer o uso do fator de
correção. Portanto, o intervalo adotado para indicar qual lâmpada o supermercado deve comprar será:
117
7 TEORIA DA ESTIMAÇÃO
q
2 σ2
IC (µa − µb ) : X̄a − X̄b ± Zα/2 nσaa + nbb
100(1−α)% q
2 σb2
IC (µa − µb ) : (1.160 − 1.140) ± Z0,02/2 nσaa + nb
98% q
902 802
IC (µa − µb ) : 20 ± Z0,01 100 + 100
98% q
2 +802
IC (µa − µb ) : 20 ± 2, 33 90 100
98%
IC (µa − µb ) : 20 ± 28, 0569
98%
IC (µa − µb ) : [−8, 0569; 48, 0569]
98%
Interpretação: Portanto, pode-se armar com 98% de conança que não existe diferença signicativa
entre os tempos de vida das lâmpadas das marcas A e B, pois o zero está contido na extensão do
intervalo.
# Sintaxe:
media1<-1160
media2<-1140
var1<-8100
var2<-6400
n1<-100
n2<-100
erropad<-sqrt((var1/n1)+(var2/n2))
quantil<-qnorm(0.01,lower.tail=FALSE)
erro<-quantil*erropad
LI<-(media1-media2)-erro
LI
LS<-(media1-media2)+erro
LS
diâmetros iguais a 8 mm ² ²
e 10 mm , respectivamente. Uma amostra de 48 tubos da empresa A
apresentou diâmetro médio igual a 40 mm, e uma amostra de 36 tubos da empresa B apresentou
diâmetro médio de 42 mm. Verique, por meio de um intervalo de conança com 0,95 de probabilidade,
118
7.6 Intervalos de conança para diferença entre duas médias (amostras independentes)
# Sintaxe:
media1<-40
media2<-42
var1<-8
var2<-10
n1<-48
n2<-36
erropad<-sqrt((var1/n1)+(var2/n2))
quantil<-qnorm(0.025,lower.tail=FALSE)
erro<-quantil*erropad
LI<-(media1-media2)-erro
LI
LS<-(media1-media2)+erro
LS
7.6.2 Intervalo de conança para diferença entre duas médias com variâncias
populacionais desconhecidas em amostras independentes
Quando se desconhece as variâncias populacionais σa2 e σb2 torna-se necessário a substituição de seus
2
valores paramétricos por suas estimativas amostrais Sa e S 2b . Neste caso, deve-se utilizar a distribuição
t-Student, em lugar da normal. Além dessa alteração deve-se considerar ainda se as duas populações são
diferentes, o que pode ser aferido por meio de um teste de hipótese para homogeneidade de variâncias.
cias desconhecidas, mas iguais, um intervalo de conança de 100 (1 − α) % para µa − µb é dado por
em que:
S
q
(na −1)Sa2 +(nb −1)Sb2
p = na +nb −2 é a estimativa combinada do desvio padrão da população;
t (α/2) é o valor da distribuição t-Student com ν = na + nb − 2 graus de liberdade, que deixa uma
q
Sa2 Sb2
IC (µa − µb ) : X̄a − X̄b ± t(α/2;v) na + nb , (14)
100(1−α)%
2
Sb2
2
Sa
na
+ nb
v= 2 2
!
S2
!2 . (15)
Sa b
na nb
na −1
+ n −1
b
119
7 TEORIA DA ESTIMAÇÃO
Exemplo 12: Em uma disciplina de Estatística de 12 alunos de uma turma conseguiram média de
7,8 e desvio padrão de 0,6 ao passo que 15 alunos de outra turma do mesmo curso conseguiram média
7,4 com desvio de 0,8. Considerando distribuição normal para as notas ao nível de 5% de signicância,
q
(12−1)0,62 +(15−1)0,82
Sp = 12+15−2 = 0, 7189
q
IC (µa − µb ) : X̄a − X̄b ± t(α/2; na +nb −2) Sp n11 + n12
95% q
IC (µa − µb ) : (7, 8 − 7, 4) ± t(0,025; 12+15−2) Sp n11 + n12
95% q
1 1
IC (µa − µb ) : 0, 4 ± t(0,025; 25) Sp 12 + 15
95% q
1 1
IC (µa − µb ) : 0, 4 ± 2, 06 ∗ 0, 7189 ∗ 12 + 15
95%
IC (µa − µb ) : 0, 4 ± 0, 5736
95%
IC (µa − µb ) : [−0, 1736; 0, 9736]
95%
Interpretação: Portanto, pode-se armar com 95% de conança que estatisticamente não existe
media1<-7.8
media2<-7.4
var1<-0.36
var2<-0.64
n1<-12
n2<-15
v<- n1 + n2 - 2
erropad<-sp*sqrt((1/n1)+(1/n2))
quantil<-qt(0.025, v,lower.tail=FALSE)
erro<-quantil*erropad
LI<-(media1-media2)-erro
LI
LS<-(media1-media2)+erro
LS
média de 107 pontos com desvio padrão de 10 pontos, enquanto que 14 estudantes de outra região
rica da cidade apresentam média de 112 pontos, e desvio padrão de 8 pontos. O QI em ambas regiões
120
7.7 Intervalos de conança para difrença entre duas médias (amostras dependentes)
tem distribuição normal. Determine O intervalo de conança com uma certeza de 95%. Considere
media1<-107
media2<-112
var1<-100
var2<-64
n1<-16
n2<-14
v<-num_v/den_v
erropad<-sqrt((var1/n1)+(var2/n2))
quantil<-qt(0.025, round(v),lower.tail=FALSE)
erro<-quantil*erropad
LI<-(media1-media2) - erro
LI
LS<-(media1-media2) + erro
LS
serão emparelhadas, isto é, a amostra será formada pelos pares (x1 , y1 ) , (x2 , y2 ) , (xn , yn ). Portanto,
fazemos testes de comparação de médias para dados emparelhados (amostras pareadas), obtidas de
populações Normais, quando os resultados das duas amostras são relacionados dois a dois, de acordo
com algum critério que fornece uma inuência entre os vários pares e sobre os valores de cada par.
Para cada par denido, o valor da primeira amostra está claramente associado ao respectivo valor da
segunda amostra. A média e o desvio padrão da amostra de valores d são obtidos pelas fórmula
(MORETTIN, 2010):
v
n
u n
2
P P
di di
u
u n
i=1 1 P 2 i=1
D̄ = e SD = u di − .
n t n−1 n
i=1
SD
IC (µD ) : D̄ ± t(α/2; v) √ n
, (16)
100(1−α)%
121
7 TEORIA DA ESTIMAÇÃO
Exemplo 14: Eciência de uma dieta (MORETTIN, 2010). Para exemplicar, tomaremos um grupo
de pessoas que zeram determinada dieta por uma semana. Medimos o peso no início e no nal
da dieta. As pessoas estão claramente determinadas. A identidade de cada uma tem inuência nos
valores observados de seu peso, porém essa inuência deve ser aproximadamente igual dentro de cada
par de valores do tipo antes e depois . Ao tomarmos a diferença entre varíos pares de valores e
trabalharmos com elas, a inuência de cada pessoa deverá desaparecer, cando apenas a inuência da
dieta. A partir dos dados abaixo será construído um intervalo de conança de 95% de conança.
(1) 2 (2)
Pessoas Peso antes em kg Peso depois em kg di di
1 120 116 4 16
2 104 102 2 4
3 93 90 3 9
4 87 83 4 46
5 85 86 -1 1
6 98 97 1 1
7 102 98 4 16
8 106 108 -2 4
9 88 82 6 6
10 90 85 5 25
di
(1)
é a diferença de observações correlacionadas, ou seja, di = antes depois; d(2)
i é a diferença de observações correlacionadas ao quadrado.
r h
(26)2
i
4+2+...+5 1
D̄ = 10 = 2, 6 kg e SD = 9 (16 + 4 + ...25) − 10 = 2, 59 kg
SD
IC (µD ) : D̄ ± t(α/2; v) √ n
100(1−α)%
2,59
IC (µD ) : 2, 6 ± t(0,05/2; 9) √ 10
95%
2,59
IC (µD ) : 2, 6 ± 2, 262 √ 10
95%
Interpretação: Pode-se armar com 95% de conança que a dieta foi eciente pois, µD > 0.
122
7.8 Intervalos de conança para proporção
n<-length(dif)
v<-n-1
mean(dif) # média da diferenças
sd(dif) # desvio padrão das diferenças
qt(0.025, v, lower.tail = F)
## Intervalo de conança de 95% ##
erro<-qt(0.025, v, lower.tail = F)*((sd(dif))/sqrt(n))
erro
LI<- mean(dif) - erro
round(LI, digits = 3)
LS<- mean(dif) + erro
round(LS, digits = 3)
Se ocorrer Amostragem com Reposição para População Finita ou para População Innita:
q
p̂q̂
IC (P ) : p̂ ± Zα/2 n . (17)
100(1−α)%
estar mais seguro, deve-se exigir ambos np̂ e nq̂ maiores ou iguais a 5 (WALPOLE et al., 2009).
Exemplo15: Suponha que uma empresa de pesquisa eleitoral tenha entrevistado por telefone 400
eleitores, perguntando-lhes se votariam no candidato A. Admita que 240 deles tenham respondido que
votariam no candidato A. Determine o intervalo de 95% de conança para a proporção dos que indicam
Solução: Sabe-se que o tamanho da amostra no presente exemplo é de 400 eleitores, ou seja, n = 400.
Desses 400 eleitores, 240 preferem o candidato A. Portanto, a proporção de eleitores que preferem o
candidato A é:
240
p̂ = 400 = 0, 60 = 60%, então q̂ = 1 − p̂ = 1 − 0, 60 = 0, 40 = 40%
Como a amostra é grande e não se sabe o tamanho da população, então, utiliza-se o seguinte intervalo
de proporção:
q
p̂q̂
IC (P ) : p̂ ± Zα/2 n
100(1−α)%
123
7 TEORIA DA ESTIMAÇÃO
q
p̂q̂
IC (P ) : p̂ ± Z0,05/2 n
95%
q
0,6.0,4
IC (P ) : 0, 6 ± Z0,025 400
95%
q
IC (P ) : 0, 6 ± 1, 96 0,24
400
95%
IC (P ) : 0, 6 ± 0, 048
95%
Interpretação: Assim, com uma amostra de tamanho 400, a pesquisa apresenta uma margem de erro
65%), o candidato A pode sentir-se razoavelmente seguro quanto as suas perspectivas em relação à
eleição.
x<-240 # nº de sucessos
n<-400
p<-x/n
round(p, digits = 3)
q<-1 - p
round(q, digits = 3)
round(qnorm(0.025, lower.tail = F), digits = 2) # valor tabelado - Normal Padrão
## Intervalo de conança de 95% ##
erro<-qnorm(0.025, lower.tail = F)*sqrt(p*q/n)
round(erro, digits = 3)
LI<- p - erro
round(LI, digits = 3)
LS<- p + erro
round(LS, digits = 3)
é defeituoso. Um novo empregado é contratado das 600 peças produzidas por ele, 82 são defeituosas.
Se ele produzir mais artigos defeituosos do que o padrão da empresa ele é demitido. Determine um
124
7.8 Intervalos de conança para proporção
# Sintaxe:
x<-82 # nº de sucessos
n<-600
p<-x/n
round(p, digits = 3)
q<-1 - p
round(q, digits = 3)
round(qnorm(0.05, lower.tail = F), digits = 2) # valor tabelado - Normal Padrão
## Intervalo de conança de 90% ##
erro<-qnorm(0.05, lower.tail = F)*sqrt(p*q/n)
round(erro, digits = 3)
LI<- p - erro
round(LI, digits = 3)
LS<- p + erro
round(LS, digits = 3)
ε =| p − p̂ |. Observe que estamos aproximadamente 100 (1 − α) % conantes de que esse erro seja
p
menor do que Zα/2 p (1 − p) /n. Ou seja, em situações em que o tamanho da amostra puder ser
selecionado, podemos escolher n de modo a estarmos 100 (1 − α) % conantes de que o erro seja menor
p
do que algum valor especicado ε. Se estabelecermos ε = Zα/2 p (1 − p) /n e resolvermos para n, o
tamanho apropriado da amostra será (MONTGOMERY & RUNGER, 2003):
2
Zα/2
n= ε pb (1 − pb) . (19)
Exemplo 17: Em uma amostra aleatória de 85 mancais de eixos de manivelas de motores de auto-
móveis, 10 têm um acabamento de superfície mais rugoso do que as especicações permitidas. Quão
grande deverá ser a amostra se quisermos estar 95% conantes de que o erro em usar p̂ para estimar
Solução: Tem-se que p̂ = 10/85 = 0, 12 é uma estimativa inicial de p. Dessa forma, o tamanho da
amostra será:
2 2 2
Z0,05/2
n= ε p̂ (1 − p̂) = 1,96
0,05 0, 12 (1 − 0, 12) = 1,96
0,05 0, 12 (0, 88) ∼
= 163.
x<-10 # nº de sucessos
n<-85
p<-x/n
round(p, digits = 2)
q<-1 - p
round(q, digits = 2)
round(qnorm(0.025, lower.tail = F), digits = 2) # valor tabelado - Normal Padrão
erro<-0.05
## conança de 95%
# dimensionamento da amostra
n<-round((((qnorm(0.025,lower.tail=FALSE))/erro)^2)*p*q)
n
125
7 TEORIA DA ESTIMAÇÃO
para a diferença dos dois parâmetros binomiais (p̂a − p̂b ) é dado por (WALPOLE et al., 2009):
q
IC (Pa − Pb ) : p̂a − p̂b ± Zα/2 pˆna q̂aa + pˆnb q̂bb , (20)
100(1−α)%
em que: p̂a é a proporção estimada na amostra retirada da população A; p̂b é a proporção estimada na
amostra retirada da população B; na e nb são os tamanhos das amostras retiradas das populações A e
B, respectivamente.
Exemplo 18 (Exercício): Dois setores de uma empresa querem saber se a proporção de funcionários
que chegam atrasados ao trabalho é a mesma. Você como gerente da empresa precisa decidir qual setor
receberá uma bonicação, ou seja, ganhará o setor que apresentar menor proporção de funcionários
atrasados. Com base nos resultados abaixo verique ao nível de 5% de signicância se um ou os dois
Tamanho da amostra 20 30
pa<-0.08
pf<-0.06
na<-20
nf<-30
qa<-1 - pa
round(qa, digits = 3)
qf<-1 - pf
round(qf, digits = 3)
round(qnorm(0.025, lower.tail = F), digits = 2) # valor tabelado - Normal Padrão
## Intervalo de conança de 95% ##
erro<-qnorm(0.025, lower.tail = F)*sqrt((pa*qa/na) + (pf*qf/nf))
round(erro, digits = 3)
LI<- (pa - pf) - erro
round(LI, digits = 3)
LS<- (pa - pf) + erro
round(LS, digits = 3)
126
7.11 Intervalo de conança para o quociente de variâncias
em que χ2( α ; v=n−1) e χ2(1− α ; v=n−1) são os valores de χ2 com v = n−1 graus de liberdade, que deixam
2 2
Exemplo 19: Sabe-se que o tempo de vida de um certo aparelho tem distribuição aproximadamente
normal. Uma amostra de 25 aparelhos forneceu uma média de 500 horas e desvio padrão de 50 horas.
(n−1)S 2 (n−1)S 2
σ2
IC : χ2 α
; χ2 α
100(1−α)% ( 2 ; v=n−1) (1− 2 ; v=n−1)
" #
(25−1)502 (25−1)502
σ2
IC : χ2 0,02
; χ2
98% ( 2 ;v=25−1 ) (1− 0,02
2 ;v=25−1)
h 2 24∗502
i
IC σ 2 : 25∗50 ;
42,98 10,856
98%
IC σ 2 : [1396; 5527].
98%
Interpretação: Pode-se armar com 98% de conança que o intervalo contém a variabilidade (vari-
n<-25
v<-n-1
var<-2500
q1<-round(qchisq(0.99, v), digits = 3) # retorna quantil da qui-quadrado cuja área abaixo do mesmo é de 0,99
q1
q2<-round(qchisq(0.01, v), digits = 3) # retorna quantil da qui-quadrado cuja área abaixo do mesmo é de 0,01
q2
LI<- v*var/q1
round(LI, digits = 3)
LS<- v*var/q2
round(LS, digits = 3)
mente, provenientes de duas populações normais independentes, com variâncias desconhecidas σ12 e σ22
, então um intervalo de conança de 100(1 − a)% para o quociente (razão) de variâncias é dado por
h S2 S12
i
IC σ12 /σ22 : S12 F(1−α/2; v2 =n2 −1, v1 =n1 −1) ; F
S22 (α/2; v2 =n2 −1, v1 =n1 −1)
, (22)
2
100(1−α)%
127
7 TEORIA DA ESTIMAÇÃO
em que F(α/2;v2 =n2 −1,v1 =n1 −1) e F(1−α/2;v2 =n2 −1,v1 =n1 −1) são os pontos percentuais a/2 superior e inferior da
distribuição F, com n2 −1 graus de liberdade no numerador e n1 −1 graus de liberdade no denominador,
respectivamente.
Nota: A Tabela da distribuição F contém somente pontos percentuais superiores, isto é, F(α/2;u,v) . Os
pontos percentuais inferiores F(1−α/2;u,v) podem ser encontrados como segue:
1
F(1−α/2;u,v) = F(α/2;u,v) . (23)
Dessa forma, F(1−α/2;v2 =n2 −1,v1 =n1 −1) = 1/F(α/2;v1 =n1 −1,v2 =n2 −1) , então o intervalo pode ser escrito
como:
h S2 1 S2
i
IC σ12 /σ22 : S12 F ; S12 F(α/2;v2 =n2 −1,v1 =n1 −1) . (24)
2 (1−α/2;v1 =n1 −1,v2 =n2 −1) 2
100(1−α)%
das duas populações ao nível de 10% e verique se as variâncias populacionais podem ser consideradas
relativamente iguais.
Solução: Diante das informações temos que: S12 = 7, 14; S22 = 3, 21; n1 = 9; n2 = 11; S12 /S22 = 2, 2243;
v1 = 9 e v2 = 10, logo, o IC será:
h S2 S12
i
IC σ12 /σ22 : S12 F(1−α/2; v2 =n2 −1; v1 =n1 −1) ; F
S22 (α/2; v2 =n2 −1; v1 =n1 −1)
2
100(1−α)%
h i
IC σ12 /σ22 : 7,14
3,21 F
1
; 7,14
3,21 F(0,10/2; 10; 8)
(0,10/2; 8; 10)
90%
h 1
i
IC σ12 /σ22 : 2, 2243 F ; 2, 2243F(0,05; 10; 8)
(0,05; 8; 10)
90%
h 1
i
IC σ12 /σ22 : 2, 2243 3,0717 ; 2, 2243.3, 3472
90%
Interpretação: Uma vez que esse intervalo de conança inclui a unidade (um), não podemos armar
que as variâncias para as duas populações sejam diferentes com um nível de 90% de conança, ou seja,
128
7.11 Intervalo de conança para o quociente de variâncias
# sintaxe:
n1<-9
n2<-11
v1<-n1 - 1
v2<-n2 - 1
v1
v2
var1<-7.14
var2<-3.21
q1<-round(qf(0.05, v2, v1), digits = 4) # retorna quantil da F cuja área abaixo do mesmo é de 0,05
q1
q2<-round(qf(0.95, v2, v1), digits = 4) # retorna quantil da F cuja área abaixo do mesmo é de 0,95
q2
LI<- (var1/var2)*q1
round(LI, digits = 4)
LS<- (var1/var2)*q2
round(LS, digits = 4)
Exemplo 21 (Exercício): Uma companhia fabrica propulsores para uso em motores de turbinas de
avião. Uma das operações envolve esmerilhar o acabamento de uma superfície particular para um
componente de liga de titânio. Dois processos diferentes para esmerilhar podem ser usados, podendo
produzir peças com iguais rugosidades médias na superfície. Uma amostra aleatória de n1 = 11peças,
proveniente do primeiro processo, resulta em um desvio padrão de S1 = 5, 1micro polegadas. Uma
na superfície seja normalmente distribuída, encontre um intervalo de conança de 90% para a razão
Solução: Diante das informações temos que: S1 = 5, 1; S2 = 4, 7; n1 = 11; n2 = 16; S12 /S22 =
1, 177456; v1 = 10 e v2 = 15, logo, o IC será:
h S2 S2
i
IC σ12 /σ22 : S12 F(1−α/2; v2 =n2 −1; v1 =n1 −1) ; S12 F(α/2; v2 =n2 −1; v1 =n1 −1)
2 2
100(1−α)%
h S2 1 S2
i
IC σ12 /σ22 : S12 F ; S12 F(α/2; v2 =n2 −1; v1 =n1 −1)
2 (1−α/2; v1 =n1 −1; v=n2 −1) 2
100(1−α)%
h 2 2
i
IC σ12 /σ22 : 5,1
4,72 F
1
; 5,1 F
4,72 (0,10/2; 15; 10)
(0,10/2; 10; 15)
90%
h 1
i
IC σ12 /σ22 : 1, 177456 F ; 1, 177456.F(0,05; 15; 10)
(0,05; 10; 15)
90%
h 1
i
IC σ12 /σ22 : 1, 177456 2,5437 ; 1, 177456.2, 8450
90%
129
7 TEORIA DA ESTIMAÇÃO
Interpretação: Uma vez que esse intervalo de conança contém 1 em sua extensão, não podemos
armar que as variâncias da rugosidade da superfície para os dois processos sejam diferentes com um
n1<-11
n2<-16
v1<-n1 - 1
v2<-n2 - 1
v1
v2
var1<-5.1^2
var2<-4.7^2
q1<-round(qf(0.05, v2, v1), digits = 4) # retorna quantil da F cuja área abaixo do mesmo é de 0,05
q1
q2<-round(qf(0.95, v2, v1), digits = 4) # retorna quantil da F cuja área abaixo do mesmo é de 0,95
q2
LI<- (var1/var2)*q1
round(LI, digits = 4)
LS<- (var1/var2)*q2
round(LS, digits = 4)
uma média igual a $20.000,00. Sabendo que as vendas de todas as lojas da região é uma variável
normalmente distribuída, com desvio padrão igual a $8.300,00. Supondo um nível de conança igual
Rotina do Exercício 1:
media<-20000
sigma<-8300
n<-15
erropad<-sigma/sqrt(n)
quantil<-qnorm(0.02,lower.tail=FALSE)
erro<-quantil*erropad
LI<-media-erro
LI
LS<-media+erro
LS
Exercício 2: (BRUNI, 2008) Uma amostra de 16 barras de chocolate revelou os pesos apresentados
na tabela seguinte. Qual deve ver o verdadeiro peso, para um nível de conança de 97%? Suponha
130
7.12 Exercícios propostos
Rotina do Exercício 2:
dados<-read.table("Exer_2_barras_chocolate.txt", h=T)
attach(dados)
dados
media<-mean(dados)
media
s<-sd(dados)
n<-16
v<-n-1
erropad<-s/sqrt(n)
quantil<-qt(0.015, v, lower.tail=FALSE)
erro<-quantil*erropad
LI<-media-erro
LI
LS<-media+erro
LS
Exercício 3: (BRUNI, 2008) O consumo calórico diário de um grupo de alunas da faculdade pode ser
visto na tabela seguinte (valores em calorias). Com base nos valores apresentados, estime qual deve
ser o verdadeiro valor calórico diário médio da população. Suponha um nível de conança igual a 93%
Rotina do Exercício 3:
dados<-read.table("Exer_3_consumo_calorico.txt", h=T)
attach(dados)
dados
media<-mean(dados)
media
s<-sd(dados)
n<-9
v<-n-1
erropad<-s/sqrt(n)
quantil<-qt(0.035, v, lower.tail=FALSE)
erro<-quantil*erropad
LI<-media-erro
LI
LS<-media+erro
LS
Exercício 4 modicado (BRUNI, 2008) Uma empresa fabricante de linhas de pesca testou uma
131
7 TEORIA DA ESTIMAÇÃO
Estime o intervalo de 98% de conança para resistência média deste produto. Suponha a população
normalmente distribuída.
10 10 10 11 10
8 10 10 10 11
9 11 9 11 9
7 9 7 9 11
11 11 8 11 10
Rotina do Exercício 4:
dados<-read.table("Exer_4_linha_pesca.txt", h=T)
attach(dados)
dados
media<-mean(dados)
media
s<-sd(dados)
n<-25
v<-n-1
erropad<-s/sqrt(n)
quantil<-qnorm(0.01, v, lower.tail=FALSE)
erro<-quantil*erropad
LI<-media-erro
LI
LS<-media+erro
LS
Exercício 5: (BRUNI, 2008) Uma amostra aleatória foi extraída dos alunos da Economia. Os pesos
destes alunos estão representados na tabela seguinte. Com base nos dados expostos e empregando
um nível de signicância igual a 5%, estime qual deve ser o peso médio populacional destes alunos.
45 51 96 62
68 55 74 57
72 60 43 62
Rotina do Exercício 5:
132
7.12 Exercícios propostos
dados<-read.table("Exer_5_pesos_alunos.txt", h=T)
attach(dados)
dados
media<-mean(dados)
media
s<-sd(dados)
n<-12
v<-n-1
erropad<-s/sqrt(n)
quantil<-qt(0.025, v, lower.tail=FALSE)
erro<-quantil*erropad
LI<-media-erro
LI
LS<-media+erro
LS
b) Ao nível de 5% de signicância, determine o intervalo de conança para o peso médio dos alunos
da Economia.
c) Ao nível de 1% de signicância, determine o intervalo de conança para o peso médio dos alunos
da Economia.
Exercício 6: Uma Cia adquiriu 500 cabos. Uma amostra de 30 deles ao acaso apresentou tensão de
a) Obter o intervalo com 99% de conança para a verdadeira tensão média de ruptura desses cabos.
b) Obter o intervalo com 95% de conança para a verdadeira tensão média de ruptura desses cabos.
c) Obter o intervalo com 90% de conança para a verdadeira tensão média de ruptura desses cabos.
133
8 TEORIA DA DECISÃO TESTES DE
HIPÓTESES
a partir de amostras retiradas da população objeto de estudo. Uma das alternativas, muitas vezes
utilizadas são os Testes de Hipóteses que consistem na tomada de decisões a partir da aceitação ou
não de hipóteses, e por isso a teoria de testes de hipóteses também é chamada de Teoria da Decisão.
A Teoria da Decisão tem como objetivo de fornecer um processo de análise denominado de teste de
hipóteses, que nos permite decidir por um valor do parâmetro θ ou por sua modicação com um grau
de risco conhecido. Suponhamos que certa distribuição dependa de um parâmetro θ e que não se
conheça θ ou, então, há razões para acreditar que θ variou, seja pelo passar do tempo ou, então, pela
parâmetro populacional. Além disso, poder-se-ia dizer que é uma proposição cuja veracidade pode
ser colocada em dúvida, ou que da qual não se tem total certeza. Em função da possibilidade de ela
ser falsa, quase sempre pensa-se em uma hipótese complementar, a negação da primeira. A hipótese
estatística é uma suposição quanto ao valor de um parâmetro que será vericado por intermédio de um
teste paramétrico ou uma informação quanto a natureza da população que seria vericado por meio de
um teste não paramétrico (aderência). Portanto, pode-se denir teste de hipótese como a proposição
de hipóteses H0 e H1 .
De modo geral, as hipóteses irão se referir ao valor desconhecido do parâmetro em questão estar contido
H : θΘ
0 0
, Θ = Θ0 ∪ Θ1 .
H : θΘ
1 1
por H0 e H1 , respectivamente.
135
8 TEORIA DA DECISÃO TESTES DE HIPÓTESES
O pneu produzido pelo processo A é mais durável que o pneu produzido pelo processo B: µA > µB .
De acordo com o tipo de hipótese formulada pode-se ter os seguintes tipos de testes de hipóteses:
1) Teste Bilateral:
Apresenta duas regiões de rejeição (regiões críticas) da hipótese H0 situadas nos extremos da distri-
buição amostral que serão denotadas por (RRH0 ), e é utilizado para testar as hipóteses do tipo:
H0 : θ = θ0 versus H1 : θ 6= θ0
136
8.4 Tipos de erros
H0 : θ = θ0 versus H1 : θ > θ0
H0 : θ = θ0 versus H1 : θ < θ0
Ao realizar um teste de hipótese, dois tipos de erros são possíveis, rejeitar H0 quando ela é verdadeira,
ou aceitá-la quando ela é falsa. Esses erros são chamados, respectivamente, de erro tipo I e erro tipo
II. No quadro abaixo é ilustrado as decisões sob a hipótese H0 (FONSECA & MARTINS, 2009):
137
8 TEORIA DA DECISÃO TESTES DE HIPÓTESES
(Decisão correta)
(1) γ : nível de conança; (2) α : nível de signicância; (3) (1 − β): nível de signicância;
Em síntese temos:
2. Erro tipo II (β): ocorre quando não rejeita-se H0 e H0 é falsa. A probabilidade se cometer o erro
uma tarefa difícil, porque, para um amostra de determinado tamanho, a probabilidade de se incorrer
em um erro tipo II aumenta à medida que diminui a probabilidade do erro tipo I, e vice-versa. A
redução simultânea dos erros poderá ser alcançada pelo aumento do tamanho da amostra (FONSECA
H0 (RN RH0 );
5. Tomar a decisão;
6. Conclusão.
uma região crítica baseada no valor calculado da média amostral X. Geralmente, é mais conveniente
padronizar a média amostral e usar uma estatística de teste baseada na distribuição normal padrão.
X̄−µ0
Zcalc = √σ .
n
138
8.6 Testes de hipóteses para média
Exemplo 1: (MORETTIN, 2010)De uma população normal com variância 36, toma-se uma amostra
casual de tamanho 16, obtendo-se X̄ = 43. Ao nível de 10%, testar as hipóteses, H0 : µ = 45 versus
H1 : µ 6= 45.
De acordo com o procedimento apresentado na seção (8.5) segue-se a resolução do exercício:
(i) H0 : µ = 45 versus H1 : µ 6= 45
(ii) α = 10% = 0, 10
X̄−µ 43−45
(iii) Estatística do Teste: Zcalc = √σ = √6
= −1, 333
n 16
0.2
0.1
−3 −2 −1.64 −1 0 1 1.64 2 3
(v) Decisão: Como −1, 64 < Zcalc < 1, 64, não rejeita-se a hipótese H0 .
(vi) Conclusão: Ao nível de signicância de 10% não há evidências para rejeitar a hipótese nula (H0 ),
ou seja, µ = 45.
Rotina do Exemplo 1:
>sigma2<-36
>sigma<-sqrt(sigma2)
>mi<-45
>media<-43
>n<-16
>est<-(media-mi)/(sigma/sqrt(n))
>est
[1] -1.333333
>quantil<-qnorm(0.05, lower.tail=FALSE)
>quantil
[1] 1.644854
#Regra de decisão
139
8 TEORIA DA DECISÃO TESTES DE HIPÓTESES
Exemplo 2 (MORETTIN, 2010): Uma fábrica anuncia que o índice de nicotina dos cigarros da marca
X apresenta-se abaixo de 26 mg por cigarro. Um laboratório realiza 10 análises do índice obtendo: 26,
24, 23, 22, 28, 25, 27, 26, 28, 24. Sabe-se que o índice de nicotina dos cigarros da marca X se distribui
2
normalmente com variância 5,36 mg . Pode-se aceitar a armação do fabricante, ao nível de 5%?
(ii) α = 5% = 0, 05
X̄−µ 25,3−26
(iii) Estatística do Teste: Zcalc = √σ = q
5,36
= −0, 96
n
10
0.2
0.1
−3 −2 −1.64 −1 0 1 2 3
(v) Decisão: Como Zcalc = −0, 96 > −1, 64, não rejeita-se a hipótese H0 .
(vi) Conclusão: Ao nível de signicância de 10% não há evidências para rejeitar a hipótese nula (H0 ),
ou seja, µ = 26. Logo a armação do fabricante é falsa.
Rotina do Exemplo 2:
>dados<-read.table("Exemplo_2.txt", h=T)
>attach(dados)
>dados
>mi<-26
>mi
[1] 26
>media<-mean(dados)
>media
nicotina
25.3
>sigma2<-5.36
>sigma<-sqrt(sigma2)
>n<-10
>est<-(media-mi)/(sigma/sqrt(n))
>est
nicotina
-0.9561271
>quantil<-qnorm(0.05)
>quantil
[1] -1.644854
140
8.6 Testes de hipóteses para média
em sua fabricação e acredita que aumentará a resistência média, que é de 206 kg. A resistência das
lajotas tem distribuição normal com desvio padrão de 12 kg. Retira-se uma amostra de 30 lajotas,
obtendo-se X̄ = 210 kg. Ao nível de 10%, pode o fabricante aceitar que a resistência média de suas
(ii) α = 10% = 0, 10
X̄−µ 210−206
(iii) Estatística do Teste: Zcalc = √σ = √12
= 1, 83
n 30
0.2
0.1
−3 −2 −1 0 1 1.28 2 3
Rotina do Exemplo 3:
> mi<-206
> mi
[1] 206
> media<-210
> sigma<-12
> n<-30
> est<-(media-mi)/(sigma/sqrt(n))
> est
[1] 1.825742
> quantil
[1] 1.281552
8.6.2 Teste de hipótese para média (µ) de uma população Normal com variância
populacional (σ2 ) desconhecida:
Suponha que a população de interesse tenha uma distribuição normal, com média µ e variância σ2
desconhecidas. Desejamos testar as hipóteses H0 : µ = µ0 versus H1 : µ 6= µ0 sendo µ0 uma constante
141
8 TEORIA DA DECISÃO TESTES DE HIPÓTESES
especícada. Note que essa situação é similar àquela da seção (8.6.1), exceto que agora µ e σ2, são
RUNGER, 2003):
tcalc = X̄−µ0
S
√
,
n
Regeita-se H0
H0 versus H1 Teste n < 30 com v =n−1 gl n ≥ 30
µ = µ0 versus µ < µ0 Unilateral à esquerda tcalc < −t(α,v) Z < −Zα
µ = µ0 versus µ > µ0 Unilateral à direita tcalc > t(α,v) Z > Zα
µ = µ0 versus µ 6= µ0 Bilateral tcalc < −t(α/2,v) e t > t(α/2,v) Z < −Zα/2 e Z > Zα/2
Nota Importante: Se amostra for grande e a variância populacional for desconhecida, podemos usar
o procedimento de teste baseado na distribuição normal (teste Z). Entretanto, se amostra for pequena
e a variância populacional for desconhecida, usa-se a distribuição t-Student (teste t ). Neste material
será trabalhado apenas o teste t (para variância desconhecida) em ambos os casos. Isso se deve ao
fato de que o teste Z é uma particularidade do teste t para um número razoável de amostras(n ≥ 30)
e a utilização de t em casos de variância conhecida não é um problema, pelo contrário, cobre o teste
A função de teste de hipótese para uma média no R é realizada por meio do comando t.test() .
Posteriormente veremos que a mesma função servirá para comparação entre duas médias. Veja abaixo
a sintaxe da função:
#sintase
H0 : A amostra provém de uma população normal versus H1 : A amostra não provém de uma população
normal.
142
8.6 Testes de hipóteses para média
5. Decisão:
a) Regra de Decisão por meio da tabela: Rejeitar a H0 ao nível de signicância α se Wcalc <
Wα ;
b) Regra de decisão por meio do p-value: Rejeitar a H0 ao nível de signicância α se p−value <
α.
n
i 5 6 7 8 9 10 11 12
6 0,0000 0,0303
Exemplo 4: (BRUNI, 2008) Um determinado fabricante alega que um componente eletrônico dura,
em média, pelo menos 495 horas. Uma amostra com 12 componentes expôs o seguinte resultado,
que apresenta a duração de cada componente analisado: 475, 460, 511, 457, 468, 441, 484, 450, 476,
503, 447, 500. É possível concordar com o fabricante, assumindo α = 3%? Assume-se população
normalmente distribuída.
Antes de realizar o teste de hipótese para média (teste t), será realizado o teste de Shapiro-Wilk
para vericar se amostra é proveniente de uma população normal. De acordo com o procedimento
2. Ordenar as n observações da amostra: 441, 447, 450, 457, 460, 468, 475, 476, 484, 500, 503, 511;
12 2
P
12 12 xi
(5672)2
(xi − x̄)2 = x2i −
P P i=1
3. Carcular:
n = 2.686.850 − 12 = 5.884, 6667;
i=1 i=1
n/2
P
4. Para calcular b= an−i+1 (xn−i+1 − xi ), montaremos um quadro auxiliar.
i=1
143
8 TEORIA DA DECISÃO TESTES DE HIPÓTESES
b2 (74,6495)2
5. Calcular a estatística do teste: Wcalc = n = 5.884,6667 = 0, 947;
P 2
(xi −x̄)
i=1
Esse teste de normalidade pode ser realizado por meio do comando shapiro.test(). A seguir será
# Sintaxe: shapiro.test()
dados<-read.table("Exemplo_4.txt", h=T)
attach(dados)
# vericando pressuposição de normalidade - teste de Shapiro-Wilk
shapiro.test(dados$tempo)
Shapiro-Wilk normality test
data: dados$tempo
W = 0.947, p-value = 0.594
Sabe-se que a regra de decisão a partir do p-value, consiste em rejeitar H0 ao nível de signicância α,
se p − value < α. Então, ao nível de signicância de 5% (α = 5%) , não rejeita-se H0 pois p-value =
0,594 > 0,05. Portanto, a amostra provém de uma população normal. Dessa forma, pode-se prossegir
com o teste de hipótese para média pois a pressuposição de normalidade foi satisfeita.
2. α = 3% = 0, 03
X̄−µ 462,6667−495
3. Estatística do Teste: tcalc = √s = 23,12941
√
= −3, 35
n 12
144
8.6 Testes de hipóteses para média
0.4
0.3
Probabilidades
0.2
0.1
RNRHo (0,97) RRHo (0,03)
0.0
−5 −3.35 0 2.096 5
5. Decisão: Como tcalc = −3, 35 < t(α=0,03; v=11) = 2, 096, não rejeita-se a hipótese H0 .
6. Conclusão: Ao nível de signicância de 3% não há evidências para rejeitar a hipótese nula (H0 ),
ou seja, µ = 485. Logo a armação do fabricante não é correta.
-3.344873 mean of x
> quantil
[1] 2.096139
Nota: Para interpretar os testes de hipóteses no R temos que comparar o p-value (p-valor) com o
nível de signicância: Se p-value > α, não rejeita-se H0 ; Se p-value < α, rejeita-se H0 .
Portanto, a conclusão a partir do p-valor, para o exemplo 4, seria: Visto que, p-value < 0,03 há
evidências para rejeitar a hipótese nula (H0 ), ou seja, não é possivel concordar com a armação do
fabricante.
Exemplo 5: (MORETTIN, 2010) Uma máquina é projetada para fazer esferas de aço de 1 cm de
raio. Uma amostra de 10 esferas apresentou uma média de 1,004 cm e desvio padrão de 0,003 cm. Há
razões para se suspeitar que a máquina esteja produzindo esferas com raio diferente de 1 cm ao nível
de 10%?
145
8 TEORIA DA DECISÃO TESTES DE HIPÓTESES
(i) H0 : µ = 1 cm versus H1 : µ 6= 1 cm
(ii) α = 10% = 0, 10
X̄−µ0 1,004−1
(iii) Estatística do Teste: tcalc = S
√
= 0,003
√
= 4, 21637
n 10
0.4
0.3
Probabilidades
0.2
0.1
−5 −1.83 0 1.83 5
seja, há razões para se suspeitar que a máquina esteja produzindo esferas com raio diferentes de 1 cm.
Rotina do Exemplo 5:
> mi<-1
> mi
[1] 1
> media<-1.004
> s<-0.003
> n<-10
> v<-n-1
> est<-(media-mi)/(s/sqrt(n))
> est
[1] 4.21637
> quantil
[1] 1.833113
Exemplo 6: (MORETTIN, 2010) Querendo determinar o peso médio de nicotina dos cigarros de sua
25 25
Xi2 =
P P
produção, um fabricante recolheu uma amostra de 25 cigarros, obtendo Xi = 950mg e
i=1 i=1
36106mg 2 . Supondo a distribuição normal para o peso de nicotina, testar se o peso médio de nicotina
(ii) α = 10% = 0, 10
146
8.7 Teste de hipótese para diferença de duas médias (amostras independentes)
X̄−µ 38−40
(iii) Estatística do Teste: tcalc = S
√
= 0.5
√
= −20
n 25
0.4
0.3
Probabilidades
0.2
0.1
−5 −1.317 0 5
Rotina do Exemplo 6:
> mi<-40
> mi
[1] 40
> n<-25
> somax<-950
> somax2<-36106
> media<-somax/n
> media
[1] 38
> s<-sqrt((somax2-((somax)^2)/n)*(1/(n-1)))
> s
[1] 0.5
> est<-(media-mi)/(s/sqrt(n))
> est
[1] -20
> quantil
[1]-1.317836
147
8 TEORIA DA DECISÃO TESTES DE HIPÓTESES
aleatória:
tem uma distribuição normal padrão. Aqui assume-se que n1 e n2 são sucientemente grandes para
aplicarmos o teorema central do limite. É claro, se duas populações são normais, a estatística dada
tem uma distribuição normal padrão, mesmo para n1 e n2 pequenos (WALPOLE et al., 2009).
Suponha que estou interessado em testar a diferença na média (µ1 − µ2 ) como sendo igual a um valor
Exemplo 7: Um supermercado não sabe se deve comprar lâmpadas da marca A ou B de mesmo preço.
Testa-se uma amostra de 100 lâmpadas de cada marca e se quer saber se a marca A é melhor que a B
Marca X̄ σ
A 1160 horas 90 horas
0.2
0.1
−5 0 1.96 5
148
8.7 Teste de hipótese para diferença de duas médias (amostras independentes)
ou seja, não existe diferença signicativa entre o tempo de vida médio das lâmpadas A e B.
Rotina do exemplo 7:
> n1<-100
> n2<-100
> media1<-1160
> media2<-1140
> desvio1<-90
> desvio2<-80
> var1<-desvio1^2
> var2<-desvio2^2
> est<-(media1-media2)/(sqrt((var1/n1)+(var2/n2)))
> est
[1] 1.660910
> quantil
[1] 1.959964
8.7.2 Teste de hipótese para diferença de duas médias de populações Normal com
variâncias populacionais desconhecidas, mas iguais (Populações
Homocedásticas)
As situações mais rotineiras que envolvem testes para duas médias são aquelas nas quais as variân-
cias populacionais são desconhecidas. Se assumirmos que ambas as populações possuem distribuições
normais e que σ12 = σ22 = σ 2 , o teste t combinado (teste t em duas amostras) pode ser utilizado. A
estatística do teste é dada pelo procedimento a seguir (WALPOLE et al., 2009):
q
Sp= (n1 −1)S12 +(n2 −1)S22
.
n1 +n2 −2
8.7.3 Teste de hipótese para diferença de duas médias de populações Normal com
variâncias populacionais desconhecidas, mas desiguais (Populacões
Heterocedásticas)
Uma outra situação possível seria quando as duas populações possuem distribuições normais e que
σ12 6= σ22 . A estatística do teste é dada pelo procedimento a seguir (WALPOLE et al., 2009):
149
8 TEORIA DA DECISÃO TESTES DE HIPÓTESES
2
2
S2
S1
n1
+ n2
2
v= 2
S1
!2
2
S2
!2 .
n1 n2
n1 −1
+ n2 −1
Exemplo 8: (MORETTIN, 2010) O QI de 16 estudantes de uma zona pobre de certa cidade apresenta
a média de 107 pontos com desvio padrão de 10 pontos, enquanto os 14 estudantes de outra região rica
da cidade apresentam média de 112 pontos com desvio padrão de 8 pontos. O QI em ambas as regiões
tem distribuição normal. Há uma diferença signicativa entre os QIs médios dos dois grupos a 5% ?
(i) H0 : µA = µB versus H1 : µA 6= µB
(ii) α = 5% = 0, 05
(iii) Estatística do Teste:
0.2
0.1
−5 −2.048 0 2.048 5
(v) Decisão: Como −2, 048407 < tcalc < 2, 048407 , não rejeita-se a hipótese H0 .
(vi) Conclusão: Ao nível de signicância de 5% não há evidências para rejeitar a hipótese nula (H0 ),
ou seja, não existe diferença signicativa entre os QIs médios dos dois grupos.
Rotina do exemplo 8:
150
8.7 Teste de hipótese para diferença de duas médias (amostras independentes)
# teste para razão de variâncias - Unilateral à esquerda # TH Diferença de médias - Populações Homocedásticas
> sp
> v2<-n2-1
conseguiram média 7,8 e desvio padrão 0,4, ao passo que 15 alunos de outra turma, do mesmo curso,
conseguiram média 7,4 com desvio padrão de 0,8. Considerando distribuições normais para as notas,
vericar se o primeiro grupo é superior ao segundo, ao nível de 5%. Considere populações heteroce-
dásticas.
(i) H0 : µA = µB versus H1 : µA 6= µB
(ii) α = 5% = 0, 05
(iii) Estatística do Teste:
(X̄1 −rX̄2 )−(µ1 −µ2 ) (7,8−7,4)−0
tcalc = 2 2
=q 0,16 0,64
= 1, 69
S1 S +
n1
+ n2 12 15
2
com ν graus de liberdade em que v é:
2
2
S2
S1
+ n2 2
n1 2 ( 0,16
12
+ 0,64
15 )
v= 2
!2
2
!2 = 2 2 = 21, 45
S1
n1
S2
n2
0,16
( 12 ) + ( 0,64
15 )
11 14
n1 −1
+ n2 −1
0.2
0.1
−5 −2.079 0 2.079 5
151
8 TEORIA DA DECISÃO TESTES DE HIPÓTESES
(v) Decisão: Como −2.079614 < tcalc < 2.079614 , não rejeita-se a hipótese H0 .
(vi) Conclusão: Ao nível de signicância de 5% não há evidências para rejeitar a hipótese nula (H0 ),
ou seja, não existe diferença entre os dois grupos.
Rotina do Exemplo 9: Na primeira coluna é apresentada uma rotina para vericar se as populações
são heterocedásticas. Na segunda coluna temos a rotina para o teste de hipótese para diferença entre
duas médias (populações heterocedásticas).
> est
> n1<-12
[1] 0.2977245
[1] 2.079614
independentes, signicando esta independência que cada indivíduo ou unidade experimental de uma
das amostras não está de algum modo associado com qualquer outro indivíduo da outra amostra. Exis-
tem situações em que cada uma das observações de uma das amostras está associada e correlacionada
com uma observação na segunda amostra, de modo que os dados de ambas as amostras aparecem aos
pares, uma observação de cada amostra. É muito usado nos casos em que os dados de um mesmo
indivíduo serão colhidos antes e depois de submetido a um tratamento. Serão colhidas duas amos-
tras, x1 , x2 , ..., xn e y1 , y2 , ..., yn que serão emparelhadas, isto é, a amostra será formada pelos pares
(x1 , y1 ) , (x2 , y2 ) , (xn , yn ). Portanto, fazemos testes de comparação de médias para dados emparelha-
dos (amostras pareadas), obtidas de populações Normais, quando os resultados das duas amostras são
relacionados dois a dois, de acordo com algum critério que fornece uma inuência entre os vários pares
e sobre os valores de cada par. Para cada par denido, o valor da primeira amostra está claramente
Como no caso do teste t combinado (seção 8.7.2), a suposição é de que as observações de cada população
são normais. Esse problema de duas amostras é essencialmente reduzido para um problema de uma
Então, do ponto de vista de cálculo, o teste é aplicado a uma única amostra de valores d , sendo a
152
8.8 Teste de hipótese para diferença de duas médias (amostras dependentes)
D−µd
tcalc = SD ,
√
n
em que D e SD são variáveis aleatórias que representam a média e o desvio padrão amostrais das
As regiões críticas são construídas usando uma distribuição t com v =n−1 graus de liberdade.
Exemplo 10: Eciência de uma dieta (MORETTIN, 2010). Para exemplicar, tomaremos um grupo
de pessoas que zeram determinada dieta por uma semana. Medimos o peso no início e no nal
da dieta. As pessoas estão claramente determinadas. A identidade de cada uma tem inuência nos
valores observados de seu peso, porém essa inuência deve ser aproximadamente igual dentro de cada
par de valores do tipo antes e depois . Ao tomarmos a diferença entre varíos pares de valores e
trabalharmos com elas, a inuência de cada pessoa deverá desaparecer, cando apenas a inuência da
dieta. A partir dos dados abaixo será desenvolvido o teste de hipótese, com o intuito de de vericar se
(1) 2 (2)
Pessoas Peso antes em kg Peso depois em kg di di
1 120 116 4 16
2 104 102 2 4
3 93 90 3 9
4 87 83 4 46
5 85 86 -1 1
6 98 97 1 1
7 102 98 4 16
8 106 108 -2 4
9 88 82 6 6
10 90 85 5 25
P
26 128
di é a diferença de observações correlacionadas, ou seja, di = antes depois; é a diferença de observações correlacionadas ao quadrado.
(1) (2)
di
Solução: De acordo com o procedimento apresentado na seção (8.5) segue-se a resolução do exemplo
10:
D−µd 2,6−0
tcalc = tcalc = SD = 2,59
√
= 3, 17
√
n 10
r h
(26)2
i
4+2+...+5 1
em que D̄ = 10 = 2, 6 kg e SD = 9 (16 + 4 + ...25) − 10 = 2, 59 kg com ν = n−1 = 9
graus de liberdade.
153
8 TEORIA DA DECISÃO TESTES DE HIPÓTESES
0.4
0.3
Probabilidades
0.2
0.1
RNRHo (0,95) RRHo (0,05)
0.0
−5 0 1.83 5
# Sintaxe:
Saboroso. Em outra amostra de 250 pessoas, 90 eram consumidores costumazes. É possível notar
alguma diferença signicativa de proporção de consumidores? Assuma nível de conança igual a 95%.
Rotina do Execício 1:
n1<-150
n2<-250
x1<-65
x2<-90
p1<-x1/n1
q1<-1-p1
p2<-x2/n2
q2<-1-p2
var1<-(p1*q1)/n1
var2<-(p2*q2)/n2
est<-(p1-p2)/(sqrt(var1+var2))
est
quantil<-qnorm(0.025, lower.tail=FALSE)
quantil
Exercício 2: (BRUNI, 2008) Os dados a seguir foram obtidos após uma pesquisa amostral realizada
junto a professores de uma renomada instituição de ensino que alegava possuir nos seus quadros pelo
menos 40% dos professores com doutorado. Assumindo alfa igual a 3%,a armação da instituição
154
8.9 Exercícios propostos
Rotina do Execício 2:
n<-22
x<-14
p0<-0.4
p<-x/n
q<-1-p
var<-(p*q)/n
est<-(p-p0)/(sqrt(var))
est
quantil<-qnorm(0.03, lower.tail=FALSE)
quantil
Exercício 3: (BRUNI, 2008) Uma indústria de ração para frangos alega que a adição de um novo
composto químico consegue elevar em mais de 100g o ganho de peso por parte do ciclo de engorda de
45 dias. Duas amostras de aves foram examinadas, sendo os resultados (pesos das aves em kg) apre-
sentados na tabela seguinte. Para alfa igual a 2%, é possível concordar com o fabricante? Assumem-se
Com composto 1,8 2,3 1,6 2,5 1,9 1,5 2,1 2,2 1,9 1,8
Sem composto 1,2 1,8 1,8 2,1 1,7 1,4 1,8 2,0 1,3 1,5
Rotina do Execício 3:
dados<-read.table("Exercício_3_ração.txt", h=T)
attach(dados)
Exercício 4: (BRUNI, 2008) O produtor de uma nova papinha nutritiva realizou um teste para saber a
ecácia se seu novo produto no aumento de peso das crianças. Quinze bebês foram alimentados, durante
três semanas, com a nova papinha e vericaram-se os seguintes aumentos de peso (em gramas):
Deseja-se testar a hipótese de que o ganho de peso médio seja igual à 300g, contra a hipótese de ganho
de peso ser diferente de 300g, sendo alfa igual a 10%. Suponha população normalmente distribuída.
Rotina do Execício 4:
dados<-read.table("Exer_4_papinha.txt", h=T)
attach(dados)
Exercício 5: (BRUNI, 2008) Uma determinada empresa deseja estudar a eventual ecácia da aplicação
dos programas de treinamento ministrados pela sua área de recursos humanos. Para isto, analisou duas
nhos dos funcionários estão apresentados na tabela seguinte. Verique se existe diferença signicativa
mente distribuídas.
155
8 TEORIA DA DECISÃO TESTES DE HIPÓTESES
Rotina do Execício 5:
dados<-read.table("Exer_5_desempenho.txt", h=T)
attach(dados)
dados<-read.table("Exercício_3_ração.txt", h=T)
attach(dados)
156
9 REGRESSÃO LINEAR SIMPLES
9.1 Introdução
Um dos objetivos da ciência é encontrar, descrever e predizer relações entre eventos que ocorrem
na natureza. Um caminho para que isto aconteça é encontrar modelos que relacionem variáveis que
descrevam a realidade. Pode-se atingir este objetivo por meio de modelos de regressão. A análise de
uma ou mais variáveis, as variáveis explicativas, com o objetivo de estimar e/ou prever a média (da
população) ou o valor médio da dependente em termos dos valores conhecidos ou xos (em amostragem
repetida) das explicativas. Ou seja, quando ajustamos um modelo que estabelece uma relação linear
entre uma variável dependente e uma variável independente, estamos estimando um modelo de regressão
linear simples. Quando existe uma relação linear entre uma variável dependente e duas ou mais variáveis
Primeiramente, vamos entender o signicado de regressão linear simples. Galton (1886), por meio de
um famoso ensaio vericou que, embora houvesse uma tendência de pais altos terem lhos altos e pais
baixos terem lhos baixos, a altura média dos lhos de pais de uma dada altura tendia a se deslocar
ou regredir até a altura média da população como um odo. Daí, o nome de regressão, conhecida
também como a lei de regressão universal de Francis Galton. Pearson & Lee (1903), coletou mais de
mil registros das alturas dos membros de grupos de famílias, neste estudo vericou-se que tanto os
lhos altos como baixos regrediram em direção à altura média de todos os homens. Nas palavras de
O termo linear está relacionado à classicação do modelo. Os modelos de regressão são classicados
como lineares, linearizáveis e não-lineares. Nos modelos não-lineares, não é possível encontrar uma
forma analítica para a estimação dos parâmetros, isto é, as expressões dos estimadores não apresentam
a) modelos lineares: aqueles que são lineares em relação aos parâmetros, ou seja:
∂
∂θi fi (X, θ) = h (X)
Y = β0 + β1 X + ε
em que o erro é aditivo e β0 e β1 são os parâmetros a serem estimados. O cálculo das derivadas parciais,
∂Y ∂Y
∂β0 =1 e
∂β1 =X
157
9 REGRESSÃO LINEAR SIMPLES
mostra que nenhuma delas depende de algum parâmetro do modelo, portanto, o modelo é dito linear.
b) modelos linearizáveis: são modelos que por meio de alguma transformação se tornam lineares.
Seja o modelo:
Y = θx ε
log (Y ) = log θX ε
Fazendo G = log (Y ) ; c = log (θ) ; e = log (ε), a equação pode ser escrita como:
G = cX + e
∂G
∂c = X = h (X)
c) modelos não-lineares: são modelos em que pelo menos uma das derivadas parciais depende de
Y = θ1 + θ2X + ε
∂Y
∂θ1 =1 e
∂Y
∂θ2 = Xθ2x−1
mostra que a segunda delas depende do parâmetro θ2 , indicando que o modelo em questão é não-linear.
O termo simples e múltipla está relacionado ao número de variáveis independentes do modelo de
regressão, isto é, quando existe uma relação linear entre uma variável dependente e uma variável
independente, ajusta-se um modelo de regressão linear simples. Caso exista uma relação linear entre
uma variável dependente e duas ou mais variáveis independentes, ajusta-se um modelo de regressão
linear múltipla.
yi = β 0 + β 1 x i + e i ou y = β0 + β1 x + e. (1)
em que:
β0 e β1 : são os parâmetros do modelo (1), que são o intercepto ou coeciente linear e o coeciente
angular de regressão.
158
9.2 Modelo de regressão linear simples
v) O erro de uma observação é não correlacionado com o erro de outra observação (os erros são
Em síntese, temos que os erros são independentes e identicamente distribuídos (distribuição Normal
σ2 εi ∼ iiN 0, 1σ 2
com média zero e variância ), ou seja, . A quarta pressuposição se faz necessário
entre a reta de regressão e os valores observados sejam minimizadas, ou seja, o erro cometido deve ser
o menor possível.
εi = yi − β0 − β1 x1 . (2)
Mínimos Quadrados. Esse método consiste em minimizar a soma de quadrados do erro ou resíduo do
modelo (1) ao longo de todos os n pares (xi ; yi ). A partir da equação (2) pode-se denir a soma de
n n
ε2i = (yi − β0 − β1 xi )2 .
P P
Q= (3)
i=1 i=1
Para obter os estimadores de mínimos quadrados basta derivarmos a expressão (3) em relação aos
n
∂Q P
= −2 (yi − β0 − β1 xi )
∂β0
i=1 (4)
(sen) n
∂Q P
∂β1 = −2 (yi − β0 − β1 xi ) xi
i=1
Igualando essas derivadas a zero e substituindo β0 e β1 , pelos respectivos estimadores β̂0 e β̂1 tem-se:
n
P
−2 yi − β̂0 − β̂1 xi = 0
i=1
n
P
−2 yi − β̂0 − β̂1 i xi = 0
x
i=1
159
9 REGRESSÃO LINEAR SIMPLES
n
P
yi − β̂0 − β̂1 xi = 0 (A)
i=1
n
P
yi − β̂0 − β̂1 xi xi = 0 (B)
i=1
n n
P P
yi − nβ̂0 − β̂1 xi = 0
i=1 i=1
n n n
xi yi − β̂0 xi − β̂1 x2i = 0
P P P
i=1 i=1 i=1
n
P n
P
n
P n
P yi xi
i=1
yi − nβ̂0 − β̂i xi = 0 ⇐⇒ β̂0 = n − β̂1 i=1n = ȳ − β̂1 x̄.
i=1 i=1
n n n
x2i = 0,
P P P
Substituindo o resultado (5) na segunda equação, xi yi − β̂0 xi − β̂1 e resolvendo em
i=1 i=1 i=1
relação a βˆ1 tem-se:
n n n
x2i = 0
P P P
xi yi − β̂0 xi − β̂1
i=1 i=1 i=1
n P n n
xi yi − ȳ − β̂1 x̄ β̂0 xi − β̂1 x2i = 0
P P
i=1 i=1 i=1
n
P n
P
n yi xi n n
x2i = 0
P P P
xi yi − i=1n − β̂1 i=1n xi − β̂1
i=1 i=1 i=1
n n
n
2
P P P
n xi yi xi n
x2i = 0
P i=1 i=1 i=1
P
x i yi − n + β̂1 n − β̂1
i=1 i=1
n
2 n n
P P P
xi n n xi yi
x2i =
i=1
P P i=1 i=1
−β̂1 n + β̂1 x i yi − n
i=1 i=1
2
n n n
P P P
n xi n xi yi
β̂1 x2i −
P i=1
P i=1 i=1
= x i yi −
n n
i=1 i=1
n
P n
P
n xi yi
P i=1 i=1
xi yi − n
i=1
β̂1 = n
P
!2
n xi
xi − i=1n
P 2
i=1
160
9.2 Modelo de regressão linear simples
! !
n
P n
P
n xi yi n
P i=1 i=1 P
xi yi − n
(xi −x̄)(yi −ȳ)
i=1 i=1 SP xy
β̂1 = n
!2 = n = Sxx .(6)
P 2
n
P
xi (xi −x̄)
i=1 i=1
x2i −
P
n
i=1
SP xy
β̂0 = ȳ − B̂1 x̄ e β̂1 = Sxx
n
P n
P
xi yi
i=1 i=1
em que: x̄ = n é a média da variável independente x; ȳ = n é a média da variável dependente y;
n
n
n
2
P P P
n xi yi n xi
x2i −
P i=1 i=1
P i=1
SP xy = x i yi − n é a soma de produtos entre x e y e Sxx = n . é a soma
i=1 i=1
de quadrados de x
custo. Ao coletar dados sobre volume e custo e usar o método de mínimos quadrados para desenvolver
uma equação de regressão estimada relacionando volume e custo, um contador pode estimar o custo
400 4.000
450 5.000
550 5.400
600 5.900
700 6.400
750 7.000
Com esses dados desenvolva uma equação de regressão estimada que possa ser usada para prever o
à alteração de uma unidade na variável independente. Então pode-se dizer que o incremento de cada
unidade no volume de produção provoca um aumento médio de US$ 7,6 no custo por unidade produzida.
161
9 REGRESSÃO LINEAR SIMPLES
relação entre x e y é média. Assim, no caso acima, não obteremos, para um determinado volume de
produção, necessariamente um valor exato do custo total da produção. Para fazermos previsões acerca
da variável dependente y, não devemos utilizar valores da variável independente X que extrapolem
o intervalo de valores utilizados no modelo de regressão. Os pares de valores (x, y) estão dispersos
em relação a reta estimada. Isso ocorre, entre outras razões, porque existem inúmeras outras variáveis
externas, não consideradas no modelo que inuenciam y. Por exemplo, no caso do exemplo apresentado
a quantidade média do custo de produção pode ser inuenciada pelo volume de produção, gastos com
Assim, não basta apenas calcularmos os coecientes βˆ0 e βˆ1 da reta de regressão pelo método de
Mínimos Quadrados. Precisamos vericar até que ponto tais estimativas são sucientes para explicar
Uma forma de testar a signicância da regressão é por meio da Análise de Variância (ANOVA). A
ANOVA consiste na decomposição da variação total (SQT otal) em componentes devido a regressão
linear (SQRegressão) e ao resíduo (SQErro). Cujo objetivo é vericar se a parte da variação total
regressão é um teste para determinar se existe uma relação linear entre a variável de resposta y e a
H0 : β1 = 0 versus H1 : β1 6= 0
Se H0 for rejeitada, o teste nos dá sucientes evidências estatísticas para concluirmos que o parâmetro
b1 não é igual a zero e que a relação entre y e a variável independente x é signicativa. Entretanto, se H0
não puder ser rejeitada, não teremos evidências sucientes para concluir que uma relação signicativa
Total n - 1 SQTotal
(variável dependente).
A regra de decisão é:
em que,
162
9.2 Modelo de regressão linear simples
n
2
P
n n yi
(ayi )2
(yi − ȳ)2 = yi2 − = Y 0Y −
P P i=1
SQT otal = n n = Syy;
i=1 i=1
n
(SP xy)2
(ŷi − ȳ)2 =
P
SQReg = Sxx ;
i=1
n
(yi − yˆi )2 .
P
SQErro =
i=1
Demonstração:
yi = β0 + β1 x1 + εi
yi = ŷi + εi
(yi − ȳ)2 = (ŷi − ȳ)2 + 2 (ŷi − ȳ) (yi − ŷi ) + (yi − ŷi )2
n n n
(yi − ȳ)2 = (ŷi − ȳ)2 + (yi − ŷi )2
P P P
i=1 i=1 i=1
n
P
porque (ŷi − ȳ) (yi − ŷi ) = 0
i=1
Agora resta demonstrar que
n
P
(ŷi − ȳ) (yi − ŷi ) = 0. (8)
i=1
n
P n
P n
P n
P
(ŷi − ȳ) (yi − ŷi ) = (ŷi − ȳ) εi = ŷi εi − ȳ εi . (9)
i=1 i=1 i=1 i=1
n
P
Vamos analisar primeiramente a seguinte soma ŷi εi :
i=1
n n n n
βˆ0 + β̂1 xi εi = β0 εi + β̂1 xi εi .(10)
P P P P
ŷi εi −
i=1 i=1 i=1 i=1
n
P
yi − β̂0 − β̂1 xi xi = 0.(B)
i=1
n
P
εi xi = 0. (11)
i=1
163
9 REGRESSÃO LINEAR SIMPLES
n
P
yi − β̂0 − β̂1 xi = 0. (A)
i=1
n
P
εi = 0. (12)
i=1
n
P n
P n
P n
P
(ŷi − ȳ) (yi − ŷi ) = (ŷi − ȳ) εi = ŷi εi − ȳ εi .
i=1 i=1 i=1 i=1
n
P n
P n
P n
P
(ŷi − ȳ) (yi − ŷi ) = β̂0 εi = β̂0 εi xi − ȳ εi . (13)
i=1 i=1 i=1 i=1
n
P n
P n
P n
P
(ŷi − ȳ) (yi − ŷi ) = β̂0 εi = β̂0 εi xi − ȳ εi .
i=1 i=1 i=1 i=1
n
P
(ŷi − ȳ) (yi − ŷi ) = 0. (14)
i=1
n n n
(yi − ȳ)2 = (ŷi − ȳ)2 + (yi − ŷi )2
P P P
i=1 i=1 i=1
n
2 n
2
P P
n n yi yi
(ŷi − ȳ)2 = yi2 − = Y 0Y −
P P i=1 i=1
SQT otal = n n = Syy ;
i=1 i=1
n
(SP xy)2
(ŷi − ȳ)2 =
P
SQReg = Sxx ;
i=1
n
(yi − ŷi )2 .
P
SQErro =
i=1
SQReg e SQErro.
O modelo de regressão linear simples estimado foi yˆi = 1.246, 67 + 7, 6x, ou seja, o modelo possui 2
parâmetros. Então, p é igual a 2 (dois). Como a coleta dos dados foi realizada durante 6 momentos
164
9.2 Modelo de regressão linear simples
712.5002
SQReg = 93.750 = 5.415.000
Observação: As somas de quadrados podem ser obtidas no R por meio do comando aov. Maiores
Tabela 2 Análise de Variância do modelo de regressão linear múltipla para o exemplo de Gastos da
Academia.
FV GL SQ QM F
Total 5 5.648.333,333
Como 92, 82857 = F ≥ F 0, 05(1, 4) = 7, 71 então rejeita-se H0 , ou seja, β1 é signicativo (β1 6= 0).
Então, existe uma relação linear signicativa entre a variável de resposta custo total e a variável
165
9 REGRESSÃO LINEAR SIMPLES
(β1 ) . Para realizar o teste é necessário calcular o erro médio quadrático (variância) para se ter uma
noção da estimativa de sv2 . Intuitivamente sabemos que quanto maior é a dispersão entre uma série de
números ou população, maior será a diculdade de se ajustar uma reta aos pontos. A dispersão pode
ser estimada pela dispersão dos dados amostrais em relação á reta de regressão. O estimador do erro
SQErro
S 2 = QM Erro = n−2 . (15)
Conseqüentemente, é possível calcular o erro padrão da estimativa (S). O erro padrão da estimativa
é uma medida que avalia o grau de precisão da reta de regressão. A fórmula pra cálculo do S é a
seguinte:
√ q
SQErro
S= QM Erro = n−2 . (16)
de liberdade para estabelecer uma região crítica e, então, basear nossa decisão no valor da seguinte
estatística:
βˆ1
Estatística do teste - tc = √
S/ Sxx
. (17)
Nota: Pode-se testar também o parâmetro b0 . Mas, o fato de b0 ser signicativo não implica que
de liberdade para estabelecer uma região crítica e, então, basear nossa decisão no valor da seguinte
estatística:
βˆ0
Estatística do teste - tc = s
n
. (18)
x2i /nSxx
P
S/
i=1
angular (β1 ). Sob a suposição de que as observações sejam normal e independentemente distribuí-
das, um intervalo de conança de 100(1 - a)% para a inclinação (β1 ) na regressão linear simples é
√
IC (β1 ) : β̂1 ± t(α/2;n−2) S/ Sxx. (19)
100(1−α)%
Se o intervalo contiver o valor zero pode-se concluir que o parâmetro b1 é não signicativo, ou seja,
Analogamente, um intervalo de conança de 100(1 - a)% para o intercepto (interseção) b0 , pode ser
obtido a partir da expressão (19). Mas, o fato de b0 ser signicativo não implica que existirá uma
166
9.2 Modelo de regressão linear simples
s
n
x2i /Sxx.
P
IC (β0 ) : β̂0 ± t(α/2;n−2) S (20)
100(1−α)% i=1
de S
2 = 58.333, 33, S = 241, 523, Sxx = 93.750, β̂1 = 7, 6 e β̂0 = 1.246, 67 . Primeiramente, será
√
IC (β1 ) : β̂1 ± t(0,025; 4) S/ Sxx
95%
√
IC (β1 ) : 7, 6 ± 2, 776x241, 523/ 93.750
95%
p
IC (β0 ) : 1.246, 67 ± 2, 776x241, 523 2.077.500/6x93.750
95%
167
9 REGRESSÃO LINEAR SIMPLES
Figura 2 Gráco da região critica do teste bilateral da distribuição t com 4 graus de liberdade.
5) Conclusão: Ao nível de 5% de signicância rejeita-se H0 , ou seja, o parâmetro b1 é signicativo
(b1 6= 0). Logo, existe uma relação linear signicativa entre volume de produção e custo total da
produção.
2) α = 5%
3) Estatística do teste: tc = s
n
βˆ0
= √1.246,67
241,523/ 2.077.500/6x93.750
= 2, 6859
x2i /nSxx
P
S/
i=1
sobre a possível relação entre as variáveis. Para ilustrarmos a construção do diagrama de dispersão
trabalharemos com o conjunto de dados do exemplo 1, que refere-se a volume de produção e custos
totais de uma manufatura particular. Quais conclusões prévias se podem tirar da Figura 3? Observa-se
na Figura 1 que maiores valores de custos tendem a se relacionar com maiores volumes de produção.
Além disso, referente a esses dados, a relação entre o volume de produção e o custo total parece
aproximar-se de uma linha reta, de fato, uma relação linear positiva é indicada entre x e y, como pode
Figura 3 Diagrama de dispersão referente ao volume de produção e custo total de uma manufatura
particular.
168
9.4 Coeciente de determinação
Figura 4 Gráco da equação de regressão estimada para os dados de volume de produção e custo
ou seja, indica quanto da variação de y (variação total) que é explicada pelo modelo de regressão
ajustado. Portanto, o coeciente de determinação pode ser utilizado como um avaliador do modelo
SP xy 2
R2 = Sxx Syy , 0 ≤ R2 ≤ 1, (21)
n
2 n
2
P P
n xi n yi
x2i − yi2 −
P i=1
P i=1
em que Sxx = n é a soma de quadrados de x e Sxx = n é a soma de
i=1 i=1
quadrados de y.
n
P
(xi −x̄)(yi −ȳ)
i=1
Cov (x, y) = n−1 , −∞ < Cov (x, y) < ∞.
Um coeciente de correlação é a covariância dividida pelo produto do desvio padrão de cada variável. O
coeciente de correlação mede o grau de associação linear entre duas variáveis, x e y, ou seja, determina-
se o grau de relacionamento ou a covariabilidade entre duas variáveis. Enquanto, que a regressão linear
estabelece uma relação (função ou modelo) para as variáveis envolvidas. Outro aspecto importante é
análise de correlação tal distinção não é necessária. O coeciente de correlação nada mais é do que
uma covariância entre duas variáveis x e y que estão padronizadas, cujo objetivo de tal padronização é
justamente para eliminar qualquer inuência da escala. O estimador do coeciente de correlação linear
169
9 REGRESSÃO LINEAR SIMPLES
n
P
(xi −x̄)(yi −ȳ)
r= n
i=1
n = √ Cov(x,y)
√ = √ SP√
xy
Sxx Syy
, −1 ≤ r ≤ 1(22)
P
(xi −x̄)2 P
(yi −ȳ) 2 V (x) V (y)
i=1 i=1
n
2 n
2
P P
n xi n yi
x2i − yi2 −
P i=1
P i=1
em que é a soma de quadrados de x e é a soma de quadrados de y.
n n
i=1 i=1
Uma breve discussão é apresentada a respeito do coeciente de correlação linear de Pearson:
correlação linear entre x e y. Dessa forma, pode-se dizer que não existem meios lineares acurados
5 (c)). Se r > 0, indica que existe uma relação linear positiva entre x e y, o que signica que há uma
tendência de pequenos valores de x estarem associados a pequenos valores de y e vice-versa, isto é,
existe uma relação linear diretamente proporcional (Figura - 5 (a)). Se r < 0, indica que existe uma
relação linear negativa entre x e y, o que signica que há uma tendência de pequenos valores de x
estarem associados a pequenos valores de y e vice-versa, isto é, existe uma relação linear inversamente
proporcional (Figura 5 (b)). Os diferentes tipos de correlação podem ser visualizados na Figura 5.
170
9.6 Exercícios propostos
√
Estatística do Teste: t= r n−2
√
1−R2
com v = n2 graus de liberdade.
do teste é:
1 1+r
Z = arctgh (r) = 2 ln 1−r . (23)
1 1+ρ
é distribuída de forma aproximadamente normal, com média µz = arctgh (ρ) = 2 ln 1−ρ e variância
−1
σ22 = (n − 3) .
√
ZC = [arctgh (r) − arctgh (ρ0 )] n − 3, (24)
y.
xi 1 2 3 4 5
yi 3 7 5 11 14
b) O que o diagrama de dispersão desenvolvido no item (a) indica a respeito da relação entre as duas
variáveis?
c) Tente aproximar a relação entre x e y traçando uma linha reta entre os dados.
Rotina do Execício 1:
dados<-read.table("Exemplo_1.txt", h=T)
attach(dados)
dados
#Gráco de dispersão
valx<-dados$Xi
valy<-predict(lm(Yi~Xi), col="blue")
model
predict(model)
Exercício 2: (BRUNI, 2008) Um professor resolveu analisar as notas de uma amostra formada por
171
9 REGRESSÃO LINEAR SIMPLES
Teste (x ) 7 5 10 3 8 9 7 5
Demonstração (y ) 10 7 10 5 12 10 10 6
c) Calcule a nota esperada de cada aluno que obteve nota seis no teste.
Rotina do Execício 2:
dados<-read.table("Exercício_2.txt", h=T)
attach(dados)
dados
model<-lm(Demonstração ~ teste)
model
summary(model)
y<-2.72+0.8933*x
x<-6
Exercício 3: (BRUNI, 2008) Uma empresa de telefonia resolveu analisar a relação entre a idade
do seu consumidor e sua conta média mensal. Analisou os dados de uma amostra formada por oito
consumidores, apresentada a seguir. Analise o modelo de ajuste linear entre a idade (x) e a conta (y)
Rotina do Execício 3:
dados<-read.table("Exercício_3.txt", h=T)
attach(dados)
dados
model<-lm(conta ~ idade)
model
summary(model)
aov(model)
Exercício 4: (BRUNI, 2008) Suponha que a Cia. Dos Calhambeques esteja tentando estabelecer uma
previsão de demanda para volumes de automóveis. A empresa vende volantes para veículos zero km e
também para o mercado de reposição. A tabela a seguir apresenta as quantidades vendidas de volantes
Trim. 1 2 3 4 5 6 7 8
Pede-se:
a) Utilizando o método dos mínimos quadrados, desenvolva um modelo simples para a previsão de
172
9.6 Exercícios propostos
Rotina do Execício 4:
dados<-read.table("Exercício_4.txt", h=T)
attach(dados)
dados
zero<-dados$zero
zero
usado<-dados$usado
usado
demanda<-zero+usado
demanda
model<-lm(demanda~dados$trim)
model
summary(model)
aov(model)
predict(model)
Exercício 5: (BRUNI, 2008) Uma empresa deseja vericar se existe alguma associação entre o rendi-
mento dos seus operários e o descanso entre os intervalos de horas trabalhadas. Para tanto, considere
Carros produzidos 20 24 30 32 33
Minutos de descanso 1 2 3 4 5
Rotina do Execício 5:
dados<-read.table("Exercício_5.txt", h=T)
attach(dados)
dados
model<-lm(prod ~ descanso)
model
summary(model)
Exercício 6: (BRUNI, 2008) Com base nos dados a seguir, determine a equação da reta que melhor
Variável dependente 10 12 15 17 21
Variável independente 4 5 7 9 12
Rotina do Execício 6:
173
9 REGRESSÃO LINEAR SIMPLES
dados<-read.table("Exercício_6.txt", h=T)
attach(dados)
dados
valx<-dados$ind
model<-lm(dep ~ indep)
model
summary(model)
Exercício 7: (ANDERSON et al., 2007) Foram coletados os seguintes dados sobre a altura (metros)
b) O que o diagrama de dispersão desenvolvido no item (a) indica a respeito da relação entre as duas
variáveis?
c) Tente aproximar a relação entre a altura e peso traçando uma linha reta entre os dados.
Rotina do Execício 7:
dados<-read.table("Exercício_7.txt", h=T)
attach(dados)
dados
model<-lm(peso ~ altura)
model
valx<-dados$altura
summary(model)
aov(model)
predict(model)
Exercício 8: Suponhamos que um pesquisador tenha coletado o seguinte conjunto de dados sobre os
anos de instrução (X) e o número de lhos (Y) para uma amostra de 10 adultos casados.
X 12 14 17 10 8 9 12 14 18 16
Y 2 1 0 3 5 3 4 2 0 2
174
9.6 Exercícios propostos
a) Faça o diagrama de dispersão dos dados e trace a reta de regressão. Utilize um software.
Rotina do Execício 8:
dados<-read.table("Exercício_8.txt", h=T)
attach(dados)
dados
valx<-dados$X
valy<-predict(lm(Y~X), col="blue")
model<-lm(Y ~ X)
model
summary(model)
aov(model)
y<-7.575-0.41346*x
x<-11
duração da deliberação do júri. Para isso, observou, em uma amostra aleatória de 10 julgamentos no
tribunal, os seguintes dados sobre duração do julgamento (em dias) e duração de deliberação do júri
(em horas).
X (dias) 2 7 4 1 1 3 2 5 2 3
Y (horas) 4 12 6 2 1 7 5 9 4 8
a) Faça o diagrama de dispersão dos dados e trace a reta de regressão. Utilize um software.
c) Prediga a duração da deliberação do júri para um julgamento terminado recentemente, que durou
5 dias.
Rotina do Execício 9:
175
9 REGRESSÃO LINEAR SIMPLES
dados<-read.table("Exercício_9.txt", h=T)
attach(dados)
dados
valx<-dados$X
valy<-predict(lm(Y~X), col="blue")
model<-lm(Y ~ X)
model
summary(model)
aov(model)
predict(model)
Exercício 10: Uma empresa localizada em Uberlândia realizou um estudo para determinar qual a
função que ligava o preço de um determinado produto e a distância do mercado consumidor, obtendo
os seguintes resultados:
Preço (R$) - Yi 36 48 70 50 42 58 91 69
d) Teste o ajuste de regressão linear aos dados por meio do teste t ( a = 5%).
e) Calcule e interprete o coeciente de correlação.
attach(dados)
dados
valx<-dados$Xi
valy<-predict(lm(Yi~Xi), col="blue")
model<-lm(Yi ~ Xi)
model
summary(model)
aov(model)
Exercício 11: A Tabela 1 a seguir nos mostra a distribuição dos pesos e alturas de oito indivíduos.
176
9.6 Exercícios propostos
Peso(kg) - Y 50 53 60 64 70 72 75 78
f ) Teste o ajuste de regressão linear aos dados por meio do teste t ( a = 5%).
h) Estime a média de pesos de todos os indivíduos com uma altura de 182 cm.
dados<-read.table("Exercício_11.txt", h=T)
attach(dados)
dados
valx<-dados$X
valy<-predict(lm(Y~X), col="blue")
model<-lm(Y ~ X)
model
summary(model)
aov(model)
y<22.13764+0.57303*x
x<-182
Exercício 12: Os dados mostrados a seguir representam o desempenho medido em milhas por galão,
MPG, de gasolina dos carros em uma auto estrada e o deslocamento do pistão no motor para uma
amostra de 20 carros.
177
9 REGRESSÃO LINEAR SIMPLES
30 97
19 209
29 173
32 121
30 151
24 156
30 135
28 181
31 114
25 302
27 153
33 90
30 119
23 80
24 159
29 97
26 181
29 173
37 122
29 173
a) Usando mínimos quadrados, ajuste um modelo linear simples relacionando MPG (y) ao deslocamento
do pistão (x).
b) Encontre uma estimativa de desempenho médio para um carro com deslocamento de pistão de 150
in3
Rotina do Execício 12:
dados<-read.table("Exercício_12.txt", h=T)
attach(dados)
dados
model<-lm(MPG ~DP)
model
summary(model)
178
REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística aplicada à administração
e economia. 2 ed. São Paulo: Thomson Learning, 2007.
BOLFARINE, H.; BUSSAB, W.O. Elementos de amostragem. 1 ed. Edgard Blücher, 2005.
BRUNI, L. B. Estatística aplicada à gestão empresarial. 2 ed. São Paulo: Atlas, 2008.
FONSECA, J. S.; MARTINS, G. de A. Curso de Estatística. 6 ed. São Paulo: Atlas, 2009.
LEVIN, J; FOX J. A. Estatística para ciências humanas. 9 ed. São Paulo: Person Prentice Hall,
2004.
MORETTIN, L.G. Estatística básica: probabilidade e inferência. São Paulo: Person Prentice Hall,
2010.
MORETTIN, L. G.; BUSSAB, W. O. Estatística básica. 5 ed. São Paulo: Saraiva, 2003.
SILVA, M. F. Noções de Estatística com ênfase em Análise Exploratória de Dados. 2008
WALPOLE, R. E.; MYERS, R. H.; MYERS, S. L.; YE, K. Probabilidade e estatística para
engenharia e ciências. 8 ed. São Paulo: Pearson Prentice Hall, 2009.
179