Apostila PeE Engenharia
Apostila PeE Engenharia
Apostila PeE Engenharia
Probabilidade e Estatística
Engenharia
1 Introdução _____________________________________________________ 1
1.1 Amostragem ________________________________________________________ 2
1.2 Tipos de variáveis ____________________________________________________ 4
2 Séries estatísticas _______________________________________________ 5
3 Gráficos _______________________________________________________ 6
4 Distribuições de frequências ______________________________________ 12
4.1 Construção de distribuição de frequência para dados contínuos ______________ 12
4.2 Gráficos das distribuições de frequência _________________________________ 13
4.3 Construção de distribuição de frequência para dados discretos ______________ 15
4.4 Construção de uma distribuição de frequência acumulada ___________________ 17
4.5 Distribuições de frequência para dados nominais e por postos _______________ 18
4.6 Gráficos para distribuições de frequência ________________________________ 18
5 Medidas de tendência central _____________________________________ 20
5.1 Média _____________________________________________________________ 20
5.2 Mediana ___________________________________________________________ 23
5.3 Moda _____________________________________________________________ 25
5.4 Relação entre as medidas de tendência central ___________________________ 26
6 Medidas de variabilidade ________________________________________ 28
6.1 Amplitude _________________________________________________________ 28
6.2 Variância __________________________________________________________ 29
6.3 Desvio padrão ______________________________________________________ 29
6.4 Coeficiente de variação ______________________________________________ 30
7 Medidas de assimetria e curtose __________________________________ 32
8 Introdução à probabilidade _______________________________________ 33
8.1 Experimento aleatório _______________________________________________ 33
8.2 Espaço amostral ____________________________________________________ 34
8.3 Eventos ___________________________________________________________ 34
8.4 A probabilidade de um evento _________________________________________ 34
8.5 Cálculo das probabilidades ____________________________________________ 37
9 Distribuições de probabilidade ____________________________________ 43
10 Teoria elementar da amostragem ________________________________ 57
10.1 Amostragem com e sem reposição ____________________________________ 57
10.2 Distribuições amostrais _____________________________________________ 57
11 Estimação ___________________________________________________ 63
12 Testes de hipóteses ___________________________________________ 69
12.1 Teste de hipóteses para médias ______________________________________ 71
12.2 Testes de duas amostras para médias _________________________________ 72
Estuda-se estatística para aplicar seus conceitos como auxílio nas tomadas de decisão
diante de incertezas, justificando cientificamente as decisões.
Os princípios estatísticos são utilizados em uma grande variedade de situações – no
governo, nos negócios e na indústria, bem como no âmbito das ciências sociais, biológicas
e físicas.
Estatística é a ciência ou método científico que estuda os fenômenos multicausais,
coletivos ou de massa e procura inferir as leis que os mesmos obedecem.
Método estatístico é um processo para se obter, apresentar e analisar características ou
valores numéricos para uma melhor tomada de decisão em situações de incerteza. Os
passos da metodologia estatística são os seguintes:
• Definição cuidadosa do problema
• Formulação de um plano para coleta das unidades de observação
• Coleta, resumo e apresentação das unidades de observação ou de seus valores
numéricos
• Análise dos resultados
• Divulgação de relatório com as conclusões, de tal modo que estas sejam facilmente
entendidas por quem as for usar na tomada de decisões.
Com maior frequência utilizamos o estudo da amostra do que da população, não só por
serem menos dispendiosas e consumirem menos tempo no processamento dos dados, mas
também porque muitas vezes não dispomos de todos os elementos da população.
Exemplo:
População Amostra
1.1 Amostragem
O objetivo da amostragem é permitir fazer inferências sobre uma população após inspeção
de apenas parte dela. Fatores como custo, tempo, ensaios destrutivos e populações
infinitas tornam a amostragem preferível a um estudo completo (censo).
Os principais tipos de amostragem utilizados são os probabilísticos, onde todos os
indivíduos da população têm a mesma chance de serem selecionados. Os planos de
amostragem probabilística são delineados de tal modo que se conhece todas as
combinações amostrais possíveis e suas probabilidades, podendo-se então determinar o
erro amostral.
Os métodos mais comuns de amostragem probabilística são:
• Amostragem aleatória simples: os elementos de uma população são escolhidos de
tal forma que todos tenham a mesma chance de serem escolhidos. Pode-se utilizar
uma tabela de números aleatórios ou um programa de geração de números
aleatórios.
• Amostragem estratificada: subdivide-se a população em, no mínimo, dois estratos
(subpopulações) que compartilham a mesma característica e em seguida escolhe-se
uma amostra de cada. Exemplo: homens e mulheres.
• Amostragem sistemática: escolhe-se um ponto de partida e então,
sistematicamente, selecionam-se os outros. Por exemplo: o 3°, 403°, 803°,
1203°,... indivíduos
• Amostragem por conglomerados: divide-se a população em conglomerados (áreas),
em seguida sorteiam-se algumas áreas e analisam-se todos os elementos dos
conglomerados escolhidos. Por exemplo: bairros.
Variáveis
Quantitativas Qualitativas
Discretas Contínuas
Exercícios:
1. Classifique as seguintes variáveis como sendo quantitativas (discretas ou contínuas)
ou qualitativas.
a) Idade dos funcionários de uma empresa ___________
b) Tempo para fazer uma tarefa ___________
c) Nível sócio econômico (classe baixa; c. média; c. alta) ___________
d) Número de alunos aprovados por turma ___________
e) Sexo ___________
f) Gastos com alimentação ___________
g) Religião ___________
h) Classificação em um concurso ___________
i) Conceitos em uma certa disciplina (A, B, C ou D) ___________
j) Valor de um imóvel ___________
k) Número de candidatos para uma vaga de diretor ___________
Séries geográficas
Os dados estão reunidos de acordo com o local, que varia. Os outros dois fatores - fato e
data - permanecem inalterados.
As séries podem ainda apresentar-se sob a forma mista, resultante da combinação dos
fatores.
3 Gráficos
Os gráficos consistem em uma forma de apresentação dos dados, usualmente utilizada
pois facilita a interpretação dos resultados.
São elementos complementares de um gráfico:
• Título geral, época e local
• Escalas e respectivas unidades de medida
• Indicação das convenções adotadas (legenda)
• Fonte de informação dos dados
Colunas
Um gráfico de colunas mostra as alterações
de dados em um período de tempo ou
ilustra comparações entre itens. As
categorias são organizadas na horizontal e
os valores são distribuídos na vertical, para
enfatizar as variações ao longo do tempo.
Barras
Um gráfico de barras ilustra comparações
entre itens individuais. As categorias são
organizadas na vertical e os valores na
horizontal para enfocar valores de
comparação.
Pizza
Um gráfico de pizza mostra o tamanho
proporcional de itens que constituem uma série
de dados para a soma dos itens. Ele sempre
mostra somente uma única série de dados, sendo
útil quando você deseja dar ênfase a um
elemento importante.
Totaliza a informação (100%). Cada faixa do
gráfico é proporcional à informação.
% das árvores
0.25
0.20
Apresenta as classes ao longo do eixo 0.15
horizontal e as frequências (absolutas ou 0.10
0.05
relativas) ao longo do eixo vertical. As 0.00
3a8 8 a 13 13 a 18 18 a 23 23 a 28 28 a 33
fronteiras das “barras” coincidem com os Safras (alq.)
pontos extremos dos intervalos de classe.
Área
Um gráfico de área enfatiza a
dimensão das mudanças ao longo do
tempo. Exibindo a soma dos valores
plotados, o gráfico de área mostra
também o relacionamento das partes
com um todo.
Nesse exemplo, o gráfico de área
enfatiza o aumento das vendas em
Washington e ilustra a contribuição
de cada estado para o total das
vendas.
Superfície
Um gráfico de superfície é útil quando
você deseja localizar combinações
vantajosas entre dois conjuntos de dados.
Como em um mapa topográfico, as cores
e os padrões indicam áreas que estão no
mesmo intervalo de valores.
Esse gráfico mostra as várias combinações
de temperatura e tempo que resultam na
mesma medida de resistência à tração.
Ações
O gráfico de alta-baixa-fechamento é usado muitas vezes para ilustrar preços de ações.
Esse gráfico também pode ser usado com dados científicos para, por exemplo, indicar
mudanças de temperatura. Você deve organizar seus dados na ordem correta para criar
esse e outros gráficos de ações.
Um gráfico de ações que mede o volume tem dois eixos de valores: um para as colunas,
que medem o volume, e outro para os preços das ações. Você pode incluir volume em um
gráfico de alta-baixa-fechamento ou de abertura-alta-baixa-fechamento.
O gráfico nesse exemplo mostra que a Empresa A tem a maioria dos produtos e a maior
fatia do mercado, mas não necessariamente as melhores vendas.
Rosca
Como um gráfico de pizza, o gráfico de
rosca mostra o relacionamento das partes
com o todo, mas pode conter mais de uma
série de dados. Cada anel do gráfico de
rosca representa uma série de dados.
Exemplo:
Os dados a seguir representam o tempo (em minutos) que 45 operadores de máquina
demoraram para fazer o setup de uma máquina.
6,5 4,0 7,1 8,3 5,4 7,6 9,0 15,7 16,7
6,4 5,0 8,5 5,7 7,7 7,2 12,4 7,1 5,5
9,7 4,4 7,0 6,3 8,3 6,9 5,7 7,6 7,9
7,9 6,0 8,2 10,4 9,9 3,9 9,8 8,2 5,6
7,9 6,4 7,4 7,0 13,0 8,7 6,4 6,7 7,4
Total 45 100%
20 18
18
15
Número de operadores
16
14
12
10
8
6 4 4
4 2 2
2 0
0
3 –| 5 5 –| 7 7 –| 9 9 –| 11 11 –| 13 13 –| 15 15 –| 17
Tempo (minutos)
20
18 18
Número de operadores 16
15
14
12
10
8
6
4 4 4
2 2 2
0 0
3 –| 5 5 –| 7 7 –| 9 9 –| 11 11 –| 13 13 –| 15 15 –| 17
Tempo (minutos)
OBS: uma vez que a área do polígono deve ser 100%, deve-se ligar o primeiro e o último
pontos médios com o eixo horizontal, de modo a cercar a área da distribuição observada.
Exercícios:
1. A tabela de dados representa o peso de 30 sacos de arroz da marca A selecionados
aleatoriamente em um supermercado. Construa a distribuição de frequências e
apresente em um gráfico. (para facilitar os dados já estão ordenados)
922 930 936 950 954 954 958 965 968 974
977 979 987 989 1001 1006 1008 1010 1013 1017
1018 1034 1034 1035 1042 1044 1044 1048 1070 1116
8,8 8,3 11,8 11,8 14,7 8,5 7,7 11,4 11,2 10,6
5 4 5 3 4 5 6 0 8 4
4 1 9 5 7 5 5 4 5 8
4 5 3 2 6 7 4 3 1 4
0 0 5 4 2 6 6 2 8 7
Frequência % dos
Classe
dias dias
0 3 0,06
1 3 0,06 12
10
2 4 0,08
Número de dias
8
3 5 0,10
6
4 10 0,20
4
5 10 0,20
2
6 6 0,12
0
7 4 0,08 0 1 2 3 4 5 6 7 8 9
8 3 0,06
9 2 0,04
50 1,00
Não houve perda de informação, ou seja, poderíamos construir a tabela original a partir da
distribuição de frequências.
Frequência % dos
Classe dias dias
25
0-1 6 0,12
20
Número de dias
2-3 9 0,18 15
4-5 20 0,40 10
5
6-7 10 0,20
0
8-9 5 0,10 0-1 2-3 4-5 6-7 8-9
50 1,00
Por outro lado, prefere-se uma distribuição de frequência com perda da informação
quando:
• Estão em jogo inteiros e não inteiros
• Só existem inteiros, porém em número muito alto para permitir uma distribuição
útil.
• A perda da informação é de importância secundária (por exemplo, o
arredondamento do peso de um caminhão ou da renda anual para a unidade mais
próxima)
Frequências
Classe N° dias % dias
acumuladas
0 3 0,06 0,06
1 3 0,06 0,12
2 4 0,08 0,20
3 5 0,10 0,30
4 10 0,20 0,50
5 10 0,20 0,70
6 6 0,12 0,82
7 4 0,08 0,90
8 3 0,06 0,96
9 2 0,04 1,00
50 1,00
Frequências
Classe N° dias % dias
acumuladas
50 1,00
Podemos, pela primeira tabela, concluir que 90% dos dados correspondem a valores
menores ou iguais a 7. ou seja, Em 90% dos dias o número de acidentes não excede 7.
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0.0 0.0
0 1 2 3 4 5 6 7 8 9 0-1 2-3 4-5 6-7 8-9
1,0
0,8
% dos dias
0,6
0,4
0,2
0,0
0 1 2 3 4 5 6 7 8 9
N. acidentes
Vendas Vendas
absolutas relativas
Exercício:
Construa a distribuição de frequência e desenhe o histograma dos dados a seguir. Qual é
o formato da distribuição?
20,7 18,7 26,2 21,7 18,8 20,6 20,7 20,2
18,5 21,3 19,3 18,3 25,1 18,8 24,3 28,4
23,3 25,3 20,4 18,3 24,0 21,2 19,4 20,6
18,9 26,6 22,4 18,9 22,6 21,4 27,0 23,6
28,3 20,3 21,7 18,2 20,3 19,2 24,7 18,4
19,4 17,4 20,5 22,6 22,4 23,5 15,6 24,8
19,5 22,2 17,8 18,6 16,6 16,3 18,0 21,7
18,5 15,8 18,9 19,2 20,3 19,3 19,3 23,9
5.1 Média
5.1.1 Média aritmética
∑x i
∑x
x= i =1
ou simplesmente x =
n n
n
OBS: x lê-se X barra e significa média. ∑x
i =1
i lê-se somatório de x i , i variando de 1 a n.
∑x
i =1
i = x1 + x 2 + ... + x n
Se um estudante faz quatro provas, obtendo as notas 70, 60, 80 e 75, sua média é: 71,25.
A fórmula anterior para calcular a média aritmética supõe que cada observação tenha a
mesma importância. A média ponderada considera que as informações não tem a mesma
importância, ou seja, devem ser levados em conta o peso das informações.
∑w xi =1
i i
Média ponderada = n
∑w
i =1
i
Consideremos que um professor informe a classe de que haverá dois exames parciais,
valendo cada um 30% da nota e um exame final valendo 40%. Um aluno obtém
desempenho 70 na primeira avaliação, 65 na segunda e 80 no exame final.
n
∑wx i i
70 x 0,30 + 65x 0,30 + 80 x 0,40
Média ponderada = i =1
n
= = 72,50
1,00
∑w
i =1
i
A média geométrica é utilizada quando se deseja fazer a média de taxas de juro, por
exemplo. Neste caso, multiplicam-se os n termos e em seguida extraí-se a raiz de ordem
n.
A média geométrica é o resultado da raiz de ordem n do produto de todos os valores da
amostra.
n
Média geométrica = n
∏x i =1
i
n
OBS: ∏x
i =1
i = x1x 2 x 3...x n lê-se produtório de
x i , i variando de 1 a n.
x =
∑ fx i i
Exemplo:
Ponto médio
Classe N° dias (f i ) f i xi
(x i )
n = 50 223
5.2 Mediana
A principal característica da mediana é dividir o conjunto de números em dois grupos
iguais: a metade terá valores inferiores ou iguais à mediana e a metade terá valores
superiores ou iguais à mediana.
Para calcular a mediana inicia-se ordenando os valores em ordem crescente. Em seguida
conta-se até a metade deles. Em geral a mediana ocupa a posição (n+1)/2.
Para número ímpar de valores a mediana é o valor do meio. Para amostras com número
par de unidades, a mediana é a média dos dois valores centrais.
Exemplos:
Amostra Número de elementos Dados ordenados Mediana
2 3 34 25 14 5 9 elementos ímpar 1 2 23 3 4 45 5 3
3 4 23 15 32
6 7 32 52 36 21
LI Q1 Q 2 =mediana Q3 LS
Da mesma forma que para dados apresentados em série, a mediana é o ponto que divide
as informações ao meio.
Exemplo:
No caso dos acidentes, temos 50 observações, logo a mediana deve estar localizada na
posição (50+1)/2 = 25,5, ou seja, a classe que contém a mediana é a classe 4-5.
O limite inferior da classe mediana é 4. Antes da classe mediana (( Σ f) 1 ) haviam “passado”
15 dados. A classe mediana contém 20 observações e a amplitude da classe mediana é 1.
Então
50
− 15
Mediana = 4 + 2 x1 = 4 + 0,5 = 4,5
20
Exemplo:
A moda do conjunto 2 3 4 3 2 3 5 3 1 2 é 3, pois o três é o valor que mais vezes aparece.
Quando não há perda da informação, a moda é idêntica ao valor da classe modal, que é a
classe com maior frequência.
Quando há perda da informação, a moda representa o(s) valor(es) de X
correspondente(m) ao(s) ponto(s) de ordenada(s) máxima(s) da curva e pode ser
calculada pela fórmula:
∆1
Moda = L 1 + c
∆1 + ∆ 2
onde: L 1 =limite inferior da classe modal (isto é, a classe que contém a moda)
∆ 1 =excesso da frequência modal sobre a da classe imediatamente anterior
∆ 2 = excesso da frequência modal sobre a da classe imediatamente posterior
c = amplitude da classe modal
Exemplo:
No caso dos acidentes....
Classe N° dias (f i )
0-1 6 Classe modal
2-3 9
4-5 20
6-7 10
8-9 5
n = 50
11
Moda = 4 + 1 = 4 + 0 ,52 = 4 ,52
11 + 10
Moda
Moda
Mediana Moda
Mediana
Média Mediana
Média
Exercícios: Média
b) 2 6 3 6 3 3 4
c) 2 8 3 10 2 1 6 9 4 3
d) 38 38 70 92 22 17
8 19 7 6 12 17 16 9 20
16 14 3 12 4 9 8 3 16
b) 4 12 4 7 4 9 11 12 5 8 9 4
4. João possui 5 imóveis localizados nesta cidade. Ele deseja saber qual o valor
médio, por metro quadrado, das suas propriedades. Sabendo que imóveis no centro
valem R$ 450,00/m 2 e imóveis em bairros valem R$ 300,00/m 2 , calcule o valor
médio por m 2 do seu capital.
Apartamento de 80 m 2 no centro
Pavilhão de 450 m 2 no bairro
Casa de 280 m 2 no centro
Apartamento de 120 m 2 no bairro
Casa de 320 m 2 no bairro
Pequena variabilidade
Grande variabilidade
Exemplo:
Duas máquinas estão sendo comparadas. A seguir está descrita a produção de cada uma
durante 5 dias.
Produção Média
Máq 1 10 10 10 10 10 10
Máq 2 5 18 8 3 16 10
Você acha que a programação da produção para as duas máquinas pode ser a mesma
durante 1 semana? Por quê?
6.1 Amplitude
Também conhecida como intervalo.
A amplitude de um grupo de dados é, de modo geral, mais simples de calcular e de
entender. Consiste na diferença entre o maior e o menor valor, ou seja, entre os valores
extremos.
b) 5 4 5 4 6 5 16 4
6.2 Variância
Calcula-se a variância de uma amostra elevando-se as diferenças de cada um dos valores
em relação à média, somando-se estas diferenças e dividindo-se por n-1.
s 2
=
∑ (x i − x)2
n −1
x
Exemplo:
Cálculo da variância do conjunto de dados 2,4,6,8, e 10.
xi x xi − x ( xi − x )
2
2 6 -4 16
4 6 -2 4
6 6 0 0 s 2x =
∑ (x i − x)2
=
40
= 10
n −1 5 −1
8 6 2 4
10 6 4 16
Somas 0 40
∑ xi
2
( )
∑x − 2
i
n
sx =
∑ (x i − x) 2
=
n −1 n −1
Exemplo:
Cálculo do desvio padrão do conjunto de dados 20, 5, 10, 15 e 25.
Usando a fórmula normal:
xi − x ( xi − x )
2
xi x
sx =
∑ (x i − x)2
=
250
= 62,5 = 7,91
20 15 5 25 n −1 5 −1
5 15 -10 100
10 15 -5 25
15 15 0 0
25 15 10 100
( )
∑x − ∑ i
2
x
n
2
2
1375 − 75
i
= 5 = 250
sx = = 7,91
n −1 5 −1 5 −1
O coeficiente de variação é dado pelo quociente entre o desvio padrão e a média dos
dados.
Desvio padrão S x
CV = =
Média X
Exercícios:
1. O desvio padrão pode ser zero? Explique. Pode ser negativo? Explique.
8.3 Eventos
Chama-se de evento qualquer subconjunto do espaço amostral S de um experimento
aleatório, ou seja, qualquer resultado do espaço amostral.
n(A) é o número de resultados associados ao evento A.
Exemplo:
Experimento: lançar um dado e observar a face superior
Espaço amostral: S={1,2,3,4,5,6} n(S)=6
Evento A: face par n(A)=3
P(A)= 3/6 = ½ = 0,5 ou 50%
OBS: existe uma pequena diferença entre probabilidade e chance de um evento. A probabilidade
relaciona o número de resultados de A com o número de resultados total, enquanto que chance
compara o número de resultados de A com o número de resultados de outro evento (B ou C).
Em uma urna com 5 bolas brancas, 3 vermelhas e 2 azuis,
A probabilidade de selecionar uma bola branca é P(branca)=5/10=0,5 ou 50%
E a chance de selecionar uma bola branca é 5:5, que é semelhante a 1:1, o que significa que existe a
mesma chance de retirar uma bola branca ou uma bola de outra cor.
Exercícios:
1. Escreva o espaço amostral no lançamento de um dado. Ache a probabilidade
associada a cada evento.
7. Um motor tem 6 velas, e uma está defeituosa, devendo ser substituída. Duas estão
em posição de difícil acesso, o que torna difícil a substituição.
a) Qual a probabilidade de a vela defeituosa estar em posição difícil?
b) Qual a de não estar em posição difícil?
9. Uma pesquisa de tráfego levada a efeito das 5 às 6 horas da manhã num trecho de
uma rodovia federal revelou que, de 200 carros que pararam para uma verificação
rotineira de segurança, 25 tinham pneus em más condições. Estime a probabilidade
de um carro que pare naquele trecho ter seus pneus em boas condições
A B
Quando os eventos são mutuamente excludentes (não tem elementos em comum), então a
probabilidade de ambos é nula e o termo P(A e B) será zero.
OBS: Para apresentar os eventos utilizam-se os Diagramas de Venn [apresentados por John Venn
(1834-1923)], que representam os espaços amostrais e os eventos como círculos, quadrados, ou outra
figura geométrica conveniente.
Exercícios:
1. Numa urna existem 10 bolas numeradas de 1 a 10. Retira-se uma bola ao acaso.
Qual a probabilidade do número ser par ou maior que 4?
2. Numa urna existem 10 bolas numeradas de 1 a 10. Retira-se uma bola ao acaso.
Qual a probabilidade do número ser um número primo ou maior que 8?
A B
Exemplo 1: Deve-se inspecionar uma grande caixa de peças. Os registros indicam que 2%
das caixas acusam conteúdo inferior ao estipulado. Escolhidas duas caixas aleatoriamente,
qual a probabilidade de ambas acusarem conteúdo inferior, admitindo-se que a remessa
inspecionada é semelhante as anteriores (isto é, 2% de deficientes)?
P(ambas deficientes)=P(deficiente)P(deficiente)
=0,02 x 0,02
=0,0004 ou seja, 0,04% de probabilidade das caixas serem defeituosas.
Exemplo 2: Suponha que 20 canetas estão expostas numa papelaria. Seis são vermelhas e
14 azuis. Do conjunto de 20, iremos escolher 2 canetas aleatoriamente. Qual a
probabilidade de que as duas canetas selecionadas sejam vermelhas?
Neste caso os eventos não são independentes, pois a cor da primeira caneta
selecionada vai determinar a probabilidade da segunda caneta ser vermelha.
Seja A=a segunda caneta selecionada é vermelha
B=a primeira caneta selecionada é vermelha
5 6 30
Desejamos P(A e B) = P(A|B) P(B) = = = 0,0789
19 20 380
Exercícios
1. Uma urna contém 6 bolas vermelhas e 4 azuis. Em duas bolas consecutivas, sem
reposição, determine a probabilidade de retirar a primeira azul e a segunda
vermelha.
2. Uma urna contém 6 bolas vermelhas e 4 azuis. Em duas bolas consecutivas, com
reposição, determine a probabilidade de retirar a primeira azul e a segunda
vermelha.
6. Uma urna contém 50 bolas numeradas de 1 a 50. Serão selecionadas 5 bolas, sem
reposição. Qual a probabilidade de que uma pessoa que tenha feito um jogo
anotando os 5 número acerte todos?
CC de viagem e entretenimento
Totais
Sim Não
Sim 60 60 120
CC bancário
Não 15 65 80
Relembrando: uma variável aleatória é uma função com valores numéricos, cujos
valores são determinados por fatores de chance.
Uma variável aleatória é considerada discreta se toma valores que podem ser
contados.
Uma variável aleatória é considerada contínua quando pode tomar qualquer valor
em determinado intervalo.
Exemplo:
Distribuição de probabilidade para a variável aleatória “número de caras em duas jogadas
de uma moeda”.
Número de Número de
Prob. do Prob. do
Resultado caras caras
resultado resultado
Valor da V.A. Valor da V.A
Cara Cara 2 ½ x ½=¼ 0 ¼
Cara Coroa 1 ½ x ½=¼
1 ¼ +¼ =½
Coroa Cara 1 ½ x ½=¼
Coroa Coroa 0 ½ x ½=¼ 2 ¼
Soma = 1 Soma = 1
O valor esperado, ou esperança matemática, de uma variável aleatória é E(x), que consiste
no valor esperado para ela, ou seja, o valor médio da variável.
n
E( x ) = ∑px
i =1
i i se X é v.a. discreta
ou
∞
E( X) = ∫ x. f(x) dx
−∞
se X é v.a. contínua
Exemplo: um investidor julga que tem 0,4 de probabilidade de ganhar $ 25.000 e 0,6 de
perder $ 15.000. Seu ganho esperado é de:
E(X) = 0,4 (25.000) + 0,6 (-15.000) = $ 1.000.
E a variância é Var(X)=E(X 2 )-[E(X)] 2
= E(X 2 ) – 1.000 2
=(0,4.25.000 2 + 0,6.(-15.000) 2 )-1.000 2
=(0,4 x 625.000.000 + 0,6 x 225.000.000)-1.000 2
= 250.000.000+ 135.000.000 –1.000 2
= 385.000.000 –1.000.000
= 384.000.000
Desvio padrão = $ 19.595,92
Exercícios:
1. O número de chamadas telefônicas recebidas por uma mesa e suas respectivas
probabilidades para um intervalo de 3 minutos são:
Em média, quantas chamadas podem ser esperadas num intervalo de três minutos?
N ° bolos/dia 0 1 2 3 4 5 6 7 8 9 Total
Frequência relativa 0,02 0,07 0,09 0,12 0,20 0,20 0,18 0,10 0,01 0,01 1,00
Distribuição de Bernoulli
A distribuição de Bernoulli consiste em uma distribuição adequada à variável aleatória de
Bernoulli, que por sua vez é uma v.a. que assume apenas os valores 0 e 1, com função de
probabilidade tal que:
P(0) = P(X=0) = 1- p
P(1) = P(X=1) = p
Distribuição Binomial
Seja um processo composto de uma sequência de observações independentes, onde o
resultado de cada observação pode ser um sucesso ou uma falha.
Se a probabilidade de sucesso é constante e igual a p, a distribuição do número de
sucessos seguirá o modelo Binomial.
A distribuição Binomial é usada com frequência no controle de qualidade. É o modelo
apropriado quando a amostragem é feita sobre uma população infinita ou muito grande.
Exemplo:
Um processo industrial opera com média de 1% de defeituosos. Baseado em amostras de
100 unidades, calcule as probabilidades de uma amostra apresentar 0 , 1 , 2 , 3 e 4
defeituosos. Plote a distribuição de probabilidade correspondente.
Como a variável aleatória pode apresentar apenas duas possibilidades, ser boa ou
defeituosa, a distribuição que melhor se ajusta é a distribuição binomial, com
parâmetros p=0,01 e n=100.
Então, a probabilidade de uma amostra de tamanho n = 100 apresentar 0
defeituosos é
n 100
P( x ) = p x (1 − p)n − x P(x=0) = P(0) = 0 ,010 (1 − 0 ,01)100 − 0 = 0,366
x 0
100 1
P(x=1) = P(1) = 0,01 (1 − 0,01)100−1 = 0,370
1
100 100 −2
P(x=2) = P(2) = 0,01 (1 − 0,01)
2
= 0,185
2
100
P(x=3) = P(3) = 0,013 (1 − 0,01)100 −3 = 0,061
3
100
P(x=4) = P(4) = 0,014 (1 − 0,01)100 −4 = 0,015
4
0,4
0,3
P(x)
0,2
0,1
0
x=0 x=1 x=2 x=3 x=4
8. Uma pesquisa governamental indicou que 80% das famílias de uma comunidade
que declaram renda superior a R$ 5.000,00 mensais possuem dois veículos.
Tomada uma amostra de 8 famílias desta comunidade, qual a probabilidade de que
mais de uma família possua dois veículos?
Distribuição de Poisson
Exemplo:
Suponha que o número de defeitos no cordão de solda de uma carroceria siga uma
distribuição de Poisson com λ = 2.
Então a probabilidade de uma carroceria apresentar mais de 3 defeitos será:
P(X> 3) = 1 – P(x ≤ 3) = 1-[ P(x=0) + P(x=1) + P(x=2) + P(x=3)]
e − λ λx e −2 20
Onde P( x ) = P(0) = = 0,135
x! 0!
e −2 21
P(x=1) = P(1) = = 0,271
1!
P(x=2) = P(2) = 0,271 P(x=3) = P(3) = 0,180
Logo,
P(X> 3) = 1 – P(x ≤ 3) = 1-[ P(x=0) + P(x=1) + P(x=2) + P(x=3)]
= 1 – [0,135+0,271+0,271+0,180]
= 1 – [0,857]
=0,143 14%
A probabilidade de uma carroceria apresentar mais de três defeitos é 14%.
Exemplo 2:
Se chegam em média 2 carros por minuto em um posto de gasolina, qual a probabilidade
de que cheguem exatamente 5 carros em dois minutos?
Neste caso o tempo é diferente do tempo correspondente ao λ. Então deve-se transformar
o λ para que ele corresponda ao tempo de 2 minutos. Chegam em média 2 carros por
minuto chegam em média 4 carros em 2 minutos
λ =4
e − λ λx e −4 45
P( x ) = P (5) = = 0,1563 = 15,63%
x! 5!
4. Dez por cento das ferramentas produzidas por um certo processo de fabricação
revelaram-se defeituosas. Determinar a probabilidade de, em uma amostra de 10
ferramentas escolhidas ao acaso, exatamente duas serem defeituosas mediante o
emprego da distribuição de Poisson.
σ 2π
95,44%
68,26%
-1σ +1σ
-2σ +2σ
-3σ +3σ
Para simplificar a notação de uma v.a.c. com distribuição normal, com média µ e variância
2
σ utiliza-se:
X~ N( µ, σ 2 )
A distribuição Normal acumulada é obtida calculando a probabilidade de X ser menor que
um dado valor a :
a
P( x ≤ a) = F(a) = ∫ f (x)dx
−∞
Função densidade acumulada
Essa integral não pode ser resolvida em forma fechada, mas a solução está apresentada
em tabelas onde se entra com a variável reduzida ou variável padronizada Z e
encontra-se F(Z) ou vice-versa.
a − µ
P( x ≤ a) = P Z ≤ = F(Z )
σ
O peso de um produto é uma característica muito importante. Sabe-se que o peso segue
um modelo normal com média 1000 gramas e desvio padrão 40 gramas. Se a especificação
técnica estabelece que o peso deve ser maior que 950 gramas, qual a probabilidade de
que um pacote selecionado aleatoriamente satisfaça a especificação?
Tabelado
µ =1000 µ =0
X=950 Z=-1,25
σ =40 σ =1
Se forem feitas 4000 medições, aproximadamente 2305 estarão entre 95 e 112. (4000 x
57,64%)
a) De 40 a 50 b) De 45 a 60 c) De 54 a 62
5. A saída de uma bateria segue o modelo Normal com média 12,15 V e desvio padrão
0,2 V. Encontre o percentual que irá falhar em atender às especificações 12 V ±
0,5 V.
8. Sabe-se que o conteúdo de uma lata de cerveja é 350 ml e que tem distribuição
aproximadamente normal com média 350 ml e desvio padrão 10 ml.
a. Que % de latas tem menos que 345 ml de conteúdo?
b. Que % de latas tem mais que 360 ml de conteúdo?
9. Uma fábrica de pneus fez um teste para medir o desgaste de pneus e verificou que
ele seguia o comportamento de uma curva normal com média 48.000 km e desvio
padrão de 2.000 km. Calcule a probabilidade de um pneu escolhido ao acaso:
a. Dure mais que 47.000 km?
b. Dure entre 45.000 e 51.000 km?
c. Até que quilometragem duram 90% dos pneus?
Sejam:
µ x = média da população = µ
µ x = média da distribuição amostral
σ x = desvio padrão da população = σ
σ x = desvio padrão da distribuição amostral
N = tamanho da população
n = tamanho da amostra
µx = µ σ
População Infinita: e σx =
n
A fórmula do desvio padrão nos diz que a quantidade de dispersão na distribuição amostral
depende de dois fatores:
- a dispersão da população
- o tamanho da amostra (utilizando raiz quadrada)
Por exemplo, em qualquer população, o aumento do tamanho das amostras extraídas
resultará em menor variabilidade entre as possíveis médias amostrais. E se o mesmo
tamanho de amostra é usado com diferentes populações, as populações com maior
quantidade de dispersão σ x tenderão a gerar maior quantidade de variabilidade entre as
médias de amostras extraídas delas.
Exemplos:
Calcule o desvio padrão da distribuição amostral de médias onde o desvio padrão da
distribuição populacional é 2 e o tamanho da amostra é 40.
σx 2
σx = = = 0,3162
n 40
Determine a média das distribuições de médias amostrais, sendo que a média populacional
é 678.
µ x = µ x = 678
Um fabricante de baterias alega que seu artigo de primeira categoria tem uma vida
esperada (média) de 50 meses. Sabe-se que o desvio padrão correspondente é de 4
meses. Que percentagem de amostras de 36 observações acusará vida média no intervalo
de 1 mês em torno de 50 meses, admitindo ser de 50 meses a verdadeira vida média das
baterias?
Sabemos que, como n>30, a distribuição das médias amostrais será
aproximadamente normal com média igual à média populacional e desvio padrão
igual ao desvio padrão populacional dividido pela raiz quadrada do tamanho da
amostra. Além disso vamos pressupor população infinita, pois a produção de baterias
não termina (teoricamente!)
49 50 51
Meses
µ
A solução envolve a determinação do número de desvios padrões que 49 e 51 distam
da média (amostral).
Determinemos primeiro o desvio padrão da distribuição amostral:
σx 4
σx = = = 0,67 para n=36
n 36
Então devemos trabalhar com x ∼ N(50;0,67)
x−x 49 − 50
P(49< x <51) z= = −1,5
σx 0,67
51 − 50
= +1,5
0,67
P(49< x <51)=P(-1,5<z<1,5) = 0,4332+0,4332=0,8664
Então o percentual de amostras que apresentará problemas entre 49 e 51 meses é
de 87%.
Exemplos:
Determine a média da distribuição de proporções amostrais, quando a proporção na
população é 72,3%
p =p=72,3%
Verificou-se que 2% das ferramentas produzidas por uma certa máquina são defeituosas.
Qual a probabilidade de que, em uma remessa de 400 dessas ferramentas, 3% ou mais
revelarem-se defeituosas?
p(1 − p) 0,02 * 0,98
p =p=0,02 eσp = = = 0,007
n 400
Como n>30 pode-se utilizar a distribuição normal, então
0,03 − 0,02
P(p>0,03)=P( z > ) = P(z > 1,43) = 0,07636 = 7,636%
0,007
Exercícios:
1. Determine a média da distribuição das proporções amostrais quando a proporção na
população é ....
a. 30%
b. 99%
c. 54%
Prof. Cíntia Paese Giacomello 61
2. Calcule o desvio padrão da distribuição amostral de médias para cada um dos
seguintes casos:
a. σ x =6, n=6
b. σ x =6, n=20
c. σ x =6, n=40
d. σ x =6, n=100
3. Certas válvulas fabricadas por uma companhia têm vida média de 800 horas e
desvio padrão de 60 horas. Determinar a probabilidade de uma amostra aleatória
de 16 válvulas, retiradas do grupo, ter vida média a) entre 700 e 810 horas;
b)inferior a 785 horas; c) superior a 820 horas; d) entre 770 e 830 horas.
4. Um fabricante faz a remessa de 1000 lotes de 100 lâmpadas elétricas cada um. Se
5% das lâmpadas são normalmente defeituosas, em quantos lotes pode-se esperar
que existam; a) menos de 90 lâmpadas boas; b) 98 ou mais lâmpadas boas
Exemplos:
Parâmetro Tipo de estimativa
populacional Pontual Intervalar
População
Infinita Finita
Estimativa de médias
Pontual x x
Intervalar σ x conhecido σx σx N−n
x±z x±z
n n N −1
σ x desconhecido
x±t
sx sx N−n
x±t
n n N −1
Estimativa das proporções
Pontual x x
p = p =
n n
Intervalar p(1 − p) p(1 − p) N − n
p±z p±z
n n N −1
Onde:
z representa o valor tabelado da distribuição
Normal, com nível de confiança α .
t representa o valor tabelado da distribuição t
de Student, com nível de confiança α e
GL graus de liberdade (o valor da
distribuição t de Student depende do Na HP:
número de graus de liberdade) STAT Conf. interval
N é o tamanho da população
n é o tamanho da amostra
Confiança Z
Fórmula Cálculo E Intervalo
desejada (tabelado)
σx 3
90% 1,65 x±z 24,2 ± 1,65 24,2 ± 0,825 23,375 a 25,025
n 36
σx 3
95% 1,96 x±z 24,2 ± 1,96 24,2 ± 0,980 23,220 a 25,180
n 36
σx 3
99% 2,58 x±z 24,2 ± 2,58 24,2 ± 1,290 23,110 a 25,690
n 36
Tamanho da amostra
Uma das perguntas mais frequentes em estatística é: “Qual o tamanho da amostra que
devemos tomar?”
O tamanho da amostra dependerá do grau de confiança desejado (z), da quantidade de
dispersão entre os valores individuais ( σ x ), e de certa quantidade específica de erro
tolerável (e).
“O tamanho da amostra que você afinal selecionará dependerá de
seu orçamento, da importância econômica das decisões e da
variabilidade na população. Desses três problemas, dois são de
ordem gerencial, cabendo a você a decisão; apenas o terceiro
(variabilidade) está fora do seu controle .”(Brenda Landy, citada no
livro Pesquisa de Marketing – Naresh Malhotra. - 2001)
A fórmula do erro pode ser resolvida em relação a n. Assim, para o caso de estimação de
médias, tem-se:
σx σx σ
2
e=z n=z n = z x
n e e
Que tamanho de amostra será necessário para produzir um intervalo de 90% de confiança
para a verdadeira média da população, com erro de 1,0 em qualquer dos sentidos, se o
desvio padrão da população é 10?
σ
2 2
10
n = z x n = 1,65 = 272,25 tamanho da amostra 273.
e 1
Exercícios:
23 40 30 21 34
20 38 26 23 38
33 32 24 21 24
Exemplo: O estudo de uma amostra de tamanho 55 peças indicou que o diâmetro médio é
de 27,5 mm. Então:
H 0 : o diâmetro médio da população (de peças) é 27,5 mm
H 1 : o diâmetro médio da população (de peças) é diferente de 27,5 mm
Verdadeira Falsa
Os testes de hipótese podem ser unilaterais ou bilaterais. Nos testes unilaterais a hipótese
alternativa H 1 é do tipo µ>33 ou µ <33, por exemplo. Nos testes bilaterais a hipótese
alternativa é do tipo µ≠ 33. A hipótese nula permanece igual nos dois casos. A área de
rejeição é dividida quando o teste é bilateral.
H 1 : µ<33 H 1 : µ≠ 33 H 1 : µ>33
α α/2 α/2 α
Rejeitar H 0 Rejeitar Rejeitar Rejeitar H 0
H0 H0
Exercícios
1. Para cada um dos seguintes casos, trace uma curva normal, indicando a área de
rejeição na figura.
a) H 0 : µ=10, H 1 : µ≠ 10, α =0,02
b) H 0 : µ=120, H 1 : µ≠ 120, α =0,05
c) H 0 : µ=2000, H 1 : µ≠ 2000, α =0,01
d) H 0 : µ=2000, H 1 : µ>2000, α =0,01
e) H 0 : µ=2000, H 1 : µ< 2000, α =0,01
2. Um fornecedor de mancais comprometeu-se a enviar para uma firma lotes que não
contenham mais de 2% de defeituosos. O comprador extrai amostras ao receber a
remessa, para verificar a qualidade. Indique H0 e H1.
n
distribuição normal).
0,847 − 0,850
Z teste = = −0,85
0,010 / 8
Como Z teste = −0,85 > −Z 0,025 = −1,96 H 0 não pode ser rejeitada.
Conclusão: não podemos afirmar que os entalhes sejam diferentes que o especificado, ao
nível de significância de 0,05.
σ x desconhecido
Quando não se conhece o desvio padrão da população, deve-se estimá-lo a partir dos
dados amostrais usando o desvio padrão amostral. Quando isso ocorre (na maioria das
situações reais σ x é desconhecido), a distribuição t é a distribuição amostral adequada.
Suponha que X é uma variável aleatória Normal com média µ e variância σ 2
desconhecidas. Para testar a hipótese de que a média é igual a um valor especificado µo ,
formulamos:
Ho : µ = µ 0
H1 : µ ≠ µ o
Esse problema é idêntico àquele da seção anterior, exceto que agora a variância é
desconhecida.
E a hipótese nula H 0 é rejeitada se |t teste |>t α /2 , onde t α /2, n-1 é um valor limite da
distribuição de Student tal que a probabilidade de se obter valores externos a t α /2 é α .
σ x conhecido
σ x desconhecido
Similarmente, quando , σ a e σ b , não são conhecidos, o teste para verificar a hipótese que
as médias sejam iguais é:
X1 − X 2
t teste =
S 2x1 S x2 2
+
n1 n2
E rejeita-se H 0 se |t teste | > t α /2, n1+n2-2
Exemplo:
Um fabricante afirma que uma remessa de pregos contém menos de 1% de defeituosos.
Uma amostra aleatória de 200 pregos acusa 4 defeituosos. Teste a afirmação ao nível
0,01.
H 0 : p = 1%
H 1 : p > 1% pois desejamos evitar a aceitação de uma remessa com mais de
1% de defeituosos, mas nada há contra aceitar o fato da remessa apresentar
qualidade superior à acordada.
x − p0 4 − 0,01
z teste = n = z teste = 200 = 1,42
p0 (1 − p0 ) / n 0,01(1 − 0,01) / 200
Na tabela da distribuição normal, z 0,01 =2,33
Aceita-se H 0 , e pode-se dizer que a quantidade de pregos defeituosos é 1% ou
menos, ao nível de significância 0,01.
Este teste baseia-se na distribuição qui-quadrado, onde o valor calculado deve ser
comparado com o valor tabelado. A decisão de aceitar ou rejeitar H 0 dependerá da
comparação deste valor com o valor tabelado da distribuição qui-quadrado.
Por exemplo, tem-se a distribuição de peças produzidas por turno e se essas peças são
boas ou apresentam algum tipo de defeito. No turno da manhã foram produzidas 967
peças, onde 183 apresentaram algum tipo de defeito.
Turno de produção
Total
Manhã Tarde Noite
224 x 967
Freq _ esperada = = 137,1
1580
Tem-se valor calculado > valor tabelado então diz-se que as variáveis NÃO são
independentes. OU SEJA, a proporção de peças boas produzidas depende do turno de
trabalho. A proporção de peças boas no turno da manhã é 81%, na tarde 90% e na noite
97%.
Exercícios:
1. Um fornecedor apresenta uma caixa, e afirma que o peso médio desta caixa é de
368 gramas. De experiências anteriores sabe-se que o desvio padrão da população
vale 15 g e que os valores se comportam segundo a distribuição Normal. Para
verificar se a afirmação é verdadeira, verifica-se uma amostra de 25 caixas, pesa-se
e calcula-se o peso médio da amostra, achando 372,5 g. Qual a conclusão a
respeito da afirmação do fornecedor, ao nível de significância 0,01?
2. Uma agência de empregos alega que os candidatos à diretoria por ela colocados
nos últimos seis meses têm salários de R$ 9000, em média. Uma agência
governamental extraiu uma amostra aleatória daquele grupo, encontrando salários
médios de R$ 8000, com desvio padrão de R$ 1000, com base em 50 empregados.
Teste a afirmação da agência, contra a alternativa, de que o salário médio é
inferior a R$ 9000, ao nível de significância 0,05.
7. No caso judicial EUA versus Cidade de Chicago, foram postas em dúvida as práticas
honestas de emprego. Um grupo minoritário (A) e um grupo majoritário (B) fizeram
o exame para capitão do corpo de bombeiros, com os seguintes resultados:
Aprovados Reprovados
Grupo A 10 14
Grupo B 417 145
Com os resultados acima, e com nível de significância de 5%, teste a afirmação de
que o sucesso no teste é independente do grupo.
10. A tabela abaixo apresenta dados relativos ao time vencedor em diferentes esportes.
Com o nível de 0,05 de significância, teste a afirmação de que as vitórias
casa/visitante são independentes do esporte.
Basquete Beisebol Hockey Futebol
O time da casa ganha 127 53 50 57
O time visitante ganha 71 47 43 42
Há situações onde se deseja comparar várias médias, cada uma oriunda de um grupo
diferente. Esses grupos, também chamados tratamentos, poderiam ser 5 máquinas de
corte, ou 4 pressões de operação, ou 4 layouts , 5 planos econômicos do governo, taxas
de câmbio em 3 diferentes países, resultados da implantação de um novo sistema em duas
filiais, etc.
Exemplo:
Para verificar se existe diferença significativa entre os salários médios dos economistas da
Região Sul, o sindicato da classe resolveu analisar os dados de algumas amostras. Assim
foram selecionados aleatoriamente 5 economistas de cada estado.
Exemplo:
Uma classe com 24 crianças foi dividida em três grupos. Cada grupo de crianças aprendeu
a ler de acordo com um método (três métodos diferentes). Após 3 meses as crianças
foram testadas, utilizando uma escala de 1 a 10. Os resultados foram
Método A 5 0 3 5 4 5 8 2
Método B 4 5 4 7 5 10 3 10
Método C 3 5 0 3 3 9 4 9
Tratamento Observações
1 Y11 , Y12 ... Y1n1
2 Y21 , Y22 ... Y2n2
: :
: :
: :
k Yk1 , Yk2 ... Yknk
Nosso objetivo será testar a hipótese referente ao efeito dos tratamentos e estimar esses
efeitos, ou seja, verificar se existe diferença significativa entre os resultados apresentados
por cada grupo.
(Yij − Y.. ) = (Y i. ) (
− Y.. + Yij − Y i . ) (1)
i, j i ij
(2)
Na equação (2), identificamos as seguintes somas quadradas:
SQT = SQG + SQR
onde:
SQT é a soma dos quadrados totais, decomposta em:
SQG soma dos quadrados dos grupos (tratamentos), associada exclusivamente a um
efeito dos grupos;
SQR soma dos quadrados dos resíduos, devida exclusivamente ao erro aleatório, medida
dentro dos grupos.
As divisões das somas de quadrados (SQ) pelos graus de liberdade fornecem as médias
quadradas (MQ), que são as estimativas de variabilidade de cada parcela.
Distribuição F
Valor tabelado
13.1 Formulário para solução
Para o cálculo das Somas Quadradas é recomendado o uso do seguinte formulário:
TC = ( T .. )2 N
SQT = ∑ ( Yij2 ) − TC
SQG = ∑ ( Ti 2. ni ) − TC
SQR = ∑ ( Yij2 ) − ∑ ( Ti .2 ni ) = SQT − SQG
onde
TC é o termo de correção
T.. é a soma de todas as observações
Ti. é a soma das observações no grupo i
Método A 5 0 3 5 4 5 8 2
Método B 4 5 4 7 5 10 3 10
Método C 3 5 0 3 3 9 4 9
TC = 116 2 / 24 = 560,67
SQT = (5 2 + 0 2 + 3 2 + ... + 4 2 + 9 2 ) – 560,67 = 738 – 560,67 = 177,33
322 482 362
SQG = + + − 560,67 = 578,00 - 560,67 = 17,33
8 8 8
SQR = SQT – SQG = 177,33 – 17,33 = 160,00
Total 177,33 23
Utilizando o Excel
Clique em Ferramentas e depois em Análise de Dados. (OBS: Se no seu
computador não aparecer Análise de Dados é porque este suplemento não está
ativado. Vá em Ferramentas, depois Suplementos. Disponibilize Análise de
Dados e Análise de Dados VBA.)
Método A 5 0 3 5 4 5 8 2
Método B 4 5 4 7 5 10 3 10
Método C 3 5 0 3 3 9 4 9
ou
Calculado
ANOVA
Fonte da variação SQ gl MQ F valor-P F crítico
Entre grupos 17,33 2 8,67 1,14 0,340 3,47
Dentro dos grupos 160,00 21 7,62
Total 177,33 23
Distribuição F
0,05
0
2. Duas turmas de pilotos de corrida de automóveis 1,99estão sendo treinadas para uma
grande corrida no domingo. Cada turma faz cinco provas de troca dos quatro pneus
num carro. As turmas são equivalentes ou uma delas é superior, ao nível de
significância 0,05? Complete a tabela da ANOVA e conclua a respeito.
Entre grupos
Dentro de grupos 0,12
Total 0,22
A 20 12 15 19
B 17 14 12 15
C 23 16 18 14
D 15 17 20 12
E 21 14 17 18
4. Uma empresa deseja testar quatro tipos diferentes de pneus: K, L, M e N. Suas
durações, determinadas pelas bandas de rodagem, estão na tabela (em milhares de
quilômetros), onde cada tipo foi testado, aleatoriamente, em seis automóveis
K 33 38 36 40 31 35
L 32 40 42 38 30 34
M 31 31 37 35 33 30
N 29 34 32 30 33 31
5. Um professor deseja testar três métodos diferentes de ensino I, II e III. Para isso são
escolhidos aleatoriamente três grupos de cinco estudantes, e cada grupo é instruído
por um método diferente. É dada a mesma prova a todos os estudantes e os graus
obtidos constam na tabela. Determinar se existe diferença entre os métodos de ensino
ao nível de significância 0,01.
I 75 62 71 58 73
II 81 85 68 92 90
III 73 79 60 75 81
6. A tabela apresenta os dados sobre a ferrugem acumulada sobre o ferro, que foi tratado
quimicamente com os produtos A, B ou C. Determinar se existe diferença significativa
nos tratamentos ao nível de 0,05.
A 3 5 4 4
B 4 2 3 3
C 6 4 5 5
20 mg 46 46 46 45 45 45 46 46
30 mg 48 48 47 47 47 47 47 48
40 mg 49 49 50 50 49 50 50 49
50 mg 52 53 52 52 52 52 53 53
9. Uma empresa deseja estudar três tipos de enxerto para ver se todos apresentam o
mesmo crescimento anual. O que se pode concluir a respeito? (use nível de
significância 0,05)
10. Os dados abaixo dão a vida observada dos pneus de quatro caminhões distribuidores
de sorvete, conforme a posição. Supondo comparáveis os caminhões e os motoristas,
poderemos afirmar que a duração média é independente da posição do pneu no
veículo? (use nível de significância 0,01). Disponha os cálculos numa tabela ANOVA.
Qual a importância da comparabilidade dos motoristas e veículos?
Dianteiro direito 17 19 20 24
Dianteiro esquerdo 25 27 18 22
Traseiro direito 22 21 19 26
Traseiro esquerdo 26 24 30 28
Exemplos:
Notas 2 o Notas
Família Renda Gastos Peso Altura Aluno
grau faculdade
... 58 170 D 60 65
OBS: A análise da regressão apenas indica qual relacionamento matemático pode existir, se
existir algum. Ou seja, nem a regressão, nem a correlação podem mostrar que uma variável
tenda a causar certos valores de outra variável, não garantido que exista relação de causa e
efeito.
“... a correlação entre beber um copo de vinho por dia e a menor chance de infarto do
miocárdio é um bom exemplo. Estudos recentes mostram que ela não se deve ao vinho e
ao álcool, mas sim ao betacaroteno, corante contido na uva. Para infelicidade de
muitos, tomar suco de uva dá o mesmo resultado que beber vinho tinto.” Jornal do
Brasil, 08/01/1999
Uma vez que as estimativas a e b são funções de variáveis aleatórias (x e y são variáveis
aleatórias) é necessário verificar a precisão das estimativas, conhecendo o erro padrão das
estimativas.
SE =
∑y 2
− ( a ∑ y + b∑ xy )
n−2
Para criar intervalos de confiança com base nos estimadores utiliza-se a equação:
yint ervalo = ŷ ± t S E
x y x2 xy
7,0 10,1 49,00 70,70
7,3 10,6 53,29 77,38
7,8 11,3 60,84 88,14
8,6 12,4 73,96 106,64
8,1 11,9 65,61 96,39
8,3 11,9 68,89 98,77
8,2 11,5 67,24 94,30
8,6 12,1 73,96 104,06
9,0 13,1 81,00 117,90
9,6 14,1 92,16 135,36
9,1 14,6 82,81 132,86
Σx = 91,6 Σy = 133,6 Σ x 2 = 768,76 Σ xy = 1122,50
Consum o pessoal
14,0
12,0
10,0
8,0
6,5 7,5 8,5 9,5 10,5
PIB
E o cálculo de a e b fica:
b= 11 (1122,5) - (91,6) (133,6)
11 (768,76) - (91,6) 2
= 1,668 e a=
133,6 - (1,668) 91,6
= −1,744
11
ŷ = −1,744 + 1,668 x , ou Consumo = −1,744 + 1,668 PIB ou seja, para cada unidade
acrescida do PIB, o consumo pessoal aumentará 1,668 unidades.
Valor de t tabelado
ŷ = −1,744 + 1,668( 10 ) = 14,936
yint ervalo = 14,936 ± 1,833 (0,4653)
yint ervalo = 14,936 ± 0,853
Ou seja, quando o PIB estiver em 10,0 o Consumo Pessoal poderá variar na faixa entre
14,083 e 15,789, com 90% de confiança.
-1 0 1
Correlação Inexistência Correlação
negativa de positiva
forte correlação forte
∑ xy − ∑ n ∑
( x )( y )
r=
∑ x − ∑ ∑ y − ∑
( x ) 2
( y) 2
2 2
n n
x y x2 y2 xy
7,0 10,1 49,00 102,01 70,70
7,3 10,6 53,29 112,36 77,38
7,8 11,3 60,84 127,69 88,14
8,6 12,4 73,96 153,76 106,64
8,1 11,9 65,61 141,61 96,39
8,3 11,9 68,89 141,61 98,77
8,2 11,5 67,24 132,25 94,30
8,6 12,1 73,96 146,41 104,06
9,0 13,1 81,00 171,61 117,90
9,6 14,1 92,16 198,81 135,36
9,1 14,6 82,81 213,16 132,86
Σx = 91,6 Σy = 133,6 Σ x 2 = 768,76 Σ y 2 = 1641,28 Σ xy = 1122,50
Utilizando o Excel
Maneira 1: A equação é da forma y = a + b x para os valores dos pares (x,y) e
os coeficientes da reta são calculados utilizando o método dos mínimos
quadrados.Após colocar os valores em duas colunas (valores de x e valores de
y) vá ao “Assistente de Função” e escolha as funções “INCLINAÇÃO” para
determinar o valor de b e “INTERCEPÇÃO” para calcular o valor de a. Os
passos seguintes devem ser feitos seguindo as indicações do programa. Para o
cálculo da correlação utiliza-se no “Assistente de Função” o CORREL. Em
Matriz1 devem ser colocadas as células referentes à variável x em Matriz2 as
células referentes à variável y.
Maneira 2: Selecionar “Ferramentas” e “Análise de dados” e então
“Regressão”. Informar o que for solicitado.
390
y = -1,181x + 1257,173
370 2
Velocidade
R = 0,865
350
330
310
740 750 760 770 780 790 800
Peso
Estatística de regressão R
R múltiplo 0,930
R-Quadrado 0,865
Se
R-quadrado ajustado 0,820
Erro padrão 9,851
Observações 5
gl SQ MQ F F de significação
Testes para a e b
Valores de a e b Se valor-P < 0,05, então a estimativa é
válida, caso contrário é significativamente
nula
X 1 2 3 6 9
Y 4 7 7 9 15
Se os dados forem correlacionados, estimar a reta de regressão:
Ano Investimento
1998 374
1999 555
2000 908
2001 1010
Número
Participação na renda
de anos de
(%)
estudo
1976 4,7 8,4
1990 5,7 16
1993 6,3 19
1996 6,6 21
a) Caso exista associação, quantos anos de estudo serão necessários para que a
participação da mulher na renda familiar chegue a 50% ?
b) E qual será a participação da mulher na renda familiar quando ela tiver 12 anos de
estudo?
c) Você poderia estimar o ano em que a mulher irá participar com 50% da renda?
Temperatura 21,2 20,3 22,7 22,0 22,3 23,5 24,8 24,2 25,5 25,2 25,5 25,8
Produtividade 142 148 131 132 145 138 144 136 141 124 133 128
Temperatura 27,5 26,3 28,2 28,6 29,0 29,7 30,7 30,3 30,2 31,4 32,5 32,7
Produtividade 132 137 124 117 122 131 124 111 119 129 123 116
Número de Vendas
Empresa
funcionários (Milhões US$)
Carrefour 37.004 4.582,4
Pão de Açúcar 39.642 3.976,4
Casas Bahia 11.508 1642,2
Sendas 16.990 1391,7
Ponto Frio 5.395 1223,6
Sonae 22.638 1083,9
Bompreço 13.225 1062,7
L. Americanas 12.485 900,6
McDonalds Não informou 726,7
AgipLiquigás 3.804 693,1
Pernambucanas 10.787 619,1
Fonte: Revista Exame
3.500 R 2 = 0 ,80 1
M ilh õe s US$
3.000
2.500
2.000
1.500
1.000
500
-
- 5.000 10.000 15.000 20.000 25.000 30.000 35.000 40.000
Núm e r o de fun cion ár io s
a = 10 A e b = 10 B
Exemplo
Uma empresa fabricante de brinquedos registrou suas vendas nos últimos 10 anos,
obtendo os valores apresentados a seguir.
4 800 6.000
5 1.200 4.000
6 1.700 2.000
7 2.100 0
8 4.000
0 1 2 3 4 5 6 7 8 9 10 11
9 5.000 An o
10 7.000
x y Y=ln(y) x2 xY Y2
1 450 6,11 1 6,11 37,32
2 500 6,21 4 12,43 38,62
3 600 6,40 9 19,19 40,92
4 800 6,68 16 26,74 44,68
5 1.200 7,09 25 35,45 50,27
6 1.700 7,44 36 44,63 55,33
7 2.100 7,65 49 53,55 58,52
8 4.000 8,29 64 66,35 68,79
9 5.000 8,52 81 76,65 72,54
10 7.000 8,85 100 88,54 78,39
Total: 55 23.350 73,25 385,00 429,64 545,39
Então,
10 ( 429 ,64 ) − ( 55 )( 73 ,25 )
B= = 0,3245
10 ( 385 ) − ( 55 ) 2
73 ,25 − 0 ,325( 55 )
A= = 5 ,5399
10
b = exp( B ) = exp( 0 ,3245 ) = 1,3903 e a = exp( A ) = exp( 5 ,5399 ) = 254,42
Observe como os valores estimados pela equação estão próximos dos valores reais,
observados na série de dados.
8.000
7.000
V endas
6.000
obs ervadas
5.000
4.000
V endas
3.000
estim adas pela
2.000
equaç ão
1.000
0
1 2 3 4 5 6 7 8 9 10
a = 10 A
Exemplo
Os dados a seguir apresentam a produção de veículos automotivos (y) ao longo do tempo
(x). Para estes dados ajuste um modelo de potência
ano 59 60 61 62 63 64 65
produção 96,1 133,0 145,6 191,2 174,2 183,7 185,2
ano 66 67 68 69 70 71 72
produção 224,6 225,4 278,5 349,5 416,0 516,0 609,0
600,0
500,0
400,0
300,0
200,0
100,0
0,0
55 60 65 70 75
An o
Assim,
14( 319 ,335 ) − ( 58 ,522 )( 76 ,292 )
b= = 7,970
14( 244 ,684 ) − ( 58 ,522 ) 2
76 ,292 − 7 ,970( 58 ,522 )
A= = −27 ,868
14
a = exp( A ) = exp( −27 ,868 ) = 7 ,889E − 13
7,970
Ou então, y=7,889E-13 x
600,0
Produção real
500,0
Produção estimada
400,0
pela equação
300,0
200,0
100,0
0,0
59 60 61 62 63 64 65 66 67 68 69 70 71 72
Exercícios
1. Aos dados a seguir ajuste um modelo exponencial e um polinomial. Estime a
quantidade de vendas para o ano de 2003, supondo que o comportamento dos dados
seja mantido. DICA: utilize os números de 1 a 11 para os anos e calcule o valor de y quando x
for 14.
Ano 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Vendas 15 16 17 18 25 28 32 42 55 76 93
2. Se você tivesse uma série de dados como expressa no diagrama de dispersão a seguir,
que modelo de regressão você utilizaria? O que você poderia dizer a respeito dos
valores dos parâmetros?
3. Uma companhia de energia elétrica estimou o consumo médio de energia das famílias
(kwh) de acordo com a renda (R$). Ajuste os seguintes modelos: y=ax b , y=ab x e
y=a+bx.
Renda 197 286 243 218 241 200 215 198 129 157 296 302
Consumo 1234 1432 1678 1300 1467 1245 1214 1200 770 890 2020 2100
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
Acima de 3,1 utilizar valor 0,5
Distribuição t de Student - Tabela t
11 4,84 3,98 3,59 3,36 3,20 3,09 2,95 2,85 2,79 2,70 2,65 2,57 2,53 2,51 2,46
12 4,75 3,89 3,49 3,26 3,11 3,00 2,85 2,75 2,69 2,60 2,54 2,47 2,43 2,40 2,35
13 4,67 3,81 3,41 3,18 3,03 2,92 2,77 2,67 2,60 2,51 2,46 2,38 2,34 2,31 2,26
14 4,60 3,74 3,34 3,11 2,96 2,85 2,70 2,60 2,53 2,44 2,39 2,31 2,27 2,24 2,19
15 4,54 3,68 3,29 3,06 2,90 2,79 2,64 2,54 2,48 2,38 2,33 2,25 2,20 2,18 2,12
16 4,49 3,63 3,24 3,01 2,85 2,74 2,59 2,49 2,42 2,33 2,28 2,19 2,15 2,12 2,07
17 4,45 3,59 3,20 2,96 2,81 2,70 2,55 2,45 2,38 2,29 2,23 2,15 2,10 2,08 2,02
18 4,41 3,55 3,16 2,93 2,77 2,66 2,51 2,41 2,34 2,25 2,19 2,11 2,06 2,04 1,98
19 4,38 3,52 3,13 2,90 2,74 2,63 2,48 2,38 2,31 2,21 2,16 2,07 2,03 2,00 1,94
20 4,35 3,49 3,10 2,87 2,71 2,60 2,45 2,35 2,28 2,18 2,12 2,04 1,99 1,97 1,91
25 4,24 3,39 2,99 2,76 2,60 2,49 2,34 2,24 2,16 2,07 2,01 1,92 1,87 1,84 1,78
30 4,17 3,32 2,92 2,69 2,53 2,42 2,27 2,16 2,09 1,99 1,93 1,84 1,79 1,76 1,70
40 4,08 3,23 2,84 2,61 2,45 2,34 2,18 2,08 2,00 1,90 1,84 1,74 1,69 1,66 1,59
50 4,03 3,18 2,79 2,56 2,40 2,29 2,13 2,03 1,95 1,85 1,78 1,69 1,63 1,60 1,52
60 4,00 3,15 2,76 2,53 2,37 2,25 2,10 1,99 1,92 1,82 1,75 1,65 1,59 1,56 1,48
70 3,98 3,13 2,74 2,50 2,35 2,23 2,07 1,97 1,89 1,79 1,72 1,62 1,57 1,53 1,45
80 3,96 3,11 2,72 2,49 2,33 2,21 2,06 1,95 1,88 1,77 1,70 1,60 1,54 1,51 1,43
90 3,95 3,10 2,71 2,47 2,32 2,20 2,04 1,94 1,86 1,76 1,69 1,59 1,53 1,49 1,41
100 3,94 3,09 2,70 2,46 2,31 2,19 2,03 1,93 1,85 1,75 1,68 1,57 1,52 1,48 1,39
150 3,90 3,06 2,66 2,43 2,27 2,16 2,00 1,89 1,82 1,71 1,64 1,54 1,48 1,44 1,34
200 3,89 3,04 2,65 2,42 2,26 2,14 1,98 1,88 1,80 1,69 1,62 1,52 1,46 1,41 1,32
400 3,86 3,02 2,63 2,39 2,24 2,12 1,96 1,85 1,78 1,67 1,60 1,49 1,42 1,38 1,28
1000 3,85 3,00 2,61 2,38 2,22 2,11 1,95 1,84 1,76 1,65 1,58 1,47 1,41 1,36 1,26
11 9,65 7,21 6,22 5,67 5,32 5,07 4,74 4,54 4,40 4,21 4,10 3,94 3,86 3,81 3,71
12 9,33 6,93 5,95 5,41 5,06 4,82 4,50 4,30 4,16 3,97 3,86 3,70 3,62 3,57 3,47
13 9,07 6,70 5,74 5,21 4,86 4,62 4,30 4,10 3,96 3,78 3,66 3,51 3,43 3,38 3,27
14 8,86 6,51 5,56 5,04 4,69 4,46 4,14 3,94 3,80 3,62 3,51 3,35 3,27 3,22 3,11
15 8,68 6,36 5,42 4,89 4,56 4,32 4,00 3,80 3,67 3,49 3,37 3,21 3,13 3,08 2,98
16 8,53 6,23 5,29 4,77 4,44 4,20 3,89 3,69 3,55 3,37 3,26 3,10 3,02 2,97 2,86
17 8,40 6,11 5,18 4,67 4,34 4,10 3,79 3,59 3,46 3,27 3,16 3,00 2,92 2,87 2,76
18 8,29 6,01 5,09 4,58 4,25 4,01 3,71 3,51 3,37 3,19 3,08 2,92 2,84 2,78 2,68
19 8,18 5,93 5,01 4,50 4,17 3,94 3,63 3,43 3,30 3,12 3,00 2,84 2,76 2,71 2,60
20 8,10 5,85 4,94 4,43 4,10 3,87 3,56 3,37 3,23 3,05 2,94 2,78 2,69 2,64 2,54
25 7,77 5,57 4,68 4,18 3,85 3,63 3,32 3,13 2,99 2,81 2,70 2,54 2,45 2,40 2,29
30 7,56 5,39 4,51 4,02 3,70 3,47 3,17 2,98 2,84 2,66 2,55 2,39 2,30 2,25 2,13
40 7,31 5,18 4,31 3,83 3,51 3,29 2,99 2,80 2,66 2,48 2,37 2,20 2,11 2,06 1,94
50 7,17 5,06 4,20 3,72 3,41 3,19 2,89 2,70 2,56 2,38 2,27 2,10 2,01 1,95 1,82
60 7,08 4,98 4,13 3,65 3,34 3,12 2,82 2,63 2,50 2,31 2,20 2,03 1,94 1,88 1,75
70 7,01 4,92 4,07 3,60 3,29 3,07 2,78 2,59 2,45 2,27 2,15 1,98 1,89 1,83 1,70
80 6,96 4,88 4,04 3,56 3,26 3,04 2,74 2,55 2,42 2,23 2,12 1,94 1,85 1,79 1,65
90 6,93 4,85 4,01 3,53 3,23 3,01 2,72 2,52 2,39 2,21 2,09 1,92 1,82 1,76 1,62
100 6,90 4,82 3,98 3,51 3,21 2,99 2,69 2,50 2,37 2,19 2,07 1,89 1,80 1,74 1,60
150 6,81 4,75 3,91 3,45 3,14 2,92 2,63 2,44 2,31 2,12 2,00 1,83 1,73 1,66 1,52
200 6,76 4,71 3,88 3,41 3,11 2,89 2,60 2,41 2,27 2,09 1,97 1,79 1,69 1,63 1,48
400 6,70 4,66 3,83 3,37 3,06 2,85 2,56 2,37 2,23 2,05 1,92 1,75 1,64 1,58 1,42
1000 6,66 4,63 3,80 3,34 3,04 2,82 2,53 2,34 2,20 2,02 1,90 1,72 1,61 1,54 1,38