Q2 14-2 Aula 02 Um Pouco de Estatistica

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 68

Planejamento e Otimização

de Experimentos

Um Pouco de Estatística

Prof. Dr. Anselmo E de Oliveira


anselmo.quimica.ufg.br
[email protected]
Populações, Amostras e Distribuições
 População
 Amostra
 aleatória
 representativa
 Distribuições
 Normal
 t de Student
 F
 2
 Não paramétricas
Populações, Amostras e Distribuições
 Com quantos grãos se faz uma feijoada?
 depende do tamanho da feijoada

 receita: 1 kg de feijão
 Quantos grãos existem em 1 kg de feijão?
Populações, Amostras e Distribuições
 contar todos os caroços abordagem estatística

 descobrir o peso de um caroço e dividir 1.000 g por


esse valor

caroços/kg

caroços/kg

 os pesos dos caroços não são idênticos


 os pesos dos caroços variam de modo imprevisível
Populações, Amostras e Distribuições
 deve haver limite para as massas dos caroços
0 g < mc < 1 kg
 mc não deve flutuar muito

 População
- conjunto de todos os valores possíveis
- conjunto dos pesos individuais de todos
os caroços do pacote
Populações, Amostras e Distribuições
 Obter uma estimativa a partir de uma amostra
da população

 Amostra
 representativa
 aleatória
Populações, Amostras e Distribuições
 Como deve ser feita a amostragem em um saco
de feijão?

 a chance de um caroço de feijão ser pesado


deve ser exatamente a mesma para todos os
caroços  pesar e colocar novamente no saco

a hipótese da aleatoriedade deve ser obedecida


Histograma
Pesos de 140 caroços
extraídos aleatoriamente
de um pacote de 1 kg de
feijão preto (em gramas)

 flutuação restrita
 maior = 0,3043 g
 menor = 0,1188 g
 maioria  0,20 g
Populações, Amostras e Distribuições
 Ocorrência
 número de caroços em um dado intervalo
 Frequência/Frequência Relativa
 número de caroços em um dado intervalo dividido pelo
número total de caroços.
8,6% dos pesos
medidos estão
entre 0,18 e 0,19 g
Histograma de frequência

• peso x frequência
• facilidade da representação gráfica
• concentração em torno de 0,20 g
• diminuição progressiva quando se
afasta de 0,20 g
• simetria na distribuição.
Populações, Amostras e Distribuições
 Média Amostral  Variância Amostral
𝑁 𝑁
1 1
𝑥= 𝑥𝑖 = 0,2024 𝑔 𝑉 𝑥 = 𝑑𝑖2 = 0,0132 𝑔2
𝑁−1
𝑁 𝑖
𝑖
essa média calculada está em concordância
com o histograma dos pesos

 Desvio  Desvio Padrão Amostral


𝑑𝑖 = 𝑥𝑖 − 𝑥 𝑠𝑥 = 𝑉 𝑥 = 0,0363 g
Populações, Amostras e Distribuições
 Exemplo 𝑥 = 0,2024 g
𝑠𝑥 = 0,0363 g

 Um desvio padrão
66 % da área total
0,2024 ± 0,0363 g
[0,1661 g, 0,2387 g]
do histograma

 Dois desvios padrão


96,8 % da área
0,2024 ± 0,0726 g
total do histograma
[0,1298 g, 0,2750 g]
Populações, Amostras e Distribuições

66% da área

96,8% da área
Populações, Amostras e Distribuições
 Estimativas Amostrais
 𝑥e s
 Parâmetros Populacionais
 e

Modelo Estatístico

Distribuição Normal, ou Gaussiana


Distribuição Normal
Distribuição Normal


Distribuição Normal: sempre?
 Medidas de condutividade realizadas em um poço
d’água em um ano Condutividade (S/cm)
9,43 Bloco Freqüência
49,00 10 1
116,80 33 4
111,80 56 1
Histograma 28,40 79 0
14 120,40 101 0
12 116,80 124 12
10
111,80
Freqüência

28,40
8
120,40
6 116,80
4 111,80
2 28,40
0
120,40
10 33 56 79 101 124 Mais 116,80
Bloco 111,80
28,40
114,20
média 86,77
desv pad 42,91
Distribuição Log-Normal
 A sample of data from a log-normal distribution
914.9 1568.3 50.5 94.1 199.5 23.8 70.5 213.1
44.1 331.7 139.3 115.6 38.4 357.1 725.9 253.2
905.6 155.4 138.1 95.2 75.2 275.0 401.1 653.8
390.8 483.5 62.6 128.5 81.5 218.5 308.2 41.2
60.3 506.9 221.8 112.5 93.7 199.3 210.6 39.2

30

25

20
Freqüência

15 Média = 275.0

10

0
244.8 465.8 686.8 907.8 1128.8 1349.8 1570.8 Mais
Distribuição Log-Normal

10
9
8
7 Média = 2.2267
Freqüência

6
5
4
3
2
1
0
Probabilidade de Ocorrência
 Distribuição normal da variável aleatória
 𝑥 ≈ 𝑁 𝜇, 𝜎 2
 𝑧 ≈ 𝑁 0,1

𝑝 𝑎<𝑥<𝑏 =
𝑝 𝑎≤𝑥≤𝑏 =
𝑏
𝑓 𝑥 𝑑𝑥
𝑎

a b
Probabilidade de Ocorrência
Probabilidade de Ocorrência
Probabilidade de Ocorrência
 Qual a probabilidade de ocorrência de um evento em um
dado intervalo?
 Se uma amostra se distribui normalmente, pode-se utilizar a
Distribuição Normal para fazer inferências
 exemplo da feijoada:

área total do histograma área total para variável aleatória

66,6% 68,3%
96,8% 95,4%
100% 99,7%
boa concordância
Probabilidade de Ocorrência
 Na prática, não é necessário calcular uma integral  faz-se
uma padronização da variável aleatória x, de média  e
variância 2


x  N , 2
 z  N 0,1

x z representa o afastamento de x


z em relação à média populacional,

 , medido em desvios padrão, 


Probabilidade de Ocorrência
 Exemplo
 Padronizar os resultados de uma análise laboratorial calculando,
por exemplo, uma concentração – ou qualquer outra
propriedade que esteja sendo avaliada –, cujo resultado esteja
2,5 desvios padrão acima da média

x x    z z  2,5
z

x    2,5
Probabilidade de Ocorrência
 P(1-q), q = confiança
 P()
  = 0,05 ou 5%
 P(0,05)  q = 0,95 = 95 %
 P(0,05) representa uma confiança de 95 %
 1 em 20
 P < 0,05

  q   incerteza e vice-versa
 P(0,05) representa uma confiança menor (incerteza maior)
que P(0,01)
Probabilidade de Ocorrência
z = 1,96  P(0,025)

fração da área total sob a curva


que está localizada à direita de
z = 1,96

como a curva é simétrica, essa


área é idêntica à esquerda de
z = 1,96

a soma das duas caudas


representa 5% da área total
os 95% restantes estão entre
[1,96; 1,96]
Probabilidade de Ocorrência
 Considere um população com média 0,2024 e desvio
0,0363. Qual a probabilidade de encontrar valores
entre 0,18 e 0,25?

𝑥1 = 0,18
P x1  x  x2  P z1  z  z 2 
𝑥2 = 0,25
z1 z2 P 0,62  z  1,31

𝑥−𝜇 0,18 − 0,2024 0,25 − 0,2024


𝑧= 𝑧1 = 𝑧2 =
𝜎 0,0363 0,0363

z1  0,62 z2  1,31
Probabilidade de Ocorrência
Área Correspondente a P(-0,62 < z < 1,31)

-0,62 1,31
Probabilidade de Ocorrência
A probabilidade de ocorrência do evento será,
então, toda a área da curva (100%) menos a área
hachuriada

1,0  P(0,62 < z < 1,31)

-0,62 1,31
1,0  P 0,62  z  1,31
 1,0  0,2676  0,0951
 0,6373

Conclusão: 63,73% dos


valores devem estar
entre 0,18 e 0,25

standard normal distribution


Amostragem Aleatória
 Desvio Padrão da Média

 Limite de Confiança, 
 Distribuição Normal

 Distribuição t de Student
𝑠
𝜆 = 𝑡𝜈
𝑁
graus de liberdade (df) = 𝑁 − 1
Amostragem Aleatória
 Intervalo de Confiança para a média

 Distribuição Normal

 Distribuição t de Student

𝑠 𝑠
𝑥 − 𝑡𝜈 < 𝜇 < 𝑥 + 𝑡𝜈
𝑁 𝑁
Amostragem Aleatória
 Quando o número de graus de liberdade do desvio
padrão é maior do que 30, utiliza-se a distribuição
Normal.
Amostragem Aleatória
 Tomando como base o peso de um caroço, escolhido
aleatoriamente, mc = 0,1188 g, e usando a distribuição
normal
N=1
𝑥 = 0,1188
p(0,05) ⇒ z = 1,96

supondo  = 0,0363 g (valor amostral, s, 140 caroços)

intervalo de confiança para a média


populacional a partir de uma observação
Amostragem Aleatória
 Intervalo de confiança para a média
populacional a partir da distribuição normal

Com quantos grãos se faz uma feijoada?


N = 140
  s = 0 ,0363
z = 1,96, com 95% de confiança
= 0,2024 g
Logo, com 95% de confiança, nossa feijoada deve
conter entre 4.798 e 5.092 caroços
Amostragem Aleatória
 Usando a distribuição t
𝑠 𝑠
𝑥 − 𝑡𝜈 < 𝜇 < 𝑥 + 𝑡𝜈
𝑁 𝑁

Com quantos grãos se faz uma feijoada?


N = 10
s = 0 ,0423
𝑡𝜈 = ?, com 95% de confiança
= 0,1887 g
Amostragem Aleatória

t9 = 2,262  P(0,025)

como a curva é simétrica:


P(20,025) = P(0,05)
ou
95% de confiança
Amostragem Aleatória
 Usando a distribuição t
𝑠 𝑠
𝑥 − 𝑡𝜈 < 𝜇 < 𝑥 + 𝑡𝜈
𝑁 𝑁

Com quantos grãos se faz uma feijoada?


 N = 10 caroços
 s = 0,0423 g
 t9 = 2,262 (95% de confiança)
 = 0,1887 g
Logo, com 95% de confiança, nossa feijoada deve
conter entre 4.566 e 6.313 caroços
Amostragem Aleatória
 Comparação entre a distribuição normal e a
distribuição t, com 95% de confiança
 Distribuição Normal (N = 140)
0,1964 𝑔 < 𝜇 < 0,2084 g
4.798 < 𝑛𝑐 < 5.052
 Distribuição t de Student, com 9 graus de liberdade
0,1584 𝑔 < 𝜇 < 0,2190 g
4.566 < 𝑛𝑐 < 6.313

obs: o intervalo de confiança varia conforme o inverso de 𝑁


Apresentação dos resultados

𝝁 = 𝒙 ± 𝝀 𝟗𝟓% 𝑠
𝜆 = 𝑡𝜈
𝑁

intervalo de confiança pode ser usado como teste


para avaliação de erro sistemático
Teste com Intervalo de confiança
A escala de absorvância de um espectrofotômetro é testada em um
comprimento de onda particular com uma solução padrão, que
tem uma absorvância de 0,470. 10 medidas da absorvância com
um espectrofotômetro fornecem um valor médio de 0,461, e um
desvio padrão de 0,003. Encontre o intervalo de confiança para a
absorvância média medida pelo espectrofotômetro, e então decida
se há erro sistemático presente.

𝜇 =𝑥±𝜆
𝑠
𝜇 = 𝑥 ± 𝑡𝜈
𝑁
?
Uma cauda
1 - 0,05 = 95%
1 - 0,025 = 97,5%

Intervalo de Confiança

Duas caudas

1 – 2*0,05 = 90%
1 – 2*0,025 = 95%

confiança
Teste com Intervalo de confiança
𝑠 𝑥 = 0,461
𝜇 = 𝑥 ± 𝑡𝜈 𝑠 = 0,003
𝑡9 = 2,262
𝑁 𝑁 = 10

0,003
𝜇 = 0,461 ± 2,262
10
𝜇 = 0,461 ± 0,002
Como o intervalo de confiança não inclui a
absorvância conhecida de 0,470, tudo indica que
há um erro sistemático
Tamanho da Amostra
 Tamanho da Amostra
 Distribuição Normal
𝜎
𝜇±𝑧
𝑁
 Distribuição t de Student precisão L

𝑠
𝑥 ± 𝑡𝜈
𝑁
Tamanho da Amostra

 z 
2
Distribuição Normal
N  
 L 
𝑡𝜈 𝑠 2
𝑁> Distribuição t de Student
𝐿

Uma precisão de 0,1%, significa L = 0,1%


Tamanho da Amostra
Após 20 titulações o desvio padrão obtido foi
0,1509%. Qual o número mínimo de titulações
para estimar a concentração média, dentro de
uma precisão de 0,1%?

𝑡𝜈 𝑠 2
𝑁≥
𝐿
Pontos de probabilidade da distribuição t com  graus de liberdade
Tamanho da Amostra

10 titulações são necessárias para estimar a concentração,


com 95% de confiança
Tamanho da Amostra
 As estimativas também podem ser feitas a partir
de uma série histórica
 Calcule N para
  = 0,5%
 L = 0,2%
 z(95%) = 1,96

2
𝑧𝜎 2 1,96 × 0,5
N≥ ≥ ≥ 24
𝐿 0,2

O INMETRO exige, no mínimo, 07 medidas para um padrão


Testes de Significância
 Comparando com um valor de referência
 Teor de ácido acético no vinagre deve ser de 4%
 Procedimento: titulação com base
 Três titulações resultaram em 3,91; 4,01 e 3,61%

𝑥 =?
𝑠 =?
Testes de Significância
 Média e Desvio padrão (N=3)
𝑥 = 3,843% 𝑠 = 0,2082%
 Intervalo de confiança (distribuição t de Student)
𝑠 𝑠
𝑥 − 𝑡𝜈 < 𝜇 < 𝑥 + 𝑡𝜈
𝑁 𝑁
t = t3-1 = t2 = 4,30 com 95% de confiança, ou p(0,05)

3,843  4,30 0, 2082


3
   3,843  4,30 0, 2082
3

•O intervalo de confiança contém o valor


3,32%    4,36% de referência (4%)
•O lote está dentro da especificação
Testes de Significância
 Mais cinco titulações

𝑥 = 3,818% 𝑠 = 0,1286%
t = t8-1 = t7 = 2,365 com 95% de confiança, ou p(0,05)
•O intervalo de confiança não contém o
3,71%    3,93% valor de referência, 4 %
•O lote está fora da especificação

Logo, existe evidência, com 95% de confiança, que o teor médio de


ácido acético no lote de vinagre é inferior a 4%
Testes de Significância
 Comparando Dois Tratamentos
 Comparando Duas Médias
 Comparações Emparelhadas
 Comparando Duas Variâncias
Testes de Significância
 Comparando Duas Médias
 Hipótese Nula
𝜇𝐴 = 𝜇𝐵 ↔ 𝜇𝐴 − 𝜇𝐵 = 0
 Verificar se o intervalo de confiança contém o zero

 Médias para os métodos A e B, de acordo com a


distribuição t de Student

𝑠𝐴 𝑠𝐵
𝜇𝐴 = 𝑥𝐴 ± 𝑡𝜈𝐴 𝜇𝐵 = 𝑥𝐵 ± 𝑡𝜈𝐵
𝑁𝐴 𝑁𝐵
Testes de Significância
1 1
𝜇𝐴 − 𝜇𝐵 = 𝑥𝐴 − 𝑥𝐵 ± 𝑡𝜈 𝑠 +
𝑁𝐴 𝑁𝐵

s
N A  1s A2  N B  1sB2 nesse caso, admite-se que sA2 e sB2
são estimativas da mesma variância
N A  1  N B  1 populacional

𝜈 = 𝜈𝐴 + 𝜈𝐵 = 𝑁𝐴 − 1 + 𝑁𝐵 − 1 = 𝑁𝐴 + 𝑁𝐵 − 2
Testes de Significância
Dois métodos para a determinação de boro
em plantas apresentam os seguintes
resultados, após 10 determinações de cada
método:
 Espectrofotométrico
média = 28,0 g/g; desvio padrão = 0,3 g/g
 Flurimétrico
média = 26,25 g/g; desvio padrão = 0,23 g/g

Esses dois métodos apresentam médias que


diferem significativamente?
Testes de Significância
2
0,3
s
N E  1sE2  N F  1sF2 0,23 2

N E  1  N F  1

 
 E   F   x E  x F  t s 1

1
NE NF
28,0
26,25 10
 = 2 x (N-1) = 2 x (10-1) = 18
𝑡18 =? P(0.05)
𝑡18 = 2.101 𝑃 0.05
Testes de Significância

Intervalo para as
diferenças das médias,
com 95 % de confiança

Como o intervalo de confiança não inclui o zero, as duas médias


diferem significativamente.
Testes de Significância
 Quando a suposição que os desvios padrão são iguais
não é válida
2
 s A2 s B2 
 N  N 
 
A B
2 2
 s A2   s B2 
 N   N 
 A

B

N A 1 N B 1

e  deve ser arredondado ao número inteiro mais próximo.


Testes de Significância
 Comparações Emparelhadas
 Amostra 1: Técnico A, N ensaios
 Amostra 2: Técnico B, N ensaios
 Hipótese Nula: 1 = 2

Pergunta: Existe diferença sistemática entre os dois técnicos?


(diferença na maneira de se realizar a análise química)
Testes de Significância
𝑠𝑑
𝜇𝐴 − 𝜇𝐵 = 𝑑 ± 𝑡𝜈
• Desvio 𝑁

d i  x Ai  xBi
• Desvio Padrão

1 N 2
sd  
N 1 i
di
Se não existe diferença analítica
entre o técnico A e o técnico B, a
• Média dos Desvios hipótese nula é verdadeira.
N
1
d
N
d
i
i
Testes de Significância
 Teste t pareado
𝑠𝑑
𝜇𝐴 − 𝜇𝐵 = 𝑑 ± 𝑡𝜈
𝑁

0.57
𝜇𝐴 − 𝜇𝐵 = 0.159 ± 2.262
10

= 0.159 ± 0.408
𝑑𝑖 = 1.48; 0.66; 0.24; 0.21; −0.10;
Como o intervalo de confiança
−0.61; −0.10; 0.09; −0.07; −0.21
inclui o zero, as duas médias
𝑑 = 0.159 𝑠𝑑 = 0.57 não diferem significativamente.

𝑡9 =? P(0.05)

𝑡9 = 2.262 𝑃 0.05
Testes de Significância
 Comparando Duas Variâncias
 Método A
 Método B

Pergunta: Existe diferença significativa entre os dois métodos?

(um dos métodos é mais preciso que o outro)


Testes de Significância
 Hipótese Nula: s s
2
A
2
B

 Teste F 𝑠𝐴2
𝐹= 2
𝑠𝐵
Testes de Significância
 Uma ou Duas Caudas?
 Teste com duas caudas
 diferenças entre médias em ambas direções
 diferença entre um valor experimental e um valor
de referência independentemente do sinal da
diferença
 Teste com uma cauda
 um resultado é maior (ou menor) que o outro
Ficamos por aqui

Você também pode gostar