Aula 5-ICs

Fazer download em ppt, pdf ou txt
Fazer download em ppt, pdf ou txt
Você está na página 1de 36

Aula 5.

Intervalos de Confiança

Métodos Estadísticos 2008 Universidade de Averio Profª Gladys Castillo Jordán


Duas Fases da Estatística
 Estatística Descritiva: descrever e estudar uma amostra
 Estatística Indutiva (inferencial): a partir de uma
amostra inferir sobre as características de uma
população

Fonte Diagrama: Projecto ALEA – Noçoes de Estatística


http://alea-estp.ine.pt/Html/nocoes/html/exemplo2_4_1_11.html

2
População vs. Amostra
Podemos inferir (deduzir) determinadas características de uma
população se extraímos uma amostra representativa desta

População: colecção de unidades Amostra: Conjunto de dados ou


observações, recolhidos a partir de
individuais (pessoas ou resultados um subconjunto da população, que
experimentais) com uma ou mais se estuda com o objectivo de tirar
características comuns, que se conclusões para a população de
pretendem estudar. onde foi recolhida

amostragem

Imagens extraídas da referência 2

3
Amostragem
Processo pelo qual se extraem dados de uma população
Existem vários tipos de amostragem: Vamos usar apenas este tipo

 Amostragem Aleatória Simples: cada elemento da amostra é retirado


aleatoriamente de toda a população (com ou sem reposição)
 cada possível amostra tem a mesma probabilidade de ser recolhida
 Amostragem Estratificada: subdividir a população em, pelo menos,
dois subgrupos distintos que partilham alguma característica e, em
seguida, recolher uma amostra de cada um dos subgrupos (estratos)
 Amostragem por clusters: dividir a população em secções (clusters);
seleccionar aleatoriamente alguns desses clusters; escolher todos os
membros dos clusters seleccionados.
4
Inferência Estatística
inferir certas características
n indivíduos (ou objetos) da população
da população
ex: sortear n pixels de uma imagem
(com ou sem reposição)
amostra
n realizações de uma v.a. X
ex: medir a reflectância de um objeto
n vezes


distribuição conhecida/desconhecida a amostra constitui um conjunto de n v.a.
e/ou parâmetros desconhecidos X1, X2, ..., Xn independentes e identicamente
distribuídas com distribuição FX


Amostra Aleatória

acetato adaptado de referencia 3

5
Amostra Aleatória
Note que usamos letras minúsculas
pois estamos a definir concretizações
(observações) de variáveis aleatórias

Note que usamos letras maiúsculas,


pois estamos a definir variáveis
aleatórias e medidas em função dessas
acetato adaptado de referencia 1 variáveis

6
Parâmetro vs. Estatística
 Parâmetro – Medida usada para descrever a distribuição
da população
 a média μ e o desvio padrão σ2 são parâmetros de uma
distribuição Normal - N(μ,σ2)
 a probabilidade de sucesso p é um parâmetro da distribuição
Binomial - B(n,p)

 Estatística – Função de uma amostra aleatória que não


depende de parâmetros desconhecidos
n i 1
n
 Média amostral: X1 Xi

2
i 1 ( X i  X )
n
 Variância amostral: S2  1
n

 Amplitude da amostra: R  X n:n  X 1:n

7
Parâmetro vs. Estatística

Proporção dos
inquiridos de
raça branca
numa população
e numa amostra

p

exemplo extraído da referência 2

8
Estimação de Parâmetros
População Amostra

Distribuição da População Distribuição Amostral


estimar
Parâmetros Estatísticas
(valor fixo) (função da amostra)

pontual (estatísticas)
Estimação
por intervalo (intervalos de confiança)

OBS: estatística: é a v.a. que estima (pontualmente) um parâmetro (populacional)


as vezes é chamada simplesmente de estimador
estimativa: é o valor do estimador obtido para uma amostra específica
acetato adaptado de referencia 3

9
Estimação do nº de Votos

Fonte: Projecto ALEA – Noçoes de Estatística


http://alea-estp.ine.pt/Html/nocoes/html/exemplo2_4_1_11.html

10
Construindo a Amostra

Fonte: Projecto ALEA – Noçoes de Estatística


http://alea-estp.ine.pt/Html/nocoes/html/exemplo2_4_1_11.html

11
Conclusões

Resultado: (60,5%, 66,5%) de lisboetas vão votar no presidente com um


grau de confiança de 95%

12
Intervalo de Confiança
Um intervalo de confiança para um parâmetro ,
a um grau de confiança 1-,
é um intervalo aleatório (Linf, Lsup) tal que:

P(Linf <  < Lsup) = 1- ,   (0,1)

onde  deve ser um valor muito reduzido por forma


a temos confianças elevadas

Valores usuais para o grau de confiança: 95%, 99% e 90%

13
Intervalo de Confiança (IC)
I. IC para a média  com variância conhecida
 Caso 1: população Normal
 Caso 2: população qualquer (n>>30) aproximada pela Normal
II. IC para a média  com variância desconhecida
 Caso 1: população Normal
 Caso 2: população qualquer (n>>30) aproximada pela Normal
III. IC para a diferença de médias de duas populações Normais
 Caso 1: duas amostras independentes, variâncias conhecidas
 Caso 2: duas amostras independentes, variâncias desconhecidas
 Caso 3: amostras emparelhadas, variâncias desconhecidas
IV. IC para uma proporção
14
IC para  com variância conhecida
Caso 1: População Normal
0,14
X ~ N (  , ) 2
 desconhecido, mas 2 conhecido N (0,1)
0,12
2
XX ~~N? (  , ) 0,1
n
centrando e reduzindo: 0,08
1
X  0,06
 
~ ?N (0,1) (Normal Padrão)
 0,04
2 2
n 0,02
Z 0

P(  z  Z  z )  1  
- -z z +
0 5
z /2
0
10 15
z1 - /2
X  quantil de ordem /2 quantil de ordem 1-/2
P(  z   z)  1  

n
 
P( z  X   z )  1
n n IC para a grau de confiança 1-
     
P( X  z  X z )  1 IC(1 ) (  )   X  z1 2 , X  z1 2 
n n  n n 
Linf Lsup
acetato adaptado de referencia 3
15
Determinando o Quantil de Ordem 1-/2
Distribuição Normal Padronizada
Tabela 3.a. Normal Distribution Para nível de significância =0.05
  grau de confiança 95%

2 2 (z) = P(Z < z) = 1 - /2  z = z 1 - /2
quantil de ordem 1-/2

(z) = P(Z < z) = 1- (0.05/ 2) = 0.975


buscar valor de z na tabela:
(z) = 0.9750  z = 1.96

Grau de Valor z
Confiança
90% 1.65
95% 1.96
99% 2.58

90% grau de confiança – existem 10 possibilidades de 100 que o IC não contenha a média populacional
95% grau de confiança – existem 5 possibilidades de 100 que o IC não contenha a média populacional
99% grau de confiança – existe 1 possibilidade de 100 que o IC não contenha a média populacional

16
Interpretação do IC para 
Para uma amostra aleatória de tamanho 50 seguindo uma distribuição
Normal com média  = 10 e variância 2 = 4  X ~ N (10, 4) ,
determinamos o IC para  com 95% de grau confiança:
2 2
P ( X  1, 96    X  1,96 )  95%
50 50
P( X  0,5544    X  0,5544)  95% IC95% (  )   X  0.5544, X  0.5544
=10

Interpretação: 95% dos possíveis ICs


obtidos a partir de uma amostra de
tamanho 50, conterão de facto o
verdadeiro valor da média =10

17
IC para  com variância conhecida
Caso 1: População Normal
Exemplo: Uma v.a. qualquer tem uma distribuição Normal com média  desconhecida
e variância 2 = 16. Retira-se uma amostra de 25 valores e calcula-se a
média amostral. Construa um IC de 95% para  supondo que X  12,7.

   
IC(1 ) (  )   X  z1 2 , X  z1 2 
 n n  z0,9750=1,96

   
IC95% (  )   X  z0.9750 , X  z0.9750 
 n n
95%
 4 4 
 12,7  1,96 ,12,7  1.96 
 25 25 
2,5% 2,5%
 12,7  1,568, 12,7  1,568

IC95% (  )  11.132, 14.268 0


12.7

Java Applet em:


P(11,132    14, 268)  0,95 http://psych.colorado.edu/~mcclella/java/normal/normz.html

18
IC & Grau de Confiança
Como poderia obter intervalos de confiança mais estreitos,
ou seja, com limites mais próximos a média verdadeira?
Diminuindo o grau de confiança

figura extraída da referência 2


Diminuindo o grau de confiança de 99% a 95%, aumentamos o risco de estar
errados: de 1% de risco passamos a 5% de risco, ou seja temos mais
possibilidades (5/100 em vez de 1/100) de que o IC não contenha a média
populacional. Ao aumentar o risco, o intervalo deve ser mais preciso

19
IC & Dimensão da Amostra
Como poderia obter intervalos de confiança mais estreitos,
ou seja, com limites mais próximos a média verdadeira?

Aumentando a dimensão da amostra

Tabela extraída da referência 2

20
IC para  com variância conhecida
Caso 2: População Genérica aproximada pela Normal

Se uma distribuição qualquer tiver média  (desconhecida) e


variância 2 (conhecida) e se forem validas as condições do TLC
(n>>30) podemos obter um IC aproximado para a média 

IC para a grau de confiança 1- 0,14


N (0,1)
0,12

0,1

0,08

    0,06

IC1 (  )   X  z1 2 , X  z1 2  0,04



1

 n n 0,02

0
2 2
0 5 10 15 20

- -z 0 z +
quantil de ordem 1-/2
z1 - /2

21
IC para  com variância conhecida
Resumo
IC para  a grau de confiança 1-
 desconhecido, mas  conhecido
2

1º caso 
IC (  )  X  z1 2
n

cas
o 
IC (  )  X  z1 2
n

quanto maior z X z quanto maior n
 IC menos preciso n  menor o erro padrão
 IC mais preciso

Se aumentarmos o grau de confiança


 a precisão diminui porque aumenta o valor z 
A expressão é chamada
se 90%  z = 1.65 n
se 95%  z = 1.96 erro padrão (standard error)
se 99%  z = 2.58

22
IC para  com variância desconhecida
Se o valor de 2 é desconhecido  substituir por uma
estimativa
Estimadores pontuais para o desvio padrão  :
desvio padrão amostral não-corrigido desvio padrão amostral corrigido
1 n 1 n



 S ( X i  X )2 
  Sc  ( X i  X )2
n i 1 n  1 i 1

Se 2 desconhecida podemos distinguir dois casos:


Caso1. população Normal  usar distr.t de Student
X   S S 
X ~ N ( , 2 )  T  ~ t n 1  IC1 (  )   X  t1 2 , n 1 c , X  t1 2 , n 1 c 
Sc n  n n
Caso2. q.q. distribuição aproximada pela Normal, amostras grandes
 usar distribuição Normal padronizada
X   Sc Sc 
X q.q. com n  30  Z  IC
~a N (0,1)  1 (  )   X  z1 2 , X  z1 2 
Sc n  n n

23
IC para  com variância desconhecida
Caso 1: População Normal
Exemplo:
Uma v.a. qualquer tem uma distribuição Normal com média  e variância 2
desconhecidas. Retira-se uma amostra de 25 valores e calcula-se a média amostral e
variância amostral . Construa um IC de 95% para  supondo que X  12,7 e S2 = 16
Distribuição t de Student com
 S 0,14
S  24 graus de liberdade
IC(1 ) (  )   X  t1 2 , n 1 , X  t0,12  t24
1 2, n 1
 n n 
0,1

 S S 
IC95% (  )   X  t0.9750 , 24 , X  t00,08
.9750 , 24 
 n 0,06 n 95%
 4 0,04 4  2,5% 2,5%
 12,7  2,06 , 12,7  2,06 
 25 0,02 25 
 12,7  1,648, 12,7  1,6480
- -t t +
0 5
0
10 15

IC95% (  )  11 .052, 13.648 ? 24 = 2,06


t0,9750,

24
Determinando t1-/2, n-1 - quantil de ordem 1-/2 de
uma distribuição t-Student com n-1 graus de liberdade
Tabela 8. Student s t-Distribution Por definição de quantil de ordem 1-/2:
z = z 1 - /2  F(z) = P(Z < z) =1 - /2
Para grau de confiança 95%  nível de significância =0.05
F(z) = P(Z < z) = 1- (0.05/ 2) = 0.975  F(z) = 0.9750
Para n=25  24 graus de liberdade
Determinar t0.9750, 24 usando Tabela 8:
t0.9750, 24 = 2.06

25
IC para  com variância desconhecida
Caso 1: População Normal
exercício 5, capítulo 4

Uma amostra aleatória de 20 cigarros foi analisada para estimar a quantidade de


nicotina por cigarro, observando-se a média de 1,2 mg e variância amostral corrigida
de 0.4. Pressupondo que as observações têm distribuição Normal, determine um IC
para o valor médio da quantidade de nicotina por cigarro, grau de confiança de 99%
Usando esta amostra determinamos um IC aproximado para  a 99%:
Para grau de confiança 99%:
 S S  (1-) x 100% = 99%  (1-) =0.99  =0.01
IC(1 ) (  )   X  t1 2,n 1 c , X  t1 2,n 1 c  Por definição de quantil de ordem 1-/2:
 n n F(z) = P(Z < z) = 1- (0.01/ 2) = 0,995  F(z) = 0.995
Para n=20  19 graus de liberdade
 S S 
IC99% (  )   X  t0,995,19 C , X  t0,995,19 C 
 n n
Determinar t0.995, 19 usando Tabela 8
t0.995, 19 = 2.86

 0,04 0,04 
IC99% (  )  1,2  2,86 , 1,2  2,86 
 20 20 
 1,2  2,86  0,044721, 1,2  2,86  0,044721 IC99% (  )  1.0721, 1.3279
26
IC para  com variância desconhecida
Exemplo: População qualquer, amostra grande

Ingressos dos emigrantes hispânicos em EU segundo censo de 1980


Origem Nº Rendimento Desvio
pessoas Médio Padrão IC para a grau de confiança 95%
amostra Amostral
cubanos 3895 $16 368 $3 069  S S 
IC95% (  )   X  1.96 , X  1.96 
 n n
mexicanos 5729 $13 342 $9 414
porto- 5908 $12 587 $8 647
riquenhos

3069
 cubanos: erro padrão   49.17 IC95% (  )  16368  1.96  49.17
3985
IC  ( 16272, 16464 )
9414
 mexicanos: erro padrão   124.41 IC95% (  )  13342  1.96 124.41
5729
IC ( 13098, 13586 )
8647

porto-riq.: erro padrão   112.5 IC95% (  )  12587  1.96 112.5
5908
IC  ( 12367, 12807 )
27
IC para  com variância desconhecida
Exemplo: População qualquer, amostra grande

Exemplo adaptado de referência 2

28
Inferência entre parâmetros
de duas populações

X
P1 P2 Y

E( X )   X E (Y )  Y

Mesmo não se conhecendo as médias 1 e 2, seria possível verificar se elas


são iguais a partir de seus valores amostrais?

Se 1 e 2 são iguais, então 1 - 2 = 0.

Podemos a partir da diferença das médias amostrais X  Y inferir o valor


da diferença das médias de duas populações
acetato adaptado de referencia 3

29
Intervalo de Confiança para 1 - 2
Duas populações Normais. Amostras independentes

Sejam X1,…, Xn e Y1, …, Ym duas amostras aleatórias constituídas por


observações independentes e provenientes de duas populações Normais
N(X, X2) e N(Y, Y2), respectivamente
IC para a grau de confiança 1-
Caso 1: variâncias conhecidas

Caso 2: variâncias desconhecidas mas iguais

30
Intervalo de Confiança para 1 - 2
Populações Normais. Amostras emparelhadas
Sejam X1,…, Xn e Y1, …, Yn duas amostras provenientes de populações Normais

Amostras emparelhadas: se pares de observações (Xi, Yi) são


dependentes sendo todos os restantes pares (Xi, Yj), ij independentes
Di  ( X i  Yi ) ~ N (  D ,  2D )
Consideram-se as diferenças:
 D = X- Y – diferença das médias populacionais
 D – desvio padrão das diferenças - desconhecido
mas pode ser estimado através das diferenças D1, …, Dn
 D1, D2, ...Dn – a.a. com população D   D e variância
Normal ScD – desconhecida
desvio padrão amostral
D ~ N (  D ,  2D )  T  ~ t n 1
S cD n corrigido das diferenças

IC para D= X-Y a grau de confiança 1-


 S cD SCD 

IC1 (  D )  D  t1 2 , n 1 , D  t1 2 , n 1 
 n n 
 
31
Intervalo de Confiança para Proporção
Considere que uma urna contêm bolas vermelhas e azúis e que n bolas são
escolhidas ao acaso (com reposição), definindo-se
X como o número de bolas vermelhas entre as n seleccionadas
n
X   Yi , Yi ~ Bernoulli sendo p = P(Xi = 1), X ~ Binomial(n,p)
i 1 a probabilidade de se seleccionar um bola vermelha
Se p- desconhecido, um estimador pontual para p é a proporção amostral:
X p (1  p)
pˆ  pˆ ~ N ( p, ) (se n é grande, pelo TLC)
n a n 0,14
N (0,1)
0,12

centrando e reduzindo: 0,1

0,08 1
X
p 0,06
 
pˆ  p n
~ N (0, 1)
0,04

 0,02 2 2
Z p (1  p ) n p(1  p) n a
0
0 5 10 15 20

- -z 0 z +
z /2 z1 - /2
quantil de ordem /2 quantil de ordem 1-/2
I.C. para Z com grau de confiança 1-

P(  z  Z  z )  1   P( pˆ  z pˆ (1  pˆ ) n , pˆ  z pˆ (1  pˆ ) n )  1  
32
Intervalo de Confiança para Proporção
X
Seja pˆ  a proporção de indivíduos com uma certa característica de
n
interesse numa amostra aleatória de dimensão n, e p a proporção de
indivíduos com essa característica na população.

Um intervalo de confiança aproximado para p, a um grau de confiança


1-, é dado por:

 pˆ (1  pˆ ) pˆ (1  pˆ ) 
IC(1 ) ( p)   pˆ  z1 2 , pˆ  z1 2 

 n n 

33
IC para uma proporção
Exemplo: Proporção de acessos a páginas de Internet nacionais
exercício 16, capítulo 4

Em 100 acessos a páginas de internet escolhidos ao acaso 30 são as páginas nacionais.


Determine um IC a 95% para a proporção de acessos a páginas nacionais

X - número de acessos á páginas de internet nacionais X ~ Binomial(100,p )


p – proporção de acessos a páginas nacionais (em geral) p – desconhecido
Usando esta amostra determinamos um IC aproximado para p a 95%:
 
IC(1 ) ( p)  pˆ  z1 2 S p , pˆ  z1 2 S p com pˆ  X e Sp 
pˆ (1  pˆ )
n n
1º. Determinar z1-/2 para =0,05 z0,9750=1,96
IC( 95%) ( p )   pˆ  z0.9750 S p , pˆ  z0.9750 S p  IC(95%) ( p)   pˆ  1,96  S p , pˆ  1,96  S p 
^e S
2º. Determinar as estimativas p p

X 30 pˆ (1  pˆ ) 0,3  0,7
pˆ    0.3 Sp    0,04582
n 100 n 100
3º. Substituir na fórmula:
IC(95%) ( p )   0,3  1,96  0,04582, 0,3  1,96  0,04582
IC95% ( p )   0.2102, 0.3898
  0,3  0,089818, 0,3  0,089818

34
Formulário
F
O
R
M
U
L
Á
R
I
O

35
Referências
Livro: Grande Maratona de Estatística no SPSS
Andreia Hall, Cláudia Neves e António Pereira
Capítulo 4.1 Intervalos de Confiança

Acetatos disponíveis on-line usados na elaboração destes acetatos:


 Estatística Inferencial e Intervalos de Confiança, Amostragem
Andreia Hall
URL: http://www2.mat.ua.pt/pessoais/AHall/me/files/acetatos.htm
http://www2.mat.ua.pt/pessoais/AHall/Bioestat%EDstica/Bioestat%EDstica.htm

 Chapter 11: Sampling and Sampling Distribution, Chapter 12: Estimation


Prof. J. Schwab , University of Texas at Austin
disciplina: Data Analysis I (spring 2004)
URL: www.utexas.edu/courses/schwab/sw318_spring_2004/TextbookLectureNotes

 Estimação
Camilo Daleles Rennó, Instituto Nacional de Pesquisas Espaciais, Brasil
disciplina:Estatística: Aplicação ao Sensoriamento Remoto (2008)
URL: http://www.dpi.inpe.br/~camilo/estatistica/notas.html

 Estimação por Intervalos


Ana Pires, IST Lisboa
disciplina: Probabilidades e Estatística
URL: : http://www.math.ist.utl.pt/~apires/materialpe.html
36

Você também pode gostar