Introdução À Estatística (Digital)

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 235

REITORA

Ângela Maria Paiva Cruz


VICE-REITOR
José Daniel Diniz Melo
DIRETORIA ADMINISTRATIVA DA EDUFRN
Luis Passeggi (Diretor)
Wilson Fernandes (Diretor Adjunto)
Judithe Albuquerque (Secretária)
CONSELHO EDITORIAL
Luis Álvaro Sgadari Passeggi (Presidente)
Ana Karla Pessoa Peixoto Bezerra
Anna Emanuella Nelson dos S. C. da Rocha
Anne Cristine da Silva Dantas
Christianne Medeiros Cavalcante
Edna Maria Rangel de Sá
Eliane Marinho Soriano
Fábio Resende de Araújo
Francisco Dutra de Macedo Filho
Francisco Wildson Confessor
George Dantas de Azevedo
Maria Aniolly Queiroz Maia
Maria da Conceição F. B. S. Passeggi
Maurício Roberto Campelo de Macedo
Nedja Suely Fernandes
Paulo Ricardo Porfírio do Nascimento
Paulo Roberto Medeiros de Azevedo
Regina Simon da Silva
Richardson Naves Leão
Rosires Magali Bezerra de Barros
Tânia Maria de Araújo Lima
Tarcísio Gomes Filho
Teodora de Araújo Alves
EDITORAÇÃO
Helton Rubiano de Macedo (editor)
Paula Frassinetti dos Santos (editora assistente)
Alva Medeiros da Costa (supervisora Editorial)
REVISÃO
Wildson Confessor (coordenador)
Alynne Scott (colaboradora)
Iza Nobre (colaboradora - normalização)
DESIGN EDITORIAL
Michele Holanda (coordenadora)
Edson Lima (capa)
Erinaldo Silva de Sousa (miolo)
Paulo Roberto Medeiros de Azevedo

Introdução à Estatística

Introdução à Estatística 3
Coordenadoria de Processos Técnicos
Catalogação da Publicação na Fonte.UFRN / Biblioteca Central Zila Mamede

Azevedo, Paulo Roberto Medeiros de.


Introdução à estatística [recurso eletrônico] / Paulo Roberto Medeiros de
Azevedo. - 3. ed. - Natal, RN : EDUFRN, 2016.
2,8 Mb ; PDF

ISBN 978-85-425-0601-3
Modo de acesso: http://repositorio.ufrn.br

1. Probabilidade. 2. Análise de regressão. 3. Estatística matemática. II. Título.

CDD 519.2
RN/UF/BCZM 2016/30 CDU 519.2

Todos os direitos desta edição reservados à EDUFRN – Editora da UFRN


Av. Senador Salgado Filho, 3000 | Campus Universitário | Lagoa Nova | 59.078-970 | Natal/RN, Brasil
e-mail: [email protected] | www.editora.ufrn.br | Telefone: 84 3342 2221
Sumário

Prefácio, 9

Capítulo 1
Introdução à probabilidade, 11

1.1 Alguns resultados básicos de probabilidade, 11


1.2 Probabilidade condicional, 21
1.3 Eventos independentes, 23
1.4 Teorema da probabilidade total, 28
1.5 Teorema de Bayes, 30

Capítulo 2
Variáveis aleatórias, 37

2.1 Variável aleatória discreta, 39


2.2 Variável aleatória contínua, 40
2.3 Distribuição conjunta de uma variável aleatória
discreta bidimensional, 46
2.4 Variáveis aleatórias discretas independentes, 51
2.5 Valor esperado de uma variável aleatória discreta, 56
2.6 Variância de uma variável aleatória, 61
2.7 Coeficiente de correlação, 66
2.8 Função de distribuição acumulada, 68

Capítulo 3
Algumas distribuições importantes, 80

3.1 Distribuições discretas, 80


3.1.1 A distribuição de Bernoulli, 80
3.1.2 A distribuição Binomial, 82
3.1.3 A distribuição Hipergeométrica, 84
3.1.4 A distribuição de Poisson, 86
3.1.5 A distribuição de Poisson e a distribuição
Binomial, 90

Introdução à Estatística 5
3.2 Distribuições contínuas, 94
3.2.1 A distribuição Uniforme, 94
3.2.2 A distribuição Exponencial, 96
3.2.3 A distribuição Normal, 97
3.2.4 A distribuição Qui-quadrado, 101
3.2.5 A distribuição t de Student, 102
3.2.6 A distribuição F, 104

Capítulo 4
Introdução à inteferência estatística, 112

4.1 População e amostra, 112


4.2 Amostra aleatória, 112
4.3 Estatísticas e parâmetros, 113
4.4 Distribuições amostrais, 113
4.5 Distribuição amostral da média, 115
4.6 Distribuição amostral da proporção, 117

Capítulo 5
Estimação, 121

5.1 Estimação por ponto, 121


5.2 Estimação por intervalo, 122

Capítulo 6
Distribuição de frequêcias, 127

6.1 Introdução, 127


6.2 Número de classes, 133
6.3 Representação gráfica, 136

6 Introdução à Estatística
Capítulo 7
Medidas de tendência central e separatrizes, 142

7.1 Média aritmética, 142


7.2 Mediana, 145
7.3 Separatrizes, 159

Capítulo 8
Medidas de variabilidade, 154

8.1 Principais medidas de variabilidade absoluta, 155


8.2 Medidas de variabilidade relativa, 160
8.3 Esquema dos cinco números e Box-plot, 163

Capítulo 9
Testes de hipóteses: primeiras ideias, 166

9.1 Hipótese estatística, 169


9.2 Erros do tipo I e do tipo II, 167
9.3 Determinação da região de rejeição, 168
9.4 Passos para a construção de um teste de
hipóteses, 168

Capítulo 10
Regressão linear simples, 179

10.1 Relação entre variáveis, 179


10.2 Modelo de regressão linear simples, 180
10.3 Método de mínimos quadrados, 181
10.4 Estimadores de mínimos quadrados, 182
10.5 Resíduos, 185
10.6 Algumas propriedades da regressão linear, ajustada
pelo método de mínimos quadrados, 187

Introdução à Estatística 7
10.7 Inferências sobre 1, 189
10.8 Estimador da variância de b1, 189
10.9 Intervalo de confiança para 1, 190
10.10 Teste sobre 1, 192
10.11 Inferências sobre 0, 193
10.12 Intervalo de confiança para 0, 194
10.13 Predições, 195
10.14 Intervalo de confiança para E(Yh), 196
10.15 Intervalo de predição para uma nova
observação, 196
10.16 Partição da soma de quadrados total, 198
10.17 Graus de liberdade, 201
10.18 Quadrado médio, 202
10.19 Tabela de análise de variância, 203
10.20 O coeficiente de determinação, 204
10.21 Análise de adequação do modelo, 207

REFERÊNCIAS, 229

APÊNDICE, 230

8 Introdução à Estatística
Prefácio

Estas notas de aula já tinham sido publicadas


anteriormente, por meio da coleção SALA DE AULA, da
Cooperativa Cultural – UFRN. A ideia inicial surgiu com a
reformulação do programa da disciplina “Elementos de
Matemática e Estatística”, que era oferecida para o curso de
Psicologia. Com a mudança, evidenciou-se a necessidade de
um texto para o novo programa, resultando então na elaboração
destas notas. O que agora realizamos, entretanto, refere-se à
inclusão de alguns tópicos relacionados às variáveis aleatórias
contínuas e de algumas das suas principais distribuições, bem
como a inserção de um capítulo de regressão linear simples.
Este último é resultado de um resumo do primeiro capítulo de
outras notas de aula, cujo título é “Modelos de Regressão
Linear”, que elaboramos para a disciplina “Análise de
Regressão”, do Departamento de Estatística.
Além desses acréscimos, também corrigimos erros.
Neste ponto, aproveitamos para fazer um agradecimento
especial aos colegas de departamento Dione Maria Valença,
Franciné dos Santos Pessoa e Francisco Venâncio Moura, pela
realização da revisão ortográfica e por outras relevantes

Introdução à Estatística 9
sugestões, que, com certeza, contribuíram para um significativo
enriquecimento deste trabalho.
Os assuntos de variáveis contínuas aqui incluídos
ficaram limitados a algumas definições e a certas observações,
buscando realizar um paralelo entre os casos contínuos e
discretos, tendo em vista que priorizamos as distribuições
discretas para a formulação dos conceitos mais básicos de
probabilidade. Assim, continuamos com a nossa compreensão
inicial, que é a de ministrar disciplinas para outros cursos da
universidade, passando aqueles conhecimentos mais
fundamentais de estatística de uma maneira bem simples,
porém com a certeza de estar contribuindo para o aprendizado
de outros resultados, que muito comumente são utilizados em
aplicações diversas por alunos de todas as áreas do
conhecimento.
Dessa forma, entendemos que este material pode se
adequar a várias disciplinas que são oferecidas pelo
Departamento de Estatística, mantendo, no entanto, as
características de notas de aula.

Natal, julho de 2015.

Paulo Roberto Medeiros de Azevedo

10 Introdução à Estatística
Capítulo 1
Introdução à probabilidade

1.1 Alguns resultados básicos de probabilidade

Ao se estudar um fenômeno através de experimentação,


o que normalmente se faz é construir um modelo matemático,
determinístico ou probabilístico, que sirva para descrever o
respectivo fenômeno, sendo que:
a) Em um experimento determinístico, conhecidas
todas as “amarrações”, o resultado final é garantido pelas
condições sob as quais ele é executado, podendo ser descrito
por uma lei matemática. Como, por exemplo, o modelo que
serve para descrever a intensidade de uma força “F” sobre um
corpo com certa massa “m”, que se encontra em uma superfície
totalmente lisa (sem atrito) e com uma aceleração “a”, é dado
por F  m  a . Assim, podemos ver que “F” é determinada
pelos valores de “m” e de “a”.

b) Em um experimento não determinístico (ou


probabilístico), conhecidas também todas as “amarrações”,
temos como prognosticar o que poderá ocorrer, mas jamais
garantir o que realmente irá acontecer; ou seja, podemos

Introdução à Estatística 11
somente determinar o comportamento probabilístico do
resultado observável.

Exemplos de experimentos não determinísticos

1. Jogar um dado e observar o número mostrado na


face de cima.
2. Em uma classe de 30 alunos, verificar quantos têm
QI acima de 100.
Para determinar o comportamento probabilístico de um
experimento não determinístico precisamos, em primeiro lugar,
estabelecer seu espaço amostral “S”, que por definição é o
conjunto de todos os resultados possíveis do experimento.

Exemplos

1. Do experimento de jogar um dado e observar o


número mostrado na face de cima, temos:
S={1,2,3,4,5,6}.

2. Com relação ao experimento de verificar, em uma


classe de 30 alunos, quantos têm QI acima de 100,
teremos: S={0,1,2,...,30}.

12 Introdução à Estatística
Eventos

Definição: evento é um subconjunto do espaço amostral.


Referindo-nos outra vez ao experimento de verificar,
em uma classe de 30 alunos, quantos têm QI acima de 100,
consideremos, por exemplo, os eventos:
A: pelo menos 20 alunos têm QI acima de 100.
B: no máximo 07 alunos têm QI acima de 100.

Ou seja:

A={20,21,22,...,30} e B={0,1,2,...,7}.

Observação: considerando-se que A e B são dois eventos,


então:

1. A  B será o evento que ocorrerá se, e somente se,


A ou B (ou ambos) ocorrerem;
2. A  B será o evento que ocorrerá se, e somente se,
A e B ocorrerem;
3. A será o evento que ocorrerá se, e somente se, A
não ocorrer (dizemos que A é o complementar de
A).

Introdução à Estatística 13
Eventos mutuamente excludentes

Definição: dois eventos A e B são denominados mutuamente


excludentes se eles não puderem ocorrer juntos, ou seja, se a
interseção entre eles for o vazio ( A B   ).
Temos, do último exemplo, que os eventos
A={20,21,22,...,30} e B={0,1,2,...,7} são mutuamente
excludentes, pois A  B  Ø.

Definição de probabilidade

Seja S um espaço amostral associado a um


experimento. Para cada evento A, associa-se a um número real
representado por P(A), denominado de probabilidade de A, que
satisfaz às seguintes propriedades:

1) 0  P(A)  1 .
2) P(S)=1.
3) Se A e B forem eventos mutuamente excludentes
( A  B  Ø), então: P( A  B )=P(A) + P(B).

14 Introdução à Estatística
4) Se A1, A2, ..., An forem eventos dois a dois
mutuamente excludentes, então:
n n
P( 
i 1
Ai )   P(A ) .
i 1
i

Principais consequências das propriedades apresentadas:

a) P( 0 )=0 e P( A )=1-P(A), sendo 0 o vazio e A o


complementar de A.

b) Se A e B são dois eventos quaisquer, então:

PA  B  PA  PB  PA  B . (1.1)

c) Se A, B e C são eventos quaisquer, então:

P  A  B  C   P  A  P  B   P(C )  P  A  B 
 P( A  C )  P( B  C )  P( A  B  C ).

d) Se A  B , então P( A)  P( B) .

Introdução à Estatística 15
Probabilidades nos espaços amostrais finitos

Consideremos um espaço amostral S  s1 , s2 ,..., sn . A


cada evento simples si  associa-se Psi  , denominada de
probabilidade de si . Assim, a probabilidade de um evento “A”
qualquer é dada pela soma das probabilidades dos vários eventos
simples que constituem “A”, ou seja, P A    Psi  , sendo a
i

soma estendida a todos os si  A.

Exemplo 1.1

Seja S={a, b, c, d, e, f}, com P(a)=1/16, P(b)= 1/16,


P(c)=1/8, P(d)=3/16, P(e)=1/4 e P(f)=5/16. Considerando, por
exemplo, os eventos: A={a, c, e}, B= {c, d, e, f} e C={b, c, f},
teremos: P(A)=1/16 + 1/8 +1/4 =7/16, P(B)=1/8 + 3/16 +1/4 +
5/16=14/16 e, de maneira análoga, encontramos P(C)=8/16.

Espaços amostrais finitos equiprováveis

Consideremos novamente um espaço amostral finito


S  s1, s2 ,..., sn  , e seja A um evento constituído de K
elementos, 1  k  n. Se todos os elementos de S forem

16 Introdução à Estatística
igualmente prováveis, então P(A)=K/n, ou seja, nesse caso
dizemos que a probabilidade de A é:

P(A)= nº de casos favoráveis a A / nº total de casos.

Observação: escolher ao acaso (ou aleatoriamente) um objeto


dentre n significa dizer que o espaço amostral é equiprovável e,
portanto, quer dizer que cada objeto tem a mesma
probabilidade de ser escolhido, a saber, 1/n.

Exemplo 1.2

Numa classe há cinco primeiranistas, quatro


segundanistas, oito terceiranistas e três concluintes. Se um
estudante é escolhido ao acaso para representar a classe, qual
será a probabilidade desse ser terceiranista ou do último ano?
Definindo os eventos:

T: o aluno é terceiranista e C: o aluno é concluinte,


teremos: P (do aluno ser terceiranista ou do último ano)= =
8 3 11
P(T  C)  P(T) P(C)   .
20 20 20

Introdução à Estatística 17
Exemplo 1.3

Suponha um grupo de 100 pessoas, no qual algumas


têm psicose (P), enquanto outras têm neurose (N), sendo
algumas idosas (I), enquanto outras são adolescentes (A). A
tabela seguinte dá a classificação das referidas pessoas.
Escolhendo-se ao acaso uma pessoa desse grupo, qual será a
probabilidade dessa ser idosa ou ter alguma neurose?

P N Total
A 1 29 30
I 2 68 70
Total 3 97 100

Temos:

P(da pessoa escolhida ser idosa ou ter alguma neurose)= =


70  97  68 99
P(I N)  P(I) P(N) P(I N)   .
100 100

18 Introdução à Estatística
Problemas

1. Um cartão é retirado ao acaso dentre 50 cartões


numerados de 1 a 50. Encontre a probabilidade de o número no
cartão escolhido ser divisível por 5.

2. Das 10 alunas de uma classe, duas são superdotadas


e uma tem QI muito abaixo da média. Se uma delas é escolhida
ao acaso, qual será a probabilidade dessa ser superdotada ou ter
QI muito abaixo da média?

3. Supor uma classe onde três alunos são considerados


com capacidade de liderança, 16 não têm essa capacidade e
dois são não classificáveis. Escolhendo-se um aluno ao acaso,
qual será a probabilidade deste ter capacidade de liderança ou
ser não classificável.

4. O seguinte grupo de pessoas está numa sala: 5


homens maiores de 21 anos, 4 homens com menos de 21 anos,
6 mulheres maiores de 21 anos e 3 mulheres menores de 21
anos. Uma pessoa é escolhida ao acaso. Calcular a
probabilidade da pessoa escolhida ser mulher ou ter menos de
21 anos.

Introdução à Estatística 19
5. Considere o lançamento de dois dados. Sejam os
eventos A: a soma dos números obtidos é igual a 9 e B: o
número no primeiro dado é maior ou igual a 4.

a) Encontre os elementos de A e de B;
b) Obtenha A  B, A  B e B ;
c) Determine as probabilidades dos eventos do item b.

6. Três cavalos A, B, C estão numa corrida. Sabe-se


que A é duas vezes mais provável de ganhar que B, e este é
duas vezes mais que C. Determinar as probabilidades de ganhar
dos cavalos A, B e C.

7. Em uma cidade onde se publicam três jornais – A, B


eC–
constatou-se que dentre 1000 famílias assinam: A-470; B-
420; C-315; A e B-110; A e C-220; B e C-140 e 75 assinam os
três. Escolhendo-se ao acaso uma família, qual a probabilidade
de que ela:

a) Não assine nenhum dos três jornais;


b) Assine apenas um dos três jornais;
c) Assine pelo menos dois jornais.

20 Introdução à Estatística
8. Verificar as propriedades a, b, c e d, que se localiza
no tópico “Definição de propabilidade”.

1.2 Probabilidade condicional

Considerando o exemplo 1.3, suponhamos que se


verificou que a pessoa escolhida é idosa. Neste caso, qual será
a probabilidade dessa pessoa ter psicose? Como temos agora a
informação de que a pessoa escolhida é idosa, então nosso
conjunto de resultados possíveis passa a ser o conjunto das
pessoas idosas. Assim:

P(da pessoa ter psicose, dada a informação de que é idosa ) 

nº de pessoas com psicose, dentre as idosas 2 1


   .
nº total de pessoas idosas 70 35

De maneira geral, para dois eventos quaisquer A e B,


sendo P(B)>0, definimos a probabilidade condicional de A,
dado que ocorreu o evento B, denotada por P( A B) , como

sendo:

P( A  B)
P( A B)  . (1.2)
P(B)

Introdução à Estatística 21
Dessa forma, o exemplo anterior também poderá ser
resolvido da seguinte maneira:

P(da pessoa ter psicose, dada a informação de que é idosa ) 


2
P(da pessoa ter psicose e ser idosa ) 100 2 1
    .
P(da pessoa ser idosa ) 70 70 35
100
Exemplo 1.4

Em certa cidade, 40% da população têm cabelos


castanhos, 25% olhos castanhos e 15% têm cabelos e olhos
castanhos. Se uma pessoa da cidade é selecionada
aleatoriamente e verifica-se que a mesma tem cabelos
castanhos, qual a probabilidade de ter também olhos
castanhos?

Definindo os eventos:
O: a pessoa tem olhos castanhos e C: a pessoa tem
cabelos castanhos, teremos:

P(O  C) 0,15 3
P(O C )    .
P(C) 0, 40 8

22 Introdução à Estatística
Supondo que a pessoa selecionada tivesse olhos
castanhos, qual seria a probabilidade desta ter também cabelos
castanhos? Neste caso teremos:
P(O  C) 0 ,15 3
P(C O)    .
P(O) 0 , 25 5

Observação: no caso de probabilidade condicionada, também


se verifica:
1) 0  P( A B)  1 .

2) P(S B)  1 .

3) P( A1UA2 B)  P( A1 B)  P( A2 B) , se A1 A2 = Ø.

1.3 Eventos independentes

Exemplo 1.5

Uma urna contém duas bolas brancas e três vermelhas.


Retirando-se duas bolas com reposição, ou seja, a primeira bola
é reposta na urna antes da extração da segunda, tem-se
extrações independentes, pois o resultado de uma extração não
tem influência no resultado da outra. Assim, por exemplo:

Introdução à Estatística 23
P(sair bola branca na 2a extraçãosaiu bola branca na 1a )
2
 =P(sair bola branca na 2a extração).
5
De forma geral, diz-se que dois eventos, A e B, são
independentes se P( A B)  P( A) e P(B A)  P(B) . Por outro

lado, da relação (1.2), obtemos:

P( A  B)  P( A B)P(B) . (1.3)

P( A  B)
e de maneira análoga, de P(B A)  , tiramos:
P( A)

P( A  B)  P(B A)P( A) (1.4)

Portanto, se dois eventos A e B são independentes, tem-


se por (1.3) ou (1.4) que P(A  B)  P(A) P(B) , ou seja:

Definição: dois eventos A e B são independentes se, e somente


se, P(A  B)  P(A)P(B).

Em outras palavras, a definição anterior nos dá uma


forma alternativa de expressar quando dois eventos são
independentes.

24 Introdução à Estatística
Exemplo 1.6

Lança-se uma moeda 3 vezes. Sejam os eventos A:


ocorrem três caras ou três coroas; B: ocorrem ao menos duas
caras e C: ocorrem no máximo duas caras. Dos pares (A,B),
(A,C) e (B,C) quais são independentes? Considerando que "c"
representa cara e " c" coroa, temos que o espaço amostral para
esse experimento é
S  {ccc, ccc, ccc, ccc, c cc, ccc, cc c, c c c} , e assim obtemos:

A  {ccc, c c c}, B  {cc c, ccc, ccc, ccc},


C  { c c c, cc c, ccc, c cc, ccc, ccc, cc c},
A  B  {ccc}, A  C  { c c c} e B  C  {cc c, ccc, ccc}

Logo:

2 1 4 1 7 1 1
P(A)   , P(B)   , P(C)  , P(A  B)  , P(A  C)  e
8 4 8 2 8 8 8
3
P(B  C)  .
8
Portanto, teremos:

1 1 1
P(A). P(B)  .   P(A  B) , ou seja, podemos concluir
4 2 8
que A e B são independentes. Temos também: P(A). P(C) 

Introdução à Estatística 25
1 7 7
.   P( A  C ) . Assim, concluímos que A e C não são
4 8 32
independentes. Procedendo de maneira equivalente, concluímos
que B e C não são independentes
.
Exemplo 1.7

Suponhamos que em certa comunidade 5% das pessoas


têm algum tipo de neurose e que 35% de sua população sejam de
pessoas de cor branca. Qual será a probabilidade de uma pessoa
escolhida ao acaso ter alguma neurose e ser de cor branca?
Definindo os eventos: N: a pessoa tem alguma neurose e B: a
pessoa é de cor branca, teremos:
P(da pessoa escolhida ter alguma neurose e ser de cor branca)
 P(N  B)  (Por independência)  P(N).P(B)= 0,05  0,35 
 0,0175 .
Considerando ainda o exemplo apresentado, qual seria a
probabilidade da pessoa escolhida ter alguma neurose ou ser de
cor branca? Neste caso teremos:
P(da pessoa ter alguma neurose ou ser de cor branca)
 P(N  B)  P(N)  P(B)-P(N  B)  0,05  0,35-0,0175  0,3825

26 Introdução à Estatística
Exemplo 1.8

A probabilidade de fechamento de cada relé do circuito


apresentado na figura seguinte é p. Se todos os relés
funcionarem independentemente, qual será a probabilidade de
que haja corrente entre os terminais L e R?

L 1 2 R
 ● ● 
3 4

Definindo os eventos:

ri : O i-ésimo relé está fechado, i=1, 2, 3, 4, teremos:


P(haver corrente entre L e R)=P[(r1  r2)U(r3  r4 )]=
= P(r1  r2) + P(r3  r4) - P[(r1  r2)  (r3  r4)]=
(Por independência) = P(r1).P(r2)+P(r3).P(r4)-
P(r1).P(r2).P(r3 ).P(r4 ) = p2 + p2 - p4 = 2p2 – p4.

Introdução à Estatística 27
Observação: Dizemos que n eventos A1, A2,..., An são
mutuamente independentes se, e somente se:

P(Ai1  Ai2  ...  Aik)=P(Ai1)P(Ai2)...P(Aik)


para k=2, 3,..., n.

Partição de espaço amostral

Definição: os eventos B1, B2,..., Bk formam uma partição de um


espaço amostral S, se:

a) Bi  Bj= Ø,  i  j;
k
b) Bi  S ;
i1

c) P(Bi)>0,  i.

1.4 Teorema da probabilidade total

Se B1, B2,..., Bk formam uma partição de um espaço


amostral S e A é um evento qualquer de S, então:

P( A)  P[( A  B1 )  ( A  B2 )  ...  ( A  Bk )] 
k k
  P( A  B )  P(A B
i 1
i
i1
i
)P(Bi ) .

28 Introdução à Estatística
Exemplo 1.9

Uma determinada peça é manufaturada por três


fábricas: 1, 2 e 3. Sabe-se que 1 produz o dobro de peças de 2,
e 2 e 3 produzem o mesmo número de peças. Sabe-se também
que 2% das peças produzidas por 1 e por 2 são defeituosas,
enquanto que 4% das produzidas por 3 são defeituosas. Se
todas as peças produzidas forem colocadas em um depósito e
depois uma peça for extraída ao acaso, qual será a
probabilidade de que essa peça seja defeituosa?

Definindo os eventos:

D: Peça defeituosa,
Fi: Peça produzida pela i-ésima fábrica, i=1, 2, 3.

Podemos escrever:

D=(D  F1) U (D  F2) U (D  F3).

Assim:
3 3
P(D)=  P(D  Fi )  P(D Fi )P(Fi ) .
i1 i1

Introdução à Estatística 29
Dos dados do problema, temos:

P(F1)=2P(F2) e P(F2)=P(F3).
Então, pela equação:
P(F1) + P(F2) + P(F3)=1.

Obteremos:
P(F1)=1/2 e P(F2)=P(F3)=1/4.

Dessa forma:

P(D)  P(D F1 )P(F1 )  P(D F2 )P(F2 )  P(D F3 ) P(F3 ) 

=(0,02)(1/2)+(0,02)(1/4)+(0,04)(1/4)=0,025.

1.5 Teorema de Bayes

Seja B1, B2, ......, Bk uma partição do espaço amostral S


e seja A um evento qualquer de S. De acordo com a definição
de probabilidade condicionada, pode-se escrever:

P( A Bi ) P( Bi )
P( Bi A)  k , i = 1,2,...., k.
 P( A B ) P( B )
j 1
j j

30 Introdução à Estatística
Exemplo 1.10

Considerando o Exemplo 1.9, suponha que uma peça


seja retirada do depósito e se verifique que é defeituosa. Qual a
probabilidade de que tenha sido produzida na fábrica 1?

Neste caso, pede-se:

P( D F1 ) P( F1 ) P( D F1 ) P( F1 ) (0, 02)(1/ 2)
P( F1 D)  3
   0, 4
 P( D F ) P( F )
P( D) 0, 025
j j
j 1

Problemas

9. Suponha que em certa universidade 10% dos alunos


sejam superdotados e 57% sejam do sexo feminino.
Escolhendo-se um aluno ao acaso, qual a probabilidade deste
ser superdotado ou ser do sexo masculino?

10. A classe "B" de uma escola de 2º grau contém 20


alunos, dos quais 8 não gostam de matemática, enquanto que a
classe "C" contém 18 alunos, dos quais 6 não gostam de
matemática. Se um aluno é escolhido aleatoriamente de cada
classe, qual a probabilidade que ambos não gostem de
matemática?

Introdução à Estatística 31
11. Sejam A e B eventos com P(A)=3/8, P(B)=3/10 e
P(A  B)=9/20. Encontre P(AB) e P(BA).
12. A probabilidade de que um aluno "A" resolva um
certo problema é de 1/3, e a probabilidade de que um aluno B
resolva o mesmo é de 3/5. Se os dois tentam resolvê-lo
isoladamente, qual a probabilidade de:

a) Ambos resolverem?
b) Ao menos um resolver?
13. Sejam A e B dois eventos associados a um
experimento. Suponha que:

P(A)=0,4 , enquanto P(A  B)=0,7. Seja P(B)=x.

a) Para que valor de x os eventos A e B serão


mutuamente excludentes?
b) Para que valor de x os eventos A e B serão
independentes?
14. Se dois eventos A e B são mutuamente excludentes
com P(A)=P(B)=1/3, determine P(A  B) e P( A B) .

15. As probabilidades que dois eventos independentes,


A e B, ocorram são 2/3 e 3/5, respectivamente. Qual a
probabilidade:
a) Que nenhum desses eventos ocorra?
b) Que pelo menos um desses eventos ocorra?

32 Introdução à Estatística
16. Uma urna contém 4 bolas brancas, 4 vermelhas e 2
azuis. Outra urna contém 5 bolas brancas, 3 vermelhas e 3
azuis. Extrai-se uma bola de cada urna. Qual a probabilidade de
que sejam da mesma cor?
17. A probabilidade de que a porta de uma casa esteja
trancada à chave é de 3/5. Há 10 chaves em um chaveiro. Qual a
probabilidade de que um indivíduo entre na casa, podendo
utilizar, se necessário, apenas uma das chaves, tomada ao acaso
do chaveiro?
18. Uma urna contém 3 bolas brancas e 4 azuis. Uma
outra contém 4 brancas e 5 azuis. Passa-se uma bola da
primeira para a segunda urna e em seguida extrai-se uma bola
da segunda urna. Qual a probabilidade de ser branca?
19. Tem-se 3 engradados de motores elétricos. No
engradado I tem-se 5 motores de 1 Hp, 3 de (1/2) Hp e 2 de 1/3
de Hp. No engradado II tem-se 2 motores de (1/2) Hp, 2 de 1
Hp e 6 de (1/3) de Hp. No engradado III tem-se 4 motores de
1/3 de Hp, 2 de (1/2) Hp, 2 de 1/6 de Hp e 4 de 1 Hp.
Retirando-se um motor ao acaso de um engradado, também
sorteado aleatoriamente, qual a probabilidade de ser de 1/3 de
Hp?
20. Duas lâmpadas defeituosas são misturadas com 2
lâmpadas boas. As lâmpadas são testadas, uma a uma, até que 2

Introdução à Estatística 33
defeituosas sejam encontradas. Qual a probabilidade de que a
última defeituosa seja encontrada no terceiro teste?
21. Três fábricas fornecem equipamentos de precisão
para o laboratório de química de uma universidade. Apesar de
serem aparelhos de precisão existe uma pequena chance de
subestimação ou superestimação das medidas efetuadas. As
tabelas a seguir apresentam o comportamento do equipamento
produzido em cada fábrica:

Fábrica I Subestima Exata Superestima


Probabilidade 0,01 0,98 0,01

Fábrica II Subestima Exata Superestima


Probabilidade 0,005 0,98 0,015

Fábrica III Subestima Exata Superestima


Probabilidade 0,00 0,99 0,01

As fábricas I, II e III fornecem, respectivamente, 20%, 30% e


50% dos aparelhos utilizados. Escolhe-se, ao acaso, um desses
aparelhos e pergunta-se: qual a probabilidade de:
a) Haver superestimação de medidas?

34 Introdução à Estatística
b) Não haver subestimação das medidas
efetuadas?
c) Dando medidas exatas, ter sido fabricado em
III?
d) Ter sido produzido por I, dado que não
subestima as medidas?
22. Um médico desconfia de que um paciente tenha
tumor no abdômen, pois isto ocorreu em 70% dos casos
similares que tratou. Se o paciente de fato tiver o tumor, o
exame ultrassom o detectará com probabilidade 0,9. Entretanto,
se ele não tiver, o exame pode, erroneamente, indicar que tem
com probabilidade 0,1. Se o exame detectou um tumor, qual é a
probabilidade do paciente tê-lo de fato?
23. Numa certa região, a probabilidade de chuva em um
dia qualquer de primavera é de 0,1. Um meteorologista da TV
acerta suas previsões em 80% dos dias em que chove e em 90%
dos dias em que não chove.
a) Qual é a probabilidade do meteorologista acertar sua
previsão?
b) Se houve acerto na previsão feita, qual a
probabilidade de ter sido um dia de chuva?

Introdução à Estatística 35
24. Das pacientes de uma clínica de ginecologia com
idade acima de 40 anos, 60% são ou foram casadas, e 40% são
solteiras. Sendo solteira, a probabilidade de ter tido um
distúrbio hormonal no último ano é de 10%, enquanto que para
as demais essa probabilidade aumenta para 30%. Pergunta-se:
a) Qual a probabilidade de uma paciente escolhida ao
acaso ter tido um distúrbio hormonal?
b) Se a paciente sorteada tiver distúrbio hormonal, qual
a probabilidade de ser solteira?
c) Se escolhermos duas pacientes ao acaso e com
reposição, qual é a probabilidade de pelo menos uma ter o
distúrbio?

36 Introdução à Estatística
Capítulo 2

Variáveis aleatórias

Quando, na prática, desejamos investigar algum


fenômeno probabilístico estamos, na realidade, interessados em
estudar a distribuição de uma ou mais variáveis. Assim, por
exemplo, podemos estar interessados em estudar as
distribuições dos QIs, do grau de instrução, da altura etc., das
pessoas de uma certa população, que são distribuições de
variáveis aleatórias. Antes, porém, de uma definição formal de
variável aleatória, vejamos o seguinte exemplo:

Consideremos o lançamento de uma moeda duas vezes.


Definamos a variável aleatória X = número de caras obtidas
nos dois lançamentos. Neste caso, obtemos a seguinte tabela:

Resultados
Probabilidades Valor de X
possíveis

cc 1/4 2
cc 1/4 1
cc 1/4 1
cc 1/4 0

Introdução à Estatística 37
Temos que X=2, com probabilidade 1/4, pois X=2 se, e
somente se, ocorre o resultado cc; X=1, com probabilidade
1/4+1/4=1/2, pois X=1 se, e somente se, ocorrem os resultados
cc ou cc , que são mutuamente excludentes, e, por último,
temos que X=0, com probabilidade 1/4, pois X=0 se, e somente
se, ocorre o resultado c c.

Distribuindo-se em uma tabela os possíveis valores de


X, com suas respectivas probabilidades, obtém-se:

x 0 1 2
P(X=x) 1/4 1/2 1/4

onde a letra minúscula x representa os valores da variável


aleatória X e P(X=x) as respectivas probabilidades.

De acordo com esse exemplo, temos:


Definição: seja S um espaço amostral associado a um
determinado experimento. Uma função que associe a cada
elemento sS um número real é denominada de variável
aleatória (v.a.).

38 Introdução à Estatística
2.1 Variável aleatória discreta

Definição: se o conjunto dos possíveis valores de uma variável


aleatória X for enumerável, dizemos que X é uma variável
aleatória discreta, e a tabela que associa a cada valor de X sua
respectiva probabilidade é denominada de distribuição de
probabilidade de X.

Do exemplo dos dois lançamentos da moeda temos que


X é discreta e sua distribuição de probabilidade é dada pela
tabela anterior.

Observação: para cada resultado possível xi, o número


P(xi)=P(X=xi) é denominado de probabilidade de x i,
satisfazendo:

a) P(xi)  0, i ;

b)  P( x )  1 .
i 1
i

sendo P denominada de função de probabilidade de X.

Introdução à Estatística 39
2.2 Variável aleatória contínua

Quando o conjunto dos possíveis valores de uma


variável aleatória X é não enumerável, ou seja, um intervalo ou
uma coleção de intervalos, dizemos que X é uma v.a. contínua.
Como exemplo, suponhamos que numa pesquisa na
universidade estejamos interessados na v.a. Y = QI dos alunos.
Neste caso podemos afirmar, a princípio, que o conjunto de
resultados possíveis de Y é o intervalo (0, 200), ou seja, temos
que Y é uma v.a. contínua.

De maneira formal, definimos uma variável aleatória


contínua, como:

Definição: dizemos que uma v.a. X é contínua quando existe


uma função não negativa f, chamada de função densidade de
probabilidade de X, tal que:

a) f(x)  0,  xR;

b)  
f(x) dx  1 .

Observações:

1. Nesse caso, a probabilidade de um evento [a  X  b]


é igual à área sob o gráfico de f entre x=a e x=b, ou seja:
b
P(X[a,b])=  a
f(x) dx .

40 Introdução à Estatística
2. No caso contínuo, temos que P(X=a)=0, logo:

P(a  X  b)= P(a  X < b)=P(a< X  b)=P(a< X <b).

3. Vejamos uma ideia do porquê da probabilidade de


um evento [a  X  b], no caso contínuo, ser dada pela área sob
o gráfico da função densidade de probabilidade entre x=a e
x=b, conforme a figura seguinte:

Para isso, suponhamos um experimento que consiste em


escolher um ponto ao acaso no segmento de reta [;] e
vejamos como fica a probabilidade do ponto escolhido estar
num intervalo [a,b][;]. Temos aqui que a escolha é feita ao
acaso, logo o espaço amostral S=[;] é equiprovável e,
portanto, intervalos de mesmo comprimento terão a mesma
probabilidade. Definindo, então, a v.a. X como a coordenada
do ponto escolhido, teremos:

Introdução à Estatística 41
comprimento de [a, b] ba
P(X  [a, b])   .
comprimento de [ ,  ]   

Essa probabilidade pode também ser dada através da


função densidade de probabilidade, que, neste caso, é definida
simplesmente por:

 1
 , se x  [ α , β ];
f(x)   β- 
 0, se x  [ α , β ].

cujo gráfico é:

Assim, conforme vimos antes, a probabilidade do


evento [a  X  b] é dada pela área ilustrada a seguir:

42 Introdução à Estatística
Ou seja:

1 comprimento de [a,b ]
P(a  X  b) = (b-a) .  .
   comprimento de [ ,  ]

Para fixar a ideia, consideremos o experimento de

escolher um ponto ao acaso no segmento de reta [0,2]. Qual

será a probabilidade do ponto escolhido estar entre 1 e 3 ?


2

Definindo X como a coordenada do ponto escolhido, teremos:

1
 , se x  [0,2];
f(x)   2

 0, se x  [0,2].

Introdução à Estatística 43
Assim:

3 3 1 1
P(X  [1, ] )  (  1).  .
2 2 2 4

Exemplo 2.1

Suponhamos que uma v.a. X seja contínua, com função


densidade de probabilidade (fdp) dada por:

2x, se 0  x  1;
f (x)  
 0, caso contrário.

Calcular P(X  1/2).

Temos:
1 1

P(X  1/2)= 
0
2
2x dx  x 2 |
2

0

1
4
.

44 Introdução à Estatística
Exemplo 2.2

Seja X a duração da vida (em horas) de um certo tipo de


lâmpada, admitindo que X seja contínua com fdp:

k
 , se 1500  x  2500;
f(x)=  x3
0, caso contrário.

Determinar a constante K.

Nesse exemplo:

2500 2500

1500
k
x 3
dx  1  
k
2x 2 |
1500
 1  K  7.031.250 .

Quando definimos variável aleatória, atribuímos a um


ponto amostral um único valor real. Na maioria das vezes, no
entanto, há interesse em atribuir, para um mesmo ponto
amostral, duas ou mais características numéricas. Assim, por

Introdução à Estatística 45
exemplo, podemos estar interessados em investigar, ao mesmo
tempo, a estatura (H) e o peso (P) de uma pessoa de certa
população. Neste caso, temos o par (H,P), que é considerado
uma variável aleatória bidimensional.

De maneira análoga ao que falamos sobre uma v.a.


unidimensional, uma v.a. bidimensional (X,Y) poderá também
ser discreta ou contínua, valendo as mesmas considerações
feitas anteriormente.

2.3 Distribuição conjunta de uma variável aleatória


discreta bidimensional

Se (X,Y) é uma v.a. discreta bidimensional, então, a


cada resultado possível (x,y), associa-se um valor
P(x,y)=P(X=x, Y=y), denominado função de probabilidade
conjunta de X e Y, e o conjunto de todos os pares [(x,y);
P(x,y)] chamamos de distribuição de probabilidade conjunta de
X e Y, onde, como no caso da variável unidimensional,
costuma-se também representar a distribuição conjunta por
meio de uma tabela.

46 Introdução à Estatística
Para fixar a ideia da distribuição conjunta de duas v.a.’s
discretas, vejamos:

Exemplo 2.3

Suponha que uma urna contém três bolas numeradas 1,


2, 3. Retiramos duas delas, ao acaso e com reposição. Seja X o
número da primeira e Y o número da segunda bola retirada, a
distribuição conjunta de X e Y é dada por:

Pares de resultados Probabilidades


possíveis (x,y) P(X=x, Y=y)
(1,1) 1/9
(1,2) 1/9
(1,3) 1/9
(2,1) 1/9
(2,2) 1/9
(2,3) 1/9
(3,1) 1/9
(3,2) 1/9
(3,3) 1/9

Introdução à Estatística 47
Temos, no entanto, uma maneira mais usual de
representar a distribuição conjunta de X e Y, que é pela tabela
de dupla entrada:

Y 1 2 3 P(X=x)
X
1 1/9 1/9 1/9 3/9
2 1/9 1/9 1/9 3/9
3 1/9 1/9 1/9 3/9
P(Y=y) 3/9 3/9 3/9 1

De forma que, através dessa, obtemos também as


distribuições de X e de Y, chamadas de distribuições
marginais, sendo que a de X é dada pela primeira e última
coluna e a de Y pela primeira e última linha da referida tabela.

Exemplo 2.4

Com relação ao exemplo 2.3, consideremos agora que


as retiradas sejam feitas sem reposição, ou seja, os pares de
resultados possíveis (x,y) serão (1,2), (1,3), (2,1), (2,3), (3,1) e
(3,2). Dessa forma, obteremos:

48 Introdução à Estatística
y 1 2 3 P(X=x)
x
1 0 1/6 1/6 1/3
2 1/6 0 1/6 1/3
3 1/6 1/6 0 1/3
P(Y=y) 1/3 1/3 1/3 1

Nesse caso:

x 1 2 3 y 1 2 3
P(X=x) 1/3 1/3 1/3 P(Y=y) 1/3 1/3 1/3

são as distribuições marginais de X e de Y, respectivamente.

Observação: dada a distribuição conjunta de duas variáveis


aleatórias X e Y, podemos obter as distribuições de funções
dessas, como por exemplo, de X+Y, X.Y, X/Y etc.

Exemplo 2.5

Considerando o exemplo 2.4, vejamos como fica a


distribuição da variável aleatória Z=X.Y. Para isso, precisamos
da tabela:

Introdução à Estatística 49
(x,y) Z=x . y Probabilidades
(1,2) 2 1/6
(1,3) 3 1/6
(2,1) 2 1/6
(2,3) 6 1/6
(3,1) 3 1/6
(3,2) 6 1/6

E assim obtemos:

z 2 3 6
P(Z=z) 1/3 1/3 1/3

Observações:

1. Se (X,Y) é uma v.a. contínua bidimensional,


tomando todos os valores em alguma região “A” do plano,
então associamos a essa variável aleatória uma função
densidade de probabilidade conjunta f, que satisfaz:

a) f(x,y)  0,  (x,y)A;

b)   f(x, y) dx dy  1 .
A

50 Introdução à Estatística
2. Se f é a fdp conjunta da variável aleatória contínua
bidimensional (X,Y), então as funções densidade de
probabilidade marginal de X e de Y, respectivamente, são
dadas por:
 
g(x) 


f(x,y) dy e h(y) 
 f(x,y) dx .


2.4 Variáveis aleatórias discretas independentes

Definição: seja (X,Y) uma v.a. discreta bidimensional, dizemos


que X e Y são independentes se, e somente se:

P(X=x, Y=y)=P(X=x) P(Y=y). (2.1)

para todo par (x,y).

Observações:

1. Basta que (2.1) não se verifique para um par


qualquer, para que X e Y não sejam independentes. Nesses
casos, diz- se que X e Y são dependentes.

Introdução à Estatística 51
2. Temos no caso contínuo uma definição análoga, ou
seja, se (X,Y) é uma v.a. contínua bidimensional, então
dizemos que X e Y são variáveis aleatórias independentes se, e
somente se, f(x,y)=g(x)h(y), para todo (x, y), sendo f a fdp
conjunta e g e h as marginais de X e de Y, respectivamente.

Exemplo 2.6

De acordo com a definição apresentada, podemos


verificar que, no exemplo 2.3, X e Y são independentes,
enquanto que no exemplo 2.4 essas variáveis são dependentes.

Exemplo 2.7

Consideremos as variáveis aleatórias, definidas da


seguinte maneira:
1, se uma mulher é casada no civil ou
 no religioso, ou no civil e religioso.

X= 

0, em caso contrário.

1 , s e uma mulher já provoc ou aborto.


Y= 
0 , em c as o c ontrário.

52 Introdução à Estatística
Vemos que a variável aleatória X trata do tipo de união
marital, enquanto que Y define se uma mulher já provocou
aborto ou não. Suponhamos que em certo país a distribuição
conjunta de X e Y seja dada por:

X 0 1
Y
0 0,21 0,46
1 0,01 0,32

Podemos concluir que nesse país a prática do aborto independe


do tipo de união marital? Calculando as distribuições marginais
de X e de Y, obteremos:

x 0 1 P(Y=y)
y
0 0,21 0,46 0,67
1 0,01 0,32 0,33
P(X=x) 0,22 0,78 1,0

Introdução à Estatística 53
Basta ver que P(X=0).P(Y=0)=0,147  P(X=0;Y=0)
para concluirmos que X e Y não são independentes, ou seja,
podemos concluir que nesse país a prática do aborto e o tipo de
união marital não são independentes, o que significa dizer que
existe algum tipo de relação entre essas variáveis.

Exemplo 2.8

Uma companhia de seguros, que trabalha no ramo de


automóveis, investigou a relação entre o hábito de fumar do
motorista do carro e a frequência das reclamações relativas a
acidentes com danos materiais. Para isso, considerou-se as
variáveis aleatórias: X = número de acidentes sofridos pelo
motorista (a companhia considerou de um a três acidentes) e:

1, se o motorista é fumante;


Y= 
0, em caso contrário.

Suponhamos que a companhia obteve que a distribuição


conjunta de X e Y é dada por:

54 Introdução à Estatística
x 1 2 3
y
0 0,21 0,35 0,14
1 0,09 0,15 0,06

Nesse caso, podemos afirmar que o número de


acidentes sofridos pelo motorista independe do fato desse ser
ou não fumante? Calculando as distribuições marginais de X e
de Y, obteremos:

x 1 2 3 P(Y=y)
y
0 0,21 0,35 0,14 0,7
1 0,09 0,15 0,06 0,3
P(X=x) 0,3 0,5 0,2 1,0

Podemos ver que P(X=x; Y=y)=P(X=x).P(Y=Y) para


todo par (x,y). Portanto, concluímos que o número de acidentes
sofridos pelo motorista independe do fato desse ser ou não
fumante.

Introdução à Estatística 55
2.5 Valor esperado de uma variável aleatória discreta

Não basta conhecer a distribuição de probabilidade de


uma variável aleatória, precisamos também de valores que sejam
característicos dessa distribuição, como, por exemplo, um valor
que esteja situado no seu centro. Assim, temos a definição do
valor esperado (ou valor médio) de uma variável aleatória:

Definição: se X é uma v.a. discreta, sendo x1,x2,x3,...,xn seus


possíveis valores, então o valor esperado (ou esperança
matemática ou valor médio) de X é definido como:
n
E(X)   x P(X  x
i 1
i i ). (2.2)

Exemplo 2.9

Considerando o experimento de lançar uma moeda 2


vezes, sendo X = número de caras, temos:

X 0 1 2
P(X=x) 1/4 1/2 1/4

56 Introdução à Estatística
Portanto:
1 1 1
E(X)= 0.( )  1.( )  2.( )  1 .
4 2 4

Exemplo 2.10

Uma seguradora paga U$ 30.000 em caso de acidente


de carro, sendo que a taxa cobrada é de U$ 1000. Sabe-se que a
probabilidade de um carro sofrer acidente é de 3%. Quanto a
seguradora espera ganhar por carro segurado?
Definindo G: ganho da seguradora, temos que a distribuição de
G é:

G -29.000 1000
P(G=g) 0,03 0,97

Assim:

E(G)=-29.000(0,03)+1000(0,97)=100.

Ou seja, é esperado que a seguradora ganhe U$ 100 por cada


carro segurado.

Introdução à Estatística 57
Observações:

1. Se X é uma v.a. contínua com fdp f, então:



E(X)= x f(x) dx .


Exemplo 2.11

Considerando X com fdp:

2x, se 0  x  1;
f(x)  
 0, caso contrário.
temos que o valor esperado de X é:

1 1 1
E(X)=  0
x 2x dx 

0
2x 2 dx 
2 3
3
x |  23 .
0

2. Se X é uma v.a. discreta e Y uma função de X


(Y=H(X)), então:
E(Y)=  H(xi )P(xi ) .
i

58 Introdução à Estatística
Exemplo 2.12

Para X = nº de caras em 2 lançamentos de uma moeda,


determinar o valor esperado de Y=X2+1.
Como sabemos, a distribuição de X é:

X 0 1 2
P(X=x) 1/4 1/2 1/4

Assim, de acordo com a observação anterior, temos:

E(Y)=E(X2+1)=(02+1).1/4+(12+1).1/2+(22+1).1/4=
=1/4+1+5/4=10/4=5/2.

3. Se (X,Y) é uma v.a. discreta bidimensional e Z uma


função de (X,Y)(Z=H(X,Y)), então:

E(Z)=   H(xi , y j )P(xi , y j ) .


i j

Exemplo 2.13

Considerando (X,Y) com distribuição conjunta:

Introdução à Estatística 59
y 1 2 3
x
1 0 1/6 1/6
2 1/6 0 1/6
3 1/6 1/6 0

Calcular o valor esperado de Z=XY.


De acordo com a observação anterior, teremos:

E(Z) = E(XY) = 1.1.0+1.2(1/6)+1.3(1/6)+2.1(1/6)+


+2.2.0+2.3(1/6)+3.1(1/6)+3.2(1/6)+3.3.0=
=0+2/6+3/6+2/6+0+1+3/6+1+0 = 11/3.

4. Se X é uma v.a. contínua com fdp f e Y=H(X), então:


E(Y)= H(x)f(x)dx.


5. Se (X,Y) é uma v.a. contínua bidimensional, com fdp


conjunta f e Z=H(X,Y), então:

 
E(Z) 
  H(x,y) f(x,y) dx dy .
- 

60 Introdução à Estatística
Principais propriedades do valor esperado:

1. O valor esperado de uma constante é a própria


constante, ou seja, se C é uma constante, então decorre
imediatamente de (2.2) que E(C)=C.

2. Multiplicando-se uma v.a. X por uma constante C,


seu valor esperado fica multiplicado por C, isto é,
E(CX)=CE(X).

3. Se X1, X2,..., Xn são variáveis aleatórias, então:


n n
E( 
i 1
Xi )   E(X ) .
i 1
i

4. O valor esperado do produto de duas v.a.’s independentes


X e Y é o produto dos valores esperados, isto é, se X e Y são
independentes, então E(XY)=E(X)E(Y).

2.6 Variância de uma variável aleatória

Da mesma forma que caracterizamos uma variável


aleatória X com relação ao centro de sua distribuição,

Introdução à Estatística 61
precisamos também de um valor que caracterize a dispersão de
X em torno de seu valor esperado. Para isso temos a definição
de variância, que é o valor esperado de [X-E(X)]2, ou seja:

Definição: seja X uma variável aleatória. Definimos a variância


de X, denotada por V(X) ou σ x 2 , da seguinte maneira:

V(X)=E[X-E(X)]2 . (2.3)

Observações:

1. A raiz quadrada positiva de V(X) é chamada de


desvio padrão de X e é denotado por x;
2. Desenvolvendo (2.3), obtemos que V(X) também
pode ser dada por:

V(X)=E(X2)-[E(X)]2 (2.4)

Exemplo 2.14

Com relação ao exemplo 2.9, temos que E(X)=1, logo:


[E(X)]2=1 e E(X2)=02.(1/4)+12.(1/2)+22.(1/4)=3/2. Portanto,
3 1
usando (2.4), obtemos: V(X)=E(X2)-[E(X)]2 = = -1= .
2 2

62 Introdução à Estatística
Exemplo 2.15

Pelo exemplo 2.11, temos que o valor esperado da


v.a. contínua X, com fdp:

2x, se 0  x  1;
f(x)  
 0, caso contrário.

é E(X)=2/3. Assim, para o cálculo de V(X), precisamos obter:


1 1 1
E(X2 ) 

0
x 2 2x dx 

0
2x3 dx 
1 4
2
x |  12 .
0

Portanto:
V(X)=E(X2)-(E(X))2 =1/2-(2/3)2 =1/2-(4/9)=1/18.

Covariância entre duas variáveis aleatórias

Uma medida de relação linear entre duas v.a.’s X e Y é


dada pela covariância entre elas, ou seja:

Definição: se X e Y são duas v.a.’s, então a covariância entre


elas é dada pelo valor esperado do produto dos desvios dessas
em relação aos seus respectivos valores esperados:

Cov(X,Y)=E{[X-E(X)].[Y-E(Y)]} (2.5)

Introdução à Estatística 63
Pode-se também escrever a covariância entre X e Y de
uma maneira mais simples, isto é, desenvolvendo-se o segundo
membro de (2.5), obtém-se:

Cov(X,Y)=E(XY)–E(X)E(Y). (2.6)

Exemplo 2.16

Considerando o exemplo 2.4, temos que: E(X)=E(Y)=


1 1 1
1.( )+2.( )+3.( ) = 2. Temos também, do exemplo (2.13),
3 3 3
11
que E(XY)= . Portanto, para as variáveis X e Y do exemplo
3
2.4, obtemos:

11 1
Cov(X,Y)=E(XY)–E(X)E(Y)= -(2)(2) =- .
3 3

Principais propriedades da variância:

1. A variância de uma constante é zero, ou seja, se C é


uma constante e X=C, então, imediatamente, de (2.3) ou (2.4)
temos que V(X)=0.

64 Introdução à Estatística
2. Multiplicando-se uma v.a. X por uma constante C,
sua variância fica multiplicada pelo quadrado da constante, isto
é, V(CX)=C2.V(X).

3. Somando-se ou subtraindo-se uma constante C a


uma v.a. X, sua variância não se altera, ou seja, V(X ± C)=
=V(X).

4. Para duas variáveis aleatórias X e Y, temos:


V(X  Y)=V(X)+V(Y)  2 cov(X,Y).

5. Se “a” e “b” são constantes e X uma variável


aleatória, então:
V(aX  b)=a2.V(X).

6. Se X1, X2,..., Xn são variáveis aleatórias, então:


n n
V( X i )   V(Xi )  2 cov(Xi , X j ) .
i 1 i 1 i j

7. Se X1, X2,..., Xn são variáveis aleatórias, duas a duas


independentes, então:
n n
V( X i )   V(Xi ) .
i 1 i 1

Introdução à Estatística 65
2.7 Coeficiente de correlação

Para medir a dependência linear entre duas v.a.’s X e Y,


de forma que não consideremos as unidades de medida das
mesmas, temos o coeficiente de correlação, que é definido por:

 X - E(X)  Y - E(Y) 
 
  Cov(X,Y)
ρ(X, Y) = E  .   = . (2.7)
 σ x
   σ y  
σ x .σ y

Pode-se mostrar que o coeficiente de correlação toma


valores entre –1 e 1 (-1    1), sendo que quanto mais
próximo de –1 ou 1 maior a relação linear entre as variáveis.
Um valor de  negativo indica que, ao crescer os valores de
uma variável, a outra tende a decrescer. Por outro lado, um
valor positivo de  indica que, ao crescer ou decrescer os
valores de uma variável, a outra tende a ter o mesmo
comportamento.

Observações:

1. Se (X,Y)=0, dizemos que X e Y são não


correlacionadas.

66 Introdução à Estatística
2. Se X e Y são duas v. a.’s independentes, então X e
Y são não correlacionadas, pois nesse caso Cov(X,Y) = 0 e
consequentemente (X,Y) = 0.
3. A recíproca da observação 2 não é verdadeira, ou
seja, é possível que duas v.a’s X e Y sejam não correlacionadas
e, no entanto, X e Y não sejam independentes.

Exemplo 2.17

Considerando novamente o exemplo 2.4, obtemos:


1 1  1  14
E(X )  E(Y 2 )  12    22    32   
2
.
3 3 3 3 Pelo exemplo
1
2.16, temos que Cov(X,Y) = - e E(X) = E(Y) = 2. Assim,
3
14 2
V(x) = V(Y) = -4= e, portanto:
3 3

1

(X,Y) = 3   0,5 .
2 2

3 3

Exemplo 2.18

No exemplo 2.7 concluímos que existe algum tipo de


relação entre a prática do aborto e o tipo de união marital.

Introdução à Estatística 67
Calculemos, então, o coeficiente de correlação entre essas
variáveis. Para isto, obtivemos: E(X) = 0,78; V(X) = 0,172;
E(Y) =0,33; V(Y) = 0,221 e E(X.Y) = 0,32. Logo:

0,32-(0,78)(0,33)
ρ(X,Y)=  0,32.
(0,172)(0,221)

Vemos, então, que existe uma relação linear positiva


entre a prática do aborto e o tipo de união marital.

2.8 Função de distribuição acumulada

Definição: a função de distribuição acumulada (fd) de uma


variável aleatória X é definida por:

F(x)=P(X  x),  x  R.
Resultado 1:
a) Se X é discreta, temos:
F(x) =  P(X  x ),  x  R .
xi  x
i

b) Se X é contínua, então:
x
F(x) =  f(s) ds,  x  R .
-

68 Introdução à Estatística
Exemplo 2.19
Se X é uma v.a. discreta com distribuição:
X 0 1 2
P(X=x) 1/3 1/6 1/2

então a função de distribuição acumulada de X é:


0, se x  0;
1
 , se 0  x  1;
3
F ( x)  
 1 , se 1  x  2;
2
1, se x  2.

cujo gráfico é dado por:

F(x)

 

 

0 1 2 x

Introdução à Estatística 69
Exemplo 2.20

Se X é uma variável aleatória contínua, com fdp:

2x, se 0  x  1;
f(x)  
 0, caso contrário.

então a função de distribuição acumulada de X é dada por:

0, se x  0;

 x
F ( x)    2t dt = x 2 , se 0  x  1;

0

1, se x  1.

cujo gráfico é:

F(x)
1 


1 x

70 Introdução à Estatística
Resultado 2:

a) Se F é a função de distribuição acumulada de uma


variável aleatória contínua com fdp f, então:
d
f(x)  F(x) .
dx

para todo x em que F seja derivável.

b) Se F é a função de distribuição acumulada de uma


variável aleatória discreta, com possíveis valores x1<x2<....,
então:
F(xj)-F(xj-1)=P(X=xj).

Exemplo 2.21

Supondo-se X uma v.a. contínua com função de


distribuição acumulada:
0, se x  0;
F ( x)   -x
1-e , se x  0.

então, pelo resultado 2, item a, temos que a função densidade


de probabilidade (fdp) de X, é:

0, se x  0;
f ( x)   -x
e , se x  0.

Introdução à Estatística 71
Problemas

1. Lança-se um dado não viciado. Seja X o dobro do


número ocorrido:

a) Determine a distribuição de X;
b) Calcule o valor esperado de 3X e de X+5.
2. Uma v.a. discreta X tem a distribuição de
probabilidade dada por:
k
P(X=x)= , para x=1,3,5,7.
x

Determine K e E(X).

3. Suponha que uma v.a. Y tenha a seguinte


distribuição:
Y 0 1
P(Y=y) 1-q q

Obtenha o valor esperado e a variância de Y.

4. Sejam X e Y v.a.’s independentes com as seguintes


distribuições:

72 Introdução à Estatística
X 1 2 Y 5 10 15
P(X=x) 0,6 0,4 P(Y=y) 0,2 0,5 0,3

a) Obter a distribuição conjunta de X e Y;


b) Calcular o valor esperado e a variância de X+Y;
c) Obter a distribuição e a variância de XY.

5. Numa comunidade em que apenas 10 casais


trabalham, fez-se um levantamento no qual foram obtidos os
seguintes valores para os rendimentos:

Rendimento do Rendimento da
Casal
homem em (U.M.) mulher em (U.M.)
1 10 5
2 10 10
3 5 5
4 10 5
5 15 5
6 10 10
7 5 10
8 15 10
9 10 10
10 5 10

Introdução à Estatística 73
Um casal é escolhido ao acaso entre os dez. Seja X o
rendimento do homem e Y o rendimento da mulher:

a) Construir a distribuição conjunta de X e Y;


b) Determinar as distribuições marginais de X e Y;
c) Calcular E(X), E(Y), V(X) e V(Y);
d) Considerando Z a variável igual à soma dos
rendimentos do homem e da mulher, calcule
E(Z) e V(Z);
e) Calcule o coeficiente de correlação entre X e Y.

6. A tabela a seguir dá a distribuição conjunta de X e Y:


X 1 2 3
Y
0 0,1 0,1 0,1
1 0,2 0,0 0,3
2 0,0 0,1 0,1

a) Obter E(X), E(Y), V(X), V(Y) e E(X+Y);


b) Verifique se X e Y são independentes;
c) Determine a distribuição e o valor esperado de XY;
d) Calcule o coeficiente de correlação entre X e Y.

74 Introdução à Estatística
7. Considere a distribuição conjunta de X e Y,
parcialmente conhecida, dada na seguinte tabela:

X -1 1 P(Y=y)
Y
-1 1/12
0 1/3
1 1/4 1/4
P(X=x) 1

a) Completar a tabela, supondo X e Y independentes;


b) Calcular E(X), E(Y), V(X) e V(Y);
c) Se Z=aX+bY, calcule a e b de modo que E(Z)=10 e
V(Z)=600.

8. Considerando um exame de estatística, que consiste


em quatro problemas, definamos as seguintes variáveis
aleatórias: X = número de problemas feitos corretamente por
um aluno e Y definida da seguinte maneira:

1, se um aluno é introvertido;


Y= 
0, em caso contrário.

Introdução à Estatística 75
Suponhamos que a distribuição conjunta de X e Y seja dada
por:
x
Y 0 1 2 3 4
0 0,016 0,12 0,28 0,28 0,104
1 0,004 0,03 0,07 0,07 0,026

a) Ache as distribuições marginais de X e de Y;


b) Podemos dizer, nesse caso, que existe independência
entre o número de questões feitas corretamente e o
fato do aluno ser ou não introvertido?
c) Qual é, então, o valor do coeficiente de correlação
entre X e Y?
9. Considerando os alunos de certa universidade,
suponhamos que a tabela a seguir seja a distribuição conjunta
das variáveis aleatórias:

1, se o aluno é do sexo masculino;


X= 
0, se o aluno é do sexo feminino.

1, se o aluno senta-se em uma carteira



Y=  nas filas da frente;
0, se o aluno senta-se nas filas de trás.

76 Introdução à Estatística
X 0 1
Y
0 0,24 0,48
1 0,14 0,14

a) Existe independência entre o sexo do aluno e o fato


deste sentar-se ou não nas filas da frente?
b) Determine o coeficiente de correlação entre X e Y.

10. Suponhamos conhecida e dada pela tabela a seguir


a distribuição conjunta das variáveis aleatórias

X=

1, se um apessoaé introvertida


Y= 
0, em caso contrário.

X 0 1
Y
0 0,4 0,1
1 0,4 0,1

Introdução à Estatística 77
Nesse caso, qual o coeficiente de correlação linear entre a
pessoa ser ou não introvertida e o fato de se aborrecer ou não
frequentemente com as outras?

11. De um lote que contém 25 peças, das quais 5 são


defeituosas, são escolhidas 4 ao acaso. Seja X o número de
defeituosas encontradas, faça o gráfico da função de
distribuição acumulada de X, quando:

a) As peças forem escolhidas com reposição;


b) As peças forem escolhidas sem reposição.
12. Seja X uma variável aleatória contínua, com fdp
dada por:

ax, 0  x  1
 a, 1  x  2

f ( x)  
ax  3a, 2  x  3
0, para quaisquer outros valores.

Determinar a constante “a”.

78 Introdução à Estatística
13. A proporção de álcool em certo composto pode ser
considerada como uma variável aleatória X, com função
densidade de probabilidade:

20 x3 (1  x), se x  (0,1);


f ( x)  
0, se x  (0,1).

a) Calcule P(X  2/3);

b) Determine a função de distribuição acumulada de


X e esboce seu gráfico.

14. Suponha que X seja uma v.a. contínua, com fdp:

8
 , x  2;
f ( x)   x 3
0, caso contrário.

Determinar o valor esperado de W=(1/3)X.

Introdução à Estatística 79
Capítulo 3

Algumas distribuições importantes

3.1 Distribuições discretas

3.1.1 A distribuição de Bernoulli

Se uma v.a. assume somente os valores zero e um, com


probabilidades 1-p e p, respectivamente, ou seja, se sua
distribuição é dada por:

x 0 1
P(X=x) 1-p p

Então, nesse caso, dizemos que X tem distribuição de


Bernoulli, e, por (2.2) e (2.3), obtemos de imediato que E(X)=p
e V(X)=p(1-p).

Exemplo 3.1

Uma moeda é lançada uma vez. Seja X definida por:

1, se ocorrer cara;


X= 
0, se ocorrer coroa.

80 Introdução à Estatística
Aqui, a distribuição de X é:

x 0 1
P(X=x) 1/2 1/2

Exemplo 3.2

Supor que em certa comunidade a probabilidade de uma


pessoa ter problemas de psicose seja igual a 0,01. Se
definimos:

1, se uma dada pessoa da comunidade



Y=  tem psicose,
0, em caso contrário.

teremos que Y é uma variável aleatória de Bernoulli, e sua


distribuição é dada por:

y 0 1
P(Y=y) 0,99 0,01

Introdução à Estatística 81
Experimento binomial

Se um experimento consiste de n repetições


independentes de Bernoulli, sendo constante e igual a p a
probabilidade de sucesso em cada repetição, então dizemos que
esse é um experimento binomial.

3.1.2 A distribuição Binomial

Se uma v.a. X corresponde ao número de sucessos em n


repetições de um experimento binomial, sendo p a
probabilidade de sucesso em cada repetição, então se diz que X
tem distribuição Binomial com parâmetros n e p (costuma-se
escrever XB(n,p)), e sua função de probabilidades é dada por:

n
P(X=k) =   p k (1-p)n-k, k=0,1,2,...,n. (3.1)
k

Pode-se verificar facilmente que o valor esperado e a


variância de uma v.a. XB(n,p) são dados por:

E(X)=np e V(X)=np(1-p).

82 Introdução à Estatística
Exemplo 3.3

Em oito lançamentos de uma moeda, qual será a


probabilidade de ocorrerem pelo menos duas caras? Definindo
a v.a. X=número de caras nos oito lançamentos, verificamos,
de imediato, que XB(8, 1/2). Assim:

P (de ocorrerem pelo menos duas caras) =P(X2)=1-

 8  8
-[P(X=0)+P(X=1)]=1-   . (1/2)0 .(1 / 2)8 -   .(1/2)1.(1 / 2)7 =
0   1
 

=1-9(1/2)8.

Exemplo 3.4

Um exame de estatística consta de seis problemas.


Para ser aprovado, um estudante deverá resolver,
corretamente, pelo menos 4 deles. Um determinado estudante
sabe 60% do assunto sobre o qual serão elaborados os
problemas. Qual será a probabilidade desse estudante ser
aprovado?

Introdução à Estatística 83
Definindo a v.a. X= número de problemas resolvidos
corretamente pelo estudante, temos que XB(6;0,6). Portanto:

P(do estudante ser aprovado)= P(X  4) = P(X=4)+

6 6
+ P(X=5) + P(X=6) =   (0,6)4 (0, 4) 2 +   (0,6)5 (0, 4) +
 4 5

6
+   (0,6)6 (0,4)0 = 0,544.
6

3.1.3 A distribuição Hipergeométrica

Consideremos uma população com N elementos, dos


quais r tem uma determinada característica “A”. Se retiramos,
sem reposição, uma amostra de tamanho n e definirmos X =
número de elementos na amostra com a característica “A”,
teremos que a distribuição de probabilidade de X é dada por:

 r  N  r 
  
 k  n  k 
P( X  K )  , k = 0,1,....., min(n,r). (3.2)
 N
 
n 

Nesse caso dizemos que X tem distribuição hipergeométrica.

84 Introdução à Estatística
Valor esperado e variância

Se X tem distribuição hipergeométrica, então pode-se


mostrar que:

(N  n)
E(X)=np e V(X)  np(1  p).
(N  1)

sendo p  r .
N

Exemplo 3.5

Pequenos motores são guardados em caixas de 50


unidades. Um inspetor de qualidade examina cada caixa, antes
da posterior remessa, testando 5 motores. Se nenhum motor for
defeituoso, a caixa é aceita. Se pelo menos um deles for
defeituoso, todos os 50 motores são testados. Dado que existem
6 motores defeituosos numa caixa, qual a probabilidade de que
seja necessário todos os motores serem examinados?

Considerando X = número de defeituosos na amostra de


5 motores, temos que X se distribui segundo uma
Hipergeométrica, sendo

N = 50 (total de motores);

Introdução à Estatística 85
r = 6 (total de motores defeituosos);

n = 5 (tamanho da amostra);

ou seja:

 6  44 
  
 k  5  k 
P(X  K)  , k  0,1,...,5.
 50
 
5 

Assim:

P(todos os motores a serem examinados) = P(X1) =

 6  44
  
 0  5 
 1  P(X  0)  1   1 - 0,51  0,49 .
 50
 
5 

3.1.4 A distribuição de Poisson

Definição: dizemos que uma variável aleatória discreta


X tem distribuição de Poisson com parâmetro  se:

e - . k
P(X=k)= , k  0,1,2,... (3.3)
k!

86 Introdução à Estatística
Valor esperado e variância

Se X tem distribuição de Poisson com parâmetro ,


então:

E(X)=V(X)= (ver problema 9 deste capítulo).

Exemplo 3.6

Num livro de 800 páginas há 800 erros de impressão.


Qual a probabilidade de que uma página contenha pelo menos
3 erros?

Fazendo =taxa de erros por página, temos a seguinte


regra de três:

800 páginas  800 erros

1 página  

da qual obtemos =1. Assim, definindo X = número de erros


numa página, teremos
2 2
e 1.1k
P(X  3)=1-P(X  2)= 1   P(X  k)  1   
k 0 k 0 k

 e 1 e 1 e 1 
1     1  e 1 1  1  1   0,0803 .
 0!
 1 ! 2 ! 
  2 

Introdução à Estatística 87
Exemplo 3.7

Numa central telefônica chegam 300 telefonemas por

hora. Qual a probabilidade de que:

a) Num minuto não haja chamada?


b) Em 2 minutos haja 2 chamadas?
c) Em t minutos não haja chamadas?
Solução:

a) Fazendo =taxa de chamadas por minuto, temos:

60 minutos  300 chamadas

1 minuto  

da qual obtemos =5. Assim, para X=número de chamadas

em 1 minuto:

e 5 .50
P(não haver chamada)=P(X=0)=  e  5  0,00674.
0!

88 Introdução à Estatística
b) Fazendo  = taxa de chamadas em 2 minutos e
resolvendo:

60 minutos  300 chamadas

2 minutos  

obtemos  = 10. Logo, para X = número de chamadas em 2


minutos, temos:

e 10 .(10)2
P(X  2)   0,00227.
2!

c) Fazendo =taxa de chamadas em t minutos, temos:

60 minutos  300 chamadas

t minutos  

da qual obtemos  = 5t. Portanto, para X =número de

chamadas em t minutos, teremos:

e 5t (5t)0
P(X=0)=  e  5t .
0!

Introdução à Estatística 89
3.1.5 A distribuição de Poisson e a distribuição Binomial

Se X~B(n,p), sendo n muito “grande” (n  ∞) e p


muito “pequeno” (p  0), então, fazendo-se  = np, mostra-
se que:

e  . k
P(X  k)  .
k!

Ou seja, a distribuição de X tende para uma Poisson


com parâmetro  = np.

Observação: na prática, a aproximação anterior é


considerada satisfatória quando np  10.

Exemplo 3.8

A probabilidade de uma lâmpada se queimar ao ser


ligada é 1/100. Numa instalação de 100 lâmpadas, qual a
probabilidade de 2 lâmpadas se queimarem ao serem ligadas?

Definindo X = número de lâmpadas que se queimam ao


serem ligadas, temos que XB(100;1/100), ou seja,
np=100.(1/100)=1. Assim, pela aproximação anterior, obtemos:

e np . (np)2 e 1. 12


P(X  2)    0,184 .
2! 2!

90 Introdução à Estatística
Problemas

1. Sabe-se que 20% dos animais submetidos a um certo


tratamento não sobrevivem. Se esse tratamento foi aplicado em
20 animais e se X é o número de não sobreviventes, pede-se:

a) Calcular E(X) e V(X);


b) Calcular a probabilidade de sobreviverem no mínimo
18 animais.

2. Admitindo-se que a probabilidade de nascer menino


é igual à de nascer menina, calcule a probabilidade de um casal
com 6 filhos ter 4 homens e 2 mulheres.

3. Em um congresso científico existem 15 matemáticos


e 12 estatísticos. Qual a probabilidade de se formar uma
comissão com 5 membros, na qual figurem 3 matemáticos e 2
estatísticos?

4. Supondo chances iguais em questões do tipo certo –


errado, determine a probabilidade de se acertar pelo menos 3 de
10 questões desse tipo.
5. Em certa cidade, sabe-se que 1% da população tem
problemas de psicose. Para um grupo de 20 pessoas dessa
cidade, pede-se:

Introdução à Estatística 91
a) Calcular a probabilidade de se encontrar pelo menos
uma com psicose;
b) Calcular a probabilidade de se encontrar no máximo
duas pessoas com psicose;
c) Determinar o valor esperado e o desvio padrão do
número de pessoas com psicose.

6. Quinze pessoas estão usando insígnias numeradas de


1 a 15. Três pessoas são escolhidas ao acaso e são retiradas da
sala. Os números das insígnias são anotados. Qual a
probabilidade de que:

a) O menor número seja 7?


b) O maior número seja 7?

7. Supondo que 10% dos alunos de uma universidade


são superdotados, qual a probabilidade de numa classe com 20
alunos dois, no máximo, sejam superdotados?

8. Certo curso de treinamento aumenta a produtividade


de uma população de funcionários em 85% dos casos. Se 11
funcionários participam desse curso, encontre:

a) A probabilidade de no mínimo nove aumentarem a


produtividade;

92 Introdução à Estatística
b) O valor esperado do número de funcionários que
aumentam a produtividade.

9. Se X tem distribuição de Poisson com parâmetro ,


mostrar que E(X)=V(X)=.

10. Uma firma compra lâmpadas por centenas.


Examina sempre uma amostra de 15 lâmpadas para verificar se
estão boas. Se uma centena inclui 12 lâmpadas queimadas, qual
a probabilidade de se escolher uma amostra com pelo menos
uma lâmpada queimada?

11. Numa estrada há 2 acidentes para cada 100 Km.


Qual a probabilidade de:

a) Em 250 km ocorram pelo menos 3 acidentes?


b) Em 300 km ocorram 5 acidentes?

12. Uma fábrica de automóveis verificou que ao testar


seus carros na pista de prova há, em média, um estouro de
pneus a cada 300 km.

a) Qual a probabilidade de num teste de 900 km haja no


máximo um pneu estourado?
b) Qual a probabilidade de que um carro ande 450 km
sem estourar nenhum pneu?

Introdução à Estatística 93
13. Num lote de 40 peças, 20% são defeituosas.
Retirando-se 10 peças do lote, sem reposição, qual a
probabilidade de encontrar:

a) Três defeituosas?
b) No máximo 2 defeituosas?

14. Se a probabilidade de uma máquina produzir uma


peça defeituosa num certo dia é 0,01, qual a probabilidade de
se ter no máximo 4 defeituosas em um dia de 500 peças
produzidas?

3.2 Distribuições contínuas

3.2.1 A distribuição Uniforme

Definição: se X é uma variável aleatória contínua com


função densidade de probabilidade:

 1
 , se x  (a,b);
f(x)   b  a (3.4)
 0 , caso contrário.

Então dizemos que X tem distribuição uniforme no intervalo

(a,b).

94 Introdução à Estatística
Exemplo 3.9

A dureza de uma peça de aço pode ser pensada como


sendo uma variável aleatória com distribuição uniforme, no
intervalo (50;70) da escala de Rockwell. Calcular a
probabilidade de que uma peça tenha dureza entre 55 e 60.

Definindo X = dureza de uma peça de aço, temos:

 1 1
  , se x  (50;70);
f(x)   70-50 20
 0 , caso contrário.

Logo:

60 60
P(55  X  60)= 
55
1
20
dx 
x
|
20 55

5 1
 .
20 4

Valor esperado, variância e função de distribuição

Se X tem distribuição uniforme em (a,b), então (ver

problema 24 deste capítulo):

ab
a) E(X)  .
2

Introdução à Estatística 95
(b  a)2
b) V(X)  .
12

 0, se x  a;
x a

c) F ( x)   , se a  x  b;
b a
 1, se x  b.

3.2.2 A distribuição Exponencial

Definição: uma variável aleatória X tem distribuição


Exponencial com parâmetro , se sua função densidade de
probabilidade é dada por:

 e- x , se x  0;
f(x)   (3.5)
 0 , caso contrário.

Valor esperado, variância e função de distribuição

Se X tem distribuição exponencial com parâmetro ,

então (ver problema 25 deste capítulo):

1
a) E(X)  .

1
b) V(X)  .
2

96 Introdução à Estatística
1  e- x , se x  0;
c) F(x)  
 0 , caso contrário.

Exemplo 3.10

Suponhamos que X tenha distribuição exponencial com


parâmetro . Calcular a probabilidade de que X ultrapasse seu
valor esperado.

Nesse caso:

 1  
P( X  E ( X ))  P X    1  e  x dx  e  x | 1 
   
1 1
  (0  e )  e  0,3679

3.2.3 A distribuição Normal

Definição: uma v.a. contínua X tem distribuição


Normal com parâmetros  e 2, -<< e 0<2<+, se a sua
função densidade de probabilidade é dada por:
1 x μ 2
1  ( )
f(x)= e 2 σ , -  x   (3.6)
σ 2π

Sendo que suas principais características, são:

Introdução à Estatística 97
1. O gráfico de f(x) tem a forma igual a da figura
seguinte:

2. X= é o ponto de máximo de f(x);

3. f(x) tende para zero quando x tende para mais ou


menos infinito;

4. f(x) é simétrica ao redor de x=, isto é, f(+x)=f(-


x), para todo x;

5. Entre os pontos -3 e +3, a área sob o gráfico de


f(x) é igual a 99,74%, ou seja, entre estes pontos está
praticamente toda área sob o gráfico de f(x);

98 Introdução à Estatística
6. Costuma-se escrever XN (, 2) para expressar que
a variável aleatória X tem distribuição normal com parâmetros
 e 2;

7. Se XN (, 2), mostra-se que E(X)= e V(X)=2.

Variável normal padrão

X μ
Uma v.a. Z é dita normal padrão se Z= , sendo X
σ

uma v.a. normal com valor esperado  e variância 2. Assim,


pode-se mostrar que Z tem distribuição normal com E(Z)=0 e
V(Z)=1, ou seja, ZN(0;1).

As probabilidades sob a curva da normal padrão são


encontradas em tabelas, que, no caso, dão as áreas sob o
gráfico da função densidade da normal padrão. Em geral, essas
tabelas fornecem a probabilidade de que a variável normal
padrão Z esteja entre zero e um valor z, isto é, P(0<Z<z).

Para ilustrar o uso de uma tabela dessas (Tabela I do


apêndice), vejamos os exemplos seguintes.

Introdução à Estatística 99
Exemplo 3.11

Supondo que uma v.a. X tem distribuição normal com


média 100 e variância 25, qual será a probabilidade de X estar
X - 100
entre 112 e 114? Temos que Z= N(0,1). Logo:
5

 (112  100) (   100) (114  100) 


P(112<X<114)=P     
 5 5 5

=P(2,4<Z<2,8)=P(0<Z<2,8)-P(0<Z<2,4)=0,4974-0,4918

=0,0056.

Exemplo 3.12

Sendo XN(50;16), determinar x, tal que:

i) P(X>x)=0,05;

ii) P(X<x)=0,99.

Solução:

 X  50 x  50 
i) P(X>x)=0,05  P   0,05 
 16 16 

 x  50 
 P Z    0,05 ,
 4 

100 Introdução à Estatística


sendo ZN(0;1). Portanto, procurando na tabela da normal
padrão o valor “z”, tal que P(Z>z)=0,05, encontramos z=1,65.
Dessa forma:

x  50
 1,65  x  4(1,65)  50  56,6 .
4

 X  50 x  50 
ii) P(X<x)=0,99  P   0,99 
 16 16 

 x  50 
 P Z    0,99 .
 4 

Assim, procurando na tabela da normal padrão o valor


“z”, tal que P(Z<z)=0,99 , temos z=2,33 , ou seja:

x  50
 2,33  x  4(2,33)  50  59,32 .
4

3.2.4 A distribuição Qui-quadrado

Sejam Z1, Z2, ..., Zv independentes e todas com


distribuição N(0,1), tem-se que a variável aleatória:
v
Z12 + Z22 + ... + Zv2  Z
i 1
i
2
. (3.7)

possui uma distribuição chamada qui-quadrado, com parâmetro


v, que é denominado de graus de liberdade.

Introdução à Estatística 101


Observações:

1. Costuma-se usar a notação Y  2(v) para denotar que


a variável aleatória Y tem distribuição qui-quadrado com v
graus de liberdade;

2. A distribuição qui-quadrado tem suas probabilidades


tabeladas, de acordo com a Tabela II do apêndice, de forma que
essa fornece os valores y, tais que P(  2(v)>y)=p, para alguns
valores de p e alguns valores de v.

Exemplo 3.13

Supondo v=10, temos que o valor y é tal que P( 


2
(v)>y)=0,05 é 18,307.

3.2.5 A distribuição t de Student

Sejam Z uma variável aleatória com distribuição N(0,1)


e Y uma variável aleatória com distribuição  2(v), com Z e Y
independentes, tem-se que a variável aleatória:

Z
T= (3.8)
Y
v

possui distribuição chamada t de Student, com v graus de


liberdade.

102 Introdução à Estatística


A distribuição t de Student é aproximadamente N(0,1)
quando v é significativamente grande. Para v pequeno, a curva
da função densidade de probabilidade da distribuição t possui a
mesma forma da normal padrão, sendo diferente somente no
aspecto do achatamento. Ou seja, a curva da distribuição t é um
pouco mais achatada, significando que essa distribuição possui
maior variabilidade que a normal padrão.

Observações:

1. Usamos a notação Tt(v) para denotar que a variável


aleatória T tem distribuição t de Student com v graus de
liberdade;

2. A distribuição t de Student também tem suas


probabilidades tabeladas, conforme a Tabela III do apêndice,
sendo que essa fornece valores t0 tais, que P(-t0 < t(v) < t0)=1-p,
para alguns valores de p e v=1, 2, 3, ... ,30, 35, 40, 50, 60, 120.
Quando v é muito “grande”, aproxima-se a distribuição t pela
N(0,1), de forma que se pode ver na Tabela III que para v>120 há
uma linha indicada por v=  , que corresponde às probabilidades
de uma distribuição normal padrão.

Introdução à Estatística 103


Exemplo 3.14

Supondo v=18 temos, pela tabela da distribuição t, que


o valor t0 é tal que P(T >t0)=0,10 é 1,33.

3.2.6 A distribuição F

Sejam U e V duas variáveis aleatórias independentes,


cada uma com distribuição qui-quadrado com v1 e v2 graus de
liberdade, respectivamente, tem-se que a variável aleatória:
U
v1
Y= . (3.9)
V
v2
possui uma distribuição chamada F de Snedecor, ou
simplesmente distribuição F, com graus de liberdade v1 e v2.

Observações:

1. Costuma-se usar a notação YF(v1,v2) para denotar


que a variável aleatória Y tem distribuição F com v1 e v2 graus
de liberdade;

2. As probabilidades da distribuição F são também


tabeladas de acordo com a Tabela IV do apêndice, sendo que
essa fornece os valores y, tais que P(F(v1,v2)>y)=. Nos casos

104 Introdução à Estatística


em que precisamos calcular P(F(v1,v2)<y)=, usamos a
identidade:

1
F(v1, v2 )  . (3.10)
F(v2 , v1 )

Exemplo 3.15

Temos da Tabela IV que o valor y1, tal que


P(F(5,7)>y1)=0,05, é 3,97. Qual será o valor y2, tal que
P(F(5,7)<y2)=0,05? Usando (3.10), teremos:

 1   1 
0,05=P(F(5,7)<y2)  P  y2   P F(7,5)  .
 F(7,5)  
 y2 

Da tabela da distribuição F obtemos que 1/y2=4,88. Logo,


y2=0,205.

Problemas

15. Considerando X a v.a. do exemplo 3.11, calcule:

a) P(100<X<106);
b) P(89<X<107);
c) P(X>108).

Introdução à Estatística 105


16. Foi feito um estudo sobre as alturas dos alunos de um
colégio, observando-se que elas se distribuem normalmente
com média de 1,72m e desvio padrão de 0,05m. Qual a
porcentagem dos alunos com altura:

a) Entre 1,67 e 1,77m?


b) Abaixo de 1,62m?
c) Acima de 1,90m?

17. Um teste de inteligência foi aplicado a um grupo de 50


adolescentes do 2º grau. Supondo que se obteve uma
distribuição normal com média 70 e desvio padrão de 6, pede-
se:

a) A porcentagem dos alunos com nota superior à 80;


b) O número de alunos com notas entre 45 e 65.

18. A experiência com certo exame de inglês básico indica que


as notas são normalmente distribuídas com média 130 e desvio
padrão 20. Se é exigida a nota 100 para que se passe no exame,
qual a probabilidade de uma pessoa ser reprovada?

106 Introdução à Estatística


19. As notas de matemática dos alunos de certo colégio(X) são
normalmente distribuídas, com média 6,4 e desvio padrão 0,8.
O professor atribui graus A, B e C da seguinte forma:

Notas(X) Grau

X5 C

5  X  7,5 B

7,5  X  10 A

Em uma classe de 80 alunos, qual o número esperado de alunos


com grau A?, B?, C?

20. Suponha que as notas de uma prova sejam


normalmente distribuídas com média 73 e desvio padrão 15.
Sabe-se que 15% dos alunos mais adiantados recebem o grau A
e 12% dos mais atrasados recebem grau F. Encontre o mínimo
para se receber o grau A e o mínimo para não se receber o grau
F.

Introdução à Estatística 107


21. Um teste de aptidão para matemática dá notas que
vão de 200 a 800. Estas notas têm distribuição
aproximadamente normal com média 470 e desvio padrão 120.

a) Qual a porcentagem de estudantes com notas entre


500 e 600?

b) Em um conjunto de 200 estudantes, quantos


deverão ficar com notas acima de 450?

22. O tempo necessário para completar uma tarefa


escolar tem distribuição normal com média de 90 minutos e
desvio padrão de 15 minutos. Qual será a porcentagem de
alunos que terminam a tarefa em menos de duas horas?

23. Suponhamos que o QI da população de certo país seja


normalmente distribuído com valor esperado igual a 107 e desvio
padrão igual a 15. Se uma pessoa é considerada superdotada
quando seu QI é superior a 140, qual deverá ser o número de
superdotados em uma cidade desse país, com 40.000 habitantes?

24. Se X tem distribuição uniforme em (a,b), mostre


que:

ab
i) E(X)  .
2

108 Introdução à Estatística


(b  a)2
ii) V ( X )  .
12
0, se x  a,
xa

iii) F ( x)   , se a  x  b,
 b  a
1, se x  b.

25. Se X tem distribuição exponencial com parâmetro


, mostrar que:
1
i) E(X)  .

1
ii) V(X)  .
2

1  e  x , se x  0,
iii) F ( x)  
0, caso contrário.
26. Uma fábrica de tubos de TV determinou que a
vida média dos tubos de sua fabricação é de 800 horas de uso e
segue uma distribuição exponencial. Qual a probabilidade de
que a fábrica tenha que substituir um tubo gratuitamente, se
oferece uma garantia de 300 horas de uso?
27. Na leitura de uma escala, os erros variam de
–1/4 a 1/4, com distribuição uniforme de probabilidade.
Calcular a média e a variância da distribuição dos erros.

Introdução à Estatística 109


28. A duração de uma lâmpada é uma variável aleatória
T, com fdp dada por:
 1 1000t
 e , se t  0 (em horas ),
f (t )  1000
0, se t  0.

Calcular a probabilidade de uma lâmpada:

a) Se queimar antes de 1000 horas;


b) Durar entre 800 e 1200 horas.

29. Suponha que X seja uniformemente distribuída


sobre [- ; +], onde >0. Determinar , de modo que as
seguintes relações sejam satisfeitas:

a) P(X>1)=1/3.

b) P(X<1/2)=0,7.

30. Definindo  2(v,) o valor de y, tal que P(  2(v)>y)= , e


usando a tabela da distribuição qui-quadrado, determinar:

a)  2(10;50%) b)  2(21;10%) c)  2(1; 2%)


d)  2(19;1%) e)  2(8; 30%)

110 Introdução à Estatística


31. Definindo t(v, ) o valor de y, tal que P(t>y|v)=
 e usando os valores da tabela da distribuição t, calcule:

a) t(1;5%) b) t(10;95%) c) t(20; 80%)


d) t(6;10%) e) t(15; 2,5%) f) t(120; 0,1%)

32. Indicando por F(v1,v2,) o número y, tal que


P(F>y|v1,v2)= obtenha, usando a tabela da distribuição F:

a) F(2;3;5%) b) F(3;2;95%) c) F(1; ∞,5%)


d) F(120;120;5%) e) F(15;15;95%) f) F(28;35;5%)

Introdução à Estatística 111


Capítulo 4

Introdução à inferência estatística

4.1 População e amostra

Entende-se por população um conjunto de indivíduos


ou objetos, para os quais se podem observar valores de uma ou
mais variáveis. Uma amostra é qualquer subconjunto da
população.

Exemplo 4.1

Supondo que queremos estudar algumas características


dos QIs de 2000 alunos de uma faculdade, selecionamos uma
amostra de 100 alunos e verificamos seus QIs. Nesse caso
temos: a variável observada é o QI; a população é formada
pelos 2000 QIs e, a amostra, pelos QIs dos 100 alunos
selecionados.

4.2 Amostra aleatória

Definição: uma amostra aleatória de tamanho n de uma v. a.


X é um conjunto de n variáveis aleatórias independentes
X1, X2, X3 ,..., Xn , cada uma com a mesma distribuição de X.

112 Introdução à Estatística


4.3 Estatísticas e parâmetros

Definição: uma estatística é uma função qualquer da amostra.

Dada uma amostra X1, X2, X3 ,..., Xn, temos, por exemplo, as
estatísticas:

n
1
Média amostral: X  
n i1
Xi .

1 n
Variância amostral: S2   (Xi-X)2 .
n-1 i 1

Definição: um parâmetro é uma medida usada para descrever


uma característica da distribuição de uma v.a. X.

Temos, por exemplo, que o valor esperado e a variância


são parâmetros de uma distribuição de probabilidade.

4.4 Distribuições amostrais

Se T é uma estatística da amostra (X1, X2, X3,...,Xn),


então a distribuição de T, quando (X1, X2, X3,...,Xn) assumem
todos os possíveis valores, é chamada de distribuição amostral
de T.

Introdução à Estatística 113


Exemplo 4.2

Consideremos uma população de tamanho N=3 e uma


v.a. X com a seguinte distribuição:

X 1 2 3
P(X=x) 1/3 1/3 1/3

Assim: E(X)=2 e V(X)=2/3=0,667.

Retirando todas as amostras possíveis de tamanho n=2,


com reposição, obtemos a seguinte tabela:

Valores Média
Probabilidades
amostrais amostral ( x )
(1,1) 1/9 1,0
(1,2) 1/9 1,5
(1,3) 1/9 2,0
(2,1) 1/9 1,5
(2,2) 1/9 2,0
(2,3) 1/9 2,5
(3,1) 1/9 2,0
(3,2) 1/9 2,5
(3,3) 1/9 3,0

114 Introdução à Estatística


Nesse caso, a distribuição da estatística X é dada por:

x 1,0 1,5 2,0 2,5 3,0


P( X = x) 1/9 2/9 3/9 2/9 1/9

sendo:

1 2 3 2 1
E( X ) = 1( )+1,5( )+2( )+2,5( )+3( )=2 .
9 9 9 9 9
1 2 3 2 1
E( X 2) = 1( )  2, 25( )  4( )  6, 25( )  9( )  4,333
9 9 9 9 9
Logo:

V( X ) = 4,333 - 4 = 0,333.

V(X)
Assim, verificamos que E( X ) = E(X) e V (X) = .
2

4.5 Distribuição amostral da média

Na teoria da inferência estatística tem-se o seguinte


resultado: seja X uma v.a. com valor esperado  e variância 2
e X a média de uma amostra aleatória de tamanho n de X.
Então:

a) E( X ) =  ;

b) V( X ) = 2 /n;

Introdução à Estatística 115


c) (Teorema Central do Limite) A distribuição de X
aproxima-se de uma distribuição normal com valor esperado
 e variância 2 /n, quando n tende ao infinito.

Observações:

1. Como regra prática, aceita-se que para amostras com


mais de 30 elementos, a aproximação citada em (c) já pode ser
considerada muito boa.

2. Se a distribuição da população é normal, com valor


esperado  e variância 2, então a média amostral baseada em
uma amostra aleatória de tamanho n tem distribuição normal,
com valor esperado  e variância 2/n, independentemente do
tamanho da amostra.

Exemplo 4.3

Suponhamos que na população de universitários


brasileiros certo atributo psicológico, avaliado mediante
emprego de determinado teste, tenha distribuição com valor
esperado igual a 100 e desvio padrão 16. Se uma amostra
aleatória de tamanho 64 é escolhida dessa população, qual será
a probabilidade da média amostral estar acima de 104?

116 Introdução à Estatística


Temos nesse exemplo que a distribuição da média
amostral X é aproximadamente N(100; 4). Logo:

X - 100 104- 100


P( X >104)=P ( > )  P(Z>2)=0,0228.
2 2

4.6 Distribuição amostral da proporção

Consideremos uma população que tem uma proporção p de


portadores de certa característica, e seja X1, X2, X3,..., Xn uma
amostra aleatória em que Xi, 1  i  n é definida por:

1, se o i - ésim oelem entoé portador


Xi =  da característica;
0, em caso contrário.

Temos que Xi, 1  i  n tem distribuição de Bernoulli, com


E(Xi) = p e V(Xi) = p(1-p). Portanto, a distribuição da média
amostral X se aproxima de uma distribuição normal, com valor
esperado p e variância p(1-p)/n, quando n tende ao infinito.

Observação: dado que X é a proporção de elementos da


amostra que são portadores da citada característica, então
costumamos fazer X = P̂ .

Introdução à Estatística 117


Exemplo 4.4

Em certa cidade, 30% dos motoristas envolvidos em


acidentes fatais mostram evidências do uso de drogas. Numa
amostra de 200 acidentes fatais, qual será a probabilidade de
que mais de 25% desses motoristas tenham usado drogas?

Definindo a variável aleatória P̂ = proporção de


motoristas que usam drogas numa amostra de 200 acidentes
fatais, temos que a distribuição de P̂ é aproximadamente
N(0,30;0,00105). Assim:

Pˆ - 0,30 0,25- 0,30


P( P̂ >0,25) = P(  )
0,00105 0,00105

= P(Z>-1,54) = 0,9382.

Problemas

1. Um sociólogo extrai uma amostra aleatória de 45


pessoas de uma população, cuja renda média é U$ 900,00 e o
desvio padrão US$ 200,00. Qual será a probabilidade de que a
renda média da amostra seja inferior a US$ 850,00?

118 Introdução à Estatística


2. Consideremos a eleição para presidente do diretório
acadêmico em certo ano, quando 60% dos eleitores votaram no
candidato A. Suponhamos que imediatamente antes da eleição
tivéssemos extraído uma amostra de 40 eleitores. Qual seria a
probabilidade de que na amostra extraída o candidato A tivesse
minoria?

3. Admitindo-se que a chance de nascer menino seja


igual a de nascer menina, qual a probabilidade de que mais de
40% das primeiras 50 crianças, nascidas em um certo ano,
sejam do sexo masculino?

4. Certas vacinas produzidas por um laboratório têm


validade média de 800 horas e desvio padrão de 60 horas.
Determine a probabilidade de uma amostra aleatória de 50
vacinas ter a validade média:

a) Entre 790 e 810 horas;


b) Inferior a 785 horas;
c) Superior a 820 horas.

5. Suponhamos que o nível educacional de adultos de


certo país tenha uma média de 11,1 anos e um desvio padrão de
3 anos. Qual a probabilidade de que, em uma amostra aleatória

Introdução à Estatística 119


de 40 adultos, se encontre um nível médio de escolaridade
entre 10 e 12 anos?

6. Supondo que 2% das pessoas de certa cidade têm


problemas de psicose, qual será a probabilidade de numa
amostra aleatória de 400 pessoas dessa cidade 3% ou mais
tenham psicose?

120 Introdução à Estatística


Capítulo 5

Estimação

5.1 Estimação por ponto

Seja X1, X2, X3,..., Xn uma amostra de uma variável


aleatória X e θ um parâmetro desconhecido da distribuição de
X, um estimador pontual de θ é definido como sendo qualquer
função de X1, X2, X3,..., Xn.

Estimador não viciado

Um estimador T de um parâmetro θ por definição é não


viciado se E(T) = θ .

Consistência

Considerando a amostra X1, X2,...,Xn de uma variável


aleatória X e θ um parâmetro da sua distribuição, temos que
um estimador T de θ , baseado em X1, X2,..., Xn , é dito
consistente se esse satisfaz às duas seguintes condições:

a) T é não viciado;

b) A variância de T se aproxima de zero quando n tende


ao infinito.

Introdução à Estatística 121


Exemplo 5.1

De acordo com o que vimos anteriormente, se X1, X2, X3,..., Xn


é uma amostra aleatória de uma distribuição de Bernoulli, com
parâmetro p, então a proporção amostral P̂ é aproximadamente
N(p ; p(1-p)/n). Nesse caso temos que P̂ é um estimador
consistente de p, pois E( P̂ )=p e, conforme podemos ver, a
variância de P̂ se aproxima de zero quando n tende ao infinito.

5.2 Estimação por intervalo

Um intervalo que contenha um parâmetro θ , com certa


probabilidade 1-, é chamado de intervalo de confiança para θ
, com coeficiente de confiança 1-.

Intervalo de confiança para a média populacional

Consideremos X1, X2,...,Xn uma amostra aleatória de


uma variável X, com E(X) =  e V(X) = 2. Sabemos que, para
X -μ
n suficientemente grande, a distribuição de Z = é
σ
n

aproximadamente N(0;1), sendo z o valor da tabela da normal


padrão, tal que P(-z<Z<z)=1-, isto é:
σ σ
P(-z< X - μ  z) =1- P( X -z << X + z ) =1-
σ n n
n

122 Introdução à Estatística


σ σ
Assim, se diz que ( X -z ; X + z ) é um intervalo de
n n
confiança para , com coeficiente de confiança 1-.

Exemplo 5.2

Em certa universidade, sabe-se que a distribuição dos


QIs dos alunos tem variância igual a 64. Se numa amostra de
40 alunos obteve-se um QI médio igual a 115, qual será o
intervalo, com 95% de confiança, para o QI médio dos alunos
da referida universidade?

Temos aqui 1-=0,95, logo z=1,96 e, portanto, o


intervalo de confiança pretendido é dado por:

8 8
[115-(1,96) ; 115+(1,96) ] = (112,5;117,5) .
40 40

Intervalo de confiança para a proporção p

Dada uma amostra aleatória X1, X2,..., Xn de uma


distribuição de Bernoulli com parâmetro p, temos que, para n

P̂-p
suficientemente grande, a distribuição de Z= é
p(1-p)/n
n
aproximadamente N(0;1), sendo Pˆ = ( Xi)/n. Assim:
i=1

Introdução à Estatística 123


P̂ -p
P(-z< <z)=1- 
p(1-p)/n

 P( P̂ -z p(1  p)/n <p< P̂ +z p(1  p)/n )=1- .

Como não conhecemos p, substituímos p(1-p) pelo estimador

Pˆ (1- Pˆ ) e, dessa forma, temos que ( P̂ -z P̂(1 - P̂)/n ; P̂ +z

P̂(1 - P̂)/n ) é um intervalo de confiança para p, com


coeficiente de confiança 1-.

Exemplo 5.3

Suponhamos que uma amostra de 100 homens de uma


universidade brasileira tenha a seguinte distribuição de QIs:

QI N.º de homens

92  107 29
107  122 38
122  137 20
137  152 10

152  167 3

TOTAL 100

124 Introdução à Estatística


Nesse caso, qual será o intervalo, com 90% de confiança, para
a proporção de homens com QI superior a 137?

Para 1-=0,9, obtemos na tabela da normal padrão que


z=1,65. Temos também, pela tabela da distribuição de QIs
acima, que o número de homens com QI superior a 137 é 13,
ou seja, P̂ =13/100 = 0,13. Portanto, o intervalo pretendido é
dado por:

[0,13-(1,65) (0,13×0,87)/100 ;
0,13  (1,65) (0,13  0,87)/100 ]=(0,07 ; 0,18).

Problemas

1. A distribuição do tempo de reação de motoristas de


certo país tem desvio padrão igual a 0,2 segundos. Selecionou-
se uma amostra de 50 motoristas e obteve-se um tempo médio
de reação igual a 0,83. Determine um intervalo de 95% de
confiança para o tempo médio de reação da população de
motoristas desse país.

2. Em certa cidade, deseja-se estimar a proporção P de


pessoas que são favoráveis à fluoração da água. Supondo que
numa amostra de 100 pessoas dessa cidade, 75 são favoráveis à

Introdução à Estatística 125


água fluorada, qual será o intervalo com 99% de confiança para
a proporção P?

3. Antes de uma eleição deseja-se fazer uma pesquisa


para verificar a proporção de eleitores que pretendem votar
num candidato A. Para isso, consultou-se uma amostra de 1600
eleitores, da qual obteve-se que 35% eram favoráveis à A.
Nesse caso, qual será o intervalo com 95% de confiança para a
proporção de eleitores que são favoráveis ao candidato A?

4. Suponha que a nota num teste de inteligência de


crianças de certa população em idade escolar tenha distribuição
com desvio padrão igual a 3. Se numa amostra de 362 crianças
obteve-se nota média igual a 35, qual será um intervalo, com
90% de confiança, para a nota média dessa população?

5. Supondo que numa pesquisa de âmbito nacional


envolvendo 2000 famílias, 200 delas mostravam ter um ou
mais de seus membros com algum tipo de neurose, determine
um intervalo, com 99% de confiança, para a proporção de
famílias que têm algum tipo de neurose.

126 Introdução à Estatística


Capítulo 6

Distribuição de frequências

Na prática, quando obtemos observações amostrais,


inicialmente organizamos os dados em tabelas e gráficos, para
facilitar a compreensão das distribuições das variáveis em
estudo. Em seguida, realizamos cálculos de algumas medidas,
como por exemplo médias e variâncias, que servem
essencialmente como estimativas de parâmetros da população
de onde foi retirada a amostra. Trataremos a seguir de tais
assuntos, como construção de tabelas e gráficos e obtenção de
algumas estimativas, de forma que, neste capítulo 6,
estudaremos um caso específico de organização de dados em
tabela e, nos seguintes, 7 e 8, faremos os cálculos de algumas
medidas de tendência central, de separatrizes e de variabilidade
amostrais. No capítulo 9 daremos uma introdução à inferência
estatística que testa hipóteses sobre parâmetros populacionais.

6.1 Introdução

Para uma análise estatística, no caso da variável em


estudo ser contínua, é sempre conveniente os dados coletados

Introdução à Estatística 127


serem agrupados em classes, obtendo-se assim o que se
denomina de distribuição de frequências, cujos elementos serão
aqui definidos com base na tabela do exemplo seguinte.

Exemplo 6.1

A tabela a seguir exibe a distribuição das notas em uma


prova de estatística, de 500 candidatos, em certo concurso
público.

Notas Frequências
0  10 5
10  20 15
20  30 20
30  40 45
40  50 100
50  60 130
60  70 100
70  80 60
80  90 15
90  100 10

TOTAL 500

128 Introdução à Estatística


Observações:

1. O símbolo  indica a inclusão na classe do valor


situado à esquerda e a exclusão do valor situado à direita.
Considerando, por exemplo, a classe 50  60, temos que essa
congrega notas de 50, inclusive, até 60, exclusive;
2. O valor situado à esquerda é chamado de limite
inferior da classe e o situado à direita, de limite superior.

Principais elementos na construção de uma distribuição de


frequências

1. Amplitude total (At)


A amplitude total de um conjunto de dados qualquer é definida
como a diferença entre o maior e o menor valores do conjunto.

2. A amplitude de classe
A amplitude de classe é definida como sendo a diferença entre
dois limites inferiores ou entre dois limites superiores
sucessivos, nos casos em que a distribuição tenha a mesma
amplitude em todas as classes. De acordo, então, com esta
definição, temos que a amplitude de classe do exemplo anterior
é igual a 10.

Introdução à Estatística 129


Observação: Na construção de uma distribuição de frequências
é conveniente que todas as classes tenham a mesma amplitude,
pois, assim, evitam-se equívocos na interpretação da variação
do fenômeno.

3. Ponto médio de classe


Ponto médio de uma classe é o ponto equidistante dos
extremos, que serve para representar a classe nos casos de
cálculos de algumas medidas. A coluna dos pontos médios em
uma distribuição de frequências normalmente é representada
pela letra “m’’.
Para obter o ponto médio de uma classe acrescentamos
ao limite inferior a metade da amplitude de classe. Assim
temos, por exemplo, que o ponto médio da segunda classe da
distribuição do exemplo 6.1 é dado por 10+10/2=15.

Tipos de frequências:

Em uma distribuição de frequências, tem-se:

sim ples
Frequências absolutas  abaix ode
acum uladasacim ade
 

130 Introdução à Estatística


sim ples
Frequências relativas  abaix ode
acum uladasacim ade
 

Sendo:

a) Frequência absoluta simples: é o número de observações de


uma classe. Normalmente a coluna destas frequências é
representada pela letra “f”;

b) Frequência relativa simples: é a proporção de observações


de uma classe em relação ao número total de observações;

c) Frequências acumuladas abaixo de (absolutas ou relativas):


obtém-se somando, a partir da primeira classe, cada frequência
simples com a frequência acumulada anterior. Costuma-se
representar as colunas destas frequências por F e F%,
respectivamente;

d) Frequências acumuladas acima de (absolutas ou relativas):


procede-se da mesma forma das frequências acumuladas
abaixo de, porém partindo da última classe. As colunas destas
frequências são representadas por F e F%, respectivamente.

Introdução à Estatística 131


Exemplo 6.2

Da distribuição do exemplo 6.1, temos:

Classes m f f F F F F

0  10 5 5 1,0 5 1,0 500 100,0

10  20 15 15 3,0 20 4,0 495 99,0

20  30 25 20 4,0 40 8,0 480 96,0

30  40 35 45 9,0 85 17,0 460 92,0

45 100 20,0 185 37,0 415 83,0


40  50
55 130 26,0 315 63,0 315 3,0
50  60
65 100 20,0 415 83,0 185 37,0
60  70
75 60 12,0 475 95,0 85 17,0
70  80
85 15 3,0 490 98,0 25 5,0
80  90
95 10 2,0 500 100,0 10 2,0
90  100

TOTAL - 500 100,0 - - - -

132 Introdução à Estatística


6.2 Número de classes

Existem várias regras para a determinação do número


de classes de uma distribuição de frequência, como, por
exemplo, a de Sturges, que é dada por:

K=1+(3,31) log n.

Sendo:

K = número de classes

n = número de observações.

Essa regra, no entanto, tem a desvantagem de dar muitas


classes para um pequeno número de observações e relativamente
poucas classes, quando esse número é grande.

Por um lado mais prático, tem-se a sugestão de vários


outros autores de que o número de classes deve variar entre 5 e
20, sendo esta escolha dependente mais da natureza dos dados
e da unidade em que esses estejam expressos. De acordo,
então, com essa sugestão é que se costuma usar a seguinte
regra prática: escolhe-se um número, se possível inteiro e que
esteja próximo da metade do intervalo (A t /20 ; A t /5), para ser
a amplitude de classe. A seguir adiciona-se essa amplitude aos

Introdução à Estatística 133


limites inferiores das classes, determinando-se, assim, a
distribuição e o número de classes.

Exemplo 6.3

Os dados seguintes são os rendimentos de 70


examinandos numa prova de raciocínio:

25 42 26 25 42 23 41 22 43 20 28 39

30 29 38 29 37 28 40 28 31 35 32 31

35 31 34 32 36 31 33 43 34 33 33 32

34 34 32 34 35 32 34 36 32 35 31 36

32 34 37 30 39 40 30 38 30 40 31 37

41 23 40 26 41 27 43 28 38 41

Nesse conjunto de dados temos que o maior valor é 43 e o


menor é 20. Assim obtemos que At=43-20=23.
Consequentemente:

(At /20 ; At /5) = (1,15 ; 4,6)

Logo, de acordo com a regra anterior, temos que a


distribuição de frequências para esses dados fica como na
tabela a seguir, em que a amplitude de classe é a=3, que é um

134 Introdução à Estatística


número inteiro e está próximo da metade do intervalo (A t
/20 ; At /5).

Observação: aproveitamos essa distribuição para exemplos da


seção seguinte; por isso, também determinamos nessa tabela as
frequências acumuladas absolutas, abaixo e acima de.

Classes f F F

20  23 2 2 70

23  26 4 6 68

26  29 7 13 64

29  32 12 25 57

17 42 45
32  35
10 52 28
35  38
9 61 18
38  41
9 70 9
41  44

TOTAL 70 - -

Introdução à Estatística 135


6.3 Representação gráfica

Para representar graficamente uma distribuição de


frequências usam-se os seguintes gráficos:

a) O polígono de frequências ou o histograma para


representar as frequências simples;

b) O diagrama de frequências acumuladas (ogiva de


Galton) para representar as frequências acumuladas.

Construção do polígono de frequências

No eixo das abscissas marcam-se os limites inferiores


das classes e o limite superior da distribuição;

As frequências são marcadas no eixo das ordenadas, a


partir de perpendiculares levantadas dos pontos médios das
respectivas classes;

Fecha-se o polígono ligando os pontos extremos aos


pontos médios dos intervalos, que se acrescentam no início e
no fim da distribuição.

Construção do histograma

O histograma é construído de forma equivalente ao


polígono de frequências, só que, neste caso, não se representam

136 Introdução à Estatística


todos os resultados de uma classe pelo seu ponto médio;
porém, supõe-se que tais resultados distribuem-se
uniformemente por todo o intervalo.

Exemplo 6.4

Da distribuição do exemplo 6.3 temos que o polígono


de frequências e o histograma são dados, respectivamente, por

a) Polígono de frequências

20

18

16

14

12

10
f

2
Expected
0
0 17 20 23 26 29 32 35 38 41 44 47 Normal

Classes

Introdução à Estatística 137


b) Histograma

20

18

16

14

12

10
f

2
Expected
0
0 20 23 26 29 32 35 38 41 44 Normal

Classes

Observação: é comum também se representar as frequências


das classes, no histograma, pelas áreas dos respectivos
retângulos. Neste caso, tem-se:

A=b  h

Sendo:

A = área = frequência de classe

b = base = intervalo de classe

h = altura.

138 Introdução à Estatística


Construção da ogiva de Galton

No eixo das ordenadas marcam-se as frequências


acumuladas e no eixo das abscissas os limites inferiores ou
superiores das classes, de onde são levantadas perpendiculares
para encontrar as respectivas frequências acumuladas.

Observação: em se utilizando as frequências “abaixo de” é


preferível que sejam usados os limites superiores como
representantes das classes, enquanto que, no caso das
frequências “acima de”, devem-se usar os limites inferiores.

Exemplo 6.5

Considerando ainda a distribuição do exemplo 6.3,


teremos:

a) Frequências “abaixo de”

Introdução à Estatística 139


b) Frequências “acima de”

Problemas

1. Os dados seguintes referem-se ao tempo gasto, em


horas, por 70 pessoas, na execução de um desenho técnico:

3,4 8,1 7,9 3,4 5,6 8,1 9,0 8,3 4,2 7,2

7,5 5,2 6,0 7,0 8,1 7,6 6,9 6,0 8,0 4,0

8,4 6 4,8 6,3 8,2 7,9 8,3 7,2 7,0 4,3

6,1 9,8 2,3 4,1 5,6 6,4 5,4 7,5 8,0 5,0

1,5 4,0 4,3 4,8 9,9 4,1 10,0 10,0 6,0 6,0

6,2 6,8 8,1 9,1 8,5 7,3 4,9 4,5 5,1 6,0

7,1 8,1 8,0 2,0 1,9 7,4 7,0 7,3 7,4 5,2

140 Introdução à Estatística


Pede-se:

a) Construir uma distribuição de frequências para os dados;

b) Construir o polígono de frequências, o histograma e a ogiva


de Galton.

2. A tabela seguinte nos dá a distribuição dos pontos


em um teste de rapidez e exatidão, em tarefas digitais,
aplicado a um grupo de 100 alunos de uma certa escola:

Pontos f

0  10 5
10  20 10
20  30 12
30  40 35

40  50 24

50  60 14

TOTAL 100

a) Determine o número de alunos com menos de 30 pontos;


b) Determine a porcentagem dos alunos com 10 pontos ou
mais;
c) Construa o polígono de frequências e a ogiva de Galton.

Introdução à Estatística 141


Capítulo 7

Medidas de tendência central e separatrizes

Medidas de tendência central ou promédios são valores


que servem para representar a distribuição como um todo, além
de possibilitarem o confronto entre distribuições. Das
principais medidas de tendência central destacamos aqui a
média aritmética e a mediana.

7.1 Média aritmética

1. Média aritmética de valores isolados

X1,X1...X1 , X2,X2,...,X2 ,..., Xn,Xn,...,Xn


Se f1 vezes f2 vezes fn vezes é uma série de
valores repetidos, tem-se que a média aritmética, neste caso, é
o quociente entre a soma dos valores do conjunto e o número
total de valores, ou seja:
n

f X
i1
i i

X n
. (7.1)
f
i1
i

142 Introdução à Estatística


Exemplo 7.1

Suponhamos que os números de questões respondidas


corretamente por 20 alunos de psicologia em uma prova de
estatística foram os seguintes:

7 6 7 6 7
4 5 7 5 8
6 5 5 7 8
4 7 7 7 6

Tabulando esses números, obteremos:

Nº de questões Nº de
f.x
corretas(x) alunos(f)
4 2 8
5 4 20
6 4 24
7 8 56
8 2 16
Total 20 124

Assim:

X  124/ 20  6,2 .

Introdução à Estatística 143


2. Média aritmética de uma distribuição de frequências

Para uma distribuição de frequências com k classes,


sendo m1, m2, ..., mk seus pontos médios, tem-se que a média
aritmética é calculada por:
k

f m i i
X i 1
k
. (7.2)
f
i 1
i

Exemplo 7.2

Considerando novamente a distribuição do exemplo 6.3,


calculemos sua média aritmética, de forma que, determinando
as colunas que são necessárias, teremos:

Classes f m f.m

20  23 2 21,5 43,0
23  26 4 24,5 98,0
26  29 7 27,5 192,5
29  32 12 30,5 366,0
32  35 17 33,5 569,5
35  38 10 36,5 365,0
38  41 9 39,5 355,5
41  44 9 42,5 382,5
Total 70 - 2372,0

144 Introdução à Estatística


Assim:

X = 2372/70 = 33,88.

7.2 Mediana

A mediana é a medida de tendência central que divide a


distribuição em duas partes iguais, ou seja, é o valor que fica
no meio da série ordenada.

1. Mediana de valores isolados

Temos que a mediana de uma distribuição também pode


ser definida como o valor do elemento mediano, sendo que
esse elemento é o número que indica a ordem em que se
encontra a mediana. Em geral, usa-se o seguinte procedimento
para determinar o elemento mediano:

i) Se o número de observações N é ímpar, então Emd


= (N+1)/2, sendo Emd o elemento mediano;

ii) Se o número de observações N é par, então Emd =


N/2, e, neste caso, a mediana é igual à média aritmética dos
dois valores centrais.

Introdução à Estatística 145


Exemplo 7.3

Suponha um grupo de 5 pessoas com as seguintes


estaturas: 1,85m; 1,60m; 1,70m; 1,65m e 1,60m. Aqui, Emd=
(N+1)/2 = 6/2 = 3. Logo, ordenando os valores obtemos que a
estatura mediana deste grupo é 1,65 m.

Exemplo 7.4

Ao invés de um grupo de cinco pessoas, como no


exemplo 7.3, consideremos agora as seis seguintes estaturas:
1,85m; 1,60m; 1,70m; 1,65m; 1,60m e 1,62m. Assim, Emd=
N/2 = 6/2 = 3. Colocando os valores em ordem crescente: 1,60;
1,60; 1,62; 1,65; 1,70; 1,85, obtemos que 1,62 e 1,65 são os
dois valores centrais. Logo:

md = (1,62+1,65)/2 = 1,63.

Exemplo 7.5

Com relação ao exemplo 7.1 temos que o cálculo da


mediana fica mais fácil se, em primeiro lugar, determinamos a
coluna das frequências acumuladas, ou seja:

146 Introdução à Estatística


Nº de questões
corretas(x) f F
4 2 2
5 4 6
6 4 10
7 8 18
8 2 20

TOTAL 20 -

Desta forma: Emd = 20/2 = 10. Logo, pela tabela anterior:

md = (6+7)/2 = 6,5.

Mediana de uma distribuição de frequências

Considerando fm como sendo a frequência simples da


classe da mediana, Fant como a frequência acumulada até a
classe anterior à classe da mediana, li o limite inferior da classe
da mediana, Emd =  f /2 = N/2 (para N par ou ímpar) e “a” a
i

amplitude de classe, mostra-se facilmente que a mediana de


uma distribuição de frequências é dada por:

md  li  (Emd  Fant )a/f m . (7.3)

Introdução à Estatística 147


Exemplo 7.6

A distribuição da tabela a seguir dá as notas em um


teste de rapidez e exatidão de um grupo de 46 pessoas do sexo
feminino.
Notas f F

0  5 1 1
5  10 1 2
10  15 4 6
15  20 10 16
20  25 17 33
25  30 9 42
30  35 3 45
35  40 1 46
Total 46 -

Qual será, então, a nota mediana do grupo? Temos que Emd =


46/2 = 23. Logo, pela coluna das frequências acumuladas,
vemos que a classe da mediana é 20  25. Assim:
md = 20+(23-16)(5)/17 = 22,06.
Observação: a mediana de uma distribuição de frequências
também pode ser obtida a partir da ogiva de Galton, pois a
mediana é a abscissa do ponto, cuja ordenada é o elemento
mediano.
Exemplo 7.7

148 Introdução à Estatística


Do exemplo 7.6, obtemos:

Emprego da média e da mediana

De uma maneira geral, prefere-se empregar a média


aritmética quando a distribuição dos dados é simétrica, ou nos
casos em que se faz necessário o cálculo de outras estatísticas.
Por outro lado, a mediana é preferida quando se deseja o ponto
que divide a distribuição em duas partes iguais, ou nos casos
em que na distribuição dos dados existam valores muito
distanciados dos demais, comumente chamados de valores
extremos.

7.3 Separatrizes
Definição: separatrizes são os valores da distribuição
nomeados por suas posições na série ordenada.

Introdução à Estatística 149


De maneira análoga ao que vimos, com relação à
mediana, tem-se que uma separatriz é o valor do elemento que
indica a ordem em que esta se encontra. Existem separatrizes
de quaisquer ordens, porém algumas são de maior importância,
como as que veremos a seguir.

1. Quartis

Permitem dividir a distribuição em quatro partes iguais,


quanto ao número de elementos de cada uma. Numa distribuição
de frequências temos:
Q j  l j  (EQ j  FQ j1 ) a/f j . (7.4)

Sendo:

Qj : o j-ésimo quartil, j = 1,2,3;

lj : o limite inferior da classe do j-ésimo quartil;

EQj : o elemento quartil j, de forma que, considerando


N como o total das frequências, temos : EQj =
=j.N/4;

FQj-1 : é a frequência acumulada até a classe anterior à


classe do j-ésimo quartil;

fj : é a frequência simples da classe do j-ésimo quartil.

Observação: podemos ver de imediato que md = Q2.

150 Introdução à Estatística


2. Percentis ou centis

Dividem a distribuição em cem partes iguais, quanto ao


número de elementos de cada uma. Se Pj é o j-ésimo percentil,
j=1,2,3,...,99, com EPj=j.N/100, então, analogamente ao cálculo
dos quartis em uma distribuição de frequências, tem-se que o
cálculo de Pj é dado por:

Pj  l j  (EPj  FPj1 )a/f j . (7.5)

Exemplo 7.8

Considerando o exemplo 7.6, determinemos:

a) O valor que separa 25% das notas mais baixas;

b) O valor cujo percentual de pessoas com notas acima


deste é 30 %;

c) O valor que separa 25% das pessoas com as maiores


notas.

No item (a) desejamos calcular Q1 (ou P25), pois podemos


verificar que Q1 = P25. Assim, EQ1 = 46/4 = 11,5 . Logo,
pela coluna das frequências acumuladas, vemos que a classe
de Q1 é 15  20; portanto:

Q1 =15+(11,5-6)(5)/10 = 17,75.

Introdução à Estatística 151


Queremos calcular no item (b) o septuagésimo percentil
(P70). Assim, teremos: EP70 =(70)(46)/100 = 32,2. Logo:

P70 = 20+(32,2-16)(5)/17 = 24,76.

No item (c) queremos calcular P75 (ou Q3), pois temos que
P75 =Q3. Assim, EP75 =(75)(46)/100=34,5. Pela coluna das
frequências acumuladas verificamos que a classe de P75 é 25
 30. Portanto:

P75 =25+(34,5-33)(5)/9=25,83.

Problemas

1. Os dados seguintes referem-se aos rendimentos em


tarefas verbais de 22 alunos de uma escola do primeiro grau.

Rendimento Nº de alunos
5 2
6 2
8 8
9 6
10 4

TOTAL 22

Determinar os rendimentos médio e mediano dos alunos.

152 Introdução à Estatística


2. A tabela seguinte dá o rendimento em tarefas motoras,
medido por escore, de 160 alunos de uma universidade.

Escores f
5  10 5
10  15 10

15  20 24

20  25 62
34
25  30
18
30  35
7
35  40

Total 160

a) Sabendo-se que os 30% dos alunos mais fracos irão


para um treinamento especial, qual será o escore
exigido por tal treinamento?

b) Qual é o escore mínimo que delimita os 75% dos


melhores alunos em motricidade?

c) Calcular a média e a mediana desses escores.

Introdução à Estatística 153


Capítulo 8

Medidas de variabilidade

Podemos definir variabilidade de um conjunto de dados


como sendo a maior ou menor diversificação dos valores em
torno de uma medida de tendência central. Considerando, por
exemplo, as notas de dois alunos A e B, em cinco disciplinas
diferentes:

Alunos Notas

A 5,5 5,0 4,9 6,1 6,0

B 1,5 8,9 5,5 9,5 2,1

verificamos que a média do aluno A nas cinco disciplinas é


igual a 5,5 e a do aluno B também é 5,5 , ou seja, em média
estes alunos têm o mesmo rendimento. Por outro lado, vemos
que existe significativa diferença nas distribuições das notas,
de forma que, com relação ao aluno A, podemos considerar
seus conhecimentos como uniformes nas cinco disciplinas,
enquanto que o aluno B mostra um bom nível em algumas
disciplinas e bastante deficiência em outras. Assim, podemos

154 Introdução à Estatística


dizer que a diferença das distribuições está nos graus de
concentração das notas, que, no caso, são bem diferentes.

As medidas de variabilidade podem ser absolutas ou


relativas. Em 8.1 e 8.2 a seguir apresentaremos algumas das
consideradas mais importantes.

8.1 Principais medidas de variabilidade absoluta

1. Desvio quartil

É a média aritmética das diferenças entre a mediana e


os dois quartis, ou seja:

Dq = [(Q3 – md) + (md – Q1)]/2 = (Q3 – Q1)/2. (8.1)

Exemplo 8.1

Considerando a distribuição do exemplo 7.6 já temos,


pelo exemplo 7.8, que Q1 = 17,75 e Q3 = 25,83. Portanto, para
esta distribuição:

Dq = (25,83 – 17,75)/2 = 4,04.

Introdução à Estatística 155


Observações:

1. O desvio quartil é uma medida que não é afetada por


valores extremos, sendo, portanto, recomendada quando
houver valores desse tipo na distribuição dos dados, ou seja,
nos casos em que a medida de tendência central mais adequada
seja a mediana;

2. O desvio quartil tem a desvantagem de só considerar


Q1 e Q3, isto é, despreza o restante do conjunto dos dados.

2. Desvio padrão

É a raiz quadrada da média dos quadrados dos desvios,


tomados em relação à média aritmética.

a) Desvio padrão de valores isolados

Seja X1,X1...,X1 , X2,X2,...,X2 ,..., Xn,Xn,...,Xn uma série de


f1 vezes f2 vezes fn vezes
valores repetidos. Neste caso, o desvio padrão é calculado por:

n n
S  fi(Xi  X)2 / fi . (8.2)
i 1 i 1

n
Fazendo N=  fi e desenvolvendo (8.2), obtemos:
i 1

156 Introdução à Estatística


n
S  fX
(
i1
2
i i /N)  X2 . (8.3)

Exemplo 8.2

Considerando novamente a distribuição do exemplo 7.1


calcularemos a seguir seu desvio padrão, sendo que, para usar
(8.3), precisamos das colunas definidas pelos produtos f.X e
f.X2, isto é:

Notas(x) f f.x f.x2

4 2 8 32

5 4 20 100

6 4 24 144

7 8 56 192

8 2 16 128

Total 20 124 796

Portanto:

Introdução à Estatística 157


S  7 9 6/ 2 0  (1 2 4/ 2 0)2  3 9,8  3 8,4 4  1,1 7.

b) Desvio padrão de uma distribuição de frequências

De maneira análoga ao cálculo realizado na distribuição


de valores isolados, obtemos o desvio padrão de uma
distribuição de frequências, ou seja, dada uma distribuição com
k classes, sendo m1, m2,..., mk seus pontos médios, temos:

k k
S i1
fi(mi - X)2 / f
i1
i . (8.4)

k
Fazendo N =  fi e desenvolvendo (8.4), obteremos:
i 1

k
S ( fm
i1
i
2
i /N)  X2 . (8.5)

158 Introdução à Estatística


Exemplo 8.3
Calcularemos a seguir o desvio padrão da distribuição:

Classes f
0  10 9
10  20 11

20  30 12

30  40 10
8
40  50

Total 50

Determinando as colunas que são necessárias para o cálculo,


teremos:

Classes f m f.m f.m2


0  10 9 5 45 225
10  20 11 15 165 2475

20  30 12 25 300 7500

30  40 10 35 350 12250
8 45 360 16200
40  50

Total 50 - 1220 38650

Introdução à Estatística 159


Assim:

 (1 2 2 0 /5 02)  7 7 3 5 9 5 ,3 6 1 3 ,3 3.
S  3 8 6 5 0 /5 0

Principais propriedades do desvio padrão:

1. Somando-se ou subtraindo-se uma constante a cada


elemento de um conjunto de dados, o desvio padrão não se
altera;

2. Dividindo-se ou multiplicando-se cada elemento de


um conjunto de dados por uma constante, o desvio padrão fica
multiplicado ou dividido por esta constante, conforme seja o
caso.
Problemas

1. Calcular o desvio padrão da distribuição do


problema 1, do capítulo anterior.

2. Calcular o desvio padrão e o desvio quartil da


distribuição do problema 2, do capítulo anterior.

8.2 Medidas de variabilidade relativa

Uma medida de dispersão relativa resulta da


comparação entre medidas de variabilidade absoluta e de
tendência central, sendo seu uso justificado nos casos em que

160 Introdução à Estatística


se deseje comparar as variabilidades de distribuições, nas
quais:

a) As unidades de escala são desiguais (conforme


temos no exemplo 8.4, a seguir);

b) Mesmo tendo as unidades de escala iguais, as médias


sejam significativamente diferentes (conforme exemplo 8.5).

Principais medidas de variabilidade relativa

1. Desvio quartil reduzido: é a relação entre o desvio quartil e


a mediana, ou seja:

Dqr =[(Q3 – Q1)/2]/md = (Q3 – Q1)/2md (8.6)

2. Coeficiente de variação de Pearson: é a relação entre o


desvio padrão e a média aritmética, isto é:

S
C Vp   1 0 0% (8.7)
x

Exemplo 8.4

Suponhamos uma sala de aula com 50 alunos


possuidores de uma estatura média de 1,14 m, com desvio
padrão igual a 0,063 m e um peso médio de 50 kg, com desvio
padrão igual a 6,0 kg. Qual a maior variabilidade relativa, a dos
pesos ou a das alturas?

Introdução à Estatística 161


Calculando o coeficiente de variação de Pearson para as
distribuições das alturas e dos pesos, respectivamente, obtemos
(0,063/1,14)  100% = 5,53% e (6/50)  100% = 12%, de onde
concluímos que os pesos têm maior variabilidade relativa que
as alturas.

Exemplo 8.5

Consideremos os seguintes dados, referentes às alturas


de um grupo de meninos e de um grupo de homens:

Grupo Média Desvio padrão

Meninos 50 cm 6 cm

Homens 160 cm 16 cm

Neste caso, que grupo tem maior variabilidade relativa?

Temos que (6/50)  100% =12% e (16/160)  100%= =


10% são os coeficientes de variação de Pearson para os grupos
dos meninos e dos homens, respectivamente, dos quais
concluímos que as alturas dos meninos têm maior variabilidade
relativa que a dos homens.

162 Introdução à Estatística


8.3 Esquema dos cinco números e Box-plot

Definindo Ei e Es, respectivamente, como os valores


extremos inferior e superior de um conjunto de dados, temos a
representação do esquema dos cinco números, que é dada por:

Md md

Q Q1 Q3

E Ei Es

Na figura seguinte, chamada de Box-plot, está traduzida


graficamente a informação dada pelo “Esquema dos cinco
números”:

Es
Q3
md
Q1
Ei

Introdução à Estatística 163


Observação: o Box-plot nos dá uma ideia da posição,
dispersão, assimetria e comprimento das caudas da distribuição
dos dados.

Exemplo 8.6

Considerando os dados do exemplo 7.1:

a) Esquema dos cinco números

Da distribuição desse exemplo já temos:

n=20; Ei=4; Es=8 e md=6,5.

Para os cálculos de Q1 e Q3 precisamos obter:

EQ1=20/4=5 e EQ3=3(20)/4=15.

Assim, pelas frequências acumuladas dadas no exemplo 7.5,


obtemos:

Q1=5 e Q3=7

Portanto, o “Esquema dos cinco números” ficará:

20
Md 6,5
Q 5 7
8
E 4

164 Introdução à Estatística


b) Box-plot
Através do Software “Statistica”, obtemos o Box-plot:

8,5

7,5

6,5

5,5

4,5 Max = 8,000000


Min = 4,000000
75% = 7,000000
25% = 5,000000
Median value:
3,5
Med = 6,500000

Problemas

3. Considerando as distribuições dos problemas 1 e 2


do capítulo anterior, qual delas apresenta maior variabilidade
relativa?
4. Considerando a distribuição do problema 2 do
capítulo 6 e a distribuição do exemplo 7.6, qual das duas tem
maior variabilidade relativa?
5. Construir o “Esquema dos cinco números” e o Box-
plot para os dados dos problemas 1 e 2 do capítulo anterior.

Introdução à Estatística 165


Capítulo 9

Testes de hipóteses: primeiras ideias

9.1 Hipótese estatística

Seja X uma variável aleatória e θ um parâmetro da


distribuição de X, na prática, normalmente ocorre que θ é
desconhecido. Este fato, então, faz com que procuremos
estimadores para θ, conforme comentamos anteriormente, além
de nos levar a definir hipóteses a respeito desse, de forma que,
baseada em uma amostra aleatória, a inferência estatística testa
qual das referidas hipóteses é ou não verdadeira. Assim,
podemos estar interessados em testar, por exemplo, se θ é igual
a um certo θ0, que é chamada de “hipótese nula” e que
usualmente representamos por H0, ou seja:

H0 : θ = θ0

A hipótese que será considerada como aceitável, caso


H0 seja rejeitada, chama-se de “hipótese alternativa”,
normalmente representada por H1, que poderá, nesse caso, ter
uma das seguintes formas:

H1 : θ < θ0 ; H1 : θ > θ0 ou H1 : θ  θ0

166 Introdução à Estatística


Observação: dizemos que um teste é bilateral quando a hipótese
alternativa é da forma H1 : θ  θ0 . Por outro lado, se essa hipótese
é dada por H1 : θ < θ0 ou H1 : θ > θ0, dizemos que o teste é
unilateral à esquerda ou à direita, conforme seja o caso.

9.2 Erros do tipo I e do tipo II

Ao realizarmos um teste de hipóteses estamos sujeitos a


cometer dois tipos de erros, a saber, o chamado erro do tipo I,
que consiste em rejeitar a hipótese nula quando essa é
verdadeira, e o erro do tipo II, que consiste em não rejeitar H0,
quando H0 é falsa. As probabilidades desses erros são,
portanto:

 = P(do erro tipo I) = P(rejeitar H0 H0 verdadeira) e

 = P(do erro tipo II) = P(não rejeitar H0 H0 é falsa)

sendo que  também é chamada de nível de significância do


teste.

Seria desejável, obviamente, que os valores de  e 


fossem ambos tão pequenos quanto possível. No entanto,
pode-se verificar que, ao diminuir-se o valor de um, o outro
aumenta. Assim, na prática, costuma-se arbitrar um valor para

Introdução à Estatística 167


o nível de significância, que usualmente é fixado em 0,01 ou
0,05.

9.3 Determinação da região de rejeição

Dada uma amostra aleatória, o que na realidade um


teste de hipótese faz é, baseado no valor de uma estatística T,
rejeitar ou não a hipótese nula, sendo esta hipótese rejeitada se
o valor de T pertencer a uma certa região, denominada de
região de rejeição, RR. Assim, podemos escrever a
probabilidade do erro tipo I como:

P(T  RR H0 é verdadeira) =  (9.1)

Consequentemente, para um valor fixo de  obtemos


por (9.1) a respectiva região de rejeição, ou seja, dessa forma
conseguimos a região que determina a rejeição de H0.

9.4 Passos para a construção de um teste de hipóteses

A seguir temos uma sequência que pode ser usada na


realização de qualquer teste de hipóteses:

Passo 1: fixar as hipóteses nula(H0) e alternativa (H1);

Passo 2: decidir qual estatística será usada para julgar a


hipótese nula;

168 Introdução à Estatística


Passo 3: fixar o nível de significância , usando-o em seguida
para definir a região de rejeição;

Passo 4: usar as informações da amostra para calcular o valor


da estatística citada no passo 2;

Passo 5: se o valor citado no passo anterior pertencer à região


de rejeição, rejeitar H0; caso contrário, não rejeitar.

Veremos a seguir exemplos para testar a hipótese de


que a proporção p de uma população seja igual a um certo
valor fixado p0. Também testaremos a hipótese de que a média
populacional  seja igual a um certo valor 0, supondo-se
conhecida a variância populacional.

Exemplo 9.1

Um candidato Y a prefeito de certa cidade afirma que


60% dos eleitores são favoráveis à sua candidatura. Um outro
candidato, no entanto, deseja contestar essa afirmação, e para
isto, contratou uma pesquisa de opinião, na qual o instituto
contratado usou uma amostra de 200 eleitores. Constatado que
dos eleitores entrevistados 110 eram favoráveis ao candidato
Y, pode-se acreditar, ao nível de 5%, que Y tem realmente 60%
da preferência dos eleitores?

Introdução à Estatística 169


Passo 1: colocaremos à prova a afirmação do candidato Y, isto
é, H0: p=0,60, sendo p a proporção de eleitores favoráveis a Y.
Sabemos que se esta hipótese não for verdadeira o outro
candidato espera uma porcentagem menor, nunca maior.
Portanto, a hipótese alternativa, neste caso, é dada por
H1 : p <0,60, ou seja, o teste é unilateral à esquerda.

Passo 2: a estatística a ser usada aqui é:

Pˆ  p
Z
p(1  p )
200

sendo P̂ a proporção dos 200 eleitores que são favoráveis ao


candidato Y e, conforme já sabemos, P̂ tem distribuição
p(1  p)
aproximadamente N(p; ) , significando dizer que a
200
distribuição de Z se aproxima de uma N(0;1).

Passo 3: fixando  = 5%, e sendo este um teste unilateral à


esquerda, temos:

0,05 = P(Rejeitar H0  H0 é Verdadeira) =

= P(Z < z0  p = 0,60)

170 Introdução à Estatística


do qual obtemos, através da tabela da normal padrão, que z0=-
1,65, ou seja, neste caso a região de rejeição é definida pelo
conjunto dos valores da normal padrão menores que -1,65.

Passo 4: dado que 110 dos eleitores entrevistados eram


favoráveis a Y temos que a proporção amostral fica:
110
P̂   0,55. Assim, o valor da estatística do teste para os
200

dados observados, e considerando H0 verdadeira, será:

0,55  0,60
Z  1,445
0,0346

Passo 5: do resultado anterior vemos que o valor observado de


Z não pertence à região de rejeição. Portanto, não temos
motivo para rejeitar a hipótese nula, isto é, há evidências de
que o candidato Y tem realmente 60% da preferência do
eleitorado.

Exemplo 9.2

Uma senhora Y afirma possuir percepção


extrassensorial. Para testar tal capacidade foi pedida a
participação de pessoas presentes para a realização de um
experimento, sendo que cada repetição consistia no seguinte:
um dos presentes pegava uma carta preta e uma branca,

Introdução à Estatística 171


segurando uma em cada mão, de forma que a senhora Y só
podia ver as costas das cartas. Em seguida, pedia-se à referida
senhora para identificar em que mão estava cada uma das
cartas. O experimento foi repetido 40 vezes e, dessas, a senhora
Y acertou 27 e errou 13. Baseando-se neste experimento
podemos afirmar, ao nível de 1,0%, que essa senhora tem
realmente percepção extrassensorial ou devemos concluir o
contrário, ou seja, que ela simplesmente adivinhou?

Nesse caso estamos interessados em testar a hipótese de


que a senhora Y está simplesmente adivinhando, o que
significa testar se a proporção p de acertos é igual a 0,5. Um
valor de p maior que 0,5 indicará, então, que a senhora Y
possui percepção extrassensorial. Assim, seguindo os passos
para a construção de um teste de hipóteses, teremos:

Passo 1: de acordo com o que citamos anteriormente, para esse


teste a hipótese nula é H0: p = 0,5, e a alternativa será H1: p>0,5,
ou seja, teremos aqui um teste unilateral à direita. No caso de H0
não ser verdadeira espera-se uma proporção de acertos maior
que 0,5, dada a afirmação da senhora Y de que possui percepção
extrassensorial.

172 Introdução à Estatística


Passo 2: a estatística desse teste é:

Pˆ  p
Z
p(1  p )
40
sendo P̂ a proporção de acertos da senhora Y nas 40
realizações do experimento. Novamente temos que P̂ possui
p(1  p)
distribuição aproximadamente N(p; ) , ou seja, a
40
estatística Z se distribui segundo uma N(0;1), também de forma
aproximada.
Passo 3: fixando  = 1,0% e sendo esse um teste unilateral à
direita, temos:
0,01 = P(rejeitar H0 H0 é verdadeira) =

= P(Z > z0  p = 0,50 )

Dessa forma, obtemos da tabela da normal padrão que z0=2,33,


ou seja, a região de rejeição é definida pelo conjunto dos
valores da normal padrão maiores que 2,33.

Passo 4: dado que a senhora Y acertou 27 das 40 repetições do


experimento então o valor da proporção amostral é P̂
=27/40=0,675. Consequentemente, supondo H0 verdadeira:

0,675  0,5
Z  2,215
0,079

Introdução à Estatística 173


Passo 5: como o valor observado de Z não pertence à região de
rejeição, não rejeitamos H0. Isto é, ao nível de 1,0%, não
rejeitamos a hipótese de que a senhora Y estava simplesmente
adivinhando.

Exemplo 9.3

Para uma população de crianças com igual idade


cronológica, deseja-se testar a hipótese de que a média
populacional de seus QIs difere de 100. Para isto, aplicou-se o
teste de Binet-Terman a uma amostra de 2970 crianças,
obtendo-se um QI médio igual a 102. Supondo-se que o desvio
padrão da população é conhecido e igual a 17,03, pode-se
afirmar, ao nível de 5%, que difere de 100 o QI médio da
população dessas crianças?

Passo 1: considerando  o QI médio da população dessas


crianças, nossa hipótese nula é H0:  = 100 e a alternativa
H1:   100.
Passo 2: a estatística para este teste é:
X X
Z 
17,03 0,3125
2970

sendo a distribuição de Z aproximadamente N (0;1).

174 Introdução à Estatística


Passo 3: fixado  = 5,0%, e sendo esse um teste bilateral,
temos:

0,05 = P(Z < - z0 ou Z > z0   = 100 ) =

= P(Z < - z0   = 100 ) + P(Z > z0   = 100 ) =

= 2 P(Z > z0   = 100 ) 

0,05
 P(Z > z0   = 100 )   0,025
2

Assim, da tabela da normal padrão obtemos z0=1,96, ou seja, a


região de rejeição fica definida pelo conjunto dos valores da
normal padrão menores que –1,96 ou maiores que 1,96.

Passo 4: pelos dados do problema temos que o valor da média


amostral é X = 102. Logo, supondo H0 verdadeira:

102  100
Z  6,4
0,3125

Passo 5: como o valor de Z pertence à região de rejeição,


rejeitamos H0, isto é, não aceitamos a hipótese de que o QI
médio da população das crianças seja igual a 100.

Introdução à Estatística 175


Problemas

1. Para cada uma das hipóteses a seguir definir a região


de rejeição correspondente, supondo-se para isto um nível de
significância igual a 1%.
(a) H0: P=0,5 contra H1: P<0,5
(b) H0: P=0,5 contra H1: P>0,5
(c) H0: P=0,5 contra H1: P0,5
2. Os novos operários de uma empresa são treinados a
operar uma máquina, e o tempo X (em horas) de aprendizado é
anotado. Admite-se que X tem distribuição N(25;100). Uma
nova técnica de ensino, que deve melhorar o tempo de
aprendizado, foi testada em 16 novos empregados, os quais
apresentaram 22,3 horas como tempo médio de aprendizado.
Você diria, ao nível de 5%, que a nova técnica é melhor do que
a anterior?
3. As estatísticas mostram que, aproximadamente, 40%
dos candidatos aos cursos de psicologia de certo país
conseguem ser admitidos. Uma escola superior bastante
conhecida informa, no entanto, que de seus 43 candidatos ao
curso de psicologia, neste último ano, 30 foram admitidos.
Você acha, ao nível de 1%, que essa escola tem razões para

176 Introdução à Estatística


afirmar que a proporção de candidatos admitidos para seu
curso de psicologia é maior do que a nacional?
4. Os produtores de um programa de televisão
pretendem modificá-lo se o mesmo for assistido regularmente
por menos de um quarto dos telespectadores. Uma pesquisa
encomendada a uma empresa especializada mostrou que, de
400 famílias entrevistadas, 70 assistem ao programa
regularmente. Baseando-se nos dados, qual deve ser, ao nível
de 1%, a decisão dos produtores?
5. O salário médio dos empregados das indústrias
siderúrgicas é de 2,5 salários mínimos, com um desvio padrão
de 0,5 salários mínimos. Em uma firma de 1500 empregados,
consultou-se 49 e obteve-se um salário médio de 2,1 salários
mínimos. Pode-se concluir que esta firma paga salários
inferiores? Use  = 5%.
6. Uma companhia de cigarros anuncia que o índice
médio de nicotina dos cigarros que fabrica apresenta-se abaixo
de 23 mg por cigarro. Um laboratório realiza 6 análises desse
índice, obtendo: 27, 24, 21, 25, 26, 22. Sabendo-se que o índice
de nicotina se distribui normalmente, com variância igual a
4,86 mg2, pode-se aceitar, ao nível de 5%, a afirmação do
fabricante?

Introdução à Estatística 177


7. Sabe-se que os calouros admitidos nos cursos de
matemática de todas as universidades de certo país apresentam,
num teste vocacional, uma nota média igual a 115 e o desvio
padrão igual a 20. O curso de matemática de uma universidade
Y desse país está interessado em saber se seus calouros são
típicos com relação à vocação. Para isto aplicou o mesmo teste
vocacional na sua última turma de 40 calouros e obteve uma
nota média igual a 118. Baseando-se nessa turma podemos
afirmar, ao nível de 5%, que os alunos de matemática da
universidade Y são típicos com relação à vocação?
8. Numa universidade X deseja-se testar se é diferente
de 50% a proporção de alunos com QI acima de 110. Para isto
colheu-se uma amostra de 60 alunos e obteve-se que 41 destes
tinham QI acima de 110. Com base nesta amostra podemos
acreditar, ao nível de 1%, que não é de 50% a proporção de
alunos com QI acima de 110?

178 Introdução à Estatística


Capítulo 10
Regressão linear simples

10.1 Relação entre variáveis

a) Uma relação funcional entre duas variáveis é dada


por:

Y = f(X)

de forma que, para um particular valor da variável


independente X, a função f indica o valor da variável
dependente Y. Se Y = aX+b, por exemplo:

então, nesse caso, todos os pontos estão sobre a reta.

Introdução à Estatística 179


b) Em uma relação estatística (ou modelo estatístico),
no entanto, os pontos não estão necessariamente sobre a curva
da relação, conforme ilustramos a seguir:

10.2 Modelo de regressão linear simples

Quando se tem uma única variável independente


(variável X) e o modelo estatístico da forma:

Yi = 0 + 1Xi + i , (10.1)

sendo:

Yi : variável resposta (dependente);


Xi: valor préfixado(não é variável aleatória);
0 e 1 : parâmetros;

i : é um erro aleatório, com E(i) = 0,


Var (i) =  ,
2
para i=1,2, ...,n e Cov(i , j) = 0,  i  j, e

180 Introdução à Estatística


usando-se a suposição de que a distribuição de i é normal, ou
seja, trabalhando-se com a hipótese de que a distribuição de i
é N(0, 2),  i, então nesse caso diz-se que o modelo (10.1)
é de regressão linear simples, com erros normalmente
distribuídos.

No modelo de regressão linear simples temos:

a) O valor esperado de Y é chamado de função de regressão,


sendo:
E(Yi)= E(0 + 1Xi + i) = 0 + 1Xi ;

b) Var(Yi) = Var(0 + 1Xi + i) = Var(i) = 2 ;

c) Cov(Yi , Yj) = 0,  i  j, visto que i e j são não


correlacionadas, para todo i  j ;

d) O parâmetro 1 significa em quanto muda E(Y), para cada


unidade que se acrescenta em X.

10.3 Método de mínimos quadrados

Para determinar estimadores para 0 e 1, normalmente


emprega-se o método de mínimos quadrados, que considera a
soma dos quadrados dos desvios de Y com relação ao seu valor
esperado:

Introdução à Estatística 181


Q   εi2   Yi  (β0  β1Xi ) .
2
(10.2)
i

Sendo que, de acordo com esse método, os estimadores de 0 e


1 são os valores que minimizam Q.

10.4 Estimadores de mínimos quadrados

Derivando Q com relação a 0 e 1, obtemos:

Q
n

0 i 1

 2 (Yi  β0  β1Xi ) ;

Q
n

1
 2
i 1

Xi (Yi  β 0  β1Xi ) .

Fazendo as equações anteriores iguais a zero e usando b0 e


b1 como os valores de 0 e 1 que minimizam Q, obteremos:

n
2  (Y  b
i 1
i 0  b1Xi )  0 ;

n
2  X (Y  b
i 1
i i 0  b1Xi )  0 .

Desenvolvendo, temos:

182 Introdução à Estatística


n n

i 1
Yi  nb0  b1 X
i 1
i  0; (10.3)

n n n

i 1
Xi Yi  b0  i 1
Xi  b1 X
i 1
i
2
 0. (10.4)

As equações (10.3) e (10.4) são então chamadas de


equações normais e b0 e b1 são os estimadores de mínimos
quadrados de 0 e 1, respectivamente.

De (10.3) e (10.4) podemos diretamente obter b0 e b1,


sendo:

n n

n 
( Xi ) (  Y) i n __ __

 Xi Yi  i 1
n
i 1
 (Xi  X ) (Yi  Y )
b1  i 1
 i 1
;(10.5)
n n __
(  Xi )2  (Xi  X )2
 Xi 
2 i 1
n
i 1

1 n n __ __
b0  (
n i 1 
Yi  b1  X )  Y b
i 1
i 1 X. (10.6)

Observação: costuma-se escrever:


Y  b0  b1X ,

Introdução à Estatística 183


que é o estimador de mínimos quadrados da função de
regressão E(Y) = 0 + 1X.

Exemplo 10.1

Um psicólogo estava investigando a relação entre o


tempo que um indivíduo leva para reagir a certo estímulo e a
idade dele. Definiu-se então Y = tempo de reação e X = idade,
obtendo-se os seguintes resultados, para uma amostra de 20
indivíduos.
Y X Y X
96 20 109 30
92 20 100 30
106 20 112 35
100 20 105 35
98 25 118 35
104 25 108 35
110 25 113 40
101 25 112 40
116 30 127 40
106 30 117 40

184 Introdução à Estatística


Nesse caso:

(600) (2.150)
65.400 
b1  20  0,90 ;
(600)2
19.000 
20

1
b0  (2.150  (0,90) (600))  80,5 .
20

Assim:


Y  80,5  0,90Xi

ou seja, estimamos que o tempo médio de reação cresce 0,90


para cada aumento de um ano na idade do indivíduo.

10.5 Resíduos

Definimos o resíduo para uma dada observação como a


diferença entre o valor observado e o valor estimado, ou seja,
denotando o i-ésimo resíduo por ei, temos:

ei  Yi  Y i  Yi  b0  b1Xi .

Introdução à Estatística 185


Exemplo 10.2

Considerando os dados do exemplo anterior, obtemos:

 

Y Yi ei Y Yi ei
96 98,5 -2,5 109 107,5 1,5

92 98,5 -6,5 100 107,5 -7,5

106 98,5 7,5 112 112,0 0,0

100 98,5 1,5 105 112,0 -7,0

98 103,0 -5,0 118 112,0 6,0

104 103,0 1,0 108 112,0 -4,0

110 103,0 7,0 113 116,5 -3,5

101 103,0 -2,0 112 116,5 -4,5

116 107,5 8,5 127 116,5 10,5

106 107,5 -1,5 117 116,5 0,5

Observação: os resíduos são importantes para verificar se um


modelo de regressão é apropriado para os dados que se tem em
mãos (mais adiante trataremos deste assunto).

186 Introdução à Estatística


10.6 Algumas propriedades da regressão linear, ajustada
pelo método de mínimos quadrados
1. A soma dos resíduos é zero:
n n n n


i1
ei  i1
(Yi  b0  b1Xi )  
i1
Yi  nb0  b1 X
i1
i  0,

pela equação (10.3)

2. A soma dos valores observados da variável dependente (Y)



é igual à soma dos valores ajustados ( Y ), isto é, também
pela equação (10.3):
n n

i 1
Yi  nb 0  b 1 X
i 1
i

n n
 
i 1
b0  b1 X
i 1
i

n
  (b
i 1
0  b1Xi )

n ^
 Y
i 1
i .

__ __
3. A regressão linear ajustada passa pelo ponto ( X, Y ), pois:

^ __ __ __ __
Y  b0  b1X  Y  b1 X  b1X  Y  b1(X  X ) .

Introdução à Estatística 187


4. A soma dos resíduos ponderados pelos níveis da variável
independente é zero, ou seja:

n n 

 Xe
i 1
i i   X (Y  Y )
i 1
i i i

n
  X (Y  b
i 1
i i 0  b1Xi )

n n n
 i 1
Xi Yi  b0 
i 1
Xi  b1 X
i 1
2
i 0

(pela equação normal (10.4)).

5. A soma dos resíduos ponderados pelos valores ajustados


também é zero, isto é:

n  n

i 1
Y i ei   (b
i 1
0  b1Xi ) ei

n n
 b0  i 1
ei  b1 Xe i 1
i i  0.

188 Introdução à Estatística


10.7 Inferências sobre 1

Para o modelo de regressão linear simples,


Yi  βo  β1Xi  i , mostra-se que b1 tem distribuição normal

com média e variância dadas por:


2
E(b1)= 1 (b1 é não viciado) e Varb1   n .
__


i 1
(Xi  X )2

10.8 Estimador da variância de b1

De acordo com a definição do i-ésimo resíduo, temos a


soma dos quadrados residuais (ou soma de quadrados dos
erros):
n  n
SQ E   i 1
(Yi  Yi )2   (Y  b
i 1
i 0  b1Xi )2 . (10.7)

Dividindo SQE por n-2 (que são seus graus de


liberdade), obtemos o chamado quadrado médio residual (ou
quadrado médio do erro):

SQE
QME  . (10.8)
n2

Introdução à Estatística 189


Mais adiante mostraremos que QME é um estimador
não viciado de 2, ou seja, E(QME) = 2. Desta forma obtemos
um estimador não viciado para a variância de b1, a saber:
Q ME
S2 b1   n . (10.9)
__

 (X
i 1
i  X) 2

10.9 Intervalo de confiança para 1

Facilmente mostra-se que a distribuição de (b1-1)/S(b1) é


uma t de Student com n-2 graus de liberdade. Assim, para t0 o valor
real, tal que P(t(n-2) > t0) = /2, tem-se:

b1  1
P(t0   t0 )  1   
s(b1 )

P(t0S(b1 )  b1  1  t0S(b1 ))  1   ,

ou seja, obtém-se então que b1  t0 S (b1 ) ; b1  t0 S (b1 ) é um

intervalo de confiança para 1 com coeficiente de confiança


1 - .

190 Introdução à Estatística


Observação: como já sabemos, para o cálculo de S2(b1)
precisamos de SQE, sendo que esta soma pode ser dada por
uma das três seguintes fórmulas:

SQE  Y i
2
 b0 Y  b XY .
i 1 i i (10.10)
__ __

SQ E   (Y  Y )
__
2

[  (X  X) (Y  Y )]
i i
2

. (10.11)
i __

 (X  X ) i
2

 X ) ( Y ) 
2
 (
XY 
i i


 Yi )2   n
i i
( 

SQ E  

Y i
2

n

 X)
( 2
. (10.12)
 
X
i
2

n
i

de forma que, no caso em que já se conheça b0 e b1, a fórmula


(10.10) é obviamente a mais indicada para este cálculo.

Exemplo 10.3

Considerando o exemplo 10.1, do qual já conhecemos b0 e b1,


teremos:

SQE = 232.498-80,5(2150)-0,90(65.400) = 563.

Introdução à Estatística 191


__
Temos também que  (X  X )i
2
 1.000. Assim:

563
S2 (b1 )  18  0,0313  Sb1   0,177.
1.000

Para 1- = 0,95 obtemos, pela tabela da distribuição t, que t0


=2,101. Portanto:

b1  t0 S (b1 )  0,90  (2,101)(0,177)  (0,53 ; 1,27) .

10.10 Teste sobre 1

Para verificar se não existe relação linear entre X e Y,


testamos:

H0: 1 = 0
H1: 1  0

De forma que não rejeitar H0 significa não existir relação linear


entre X e Y. Nesse caso, temos que a estatística do teste é:

b1
t  . (10.13)
S(b1 )

192 Introdução à Estatística


cuja distribuição é uma t de Student com n-2 graus de
liberdade, supondo H0 verdadeira.
Considerando novamente o exemplo 10.1, teremos:

0,90
tc   5,1 .
0,177

Portanto, como tc  2,101, rejeitamos H0 nesse caso, ou seja,


há evidências de que existe relação linear entre X e Y.

10.11 Inferências sobre 0

Para o modelo de regressão linear simples Yi = 0 +


__ __
1Xi +i, temos que a distribuição de b 0  Y  b1 X é normal

com média 0 (b0 é não viciado), e a variância é dada por:

 
 __ 2 
2 1 X 
Var(b0 )   
n n __ . (10.14)



i 1
2
(Xi  X ) 


Introdução à Estatística 193


De imediato, então, concluímos que:

 __ 2

1 X 
S 2 (b0 )  QME   n  , (10.15)
n 2
__

 i 1
(Xi  X )


é um estimador não viciado de var(b0).

10.12 Intervalo de confiança para 0

Analogamente ao que vimos para b1, temos que a


distribuição de (b0 - 0)/S(b0) é uma t de Student com n-2 graus
de liberdade. Consequentemente, se t0 é o valor da distribuição

t, tal que P(t(n2)  t0 )  , então:
2

(b0  t0 S (b0 ) ; b0  t0 S (b0 ))

será um intervalo de confiança para 0, com coeficiente de


confiança 1 - . Da mesma forma, temos que t = b0/S(b0) é a
estatística para testar:

H0: 0 = 0
H1: 0  0

194 Introdução à Estatística


cuja distribuição também é uma t de Student com n-2 graus de
liberdade, quando H0 é verdadeira.

10.13 Predições

Para os elementos pertencentes à amostra, usamos até


agora o índice i. Introduziremos, no entanto, um outro índice h
para nos referirmos aos valores que pertençam ou não à
 
amostra. Assim Yh  b0  b1Xh , do qual verificamos que Y h
tem distribuição normal e também podemos mostrar que seu
valor esperado e sua variância são dados por:

E(Yh )  E(Yh) . (10.16)
__

1 2 (Xh  X )2
Var(Y h )   (  n
). (10.17)
n __


i 1
(Xi  X ) 2

Substituindo então 2 por QME obtemos um estimador



não viciado de Var(Y h ) :
__
2

1 (Xh  X )2
S (Y h )  Q ME(  n
). (10.18)
n __

 (X
i 1
i  X) 2

Introdução à Estatística 195


10.14 Intervalo de confiança para E(Yh)

 
Não é difícil mostrar que [Yh  E(Yh )] / S(Yh ) tem
distribuição t de Student com n-2 graus de liberdade. Dessa
forma, considerando t0 como o valor da distribuição t, tal que

P(t(n2)  t0 )  , temos que:
2
   
[Yh  t0S(Yh ) ; Yh  t0S(Yh )] ,

é um intervalo de confiança para E(Yh), com coeficiente de


confiança 1-.

10.15 Intervalo de predição para uma nova observação

Representando por Yh(novo) uma nova observação de Y,


para o nível Xh de X, e pelo fato da independência entre Yh(novo)
e as observações da amostra, temos:

 
Var (Yh (novo)  Yh )  Var (Yh (novo) )  Var (Yh ) 
__ __
2 1 (Xh  X )2
2 2 1 (Xh  X )2
 [  __
]   [1   __
].
n n

(Xi  X )2

(Xi  X )2

196 Introdução à Estatística


Consequentemente, um estimador não viciado para

Var (Yh (novo)  Yh ) será:

__
2
 1 (Xh  X )2
S (Yh(novo)  Y h )  QME [1   __
].
n
(Xi  X )2

No caso do modelo de Regressão Linear Simples
pode-se mostrar que a distribuição de:

Yh ( novo)  Y h
 ,
S (Yh ( novo)  Y h )
é uma t de Student com n-2 graus de liberdade. Assim,
considerando-se novamente t0 como o valor da distribuição t,

tal que P[t(n2)  t0 ]  , tem-se, portanto, que o intervalo de
2
predição para Yh(novo) será dado por:

 
Y h  t0 S (Yh ( novo)  Y h ).

Exemplo 10.4

Com relação ainda ao exemplo 10.1 e considerando


uma idade de 45 anos, teremos:

Introdução à Estatística 197



S 2 (Y45(novo)  Y 45 ) 
563 
1 
1

45  302   39,822 
 
18  20 1000 

S(Y45(novo)  Y 45 )  6,315

Temos também:


Y 45  80,5  (0,90)(45)  121 .

Para 1 - = 0,95, obtemos t0 = 2,101. Assim:


 
[Y 45  t0 S (Y45( novo )  Y 45 )]  [121  2,101 6,315]  (107, 73 ; 134, 27)

é o intervalo de predição para Y45 ( novo) , com 95% de confiança.

10.16 Partição da soma de quadrados total


A variação de Yi é convencionalmente definida por
__
Yi  Y , de forma que a medida de variação total é dada pela
soma de quadrados:

n __ n __ 2
SQT   (Yi  Y ) 2   Yi 2  nY , (10.19)
i 1 i 1

que é denominada de soma de quadrados total.

198 Introdução à Estatística


A variação de Yi em torno da reta de regressão é dada

por Yi  Yi , de forma que a medida desses desvios é
denominada de soma de quadrados dos erros. Conforme vimos
antes é definida por:
n 
SQ E   (Y  Y )
i 1
i i
2
. (10.20)

Finalmente, para medir a variação dos valores ajustados


em torno da média das observações, temos a soma de
quadrados da regressão:
n  __
SQ R   (Y  Y )
i 1
i
2
. (10.21)

Na figura seguinte ilustramos a partição da variação de


Yi:

Introdução à Estatística 199


__
de forma que o desvio Yi  Y pode ser visto como a soma dos
  __
componentes Yi  Y i e Yi  Y , ou seja:
__   __
(Yi  Y )  (Yi  Yi )  (Yi  Y ) . (10.22)

Temos também que as somas de quadrados seguem a


mesma relação de (10.22), isto é:
n 2 n n
__   __


i 1
(Yi  Y )  
i 1
(Yi  Yi )2  
i 1
(Y i  Y )2 , (10.23)

pois:
n 2 n
__  __ 


i 1
(Yi  Y )   [(Y  Y )  (Y
i 1
i i  Yi )]2

n  __  __  
  [(Y  Y )
i 1
i
2
 2(Y i  Y ) (Yi  Y i )  (Yi  Y i )2 ]

n  __ n  n  __ 
 
i1
(Y i  Y )2   i1
(Yi  Y i )2  2  ( Y  Y ) (Y  Y ) ,
i1
i i i

sendo:
n  __  n   __ n 

 (Y  Y ) (Y  Y )   Y (Y  Y )  Y  (Y  Y )
i 1
i i i
i 1
i i i
i 1
i i

n  __ n
 
i1
Y i ei  Y e
i1
i  0.

200 Introdução à Estatística


Dessa forma, está verificado o que afirmamos
anteriormente, ou seja:

SQT  SQE  SQR (10.24)

10.17 Graus de liberdade

Este número indica quantas partes envolvendo as n


observações Y1, Y2, ..., Yn é preciso conhecer para determinar
a soma de quadrados. Assim, a soma de quadrados total tem
n __
n-1 graus de liberdade, visto que 
i 1
(Yi  Y )  0,

significando, portanto, que se conhecendo n-1 das partes


__ __ __
Y1  Y , Y2  Y , ..., Yn  Y a outra estará conhecida.

De acordo com o que foi visto anteriormente


n  n 

 (Y  Y )  0
i 1
i e  X (Y  Y
i 1
i i i )  0. Logo, conhecendo-se

  
n-2 das partes Y1  Y1 , Y2  Y2 , ..., Yn  Yn , as outras duas
estarão imediatamente determinadas. Portanto, conclui-se que a
soma de quadrados do erro tem n-2 graus de liberdade.

Introdução à Estatística 201


Por outro lado, pode-se verificar que
__
SQ R  b12  (X i  X )2 . Assim, observa-se que essa soma

de quadrados depende de uma única função de Y 1 , Y 2 , ...,


Yn , que é b 1 . Dessa forma, conclui-se que SQR tem um
grau de liberdade.

Observação: nesse caso temos que os graus de liberdade são


aditivos, pois:

(n-1)=(n-2)+1.

10.18 Quadrado médio

Dividindo-se a soma de quadrados pelo respectivo


número de graus de liberdade obtém-se o chamado quadrado
médio, ou seja, QME=SQE/(n-2) e QMR=SQR, sendo que
QME e QMR denotam o quadrado médio do erro e o quadrado
médio da regressão, respectivamente.

202 Introdução à Estatística


10.19 Tabela de análise de variância

A tabela seguinte apresenta a partição da soma de


quadrados total e dos seus graus de liberdade, sendo então
definida como tabela de análise de variância.

Fonte de Somas de Graus de Quadrados


variação quadrados liberdade médios
Regressão SQR 1 QMR
Erro SQE n–2 QME

Total SQT n–1

Considerando novamente o exemplo 10.1, temos:


n __ 2
SQT  Y
i 1
i
2
nY ,

SQT  232.498  (20)(107,5)2  1.373 .

No exemplo 10.3 obtivemos SQE = 563. Assim:

SQR = SQT–SQE,
SQR = 1.373–563 = 810.

Introdução à Estatística 203


Dessa forma:

Fonte de Somas de Graus de Quadrados


variação quadrados liberdade médios

Regressão 810 1 810

Erro 563 18 31,28

Total 1.373 19

10.20 O coeficiente de determinação

Um valor que mede o efeito da variável independente X


na variação de Y é o chamado coeficiente de determinação, que
é definido por:

SQT  SQE SQR


r2   , (10.25)
SQT SQT

sendo que SQT mede a variação de Y , independente de X, e


SQE mede a variação de Y, considerando a variável X no
modelo de regressão.

204 Introdução à Estatística


Observações:

1) Como 0  SQE  SQT , então 0  r2  1 .


2) Se todas as observações caem na reta ajustada então
SQE=0 e, consequentemente, r2=1. Neste caso, a variável X
explica toda variação nas observações Y.
 __
3) Se b1=0, então Y  Y , portanto SQE=SQT e,
consequentemente, r2=0, significando que X não influi na
redução da variação de Y.

4) A SQE é chamada de “variação não explicada”, enquanto


que SQR é denominada de “variação explicada pela
equação de regressão”. Assim, costuma-se interpretar r2
como a proporção da variação total de Y, que é explicada
por X, segundo o modelo de regressão considerado.

5) A raiz quadrada de r2 é o coeficiente de correlação


amostral:
r   r2 ,
de forma que a variação desse coeficiente é:
1  r  1 ,
com o sinal correspondendo ao sinal de b1 (coeficiente
angular da reta estimada).

Introdução à Estatística 205


6) Pode-se verificar que o coeficiente de correlação amostral
também pode ser obtido diretamente por:
n __ __

 ( Xi  X ) (Yi  Y )
r n
i1
__ n __ 1
=
[ ( Xi  X ) 2
 (Y  Y ) ]i
2 2

i1 i1

n n

n
( Xi ) ( Yi )
XY  i i
i1
n
i 1

 i1
n n
(10.26)
( Xi ) 2
( Yi ) 2
1
[( Xi  2 i1
)( Yi  2 i1
)] 2
n n

Exemplo 10.5

Ainda com relação ao exemplo 10.1, temos:


810
r2   0,59 .
1.373

206 Introdução à Estatística


10.21 Análise de adequação do modelo

Usamos gráficos de resíduos para examinar, de maneira


informal, alguns problemas que podem ser detectados no ajuste
de um modelo de regressão linear, como:

a) A função de regressão não é linear;


b) Os erros não têm variância constante;
c) Presença de observações muito distanciadas
das demais (outliers);
d) Os erros não são normalmente distribuídos.

a) A função de regressão não é linear

No caso do modelo linear ser apropriado para os dados,


o gráfico dos resíduos contra a variável independente X
apresenta o seguinte aspecto:

Introdução à Estatística 207


Para mostrar um exemplo em que o modelo linear não é
adequado, consideremos o seguinte conjunto de dados:

^
Y
Y X e

0,60 80 1,66 -1,06

6,70 220 7,75 -1,05

5,30 140 4,27 1,03

4,00 120 3,40 0,60

6,55 180 6,01 0,54

2,15 100 2,53 -0,38

6,60 200 6,88 -0,28

5,75 160 5,14 0,61

sendo:

Y  1,82  0,0435X .

208 Introdução à Estatística


Nesse caso:

Conforme vemos, a função de regressão linear não é adequada


para esses dados, pois os resíduos não distribuem-se
aleatoriamente em torno do zero.

Introdução à Estatística 209


b) Os erros não têm variância constante

Se a variância dos erros aumenta quando os valores de


X crescem, então o gráfico dos resíduos contra a variável
independente X apresenta-se com o seguinte aspecto:

Observações:

1. Obtém-se um comportamento análogo no gráfico dos



resíduos contra os valores ajustados Y, sendo que, no caso da
função de regressão não ser linear, ou quando se tem um
modelo de regressão múltipla, necessariamente usa-se este
último;

210 Introdução à Estatística


2. Equivalentemente, é possível encontrar a variância dos erros
decrescendo, quando X cresce, ou variando de alguma maneira,
ou seja, pode-se ter a variância dos erros não constante também
em casos em que o gráfico dos resíduos tem formas tais como:

c) Presença de outliers

Se diz que di  ei / QME é o i-ésimo resíduo


padronizado pelo desvio padrão, dado que o QME é uma
variância amostral dos resíduos, isto é:

 (e i  e)2

e
2
i

SQ E
 QME .
n2 n2 n2

Introdução à Estatística 211


Portanto consideraremos o gráfico de resíduos
padronizados contra a variável independente para verificar se
algum ponto está a uma distância do zero superior a três. Essa é
uma das maneiras, entre várias outras existentes, de classificar
uma observação como outlier. Para exemplificar, vejamos o
gráfico a seguir, no qual o ponto circulado é tratado como
outlier, pois a distância entre ele e o zero é maior que três.

Observações:

1. A presença de um outlier causa prejuízos para o ajuste de


uma reta de regressão porque, pelo método de mínimos
quadrados, a reta ajustada é puxada desproporcionalmente para
esse ponto;

212 Introdução à Estatística


2. Um outlier pode, no entanto, conter significativas
informações, de forma que a simples exclusão desse ponto
poderia causar considerável perda para o ajuste, ou seja, a
retirada de outliers do conjunto dos dados só é recomendada
quando se tem a certeza de que eles são resultados de “erros
grosseiros" na fase da amostragem.

d) Normalidade da distribuição dos erros

Através do “papel de probabilidade normal", que é um


papel em que uma das escalas está subdividida conforme as
probabilidades acumuladas de uma distribuição normal, pode-
se, de uma forma prática, verificar se a distribuição dos dados
foge muito de uma normal ou não. Para isto, calculam-se as
frequências relativas acumuladas dos dados e faz-se um plot
destas frequências contra as probabilidades acumuladas do
"papel de probabilidade normal", de forma que, no caso em que
os dados venham de uma distribuição normal, esse plot será
aproximadamente uma reta.

Introdução à Estatística 213


Para fixar a ideia, consideremos o seguinte conjunto de
dados:

X Y X Y
15,50 2158,70 13,00 2165,20
23,75 1678,15 3,75 2399,55
8,00 2316,00 25,00 1779,80
17,00 2061,30 9,75 2336,75
5,50 2207,50 22,00 1765,30
19,00 1708,30 18,00 2053,50
24,00 1784,70 6,00 2414,40
2,50 2575,00 12,50 2200,50
7,50 2357,90 2,00 2654,20
11,00 2256,70 21,50 1753,70

Admitindo o modelo Yi  0  1Xi  i , obtemos:


Y i  2627,82  37,15 Xi ,

cujo plot da probabilidade normal dos resíduos desse ajuste,


obtido através do pacote computacional Statística, é o seguinte:

214 Introdução à Estatística


Vemos que o plot apresentado é aproximadamente uma
reta e, sendo esse equivalente ao plot obtido através do “papel
de probabilidade normal” então não temos motivo para rejeitar
a hipótese de que os erros nesse caso têm distribuição normal.
Observação: pode-se também verificar informalmente a
normalidade da distribuição dos erros por outros métodos
práticos, como a análise do histograma dos resíduos ou
observando simplesmente se cerca de 68% dos desvios
padronizados caem entre –1 e +1, ou se aproximadamente 90%
deles caem entre -1,64 e 1,64.

Introdução à Estatística 215


Problemas

1. Uma substância usada em pesquisas biológicas é embalada


em caixas de 1000 ampolas e embarcada em transporte aéreo.
Os dados seguintes referem-se ao número de vezes que a caixa
é transferida de um transporte para outro durante a viagem (X)
e o número de ampolas quebradas encontradas na chegada (Y).

Observação 1 2 3 4 5 6 7 8

X 2 1 3 1 4 2 1 2

Y 16 9 17 12 22 13 8 15

Considerando-se um modelo de regressão linear simples:

a) Obtenha a função de regressão estimada;


b) Calcule os resíduos e verifique se a soma deles é zero,
conforme a propriedade vista anteriormente;
c) Obtenha uma estimativa para 2.

2. Experiências com um certo tipo de plástico indicam que


existe relação entre a dureza dos itens que modelam o plástico

216 Introdução à Estatística


(Y) e o tempo decorrido depois da conclusão do processo de
modelagem (X). Doze fornadas do plástico foram feitas e em
cada uma realizou-se um teste para verificar a dureza. Os
resultados estão a seguir, sendo X o tempo em horas e Y a
dureza (medida em brinell unidades).

Obs 1 2 3 4 5 6 7 8 9 10 11 12
X 32 48 72 64 48 16 40 48 48 24 80 56
Y 22 26 32 29 25 19 23 27 26 21 36 30
0 2 3 8 5 9 6 9 7 4 9 5

Considerando um modelo de regressão linear simples:

a) Obtenha a função de regressão estimada;


b) Determine:

I. A estimativa da mudança na resposta média quando o


tempo é aumentado em uma hora;

II. A estimativa da resposta média quando X = 40;


III. Uma estimativa para 2.

Introdução à Estatística 217


3. Testar a não existência de relação linear entre X e Y, para os
problemas 1 e 2.

4. Construir intervalos de confiança para 0 e para 1, ao nível


de 95%, para os problemas 1 e 2.

5. Considerando o exercício 1, construir um intervalo de


predição, ao nível de 95%, para o número de ampolas
quebradas encontradas na chegada, quando a caixa for
transferida de um transporte para o outro num total de 10
vezes.

6. Com relação ao exercício 2, construir um intervalo de


confiança para a dureza média dos itens, ao nível de 95%,
quando o tempo decorrido depois da conclusão do processo for
igual a 10,7.

7. Ainda com relação ao exercício 2, construir um intervalo de


predição, ao nível de 95%, para a dureza dos itens, quando o
tempo decorrido depois da conclusão do processo for igual a
17,5.

218 Introdução à Estatística


8. Determine os coeficientes de determinação para os
exercícios 1 e 2.

9. Sejam X = renda pessoal disponível e Y = consumo pessoal,


cujos dados estão na tabela a seguir:

Renda e consumo nos Estados Unidos, 1948 – 1957


(em bilhões de dólares)

Ano Consumo pessoal (Y) Renda pessoal disponível (X)


1948 199 212
1949 204 214
1950 216 231
1951 218 237
1952 224 244
1953 235 255
1954 238 257
1955 256 273
1956 264 284
1957 270 290

Considerando-se o modelo Y  0  1X   , então:

Introdução à Estatística 219


a) Obtenha a função de regressão estimada;
b) Teste, ao nível de 5%, se não existe relação linear entre X
e Y;
c) Qual a estimativa do aumento de consumo pessoal médio,
quando a renda pessoal disponível é aumentada em um
bilhão de dólares?
d) Ao nível de 95%, qual o intervalo de predição para o
consumo pessoal, quando a renda pessoal disponível for de
350 bilhões de dólares?
e) Qual porcentagem da variabilidade do consumo pessoal é
explicada pela renda pessoal disponível no modelo?

10. Faça análise gráfica dos resíduos dos exercícios 1 e 2 para


verificar se existe indicativo de algum "problema" nos ajustes
feitos. Tire suas conclusões.

220 Introdução à Estatística


Respostas dos problemas

CAPÍTULO 1

1. 1/5
2. 3/10
3. 5/21
4. 13/18
5. (c) P(A  B)=19/36; P(A  B)=3/36 ;P( B )=1/2
6. P(A)=4/7;P(B)=2/7;P(C)=1/7

7. a) 0,19; b) 0,49; c) 0,32


9. 0,487
10. 2/15
11. P(AB)=3/4; P(BA)=3/5
12. (a) 1/5; (b) 11/15
13. (a) 0,3; (b) 0,5
14. 2/3 e 0
15. (a) 2/15; (b) 13/15
16. 19/55;
17. 23/50;

Introdução à Estatística 221


19. 17/45.
21. a) 0,0115 ; b) 0,9965 ; c) 0,5025 ; d) 0,199.
22. 0,95.
23. a) 0,89 ; b) 0,09.
24. a) 0,22 ; b) 0,18 ; c) 0,952.

CAPÍTULO 2

1. (b) 21 e 12
2. K=105/176; E(X)=2,39
3. E(Y)=q; V(Y)=q(1-q)
4. (b) E(X+Y)=11,9; V(X+Y)=12,49; (c) V(XY)=53,41
5. (a)
x 5 10 15 P(Y=y)
y
5 0,1 0,2 0,1 0,4
10 0,2 0,3 0,1 0,6
P(X=x) 0,3 0,5 0,2 1,0

(c) E(X)=9,5; E(Y)=8; V(X)=12,25; V(Y)=6

(d) E(Z)=17,5; V(Z)=16,25


(e) ρ (X,Y)=-0,117

222 Introdução à Estatística


6. (a) E(X)=2,2; E(Y)=0,9; V(X)=0,76; V(Y)=0,49;
E(X+Y)=3,1.

(c) E(XY)=2,1;

XY 0 1 3 4 6
P(xy) 0,3 0,2 0,3 0,1 0,1

(d) ρ(X,Y)=0,197

7. (b) E(X)=0;E(Y)=1/3;V(X)=1;V(Y)=5/9.
(c) a=  10; b=30

8. (b) Sim (c) zero


9. (a) Não (b) ρ(X,Y)=-0,154
10. ρ(X,Y)=0 (neste caso as variáveis são independentes)
12. a=1/2
14. E(W)=4/3

Introdução à Estatística 223


CAPÍTULO 3

1. (a) E(X)=4; V(X)=3,2; (b) 0,2061.


2. 0,2344
4. 0,9453
5. (a) 0,182; (b) 0,999; (c) 0,2 e 0,44.
6. (a) 4/65; (b) 3/91;
7. 0,6769
8. (a) 0,7788; (b) E(X)=9,35
10. 0,8747;
11. (a) 0,8753; (b) 0,1606.
12. (a) 0,1991; (b) 0,2231
13. (a) 0,2224; (b) 0,6883
14. 0,4405
15. (a) 0,3849; (b) 0,9053; (c) 0,0548
16. (a) 68,27% (b) 2,28% (c) zero
17. (a) 4,75% (b) 10
18. 0,0668
19. 7; 70 e 3
20. 88,5 e 55,3
21. (a) 26,12%; (b) 113
22. 97,72%

224 Introdução à Estatística


23. 556
26. 0,3127;
27. 0 e 1/48;
28. (a) 0,632; (b) 0,148
29. (a) =3; (b) =1,25.

CAPÍTULO 4

1. 0,0465
2. 0,0985
3. 0,9207
4. (a) 0,762; (b) 0,0384; (c) 0,0091
5. 0,9611
6. 0,0764

CAPÍTULO 5

1. (0,774; 0,885)
2. (0,638; 0,862)
3. (0,327; 0,373)
4. (34,74; 35,26)
5. (0,08; 0,12)
6.

Introdução à Estatística 225


CAPÍTULO 7

1. 8,18 e 8
2. (a) 20,72; (b) 20,08; (c) 23,5 e 23,31

CAPÍTULO 8

1. S=1,476
2. S=6,514, Dq=3,86
3. A distribuição do problema 2.
4. A distribuição do problema 2 do capítulo 6.

CAPÍTULO 9

1. (a) O conjunto dos valores da normal padrão, menores que


-2,33;
(b) O conjunto dos valores da normal padrão, maiores que
2,33;

(c) O conjunto dos valores da normal padrão, menores que


–2,57 ou maiores que 2,57.

2. Não podemos dizer que a nova técnica é melhor do que a


anterior.

226 Introdução à Estatística


3. A escola tem razões para afirmar que os candidatos a seu
curso de psicologia são melhores que os da média nacional.
4. Os produtores devem modificar o programa.
5. Pode-se concluir que esta firma paga salários inferiores.
6. Não se pode aceitar a afirmação do fabricante.
7. Podemos concluir que os alunos de psicologia da
universidade Y são típicos com relação à vocação.
8. Podemos acreditar que não é de 50% a proporção de alunos
com QI acima de 110.

CAPÍTULO 10

1. (a) Y  6  4 X

(c) 2,67

2.

(a) Y  145, 72  2,57 X
(b) (1) 2,57; (2) 248,38; (3) 151,98

3. Em ambos os casos rejeita-se a hipótese da não existência


de relação linear entre X e Y.

Introdução à Estatística 227


4.
Exercício 1

Para 0 : (2,84 ; 9,16)

Para 1 : (2,59 ; 5,41)

Exercício 2

Para 0 : (123,01 ; 168,42)

Para 1 : (2,12 ; 3,01)

5. (33,93 ; 58,07)
6. (154,84 ; 191,52)
7. (159,01 ; 222,26)
8. 0,889 e 0,943
9.

(a) Y  7, 05  0,90 X
(b) Rejeita-se a hipótese da não existência de relação linear
entre X e Y.
(c) 0,90
(d) (313,72 ; 332,11)
(e) 0,991

228 Introdução à Estatística


REFERÊNCIAS

BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. São


Paulo: Atual, 1987.

FONSECA, J. S.; MARTINS, G. A. Curso de Estatística. São


Paulo: Atlas, 1979.

GONÇALVES, F. A. Estatística Descritiva: uma introdução.


São Paulo: Atlas, 1978.

JAMES, B. R. Introdução à Probabilidade (Notas de Aula).


Rio de Janeiro: IMPA, 1981.

MEYER, P. L. Probabilidade: aplicações à estatística. Rio de


Janeiro: Livros Técnicos e Científicos, 1976.

MORETTIN, L. G. Estatística Básica: probabilidade. 6. ed.


São Paulo: McGraw-Hill, s.d.

MORETTIN, P. A. Introdução à Estatística. São Paulo: Atual,


1981.

NETO, P. L. O. C. Estatística. São Paulo: Edgar Blucher,


1977.

MAGALHÃES, M. N.; LIMA, A. C. P. Noções de


Probabilidade e Estatística. 4. ed. São Paulo: EDUSP, 2002.

MONTGOMERY, D. C.; RUNGER, G. C. Estatística


Aplicada e Probabilidade para Engenheiros. 2. ed. Rio de
Janeiro: Livros Técnicos e Científico, 2003.

Introdução à Estatística 229


APÊNDICES –TABELAS ESTATÍSTICAS

TABELA I – Distribuição Normal

TABELA II – Distribuição Qui-quadado

TABELA III – Distribuição t de Student

TABELA IV – Distribuição F

230 Introdução à Estatística


TABELA I – Distribuição Normal

Introdução à Estatística 231


TABELA II – Distribuição Qui-quadrado

232 Introdução à Estatística


TABELA III – Distribuição t de Student

Introdução à Estatística 233


TABELA IV – Distribuição F

234 Introdução à Estatística


Este livro foi projetado pela equipe editorial da Editora
da Universidade Federal do Rio Grande do Norte.
Foi impresso em junho de 2016.

Introdução à Estatística 235

Você também pode gostar