Introdução À Estatística (Digital)

REITORA
Ângela Maria Paiva Cruz

VICE-REITOR
José Daniel Diniz Melo
DIRETORIA ADMINISTRATIVA DA EDUFRN
Luis Passeggi (Diretor)
Wilson Fernandes (Diretor Adjunto)
Judithe Albuquerque (Secretária)
CONSELHO EDITORIAL
Luis Álvaro Sgadari Passeggi (Presidente)
Ana Karla Pessoa Peixoto Bezerra
Anna Emanuella Nelson dos S. C. da Rocha
Anne Cristine da Silva Dantas
Christianne Medeiros Cavalcante
Edna Maria Rangel de Sá
Eliane Marinho Soriano
Fábio Resende de Araújo
Francisco Dutra de Macedo Filho
Francisco Wildson Confessor
George Dantas de Azevedo
Maria Aniolly Queiroz Maia
Maria da Conceição F. B. S. Passeggi
Maurício Roberto Campelo de Macedo
Nedja Suely Fernandes
Paulo Ricardo Porfírio do Nascimento
Paulo Roberto Medeiros de Azevedo
Regina Simon da Silva
Richardson Naves Leão
Rosires Magali Bezerra de Barros
Tânia Maria de Araújo Lima
Tarcísio Gomes Filho
Teodora de Araújo Alves
EDITORAÇÃO
Helton Rubiano de Macedo (editor)
Paula Frassinetti dos Santos (editora assistente)
Alva Medeiros da Costa (supervisora Editorial)
REVISÃO
Wildson Confessor (coordenador)
Alynne Scott (colaboradora)
Iza Nobre (colaboradora - normalização)
DESIGN EDITORIAL
Michele Holanda (coordenadora)
Edson Lima (capa)
Erinaldo Silva de Sousa (miolo)
Introdução à Estatística
Introdução à Estatística 3
Coordenadoria de Processos Técnicos
Catalogação da Publicação na Fonte.UFRN / Biblioteca Central Zila Mamede
Azevedo, Paulo Roberto Medeiros de.

Introdução à estatística [recurso eletrônico] / Paulo Roberto Medeiros de
Azevedo. - 3. ed. - Natal, RN : EDUFRN, 2016.
2,8 Mb ; PDF
ISBN 978-85-425-0601-3
Modo de acesso: http://repositorio.ufrn.br
1. Probabilidade. 2. Análise de regressão. 3. Estatística matemática. II. Título.
CDD 519.2
RN/UF/BCZM 2016/30 CDU 519.2
Todos os direitos desta edição reservados à EDUFRN – Editora da UFRN

Av. Senador Salgado Filho, 3000 | Campus Universitário | Lagoa Nova | 59.078-970 | Natal/RN, Brasil
e-mail: [email protected] | www.editora.ufrn.br | Telefone: 84 3342 2221
Sumário
Prefácio, 9
Capítulo 1
Introdução à probabilidade, 11
1.1 Alguns resultados básicos de probabilidade, 11

1.2 Probabilidade condicional, 21
1.3 Eventos independentes, 23
1.4 Teorema da probabilidade total, 28
1.5 Teorema de Bayes, 30
Capítulo 2
Variáveis aleatórias, 37
2.1 Variável aleatória discreta, 39

2.2 Variável aleatória contínua, 40
2.3 Distribuição conjunta de uma variável aleatória
discreta bidimensional, 46
2.4 Variáveis aleatórias discretas independentes, 51
2.5 Valor esperado de uma variável aleatória discreta, 56
2.6 Variância de uma variável aleatória, 61
2.7 Coeficiente de correlação, 66
2.8 Função de distribuição acumulada, 68
Capítulo 3
Algumas distribuições importantes, 80
3.1 Distribuições discretas, 80

3.1.1 A distribuição de Bernoulli, 80
3.1.2 A distribuição Binomial, 82
3.1.3 A distribuição Hipergeométrica, 84
3.1.4 A distribuição de Poisson, 86
3.1.5 A distribuição de Poisson e a distribuição
Binomial, 90
3.2 Distribuições contínuas, 94
3.2.1 A distribuição Uniforme, 94
3.2.2 A distribuição Exponencial, 96
3.2.3 A distribuição Normal, 97
3.2.4 A distribuição Qui-quadrado, 101
3.2.5 A distribuição t de Student, 102
3.2.6 A distribuição F, 104
Capítulo 4
Introdução à inteferência estatística, 112
4.1 População e amostra, 112

4.2 Amostra aleatória, 112
4.3 Estatísticas e parâmetros, 113
4.4 Distribuições amostrais, 113
4.5 Distribuição amostral da média, 115
4.6 Distribuição amostral da proporção, 117
Capítulo 5
Estimação, 121
5.1 Estimação por ponto, 121

5.2 Estimação por intervalo, 122
Capítulo 6
Distribuição de frequêcias, 127
6.1 Introdução, 127

6.2 Número de classes, 133
6.3 Representação gráfica, 136
6 Introdução à Estatística
Capítulo 7
Medidas de tendência central e separatrizes, 142
7.1 Média aritmética, 142

7.2 Mediana, 145
7.3 Separatrizes, 159
Capítulo 8
Medidas de variabilidade, 154
8.1 Principais medidas de variabilidade absoluta, 155

8.2 Medidas de variabilidade relativa, 160
8.3 Esquema dos cinco números e Box-plot, 163
Capítulo 9
Testes de hipóteses: primeiras ideias, 166
9.1 Hipótese estatística, 169

9.2 Erros do tipo I e do tipo II, 167
9.3 Determinação da região de rejeição, 168
9.4 Passos para a construção de um teste de
hipóteses, 168
Capítulo 10
Regressão linear simples, 179
10.1 Relação entre variáveis, 179

10.2 Modelo de regressão linear simples, 180
10.3 Método de mínimos quadrados, 181
10.4 Estimadores de mínimos quadrados, 182
10.5 Resíduos, 185
10.6 Algumas propriedades da regressão linear, ajustada
pelo método de mínimos quadrados, 187
10.7 Inferências sobre 1, 189
10.8 Estimador da variância de b1, 189
10.9 Intervalo de confiança para 1, 190
10.10 Teste sobre 1, 192
10.11 Inferências sobre 0, 193
10.12 Intervalo de confiança para 0, 194
10.13 Predições, 195
10.14 Intervalo de confiança para E(Yh), 196
10.15 Intervalo de predição para uma nova
observação, 196
10.16 Partição da soma de quadrados total, 198
10.17 Graus de liberdade, 201
10.18 Quadrado médio, 202
10.19 Tabela de análise de variância, 203
10.20 O coeficiente de determinação, 204
10.21 Análise de adequação do modelo, 207
REFERÊNCIAS, 229
APÊNDICE, 230
Prefácio
Estas notas de aula já tinham sido publicadas

anteriormente, por meio da coleção SALA DE AULA, da
Cooperativa Cultural – UFRN. A ideia inicial surgiu com a
reformulação do programa da disciplina “Elementos de
Matemática e Estatística”, que era oferecida para o curso de
Psicologia. Com a mudança, evidenciou-se a necessidade de
um texto para o novo programa, resultando então na elaboração
destas notas. O que agora realizamos, entretanto, refere-se à
inclusão de alguns tópicos relacionados às variáveis aleatórias
contínuas e de algumas das suas principais distribuições, bem
como a inserção de um capítulo de regressão linear simples.
Este último é resultado de um resumo do primeiro capítulo de
outras notas de aula, cujo título é “Modelos de Regressão
Linear”, que elaboramos para a disciplina “Análise de
Regressão”, do Departamento de Estatística.
Além desses acréscimos, também corrigimos erros.
Neste ponto, aproveitamos para fazer um agradecimento
especial aos colegas de departamento Dione Maria Valença,
Franciné dos Santos Pessoa e Francisco Venâncio Moura, pela
realização da revisão ortográfica e por outras relevantes
sugestões, que, com certeza, contribuíram para um significativo
enriquecimento deste trabalho.
Os assuntos de variáveis contínuas aqui incluídos
ficaram limitados a algumas definições e a certas observações,
buscando realizar um paralelo entre os casos contínuos e
discretos, tendo em vista que priorizamos as distribuições
discretas para a formulação dos conceitos mais básicos de
probabilidade. Assim, continuamos com a nossa compreensão
inicial, que é a de ministrar disciplinas para outros cursos da
universidade, passando aqueles conhecimentos mais
fundamentais de estatística de uma maneira bem simples,
porém com a certeza de estar contribuindo para o aprendizado
de outros resultados, que muito comumente são utilizados em
aplicações diversas por alunos de todas as áreas do
conhecimento.
Dessa forma, entendemos que este material pode se
adequar a várias disciplinas que são oferecidas pelo
Departamento de Estatística, mantendo, no entanto, as
características de notas de aula.
Natal, julho de 2015.
Capítulo 1
Introdução à probabilidade
1.1 Alguns resultados básicos de probabilidade
Ao se estudar um fenômeno através de experimentação,

o que normalmente se faz é construir um modelo matemático,
determinístico ou probabilístico, que sirva para descrever o
respectivo fenômeno, sendo que:
a) Em um experimento determinístico, conhecidas
todas as “amarrações”, o resultado final é garantido pelas
condições sob as quais ele é executado, podendo ser descrito
por uma lei matemática. Como, por exemplo, o modelo que
serve para descrever a intensidade de uma força “F” sobre um
corpo com certa massa “m”, que se encontra em uma superfície
totalmente lisa (sem atrito) e com uma aceleração “a”, é dado
por F  m  a . Assim, podemos ver que “F” é determinada
pelos valores de “m” e de “a”.
b) Em um experimento não determinístico (ou

probabilístico), conhecidas também todas as “amarrações”,
temos como prognosticar o que poderá ocorrer, mas jamais
garantir o que realmente irá acontecer; ou seja, podemos
somente determinar o comportamento probabilístico do
resultado observável.
Exemplos de experimentos não determinísticos
1. Jogar um dado e observar o número mostrado na

face de cima.
2. Em uma classe de 30 alunos, verificar quantos têm
QI acima de 100.
Para determinar o comportamento probabilístico de um
experimento não determinístico precisamos, em primeiro lugar,
estabelecer seu espaço amostral “S”, que por definição é o
conjunto de todos os resultados possíveis do experimento.
Exemplos
1. Do experimento de jogar um dado e observar o

número mostrado na face de cima, temos:
S={1,2,3,4,5,6}.
2. Com relação ao experimento de verificar, em uma

classe de 30 alunos, quantos têm QI acima de 100,
teremos: S={0,1,2,...,30}.
Eventos
Definição: evento é um subconjunto do espaço amostral.

Referindo-nos outra vez ao experimento de verificar,
em uma classe de 30 alunos, quantos têm QI acima de 100,
consideremos, por exemplo, os eventos:
A: pelo menos 20 alunos têm QI acima de 100.
B: no máximo 07 alunos têm QI acima de 100.
Ou seja:
A={20,21,22,...,30} e B={0,1,2,...,7}.
Observação: considerando-se que A e B são dois eventos,

então:
1. A  B será o evento que ocorrerá se, e somente se,

A ou B (ou ambos) ocorrerem;
2. A  B será o evento que ocorrerá se, e somente se,
A e B ocorrerem;
3. A será o evento que ocorrerá se, e somente se, A
não ocorrer (dizemos que A é o complementar de
A).
Eventos mutuamente excludentes
Definição: dois eventos A e B são denominados mutuamente

excludentes se eles não puderem ocorrer juntos, ou seja, se a
interseção entre eles for o vazio ( A B   ).
Temos, do último exemplo, que os eventos
A={20,21,22,...,30} e B={0,1,2,...,7} são mutuamente
excludentes, pois A  B  Ø.
Definição de probabilidade
Seja S um espaço amostral associado a um

experimento. Para cada evento A, associa-se a um número real
representado por P(A), denominado de probabilidade de A, que
satisfaz às seguintes propriedades:
1) 0  P(A)  1 .
2) P(S)=1.
3) Se A e B forem eventos mutuamente excludentes
( A  B  Ø), então: P( A  B )=P(A) + P(B).
4) Se A1, A2, ..., An forem eventos dois a dois
mutuamente excludentes, então:
n n
P( 
i 1
Ai )   P(A ) .
i 1
i
Principais consequências das propriedades apresentadas:
a) P( 0 )=0 e P( A )=1-P(A), sendo 0 o vazio e A o

complementar de A.
b) Se A e B são dois eventos quaisquer, então:
PA  B  PA  PB  PA  B . (1.1)
c) Se A, B e C são eventos quaisquer, então:
P  A  B  C   P  A  P  B   P(C )  P  A  B 
 P( A  C )  P( B  C )  P( A  B  C ).
d) Se A  B , então P( A)  P( B) .
Probabilidades nos espaços amostrais finitos
Consideremos um espaço amostral S  s1 , s2 ,..., sn . A

cada evento simples si  associa-se Psi  , denominada de
probabilidade de si . Assim, a probabilidade de um evento “A”
qualquer é dada pela soma das probabilidades dos vários eventos
simples que constituem “A”, ou seja, P A    Psi  , sendo a
i
soma estendida a todos os si  A.
Exemplo 1.1
Seja S={a, b, c, d, e, f}, com P(a)=1/16, P(b)= 1/16,

P(c)=1/8, P(d)=3/16, P(e)=1/4 e P(f)=5/16. Considerando, por
exemplo, os eventos: A={a, c, e}, B= {c, d, e, f} e C={b, c, f},
teremos: P(A)=1/16 + 1/8 +1/4 =7/16, P(B)=1/8 + 3/16 +1/4 +
5/16=14/16 e, de maneira análoga, encontramos P(C)=8/16.
Espaços amostrais finitos equiprováveis
Consideremos novamente um espaço amostral finito

S  s1, s2 ,..., sn  , e seja A um evento constituído de K
elementos, 1  k  n. Se todos os elementos de S forem
igualmente prováveis, então P(A)=K/n, ou seja, nesse caso
dizemos que a probabilidade de A é:
P(A)= nº de casos favoráveis a A / nº total de casos.
Observação: escolher ao acaso (ou aleatoriamente) um objeto

dentre n significa dizer que o espaço amostral é equiprovável e,
portanto, quer dizer que cada objeto tem a mesma
probabilidade de ser escolhido, a saber, 1/n.
Exemplo 1.2
Numa classe há cinco primeiranistas, quatro

segundanistas, oito terceiranistas e três concluintes. Se um
estudante é escolhido ao acaso para representar a classe, qual
será a probabilidade desse ser terceiranista ou do último ano?
Definindo os eventos:
T: o aluno é terceiranista e C: o aluno é concluinte,

teremos: P (do aluno ser terceiranista ou do último ano)= =
8 3 11
P(T  C)  P(T) P(C)   .
20 20 20
Exemplo 1.3
Suponha um grupo de 100 pessoas, no qual algumas

têm psicose (P), enquanto outras têm neurose (N), sendo
algumas idosas (I), enquanto outras são adolescentes (A). A
tabela seguinte dá a classificação das referidas pessoas.
Escolhendo-se ao acaso uma pessoa desse grupo, qual será a
probabilidade dessa ser idosa ou ter alguma neurose?
P N Total
A 1 29 30
I 2 68 70
Total 3 97 100
Temos:
P(da pessoa escolhida ser idosa ou ter alguma neurose)= =

70  97  68 99
P(I N)  P(I) P(N) P(I N)   .
100 100
Problemas
1. Um cartão é retirado ao acaso dentre 50 cartões

numerados de 1 a 50. Encontre a probabilidade de o número no
cartão escolhido ser divisível por 5.
2. Das 10 alunas de uma classe, duas são superdotadas

e uma tem QI muito abaixo da média. Se uma delas é escolhida
ao acaso, qual será a probabilidade dessa ser superdotada ou ter
QI muito abaixo da média?
3. Supor uma classe onde três alunos são considerados

com capacidade de liderança, 16 não têm essa capacidade e
dois são não classificáveis. Escolhendo-se um aluno ao acaso,
qual será a probabilidade deste ter capacidade de liderança ou
ser não classificável.
4. O seguinte grupo de pessoas está numa sala: 5

homens maiores de 21 anos, 4 homens com menos de 21 anos,
6 mulheres maiores de 21 anos e 3 mulheres menores de 21
anos. Uma pessoa é escolhida ao acaso. Calcular a
probabilidade da pessoa escolhida ser mulher ou ter menos de
21 anos.
5. Considere o lançamento de dois dados. Sejam os
eventos A: a soma dos números obtidos é igual a 9 e B: o
número no primeiro dado é maior ou igual a 4.
a) Encontre os elementos de A e de B;
b) Obtenha A  B, A  B e B ;
c) Determine as probabilidades dos eventos do item b.
6. Três cavalos A, B, C estão numa corrida. Sabe-se

que A é duas vezes mais provável de ganhar que B, e este é
duas vezes mais que C. Determinar as probabilidades de ganhar
dos cavalos A, B e C.
7. Em uma cidade onde se publicam três jornais – A, B

eC–
constatou-se que dentre 1000 famílias assinam: A-470; B-
420; C-315; A e B-110; A e C-220; B e C-140 e 75 assinam os
três. Escolhendo-se ao acaso uma família, qual a probabilidade
de que ela:
a) Não assine nenhum dos três jornais;

b) Assine apenas um dos três jornais;
c) Assine pelo menos dois jornais.
8. Verificar as propriedades a, b, c e d, que se localiza
no tópico “Definição de propabilidade”.
1.2 Probabilidade condicional
Considerando o exemplo 1.3, suponhamos que se

verificou que a pessoa escolhida é idosa. Neste caso, qual será
a probabilidade dessa pessoa ter psicose? Como temos agora a
informação de que a pessoa escolhida é idosa, então nosso
conjunto de resultados possíveis passa a ser o conjunto das
pessoas idosas. Assim:
P(da pessoa ter psicose, dada a informação de que é idosa ) 
nº de pessoas com psicose, dentre as idosas 2 1

   .
nº total de pessoas idosas 70 35
De maneira geral, para dois eventos quaisquer A e B,

sendo P(B)>0, definimos a probabilidade condicional de A,
dado que ocorreu o evento B, denotada por P( A B) , como
sendo:
P( A  B)
P( A B)  . (1.2)
P(B)
Dessa forma, o exemplo anterior também poderá ser
resolvido da seguinte maneira:
P(da pessoa ter psicose, dada a informação de que é idosa ) 

2
P(da pessoa ter psicose e ser idosa ) 100 2 1
    .
P(da pessoa ser idosa ) 70 70 35
100
Exemplo 1.4
Em certa cidade, 40% da população têm cabelos

castanhos, 25% olhos castanhos e 15% têm cabelos e olhos
castanhos. Se uma pessoa da cidade é selecionada
aleatoriamente e verifica-se que a mesma tem cabelos
castanhos, qual a probabilidade de ter também olhos
castanhos?
O: a pessoa tem olhos castanhos e C: a pessoa tem
cabelos castanhos, teremos:
P(O  C) 0,15 3
P(O C )    .
P(C) 0, 40 8
Supondo que a pessoa selecionada tivesse olhos
castanhos, qual seria a probabilidade desta ter também cabelos
castanhos? Neste caso teremos:
P(O  C) 0 ,15 3
P(C O)    .
P(O) 0 , 25 5
Observação: no caso de probabilidade condicionada, também

se verifica:
1) 0  P( A B)  1 .
2) P(S B)  1 .
3) P( A1UA2 B)  P( A1 B)  P( A2 B) , se A1 A2 = Ø.
1.3 Eventos independentes
Exemplo 1.5
Uma urna contém duas bolas brancas e três vermelhas.

Retirando-se duas bolas com reposição, ou seja, a primeira bola
é reposta na urna antes da extração da segunda, tem-se
extrações independentes, pois o resultado de uma extração não
tem influência no resultado da outra. Assim, por exemplo:
P(sair bola branca na 2a extraçãosaiu bola branca na 1a )
2
 =P(sair bola branca na 2a extração).
5
De forma geral, diz-se que dois eventos, A e B, são
independentes se P( A B)  P( A) e P(B A)  P(B) . Por outro
lado, da relação (1.2), obtemos:
P( A  B)  P( A B)P(B) . (1.3)
P( A  B)
e de maneira análoga, de P(B A)  , tiramos:
P( A)
P( A  B)  P(B A)P( A) (1.4)
Portanto, se dois eventos A e B são independentes, tem-

se por (1.3) ou (1.4) que P(A  B)  P(A) P(B) , ou seja:
Definição: dois eventos A e B são independentes se, e somente

se, P(A  B)  P(A)P(B).
Em outras palavras, a definição anterior nos dá uma

forma alternativa de expressar quando dois eventos são
independentes.
Exemplo 1.6
Lança-se uma moeda 3 vezes. Sejam os eventos A:

ocorrem três caras ou três coroas; B: ocorrem ao menos duas
caras e C: ocorrem no máximo duas caras. Dos pares (A,B),
(A,C) e (B,C) quais são independentes? Considerando que "c"
representa cara e " c" coroa, temos que o espaço amostral para
esse experimento é
S  {ccc, ccc, ccc, ccc, c cc, ccc, cc c, c c c} , e assim obtemos:
A  {ccc, c c c}, B  {cc c, ccc, ccc, ccc},

C  { c c c, cc c, ccc, c cc, ccc, ccc, cc c},
A  B  {ccc}, A  C  { c c c} e B  C  {cc c, ccc, ccc}
Logo:
2 1 4 1 7 1 1
P(A)   , P(B)   , P(C)  , P(A  B)  , P(A  C)  e
8 4 8 2 8 8 8
3
P(B  C)  .
8
Portanto, teremos:
1 1 1
P(A). P(B)  .   P(A  B) , ou seja, podemos concluir
4 2 8
que A e B são independentes. Temos também: P(A). P(C) 
1 7 7
.   P( A  C ) . Assim, concluímos que A e C não são
4 8 32
independentes. Procedendo de maneira equivalente, concluímos
que B e C não são independentes
.
Exemplo 1.7
Suponhamos que em certa comunidade 5% das pessoas

têm algum tipo de neurose e que 35% de sua população sejam de
pessoas de cor branca. Qual será a probabilidade de uma pessoa
escolhida ao acaso ter alguma neurose e ser de cor branca?
Definindo os eventos: N: a pessoa tem alguma neurose e B: a
pessoa é de cor branca, teremos:
P(da pessoa escolhida ter alguma neurose e ser de cor branca)
 P(N  B)  (Por independência)  P(N).P(B)= 0,05  0,35 
 0,0175 .
Considerando ainda o exemplo apresentado, qual seria a
probabilidade da pessoa escolhida ter alguma neurose ou ser de
cor branca? Neste caso teremos:
P(da pessoa ter alguma neurose ou ser de cor branca)
 P(N  B)  P(N)  P(B)-P(N  B)  0,05  0,35-0,0175  0,3825
Exemplo 1.8
A probabilidade de fechamento de cada relé do circuito

apresentado na figura seguinte é p. Se todos os relés
funcionarem independentemente, qual será a probabilidade de
que haja corrente entre os terminais L e R?
L 1 2 R
 ● ● 
3 4
ri : O i-ésimo relé está fechado, i=1, 2, 3, 4, teremos:

P(haver corrente entre L e R)=P[(r1  r2)U(r3  r4 )]=
= P(r1  r2) + P(r3  r4) - P[(r1  r2)  (r3  r4)]=
(Por independência) = P(r1).P(r2)+P(r3).P(r4)-
P(r1).P(r2).P(r3 ).P(r4 ) = p2 + p2 - p4 = 2p2 – p4.
Observação: Dizemos que n eventos A1, A2,..., An são
mutuamente independentes se, e somente se:
P(Ai1  Ai2  ...  Aik)=P(Ai1)P(Ai2)...P(Aik)

para k=2, 3,..., n.
Partição de espaço amostral
Definição: os eventos B1, B2,..., Bk formam uma partição de um

espaço amostral S, se:
a) Bi  Bj= Ø,  i  j;
k
b) Bi  S ;
i1
c) P(Bi)>0,  i.
1.4 Teorema da probabilidade total
Se B1, B2,..., Bk formam uma partição de um espaço

amostral S e A é um evento qualquer de S, então:
P( A)  P[( A  B1 )  ( A  B2 )  ...  ( A  Bk )] 
k k
  P( A  B )  P(A B
i 1
i
i1
i
)P(Bi ) .
Exemplo 1.9
Uma determinada peça é manufaturada por três

fábricas: 1, 2 e 3. Sabe-se que 1 produz o dobro de peças de 2,
e 2 e 3 produzem o mesmo número de peças. Sabe-se também
que 2% das peças produzidas por 1 e por 2 são defeituosas,
enquanto que 4% das produzidas por 3 são defeituosas. Se
todas as peças produzidas forem colocadas em um depósito e
depois uma peça for extraída ao acaso, qual será a
probabilidade de que essa peça seja defeituosa?
D: Peça defeituosa,
Fi: Peça produzida pela i-ésima fábrica, i=1, 2, 3.
Podemos escrever:
D=(D  F1) U (D  F2) U (D  F3).
Assim:
3 3
P(D)=  P(D  Fi )  P(D Fi )P(Fi ) .
i1 i1
Dos dados do problema, temos:
P(F1)=2P(F2) e P(F2)=P(F3).
Então, pela equação:
P(F1) + P(F2) + P(F3)=1.
Obteremos:
P(F1)=1/2 e P(F2)=P(F3)=1/4.
Dessa forma:
P(D)  P(D F1 )P(F1 )  P(D F2 )P(F2 )  P(D F3 ) P(F3 ) 
=(0,02)(1/2)+(0,02)(1/4)+(0,04)(1/4)=0,025.
1.5 Teorema de Bayes
Seja B1, B2, ......, Bk uma partição do espaço amostral S

e seja A um evento qualquer de S. De acordo com a definição
de probabilidade condicionada, pode-se escrever:
P( A Bi ) P( Bi )
P( Bi A)  k , i = 1,2,...., k.
 P( A B ) P( B )
j 1
j j
Exemplo 1.10
Considerando o Exemplo 1.9, suponha que uma peça

seja retirada do depósito e se verifique que é defeituosa. Qual a
probabilidade de que tenha sido produzida na fábrica 1?
Neste caso, pede-se:
P( D F1 ) P( F1 ) P( D F1 ) P( F1 ) (0, 02)(1/ 2)
P( F1 D)  3
   0, 4
 P( D F ) P( F )
P( D) 0, 025
j j
j 1
Problemas
9. Suponha que em certa universidade 10% dos alunos

sejam superdotados e 57% sejam do sexo feminino.
Escolhendo-se um aluno ao acaso, qual a probabilidade deste
ser superdotado ou ser do sexo masculino?
10. A classe "B" de uma escola de 2º grau contém 20

alunos, dos quais 8 não gostam de matemática, enquanto que a
classe "C" contém 18 alunos, dos quais 6 não gostam de
matemática. Se um aluno é escolhido aleatoriamente de cada
classe, qual a probabilidade que ambos não gostem de
matemática?
11. Sejam A e B eventos com P(A)=3/8, P(B)=3/10 e
P(A  B)=9/20. Encontre P(AB) e P(BA).
12. A probabilidade de que um aluno "A" resolva um
certo problema é de 1/3, e a probabilidade de que um aluno B
resolva o mesmo é de 3/5. Se os dois tentam resolvê-lo
isoladamente, qual a probabilidade de:
a) Ambos resolverem?
b) Ao menos um resolver?
13. Sejam A e B dois eventos associados a um
experimento. Suponha que:
P(A)=0,4 , enquanto P(A  B)=0,7. Seja P(B)=x.
a) Para que valor de x os eventos A e B serão

mutuamente excludentes?
b) Para que valor de x os eventos A e B serão
independentes?
14. Se dois eventos A e B são mutuamente excludentes
com P(A)=P(B)=1/3, determine P(A  B) e P( A B) .
15. As probabilidades que dois eventos independentes,

A e B, ocorram são 2/3 e 3/5, respectivamente. Qual a
probabilidade:
a) Que nenhum desses eventos ocorra?
b) Que pelo menos um desses eventos ocorra?
16. Uma urna contém 4 bolas brancas, 4 vermelhas e 2
azuis. Outra urna contém 5 bolas brancas, 3 vermelhas e 3
azuis. Extrai-se uma bola de cada urna. Qual a probabilidade de
que sejam da mesma cor?
17. A probabilidade de que a porta de uma casa esteja
trancada à chave é de 3/5. Há 10 chaves em um chaveiro. Qual a
probabilidade de que um indivíduo entre na casa, podendo
utilizar, se necessário, apenas uma das chaves, tomada ao acaso
do chaveiro?
18. Uma urna contém 3 bolas brancas e 4 azuis. Uma
outra contém 4 brancas e 5 azuis. Passa-se uma bola da
primeira para a segunda urna e em seguida extrai-se uma bola
da segunda urna. Qual a probabilidade de ser branca?
19. Tem-se 3 engradados de motores elétricos. No
engradado I tem-se 5 motores de 1 Hp, 3 de (1/2) Hp e 2 de 1/3
de Hp. No engradado II tem-se 2 motores de (1/2) Hp, 2 de 1
Hp e 6 de (1/3) de Hp. No engradado III tem-se 4 motores de
1/3 de Hp, 2 de (1/2) Hp, 2 de 1/6 de Hp e 4 de 1 Hp.
Retirando-se um motor ao acaso de um engradado, também
sorteado aleatoriamente, qual a probabilidade de ser de 1/3 de
Hp?
20. Duas lâmpadas defeituosas são misturadas com 2
lâmpadas boas. As lâmpadas são testadas, uma a uma, até que 2
defeituosas sejam encontradas. Qual a probabilidade de que a
última defeituosa seja encontrada no terceiro teste?
21. Três fábricas fornecem equipamentos de precisão
para o laboratório de química de uma universidade. Apesar de
serem aparelhos de precisão existe uma pequena chance de
subestimação ou superestimação das medidas efetuadas. As
tabelas a seguir apresentam o comportamento do equipamento
produzido em cada fábrica:
Fábrica I Subestima Exata Superestima

Probabilidade 0,01 0,98 0,01
Fábrica II Subestima Exata Superestima

Fábrica III Subestima Exata Superestima

As fábricas I, II e III fornecem, respectivamente, 20%, 30% e

50% dos aparelhos utilizados. Escolhe-se, ao acaso, um desses
aparelhos e pergunta-se: qual a probabilidade de:
a) Haver superestimação de medidas?
b) Não haver subestimação das medidas
efetuadas?
c) Dando medidas exatas, ter sido fabricado em
III?
d) Ter sido produzido por I, dado que não
subestima as medidas?
22. Um médico desconfia de que um paciente tenha
tumor no abdômen, pois isto ocorreu em 70% dos casos
similares que tratou. Se o paciente de fato tiver o tumor, o
exame ultrassom o detectará com probabilidade 0,9. Entretanto,
se ele não tiver, o exame pode, erroneamente, indicar que tem
com probabilidade 0,1. Se o exame detectou um tumor, qual é a
probabilidade do paciente tê-lo de fato?
23. Numa certa região, a probabilidade de chuva em um
dia qualquer de primavera é de 0,1. Um meteorologista da TV
acerta suas previsões em 80% dos dias em que chove e em 90%
dos dias em que não chove.
a) Qual é a probabilidade do meteorologista acertar sua
previsão?
b) Se houve acerto na previsão feita, qual a
probabilidade de ter sido um dia de chuva?
24. Das pacientes de uma clínica de ginecologia com
idade acima de 40 anos, 60% são ou foram casadas, e 40% são
solteiras. Sendo solteira, a probabilidade de ter tido um
distúrbio hormonal no último ano é de 10%, enquanto que para
as demais essa probabilidade aumenta para 30%. Pergunta-se:
a) Qual a probabilidade de uma paciente escolhida ao
acaso ter tido um distúrbio hormonal?
b) Se a paciente sorteada tiver distúrbio hormonal, qual
a probabilidade de ser solteira?
c) Se escolhermos duas pacientes ao acaso e com
reposição, qual é a probabilidade de pelo menos uma ter o
distúrbio?
Capítulo 2
Variáveis aleatórias
Quando, na prática, desejamos investigar algum

fenômeno probabilístico estamos, na realidade, interessados em
estudar a distribuição de uma ou mais variáveis. Assim, por
exemplo, podemos estar interessados em estudar as
distribuições dos QIs, do grau de instrução, da altura etc., das
pessoas de uma certa população, que são distribuições de
variáveis aleatórias. Antes, porém, de uma definição formal de
variável aleatória, vejamos o seguinte exemplo:
Consideremos o lançamento de uma moeda duas vezes.

Definamos a variável aleatória X = número de caras obtidas
nos dois lançamentos. Neste caso, obtemos a seguinte tabela:
Resultados
Probabilidades Valor de X
possíveis
cc 1/4 2
cc 1/4 1
cc 1/4 1
cc 1/4 0
Temos que X=2, com probabilidade 1/4, pois X=2 se, e
somente se, ocorre o resultado cc; X=1, com probabilidade
1/4+1/4=1/2, pois X=1 se, e somente se, ocorrem os resultados
cc ou cc , que são mutuamente excludentes, e, por último,
temos que X=0, com probabilidade 1/4, pois X=0 se, e somente
se, ocorre o resultado c c.
Distribuindo-se em uma tabela os possíveis valores de

X, com suas respectivas probabilidades, obtém-se:
x 0 1 2
P(X=x) 1/4 1/2 1/4
onde a letra minúscula x representa os valores da variável

aleatória X e P(X=x) as respectivas probabilidades.
De acordo com esse exemplo, temos:

Definição: seja S um espaço amostral associado a um
determinado experimento. Uma função que associe a cada
elemento sS um número real é denominada de variável
aleatória (v.a.).
2.1 Variável aleatória discreta
Definição: se o conjunto dos possíveis valores de uma variável

aleatória X for enumerável, dizemos que X é uma variável
aleatória discreta, e a tabela que associa a cada valor de X sua
respectiva probabilidade é denominada de distribuição de
probabilidade de X.
Do exemplo dos dois lançamentos da moeda temos que

X é discreta e sua distribuição de probabilidade é dada pela
tabela anterior.
Observação: para cada resultado possível xi, o número

P(xi)=P(X=xi) é denominado de probabilidade de x i,
satisfazendo:
a) P(xi)  0, i ;

b)  P( x )  1 .
i 1
i
sendo P denominada de função de probabilidade de X.
2.2 Variável aleatória contínua
Quando o conjunto dos possíveis valores de uma

variável aleatória X é não enumerável, ou seja, um intervalo ou
uma coleção de intervalos, dizemos que X é uma v.a. contínua.
Como exemplo, suponhamos que numa pesquisa na
universidade estejamos interessados na v.a. Y = QI dos alunos.
Neste caso podemos afirmar, a princípio, que o conjunto de
resultados possíveis de Y é o intervalo (0, 200), ou seja, temos
que Y é uma v.a. contínua.
De maneira formal, definimos uma variável aleatória

contínua, como:
Definição: dizemos que uma v.a. X é contínua quando existe

uma função não negativa f, chamada de função densidade de
probabilidade de X, tal que:
a) f(x)  0,  xR;

b)  
f(x) dx  1 .
Observações:
1. Nesse caso, a probabilidade de um evento [a  X  b]

é igual à área sob o gráfico de f entre x=a e x=b, ou seja:
b
P(X[a,b])=  a
f(x) dx .
2. No caso contínuo, temos que P(X=a)=0, logo:
P(a  X  b)= P(a  X < b)=P(a< X  b)=P(a< X <b).
3. Vejamos uma ideia do porquê da probabilidade de

um evento [a  X  b], no caso contínuo, ser dada pela área sob
o gráfico da função densidade de probabilidade entre x=a e
x=b, conforme a figura seguinte:
Para isso, suponhamos um experimento que consiste em

escolher um ponto ao acaso no segmento de reta [;] e
vejamos como fica a probabilidade do ponto escolhido estar
num intervalo [a,b][;]. Temos aqui que a escolha é feita ao
acaso, logo o espaço amostral S=[;] é equiprovável e,
portanto, intervalos de mesmo comprimento terão a mesma
probabilidade. Definindo, então, a v.a. X como a coordenada
do ponto escolhido, teremos:
comprimento de [a, b] ba
P(X  [a, b])   .
comprimento de [ ,  ]   
Essa probabilidade pode também ser dada através da

função densidade de probabilidade, que, neste caso, é definida
simplesmente por:
 1
 , se x  [ α , β ];
f(x)   β- 
 0, se x  [ α , β ].

cujo gráfico é:
Assim, conforme vimos antes, a probabilidade do

evento [a  X  b] é dada pela área ilustrada a seguir:
Ou seja:
1 comprimento de [a,b ]
P(a  X  b) = (b-a) .  .
   comprimento de [ ,  ]
Para fixar a ideia, consideremos o experimento de
escolher um ponto ao acaso no segmento de reta [0,2]. Qual
será a probabilidade do ponto escolhido estar entre 1 e 3 ?

2
Definindo X como a coordenada do ponto escolhido, teremos:
1
 , se x  [0,2];
f(x)   2

 0, se x  [0,2].
Assim:
3 3 1 1
P(X  [1, ] )  (  1).  .
2 2 2 4
Exemplo 2.1
Suponhamos que uma v.a. X seja contínua, com função

densidade de probabilidade (fdp) dada por:
2x, se 0  x  1;
f (x)  
 0, caso contrário.
Calcular P(X  1/2).
Temos:
1 1
P(X  1/2)= 
0
2
2x dx  x 2 |
2
0

1
4
.
Exemplo 2.2
Seja X a duração da vida (em horas) de um certo tipo de

lâmpada, admitindo que X seja contínua com fdp:
k
 , se 1500  x  2500;
f(x)=  x3
0, caso contrário.
Determinar a constante K.
Nesse exemplo:
2500 2500
1500
k
x 3
dx  1  
k
2x 2 |
1500
 1  K  7.031.250 .
Quando definimos variável aleatória, atribuímos a um

ponto amostral um único valor real. Na maioria das vezes, no
entanto, há interesse em atribuir, para um mesmo ponto
amostral, duas ou mais características numéricas. Assim, por
exemplo, podemos estar interessados em investigar, ao mesmo
tempo, a estatura (H) e o peso (P) de uma pessoa de certa
população. Neste caso, temos o par (H,P), que é considerado
uma variável aleatória bidimensional.
De maneira análoga ao que falamos sobre uma v.a.

unidimensional, uma v.a. bidimensional (X,Y) poderá também
ser discreta ou contínua, valendo as mesmas considerações
feitas anteriormente.
2.3 Distribuição conjunta de uma variável aleatória

discreta bidimensional
Se (X,Y) é uma v.a. discreta bidimensional, então, a

cada resultado possível (x,y), associa-se um valor
P(x,y)=P(X=x, Y=y), denominado função de probabilidade
conjunta de X e Y, e o conjunto de todos os pares [(x,y);
P(x,y)] chamamos de distribuição de probabilidade conjunta de
X e Y, onde, como no caso da variável unidimensional,
costuma-se também representar a distribuição conjunta por
meio de uma tabela.
Para fixar a ideia da distribuição conjunta de duas v.a.’s
discretas, vejamos:
Exemplo 2.3
Suponha que uma urna contém três bolas numeradas 1,

2, 3. Retiramos duas delas, ao acaso e com reposição. Seja X o
número da primeira e Y o número da segunda bola retirada, a
distribuição conjunta de X e Y é dada por:
Pares de resultados Probabilidades

possíveis (x,y) P(X=x, Y=y)
(1,1) 1/9
(1,2) 1/9
(1,3) 1/9
(2,1) 1/9
(2,2) 1/9
(2,3) 1/9
(3,1) 1/9
(3,2) 1/9
(3,3) 1/9
Temos, no entanto, uma maneira mais usual de
representar a distribuição conjunta de X e Y, que é pela tabela
de dupla entrada:
Y 1 2 3 P(X=x)
X
1 1/9 1/9 1/9 3/9
2 1/9 1/9 1/9 3/9
3 1/9 1/9 1/9 3/9
P(Y=y) 3/9 3/9 3/9 1
De forma que, através dessa, obtemos também as

distribuições de X e de Y, chamadas de distribuições
marginais, sendo que a de X é dada pela primeira e última
coluna e a de Y pela primeira e última linha da referida tabela.
Exemplo 2.4
Com relação ao exemplo 2.3, consideremos agora que

as retiradas sejam feitas sem reposição, ou seja, os pares de
resultados possíveis (x,y) serão (1,2), (1,3), (2,1), (2,3), (3,1) e
(3,2). Dessa forma, obteremos:
y 1 2 3 P(X=x)
x
1 0 1/6 1/6 1/3
2 1/6 0 1/6 1/3
3 1/6 1/6 0 1/3
P(Y=y) 1/3 1/3 1/3 1
Nesse caso:
x 1 2 3 y 1 2 3
P(X=x) 1/3 1/3 1/3 P(Y=y) 1/3 1/3 1/3
são as distribuições marginais de X e de Y, respectivamente.
Observação: dada a distribuição conjunta de duas variáveis

aleatórias X e Y, podemos obter as distribuições de funções
dessas, como por exemplo, de X+Y, X.Y, X/Y etc.
Exemplo 2.5
Considerando o exemplo 2.4, vejamos como fica a

distribuição da variável aleatória Z=X.Y. Para isso, precisamos
da tabela:
(x,y) Z=x . y Probabilidades
(1,2) 2 1/6
(1,3) 3 1/6
(2,1) 2 1/6
(2,3) 6 1/6
(3,1) 3 1/6
(3,2) 6 1/6
E assim obtemos:
z 2 3 6
P(Z=z) 1/3 1/3 1/3
Observações:
1. Se (X,Y) é uma v.a. contínua bidimensional,

tomando todos os valores em alguma região “A” do plano,
então associamos a essa variável aleatória uma função
densidade de probabilidade conjunta f, que satisfaz:
a) f(x,y)  0,  (x,y)A;
b)   f(x, y) dx dy  1 .
A
2. Se f é a fdp conjunta da variável aleatória contínua
bidimensional (X,Y), então as funções densidade de
probabilidade marginal de X e de Y, respectivamente, são
dadas por:
 
g(x) 


f(x,y) dy e h(y) 
 f(x,y) dx .

2.4 Variáveis aleatórias discretas independentes
Definição: seja (X,Y) uma v.a. discreta bidimensional, dizemos

que X e Y são independentes se, e somente se:
P(X=x, Y=y)=P(X=x) P(Y=y). (2.1)
para todo par (x,y).
Observações:
1. Basta que (2.1) não se verifique para um par

qualquer, para que X e Y não sejam independentes. Nesses
casos, diz- se que X e Y são dependentes.
2. Temos no caso contínuo uma definição análoga, ou
seja, se (X,Y) é uma v.a. contínua bidimensional, então
dizemos que X e Y são variáveis aleatórias independentes se, e
somente se, f(x,y)=g(x)h(y), para todo (x, y), sendo f a fdp
conjunta e g e h as marginais de X e de Y, respectivamente.
Exemplo 2.6
De acordo com a definição apresentada, podemos

verificar que, no exemplo 2.3, X e Y são independentes,
enquanto que no exemplo 2.4 essas variáveis são dependentes.
Exemplo 2.7
Consideremos as variáveis aleatórias, definidas da

seguinte maneira:
1, se uma mulher é casada no civil ou
 no religioso, ou no civil e religioso.

X= 

0, em caso contrário.
1 , s e uma mulher já provoc ou aborto.

Y= 
0 , em c as o c ontrário.

Vemos que a variável aleatória X trata do tipo de união
marital, enquanto que Y define se uma mulher já provocou
aborto ou não. Suponhamos que em certo país a distribuição
conjunta de X e Y seja dada por:
X 0 1
Y
0 0,21 0,46
1 0,01 0,32
Podemos concluir que nesse país a prática do aborto independe

do tipo de união marital? Calculando as distribuições marginais
de X e de Y, obteremos:
x 0 1 P(Y=y)
y
0 0,21 0,46 0,67
1 0,01 0,32 0,33
P(X=x) 0,22 0,78 1,0
Basta ver que P(X=0).P(Y=0)=0,147  P(X=0;Y=0)
para concluirmos que X e Y não são independentes, ou seja,
podemos concluir que nesse país a prática do aborto e o tipo de
união marital não são independentes, o que significa dizer que
existe algum tipo de relação entre essas variáveis.
Exemplo 2.8
Uma companhia de seguros, que trabalha no ramo de

automóveis, investigou a relação entre o hábito de fumar do
motorista do carro e a frequência das reclamações relativas a
acidentes com danos materiais. Para isso, considerou-se as
variáveis aleatórias: X = número de acidentes sofridos pelo
motorista (a companhia considerou de um a três acidentes) e:
1, se o motorista é fumante;

Y= 
0, em caso contrário.
Suponhamos que a companhia obteve que a distribuição

conjunta de X e Y é dada por:
x 1 2 3
y
0 0,21 0,35 0,14
1 0,09 0,15 0,06
Nesse caso, podemos afirmar que o número de

acidentes sofridos pelo motorista independe do fato desse ser
ou não fumante? Calculando as distribuições marginais de X e
de Y, obteremos:
x 1 2 3 P(Y=y)
y
0 0,21 0,35 0,14 0,7
1 0,09 0,15 0,06 0,3
P(X=x) 0,3 0,5 0,2 1,0
Podemos ver que P(X=x; Y=y)=P(X=x).P(Y=Y) para

todo par (x,y). Portanto, concluímos que o número de acidentes
sofridos pelo motorista independe do fato desse ser ou não
fumante.
2.5 Valor esperado de uma variável aleatória discreta
Não basta conhecer a distribuição de probabilidade de

uma variável aleatória, precisamos também de valores que sejam
característicos dessa distribuição, como, por exemplo, um valor
que esteja situado no seu centro. Assim, temos a definição do
valor esperado (ou valor médio) de uma variável aleatória:
Definição: se X é uma v.a. discreta, sendo x1,x2,x3,...,xn seus

possíveis valores, então o valor esperado (ou esperança
matemática ou valor médio) de X é definido como:
n
E(X)   x P(X  x
i 1
i i ). (2.2)
Exemplo 2.9
Considerando o experimento de lançar uma moeda 2

vezes, sendo X = número de caras, temos:
X 0 1 2
P(X=x) 1/4 1/2 1/4
Portanto:
1 1 1
E(X)= 0.( )  1.( )  2.( )  1 .
4 2 4
Exemplo 2.10
Uma seguradora paga U$ 30.000 em caso de acidente

de carro, sendo que a taxa cobrada é de U$ 1000. Sabe-se que a
probabilidade de um carro sofrer acidente é de 3%. Quanto a
seguradora espera ganhar por carro segurado?
Definindo G: ganho da seguradora, temos que a distribuição de
G é:
G -29.000 1000
P(G=g) 0,03 0,97
Assim:
E(G)=-29.000(0,03)+1000(0,97)=100.
Ou seja, é esperado que a seguradora ganhe U$ 100 por cada

carro segurado.
Observações:
1. Se X é uma v.a. contínua com fdp f, então:



E(X)= x f(x) dx .

Exemplo 2.11
Considerando X com fdp:
2x, se 0  x  1;
f(x)  
temos que o valor esperado de X é:
1 1 1
E(X)=  0
x 2x dx 

0
2x 2 dx 
2 3
3
x |  23 .
0
2. Se X é uma v.a. discreta e Y uma função de X

(Y=H(X)), então:
E(Y)=  H(xi )P(xi ) .
i
Exemplo 2.12
Para X = nº de caras em 2 lançamentos de uma moeda,

determinar o valor esperado de Y=X2+1.
Como sabemos, a distribuição de X é:
X 0 1 2
P(X=x) 1/4 1/2 1/4
Assim, de acordo com a observação anterior, temos:
E(Y)=E(X2+1)=(02+1).1/4+(12+1).1/2+(22+1).1/4=
=1/4+1+5/4=10/4=5/2.
3. Se (X,Y) é uma v.a. discreta bidimensional e Z uma

função de (X,Y)(Z=H(X,Y)), então:
E(Z)=   H(xi , y j )P(xi , y j ) .

i j
Exemplo 2.13
Considerando (X,Y) com distribuição conjunta:
y 1 2 3
x
1 0 1/6 1/6
2 1/6 0 1/6
3 1/6 1/6 0
Calcular o valor esperado de Z=XY.

De acordo com a observação anterior, teremos:
E(Z) = E(XY) = 1.1.0+1.2(1/6)+1.3(1/6)+2.1(1/6)+

+2.2.0+2.3(1/6)+3.1(1/6)+3.2(1/6)+3.3.0=
=0+2/6+3/6+2/6+0+1+3/6+1+0 = 11/3.
4. Se X é uma v.a. contínua com fdp f e Y=H(X), então:

E(Y)= H(x)f(x)dx.

5. Se (X,Y) é uma v.a. contínua bidimensional, com fdp

conjunta f e Z=H(X,Y), então:
 
E(Z) 
  H(x,y) f(x,y) dx dy .
- 
Principais propriedades do valor esperado:
1. O valor esperado de uma constante é a própria

constante, ou seja, se C é uma constante, então decorre
imediatamente de (2.2) que E(C)=C.
2. Multiplicando-se uma v.a. X por uma constante C,

seu valor esperado fica multiplicado por C, isto é,
E(CX)=CE(X).
3. Se X1, X2,..., Xn são variáveis aleatórias, então:

n n
E( 
i 1
Xi )   E(X ) .
i 1
i
4. O valor esperado do produto de duas v.a.’s independentes

X e Y é o produto dos valores esperados, isto é, se X e Y são
independentes, então E(XY)=E(X)E(Y).
2.6 Variância de uma variável aleatória
Da mesma forma que caracterizamos uma variável

aleatória X com relação ao centro de sua distribuição,
precisamos também de um valor que caracterize a dispersão de
X em torno de seu valor esperado. Para isso temos a definição
de variância, que é o valor esperado de [X-E(X)]2, ou seja:
Definição: seja X uma variável aleatória. Definimos a variância

de X, denotada por V(X) ou σ x 2 , da seguinte maneira:
V(X)=E[X-E(X)]2 . (2.3)
Observações:
1. A raiz quadrada positiva de V(X) é chamada de

desvio padrão de X e é denotado por x;
2. Desenvolvendo (2.3), obtemos que V(X) também
pode ser dada por:
V(X)=E(X2)-[E(X)]2 (2.4)
Exemplo 2.14
Com relação ao exemplo 2.9, temos que E(X)=1, logo:

[E(X)]2=1 e E(X2)=02.(1/4)+12.(1/2)+22.(1/4)=3/2. Portanto,
3 1
usando (2.4), obtemos: V(X)=E(X2)-[E(X)]2 = = -1= .
2 2
Exemplo 2.15
Pelo exemplo 2.11, temos que o valor esperado da

v.a. contínua X, com fdp:
2x, se 0  x  1;
f(x)  
é E(X)=2/3. Assim, para o cálculo de V(X), precisamos obter:

1 1 1
E(X2 ) 

0
x 2 2x dx 

0
2x3 dx 
1 4
2
x |  12 .
0
Portanto:
V(X)=E(X2)-(E(X))2 =1/2-(2/3)2 =1/2-(4/9)=1/18.
Covariância entre duas variáveis aleatórias
Uma medida de relação linear entre duas v.a.’s X e Y é

dada pela covariância entre elas, ou seja:
Definição: se X e Y são duas v.a.’s, então a covariância entre

elas é dada pelo valor esperado do produto dos desvios dessas
em relação aos seus respectivos valores esperados:
Cov(X,Y)=E{[X-E(X)].[Y-E(Y)]} (2.5)
Pode-se também escrever a covariância entre X e Y de
uma maneira mais simples, isto é, desenvolvendo-se o segundo
membro de (2.5), obtém-se:
Cov(X,Y)=E(XY)–E(X)E(Y). (2.6)
Exemplo 2.16
Considerando o exemplo 2.4, temos que: E(X)=E(Y)=

1 1 1
1.( )+2.( )+3.( ) = 2. Temos também, do exemplo (2.13),
3 3 3
11
que E(XY)= . Portanto, para as variáveis X e Y do exemplo
3
2.4, obtemos:
11 1
Cov(X,Y)=E(XY)–E(X)E(Y)= -(2)(2) =- .
3 3
Principais propriedades da variância:
1. A variância de uma constante é zero, ou seja, se C é

uma constante e X=C, então, imediatamente, de (2.3) ou (2.4)
temos que V(X)=0.
2. Multiplicando-se uma v.a. X por uma constante C,
sua variância fica multiplicada pelo quadrado da constante, isto
é, V(CX)=C2.V(X).
3. Somando-se ou subtraindo-se uma constante C a

uma v.a. X, sua variância não se altera, ou seja, V(X ± C)=
=V(X).
4. Para duas variáveis aleatórias X e Y, temos:

V(X  Y)=V(X)+V(Y)  2 cov(X,Y).
5. Se “a” e “b” são constantes e X uma variável

aleatória, então:
V(aX  b)=a2.V(X).
6. Se X1, X2,..., Xn são variáveis aleatórias, então:

n n
V( X i )   V(Xi )  2 cov(Xi , X j ) .
i 1 i 1 i j
7. Se X1, X2,..., Xn são variáveis aleatórias, duas a duas

independentes, então:
n n
V( X i )   V(Xi ) .
i 1 i 1
2.7 Coeficiente de correlação
Para medir a dependência linear entre duas v.a.’s X e Y,

de forma que não consideremos as unidades de medida das
mesmas, temos o coeficiente de correlação, que é definido por:
 X - E(X)  Y - E(Y) 
 
  Cov(X,Y)
ρ(X, Y) = E  .   = . (2.7)
 σ x
   σ y  
σ x .σ y
Pode-se mostrar que o coeficiente de correlação toma

valores entre –1 e 1 (-1    1), sendo que quanto mais
próximo de –1 ou 1 maior a relação linear entre as variáveis.
Um valor de  negativo indica que, ao crescer os valores de
uma variável, a outra tende a decrescer. Por outro lado, um
valor positivo de  indica que, ao crescer ou decrescer os
valores de uma variável, a outra tende a ter o mesmo
comportamento.
Observações:
1. Se (X,Y)=0, dizemos que X e Y são não

correlacionadas.
2. Se X e Y são duas v. a.’s independentes, então X e
Y são não correlacionadas, pois nesse caso Cov(X,Y) = 0 e
consequentemente (X,Y) = 0.
3. A recíproca da observação 2 não é verdadeira, ou
seja, é possível que duas v.a’s X e Y sejam não correlacionadas
e, no entanto, X e Y não sejam independentes.
Exemplo 2.17
Considerando novamente o exemplo 2.4, obtemos:

1 1  1  14
E(X )  E(Y 2 )  12    22    32   
2
.
3 3 3 3 Pelo exemplo
1
2.16, temos que Cov(X,Y) = - e E(X) = E(Y) = 2. Assim,
3
14 2
V(x) = V(Y) = -4= e, portanto:
3 3
1

(X,Y) = 3   0,5 .
2 2

3 3
Exemplo 2.18
No exemplo 2.7 concluímos que existe algum tipo de

relação entre a prática do aborto e o tipo de união marital.
Calculemos, então, o coeficiente de correlação entre essas
variáveis. Para isto, obtivemos: E(X) = 0,78; V(X) = 0,172;
E(Y) =0,33; V(Y) = 0,221 e E(X.Y) = 0,32. Logo:
0,32-(0,78)(0,33)
ρ(X,Y)=  0,32.
(0,172)(0,221)
Vemos, então, que existe uma relação linear positiva

entre a prática do aborto e o tipo de união marital.
2.8 Função de distribuição acumulada
Definição: a função de distribuição acumulada (fd) de uma

variável aleatória X é definida por:
F(x)=P(X  x),  x  R.
Resultado 1:
a) Se X é discreta, temos:
F(x) =  P(X  x ),  x  R .
xi  x
i
b) Se X é contínua, então:
x
F(x) =  f(s) ds,  x  R .
-
Exemplo 2.19
Se X é uma v.a. discreta com distribuição:
X 0 1 2
P(X=x) 1/3 1/6 1/2
então a função de distribuição acumulada de X é:

0, se x  0;
1
 , se 0  x  1;
3
F ( x)  
 1 , se 1  x  2;
2
1, se x  2.

cujo gráfico é dado por:
F(x)

 
 
0 1 2 x
Exemplo 2.20
Se X é uma variável aleatória contínua, com fdp:
2x, se 0  x  1;
f(x)  
então a função de distribuição acumulada de X é dada por:
0, se x  0;

 x
F ( x)    2t dt = x 2 , se 0  x  1;

0
1, se x  1.

cujo gráfico é:
F(x)
1 

1 x
Resultado 2:
a) Se F é a função de distribuição acumulada de uma

variável aleatória contínua com fdp f, então:
d
f(x)  F(x) .
dx
para todo x em que F seja derivável.
b) Se F é a função de distribuição acumulada de uma

variável aleatória discreta, com possíveis valores x1<x2<....,
então:
F(xj)-F(xj-1)=P(X=xj).
Exemplo 2.21
Supondo-se X uma v.a. contínua com função de

distribuição acumulada:
0, se x  0;
F ( x)   -x
1-e , se x  0.
então, pelo resultado 2, item a, temos que a função densidade

de probabilidade (fdp) de X, é:
0, se x  0;
f ( x)   -x
e , se x  0.
Problemas
1. Lança-se um dado não viciado. Seja X o dobro do

número ocorrido:
a) Determine a distribuição de X;
b) Calcule o valor esperado de 3X e de X+5.
2. Uma v.a. discreta X tem a distribuição de
probabilidade dada por:
k
P(X=x)= , para x=1,3,5,7.
x
Determine K e E(X).
3. Suponha que uma v.a. Y tenha a seguinte

distribuição:
Y 0 1
P(Y=y) 1-q q
Obtenha o valor esperado e a variância de Y.
4. Sejam X e Y v.a.’s independentes com as seguintes

distribuições:
X 1 2 Y 5 10 15
P(X=x) 0,6 0,4 P(Y=y) 0,2 0,5 0,3
a) Obter a distribuição conjunta de X e Y;

b) Calcular o valor esperado e a variância de X+Y;
c) Obter a distribuição e a variância de XY.
5. Numa comunidade em que apenas 10 casais

trabalham, fez-se um levantamento no qual foram obtidos os
seguintes valores para os rendimentos:
Rendimento do Rendimento da
Casal
homem em (U.M.) mulher em (U.M.)
1 10 5
2 10 10
3 5 5
4 10 5
5 15 5
6 10 10
7 5 10
8 15 10
9 10 10
10 5 10
Um casal é escolhido ao acaso entre os dez. Seja X o
rendimento do homem e Y o rendimento da mulher:
a) Construir a distribuição conjunta de X e Y;

b) Determinar as distribuições marginais de X e Y;
c) Calcular E(X), E(Y), V(X) e V(Y);
d) Considerando Z a variável igual à soma dos
rendimentos do homem e da mulher, calcule
E(Z) e V(Z);
e) Calcule o coeficiente de correlação entre X e Y.
6. A tabela a seguir dá a distribuição conjunta de X e Y:

X 1 2 3
Y
0 0,1 0,1 0,1
1 0,2 0,0 0,3
2 0,0 0,1 0,1
a) Obter E(X), E(Y), V(X), V(Y) e E(X+Y);

b) Verifique se X e Y são independentes;
c) Determine a distribuição e o valor esperado de XY;
d) Calcule o coeficiente de correlação entre X e Y.
7. Considere a distribuição conjunta de X e Y,
parcialmente conhecida, dada na seguinte tabela:
X -1 1 P(Y=y)
Y
-1 1/12
0 1/3
1 1/4 1/4
P(X=x) 1
a) Completar a tabela, supondo X e Y independentes;

b) Calcular E(X), E(Y), V(X) e V(Y);
c) Se Z=aX+bY, calcule a e b de modo que E(Z)=10 e
V(Z)=600.
8. Considerando um exame de estatística, que consiste

em quatro problemas, definamos as seguintes variáveis
aleatórias: X = número de problemas feitos corretamente por
um aluno e Y definida da seguinte maneira:
1, se um aluno é introvertido;

Y= 
Suponhamos que a distribuição conjunta de X e Y seja dada
por:
x
Y 0 1 2 3 4
0 0,016 0,12 0,28 0,28 0,104
1 0,004 0,03 0,07 0,07 0,026
a) Ache as distribuições marginais de X e de Y;

b) Podemos dizer, nesse caso, que existe independência
entre o número de questões feitas corretamente e o
fato do aluno ser ou não introvertido?
c) Qual é, então, o valor do coeficiente de correlação
entre X e Y?
9. Considerando os alunos de certa universidade,
suponhamos que a tabela a seguir seja a distribuição conjunta
das variáveis aleatórias:
1, se o aluno é do sexo masculino;

X= 
0, se o aluno é do sexo feminino.
1, se o aluno senta-se em uma carteira


Y=  nas filas da frente;
0, se o aluno senta-se nas filas de trás.

X 0 1
Y
0 0,24 0,48
1 0,14 0,14
a) Existe independência entre o sexo do aluno e o fato

deste sentar-se ou não nas filas da frente?
b) Determine o coeficiente de correlação entre X e Y.
10. Suponhamos conhecida e dada pela tabela a seguir

a distribuição conjunta das variáveis aleatórias
X=
1, se um apessoaé introvertida

Y= 
X 0 1
Y
0 0,4 0,1
1 0,4 0,1
Nesse caso, qual o coeficiente de correlação linear entre a
pessoa ser ou não introvertida e o fato de se aborrecer ou não
frequentemente com as outras?
11. De um lote que contém 25 peças, das quais 5 são

defeituosas, são escolhidas 4 ao acaso. Seja X o número de
defeituosas encontradas, faça o gráfico da função de
distribuição acumulada de X, quando:
a) As peças forem escolhidas com reposição;

b) As peças forem escolhidas sem reposição.
12. Seja X uma variável aleatória contínua, com fdp
dada por:
ax, 0  x  1
 a, 1  x  2

f ( x)  
ax  3a, 2  x  3
0, para quaisquer outros valores.
Determinar a constante “a”.
13. A proporção de álcool em certo composto pode ser
considerada como uma variável aleatória X, com função
densidade de probabilidade:
20 x3 (1  x), se x  (0,1);

f ( x)  
0, se x  (0,1).
a) Calcule P(X  2/3);
b) Determine a função de distribuição acumulada de

X e esboce seu gráfico.
14. Suponha que X seja uma v.a. contínua, com fdp:
8
 , x  2;
f ( x)   x 3
0, caso contrário.
Determinar o valor esperado de W=(1/3)X.
Capítulo 3
Algumas distribuições importantes
3.1 Distribuições discretas
3.1.1 A distribuição de Bernoulli
Se uma v.a. assume somente os valores zero e um, com

probabilidades 1-p e p, respectivamente, ou seja, se sua
distribuição é dada por:
x 0 1
P(X=x) 1-p p
Então, nesse caso, dizemos que X tem distribuição de

Bernoulli, e, por (2.2) e (2.3), obtemos de imediato que E(X)=p
e V(X)=p(1-p).
Exemplo 3.1
Uma moeda é lançada uma vez. Seja X definida por:
1, se ocorrer cara;

X= 
0, se ocorrer coroa.
Aqui, a distribuição de X é:
x 0 1
P(X=x) 1/2 1/2
Exemplo 3.2
Supor que em certa comunidade a probabilidade de uma

pessoa ter problemas de psicose seja igual a 0,01. Se
definimos:
1, se uma dada pessoa da comunidade


Y=  tem psicose,
0, em caso contrário.

teremos que Y é uma variável aleatória de Bernoulli, e sua

distribuição é dada por:
y 0 1
P(Y=y) 0,99 0,01
Experimento binomial
Se um experimento consiste de n repetições

independentes de Bernoulli, sendo constante e igual a p a
probabilidade de sucesso em cada repetição, então dizemos que
esse é um experimento binomial.
3.1.2 A distribuição Binomial
Se uma v.a. X corresponde ao número de sucessos em n

repetições de um experimento binomial, sendo p a
probabilidade de sucesso em cada repetição, então se diz que X
tem distribuição Binomial com parâmetros n e p (costuma-se
escrever XB(n,p)), e sua função de probabilidades é dada por:
n
P(X=k) =   p k (1-p)n-k, k=0,1,2,...,n. (3.1)
k
Pode-se verificar facilmente que o valor esperado e a

variância de uma v.a. XB(n,p) são dados por:
E(X)=np e V(X)=np(1-p).
Exemplo 3.3
Em oito lançamentos de uma moeda, qual será a

probabilidade de ocorrerem pelo menos duas caras? Definindo
a v.a. X=número de caras nos oito lançamentos, verificamos,
de imediato, que XB(8, 1/2). Assim:
P (de ocorrerem pelo menos duas caras) =P(X2)=1-
 8  8
-[P(X=0)+P(X=1)]=1-   . (1/2)0 .(1 / 2)8 -   .(1/2)1.(1 / 2)7 =
0   1
 
=1-9(1/2)8.
Exemplo 3.4
Um exame de estatística consta de seis problemas.

Para ser aprovado, um estudante deverá resolver,
corretamente, pelo menos 4 deles. Um determinado estudante
sabe 60% do assunto sobre o qual serão elaborados os
problemas. Qual será a probabilidade desse estudante ser
aprovado?
Definindo a v.a. X= número de problemas resolvidos
corretamente pelo estudante, temos que XB(6;0,6). Portanto:
P(do estudante ser aprovado)= P(X  4) = P(X=4)+
6 6
+ P(X=5) + P(X=6) =   (0,6)4 (0, 4) 2 +   (0,6)5 (0, 4) +
 4 5
6
+   (0,6)6 (0,4)0 = 0,544.
6
3.1.3 A distribuição Hipergeométrica
Consideremos uma população com N elementos, dos

quais r tem uma determinada característica “A”. Se retiramos,
sem reposição, uma amostra de tamanho n e definirmos X =
número de elementos na amostra com a característica “A”,
teremos que a distribuição de probabilidade de X é dada por:
 r  N  r 
  
 k  n  k 
P( X  K )  , k = 0,1,....., min(n,r). (3.2)
 N
 
n 
Nesse caso dizemos que X tem distribuição hipergeométrica.
Valor esperado e variância
Se X tem distribuição hipergeométrica, então pode-se

mostrar que:
(N  n)
E(X)=np e V(X)  np(1  p).
(N  1)
sendo p  r .
N
Exemplo 3.5
Pequenos motores são guardados em caixas de 50

unidades. Um inspetor de qualidade examina cada caixa, antes
da posterior remessa, testando 5 motores. Se nenhum motor for
defeituoso, a caixa é aceita. Se pelo menos um deles for
defeituoso, todos os 50 motores são testados. Dado que existem
6 motores defeituosos numa caixa, qual a probabilidade de que
seja necessário todos os motores serem examinados?
Considerando X = número de defeituosos na amostra de

5 motores, temos que X se distribui segundo uma
Hipergeométrica, sendo
N = 50 (total de motores);
r = 6 (total de motores defeituosos);
n = 5 (tamanho da amostra);
ou seja:
 6  44 
  
 k  5  k 
P(X  K)  , k  0,1,...,5.
 50
 
5 
Assim:
P(todos os motores a serem examinados) = P(X1) =
 6  44
  
 0  5 
 1  P(X  0)  1   1 - 0,51  0,49 .
 50
 
5 
3.1.4 A distribuição de Poisson
Definição: dizemos que uma variável aleatória discreta

X tem distribuição de Poisson com parâmetro  se:
e - . k
P(X=k)= , k  0,1,2,... (3.3)
k!
Valor esperado e variância
Se X tem distribuição de Poisson com parâmetro ,

então:
E(X)=V(X)= (ver problema 9 deste capítulo).
Exemplo 3.6
Num livro de 800 páginas há 800 erros de impressão.

Qual a probabilidade de que uma página contenha pelo menos
3 erros?
Fazendo =taxa de erros por página, temos a seguinte

regra de três:
800 páginas  800 erros
1 página  
da qual obtemos =1. Assim, definindo X = número de erros

numa página, teremos
2 2
e 1.1k
P(X  3)=1-P(X  2)= 1   P(X  k)  1   
k 0 k 0 k
 e 1 e 1 e 1 
1     1  e 1 1  1  1   0,0803 .
 0!
 1 ! 2 ! 
  2 
Exemplo 3.7
Numa central telefônica chegam 300 telefonemas por
hora. Qual a probabilidade de que:
a) Num minuto não haja chamada?

b) Em 2 minutos haja 2 chamadas?
c) Em t minutos não haja chamadas?
Solução:
a) Fazendo =taxa de chamadas por minuto, temos:
60 minutos  300 chamadas
1 minuto  
da qual obtemos =5. Assim, para X=número de chamadas
em 1 minuto:
e 5 .50
P(não haver chamada)=P(X=0)=  e  5  0,00674.
0!
b) Fazendo  = taxa de chamadas em 2 minutos e
resolvendo:
2 minutos  
obtemos  = 10. Logo, para X = número de chamadas em 2

minutos, temos:
e 10 .(10)2
P(X  2)   0,00227.
2!
c) Fazendo =taxa de chamadas em t minutos, temos:
t minutos  
da qual obtemos  = 5t. Portanto, para X =número de
chamadas em t minutos, teremos:
e 5t (5t)0
P(X=0)=  e  5t .
0!
3.1.5 A distribuição de Poisson e a distribuição Binomial
Se X~B(n,p), sendo n muito “grande” (n  ∞) e p

muito “pequeno” (p  0), então, fazendo-se  = np, mostra-
se que:
e  . k
P(X  k)  .
k!
Ou seja, a distribuição de X tende para uma Poisson

com parâmetro  = np.
Observação: na prática, a aproximação anterior é

considerada satisfatória quando np  10.
Exemplo 3.8
A probabilidade de uma lâmpada se queimar ao ser

ligada é 1/100. Numa instalação de 100 lâmpadas, qual a
probabilidade de 2 lâmpadas se queimarem ao serem ligadas?
Definindo X = número de lâmpadas que se queimam ao

serem ligadas, temos que XB(100;1/100), ou seja,
np=100.(1/100)=1. Assim, pela aproximação anterior, obtemos:
e np . (np)2 e 1. 12

P(X  2)    0,184 .
2! 2!
Problemas
1. Sabe-se que 20% dos animais submetidos a um certo

tratamento não sobrevivem. Se esse tratamento foi aplicado em
20 animais e se X é o número de não sobreviventes, pede-se:
a) Calcular E(X) e V(X);

b) Calcular a probabilidade de sobreviverem no mínimo
18 animais.
2. Admitindo-se que a probabilidade de nascer menino

é igual à de nascer menina, calcule a probabilidade de um casal
com 6 filhos ter 4 homens e 2 mulheres.
3. Em um congresso científico existem 15 matemáticos

e 12 estatísticos. Qual a probabilidade de se formar uma
comissão com 5 membros, na qual figurem 3 matemáticos e 2
estatísticos?
4. Supondo chances iguais em questões do tipo certo –

errado, determine a probabilidade de se acertar pelo menos 3 de
10 questões desse tipo.
5. Em certa cidade, sabe-se que 1% da população tem
problemas de psicose. Para um grupo de 20 pessoas dessa
cidade, pede-se:
a) Calcular a probabilidade de se encontrar pelo menos
uma com psicose;
b) Calcular a probabilidade de se encontrar no máximo
duas pessoas com psicose;
c) Determinar o valor esperado e o desvio padrão do
número de pessoas com psicose.
6. Quinze pessoas estão usando insígnias numeradas de

1 a 15. Três pessoas são escolhidas ao acaso e são retiradas da
sala. Os números das insígnias são anotados. Qual a
probabilidade de que:
a) O menor número seja 7?

b) O maior número seja 7?
7. Supondo que 10% dos alunos de uma universidade

são superdotados, qual a probabilidade de numa classe com 20
alunos dois, no máximo, sejam superdotados?
8. Certo curso de treinamento aumenta a produtividade

de uma população de funcionários em 85% dos casos. Se 11
funcionários participam desse curso, encontre:
a) A probabilidade de no mínimo nove aumentarem a

produtividade;
b) O valor esperado do número de funcionários que
aumentam a produtividade.
9. Se X tem distribuição de Poisson com parâmetro ,

mostrar que E(X)=V(X)=.
10. Uma firma compra lâmpadas por centenas.

Examina sempre uma amostra de 15 lâmpadas para verificar se
estão boas. Se uma centena inclui 12 lâmpadas queimadas, qual
a probabilidade de se escolher uma amostra com pelo menos
uma lâmpada queimada?
11. Numa estrada há 2 acidentes para cada 100 Km.

Qual a probabilidade de:
a) Em 250 km ocorram pelo menos 3 acidentes?

b) Em 300 km ocorram 5 acidentes?
12. Uma fábrica de automóveis verificou que ao testar

seus carros na pista de prova há, em média, um estouro de
pneus a cada 300 km.
a) Qual a probabilidade de num teste de 900 km haja no

máximo um pneu estourado?
b) Qual a probabilidade de que um carro ande 450 km
sem estourar nenhum pneu?
13. Num lote de 40 peças, 20% são defeituosas.
Retirando-se 10 peças do lote, sem reposição, qual a
probabilidade de encontrar:
a) Três defeituosas?
b) No máximo 2 defeituosas?
14. Se a probabilidade de uma máquina produzir uma

peça defeituosa num certo dia é 0,01, qual a probabilidade de
se ter no máximo 4 defeituosas em um dia de 500 peças
produzidas?
3.2 Distribuições contínuas
3.2.1 A distribuição Uniforme
Definição: se X é uma variável aleatória contínua com

função densidade de probabilidade:
 1
 , se x  (a,b);
f(x)   b  a (3.4)
 0 , caso contrário.
Então dizemos que X tem distribuição uniforme no intervalo
(a,b).
Exemplo 3.9
A dureza de uma peça de aço pode ser pensada como

sendo uma variável aleatória com distribuição uniforme, no
intervalo (50;70) da escala de Rockwell. Calcular a
probabilidade de que uma peça tenha dureza entre 55 e 60.
Definindo X = dureza de uma peça de aço, temos:
 1 1
  , se x  (50;70);
f(x)   70-50 20
 0 , caso contrário.
Logo:
60 60
P(55  X  60)= 
55
1
20
dx 
x
|
20 55

5 1
 .
20 4
Valor esperado, variância e função de distribuição
Se X tem distribuição uniforme em (a,b), então (ver
problema 24 deste capítulo):
ab
a) E(X)  .
2
(b  a)2
b) V(X)  .
12
 0, se x  a;
x a

c) F ( x)   , se a  x  b;
b a
 1, se x  b.

3.2.2 A distribuição Exponencial
Definição: uma variável aleatória X tem distribuição

Exponencial com parâmetro , se sua função densidade de
probabilidade é dada por:
 e- x , se x  0;
f(x)   (3.5)
 0 , caso contrário.
Valor esperado, variância e função de distribuição
Se X tem distribuição exponencial com parâmetro ,
então (ver problema 25 deste capítulo):
1
a) E(X)  .

1
b) V(X)  .
2
1  e- x , se x  0;
c) F(x)  
 0 , caso contrário.
Exemplo 3.10
Suponhamos que X tenha distribuição exponencial com

parâmetro . Calcular a probabilidade de que X ultrapasse seu
valor esperado.
Nesse caso:
 1  
P( X  E ( X ))  P X    1  e  x dx  e  x | 1 
   
1 1
  (0  e )  e  0,3679
3.2.3 A distribuição Normal
Definição: uma v.a. contínua X tem distribuição

Normal com parâmetros  e 2, -<< e 0<2<+, se a sua
função densidade de probabilidade é dada por:
1 x μ 2
1  ( )
f(x)= e 2 σ , -  x   (3.6)
σ 2π
Sendo que suas principais características, são:
1. O gráfico de f(x) tem a forma igual a da figura
seguinte:
2. X= é o ponto de máximo de f(x);
3. f(x) tende para zero quando x tende para mais ou

menos infinito;
4. f(x) é simétrica ao redor de x=, isto é, f(+x)=f(-

x), para todo x;
5. Entre os pontos -3 e +3, a área sob o gráfico de

f(x) é igual a 99,74%, ou seja, entre estes pontos está
praticamente toda área sob o gráfico de f(x);
6. Costuma-se escrever XN (, 2) para expressar que
a variável aleatória X tem distribuição normal com parâmetros
 e 2;
7. Se XN (, 2), mostra-se que E(X)= e V(X)=2.
Variável normal padrão
X μ
Uma v.a. Z é dita normal padrão se Z= , sendo X
σ
uma v.a. normal com valor esperado  e variância 2. Assim,

pode-se mostrar que Z tem distribuição normal com E(Z)=0 e
V(Z)=1, ou seja, ZN(0;1).
As probabilidades sob a curva da normal padrão são

encontradas em tabelas, que, no caso, dão as áreas sob o
gráfico da função densidade da normal padrão. Em geral, essas
tabelas fornecem a probabilidade de que a variável normal
padrão Z esteja entre zero e um valor z, isto é, P(0<Z<z).
Para ilustrar o uso de uma tabela dessas (Tabela I do

apêndice), vejamos os exemplos seguintes.
Exemplo 3.11
Supondo que uma v.a. X tem distribuição normal com

média 100 e variância 25, qual será a probabilidade de X estar
X - 100
entre 112 e 114? Temos que Z= N(0,1). Logo:
5
 (112  100) (   100) (114  100) 

P(112<X<114)=P     
 5 5 5
=P(2,4<Z<2,8)=P(0<Z<2,8)-P(0<Z<2,4)=0,4974-0,4918
=0,0056.
Exemplo 3.12
Sendo XN(50;16), determinar x, tal que:
i) P(X>x)=0,05;
ii) P(X<x)=0,99.
Solução:
 X  50 x  50 
i) P(X>x)=0,05  P   0,05 
 16 16 
 x  50 
 P Z    0,05 ,
 4 

sendo ZN(0;1). Portanto, procurando na tabela da normal
padrão o valor “z”, tal que P(Z>z)=0,05, encontramos z=1,65.
Dessa forma:
x  50
 1,65  x  4(1,65)  50  56,6 .
4
 X  50 x  50 
ii) P(X<x)=0,99  P   0,99 
 16 16 
 x  50 
 P Z    0,99 .
 4 
Assim, procurando na tabela da normal padrão o valor

“z”, tal que P(Z<z)=0,99 , temos z=2,33 , ou seja:
x  50
 2,33  x  4(2,33)  50  59,32 .
4
3.2.4 A distribuição Qui-quadrado
Sejam Z1, Z2, ..., Zv independentes e todas com

distribuição N(0,1), tem-se que a variável aleatória:
v
Z12 + Z22 + ... + Zv2  Z
i 1
i
2
. (3.7)
possui uma distribuição chamada qui-quadrado, com parâmetro

v, que é denominado de graus de liberdade.

Observações:
1. Costuma-se usar a notação Y  2(v) para denotar que

a variável aleatória Y tem distribuição qui-quadrado com v
graus de liberdade;
2. A distribuição qui-quadrado tem suas probabilidades

tabeladas, de acordo com a Tabela II do apêndice, de forma que
essa fornece os valores y, tais que P(  2(v)>y)=p, para alguns
valores de p e alguns valores de v.
Exemplo 3.13
Supondo v=10, temos que o valor y é tal que P( 

2
(v)>y)=0,05 é 18,307.
3.2.5 A distribuição t de Student
Sejam Z uma variável aleatória com distribuição N(0,1)

e Y uma variável aleatória com distribuição  2(v), com Z e Y
independentes, tem-se que a variável aleatória:
Z
T= (3.8)
Y
v
possui distribuição chamada t de Student, com v graus de

liberdade.

A distribuição t de Student é aproximadamente N(0,1)
quando v é significativamente grande. Para v pequeno, a curva
da função densidade de probabilidade da distribuição t possui a
mesma forma da normal padrão, sendo diferente somente no
aspecto do achatamento. Ou seja, a curva da distribuição t é um
pouco mais achatada, significando que essa distribuição possui
maior variabilidade que a normal padrão.
Observações:
1. Usamos a notação Tt(v) para denotar que a variável

aleatória T tem distribuição t de Student com v graus de
liberdade;
2. A distribuição t de Student também tem suas

probabilidades tabeladas, conforme a Tabela III do apêndice,
sendo que essa fornece valores t0 tais, que P(-t0 < t(v) < t0)=1-p,
para alguns valores de p e v=1, 2, 3, ... ,30, 35, 40, 50, 60, 120.
Quando v é muito “grande”, aproxima-se a distribuição t pela
N(0,1), de forma que se pode ver na Tabela III que para v>120 há
uma linha indicada por v=  , que corresponde às probabilidades
de uma distribuição normal padrão.

Exemplo 3.14
Supondo v=18 temos, pela tabela da distribuição t, que

o valor t0 é tal que P(T >t0)=0,10 é 1,33.
3.2.6 A distribuição F
Sejam U e V duas variáveis aleatórias independentes,

cada uma com distribuição qui-quadrado com v1 e v2 graus de
liberdade, respectivamente, tem-se que a variável aleatória:
U
v1
Y= . (3.9)
V
v2
possui uma distribuição chamada F de Snedecor, ou
simplesmente distribuição F, com graus de liberdade v1 e v2.
Observações:
1. Costuma-se usar a notação YF(v1,v2) para denotar

que a variável aleatória Y tem distribuição F com v1 e v2 graus
de liberdade;
2. As probabilidades da distribuição F são também

tabeladas de acordo com a Tabela IV do apêndice, sendo que
essa fornece os valores y, tais que P(F(v1,v2)>y)=. Nos casos

em que precisamos calcular P(F(v1,v2)<y)=, usamos a
identidade:
1
F(v1, v2 )  . (3.10)
F(v2 , v1 )
Exemplo 3.15
Temos da Tabela IV que o valor y1, tal que

P(F(5,7)>y1)=0,05, é 3,97. Qual será o valor y2, tal que
P(F(5,7)<y2)=0,05? Usando (3.10), teremos:
 1   1 
0,05=P(F(5,7)<y2)  P  y2   P F(7,5)  .
 F(7,5)  
 y2 
Da tabela da distribuição F obtemos que 1/y2=4,88. Logo,

y2=0,205.
Problemas
15. Considerando X a v.a. do exemplo 3.11, calcule:
a) P(100<X<106);
b) P(89<X<107);
c) P(X>108).

16. Foi feito um estudo sobre as alturas dos alunos de um
colégio, observando-se que elas se distribuem normalmente
com média de 1,72m e desvio padrão de 0,05m. Qual a
porcentagem dos alunos com altura:
a) Entre 1,67 e 1,77m?

b) Abaixo de 1,62m?
c) Acima de 1,90m?
17. Um teste de inteligência foi aplicado a um grupo de 50

adolescentes do 2º grau. Supondo que se obteve uma
distribuição normal com média 70 e desvio padrão de 6, pede-
se:
a) A porcentagem dos alunos com nota superior à 80;

b) O número de alunos com notas entre 45 e 65.
18. A experiência com certo exame de inglês básico indica que

as notas são normalmente distribuídas com média 130 e desvio
padrão 20. Se é exigida a nota 100 para que se passe no exame,
qual a probabilidade de uma pessoa ser reprovada?

19. As notas de matemática dos alunos de certo colégio(X) são
normalmente distribuídas, com média 6,4 e desvio padrão 0,8.
O professor atribui graus A, B e C da seguinte forma:
Notas(X) Grau
X5 C
5  X  7,5 B
7,5  X  10 A
Em uma classe de 80 alunos, qual o número esperado de alunos

com grau A?, B?, C?
20. Suponha que as notas de uma prova sejam

normalmente distribuídas com média 73 e desvio padrão 15.
Sabe-se que 15% dos alunos mais adiantados recebem o grau A
e 12% dos mais atrasados recebem grau F. Encontre o mínimo
para se receber o grau A e o mínimo para não se receber o grau
F.

21. Um teste de aptidão para matemática dá notas que
vão de 200 a 800. Estas notas têm distribuição
aproximadamente normal com média 470 e desvio padrão 120.
a) Qual a porcentagem de estudantes com notas entre

500 e 600?
b) Em um conjunto de 200 estudantes, quantos

deverão ficar com notas acima de 450?
22. O tempo necessário para completar uma tarefa

escolar tem distribuição normal com média de 90 minutos e
desvio padrão de 15 minutos. Qual será a porcentagem de
alunos que terminam a tarefa em menos de duas horas?
23. Suponhamos que o QI da população de certo país seja

normalmente distribuído com valor esperado igual a 107 e desvio
padrão igual a 15. Se uma pessoa é considerada superdotada
quando seu QI é superior a 140, qual deverá ser o número de
superdotados em uma cidade desse país, com 40.000 habitantes?
24. Se X tem distribuição uniforme em (a,b), mostre

que:
ab
i) E(X)  .
2

(b  a)2
ii) V ( X )  .
12
0, se x  a,
xa

iii) F ( x)   , se a  x  b,
 b  a
1, se x  b.

25. Se X tem distribuição exponencial com parâmetro

, mostrar que:
1
i) E(X)  .

1
ii) V(X)  .
2
1  e  x , se x  0,
iii) F ( x)  
0, caso contrário.
26. Uma fábrica de tubos de TV determinou que a
vida média dos tubos de sua fabricação é de 800 horas de uso e
segue uma distribuição exponencial. Qual a probabilidade de
que a fábrica tenha que substituir um tubo gratuitamente, se
oferece uma garantia de 300 horas de uso?
27. Na leitura de uma escala, os erros variam de
–1/4 a 1/4, com distribuição uniforme de probabilidade.
Calcular a média e a variância da distribuição dos erros.

28. A duração de uma lâmpada é uma variável aleatória
T, com fdp dada por:
 1 1000t
 e , se t  0 (em horas ),
f (t )  1000
0, se t  0.
Calcular a probabilidade de uma lâmpada:
a) Se queimar antes de 1000 horas;

b) Durar entre 800 e 1200 horas.
29. Suponha que X seja uniformemente distribuída

sobre [- ; +], onde >0. Determinar , de modo que as
seguintes relações sejam satisfeitas:
a) P(X>1)=1/3.
b) P(X<1/2)=0,7.
30. Definindo  2(v,) o valor de y, tal que P(  2(v)>y)= , e

usando a tabela da distribuição qui-quadrado, determinar:
a)  2(10;50%) b)  2(21;10%) c)  2(1; 2%)

d)  2(19;1%) e)  2(8; 30%)

31. Definindo t(v, ) o valor de y, tal que P(t>y|v)=
 e usando os valores da tabela da distribuição t, calcule:
a) t(1;5%) b) t(10;95%) c) t(20; 80%)

d) t(6;10%) e) t(15; 2,5%) f) t(120; 0,1%)
32. Indicando por F(v1,v2,) o número y, tal que

P(F>y|v1,v2)= obtenha, usando a tabela da distribuição F:
a) F(2;3;5%) b) F(3;2;95%) c) F(1; ∞,5%)

d) F(120;120;5%) e) F(15;15;95%) f) F(28;35;5%)

Capítulo 4
Introdução à inferência estatística
4.1 População e amostra
Entende-se por população um conjunto de indivíduos

ou objetos, para os quais se podem observar valores de uma ou
mais variáveis. Uma amostra é qualquer subconjunto da
população.
Exemplo 4.1
Supondo que queremos estudar algumas características

dos QIs de 2000 alunos de uma faculdade, selecionamos uma
amostra de 100 alunos e verificamos seus QIs. Nesse caso
temos: a variável observada é o QI; a população é formada
pelos 2000 QIs e, a amostra, pelos QIs dos 100 alunos
selecionados.
4.2 Amostra aleatória
Definição: uma amostra aleatória de tamanho n de uma v. a.

X é um conjunto de n variáveis aleatórias independentes
X1, X2, X3 ,..., Xn , cada uma com a mesma distribuição de X.

4.3 Estatísticas e parâmetros
Definição: uma estatística é uma função qualquer da amostra.
Dada uma amostra X1, X2, X3 ,..., Xn, temos, por exemplo, as
estatísticas:
n
1
Média amostral: X  
n i1
Xi .
1 n
Variância amostral: S2   (Xi-X)2 .
n-1 i 1
Definição: um parâmetro é uma medida usada para descrever

uma característica da distribuição de uma v.a. X.
Temos, por exemplo, que o valor esperado e a variância

são parâmetros de uma distribuição de probabilidade.
4.4 Distribuições amostrais
Se T é uma estatística da amostra (X1, X2, X3,...,Xn),

então a distribuição de T, quando (X1, X2, X3,...,Xn) assumem
todos os possíveis valores, é chamada de distribuição amostral
de T.

Exemplo 4.2
Consideremos uma população de tamanho N=3 e uma

v.a. X com a seguinte distribuição:
X 1 2 3
P(X=x) 1/3 1/3 1/3
Assim: E(X)=2 e V(X)=2/3=0,667.
Retirando todas as amostras possíveis de tamanho n=2,

com reposição, obtemos a seguinte tabela:
Valores Média
Probabilidades
amostrais amostral ( x )
(1,1) 1/9 1,0
(1,2) 1/9 1,5
(1,3) 1/9 2,0
(2,1) 1/9 1,5
(2,2) 1/9 2,0
(2,3) 1/9 2,5
(3,1) 1/9 2,0
(3,2) 1/9 2,5
(3,3) 1/9 3,0

Nesse caso, a distribuição da estatística X é dada por:
x 1,0 1,5 2,0 2,5 3,0

P( X = x) 1/9 2/9 3/9 2/9 1/9
sendo:
1 2 3 2 1
E( X ) = 1( )+1,5( )+2( )+2,5( )+3( )=2 .
9 9 9 9 9
1 2 3 2 1
E( X 2) = 1( )  2, 25( )  4( )  6, 25( )  9( )  4,333
9 9 9 9 9
Logo:
V( X ) = 4,333 - 4 = 0,333.
V(X)
Assim, verificamos que E( X ) = E(X) e V (X) = .
2
4.5 Distribuição amostral da média
Na teoria da inferência estatística tem-se o seguinte

resultado: seja X uma v.a. com valor esperado  e variância 2
e X a média de uma amostra aleatória de tamanho n de X.
Então:
a) E( X ) =  ;
b) V( X ) = 2 /n;

c) (Teorema Central do Limite) A distribuição de X
aproxima-se de uma distribuição normal com valor esperado
 e variância 2 /n, quando n tende ao infinito.
Observações:
1. Como regra prática, aceita-se que para amostras com

mais de 30 elementos, a aproximação citada em (c) já pode ser
considerada muito boa.
2. Se a distribuição da população é normal, com valor

esperado  e variância 2, então a média amostral baseada em
uma amostra aleatória de tamanho n tem distribuição normal,
com valor esperado  e variância 2/n, independentemente do
tamanho da amostra.
Exemplo 4.3
Suponhamos que na população de universitários

brasileiros certo atributo psicológico, avaliado mediante
emprego de determinado teste, tenha distribuição com valor
esperado igual a 100 e desvio padrão 16. Se uma amostra
aleatória de tamanho 64 é escolhida dessa população, qual será
a probabilidade da média amostral estar acima de 104?

Temos nesse exemplo que a distribuição da média
amostral X é aproximadamente N(100; 4). Logo:
X - 100 104- 100

P( X >104)=P ( > )  P(Z>2)=0,0228.
2 2
4.6 Distribuição amostral da proporção
Consideremos uma população que tem uma proporção p de

portadores de certa característica, e seja X1, X2, X3,..., Xn uma
amostra aleatória em que Xi, 1  i  n é definida por:
1, se o i - ésim oelem entoé portador

Xi =  da característica;
0, em caso contrário.

Temos que Xi, 1  i  n tem distribuição de Bernoulli, com

E(Xi) = p e V(Xi) = p(1-p). Portanto, a distribuição da média
amostral X se aproxima de uma distribuição normal, com valor
esperado p e variância p(1-p)/n, quando n tende ao infinito.
Observação: dado que X é a proporção de elementos da

amostra que são portadores da citada característica, então
costumamos fazer X = P̂ .

Exemplo 4.4
Em certa cidade, 30% dos motoristas envolvidos em

acidentes fatais mostram evidências do uso de drogas. Numa
amostra de 200 acidentes fatais, qual será a probabilidade de
que mais de 25% desses motoristas tenham usado drogas?
Definindo a variável aleatória P̂ = proporção de

motoristas que usam drogas numa amostra de 200 acidentes
fatais, temos que a distribuição de P̂ é aproximadamente
N(0,30;0,00105). Assim:
Pˆ - 0,30 0,25- 0,30

P( P̂ >0,25) = P(  )
0,00105 0,00105
= P(Z>-1,54) = 0,9382.
Problemas
1. Um sociólogo extrai uma amostra aleatória de 45

pessoas de uma população, cuja renda média é U$ 900,00 e o
desvio padrão US$ 200,00. Qual será a probabilidade de que a
renda média da amostra seja inferior a US$ 850,00?

2. Consideremos a eleição para presidente do diretório
acadêmico em certo ano, quando 60% dos eleitores votaram no
candidato A. Suponhamos que imediatamente antes da eleição
tivéssemos extraído uma amostra de 40 eleitores. Qual seria a
probabilidade de que na amostra extraída o candidato A tivesse
minoria?
3. Admitindo-se que a chance de nascer menino seja

igual a de nascer menina, qual a probabilidade de que mais de
40% das primeiras 50 crianças, nascidas em um certo ano,
sejam do sexo masculino?
4. Certas vacinas produzidas por um laboratório têm

validade média de 800 horas e desvio padrão de 60 horas.
Determine a probabilidade de uma amostra aleatória de 50
vacinas ter a validade média:
a) Entre 790 e 810 horas;

b) Inferior a 785 horas;
c) Superior a 820 horas.
5. Suponhamos que o nível educacional de adultos de

certo país tenha uma média de 11,1 anos e um desvio padrão de
3 anos. Qual a probabilidade de que, em uma amostra aleatória

de 40 adultos, se encontre um nível médio de escolaridade
entre 10 e 12 anos?
6. Supondo que 2% das pessoas de certa cidade têm

problemas de psicose, qual será a probabilidade de numa
amostra aleatória de 400 pessoas dessa cidade 3% ou mais
tenham psicose?

Capítulo 5
Estimação
5.1 Estimação por ponto
Seja X1, X2, X3,..., Xn uma amostra de uma variável

aleatória X e θ um parâmetro desconhecido da distribuição de
X, um estimador pontual de θ é definido como sendo qualquer
função de X1, X2, X3,..., Xn.
Estimador não viciado
Um estimador T de um parâmetro θ por definição é não

viciado se E(T) = θ .
Consistência
Considerando a amostra X1, X2,...,Xn de uma variável

aleatória X e θ um parâmetro da sua distribuição, temos que
um estimador T de θ , baseado em X1, X2,..., Xn , é dito
consistente se esse satisfaz às duas seguintes condições:
a) T é não viciado;
b) A variância de T se aproxima de zero quando n tende

ao infinito.

Exemplo 5.1
De acordo com o que vimos anteriormente, se X1, X2, X3,..., Xn

é uma amostra aleatória de uma distribuição de Bernoulli, com
parâmetro p, então a proporção amostral P̂ é aproximadamente
N(p ; p(1-p)/n). Nesse caso temos que P̂ é um estimador
consistente de p, pois E( P̂ )=p e, conforme podemos ver, a
variância de P̂ se aproxima de zero quando n tende ao infinito.
5.2 Estimação por intervalo
Um intervalo que contenha um parâmetro θ , com certa

probabilidade 1-, é chamado de intervalo de confiança para θ
, com coeficiente de confiança 1-.
Intervalo de confiança para a média populacional
Consideremos X1, X2,...,Xn uma amostra aleatória de

uma variável X, com E(X) =  e V(X) = 2. Sabemos que, para
X -μ
n suficientemente grande, a distribuição de Z = é
σ
n
aproximadamente N(0;1), sendo z o valor da tabela da normal

padrão, tal que P(-z<Z<z)=1-, isto é:
σ σ
P(-z< X - μ  z) =1- P( X -z << X + z ) =1-
σ n n
n

σ σ
Assim, se diz que ( X -z ; X + z ) é um intervalo de
n n
confiança para , com coeficiente de confiança 1-.
Exemplo 5.2
Em certa universidade, sabe-se que a distribuição dos

QIs dos alunos tem variância igual a 64. Se numa amostra de
40 alunos obteve-se um QI médio igual a 115, qual será o
intervalo, com 95% de confiança, para o QI médio dos alunos
da referida universidade?
Temos aqui 1-=0,95, logo z=1,96 e, portanto, o

intervalo de confiança pretendido é dado por:
8 8
[115-(1,96) ; 115+(1,96) ] = (112,5;117,5) .
40 40
Intervalo de confiança para a proporção p
Dada uma amostra aleatória X1, X2,..., Xn de uma

distribuição de Bernoulli com parâmetro p, temos que, para n
P̂-p
suficientemente grande, a distribuição de Z= é
p(1-p)/n
n
aproximadamente N(0;1), sendo Pˆ = ( Xi)/n. Assim:
i=1

P̂ -p
P(-z< <z)=1- 
p(1-p)/n
 P( P̂ -z p(1  p)/n <p< P̂ +z p(1  p)/n )=1- .
Como não conhecemos p, substituímos p(1-p) pelo estimador
Pˆ (1- Pˆ ) e, dessa forma, temos que ( P̂ -z P̂(1 - P̂)/n ; P̂ +z
P̂(1 - P̂)/n ) é um intervalo de confiança para p, com

coeficiente de confiança 1-.
Exemplo 5.3
Suponhamos que uma amostra de 100 homens de uma

universidade brasileira tenha a seguinte distribuição de QIs:
QI N.º de homens
92  107 29
107  122 38
122  137 20
137  152 10
152  167 3
TOTAL 100

Nesse caso, qual será o intervalo, com 90% de confiança, para
a proporção de homens com QI superior a 137?
Para 1-=0,9, obtemos na tabela da normal padrão que

z=1,65. Temos também, pela tabela da distribuição de QIs
acima, que o número de homens com QI superior a 137 é 13,
ou seja, P̂ =13/100 = 0,13. Portanto, o intervalo pretendido é
dado por:
[0,13-(1,65) (0,13×0,87)/100 ;
0,13  (1,65) (0,13  0,87)/100 ]=(0,07 ; 0,18).
Problemas
1. A distribuição do tempo de reação de motoristas de

certo país tem desvio padrão igual a 0,2 segundos. Selecionou-
se uma amostra de 50 motoristas e obteve-se um tempo médio
de reação igual a 0,83. Determine um intervalo de 95% de
confiança para o tempo médio de reação da população de
motoristas desse país.
2. Em certa cidade, deseja-se estimar a proporção P de

pessoas que são favoráveis à fluoração da água. Supondo que
numa amostra de 100 pessoas dessa cidade, 75 são favoráveis à

água fluorada, qual será o intervalo com 99% de confiança para
a proporção P?
3. Antes de uma eleição deseja-se fazer uma pesquisa

para verificar a proporção de eleitores que pretendem votar
num candidato A. Para isso, consultou-se uma amostra de 1600
eleitores, da qual obteve-se que 35% eram favoráveis à A.
Nesse caso, qual será o intervalo com 95% de confiança para a
proporção de eleitores que são favoráveis ao candidato A?
4. Suponha que a nota num teste de inteligência de

crianças de certa população em idade escolar tenha distribuição
com desvio padrão igual a 3. Se numa amostra de 362 crianças
obteve-se nota média igual a 35, qual será um intervalo, com
90% de confiança, para a nota média dessa população?
5. Supondo que numa pesquisa de âmbito nacional

envolvendo 2000 famílias, 200 delas mostravam ter um ou
mais de seus membros com algum tipo de neurose, determine
um intervalo, com 99% de confiança, para a proporção de
famílias que têm algum tipo de neurose.

Capítulo 6
Distribuição de frequências
Na prática, quando obtemos observações amostrais,

inicialmente organizamos os dados em tabelas e gráficos, para
facilitar a compreensão das distribuições das variáveis em
estudo. Em seguida, realizamos cálculos de algumas medidas,
como por exemplo médias e variâncias, que servem
essencialmente como estimativas de parâmetros da população
de onde foi retirada a amostra. Trataremos a seguir de tais
assuntos, como construção de tabelas e gráficos e obtenção de
algumas estimativas, de forma que, neste capítulo 6,
estudaremos um caso específico de organização de dados em
tabela e, nos seguintes, 7 e 8, faremos os cálculos de algumas
medidas de tendência central, de separatrizes e de variabilidade
amostrais. No capítulo 9 daremos uma introdução à inferência
estatística que testa hipóteses sobre parâmetros populacionais.
6.1 Introdução
Para uma análise estatística, no caso da variável em

estudo ser contínua, é sempre conveniente os dados coletados

serem agrupados em classes, obtendo-se assim o que se
denomina de distribuição de frequências, cujos elementos serão
aqui definidos com base na tabela do exemplo seguinte.
Exemplo 6.1
A tabela a seguir exibe a distribuição das notas em uma

prova de estatística, de 500 candidatos, em certo concurso
público.
Notas Frequências
0  10 5
10  20 15
20  30 20
30  40 45
40  50 100
50  60 130
60  70 100
70  80 60
80  90 15
90  100 10
TOTAL 500

Observações:
1. O símbolo  indica a inclusão na classe do valor

situado à esquerda e a exclusão do valor situado à direita.
Considerando, por exemplo, a classe 50  60, temos que essa
congrega notas de 50, inclusive, até 60, exclusive;
2. O valor situado à esquerda é chamado de limite
inferior da classe e o situado à direita, de limite superior.
Principais elementos na construção de uma distribuição de

frequências
1. Amplitude total (At)

A amplitude total de um conjunto de dados qualquer é definida
como a diferença entre o maior e o menor valores do conjunto.
2. A amplitude de classe
A amplitude de classe é definida como sendo a diferença entre
dois limites inferiores ou entre dois limites superiores
sucessivos, nos casos em que a distribuição tenha a mesma
amplitude em todas as classes. De acordo, então, com esta
definição, temos que a amplitude de classe do exemplo anterior
é igual a 10.

Observação: Na construção de uma distribuição de frequências
é conveniente que todas as classes tenham a mesma amplitude,
pois, assim, evitam-se equívocos na interpretação da variação
do fenômeno.
3. Ponto médio de classe

Ponto médio de uma classe é o ponto equidistante dos
extremos, que serve para representar a classe nos casos de
cálculos de algumas medidas. A coluna dos pontos médios em
uma distribuição de frequências normalmente é representada
pela letra “m’’.
Para obter o ponto médio de uma classe acrescentamos
ao limite inferior a metade da amplitude de classe. Assim
temos, por exemplo, que o ponto médio da segunda classe da
distribuição do exemplo 6.1 é dado por 10+10/2=15.
Tipos de frequências:
Em uma distribuição de frequências, tem-se:
sim ples
Frequências absolutas  abaix ode
acum uladasacim ade
 

sim ples
Frequências relativas  abaix ode
acum uladasacim ade
 
Sendo:
a) Frequência absoluta simples: é o número de observações de

uma classe. Normalmente a coluna destas frequências é
representada pela letra “f”;
b) Frequência relativa simples: é a proporção de observações

de uma classe em relação ao número total de observações;
c) Frequências acumuladas abaixo de (absolutas ou relativas):

obtém-se somando, a partir da primeira classe, cada frequência
simples com a frequência acumulada anterior. Costuma-se
representar as colunas destas frequências por F e F%,
respectivamente;
d) Frequências acumuladas acima de (absolutas ou relativas):

procede-se da mesma forma das frequências acumuladas
abaixo de, porém partindo da última classe. As colunas destas
frequências são representadas por F e F%, respectivamente.

Exemplo 6.2
Da distribuição do exemplo 6.1, temos:
Classes m f f F F F F
0  10 5 5 1,0 5 1,0 500 100,0
10  20 15 15 3,0 20 4,0 495 99,0
20  30 25 20 4,0 40 8,0 480 96,0
30  40 35 45 9,0 85 17,0 460 92,0
45 100 20,0 185 37,0 415 83,0

40  50
55 130 26,0 315 63,0 315 3,0
50  60
65 100 20,0 415 83,0 185 37,0
60  70
75 60 12,0 475 95,0 85 17,0
70  80
85 15 3,0 490 98,0 25 5,0
80  90
95 10 2,0 500 100,0 10 2,0
90  100
TOTAL - 500 100,0 - - - -

6.2 Número de classes
Existem várias regras para a determinação do número

de classes de uma distribuição de frequência, como, por
exemplo, a de Sturges, que é dada por:
K=1+(3,31) log n.
Sendo:
K = número de classes
n = número de observações.
Essa regra, no entanto, tem a desvantagem de dar muitas

classes para um pequeno número de observações e relativamente
poucas classes, quando esse número é grande.
Por um lado mais prático, tem-se a sugestão de vários

outros autores de que o número de classes deve variar entre 5 e
20, sendo esta escolha dependente mais da natureza dos dados
e da unidade em que esses estejam expressos. De acordo,
então, com essa sugestão é que se costuma usar a seguinte
regra prática: escolhe-se um número, se possível inteiro e que
esteja próximo da metade do intervalo (A t /20 ; A t /5), para ser
a amplitude de classe. A seguir adiciona-se essa amplitude aos

limites inferiores das classes, determinando-se, assim, a
distribuição e o número de classes.
Exemplo 6.3
Os dados seguintes são os rendimentos de 70

examinandos numa prova de raciocínio:
25 42 26 25 42 23 41 22 43 20 28 39
30 29 38 29 37 28 40 28 31 35 32 31
35 31 34 32 36 31 33 43 34 33 33 32
34 34 32 34 35 32 34 36 32 35 31 36
32 34 37 30 39 40 30 38 30 40 31 37
41 23 40 26 41 27 43 28 38 41
Nesse conjunto de dados temos que o maior valor é 43 e o

menor é 20. Assim obtemos que At=43-20=23.
Consequentemente:
(At /20 ; At /5) = (1,15 ; 4,6)
Logo, de acordo com a regra anterior, temos que a

distribuição de frequências para esses dados fica como na
tabela a seguir, em que a amplitude de classe é a=3, que é um

número inteiro e está próximo da metade do intervalo (A t
/20 ; At /5).
Observação: aproveitamos essa distribuição para exemplos da

seção seguinte; por isso, também determinamos nessa tabela as
frequências acumuladas absolutas, abaixo e acima de.
Classes f F F
20  23 2 2 70
23  26 4 6 68
26  29 7 13 64
29  32 12 25 57
17 42 45
32  35
10 52 28
35  38
9 61 18
38  41
9 70 9
41  44
TOTAL 70 - -

6.3 Representação gráfica
Para representar graficamente uma distribuição de

frequências usam-se os seguintes gráficos:
a) O polígono de frequências ou o histograma para

representar as frequências simples;
b) O diagrama de frequências acumuladas (ogiva de

Galton) para representar as frequências acumuladas.
Construção do polígono de frequências
No eixo das abscissas marcam-se os limites inferiores

das classes e o limite superior da distribuição;
As frequências são marcadas no eixo das ordenadas, a

partir de perpendiculares levantadas dos pontos médios das
respectivas classes;
Fecha-se o polígono ligando os pontos extremos aos

pontos médios dos intervalos, que se acrescentam no início e
no fim da distribuição.
Construção do histograma
O histograma é construído de forma equivalente ao

polígono de frequências, só que, neste caso, não se representam

todos os resultados de uma classe pelo seu ponto médio;
porém, supõe-se que tais resultados distribuem-se
uniformemente por todo o intervalo.
Exemplo 6.4
Da distribuição do exemplo 6.3 temos que o polígono

de frequências e o histograma são dados, respectivamente, por
a) Polígono de frequências
20
18
16
14
12
10
f
2
Expected
0
0 17 20 23 26 29 32 35 38 41 44 47 Normal
Classes

b) Histograma
20
18
16
14
12
10
f
2
Expected
0
0 20 23 26 29 32 35 38 41 44 Normal
Classes
Observação: é comum também se representar as frequências

das classes, no histograma, pelas áreas dos respectivos
retângulos. Neste caso, tem-se:
A=b  h
Sendo:
A = área = frequência de classe
b = base = intervalo de classe
h = altura.

Construção da ogiva de Galton
No eixo das ordenadas marcam-se as frequências

acumuladas e no eixo das abscissas os limites inferiores ou
superiores das classes, de onde são levantadas perpendiculares
para encontrar as respectivas frequências acumuladas.
Observação: em se utilizando as frequências “abaixo de” é

preferível que sejam usados os limites superiores como
representantes das classes, enquanto que, no caso das
frequências “acima de”, devem-se usar os limites inferiores.
Exemplo 6.5
Considerando ainda a distribuição do exemplo 6.3,

teremos:
a) Frequências “abaixo de”

b) Frequências “acima de”
Problemas
1. Os dados seguintes referem-se ao tempo gasto, em

horas, por 70 pessoas, na execução de um desenho técnico:
3,4 8,1 7,9 3,4 5,6 8,1 9,0 8,3 4,2 7,2
7,5 5,2 6,0 7,0 8,1 7,6 6,9 6,0 8,0 4,0
8,4 6 4,8 6,3 8,2 7,9 8,3 7,2 7,0 4,3
6,1 9,8 2,3 4,1 5,6 6,4 5,4 7,5 8,0 5,0
1,5 4,0 4,3 4,8 9,9 4,1 10,0 10,0 6,0 6,0
6,2 6,8 8,1 9,1 8,5 7,3 4,9 4,5 5,1 6,0
7,1 8,1 8,0 2,0 1,9 7,4 7,0 7,3 7,4 5,2

Pede-se:
a) Construir uma distribuição de frequências para os dados;
b) Construir o polígono de frequências, o histograma e a ogiva

de Galton.
2. A tabela seguinte nos dá a distribuição dos pontos

em um teste de rapidez e exatidão, em tarefas digitais,
aplicado a um grupo de 100 alunos de uma certa escola:
Pontos f
0  10 5
10  20 10
20  30 12
30  40 35
40  50 24
50  60 14
TOTAL 100
a) Determine o número de alunos com menos de 30 pontos;

b) Determine a porcentagem dos alunos com 10 pontos ou
mais;
c) Construa o polígono de frequências e a ogiva de Galton.

Capítulo 7
Medidas de tendência central e separatrizes
Medidas de tendência central ou promédios são valores

que servem para representar a distribuição como um todo, além
de possibilitarem o confronto entre distribuições. Das
principais medidas de tendência central destacamos aqui a
média aritmética e a mediana.
7.1 Média aritmética
1. Média aritmética de valores isolados
X1,X1...X1 , X2,X2,...,X2 ,..., Xn,Xn,...,Xn

Se f1 vezes f2 vezes fn vezes é uma série de
valores repetidos, tem-se que a média aritmética, neste caso, é
o quociente entre a soma dos valores do conjunto e o número
total de valores, ou seja:
n
f X
i1
i i
X n
. (7.1)
f
i1
i

Exemplo 7.1
Suponhamos que os números de questões respondidas

corretamente por 20 alunos de psicologia em uma prova de
estatística foram os seguintes:
7 6 7 6 7
4 5 7 5 8
6 5 5 7 8
4 7 7 7 6
Tabulando esses números, obteremos:
Nº de questões Nº de
f.x
corretas(x) alunos(f)
4 2 8
5 4 20
6 4 24
7 8 56
8 2 16
Total 20 124
Assim:
X  124/ 20  6,2 .

2. Média aritmética de uma distribuição de frequências
Para uma distribuição de frequências com k classes,

sendo m1, m2, ..., mk seus pontos médios, tem-se que a média
aritmética é calculada por:
k
f m i i
X i 1
k
. (7.2)
f
i 1
i
Exemplo 7.2
Considerando novamente a distribuição do exemplo 6.3,

calculemos sua média aritmética, de forma que, determinando
as colunas que são necessárias, teremos:
Classes f m f.m
20  23 2 21,5 43,0
23  26 4 24,5 98,0
26  29 7 27,5 192,5
29  32 12 30,5 366,0
32  35 17 33,5 569,5
35  38 10 36,5 365,0
38  41 9 39,5 355,5
41  44 9 42,5 382,5
Total 70 - 2372,0

Assim:
X = 2372/70 = 33,88.
7.2 Mediana
A mediana é a medida de tendência central que divide a

distribuição em duas partes iguais, ou seja, é o valor que fica
no meio da série ordenada.
1. Mediana de valores isolados
Temos que a mediana de uma distribuição também pode

ser definida como o valor do elemento mediano, sendo que
esse elemento é o número que indica a ordem em que se
encontra a mediana. Em geral, usa-se o seguinte procedimento
para determinar o elemento mediano:
i) Se o número de observações N é ímpar, então Emd

= (N+1)/2, sendo Emd o elemento mediano;
ii) Se o número de observações N é par, então Emd =

N/2, e, neste caso, a mediana é igual à média aritmética dos
dois valores centrais.

Exemplo 7.3
Suponha um grupo de 5 pessoas com as seguintes

estaturas: 1,85m; 1,60m; 1,70m; 1,65m e 1,60m. Aqui, Emd=
(N+1)/2 = 6/2 = 3. Logo, ordenando os valores obtemos que a
estatura mediana deste grupo é 1,65 m.
Exemplo 7.4
Ao invés de um grupo de cinco pessoas, como no

exemplo 7.3, consideremos agora as seis seguintes estaturas:
1,85m; 1,60m; 1,70m; 1,65m; 1,60m e 1,62m. Assim, Emd=
N/2 = 6/2 = 3. Colocando os valores em ordem crescente: 1,60;
1,60; 1,62; 1,65; 1,70; 1,85, obtemos que 1,62 e 1,65 são os
dois valores centrais. Logo:
md = (1,62+1,65)/2 = 1,63.
Exemplo 7.5
Com relação ao exemplo 7.1 temos que o cálculo da

mediana fica mais fácil se, em primeiro lugar, determinamos a
coluna das frequências acumuladas, ou seja:

Nº de questões
corretas(x) f F
4 2 2
5 4 6
6 4 10
7 8 18
8 2 20
TOTAL 20 -
Desta forma: Emd = 20/2 = 10. Logo, pela tabela anterior:
md = (6+7)/2 = 6,5.
Mediana de uma distribuição de frequências
Considerando fm como sendo a frequência simples da

classe da mediana, Fant como a frequência acumulada até a
classe anterior à classe da mediana, li o limite inferior da classe
da mediana, Emd =  f /2 = N/2 (para N par ou ímpar) e “a” a
i
amplitude de classe, mostra-se facilmente que a mediana de

uma distribuição de frequências é dada por:
md  li  (Emd  Fant )a/f m . (7.3)

Exemplo 7.6
A distribuição da tabela a seguir dá as notas em um

teste de rapidez e exatidão de um grupo de 46 pessoas do sexo
feminino.
Notas f F
0  5 1 1
5  10 1 2
10  15 4 6
15  20 10 16
20  25 17 33
25  30 9 42
30  35 3 45
35  40 1 46
Total 46 -
Qual será, então, a nota mediana do grupo? Temos que Emd =

46/2 = 23. Logo, pela coluna das frequências acumuladas,
vemos que a classe da mediana é 20  25. Assim:
md = 20+(23-16)(5)/17 = 22,06.
Observação: a mediana de uma distribuição de frequências
também pode ser obtida a partir da ogiva de Galton, pois a
mediana é a abscissa do ponto, cuja ordenada é o elemento
mediano.
Exemplo 7.7

Do exemplo 7.6, obtemos:
Emprego da média e da mediana
De uma maneira geral, prefere-se empregar a média

aritmética quando a distribuição dos dados é simétrica, ou nos
casos em que se faz necessário o cálculo de outras estatísticas.
Por outro lado, a mediana é preferida quando se deseja o ponto
que divide a distribuição em duas partes iguais, ou nos casos
em que na distribuição dos dados existam valores muito
distanciados dos demais, comumente chamados de valores
extremos.
7.3 Separatrizes
Definição: separatrizes são os valores da distribuição
nomeados por suas posições na série ordenada.

De maneira análoga ao que vimos, com relação à
mediana, tem-se que uma separatriz é o valor do elemento que
indica a ordem em que esta se encontra. Existem separatrizes
de quaisquer ordens, porém algumas são de maior importância,
como as que veremos a seguir.
1. Quartis
Permitem dividir a distribuição em quatro partes iguais,

quanto ao número de elementos de cada uma. Numa distribuição
de frequências temos:
Q j  l j  (EQ j  FQ j1 ) a/f j . (7.4)
Sendo:
Qj : o j-ésimo quartil, j = 1,2,3;
lj : o limite inferior da classe do j-ésimo quartil;
EQj : o elemento quartil j, de forma que, considerando

N como o total das frequências, temos : EQj =
=j.N/4;
FQj-1 : é a frequência acumulada até a classe anterior à

classe do j-ésimo quartil;
fj : é a frequência simples da classe do j-ésimo quartil.
Observação: podemos ver de imediato que md = Q2.

2. Percentis ou centis
Dividem a distribuição em cem partes iguais, quanto ao

número de elementos de cada uma. Se Pj é o j-ésimo percentil,
j=1,2,3,...,99, com EPj=j.N/100, então, analogamente ao cálculo
dos quartis em uma distribuição de frequências, tem-se que o
cálculo de Pj é dado por:
Pj  l j  (EPj  FPj1 )a/f j . (7.5)
Exemplo 7.8
Considerando o exemplo 7.6, determinemos:
a) O valor que separa 25% das notas mais baixas;
b) O valor cujo percentual de pessoas com notas acima

deste é 30 %;
c) O valor que separa 25% das pessoas com as maiores

notas.
No item (a) desejamos calcular Q1 (ou P25), pois podemos

verificar que Q1 = P25. Assim, EQ1 = 46/4 = 11,5 . Logo,
pela coluna das frequências acumuladas, vemos que a classe
de Q1 é 15  20; portanto:
Q1 =15+(11,5-6)(5)/10 = 17,75.

Queremos calcular no item (b) o septuagésimo percentil
(P70). Assim, teremos: EP70 =(70)(46)/100 = 32,2. Logo:
P70 = 20+(32,2-16)(5)/17 = 24,76.
No item (c) queremos calcular P75 (ou Q3), pois temos que
P75 =Q3. Assim, EP75 =(75)(46)/100=34,5. Pela coluna das
frequências acumuladas verificamos que a classe de P75 é 25
 30. Portanto:
P75 =25+(34,5-33)(5)/9=25,83.
Problemas
1. Os dados seguintes referem-se aos rendimentos em

tarefas verbais de 22 alunos de uma escola do primeiro grau.
Rendimento Nº de alunos
5 2
6 2
8 8
9 6
10 4
TOTAL 22
Determinar os rendimentos médio e mediano dos alunos.

2. A tabela seguinte dá o rendimento em tarefas motoras,
medido por escore, de 160 alunos de uma universidade.
Escores f
5  10 5
10  15 10
15  20 24
20  25 62
34
25  30
18
30  35
7
35  40
Total 160
a) Sabendo-se que os 30% dos alunos mais fracos irão

para um treinamento especial, qual será o escore
exigido por tal treinamento?
b) Qual é o escore mínimo que delimita os 75% dos

melhores alunos em motricidade?
c) Calcular a média e a mediana desses escores.

Capítulo 8
Medidas de variabilidade
Podemos definir variabilidade de um conjunto de dados

como sendo a maior ou menor diversificação dos valores em
torno de uma medida de tendência central. Considerando, por
exemplo, as notas de dois alunos A e B, em cinco disciplinas
diferentes:
Alunos Notas
A 5,5 5,0 4,9 6,1 6,0
B 1,5 8,9 5,5 9,5 2,1
verificamos que a média do aluno A nas cinco disciplinas é

igual a 5,5 e a do aluno B também é 5,5 , ou seja, em média
estes alunos têm o mesmo rendimento. Por outro lado, vemos
que existe significativa diferença nas distribuições das notas,
de forma que, com relação ao aluno A, podemos considerar
seus conhecimentos como uniformes nas cinco disciplinas,
enquanto que o aluno B mostra um bom nível em algumas
disciplinas e bastante deficiência em outras. Assim, podemos

dizer que a diferença das distribuições está nos graus de
concentração das notas, que, no caso, são bem diferentes.
As medidas de variabilidade podem ser absolutas ou

relativas. Em 8.1 e 8.2 a seguir apresentaremos algumas das
consideradas mais importantes.
8.1 Principais medidas de variabilidade absoluta
1. Desvio quartil
É a média aritmética das diferenças entre a mediana e

os dois quartis, ou seja:
Dq = [(Q3 – md) + (md – Q1)]/2 = (Q3 – Q1)/2. (8.1)
Exemplo 8.1
Considerando a distribuição do exemplo 7.6 já temos,

pelo exemplo 7.8, que Q1 = 17,75 e Q3 = 25,83. Portanto, para
esta distribuição:
Dq = (25,83 – 17,75)/2 = 4,04.

Observações:
1. O desvio quartil é uma medida que não é afetada por

valores extremos, sendo, portanto, recomendada quando
houver valores desse tipo na distribuição dos dados, ou seja,
nos casos em que a medida de tendência central mais adequada
seja a mediana;
2. O desvio quartil tem a desvantagem de só considerar

Q1 e Q3, isto é, despreza o restante do conjunto dos dados.
2. Desvio padrão
É a raiz quadrada da média dos quadrados dos desvios,

tomados em relação à média aritmética.
a) Desvio padrão de valores isolados
Seja X1,X1...,X1 , X2,X2,...,X2 ,..., Xn,Xn,...,Xn uma série de

f1 vezes f2 vezes fn vezes
valores repetidos. Neste caso, o desvio padrão é calculado por:
n n
S  fi(Xi  X)2 / fi . (8.2)
i 1 i 1
n
Fazendo N=  fi e desenvolvendo (8.2), obtemos:
i 1

n
S  fX
(
i1
2
i i /N)  X2 . (8.3)
Exemplo 8.2
Considerando novamente a distribuição do exemplo 7.1

calcularemos a seguir seu desvio padrão, sendo que, para usar
(8.3), precisamos das colunas definidas pelos produtos f.X e
f.X2, isto é:
Notas(x) f f.x f.x2
4 2 8 32
5 4 20 100
6 4 24 144
7 8 56 192
8 2 16 128
Total 20 124 796
Portanto:

S  7 9 6/ 2 0  (1 2 4/ 2 0)2  3 9,8  3 8,4 4  1,1 7.
b) Desvio padrão de uma distribuição de frequências
De maneira análoga ao cálculo realizado na distribuição

de valores isolados, obtemos o desvio padrão de uma
distribuição de frequências, ou seja, dada uma distribuição com
k classes, sendo m1, m2,..., mk seus pontos médios, temos:
k k
S i1
fi(mi - X)2 / f
i1
i . (8.4)
k
Fazendo N =  fi e desenvolvendo (8.4), obteremos:
i 1
k
S ( fm
i1
i
2
i /N)  X2 . (8.5)

Exemplo 8.3
Calcularemos a seguir o desvio padrão da distribuição:
Classes f
0  10 9
10  20 11
20  30 12
30  40 10
8
40  50
Total 50
Determinando as colunas que são necessárias para o cálculo,

teremos:
Classes f m f.m f.m2

0  10 9 5 45 225
10  20 11 15 165 2475
20  30 12 25 300 7500
30  40 10 35 350 12250
8 45 360 16200
40  50
Total 50 - 1220 38650

Assim:
 (1 2 2 0 /5 02)  7 7 3 5 9 5 ,3 6 1 3 ,3 3.
S  3 8 6 5 0 /5 0
Principais propriedades do desvio padrão:
1. Somando-se ou subtraindo-se uma constante a cada

elemento de um conjunto de dados, o desvio padrão não se
altera;
2. Dividindo-se ou multiplicando-se cada elemento de

um conjunto de dados por uma constante, o desvio padrão fica
multiplicado ou dividido por esta constante, conforme seja o
caso.
Problemas
1. Calcular o desvio padrão da distribuição do

problema 1, do capítulo anterior.
2. Calcular o desvio padrão e o desvio quartil da

distribuição do problema 2, do capítulo anterior.
8.2 Medidas de variabilidade relativa
Uma medida de dispersão relativa resulta da

comparação entre medidas de variabilidade absoluta e de
tendência central, sendo seu uso justificado nos casos em que

se deseje comparar as variabilidades de distribuições, nas
quais:
a) As unidades de escala são desiguais (conforme

temos no exemplo 8.4, a seguir);
b) Mesmo tendo as unidades de escala iguais, as médias

sejam significativamente diferentes (conforme exemplo 8.5).
Principais medidas de variabilidade relativa
1. Desvio quartil reduzido: é a relação entre o desvio quartil e

a mediana, ou seja:
Dqr =[(Q3 – Q1)/2]/md = (Q3 – Q1)/2md (8.6)
2. Coeficiente de variação de Pearson: é a relação entre o

desvio padrão e a média aritmética, isto é:
S
C Vp   1 0 0% (8.7)
x
Exemplo 8.4
Suponhamos uma sala de aula com 50 alunos

possuidores de uma estatura média de 1,14 m, com desvio
padrão igual a 0,063 m e um peso médio de 50 kg, com desvio
padrão igual a 6,0 kg. Qual a maior variabilidade relativa, a dos
pesos ou a das alturas?

Calculando o coeficiente de variação de Pearson para as
distribuições das alturas e dos pesos, respectivamente, obtemos
(0,063/1,14)  100% = 5,53% e (6/50)  100% = 12%, de onde
concluímos que os pesos têm maior variabilidade relativa que
as alturas.
Exemplo 8.5
Consideremos os seguintes dados, referentes às alturas

de um grupo de meninos e de um grupo de homens:
Grupo Média Desvio padrão
Meninos 50 cm 6 cm
Homens 160 cm 16 cm
Neste caso, que grupo tem maior variabilidade relativa?
Temos que (6/50)  100% =12% e (16/160)  100%= =

10% são os coeficientes de variação de Pearson para os grupos
dos meninos e dos homens, respectivamente, dos quais
concluímos que as alturas dos meninos têm maior variabilidade
relativa que a dos homens.

8.3 Esquema dos cinco números e Box-plot
Definindo Ei e Es, respectivamente, como os valores

extremos inferior e superior de um conjunto de dados, temos a
representação do esquema dos cinco números, que é dada por:
Md md
Q Q1 Q3
E Ei Es
Na figura seguinte, chamada de Box-plot, está traduzida

graficamente a informação dada pelo “Esquema dos cinco
números”:
Es
Q3
md
Q1
Ei

Observação: o Box-plot nos dá uma ideia da posição,
dispersão, assimetria e comprimento das caudas da distribuição
dos dados.
Exemplo 8.6
Considerando os dados do exemplo 7.1:
a) Esquema dos cinco números
Da distribuição desse exemplo já temos:
n=20; Ei=4; Es=8 e md=6,5.
Para os cálculos de Q1 e Q3 precisamos obter:
EQ1=20/4=5 e EQ3=3(20)/4=15.
Assim, pelas frequências acumuladas dadas no exemplo 7.5,

obtemos:
Q1=5 e Q3=7
Portanto, o “Esquema dos cinco números” ficará:
20
Md 6,5
Q 5 7
8
E 4

b) Box-plot
Através do Software “Statistica”, obtemos o Box-plot:
8,5
7,5
6,5
5,5
4,5 Max = 8,000000

Min = 4,000000
75% = 7,000000
25% = 5,000000
Median value:
3,5
Med = 6,500000
Problemas
3. Considerando as distribuições dos problemas 1 e 2

do capítulo anterior, qual delas apresenta maior variabilidade
relativa?
4. Considerando a distribuição do problema 2 do
capítulo 6 e a distribuição do exemplo 7.6, qual das duas tem
maior variabilidade relativa?
5. Construir o “Esquema dos cinco números” e o Box-
plot para os dados dos problemas 1 e 2 do capítulo anterior.

Capítulo 9
Testes de hipóteses: primeiras ideias
9.1 Hipótese estatística
Seja X uma variável aleatória e θ um parâmetro da

distribuição de X, na prática, normalmente ocorre que θ é
desconhecido. Este fato, então, faz com que procuremos
estimadores para θ, conforme comentamos anteriormente, além
de nos levar a definir hipóteses a respeito desse, de forma que,
baseada em uma amostra aleatória, a inferência estatística testa
qual das referidas hipóteses é ou não verdadeira. Assim,
podemos estar interessados em testar, por exemplo, se θ é igual
a um certo θ0, que é chamada de “hipótese nula” e que
usualmente representamos por H0, ou seja:
H0 : θ = θ0
A hipótese que será considerada como aceitável, caso

H0 seja rejeitada, chama-se de “hipótese alternativa”,
normalmente representada por H1, que poderá, nesse caso, ter
uma das seguintes formas:
H1 : θ < θ0 ; H1 : θ > θ0 ou H1 : θ  θ0

Observação: dizemos que um teste é bilateral quando a hipótese
alternativa é da forma H1 : θ  θ0 . Por outro lado, se essa hipótese
é dada por H1 : θ < θ0 ou H1 : θ > θ0, dizemos que o teste é
unilateral à esquerda ou à direita, conforme seja o caso.
9.2 Erros do tipo I e do tipo II
Ao realizarmos um teste de hipóteses estamos sujeitos a

cometer dois tipos de erros, a saber, o chamado erro do tipo I,
que consiste em rejeitar a hipótese nula quando essa é
verdadeira, e o erro do tipo II, que consiste em não rejeitar H0,
quando H0 é falsa. As probabilidades desses erros são,
portanto:
 = P(do erro tipo I) = P(rejeitar H0 H0 verdadeira) e
 = P(do erro tipo II) = P(não rejeitar H0 H0 é falsa)
sendo que  também é chamada de nível de significância do

teste.
Seria desejável, obviamente, que os valores de  e 

fossem ambos tão pequenos quanto possível. No entanto,
pode-se verificar que, ao diminuir-se o valor de um, o outro
aumenta. Assim, na prática, costuma-se arbitrar um valor para

o nível de significância, que usualmente é fixado em 0,01 ou
0,05.
9.3 Determinação da região de rejeição
Dada uma amostra aleatória, o que na realidade um

teste de hipótese faz é, baseado no valor de uma estatística T,
rejeitar ou não a hipótese nula, sendo esta hipótese rejeitada se
o valor de T pertencer a uma certa região, denominada de
região de rejeição, RR. Assim, podemos escrever a
probabilidade do erro tipo I como:
P(T  RR H0 é verdadeira) =  (9.1)
Consequentemente, para um valor fixo de  obtemos

por (9.1) a respectiva região de rejeição, ou seja, dessa forma
conseguimos a região que determina a rejeição de H0.
9.4 Passos para a construção de um teste de hipóteses
A seguir temos uma sequência que pode ser usada na

realização de qualquer teste de hipóteses:
Passo 1: fixar as hipóteses nula(H0) e alternativa (H1);
Passo 2: decidir qual estatística será usada para julgar a

hipótese nula;

Passo 3: fixar o nível de significância , usando-o em seguida
para definir a região de rejeição;
Passo 4: usar as informações da amostra para calcular o valor

da estatística citada no passo 2;
Passo 5: se o valor citado no passo anterior pertencer à região

de rejeição, rejeitar H0; caso contrário, não rejeitar.
Veremos a seguir exemplos para testar a hipótese de

que a proporção p de uma população seja igual a um certo
valor fixado p0. Também testaremos a hipótese de que a média
populacional  seja igual a um certo valor 0, supondo-se
conhecida a variância populacional.
Exemplo 9.1
Um candidato Y a prefeito de certa cidade afirma que

60% dos eleitores são favoráveis à sua candidatura. Um outro
candidato, no entanto, deseja contestar essa afirmação, e para
isto, contratou uma pesquisa de opinião, na qual o instituto
contratado usou uma amostra de 200 eleitores. Constatado que
dos eleitores entrevistados 110 eram favoráveis ao candidato
Y, pode-se acreditar, ao nível de 5%, que Y tem realmente 60%
da preferência dos eleitores?

Passo 1: colocaremos à prova a afirmação do candidato Y, isto
é, H0: p=0,60, sendo p a proporção de eleitores favoráveis a Y.
Sabemos que se esta hipótese não for verdadeira o outro
candidato espera uma porcentagem menor, nunca maior.
Portanto, a hipótese alternativa, neste caso, é dada por
H1 : p <0,60, ou seja, o teste é unilateral à esquerda.
Passo 2: a estatística a ser usada aqui é:
Pˆ  p
Z
p(1  p )
200
sendo P̂ a proporção dos 200 eleitores que são favoráveis ao

candidato Y e, conforme já sabemos, P̂ tem distribuição
p(1  p)
aproximadamente N(p; ) , significando dizer que a
200
distribuição de Z se aproxima de uma N(0;1).
Passo 3: fixando  = 5%, e sendo este um teste unilateral à

esquerda, temos:
0,05 = P(Rejeitar H0  H0 é Verdadeira) =
= P(Z < z0  p = 0,60)

do qual obtemos, através da tabela da normal padrão, que z0=-
1,65, ou seja, neste caso a região de rejeição é definida pelo
conjunto dos valores da normal padrão menores que -1,65.
Passo 4: dado que 110 dos eleitores entrevistados eram

favoráveis a Y temos que a proporção amostral fica:
110
P̂   0,55. Assim, o valor da estatística do teste para os
200
dados observados, e considerando H0 verdadeira, será:
0,55  0,60
Z  1,445
0,0346
Passo 5: do resultado anterior vemos que o valor observado de

Z não pertence à região de rejeição. Portanto, não temos
motivo para rejeitar a hipótese nula, isto é, há evidências de
que o candidato Y tem realmente 60% da preferência do
eleitorado.
Exemplo 9.2
Uma senhora Y afirma possuir percepção

extrassensorial. Para testar tal capacidade foi pedida a
participação de pessoas presentes para a realização de um
experimento, sendo que cada repetição consistia no seguinte:
um dos presentes pegava uma carta preta e uma branca,

segurando uma em cada mão, de forma que a senhora Y só
podia ver as costas das cartas. Em seguida, pedia-se à referida
senhora para identificar em que mão estava cada uma das
cartas. O experimento foi repetido 40 vezes e, dessas, a senhora
Y acertou 27 e errou 13. Baseando-se neste experimento
podemos afirmar, ao nível de 1,0%, que essa senhora tem
realmente percepção extrassensorial ou devemos concluir o
contrário, ou seja, que ela simplesmente adivinhou?
Nesse caso estamos interessados em testar a hipótese de

que a senhora Y está simplesmente adivinhando, o que
significa testar se a proporção p de acertos é igual a 0,5. Um
valor de p maior que 0,5 indicará, então, que a senhora Y
possui percepção extrassensorial. Assim, seguindo os passos
para a construção de um teste de hipóteses, teremos:
Passo 1: de acordo com o que citamos anteriormente, para esse

teste a hipótese nula é H0: p = 0,5, e a alternativa será H1: p>0,5,
ou seja, teremos aqui um teste unilateral à direita. No caso de H0
não ser verdadeira espera-se uma proporção de acertos maior
que 0,5, dada a afirmação da senhora Y de que possui percepção
extrassensorial.

Passo 2: a estatística desse teste é:
Pˆ  p
Z
p(1  p )
40
sendo P̂ a proporção de acertos da senhora Y nas 40
realizações do experimento. Novamente temos que P̂ possui
p(1  p)
distribuição aproximadamente N(p; ) , ou seja, a
40
estatística Z se distribui segundo uma N(0;1), também de forma
aproximada.
Passo 3: fixando  = 1,0% e sendo esse um teste unilateral à
direita, temos:
0,01 = P(rejeitar H0 H0 é verdadeira) =
= P(Z > z0  p = 0,50 )
Dessa forma, obtemos da tabela da normal padrão que z0=2,33,

ou seja, a região de rejeição é definida pelo conjunto dos
valores da normal padrão maiores que 2,33.
Passo 4: dado que a senhora Y acertou 27 das 40 repetições do

experimento então o valor da proporção amostral é P̂
=27/40=0,675. Consequentemente, supondo H0 verdadeira:
0,675  0,5
Z  2,215
0,079

Passo 5: como o valor observado de Z não pertence à região de
rejeição, não rejeitamos H0. Isto é, ao nível de 1,0%, não
rejeitamos a hipótese de que a senhora Y estava simplesmente
adivinhando.
Exemplo 9.3
Para uma população de crianças com igual idade

cronológica, deseja-se testar a hipótese de que a média
populacional de seus QIs difere de 100. Para isto, aplicou-se o
teste de Binet-Terman a uma amostra de 2970 crianças,
obtendo-se um QI médio igual a 102. Supondo-se que o desvio
padrão da população é conhecido e igual a 17,03, pode-se
afirmar, ao nível de 5%, que difere de 100 o QI médio da
população dessas crianças?
Passo 1: considerando  o QI médio da população dessas

crianças, nossa hipótese nula é H0:  = 100 e a alternativa
H1:   100.
Passo 2: a estatística para este teste é:
X X
Z 
17,03 0,3125
2970
sendo a distribuição de Z aproximadamente N (0;1).

Passo 3: fixado  = 5,0%, e sendo esse um teste bilateral,
temos:
0,05 = P(Z < - z0 ou Z > z0   = 100 ) =
= P(Z < - z0   = 100 ) + P(Z > z0   = 100 ) =
= 2 P(Z > z0   = 100 ) 
0,05
 P(Z > z0   = 100 )   0,025
2
Assim, da tabela da normal padrão obtemos z0=1,96, ou seja, a

região de rejeição fica definida pelo conjunto dos valores da
normal padrão menores que –1,96 ou maiores que 1,96.
Passo 4: pelos dados do problema temos que o valor da média

amostral é X = 102. Logo, supondo H0 verdadeira:
102  100
Z  6,4
0,3125
Passo 5: como o valor de Z pertence à região de rejeição,

rejeitamos H0, isto é, não aceitamos a hipótese de que o QI
médio da população das crianças seja igual a 100.

Problemas
1. Para cada uma das hipóteses a seguir definir a região

de rejeição correspondente, supondo-se para isto um nível de
significância igual a 1%.
(a) H0: P=0,5 contra H1: P<0,5
(b) H0: P=0,5 contra H1: P>0,5
(c) H0: P=0,5 contra H1: P0,5
2. Os novos operários de uma empresa são treinados a
operar uma máquina, e o tempo X (em horas) de aprendizado é
anotado. Admite-se que X tem distribuição N(25;100). Uma
nova técnica de ensino, que deve melhorar o tempo de
aprendizado, foi testada em 16 novos empregados, os quais
apresentaram 22,3 horas como tempo médio de aprendizado.
Você diria, ao nível de 5%, que a nova técnica é melhor do que
a anterior?
3. As estatísticas mostram que, aproximadamente, 40%
dos candidatos aos cursos de psicologia de certo país
conseguem ser admitidos. Uma escola superior bastante
conhecida informa, no entanto, que de seus 43 candidatos ao
curso de psicologia, neste último ano, 30 foram admitidos.
Você acha, ao nível de 1%, que essa escola tem razões para

afirmar que a proporção de candidatos admitidos para seu
curso de psicologia é maior do que a nacional?
4. Os produtores de um programa de televisão
pretendem modificá-lo se o mesmo for assistido regularmente
por menos de um quarto dos telespectadores. Uma pesquisa
encomendada a uma empresa especializada mostrou que, de
400 famílias entrevistadas, 70 assistem ao programa
regularmente. Baseando-se nos dados, qual deve ser, ao nível
de 1%, a decisão dos produtores?
5. O salário médio dos empregados das indústrias
siderúrgicas é de 2,5 salários mínimos, com um desvio padrão
de 0,5 salários mínimos. Em uma firma de 1500 empregados,
consultou-se 49 e obteve-se um salário médio de 2,1 salários
mínimos. Pode-se concluir que esta firma paga salários
inferiores? Use  = 5%.
6. Uma companhia de cigarros anuncia que o índice
médio de nicotina dos cigarros que fabrica apresenta-se abaixo
de 23 mg por cigarro. Um laboratório realiza 6 análises desse
índice, obtendo: 27, 24, 21, 25, 26, 22. Sabendo-se que o índice
de nicotina se distribui normalmente, com variância igual a
4,86 mg2, pode-se aceitar, ao nível de 5%, a afirmação do
fabricante?

7. Sabe-se que os calouros admitidos nos cursos de
matemática de todas as universidades de certo país apresentam,
num teste vocacional, uma nota média igual a 115 e o desvio
padrão igual a 20. O curso de matemática de uma universidade
Y desse país está interessado em saber se seus calouros são
típicos com relação à vocação. Para isto aplicou o mesmo teste
vocacional na sua última turma de 40 calouros e obteve uma
nota média igual a 118. Baseando-se nessa turma podemos
afirmar, ao nível de 5%, que os alunos de matemática da
universidade Y são típicos com relação à vocação?
8. Numa universidade X deseja-se testar se é diferente
de 50% a proporção de alunos com QI acima de 110. Para isto
colheu-se uma amostra de 60 alunos e obteve-se que 41 destes
tinham QI acima de 110. Com base nesta amostra podemos
acreditar, ao nível de 1%, que não é de 50% a proporção de
alunos com QI acima de 110?

Capítulo 10
Regressão linear simples
10.1 Relação entre variáveis
a) Uma relação funcional entre duas variáveis é dada

por:
Y = f(X)
de forma que, para um particular valor da variável

independente X, a função f indica o valor da variável
dependente Y. Se Y = aX+b, por exemplo:
então, nesse caso, todos os pontos estão sobre a reta.

b) Em uma relação estatística (ou modelo estatístico),
no entanto, os pontos não estão necessariamente sobre a curva
da relação, conforme ilustramos a seguir:
10.2 Modelo de regressão linear simples
Quando se tem uma única variável independente

(variável X) e o modelo estatístico da forma:
Yi = 0 + 1Xi + i , (10.1)
sendo:
Yi : variável resposta (dependente);

Xi: valor préfixado(não é variável aleatória);
0 e 1 : parâmetros;
i : é um erro aleatório, com E(i) = 0,

Var (i) =  ,
2
para i=1,2, ...,n e Cov(i , j) = 0,  i  j, e

usando-se a suposição de que a distribuição de i é normal, ou
seja, trabalhando-se com a hipótese de que a distribuição de i
é N(0, 2),  i, então nesse caso diz-se que o modelo (10.1)
é de regressão linear simples, com erros normalmente
distribuídos.
No modelo de regressão linear simples temos:
a) O valor esperado de Y é chamado de função de regressão,

sendo:
E(Yi)= E(0 + 1Xi + i) = 0 + 1Xi ;
b) Var(Yi) = Var(0 + 1Xi + i) = Var(i) = 2 ;
c) Cov(Yi , Yj) = 0,  i  j, visto que i e j são não

correlacionadas, para todo i  j ;
d) O parâmetro 1 significa em quanto muda E(Y), para cada

unidade que se acrescenta em X.
10.3 Método de mínimos quadrados
Para determinar estimadores para 0 e 1, normalmente

emprega-se o método de mínimos quadrados, que considera a
soma dos quadrados dos desvios de Y com relação ao seu valor
esperado:

Q   εi2   Yi  (β0  β1Xi ) .
2
(10.2)
i
Sendo que, de acordo com esse método, os estimadores de 0 e

1 são os valores que minimizam Q.
10.4 Estimadores de mínimos quadrados
Derivando Q com relação a 0 e 1, obtemos:
Q
n
0 i 1

 2 (Yi  β0  β1Xi ) ;
Q
n
1
 2
i 1

Xi (Yi  β 0  β1Xi ) .
Fazendo as equações anteriores iguais a zero e usando b0 e

b1 como os valores de 0 e 1 que minimizam Q, obteremos:
n
2  (Y  b
i 1
i 0  b1Xi )  0 ;
n
2  X (Y  b
i 1
i i 0  b1Xi )  0 .
Desenvolvendo, temos:

n n
i 1
Yi  nb0  b1 X
i 1
i  0; (10.3)
n n n
i 1
Xi Yi  b0  i 1
Xi  b1 X
i 1
i
2
 0. (10.4)
As equações (10.3) e (10.4) são então chamadas de

equações normais e b0 e b1 são os estimadores de mínimos
quadrados de 0 e 1, respectivamente.
De (10.3) e (10.4) podemos diretamente obter b0 e b1,

sendo:
n n
n 
( Xi ) (  Y) i n __ __
 Xi Yi  i 1
n
i 1
 (Xi  X ) (Yi  Y )
b1  i 1
 i 1
;(10.5)
n n __
(  Xi )2  (Xi  X )2
 Xi 
2 i 1
n
i 1
1 n n __ __
b0  (
n i 1 
Yi  b1  X )  Y b
i 1
i 1 X. (10.6)
Observação: costuma-se escrever:

Y  b0  b1X ,

que é o estimador de mínimos quadrados da função de
regressão E(Y) = 0 + 1X.
Exemplo 10.1
Um psicólogo estava investigando a relação entre o

tempo que um indivíduo leva para reagir a certo estímulo e a
idade dele. Definiu-se então Y = tempo de reação e X = idade,
obtendo-se os seguintes resultados, para uma amostra de 20
indivíduos.
Y X Y X
96 20 109 30
92 20 100 30
106 20 112 35
100 20 105 35
98 25 118 35
104 25 108 35
110 25 113 40
101 25 112 40
116 30 127 40
106 30 117 40

Nesse caso:
(600) (2.150)
65.400 
b1  20  0,90 ;
(600)2
19.000 
20
1
b0  (2.150  (0,90) (600))  80,5 .
20
Assim:

Y  80,5  0,90Xi
ou seja, estimamos que o tempo médio de reação cresce 0,90

para cada aumento de um ano na idade do indivíduo.
10.5 Resíduos
Definimos o resíduo para uma dada observação como a

diferença entre o valor observado e o valor estimado, ou seja,
denotando o i-ésimo resíduo por ei, temos:

ei  Yi  Y i  Yi  b0  b1Xi .

Exemplo 10.2
Considerando os dados do exemplo anterior, obtemos:
 
Y Yi ei Y Yi ei
96 98,5 -2,5 109 107,5 1,5
92 98,5 -6,5 100 107,5 -7,5
106 98,5 7,5 112 112,0 0,0
100 98,5 1,5 105 112,0 -7,0
98 103,0 -5,0 118 112,0 6,0
104 103,0 1,0 108 112,0 -4,0
110 103,0 7,0 113 116,5 -3,5
101 103,0 -2,0 112 116,5 -4,5
116 107,5 8,5 127 116,5 10,5
106 107,5 -1,5 117 116,5 0,5
Observação: os resíduos são importantes para verificar se um

modelo de regressão é apropriado para os dados que se tem em
mãos (mais adiante trataremos deste assunto).

10.6 Algumas propriedades da regressão linear, ajustada
pelo método de mínimos quadrados
1. A soma dos resíduos é zero:
n n n n

i1
ei  i1
(Yi  b0  b1Xi )  
i1
Yi  nb0  b1 X
i1
i  0,
pela equação (10.3)
2. A soma dos valores observados da variável dependente (Y)


é igual à soma dos valores ajustados ( Y ), isto é, também
pela equação (10.3):
n n
i 1
Yi  nb 0  b 1 X
i 1
i
n n
 
i 1
b0  b1 X
i 1
i
n
  (b
i 1
0  b1Xi )
n ^
 Y
i 1
i .
__ __
3. A regressão linear ajustada passa pelo ponto ( X, Y ), pois:
^ __ __ __ __
Y  b0  b1X  Y  b1 X  b1X  Y  b1(X  X ) .

4. A soma dos resíduos ponderados pelos níveis da variável
independente é zero, ou seja:
n n 
 Xe
i 1
i i   X (Y  Y )
i 1
i i i
n
  X (Y  b
i 1
i i 0  b1Xi )
n n n
 i 1
Xi Yi  b0 
i 1
Xi  b1 X
i 1
2
i 0
(pela equação normal (10.4)).
5. A soma dos resíduos ponderados pelos valores ajustados

também é zero, isto é:
n  n
i 1
Y i ei   (b
i 1
0  b1Xi ) ei
n n
 b0  i 1
ei  b1 Xe i 1
i i  0.

10.7 Inferências sobre 1
Para o modelo de regressão linear simples,

Yi  βo  β1Xi  i , mostra-se que b1 tem distribuição normal
com média e variância dadas por:

2
E(b1)= 1 (b1 é não viciado) e Varb1   n .
__

i 1
(Xi  X )2
10.8 Estimador da variância de b1
De acordo com a definição do i-ésimo resíduo, temos a

soma dos quadrados residuais (ou soma de quadrados dos
erros):
n  n
SQ E   i 1
(Yi  Yi )2   (Y  b
i 1
i 0  b1Xi )2 . (10.7)
Dividindo SQE por n-2 (que são seus graus de

liberdade), obtemos o chamado quadrado médio residual (ou
quadrado médio do erro):
SQE
QME  . (10.8)
n2

Mais adiante mostraremos que QME é um estimador
não viciado de 2, ou seja, E(QME) = 2. Desta forma obtemos
um estimador não viciado para a variância de b1, a saber:
Q ME
S2 b1   n . (10.9)
__
 (X
i 1
i  X) 2
10.9 Intervalo de confiança para 1
Facilmente mostra-se que a distribuição de (b1-1)/S(b1) é

uma t de Student com n-2 graus de liberdade. Assim, para t0 o valor
real, tal que P(t(n-2) > t0) = /2, tem-se:
b1  1
P(t0   t0 )  1   
s(b1 )
P(t0S(b1 )  b1  1  t0S(b1 ))  1   ,
ou seja, obtém-se então que b1  t0 S (b1 ) ; b1  t0 S (b1 ) é um
intervalo de confiança para 1 com coeficiente de confiança

1 - .

Observação: como já sabemos, para o cálculo de S2(b1)
precisamos de SQE, sendo que esta soma pode ser dada por
uma das três seguintes fórmulas:
SQE  Y i
2
 b0 Y  b XY .
i 1 i i (10.10)
__ __
SQ E   (Y  Y )
__
2

[  (X  X) (Y  Y )]
i i
2
. (10.11)
i __
 (X  X ) i
2
 X ) ( Y ) 
2
 (
XY 
i i


 Yi )2   n
i i
( 

SQ E  

Y i
2

n

 X)
( 2
. (10.12)
 
X
i
2

n
i
de forma que, no caso em que já se conheça b0 e b1, a fórmula

(10.10) é obviamente a mais indicada para este cálculo.
Exemplo 10.3
Considerando o exemplo 10.1, do qual já conhecemos b0 e b1,

teremos:
SQE = 232.498-80,5(2150)-0,90(65.400) = 563.

__
Temos também que  (X  X )i
2
 1.000. Assim:
563
S2 (b1 )  18  0,0313  Sb1   0,177.
1.000
Para 1- = 0,95 obtemos, pela tabela da distribuição t, que t0

=2,101. Portanto:
b1  t0 S (b1 )  0,90  (2,101)(0,177)  (0,53 ; 1,27) .
10.10 Teste sobre 1
Para verificar se não existe relação linear entre X e Y,

testamos:
H0: 1 = 0
H1: 1  0
De forma que não rejeitar H0 significa não existir relação linear

entre X e Y. Nesse caso, temos que a estatística do teste é:
b1
t  . (10.13)
S(b1 )

cuja distribuição é uma t de Student com n-2 graus de
liberdade, supondo H0 verdadeira.
Considerando novamente o exemplo 10.1, teremos:
0,90
tc   5,1 .
0,177
Portanto, como tc  2,101, rejeitamos H0 nesse caso, ou seja,

há evidências de que existe relação linear entre X e Y.
10.11 Inferências sobre 0
Para o modelo de regressão linear simples Yi = 0 +

__ __
1Xi +i, temos que a distribuição de b 0  Y  b1 X é normal
com média 0 (b0 é não viciado), e a variância é dada por:
 
 __ 2 
2 1 X 
Var(b0 )   
n n __ . (10.14)



i 1
2
(Xi  X ) 


De imediato, então, concluímos que:
 __ 2

1 X 
S 2 (b0 )  QME   n  , (10.15)
n 2
__
 i 1
(Xi  X )

é um estimador não viciado de var(b0).
10.12 Intervalo de confiança para 0
Analogamente ao que vimos para b1, temos que a

distribuição de (b0 - 0)/S(b0) é uma t de Student com n-2 graus
de liberdade. Consequentemente, se t0 é o valor da distribuição

t, tal que P(t(n2)  t0 )  , então:
2
(b0  t0 S (b0 ) ; b0  t0 S (b0 ))
será um intervalo de confiança para 0, com coeficiente de

confiança 1 - . Da mesma forma, temos que t = b0/S(b0) é a
estatística para testar:
H0: 0 = 0
H1: 0  0

cuja distribuição também é uma t de Student com n-2 graus de
liberdade, quando H0 é verdadeira.
10.13 Predições
Para os elementos pertencentes à amostra, usamos até

agora o índice i. Introduziremos, no entanto, um outro índice h
para nos referirmos aos valores que pertençam ou não à
 
amostra. Assim Yh  b0  b1Xh , do qual verificamos que Y h
tem distribuição normal e também podemos mostrar que seu
valor esperado e sua variância são dados por:

E(Yh )  E(Yh) . (10.16)
__

1 2 (Xh  X )2
Var(Y h )   (  n
). (10.17)
n __

i 1
(Xi  X ) 2
Substituindo então 2 por QME obtemos um estimador


não viciado de Var(Y h ) :
__
2

1 (Xh  X )2
S (Y h )  Q ME(  n
). (10.18)
n __
 (X
i 1
i  X) 2

10.14 Intervalo de confiança para E(Yh)
 
Não é difícil mostrar que [Yh  E(Yh )] / S(Yh ) tem
distribuição t de Student com n-2 graus de liberdade. Dessa
forma, considerando t0 como o valor da distribuição t, tal que

P(t(n2)  t0 )  , temos que:
2
   
[Yh  t0S(Yh ) ; Yh  t0S(Yh )] ,
é um intervalo de confiança para E(Yh), com coeficiente de

confiança 1-.
10.15 Intervalo de predição para uma nova observação
Representando por Yh(novo) uma nova observação de Y,

para o nível Xh de X, e pelo fato da independência entre Yh(novo)
e as observações da amostra, temos:
 
Var (Yh (novo)  Yh )  Var (Yh (novo) )  Var (Yh ) 
__ __
2 1 (Xh  X )2
2 2 1 (Xh  X )2
 [  __
]   [1   __
].
n n

(Xi  X )2

(Xi  X )2

Consequentemente, um estimador não viciado para

Var (Yh (novo)  Yh ) será:
__
2
 1 (Xh  X )2
S (Yh(novo)  Y h )  QME [1   __
].
n
(Xi  X )2

No caso do modelo de Regressão Linear Simples
pode-se mostrar que a distribuição de:

Yh ( novo)  Y h
 ,
S (Yh ( novo)  Y h )
é uma t de Student com n-2 graus de liberdade. Assim,
considerando-se novamente t0 como o valor da distribuição t,

tal que P[t(n2)  t0 ]  , tem-se, portanto, que o intervalo de
2
predição para Yh(novo) será dado por:
 
Y h  t0 S (Yh ( novo)  Y h ).
Exemplo 10.4
Com relação ainda ao exemplo 10.1 e considerando

uma idade de 45 anos, teremos:


S 2 (Y45(novo)  Y 45 ) 
563 
1 
1

45  302   39,822 
 
18  20 1000 

S(Y45(novo)  Y 45 )  6,315
Temos também:

Y 45  80,5  (0,90)(45)  121 .
Para 1 - = 0,95, obtemos t0 = 2,101. Assim:

 
[Y 45  t0 S (Y45( novo )  Y 45 )]  [121  2,101 6,315]  (107, 73 ; 134, 27)
é o intervalo de predição para Y45 ( novo) , com 95% de confiança.
10.16 Partição da soma de quadrados total

A variação de Yi é convencionalmente definida por
__
Yi  Y , de forma que a medida de variação total é dada pela
soma de quadrados:
n __ n __ 2
SQT   (Yi  Y ) 2   Yi 2  nY , (10.19)
i 1 i 1
que é denominada de soma de quadrados total.

A variação de Yi em torno da reta de regressão é dada

por Yi  Yi , de forma que a medida desses desvios é
denominada de soma de quadrados dos erros. Conforme vimos
antes é definida por:
n 
SQ E   (Y  Y )
i 1
i i
2
. (10.20)
Finalmente, para medir a variação dos valores ajustados

em torno da média das observações, temos a soma de
quadrados da regressão:
n  __
SQ R   (Y  Y )
i 1
i
2
. (10.21)
Na figura seguinte ilustramos a partição da variação de

Yi:

__
de forma que o desvio Yi  Y pode ser visto como a soma dos
  __
componentes Yi  Y i e Yi  Y , ou seja:
__   __
(Yi  Y )  (Yi  Yi )  (Yi  Y ) . (10.22)
Temos também que as somas de quadrados seguem a

mesma relação de (10.22), isto é:
n 2 n n
__   __

i 1
(Yi  Y )  
i 1
(Yi  Yi )2  
i 1
(Y i  Y )2 , (10.23)
pois:
n 2 n
__  __ 

i 1
(Yi  Y )   [(Y  Y )  (Y
i 1
i i  Yi )]2
n  __  __  
  [(Y  Y )
i 1
i
2
 2(Y i  Y ) (Yi  Y i )  (Yi  Y i )2 ]
n  __ n  n  __ 
 
i1
(Y i  Y )2   i1
(Yi  Y i )2  2  ( Y  Y ) (Y  Y ) ,
i1
i i i
sendo:
n  __  n   __ n 
 (Y  Y ) (Y  Y )   Y (Y  Y )  Y  (Y  Y )
i 1
i i i
i 1
i i i
i 1
i i
n  __ n
 
i1
Y i ei  Y e
i1
i  0.

Dessa forma, está verificado o que afirmamos
anteriormente, ou seja:
SQT  SQE  SQR (10.24)
10.17 Graus de liberdade
Este número indica quantas partes envolvendo as n

observações Y1, Y2, ..., Yn é preciso conhecer para determinar
a soma de quadrados. Assim, a soma de quadrados total tem
n __
n-1 graus de liberdade, visto que 
i 1
(Yi  Y )  0,
significando, portanto, que se conhecendo n-1 das partes

__ __ __
Y1  Y , Y2  Y , ..., Yn  Y a outra estará conhecida.
De acordo com o que foi visto anteriormente

n  n 
 (Y  Y )  0
i 1
i e  X (Y  Y
i 1
i i i )  0. Logo, conhecendo-se
  
n-2 das partes Y1  Y1 , Y2  Y2 , ..., Yn  Yn , as outras duas
estarão imediatamente determinadas. Portanto, conclui-se que a
soma de quadrados do erro tem n-2 graus de liberdade.

Por outro lado, pode-se verificar que
__
SQ R  b12  (X i  X )2 . Assim, observa-se que essa soma
de quadrados depende de uma única função de Y 1 , Y 2 , ...,

Yn , que é b 1 . Dessa forma, conclui-se que SQR tem um
grau de liberdade.
Observação: nesse caso temos que os graus de liberdade são

aditivos, pois:
(n-1)=(n-2)+1.
10.18 Quadrado médio
Dividindo-se a soma de quadrados pelo respectivo

número de graus de liberdade obtém-se o chamado quadrado
médio, ou seja, QME=SQE/(n-2) e QMR=SQR, sendo que
QME e QMR denotam o quadrado médio do erro e o quadrado
médio da regressão, respectivamente.

10.19 Tabela de análise de variância
A tabela seguinte apresenta a partição da soma de

quadrados total e dos seus graus de liberdade, sendo então
definida como tabela de análise de variância.
Fonte de Somas de Graus de Quadrados

variação quadrados liberdade médios
Regressão SQR 1 QMR
Erro SQE n–2 QME
Total SQT n–1
Considerando novamente o exemplo 10.1, temos:

n __ 2
SQT  Y
i 1
i
2
nY ,
SQT  232.498  (20)(107,5)2  1.373 .
No exemplo 10.3 obtivemos SQE = 563. Assim:
SQR = SQT–SQE,
SQR = 1.373–563 = 810.

Dessa forma:
Fonte de Somas de Graus de Quadrados

variação quadrados liberdade médios
Regressão 810 1 810
Erro 563 18 31,28
Total 1.373 19
10.20 O coeficiente de determinação
Um valor que mede o efeito da variável independente X

na variação de Y é o chamado coeficiente de determinação, que
é definido por:
SQT  SQE SQR

r2   , (10.25)
SQT SQT
sendo que SQT mede a variação de Y , independente de X, e

SQE mede a variação de Y, considerando a variável X no
modelo de regressão.

Observações:
1) Como 0  SQE  SQT , então 0  r2  1 .

2) Se todas as observações caem na reta ajustada então
SQE=0 e, consequentemente, r2=1. Neste caso, a variável X
explica toda variação nas observações Y.
 __
3) Se b1=0, então Y  Y , portanto SQE=SQT e,
consequentemente, r2=0, significando que X não influi na
redução da variação de Y.
4) A SQE é chamada de “variação não explicada”, enquanto

que SQR é denominada de “variação explicada pela
equação de regressão”. Assim, costuma-se interpretar r2
como a proporção da variação total de Y, que é explicada
por X, segundo o modelo de regressão considerado.
5) A raiz quadrada de r2 é o coeficiente de correlação

amostral:
r   r2 ,
de forma que a variação desse coeficiente é:
1  r  1 ,
com o sinal correspondendo ao sinal de b1 (coeficiente
angular da reta estimada).

6) Pode-se verificar que o coeficiente de correlação amostral
também pode ser obtido diretamente por:
n __ __
 ( Xi  X ) (Yi  Y )
r n
i1
__ n __ 1
=
[ ( Xi  X ) 2
 (Y  Y ) ]i
2 2
i1 i1
n n
n
( Xi ) ( Yi )
XY  i i
i1
n
i 1
 i1
n n
(10.26)
( Xi ) 2
( Yi ) 2
1
[( Xi  2 i1
)( Yi  2 i1
)] 2
n n
Exemplo 10.5
Ainda com relação ao exemplo 10.1, temos:

810
r2   0,59 .
1.373

10.21 Análise de adequação do modelo
Usamos gráficos de resíduos para examinar, de maneira

informal, alguns problemas que podem ser detectados no ajuste
de um modelo de regressão linear, como:
a) A função de regressão não é linear;

b) Os erros não têm variância constante;
c) Presença de observações muito distanciadas
das demais (outliers);
d) Os erros não são normalmente distribuídos.
a) A função de regressão não é linear
No caso do modelo linear ser apropriado para os dados,

o gráfico dos resíduos contra a variável independente X
apresenta o seguinte aspecto:

Para mostrar um exemplo em que o modelo linear não é
adequado, consideremos o seguinte conjunto de dados:
^
Y
Y X e
0,60 80 1,66 -1,06
6,70 220 7,75 -1,05
5,30 140 4,27 1,03
4,00 120 3,40 0,60
6,55 180 6,01 0,54
2,15 100 2,53 -0,38
6,60 200 6,88 -0,28
5,75 160 5,14 0,61
sendo:

Y  1,82  0,0435X .

Nesse caso:
Conforme vemos, a função de regressão linear não é adequada

para esses dados, pois os resíduos não distribuem-se
aleatoriamente em torno do zero.

b) Os erros não têm variância constante
Se a variância dos erros aumenta quando os valores de

X crescem, então o gráfico dos resíduos contra a variável
independente X apresenta-se com o seguinte aspecto:
Observações:
1. Obtém-se um comportamento análogo no gráfico dos


resíduos contra os valores ajustados Y, sendo que, no caso da
função de regressão não ser linear, ou quando se tem um
modelo de regressão múltipla, necessariamente usa-se este
último;

2. Equivalentemente, é possível encontrar a variância dos erros
decrescendo, quando X cresce, ou variando de alguma maneira,
ou seja, pode-se ter a variância dos erros não constante também
em casos em que o gráfico dos resíduos tem formas tais como:
c) Presença de outliers
Se diz que di  ei / QME é o i-ésimo resíduo

padronizado pelo desvio padrão, dado que o QME é uma
variância amostral dos resíduos, isto é:
 (e i  e)2

e
2
i

SQ E
 QME .
n2 n2 n2

Portanto consideraremos o gráfico de resíduos
padronizados contra a variável independente para verificar se
algum ponto está a uma distância do zero superior a três. Essa é
uma das maneiras, entre várias outras existentes, de classificar
uma observação como outlier. Para exemplificar, vejamos o
gráfico a seguir, no qual o ponto circulado é tratado como
outlier, pois a distância entre ele e o zero é maior que três.
Observações:
1. A presença de um outlier causa prejuízos para o ajuste de

uma reta de regressão porque, pelo método de mínimos
quadrados, a reta ajustada é puxada desproporcionalmente para
esse ponto;

2. Um outlier pode, no entanto, conter significativas
informações, de forma que a simples exclusão desse ponto
poderia causar considerável perda para o ajuste, ou seja, a
retirada de outliers do conjunto dos dados só é recomendada
quando se tem a certeza de que eles são resultados de “erros
grosseiros" na fase da amostragem.
d) Normalidade da distribuição dos erros
Através do “papel de probabilidade normal", que é um

papel em que uma das escalas está subdividida conforme as
probabilidades acumuladas de uma distribuição normal, pode-
se, de uma forma prática, verificar se a distribuição dos dados
foge muito de uma normal ou não. Para isto, calculam-se as
frequências relativas acumuladas dos dados e faz-se um plot
destas frequências contra as probabilidades acumuladas do
"papel de probabilidade normal", de forma que, no caso em que
os dados venham de uma distribuição normal, esse plot será
aproximadamente uma reta.

Para fixar a ideia, consideremos o seguinte conjunto de
dados:
X Y X Y
15,50 2158,70 13,00 2165,20
23,75 1678,15 3,75 2399,55
8,00 2316,00 25,00 1779,80
17,00 2061,30 9,75 2336,75
5,50 2207,50 22,00 1765,30
19,00 1708,30 18,00 2053,50
24,00 1784,70 6,00 2414,40
2,50 2575,00 12,50 2200,50
7,50 2357,90 2,00 2654,20
11,00 2256,70 21,50 1753,70
Admitindo o modelo Yi  0  1Xi  i , obtemos:

Y i  2627,82  37,15 Xi ,
cujo plot da probabilidade normal dos resíduos desse ajuste,

obtido através do pacote computacional Statística, é o seguinte:

Vemos que o plot apresentado é aproximadamente uma
reta e, sendo esse equivalente ao plot obtido através do “papel
de probabilidade normal” então não temos motivo para rejeitar
a hipótese de que os erros nesse caso têm distribuição normal.
Observação: pode-se também verificar informalmente a
normalidade da distribuição dos erros por outros métodos
práticos, como a análise do histograma dos resíduos ou
observando simplesmente se cerca de 68% dos desvios
padronizados caem entre –1 e +1, ou se aproximadamente 90%
deles caem entre -1,64 e 1,64.

Problemas
1. Uma substância usada em pesquisas biológicas é embalada

em caixas de 1000 ampolas e embarcada em transporte aéreo.
Os dados seguintes referem-se ao número de vezes que a caixa
é transferida de um transporte para outro durante a viagem (X)
e o número de ampolas quebradas encontradas na chegada (Y).
Observação 1 2 3 4 5 6 7 8
X 2 1 3 1 4 2 1 2
Y 16 9 17 12 22 13 8 15
Considerando-se um modelo de regressão linear simples:
a) Obtenha a função de regressão estimada;

b) Calcule os resíduos e verifique se a soma deles é zero,
conforme a propriedade vista anteriormente;
c) Obtenha uma estimativa para 2.
2. Experiências com um certo tipo de plástico indicam que

existe relação entre a dureza dos itens que modelam o plástico

(Y) e o tempo decorrido depois da conclusão do processo de
modelagem (X). Doze fornadas do plástico foram feitas e em
cada uma realizou-se um teste para verificar a dureza. Os
resultados estão a seguir, sendo X o tempo em horas e Y a
dureza (medida em brinell unidades).
Obs 1 2 3 4 5 6 7 8 9 10 11 12
X 32 48 72 64 48 16 40 48 48 24 80 56
Y 22 26 32 29 25 19 23 27 26 21 36 30
0 2 3 8 5 9 6 9 7 4 9 5
Considerando um modelo de regressão linear simples:

b) Determine:
I. A estimativa da mudança na resposta média quando o

tempo é aumentado em uma hora;
II. A estimativa da resposta média quando X = 40;

III. Uma estimativa para 2.

3. Testar a não existência de relação linear entre X e Y, para os
problemas 1 e 2.
4. Construir intervalos de confiança para 0 e para 1, ao nível

de 95%, para os problemas 1 e 2.
5. Considerando o exercício 1, construir um intervalo de

predição, ao nível de 95%, para o número de ampolas
quebradas encontradas na chegada, quando a caixa for
transferida de um transporte para o outro num total de 10
vezes.
6. Com relação ao exercício 2, construir um intervalo de

confiança para a dureza média dos itens, ao nível de 95%,
quando o tempo decorrido depois da conclusão do processo for
igual a 10,7.
7. Ainda com relação ao exercício 2, construir um intervalo de

predição, ao nível de 95%, para a dureza dos itens, quando o
tempo decorrido depois da conclusão do processo for igual a
17,5.

8. Determine os coeficientes de determinação para os
exercícios 1 e 2.
9. Sejam X = renda pessoal disponível e Y = consumo pessoal,

cujos dados estão na tabela a seguir:
Renda e consumo nos Estados Unidos, 1948 – 1957

(em bilhões de dólares)
Ano Consumo pessoal (Y) Renda pessoal disponível (X)

1948 199 212
1949 204 214
1950 216 231
1951 218 237
1952 224 244
1953 235 255
1954 238 257
1955 256 273
1956 264 284
1957 270 290
Considerando-se o modelo Y  0  1X   , então:

b) Teste, ao nível de 5%, se não existe relação linear entre X
e Y;
c) Qual a estimativa do aumento de consumo pessoal médio,
quando a renda pessoal disponível é aumentada em um
bilhão de dólares?
d) Ao nível de 95%, qual o intervalo de predição para o
consumo pessoal, quando a renda pessoal disponível for de
350 bilhões de dólares?
e) Qual porcentagem da variabilidade do consumo pessoal é
explicada pela renda pessoal disponível no modelo?
10. Faça análise gráfica dos resíduos dos exercícios 1 e 2 para

verificar se existe indicativo de algum "problema" nos ajustes
feitos. Tire suas conclusões.

Respostas dos problemas
CAPÍTULO 1
1. 1/5
2. 3/10
3. 5/21
4. 13/18
5. (c) P(A  B)=19/36; P(A  B)=3/36 ;P( B )=1/2
6. P(A)=4/7;P(B)=2/7;P(C)=1/7
7. a) 0,19; b) 0,49; c) 0,32

9. 0,487
10. 2/15
11. P(AB)=3/4; P(BA)=3/5
12. (a) 1/5; (b) 11/15
13. (a) 0,3; (b) 0,5
14. 2/3 e 0
15. (a) 2/15; (b) 13/15
16. 19/55;
17. 23/50;

19. 17/45.
21. a) 0,0115 ; b) 0,9965 ; c) 0,5025 ; d) 0,199.
22. 0,95.
23. a) 0,89 ; b) 0,09.
24. a) 0,22 ; b) 0,18 ; c) 0,952.
CAPÍTULO 2
1. (b) 21 e 12
2. K=105/176; E(X)=2,39
3. E(Y)=q; V(Y)=q(1-q)
4. (b) E(X+Y)=11,9; V(X+Y)=12,49; (c) V(XY)=53,41
5. (a)
x 5 10 15 P(Y=y)
y
5 0,1 0,2 0,1 0,4
10 0,2 0,3 0,1 0,6
P(X=x) 0,3 0,5 0,2 1,0
(c) E(X)=9,5; E(Y)=8; V(X)=12,25; V(Y)=6
(d) E(Z)=17,5; V(Z)=16,25

(e) ρ (X,Y)=-0,117

6. (a) E(X)=2,2; E(Y)=0,9; V(X)=0,76; V(Y)=0,49;
E(X+Y)=3,1.
(c) E(XY)=2,1;
XY 0 1 3 4 6
P(xy) 0,3 0,2 0,3 0,1 0,1
(d) ρ(X,Y)=0,197
7. (b) E(X)=0;E(Y)=1/3;V(X)=1;V(Y)=5/9.
(c) a=  10; b=30
8. (b) Sim (c) zero

9. (a) Não (b) ρ(X,Y)=-0,154
10. ρ(X,Y)=0 (neste caso as variáveis são independentes)
12. a=1/2
14. E(W)=4/3

CAPÍTULO 3
1. (a) E(X)=4; V(X)=3,2; (b) 0,2061.

2. 0,2344
4. 0,9453
5. (a) 0,182; (b) 0,999; (c) 0,2 e 0,44.
6. (a) 4/65; (b) 3/91;
7. 0,6769
8. (a) 0,7788; (b) E(X)=9,35
10. 0,8747;
11. (a) 0,8753; (b) 0,1606.
12. (a) 0,1991; (b) 0,2231
13. (a) 0,2224; (b) 0,6883
14. 0,4405
15. (a) 0,3849; (b) 0,9053; (c) 0,0548
16. (a) 68,27% (b) 2,28% (c) zero
17. (a) 4,75% (b) 10
18. 0,0668
19. 7; 70 e 3
20. 88,5 e 55,3
21. (a) 26,12%; (b) 113
22. 97,72%

23. 556
26. 0,3127;
27. 0 e 1/48;
28. (a) 0,632; (b) 0,148
29. (a) =3; (b) =1,25.
CAPÍTULO 4
1. 0,0465
2. 0,0985
3. 0,9207
4. (a) 0,762; (b) 0,0384; (c) 0,0091
5. 0,9611
6. 0,0764
CAPÍTULO 5
1. (0,774; 0,885)
2. (0,638; 0,862)
3. (0,327; 0,373)
4. (34,74; 35,26)
5. (0,08; 0,12)
6.

CAPÍTULO 7
1. 8,18 e 8
2. (a) 20,72; (b) 20,08; (c) 23,5 e 23,31
CAPÍTULO 8
1. S=1,476
2. S=6,514, Dq=3,86
3. A distribuição do problema 2.
4. A distribuição do problema 2 do capítulo 6.
CAPÍTULO 9
1. (a) O conjunto dos valores da normal padrão, menores que

-2,33;
(b) O conjunto dos valores da normal padrão, maiores que
2,33;
(c) O conjunto dos valores da normal padrão, menores que

–2,57 ou maiores que 2,57.
2. Não podemos dizer que a nova técnica é melhor do que a

anterior.

3. A escola tem razões para afirmar que os candidatos a seu
curso de psicologia são melhores que os da média nacional.
4. Os produtores devem modificar o programa.
5. Pode-se concluir que esta firma paga salários inferiores.
6. Não se pode aceitar a afirmação do fabricante.
7. Podemos concluir que os alunos de psicologia da
universidade Y são típicos com relação à vocação.
8. Podemos acreditar que não é de 50% a proporção de alunos
com QI acima de 110.
CAPÍTULO 10

1. (a) Y  6  4 X
(c) 2,67
2.

(a) Y  145, 72  2,57 X
(b) (1) 2,57; (2) 248,38; (3) 151,98
3. Em ambos os casos rejeita-se a hipótese da não existência

de relação linear entre X e Y.

4.
Exercício 1
Para 0 : (2,84 ; 9,16)
Para 1 : (2,59 ; 5,41)
Exercício 2
Para 0 : (123,01 ; 168,42)
Para 1 : (2,12 ; 3,01)
5. (33,93 ; 58,07)
6. (154,84 ; 191,52)
7. (159,01 ; 222,26)
8. 0,889 e 0,943
9.

(a) Y  7, 05  0,90 X
(b) Rejeita-se a hipótese da não existência de relação linear
entre X e Y.
(c) 0,90
(d) (313,72 ; 332,11)
(e) 0,991

REFERÊNCIAS
BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. São

Paulo: Atual, 1987.
FONSECA, J. S.; MARTINS, G. A. Curso de Estatística. São

Paulo: Atlas, 1979.
GONÇALVES, F. A. Estatística Descritiva: uma introdução.

São Paulo: Atlas, 1978.
JAMES, B. R. Introdução à Probabilidade (Notas de Aula).

Rio de Janeiro: IMPA, 1981.
MEYER, P. L. Probabilidade: aplicações à estatística. Rio de

Janeiro: Livros Técnicos e Científicos, 1976.
MORETTIN, L. G. Estatística Básica: probabilidade. 6. ed.

São Paulo: McGraw-Hill, s.d.
MORETTIN, P. A. Introdução à Estatística. São Paulo: Atual,

1981.
NETO, P. L. O. C. Estatística. São Paulo: Edgar Blucher,

1977.
MAGALHÃES, M. N.; LIMA, A. C. P. Noções de

Probabilidade e Estatística. 4. ed. São Paulo: EDUSP, 2002.
MONTGOMERY, D. C.; RUNGER, G. C. Estatística

Aplicada e Probabilidade para Engenheiros. 2. ed. Rio de
Janeiro: Livros Técnicos e Científico, 2003.

APÊNDICES –TABELAS ESTATÍSTICAS
TABELA I – Distribuição Normal
TABELA II – Distribuição Qui-quadado
TABELA III – Distribuição t de Student
TABELA IV – Distribuição F

TABELA I – Distribuição Normal

TABELA II – Distribuição Qui-quadrado

TABELA III – Distribuição t de Student

TABELA IV – Distribuição F

Este livro foi projetado pela equipe editorial da Editora
da Universidade Federal do Rio Grande do Norte.
Foi impresso em junho de 2016.

Introdução À Estatística (Digital)

Enviado por

Direitos autorais:

Formatos disponíveis

Introdução À Estatística (Digital)

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Introdução À Estatística (Digital)

Enviado por

Direitos autorais:

Formatos disponíveis

REITORA

Ângela Maria Paiva Cruz

Azevedo, Paulo Roberto Medeiros de.

1. Probabilidade. 2. Análise de regressão. 3. Estatística matemática. II. Título.

Todos os direitos desta edição reservados à EDUFRN – Editora da UFRN

1.1 Alguns resultados básicos de probabilidade, 11

2.1 Variável aleatória discreta, 39

3.1 Distribuições discretas, 80

4.1 População e amostra, 112

5.1 Estimação por ponto, 121

6.1 Introdução, 127

7.1 Média aritmética, 142

8.1 Principais medidas de variabilidade absoluta, 155

9.1 Hipótese estatística, 169

10.1 Relação entre variáveis, 179

Estas notas de aula já tinham sido publicadas

Natal, julho de 2015.

Paulo Roberto Medeiros de Azevedo

1.1 Alguns resultados básicos de probabilidade

Ao se estudar um fenômeno através de experimentação,

b) Em um experimento não determinístico (ou

Exemplos de experimentos não determinísticos

1. Jogar um dado e observar o número mostrado na

1. Do experimento de jogar um dado e observar o

2. Com relação ao experimento de verificar, em uma

Definição: evento é um subconjunto do espaço amostral.

Observação: considerando-se que A e B são dois eventos,

1. A  B será o evento que ocorrerá se, e somente se,

Definição: dois eventos A e B são denominados mutuamente

Seja S um espaço amostral associado a um

Principais consequências das propriedades apresentadas:

a) P( 0 )=0 e P( A )=1-P(A), sendo 0 o vazio e A o

b) Se A e B são dois eventos quaisquer, então:

PA  B  PA  PB  PA  B . (1.1)

c) Se A, B e C são eventos quaisquer, então:

Consideremos um espaço amostral S  s1 , s2 ,..., sn . A

soma estendida a todos os si  A.

Seja S={a, b, c, d, e, f}, com P(a)=1/16, P(b)= 1/16,

Espaços amostrais finitos equiprováveis

Consideremos novamente um espaço amostral finito

P(A)= nº de casos favoráveis a A / nº total de casos.

Observação: escolher ao acaso (ou aleatoriamente) um objeto

Numa classe há cinco primeiranistas, quatro

T: o aluno é terceiranista e C: o aluno é concluinte,

Suponha um grupo de 100 pessoas, no qual algumas

P(da pessoa escolhida ser idosa ou ter alguma neurose)= =

1. Um cartão é retirado ao acaso dentre 50 cartões

2. Das 10 alunas de uma classe, duas são superdotadas

3. Supor uma classe onde três alunos são considerados

4. O seguinte grupo de pessoas está numa sala: 5

6. Três cavalos A, B, C estão numa corrida. Sabe-se

7. Em uma cidade onde se publicam três jornais – A, B

a) Não assine nenhum dos três jornais;

1.2 Probabilidade condicional

Considerando o exemplo 1.3, suponhamos que se

P(da pessoa ter psicose, dada a informação de que é idosa ) 

nº de pessoas com psicose, dentre as idosas 2 1

De maneira geral, para dois eventos quaisquer A e B,