Caderno de Enunciados: Análise Exploratória Com Uso Do R
Caderno de Enunciados: Análise Exploratória Com Uso Do R
Caderno de Enunciados: Análise Exploratória Com Uso Do R
EXERCÍCIO 1
A sua empresa está sendo acusada de pagar um salário maior para os homens do que para as mulheres. Você
foi designado para levantar argumentos que contradigam essa acusação.
Na base de dados Disc do arquivo Modulo1.xlsx você encontrará os seguintes dados de uma amostra de
funcionários da empresa:
→Sexo: fem (feminino) ou masc (masculino)
→Tempo: tempo no emprego (em anos)
→Salario: salário anual (em mil reais)
→Funcao: qualificação necessária para a função exercida (ensino médio ou superior)
Utilizando apenas a matéria do Capítulo 2 do livro texto (distribuição de frequências, histograma, etc.),
responda:
a. Há indícios de predominância de mulheres exercendo a função de ensino médio, ou ainda, parece que a
função exercida depende do sexo do funcionário?
b. Compare graficamente a distribuição de salários de homens e mulheres. Parece haver diferenças?
c. O que se pode dizer sobre a distribuição do tempo no emprego de homens e mulheres?
d. Que argumentos você utilizaria na defesa da sua empresa?
e. Como você justificaria esses argumentos?
Sugestão: Utilize o máximo de técnicas possível.
EXERCÍCIO 2
A base de dados CEO (Bertsimas e Freund, 2000) do arquivo Modulo1.xlsx traz dados sobre o salário anual de
50 CEOs de empresas americanas. As variáveis contidas na base são:
→ CEO: número de identificação do CEO
→ Ganhos: salário do CEO, em US$1.000
→ MBA: se o CEA cursou ou não MBA (1: sim e 0: não)
1
ESTATÍSTICA I
EXERCÍCIO 3
A base de dados Financeiros do arquivo Modulo1.xlsx traz as seguintes informações:
→ DATA: dia, mês e ano
→ BVSP: retorno diário do Índice Bovespa da Bolsa de SP
→ ABEV3: retorno diário da ação da Ambev
→ PETR4: retorno diário ação da Petrobrás
a. Construa três histogramas com as taxas de variação, isto é, com os retornos desses 3 índices apresentados
na base de dados. Compare-os. Que conclusões você pode tirar dessa análise?
b. Os dados representam os retornos diários desses índices observados entre janeiro de 2007 e dezembro de
2013. Construa gráficos de linha para esses índices (pesquise como construí-los no R). A que conclusões você
chega?
c. Se você fosse um aplicador avesso ao risco, em qual ativo investiria? Por quê?
EXERCÍCIO 4
Um banco deseja comparar a lucratividade de clientes que utilizam o sistema on line e de clientes que não
utilizam esse sistema. Na base de dados Banco do arquivo Modulo1.xlsx, você encontrará os seguintes dados
para uma amostra de 500 clientes desse banco.
→ ID: número identificador do cliente do banco
→ Lucratividade: em reais (ou seja, valores negativos indicam prejuízo)
→ Usuario: se o cliente utiliza ou não o sistema on line (1: sim e 0: não)
a. Construa gráficos adequados que possibilitem a comparação da lucratividade de clientes que utilizam e que
não utilizam o sistema on line. Qual é a sua conclusão?
b. Se adotarmos a média amostral para avaliar a lucratividade, que tipo de cliente você preferiria ter no banco?
E se usarmos a mediana? Se você tivesse que tomar a decisão de privilegiar ou não a presença de clientes que
utilizam o sistema on line, qual seria sua escolha? Por quê?
c. Se o banco tivesse o mesmo número de clientes usuários do sistema e não usuários, qual dos dois tipos de
clientes contribui mais para a lucratividade total do banco? Por quê? E agora, qual seria sua decisão?
2
ESTATÍSTICA I
EXERCÍCIO 5
O Banco Mundial1 disponibiliza bases de dados estatísticos para um pouco mais de 200 países do mundo desde
o ano 1800, as quais consideram uma seleção abrangente de indicadores econômicos, sociais e ambientais.
Um desses indicadores é a expectativa de vida (em anos) de cada país.
A base de dados Life do arquivo Modulo1.xlsx contém a expectativa de vida de vários países para os anos
1800, 1926 e 2000.
Objetivo: Pelos noticiários, já temos ideia (hipótese teórica) que a expectativa de vida não só do Brasil, mas
também de todos os países vem aumentando no decorrer dos anos. Interesse aqui será compreender/analisar
a expectativa ao longo desses três anos.
Assim, escolhendo ferramentas adequadas, analise a expectativa de vida dos países em cada ano e também
compare entre os três anos.
Depois de fazer algumas análises seguindo o objetivo proposto anteriormente, faça as tarefas a seguir
(algumas podem se repetir):
a) Calcule a expectativa média de vida e a expectativa mediana de vida para cada ano a partir dos dados.
Interprete os resultados em termos do problema.
b) Construa uma tabela de frequências absolutas e relativas (em %) para cada um dos anos. Interprete os
resultados em termos do problema. Pesquise no tutorial da disciplina como fazer isso.
c) Construa um histograma para cada ano e interprete os gráficos no contexto do problema.
d) Analise o formato dos histogramas. O que se pode dizer sobre sua assimetria? Qual a implicação da
assimetria para a análise dos dados?
e) Faça uma análise dos dados avaliando as mudanças no comportamento da expectativa de vida ao longo
do tempo. O que está acontecendo no mundo? Para cada um dos três anos, ordene os valores das medidas
de posição (média, mediana e classe modal). A ordem dessas três medidas de posição é um mero acaso
ou pode ser consequência do formato dos dados? Argumente claramente sua resposta.
1
Para mais detalhes: http://data.worldbank.org/brazilian-portuguese
3
ESTATÍSTICA I
EXERCÍCIO 6
Perfil de aposentados brasileiros segundo condição de atividade: economicamente
ativos ou não economicamente ativos, considerando dados de 2015.
TEMA:
Atualmente, o Brasil vem experimentando um fenômeno até então característico de economias
desenvolvidas: o aumento relativo de sua população idosa. De acordo com dados da Pesquisa Nacional por
Amostras de Domicílios (PNAD), em 1992, a quantidade de brasileiros acima dos 60 anos de idade correspondia
a 7,25% da população, enquanto que, em 2011, essa proporção aumentou para 11,16%. Com isso, cresce
também o número de aposentados. O vocábulo “aposentadoria” remete, etimologicamente, à noção de
recolhimento ao interior da habitação, dos aposentos. Contudo, nem sempre é assim, pelo menos entre
aposentados brasileiros.
Há vários estudos com os dados provenientes da PNAD, os quais mostram que a participação do idoso
brasileiro no mercado de trabalho é alta, considerando-se os padrões internacionais, e que isso está relacionado
à inserção dos aposentados. A literatura costuma atribuir este fenômeno a fatores de natureza sócio-
econômica, especialmente a necessidade de aumentar a renda, já que o benefício da aposentadoria não seria
satisfatório ou suficiente para atender as necessidades de sobrevivência do aposentado e sua família.
Fonte: Textos extraídos e adaptados das seguintes referências:
Venezuela, M. K., Madalozzo, R. e Mendes, F. G., 2014. Perfil dos aposentados no Brasil nas últimas duas décadas:
utilizando decomposição de oaxaca-blinder em modelo logit. 21º. SINAPE. Natal – RN.
Khoury, H.T.T., Ferreira, A.de J.C., Araújo de-Souza, R., Matos, A.P.de e Barbagelata-Góes, S., 2010. Por que
aposentados retornam ao trabalho? O papel dos fatores psicossociais. Revista Kairós-Gerontologia, 13 (1), 147-
65. São Paulo.
PNAD:
A Pesquisa Nacional por Amostra de Domicílios - PNAD investiga anualmente, de forma permanente,
características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade
variável, de acordo com as necessidades de informação para o País. O levantamento dessas estatísticas constitui
um importante instrumento para avaliar, entre outras coisas, as melhorias das condições de vida no Brasil.
Na PNAD, os domicílios foram selecionados por amostragem e a população residente de um domicílio
foi composta pelos moradores presentes e ausentes, ou seja, pelas pessoas que consideravam tal domicílio
como local de residência habitual e, na data da entrevista, estavam presentes ou ausentes, temporariamente,
por período não superior a 12 meses em relação à data da pesquisa.
Fonte: http://www.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/default.shtm
https://biblioteca.ibge.gov.br/visualizacao/livros/liv98887.pdf
BASE DE DADOS:
A base de dados PEA do arquivo Modulo1.xlsx traz informações das seguintes variáveis:
4
ESTATÍSTICA I
PROBLEMA:
Nesta questão, há interesse em saber o perfil dos aposentados brasileiros que ofertavam seu
trabalho no ano de 2015 contrapondo àqueles que se declararam como aposentados não
economicamente ativos.
Assim, a análise de dados desenvolvida pelo seu grupo deve conter uso de ferramentas
estatísticas que permitam:
1. Descrever o perfil dos aposentados brasileiros que se declararam como condição de
atividade: economicamente ativos;
2. Descrever o perfil dos aposentados brasileiros que se declararam como condição de
atividade: não economicamente ativos;
5
ESTATÍSTICA I
A base de dados que terão acesso traz informações exclusivamente de uma amostra restrita
de aposentados que possuem as seguintes características:
✓ Todos são aposentados pelo sistema público de previdência que recebiam
normalmente pelo INSS no dia da pesquisa;
✓ Todos residentes de área urbana;
✓ Os aposentados são do sexo masculino, tem idade entre 53 a 90 anos e possuem nível
de escolaridade bem definido;
✓ Cada aposentado tem classificado sua condição de atividade bem definida na data da
pesquisa: economicamente ativo ou não economicamente ativo;
✓ Todos possuem rendimento da aposentadoria;
✓ Os aposentados economicamente ativos que estão empregados possuem rendimento
mensal de trabalho principal positivo de até R$ 250.000,00;
✓ A variável rendimento mensal de trabalho principal não possui valor quando o
aposentado é considerado economicamente ativo mas está desempregado ou se tem
condição de atividade de não economicamente ativo.
6
ESTATÍSTICA I
EXERCÍCIO 7
Mulher brasileira chefe de família. Que mulher é essa? Com dados de 2015
TEMA:
Elas fazem parte de um grupo que cresce a cada dia no Brasil: as mulheres chefes de
família
Gisele, 43 anos, trabalha em um escritório de contabilidade em São Vicente, litoral Sul
de São Paulo. É casada, tem uma filha e conta que desde o começo da relação sempre teve um
salário maior, e que isso nunca foi problema para eles.
O censo do IBGE (Instituto Brasileiro de Geografia e Estatística), de 2010, aponta que
40,9% das mulheres sustentam seus lares e como a própria pesquisa aponta, mulheres
provedoras de suas casas estão cada vez mais comum.
PNAD:
A Pesquisa Nacional por Amostra de Domicílios - PNAD investiga anualmente, de forma
permanente, características gerais da população, de educação, trabalho, rendimento e
habitação e outras, com periodicidade variável, de acordo com as necessidades de informação
para o País. O levantamento dessas estatísticas constitui um importante instrumento para
avaliar, entre outras coisas, as melhorias das condições de vida no Brasil.
Na PNAD, os domicílios foram selecionados por amostragem e a população residente
de um domicílio foi composta pelos moradores presentes e ausentes, ou seja, pelas pessoas
que consideravam tal domicílio como local de residência habitual e, na data da entrevista,
estavam presentes ou ausentes, temporariamente, por período não superior a 12 meses em
relação à data da pesquisa.
Fonte: http://www.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/default.shtm
https://biblioteca.ibge.gov.br/visualizacao/livros/liv98887.pdf
7
ESTATÍSTICA I
BASE DE DADOS:
A base de dados mulher do arquivo Modulo1.xlsx traz informações das seguintes variáveis:
'VAR01C– indica a região de residência da mulher',
categorias: ('Norte', 'Nordeste', 'Sul', 'Sudeste', 'Centro-Oeste')
'VAR02C – indica a situação censitária da residência da mulher',
categorias: ('Rural', 'Urbana')
'VAR03C – idade da mulher',
em anos
8
ESTATÍSTICA I
PROBLEMA:
Neste projeto, há interesse em descrever o perfil das mulheres casadas chefes de família no
ano de 2015 contrapondo àquelas que também são casadas e trabalham, mas não assumem
esse papel na família.
Assim, a análise de dados desenvolvida pelo seu grupo deve conter uso de ferramentas
estatísticas que permitam:
1. Descrever o perfil das mulheres brasileiras casadas que se declararam como condição
na família: Chefe;
2. Descrever o perfil das mulheres brasileiras casadas que se declararam como condição
na família: Não chefe;
3. Identificar possíveis semelhanças e/ou diferenças nas diversas características que
descrevem esses dois perfis de mulheres casadas segundo suas condições na família:
‘Chefe’ e ‘Não chefe’.
A base de dados que terão acesso traz informações exclusivamente de uma amostra restrita
de mulheres que possuem as seguintes características:
✓ Todas possuem pelo menos um trabalho principal no dia da pesquisa;
✓ São casadas e têm idade entre 20 a 59 anos;
✓ Todas possuem rendimento do trabalho principal entre R$ 200,00 e R$ 5.000,00;
✓ Cada mulher tem classificada sua condição na família bem definida na data da pesquisa:
Chefe ou Não chefe.
9
ESTATÍSTICA I
8.1) Considerando apenas os clientes que receberam contato telefônico por celular ('cellular'),
calcule:
8.1.a) Quantidade de clientes que receberam contato telefônico por celular
8.1.b) Idade média dos clientes que receberam contato telefônico por celular
8.1.c) Desvio padrão da idade dos clientes que receberam contato telefônico por celular
Nos itens (8.1.b) e (8.1.c), arredonde cada resposta para 2 casas decimais e NÃO COLOQUE
A UNIDADE DE MEDIDA.
8.2) Considerando o tempo de duração da chamada telefônica com os clientes que fizeram a adesão
do produto, CALCULE os percentis de ordem 0%, 10%, 90% e 100%. Analisando APENAS esses
resultados calculados, assinale a afirmação verdadeira:
8.2.a) Há maior quantidade de clientes nos 10% menores tempos de duração do que nos 10%
maiores tempos de duração da chamada telefônica.
8.2.b) Há menor quantidade de clientes nos 10% menores tempos de duração do que nos 10%
maiores tempos de duração da chamada telefônica.
8.2.c) Há maior concentração de clientes nos 10% menores tempos de duração do que nos 10%
maiores tempos de duração da chamada telefônica.
8.2.d) Há menor concentração de clientes nos 10% menores tempos de duração do que nos 10%
maiores tempos de duração da chamada telefônica.
10
ESTATÍSTICA I
8.3) Construa um histograma para a variável duration considerando apenas os clientes que fizeram
a adesão do produto oferecido pelo contato telefônico. Nesse histograma, obrigatoriamente,
considere faixas iguais com amplitudes de 60 segundos, iniciando em zero e terminando em 420.
Assinale a afirmação verdadeira:
8.3.a) Para quem adere ao produto, há uma menor concentração de ligações com tempo de
duração da chamada telefônica durante o segundo minuto do que durante o terceiro minuto de
ligação
8.3.b) Há maiores concentrações nos maiores tempos de duração da chamada telefônica para
clientes que aderem ao produto, ou seja, assimetria à direita
8.3.c) Há assimetria à esquerda, portanto, espera-se que a duração média seja superior à
duração mediana da chamada telefônica para clientes que aderem ao produto
8.3.d) A minoria dos clientes que aderem ao produto possui tempo duração da chamada
telefônica pelo menos igual a média
A base de dados original passou por algumas limpezas e correções, a qual está contida na planilha
pi2021_1 do arquivo Modulo1.xlsx.
11
ESTATÍSTICA I
O interesse é avaliar qual das duas variáveis quantitativas é mais heterogênea quanto aos valores
observados para pacientes sem diabetes.
Calcule uma medida de variabilidade relativa adequada para comparar a dispersão das
seguintes variáveis:
Variável 1: Pregnancies
Variável 2: Glucose
9.3) Atenção: É necessário construir no R exatamente o que está sendo pedido no enunciado
para validar sua resposta.
12
ESTATÍSTICA I
A base de dados original passou por algumas limpezas e correções, a qual está contida na planilha
pi2021_2 do arquivo Modulo1.xlsx.
Observação: Caso tenha dúvidas quanto a tradução das categorias de Education e Marital, veja a
tabela abaixo
Education Marital
Basic Ensino fundamental Single Solteiro
2n Cycle Ensino médio Married Casado
Graduation Graduação Together União estável
Master Mestrado Divorced Divorciado
PhD PhD Widow Viúvo
13
ESTATÍSTICA I
10.2) Atenção: É necessário construir no R exatamente o que está sendo pedido no enunciado
para validar sua resposta.
Separando os clientes que aceitaram dos que não aceitaram a oferta na última campanha,
OBTENHA os percentis 0%, 25%, 50%, 75% e 100% para a quantia mensal gasta em frutas nos
últimos 2 anos (em dólares).
Analisando os valores obtidos e suas interpretações, assinale a resposta correta:
10.2.a) Enquanto metade dos clientes que aceitaram a oferta na última campanha gastaram no
máximo 21 dólares por mês com frutas nos últimos 2 anos, mais de 25% dos clientes que não
aceitaram a oferta gastaram no mínimo esta quantia.
10.2.b) Enquanto 75% dos clientes que fizeram uma reclamação nos últimos 2 anos gastaram
no máximo 27 dólares por mês com frutas nos últimos 2 anos, mais de 25% dos clientes que não
reclamaram gastaram no mínimo esta quantia.
10.2.c) Enquanto metade dos clientes que aceitaram a oferta na última campanha gastaram 21
dólares por mês com frutas nos últimos 2 anos, mais de 25% dos clientes que não aceitaram a
oferta gastaram no mínimo esta quantia.
10.2.d) Enquanto 75% dos clientes que fizeram uma reclamação nos últimos 2 anos
gastaram 27 dólares por mês com frutas nos últimos 2 anos, mais de 25% dos clientes que não
reclamaram gastaram no mínimo esta quantia.
14
ESTATÍSTICA I
EXERCÍCIO 11
O dono de uma venda desconfia que um de seus vendedores tem aconselhado seus fregueses a realizarem
suas compras em outro estabelecimento. Para testar sua hipótese, ele contou o número de vendas realizadas
a cada dia como função das horas que aquele funcionário passou atendendo os clientes. O estabelecimento
ficou aberto durante o mesmo período de tempo em todos os dias, com outros funcionários responsáveis
pelas vendas quando o funcionário suspeito não estava presente. Baseado apenas nos dados recolhidos abaixo
para 3 dos dias em que as medidas foram feitas, verifique se as suspeitas do dono da venda são razoáveis.
Utilize, para tanto, dois métodos de verificação, um gráfico (ou visual) e o outro através do cálculo de uma
quantidade que possa responder esta pergunta. Essas informações estão armazenadas na planilha Suspeita
do arquivo Modulo1.xlsx.
Coloque a resposta numérica com ARREDONDAMENTO de 2 casas decimais.
EXERCÍCIO 12
Um estudante realizou um estudo comparando o número de buracos em uma estrada com o número de pneus
furados observados nas borracharias da beira da estrada por várias semanas. Os resultados abaixo equivalem
às 20 observações realizadas por este estudante. Os números de pneus furados são representados pela
variável x, os números de buracos por y:
Baseado nestes resultados, o estudante concluiu que um número maior de pneus furados causa mais buracos
na estrada.
Refaça os cálculos do estudante de forma a verificar se existe alguma relação entre as variáveis.
Coloque a resposta numérica com ARREDONDAMENTO de 4 casas decimais.
O estudante estava correto em suas conclusões? Comente.
15
ESTATÍSTICA I
EXERCÍCIO 13
Para alavancar suas vendas, uma loja de móveis investiu em comerciais de TV.
A base de dados vendas do arquivo Modulo1.xlsx exibe os dados do desempenho da loja (através do volume
de vendas, em unidade monetárias) e do número de comerciais veiculados em 19 semanas.
a. Há evidências de que a veiculação de comerciais alavanca as vendas? Por quê?
b. O gerente de marketing propôs a veiculação de 70 comerciais em uma semana. Critique essa proposta (se
você a considera boa, justifique e se você a considerar ruim, faça uma contraproposta).
EXERCÍCIO 14
Uma empresa de recursos humanos é responsável pelo processo seletivo de várias empresas com sede em
São Paulo. Em uma das etapas do processo o candidato faz uma apresentação oral e é avaliado por dois
avaliadores. O dono da empresa está suspeitando que esses avaliadores adotaram critérios diferentes de
avaliação e para verificar se esta suspeita se confirma ele resolveu fazer um estudo. Neste estudo foram
registradas as notas dos dois avaliadores para 30 candidatos, veja os resultados abaixo.
10
6
Avaliador 2
4
^y = 1,065x + 0,308
2
r=0,92
0
0 2 4 6 8 10
Avaliador 1
a. O modelo ajustado é adequado? Por quê? Respostas sem justificativas serão ignoradas.
b. Interprete os coeficientes apresentados.
c. Você acha que as suspeitas do dono da empresa se confirmam? Por quê? Em caso afirmativo, qual avaliador
faz melhores avaliações? Justifique. Respostas sem justificativas serão ignoradas.
d. Qual deve ser a nota esperada do Avaliador 2 para um candidato que obteve nota 6,5 com o avaliador 1?
Coloque a resposta com ARREDONDAMENTO de 2 casas decimais.
16
ESTATÍSTICA I
EXERCÍCIO 15
O gráfico abaixo reproduz o comportamento das notas de uma prova (eixo y) em relação à proporção de faltas
dos alunos (eixo x).
a. Analise o gráfico. Como a nota está relacionada com a presença às aulas?
b. A partir desses dados ajustou-se o seguinte modelo de regressão: 𝑦̂ = 4,78 − 6,42(𝑥 − 0,05). Qual o
significado prático de 4,78? E de -6,42?
10
9
8
7
6
Nota na prova
5
4
3
2
1
0
0 0,05 0,1 0,15 0,2
Proporção de faltas
EXERCÍCIO 16
O gráfico abaixo traz informações sobre o nível de satisfação de professores de uma escola (eixo y) e o número
médio de reuniões semestrais que os professores devem participar (eixo x).
a. Faça uma análise completa das informações apresentadas.
b. Interprete os parâmetros do modelo de regressão.
c. Preveja o nível de satisfação de um professor que tem que participar de 7 reuniões semestrais. Coloque a
resposta com ARREDONDAMENTO de 3 casas decimais.
^y = -0,4202x + 5,6807
6 Correl(X,Y)=-0,49
5
Nível de satisfação
0
5 6 7 8 9 10
Número médio de reuniões semestrais
17
ESTATÍSTICA I
EXERCÍCIO 17
O gráfico abaixo representa o comportamento dos retornos diários (variação percentual de preços) da
Empresa PET (PET) em relação aos retornos do IBOVESPA (IBV).
0,08
0,06
0,04
0,02
PET
0
-0,04 -0,02 0 0,02 0,04 0,06
-0,02
-0,04
-0,06
IBV
a. Faça uma análise completa do gráfico. O modelo linear é adequado para descrever a relação entre os
retornos dos dois ativos? Por quê? Respostas sem justificativa serão ignoradas.
EXERCÍCIO 18
Deseja-se explicar a diferença de desempenho de um conjunto de alunos em duas avaliações. Uma das
hipóteses é que parte da diferença observada deve-se à participação em um programa complementar de
estudos. Para verificar se essa hipótese é válida, foi ajustado o seguinte modelo linear:
yˆ = −1,0 + 0,4 x
sendo: y=Nota na segunda avaliação – Nota da primeira avaliação e x = tempo (em horas) gasto no programa
complementar de estudos. Baseado no modelo acima, responda:
a. É possível afirmar que a segunda avaliação foi mais difícil (ou mais fácil do que a primeira)? Por quê?
Respostas sem justificativa serão ignoradas.
18
ESTATÍSTICA I
b. É possível afirmar que o programa de estudos foi bem-sucedido? Por quê? Respostas sem justificativa serão
ignoradas.
c. Qual a nota esperada na segunda avaliação de um aluno que tirou 5 na primeira avaliação e participou em
5 horas do programa complementar de estudos? Coloque a resposta com ARREDONDAMENTO de 1 casa
decimal.
EXERCÍCIO 19
Um analista de mercado deseja avaliar duas aplicações: as ações da Empresas Soles S/A e as ações da Empresa
AFEM. Nessa avaliação ele considera que o IBOVESPA é um indicador do comportamento geral do mercado.
A análise será feita utilizando dados sobre os retornos (variação percentual diária) do IBOVESPA (x), da
Empresa Soles S/A (y) e da Empresa AFEM (w). Através de um diagrama de dispersão ele concluiu pela
existência de uma relação linear entre as variáveis. Os modelos abaixo correspondem às retas de regressão
entre os retornos das empresas e o retorno do IBOVESPA:
EXERCÍCIO 20
Neste exercício, faça uso da base de dados mundo do arquivo Modulo1.xlsx, no qual irá encontrar as seguintes
informações para 85 países.
X1: população em milhares de habitantes
X2: densidade populacional
X3: % de população urbana
X4: expectativa de vida feminina
X5: expectativa de vida masculina
X6: crescimento populacional
X7: mortalidade infantil
X8: PIB per capita
X9: % de mulheres alfabetizadas
X10: população em 100.000 habitantes
Construa um diagrama de dispersão do PIB per capita (y) em função do percentual da população que vive em
áreas urbanas (x).
a. Interprete o gráfico.
b. Um modelo de regressão linear seria adequado para modelar a relação entre essas variáveis?
19
ESTATÍSTICA I
c. Construa um diagrama de dispersão entre o logaritmo do PIB per capita (y) em função do percentual da
população que vive em áreas urbanas. Você acha que um modelo de regressão linear poderia ser adotado
para analisar esses dados?
d. Estime o modelo de regressão linear sugerido no item (c). Interprete os coeficientes em termos do
problema. Coloque os coeficientes da equação com ARREDONDAMENTO de 3 casas decimais.
e. Suponha que você tenha que fazer a previsão de quanto é o PIB per capita de um país com 50% de população
que vive em áreas urbanas. Usando o modelo estimado em (d), faça a previsão do PIB per capita para este
país. Utilize os coeficientes da equação SEM ARREDONDAMENTO PARA AS CONTAS e, então, apresente o
resultado da previsão com ARREDONDAMENTO de 3 casas decimais.
EXERCÍCIO 21
Na base de dados acoes do arquivo Modulo1.xlsx estão dispostos os preços diários de fechamento dos
seguintes ativos: Petr4 (Petrobras), Ibovespa (carteira de ações que simula a composição do Ibovespa), ITSA3
(Itaú) e AMBV4 (Ambev). É comum analisar o comportamento de ativos por meio de seu retorno.
Se yt é o valor de um determinado ativo no instante t, o retorno composto do ativo no dia t é definido por
rt=ln(yt)-ln(yt-1).
a) O que mede o retorno? Justifique.
b) Baseado nos retornos, que recomendação de investimentos você daria a um investidor com perfil
conservador? E com perfil arrojado? Justifique.
c) Como se comportam os riscos da Petr4, ITSA3 e AMBV4 em relação ao Ibovespa?
d) Construa, num mesmo par de eixos, os Boxplots relativos aos retornos dos quatro ativos. Por meio desses
gráficos, compare o comportamento desses investimentos.
EXERCÍCIO 22
(PI 2012_01) Os avanços na tecnologia, a abordagem mais científica em todas as etapas da produção e a
conquista de diversas certificações de qualidade tornaram a elaboração de vinho um processo bem controlado
e higiênico. Os investimentos em pesquisa e inovação com estes objetivos são consideráveis - uma vez que, o
mercado comporta-se de forma bastante rigorosa - e mídia, críticos e degustadores profissionais exercem
influência direta sobre o consumo.
Um produtor responsável não pode correr o risco de colocar no mercado um vinho com defeitos, com sabor
e aroma desagradáveis ou impróprios. Em casos extremos, pode-se perder uma safra, o que significa perder
um ano de rendimento, além dos "arranhões" na imagem da marca.
Fonte: http://revistaadega.uol.com.br/Edicoes/42/artigo132576-1.asp
20
ESTATÍSTICA I
Uma vinícola resolveu avaliar um de seus melhores vinhos junto com outros nove de marcas concorrentes.
Cada um desses dez vinhos foi avaliado, por um degustador profissional, nos seguintes quesitos: Limpidez2,
Aroma, Viscosidade3 e Sabor. Por fim, também foi computada uma nota de Qualidade que envolve, além das
variáveis de degustação, outras que mensuram a apresentação do rótulo, o tipo de rolha, etc.
A Tabela 1 apresenta, para cada vinho, as notas referentes aos quesitos de degustação Limpidez, Viscosidade
e Sabor e as da Qualidade geral, todas variando de 0 a 100.
Tabela 1. Banco de dados contendo as notas da degustação e da qualidade geral de cada vinho.
Vinho Limpidez Viscosidade Sabor Qualidade
1 29 55 56 78
2 29 67 56 57
3 34 68 68 93
4 30 79 68 95
5 34 55 68 89
6 37 69 68 89
7 39 67 61 72
8 34 68 68 72
9 20 53 56 47
10 27 59 56 19
Na Tabela 2, algumas medidas-resumo são apresentadas para todos os quesitos avaliados na degustação e
para a qualidade geral, sendo que todas as covariâncias foram calculadas entre a variável da coluna em
questão (quesito de degustação) e a variável de qualidade geral.
Tabela 2. Algumas medidas-resumo das notas da degustação e da qualidade geral dos vinhos.
Medidas-resumo Limpidez Aroma Viscosidade Sabor Qualidade
Média 31,30 67,20 64,00 62,50 71,10
Desvio Padrão 5,22 14,40 7,80 5,68 22,88
Covariância 70,07 248,38 80,20 99,45 -
Tamanho da amostra 10 10 10 10 10
2 Limpidez: um bom vinho deve apresentar-se sem partículas em suspensão e sem depósito, já que a presença destas indica que o vinho é mal
feito ou está deteriorado.
3 Viscosidade: definida pela aderência do líquido nas paredes da taça. Um vinho pouco viscoso é considerado “aguado”.
21
ESTATÍSTICA I
100
80
60
Notas
40
20
0
1
Limpidez 2
Aroma 3
Viscosidade 4
Sabor
Responda:
a) Verifique a veracidade ou não de cada frase descrita a seguir. Justifique sua resposta de forma clara, sucinta
e objetiva. Nas afirmações a seguir, pode ser necessário calcular medidas descritivas para auxiliarem na sua
justificativa.
a.1) “Para avaliar a qualidade geral de um vinho é melhor associá-la ao quesito Sabor do que ao quesito
Aroma desse mesmo vinho”.
a.2) “Para a amostra estudada, temos indícios de que os vinhos são mais homogêneos entre si no
quesito Limpidez”.
a.3) “Observando o comportamento do boxplot desenhado no Gráfico 1, o formato do polígono de
densidades das notas no quesito Viscosidade será semelhante ao de uma distribuição assimétrica a
direita ou positiva.”
a.4) “A distribuição de 50% das notas centrais no quesito Sabor se assemelha à distribuição de 50% das
notas centrais no quesito Viscosidade. Nada podemos dizer sobre a outra metade das notas no quesito
Sabor, pois essa outra metade não está representada no Gráfico 1.”
a.5) “Há um possível valor aberrante entre as notas que descrevem a qualidade geral dos vinhos.”
b) (DESAFIO) Como o objetivo de prever a qualidade geral de um vinho com as características semelhantes da
amostra estudada, será feito o seguinte ajuste linear:
yˆ i = azi + b , (1)
sendo
ŷ i o valor previsto para qualidade geral do vinho i;
22
ESTATÍSTICA I
Preocupada com essa notícia publicada em 28/02/2018, as professoras de uma disciplina de 2º semestre de
uma faculdade de Administração e Economia decidiram realizar um estudo com uma amostra de 30 alunos
selecionados aleatoriamente entre seus ex-alunos do 2º semestre de 2017. Elas observaram o número de
amigos no Facebook e a nota na prova final de cada um desses 30 alunos e realizaram algumas análises
estatísticas que são apresentadas nas tabelas e gráficos a seguir.
Tabela 1. Medidas resumo da nota na prova final e do número de amigos no Facebook dos alunos do 2º
semestre de 2017.
Variável Mínimo Q1 Q2 Média Q3 Máximo Desvio-padrão
Número de amigos no
210,00 415,00 650,00 679,50 890,00 1500,00 308,85
facebook
Nota na prova 4,30 4,85 5,28 5,20 5,47 5,98 0,44
Figura 1. Gráfico de dispersão relacionando a nota na prova final e o número de amigos no Facebook dos
alunos do 2º semestre de 2017.
23
ESTATÍSTICA I
𝑦̂ = −0,0010𝑥 + 5,8514
Corr(x,y) = − 0,677
Figura 2. Gráfico de dispersão relacionando a nota na prova final e o número de amigos no Facebook dos
alunos do 2º semestre de 2017 (dividido em quadrantes de acordo com a nota média da prova final e o
número médio de amigos no Facebook dos 30 alunos).
Responda:
a) A Figura 2 apresenta um gráfico que está associando a nota na prova final e o número de amigos no
Facebook dos alunos do 2º semestre de 2017, ainda, foi dividido em 4 quadrantes (veja as numerações no
24
ESTATÍSTICA I
gráfico) de acordo com a nota média da prova final e o número médio de amigos no Facebook dos 30
alunos. Um aluno que cursa a disciplina neste semestre (1o semestre de 2018), disse que se o seu
desempenho fosse igual a um dos alunos da amostra, ele gostaria de se encontrar no quadrante II. Você
concorda ou discorda dele?
( ) Concordo ( ) Discordo
JUSTIFIQUE SUA ESCOLHA.
Tabela 2. Medidas resumo da nota na prova final e do número de amigos no Facebook dos alunos do 1º
semestre de 2017.
Variável Mínimo Q1 Q2 Média Q3 Máximo Desvio-padrão
Número de amigos no
158,00 311,80 488,00 509,80 667,50 1125,00 231,61
facebook
Nota na prova 4,95 5,52 5,84 5,85 6,20 6,88 0,50
b) No 1º semestre de 2017, espera-se que o impacto do número de amigos no Facebook sobre a nota final
da prova da disciplina tenha sido maior do que o observado no 2º semestre de 2017, pois existe uma
associação mais forte (r = –0,812) entre essas variáveis no 1º semestre.
( ) Verdadeira ( ) Falsa
JUSTIFIQUE SUA ESCOLHA.
c) Ainda no 1º semestre de 2017, foi constatado que a nota da prova reduzia, em média, 0,17 ponto a cada
100 amigos a mais que o aluno tivesse no Facebook e, ainda, que a nota esperada na prova final de um
aluno dessa disciplina que não possuía amigos no Facebook era de 6,7415.
Com base nessas informações e nas demais que julgar necessárias, compare a situação dos alunos do 2º
semestre de 2017 com a dos alunos do semestre anterior.
25
ESTATÍSTICA I
EXERCÍCIO 24
Visando aumentar a produtividade de uma grande empresa, a diretoria de recursos humanos avaliou 400
funcionários de uma unidade produtiva.
Foram observadas as seguintes variáveis:
y: Produtividade (quanto maios a nota, melhor)
F1: Nota de satisfação com a empresa (quanto maior a nota, maior a satisfação, valor F1=0 indica
neutralidade)
F2: Grau de ambição do funcionário (quanto maior a nota, maior a ambição, valor F2=0 indica
neutralidade)
F3: Grau de satisfação com a remuneração (quanto maior a nota, maior a satisfação, valor F3=0 indica
neutralidade)
Idade: Idade em anos completos
Sexo = 0, se masculino; 1, se feminino
Estudo: anos de estudos formais completos
26
ESTATÍSTICA I
✓ SalePrice: preço de venda do imóvel (em mil dólares). Essa é a variável alvo que você irá tentar predizer.
✓ LotArea: tamanho do lote (em pés quadrados).
✓ X1stFlrSF: tamanho do primeiro andar (em pés quadrados).
✓ X2ndFlrSF: tamanho do segundo andar (em pés quadrados).
✓ GarageCars: tamanho da garagem em capacidade de carros (número de carros).
✓ Foundation: tipo de fundação, com as seguintes categorias:
BrkTil Tijolo e telha
CBlock Bloco de concreto
PConc Concreto usinado
Slab Laje
Stone Pedra
Wood Madeira
✓ Street: tipo de acesso rodoviário à propriedade, com as seguintes categorias:
Grvl Cascalho
Pave Pavimentado
✓ CentralAir: ar condicionado central, com as seguintes categorias:
N Não
Y Sim
✓ YearBuilt: ano da construção do imóvel.
Responda:
a) Utilizando uma ferramenta estatística gráfica que seja adequada, analise “como a presença ou não de ar
condicionado central no imóvel impacta o preço de vendas de um imóvel”.
A interpretação, baseada apenas na técnica escolhida, precisa ser completa PORÉM sucinta. Deixe claro que
aspecto do gráfico você está utilizando na sua análise.
b) Utilizando uma ferramenta estatística numérica que seja adequada e, utilizando apenas essas informações
numéricas, faça:
✓ Descreva o tipo de assimetria dos preços de vendas considerando apenas os imóveis com garagem
para 4 carros.
A descrição com base na(s) técnica(s) escolhida(s) precisa ser completa PORÉM sucinta. Deixe claro como você
está usando as informações numéricas na sua análise.
Coloque as respostas numéricas com ARREDONDAMENTO de 2 casas decimais.
27
ESTATÍSTICA I
Essa base de dados possui os preços e outros atributos de dois mil diamantes.
As variáveis apresentadas na planilha pf2020_2 do arquivo Modulo1.xlsx são:
• id: número de identificação do diamante
• preco: preço do diamante (em mil dólares);
• corte: qualidade do corte com as categorias ordinais: 'Moderado', 'Bom', 'Muito bom', 'Premium',
'Ideal';
• cor: cor do diamante com as categorias ordinais: 'D' (pior) até 'J' (melhor);
• claridade: indica quão claro é o diamante com as categorias ordinais: 'I1' (pior), 'SI2', 'SI1', 'VS2',
'VS1', 'VVS2', 'VVS1' e 'IF' (melhor);
• peso: peso do diamante (em gramas);
• comprimento: comprimento do diamante (em milímetros);
• largura: largura do diamante (em milímetros); e
• profundidade: profundidade do diamante (em milímetros).
26.1) CALCULE uma medida de associação adequada que permita avaliar o grau de associação entre as
variáveis: preco e peso.
Ainda, interprete o grau da associação: fraco, moderado ou forte.
26.1.a) Digite o valor da medida de associação (com 4 casas decimais):
26.1.b) Digite o grau (fraco, moderado ou forte):
26.2) CONSTRUA um boxplot para a variável preco dividida pelos rótulos da variável corte.
Analisando o boxplot da variável preco apenas com qualidade de corte Moderado, com base nos 50% dos
valores centrais, assinale a alternativa correta:
26.2.a) Presença de assimetria a esquerda, em que a mediana está mais próxima do terceiro quartil do
que do primeiro quartil.
26.2.b) Presença de assimetria a esquerda, em que a mediana está mais distante do terceiro quartil do
que do primeiro quartil.
26.2.c) Presença de assimetria a direita, em que a mediana está mais próxima do terceiro quartil do que
do primeiro quartil.
26.2.d) Presença de assimetria a direita, em que a mediana está mais distante do terceiro quartil do que
do primeiro quartil.
26.2.e) Presença de simetria, em que mediana está equidistante do terceiro quartil e do primeiro quartil.
26.3) CALCULE os coeficientes linear e angular da reta estimada para prever o preço do diamante em função
da variável peso. Obtenha os coeficientes com ARREDONDAMENTO de 4 casas decimais.
28
ESTATÍSTICA I
Considerando os valores estimados desses coeficientes e suas respectivas interpretações, assinale a resposta
correta:
26.3.a) O acréscimo esperado no preço do diamante é 2,1656 mil dólares a cada 1 grama a mais em
um diamante.
26.3.b) O aumento no preço do diamante é 2,1656 mil dólares a cada 1 grama a mais em um diamante.
26.3.c) O acréscimo esperado no preço do diamante é 0,4000 mil dólares a cada 1 grama a mais em
um diamante.
26.3.d) O aumento no preço do diamante é 0,4000 mil dólares a cada 1 grama a mais em um diamante.
26.3.e) O acréscimo esperado no preço do diamante é 6,0832 mil dólares a cada 1 grama a mais em
um diamante.
Este conjunto de dados inclui pontuações de 1000 estudantes em três exames (de 0 a 100) e uma variedade
de aspectos pessoais, sociais e econômicos que podem ter associação com essas pontuações.
As variáveis apresentadas na planilha pf2021_1 do arquivo Modulo1.xlsx são:
27.1) Um dos objetivos da pesquisa é avaliar se a pontuação obtida pelo estudante no exame de matemática
seria bem modelada por uma distribuição normal. Utilize um método numérico adequado e, então, escolha a
alternativa correta.
Atenção: no script, obrigatoriamente, é necessário ter as linhas de comando que justifiquem a alternativa que
julgar correta.
Considerando apenas as estudantes mulheres:
27.1.a) A variável pontuação no exame de matemática delas seria bem modelada por uma distribuição
normal, pois sua distribuição é praticamente simétrica (b1 é aproximadamente -0,3310), ou seja, é levemente
assimétrica
29
ESTATÍSTICA I
27.1.b) A variável pontuação no exame de matemática delas seria bem modelada por uma distribuição
normal, pois JB é aproximadamente 4,5034
27.1.c) A variável pontuação no exame de matemática delas não seria bem modelada por uma
distribuição normal, pois JB é aproximadamente 16,489
27.1.d) A variável pontuação no exame de matemática delas seria bem modelada por uma distribuição
normal, pois sua distribuição é praticamente simétrica (b1 é aproximadamente -0,1448), ou seja, é levemente
assimétrica
27.1.e) Nenhuma destas alternativas
27.2) CALCULE os coeficientes linear e angular da reta estimada para prever a pontuação no exame de
leitura em função da pontuação no exame de matemática. Obtenha os coeficientes com
ARREDONDAMENTO de 4 casas decimais.
Considerando os valores estimados desses coeficientes e suas respectivas interpretações, assinale a resposta
correta:
27.2.a) O acréscimo esperado na pontuação no exame de leitura é 0,8044 a cada 1 ponto a mais no
exame de matemática.
27.2.b) O aumento na pontuação no exame de leitura é 0,8044 a cada 1 ponto a mais no exame de
matemática.
27.2.c) O acréscimo esperado na pontuação no exame de matemática é 0,8009 a cada 1 ponto a mais
no exame de leitura.
27.2.d) O aumento na pontuação no exame de matemática é 0,8009 a cada 1 ponto a mais no exame
de leitura.
27.2.e) Nenhuma das anteriores.
27.3) OBTENHA os valores do esquema de 5 pontos para a pontuação no exame de leitura segmentada por
sexo.
Analisando os valores obtidos e suas interpretações, assinale a resposta correta:
27.3.a) Há indícios de que metade dos estudantes do sexo feminino com as melhores notas obtiveram
pontuação mínima um pouco abaixo de 75, enquanto mais de 75% dos estudantes do sexo masculino com as
piores notas parecem ter obtido no máximo uma pontuação de 75.
27.3.b) Há indícios de que 25% dos estudantes do sexo feminino obtiveram pontuação um pouco
abaixo de 65, enquanto metade dos estudantes do sexo masculino obtiveram pontuação um pouco abaixo
de 65.
27.3.c) Há indícios de que metade dos estudantes do sexo feminino com as piores notas obtiveram
pontuação máxima de 65, enquanto mais de 50% dos estudantes do sexo masculino com as melhores notas
parecem ter obtido no mínimo uma pontuação de 65.
30
ESTATÍSTICA I
27.3.d) Há indícios de que 75% dos estudantes do sexo feminino obtiveram pontuação um pouco
abaixo de 75, enquanto menos de 75% dos estudantes do sexo masculino obtiveram pontuação um pouco
abaixo de 75.
27.3.e) Nenhum das anteriores.
31
ESTATÍSTICA I
A base de dados original passou por algumas limpezas e correções, a qual está contida na planilha pf2021_2
do arquivo Modulo1.xlsx.
28.1) Atenção: Coloque as respostas numéricas com ARREDONDAMENTO de 3 casas decimais e use vírgula
para separador decimal.
Atenção: É necessário construir no R exatamente o que está sendo pedido no enunciado para validar sua
resposta.
A seguinte afirmação foi feita: “Considerando apenas os países da América do Norte, há uma associação mais
forte entre o índice de felicidade e a importância da família do que entre o índice de felicidade e a importância
da liberdade.”
Calcule as medidas de associação adequadas para analisar a afirmação acima e:
• Coloque V se a afirmação for verdadeira ou F, se for falsa:
• Coloque o valor da medida de associação adequada entre o índice de felicidade e a importância da
família considerando apenas os países da América do Norte:
• Coloque o valor da medida de associação adequada entre o índice de felicidade e a importância da
liberdade considerando apenas os países da América do Norte:
28.2) Atenção: Coloque as respostas numéricas com ARREDONDAMENTO de 3 casas decimais e use vírgula
para separador decimal.
Atenção: É necessário construir no R exatamente o que está sendo pedido no enunciado para validar sua
resposta.
Seja y:Happiness e x=Freedom, obtenha os coeficientes linear e angular da reta relacionando essas variáveis.
Faça isso considerando todos os países de todos os continentes.
Com base nos coeficientes obtidos, realizou-se a seguinte interpretação para o valor obtido do coeficiente
angular da reta ajustada:
“O valor do coeficiente angular indica o acréscimo médio no índice de felicidade a cada aumento de uma
unidade na proporção de pessoas satisfeitas com sua liberdade de escolha na vida”
• Coloque V se a interpretação for verdadeira (correta) ou F, se for falsa (incorreta):
• Coloque o valor do coeficiente LINEAR da reta ajustada considerando todos os países de todos os
continentes:
• Coloque o valor do coeficiente ANGULAR da reta ajustada considerando todos os países de todos os
continentes:
28.3) Atenção: Coloque as respostas numéricas com ARREDONDAMENTO de 3 casas decimais e use vírgula
para separador decimal.
Atenção: É necessário construir no R exatamente o que está sendo pedido no enunciado para validar sua
resposta.
A seguinte afirmação foi feita:
“O impacto previsto da expectativa de vida sobre o índice de felicidade é superior quando considera
apenas os países da Ásia do que quando considera apenas os países da Europa.”
32
ESTATÍSTICA I
33