Caderno de Enunciados: Análise Exploratória Com Uso Do R

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 33

ESTATÍSTICA I

MÓDULO 1 CADERNO DE ENUNCIADOS


ASSUNTO Análise Exploratória com uso do R

EXERCÍCIO 1
A sua empresa está sendo acusada de pagar um salário maior para os homens do que para as mulheres. Você
foi designado para levantar argumentos que contradigam essa acusação.
Na base de dados Disc do arquivo Modulo1.xlsx você encontrará os seguintes dados de uma amostra de
funcionários da empresa:
→Sexo: fem (feminino) ou masc (masculino)
→Tempo: tempo no emprego (em anos)
→Salario: salário anual (em mil reais)
→Funcao: qualificação necessária para a função exercida (ensino médio ou superior)

Utilizando apenas a matéria do Capítulo 2 do livro texto (distribuição de frequências, histograma, etc.),
responda:
a. Há indícios de predominância de mulheres exercendo a função de ensino médio, ou ainda, parece que a
função exercida depende do sexo do funcionário?
b. Compare graficamente a distribuição de salários de homens e mulheres. Parece haver diferenças?
c. O que se pode dizer sobre a distribuição do tempo no emprego de homens e mulheres?
d. Que argumentos você utilizaria na defesa da sua empresa?
e. Como você justificaria esses argumentos?
Sugestão: Utilize o máximo de técnicas possível.

EXERCÍCIO 2
A base de dados CEO (Bertsimas e Freund, 2000) do arquivo Modulo1.xlsx traz dados sobre o salário anual de
50 CEOs de empresas americanas. As variáveis contidas na base são:
→ CEO: número de identificação do CEO
→ Ganhos: salário do CEO, em US$1.000
→ MBA: se o CEA cursou ou não MBA (1: sim e 0: não)

a. Através da construção e interpretação de um gráfico adequado, descreva o comportamento dos salários


dos CEOs, independentemente de ter ou não cursado MBA.
b. Através da construção e interpretação de gráficos adequados, verifique se ter cursado MBA é um fator
importante na determinação dos salários de CEOs.

1
ESTATÍSTICA I

EXERCÍCIO 3
A base de dados Financeiros do arquivo Modulo1.xlsx traz as seguintes informações:
→ DATA: dia, mês e ano
→ BVSP: retorno diário do Índice Bovespa da Bolsa de SP
→ ABEV3: retorno diário da ação da Ambev
→ PETR4: retorno diário ação da Petrobrás

a. Construa três histogramas com as taxas de variação, isto é, com os retornos desses 3 índices apresentados
na base de dados. Compare-os. Que conclusões você pode tirar dessa análise?
b. Os dados representam os retornos diários desses índices observados entre janeiro de 2007 e dezembro de
2013. Construa gráficos de linha para esses índices (pesquise como construí-los no R). A que conclusões você
chega?
c. Se você fosse um aplicador avesso ao risco, em qual ativo investiria? Por quê?

EXERCÍCIO 4
Um banco deseja comparar a lucratividade de clientes que utilizam o sistema on line e de clientes que não
utilizam esse sistema. Na base de dados Banco do arquivo Modulo1.xlsx, você encontrará os seguintes dados
para uma amostra de 500 clientes desse banco.
→ ID: número identificador do cliente do banco
→ Lucratividade: em reais (ou seja, valores negativos indicam prejuízo)
→ Usuario: se o cliente utiliza ou não o sistema on line (1: sim e 0: não)

a. Construa gráficos adequados que possibilitem a comparação da lucratividade de clientes que utilizam e que
não utilizam o sistema on line. Qual é a sua conclusão?
b. Se adotarmos a média amostral para avaliar a lucratividade, que tipo de cliente você preferiria ter no banco?
E se usarmos a mediana? Se você tivesse que tomar a decisão de privilegiar ou não a presença de clientes que
utilizam o sistema on line, qual seria sua escolha? Por quê?
c. Se o banco tivesse o mesmo número de clientes usuários do sistema e não usuários, qual dos dois tipos de
clientes contribui mais para a lucratividade total do banco? Por quê? E agora, qual seria sua decisão?

2
ESTATÍSTICA I

EXERCÍCIO 5
O Banco Mundial1 disponibiliza bases de dados estatísticos para um pouco mais de 200 países do mundo desde
o ano 1800, as quais consideram uma seleção abrangente de indicadores econômicos, sociais e ambientais.
Um desses indicadores é a expectativa de vida (em anos) de cada país.
A base de dados Life do arquivo Modulo1.xlsx contém a expectativa de vida de vários países para os anos
1800, 1926 e 2000.

Objetivo: Pelos noticiários, já temos ideia (hipótese teórica) que a expectativa de vida não só do Brasil, mas
também de todos os países vem aumentando no decorrer dos anos. Interesse aqui será compreender/analisar
a expectativa ao longo desses três anos.

Assim, escolhendo ferramentas adequadas, analise a expectativa de vida dos países em cada ano e também
compare entre os três anos.
Depois de fazer algumas análises seguindo o objetivo proposto anteriormente, faça as tarefas a seguir
(algumas podem se repetir):
a) Calcule a expectativa média de vida e a expectativa mediana de vida para cada ano a partir dos dados.
Interprete os resultados em termos do problema.
b) Construa uma tabela de frequências absolutas e relativas (em %) para cada um dos anos. Interprete os
resultados em termos do problema. Pesquise no tutorial da disciplina como fazer isso.
c) Construa um histograma para cada ano e interprete os gráficos no contexto do problema.
d) Analise o formato dos histogramas. O que se pode dizer sobre sua assimetria? Qual a implicação da
assimetria para a análise dos dados?

e) Faça uma análise dos dados avaliando as mudanças no comportamento da expectativa de vida ao longo
do tempo. O que está acontecendo no mundo? Para cada um dos três anos, ordene os valores das medidas
de posição (média, mediana e classe modal). A ordem dessas três medidas de posição é um mero acaso
ou pode ser consequência do formato dos dados? Argumente claramente sua resposta.

1
Para mais detalhes: http://data.worldbank.org/brazilian-portuguese
3
ESTATÍSTICA I

EXERCÍCIO 6
Perfil de aposentados brasileiros segundo condição de atividade: economicamente
ativos ou não economicamente ativos, considerando dados de 2015.
TEMA:
Atualmente, o Brasil vem experimentando um fenômeno até então característico de economias
desenvolvidas: o aumento relativo de sua população idosa. De acordo com dados da Pesquisa Nacional por
Amostras de Domicílios (PNAD), em 1992, a quantidade de brasileiros acima dos 60 anos de idade correspondia
a 7,25% da população, enquanto que, em 2011, essa proporção aumentou para 11,16%. Com isso, cresce
também o número de aposentados. O vocábulo “aposentadoria” remete, etimologicamente, à noção de
recolhimento ao interior da habitação, dos aposentos. Contudo, nem sempre é assim, pelo menos entre
aposentados brasileiros.
Há vários estudos com os dados provenientes da PNAD, os quais mostram que a participação do idoso
brasileiro no mercado de trabalho é alta, considerando-se os padrões internacionais, e que isso está relacionado
à inserção dos aposentados. A literatura costuma atribuir este fenômeno a fatores de natureza sócio-
econômica, especialmente a necessidade de aumentar a renda, já que o benefício da aposentadoria não seria
satisfatório ou suficiente para atender as necessidades de sobrevivência do aposentado e sua família.
Fonte: Textos extraídos e adaptados das seguintes referências:
Venezuela, M. K., Madalozzo, R. e Mendes, F. G., 2014. Perfil dos aposentados no Brasil nas últimas duas décadas:
utilizando decomposição de oaxaca-blinder em modelo logit. 21º. SINAPE. Natal – RN.
Khoury, H.T.T., Ferreira, A.de J.C., Araújo de-Souza, R., Matos, A.P.de e Barbagelata-Góes, S., 2010. Por que
aposentados retornam ao trabalho? O papel dos fatores psicossociais. Revista Kairós-Gerontologia, 13 (1), 147-
65. São Paulo.

PNAD:
A Pesquisa Nacional por Amostra de Domicílios - PNAD investiga anualmente, de forma permanente,
características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade
variável, de acordo com as necessidades de informação para o País. O levantamento dessas estatísticas constitui
um importante instrumento para avaliar, entre outras coisas, as melhorias das condições de vida no Brasil.
Na PNAD, os domicílios foram selecionados por amostragem e a população residente de um domicílio
foi composta pelos moradores presentes e ausentes, ou seja, pelas pessoas que consideravam tal domicílio
como local de residência habitual e, na data da entrevista, estavam presentes ou ausentes, temporariamente,
por período não superior a 12 meses em relação à data da pesquisa.
Fonte: http://www.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/default.shtm
https://biblioteca.ibge.gov.br/visualizacao/livros/liv98887.pdf

BASE DE DADOS:
A base de dados PEA do arquivo Modulo1.xlsx traz informações das seguintes variáveis:
4
ESTATÍSTICA I

'REGIAO – indica a região de residência do aposentado',


categorias: ('Norte', 'Nordeste', 'Sul', 'Sudeste', 'Centro-Oeste')
'PEA – responde se a condição de atividade do aposentado é economicamente ativa',
categorias: ('Sim','Nao')

'VQA12I – idade do aposentado',


em anos

'VCA75R – cor ou raça do aposentado',


categorias: ('Indigena','Branca','Preta','Amarela','Parda')
'VCA33I – nível de instrução mais elevado alcançado pelo aposentado',
categorias: ('Sem instrucao',
'Fundamental incompleto', 'Fundamental completo',
'Medio incompleto', 'Medio completo',
'Superior incompleto', 'Superior completo', 'Nao determinado')
'VQA49A – anos de estudo do aposentado',
em anos

'VQA99N – número de componentes que fazem parte da família do aposentado',


em quantidade de pessoas
'VQA83A – Rendimento mensal da aposentadoria',
em reais
'VQA27T - Rendimento mensal do trabalho principal se aposentado é economicamente ativo e
empregado',
em reais

PROBLEMA:
Nesta questão, há interesse em saber o perfil dos aposentados brasileiros que ofertavam seu
trabalho no ano de 2015 contrapondo àqueles que se declararam como aposentados não
economicamente ativos.
Assim, a análise de dados desenvolvida pelo seu grupo deve conter uso de ferramentas
estatísticas que permitam:
1. Descrever o perfil dos aposentados brasileiros que se declararam como condição de
atividade: economicamente ativos;
2. Descrever o perfil dos aposentados brasileiros que se declararam como condição de
atividade: não economicamente ativos;

5
ESTATÍSTICA I

3. Identificar possíveis semelhanças e/ou diferenças nas diversas características que


descrevem esses dois perfis de aposentados segundo suas condições de atividade:
‘economicamente ativos’ e ‘não economicamente ativos’.

A base de dados que terão acesso traz informações exclusivamente de uma amostra restrita
de aposentados que possuem as seguintes características:
✓ Todos são aposentados pelo sistema público de previdência que recebiam
normalmente pelo INSS no dia da pesquisa;
✓ Todos residentes de área urbana;
✓ Os aposentados são do sexo masculino, tem idade entre 53 a 90 anos e possuem nível
de escolaridade bem definido;
✓ Cada aposentado tem classificado sua condição de atividade bem definida na data da
pesquisa: economicamente ativo ou não economicamente ativo;
✓ Todos possuem rendimento da aposentadoria;
✓ Os aposentados economicamente ativos que estão empregados possuem rendimento
mensal de trabalho principal positivo de até R$ 250.000,00;
✓ A variável rendimento mensal de trabalho principal não possui valor quando o
aposentado é considerado economicamente ativo mas está desempregado ou se tem
condição de atividade de não economicamente ativo.

Assim, faça uma ANÁLISE DESCRITIVA respondendo os objetivos traçados anteriormente.


Apresente esses resultados em formato de relatório.

6
ESTATÍSTICA I

EXERCÍCIO 7
Mulher brasileira chefe de família. Que mulher é essa? Com dados de 2015
TEMA:
Elas fazem parte de um grupo que cresce a cada dia no Brasil: as mulheres chefes de
família
Gisele, 43 anos, trabalha em um escritório de contabilidade em São Vicente, litoral Sul
de São Paulo. É casada, tem uma filha e conta que desde o começo da relação sempre teve um
salário maior, e que isso nunca foi problema para eles.
O censo do IBGE (Instituto Brasileiro de Geografia e Estatística), de 2010, aponta que
40,9% das mulheres sustentam seus lares e como a própria pesquisa aponta, mulheres
provedoras de suas casas estão cada vez mais comum.

Fonte: Textos extraídos e adaptados da seguinte referência:


https://emais.estadao.com.br/blogs/familia-plural/elas-fazem-parte-de-um-grupo-que-cresce-a-cada-dia-no-
brasil-as-mulheres-chefes-de-familia/

PNAD:
A Pesquisa Nacional por Amostra de Domicílios - PNAD investiga anualmente, de forma
permanente, características gerais da população, de educação, trabalho, rendimento e
habitação e outras, com periodicidade variável, de acordo com as necessidades de informação
para o País. O levantamento dessas estatísticas constitui um importante instrumento para
avaliar, entre outras coisas, as melhorias das condições de vida no Brasil.
Na PNAD, os domicílios foram selecionados por amostragem e a população residente
de um domicílio foi composta pelos moradores presentes e ausentes, ou seja, pelas pessoas
que consideravam tal domicílio como local de residência habitual e, na data da entrevista,
estavam presentes ou ausentes, temporariamente, por período não superior a 12 meses em
relação à data da pesquisa.

Fonte: http://www.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/default.shtm
https://biblioteca.ibge.gov.br/visualizacao/livros/liv98887.pdf

7
ESTATÍSTICA I

BASE DE DADOS:
A base de dados mulher do arquivo Modulo1.xlsx traz informações das seguintes variáveis:
'VAR01C– indica a região de residência da mulher',
categorias: ('Norte', 'Nordeste', 'Sul', 'Sudeste', 'Centro-Oeste')
'VAR02C – indica a situação censitária da residência da mulher',
categorias: ('Rural', 'Urbana')
'VAR03C – idade da mulher',
em anos

'VAR04C – número de anos no trabalho principal',


em anos
'VAR05C – rendimento mensal do trabalho principal',
em reais
'VAR06C – rendimento mensal de todos os trabalhos',
em reais
'VAR07C – rendimento mensal familiar per capita',
em reais
'VAR08C – corresponde a condição da mulher na família,
categorias: ('Chefe','Nao chefe')

'VAR09C – cor ou raça da mulher',


categorias: ('Indigena', 'Branca', 'Preta', 'Amarela', 'Parda')
'VAR10C – natureza da união',
categorias: ('Casamento civil e religioso', 'So casamento civil',
'So casamento religioso','Uniao consensual')
'VAR11C – nível de instrução mais elevado alcançado pela mulher',
categorias: ('Sem instrucao',
'Fundamental incompleto', 'Fundamental completo',
'Medio incompleto', 'Medio completo',
'Superior incompleto', 'Superior completo', 'Nao determinado')
'VAR12C – ocupação da mulher no trabalho principal',
categorias: ('Empregado', 'Trabalhador domestico',
'Conta propria', 'Empregador')

'VAR13C – horas habitualmente trabalhadas por semana em todos os trabalhos',


categorias: ('Ate 14 horas', '15 a 39 horas', '40 a 44 horas',
'45 a 48 horas', '49 horas ou mais')

8
ESTATÍSTICA I

PROBLEMA:
Neste projeto, há interesse em descrever o perfil das mulheres casadas chefes de família no
ano de 2015 contrapondo àquelas que também são casadas e trabalham, mas não assumem
esse papel na família.
Assim, a análise de dados desenvolvida pelo seu grupo deve conter uso de ferramentas
estatísticas que permitam:
1. Descrever o perfil das mulheres brasileiras casadas que se declararam como condição
na família: Chefe;
2. Descrever o perfil das mulheres brasileiras casadas que se declararam como condição
na família: Não chefe;
3. Identificar possíveis semelhanças e/ou diferenças nas diversas características que
descrevem esses dois perfis de mulheres casadas segundo suas condições na família:
‘Chefe’ e ‘Não chefe’.

A base de dados que terão acesso traz informações exclusivamente de uma amostra restrita
de mulheres que possuem as seguintes características:
✓ Todas possuem pelo menos um trabalho principal no dia da pesquisa;
✓ São casadas e têm idade entre 20 a 59 anos;
✓ Todas possuem rendimento do trabalho principal entre R$ 200,00 e R$ 5.000,00;
✓ Cada mulher tem classificada sua condição na família bem definida na data da pesquisa:
Chefe ou Não chefe.

Assim, faça uma ANÁLISE DESCRITIVA respondendo os objetivos traçados anteriormente.


Apresente esses resultados em formato de relatório.

9
ESTATÍSTICA I

EXERCÍCIO 8 (PI 2020_02)


Textos e dados extraído de [Moro et al., 2014] S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict
the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, June 2014
“As campanhas de vendas de marketing constituem uma estratégia típica para aumentar os
negócios. As empresas usam marketing direto para atingir segmentos de clientes entrando em
contato com eles para cumprir uma meta específica.
Para prever o sucesso do telemarketing na venda de um produto bancário, vários clientes de um
banco português foram abordados entre 2008 e 2013.”
Algumas das variáveis (com nome em inglês) apresentadas nessa base de dados são:
• age: idade (em anos)
• marital: estado civil (com as categorias: 'divorced', 'married', 'single')
• contact: tipo de linha telefônica utilizada no contato (com as categorias: 'cellular',
'telephone', 'unknown')
• duration: tempo de duração da chamada telefônica para oferecer produto (em segundos)
• y: adesão ou não do produto oferecido pelo contato telefônico (com as categorias: 'yes', 'no')
A base de dados original passou por algumas limpezas. Dessa forma, foram considerados apenas
os clientes com até 420 segundos de duração da chamada telefônica. Essas informações estão
armazenadas na planilha pi2020_2 do arquivo Modulo1.xlsx.

8.1) Considerando apenas os clientes que receberam contato telefônico por celular ('cellular'),
calcule:
8.1.a) Quantidade de clientes que receberam contato telefônico por celular
8.1.b) Idade média dos clientes que receberam contato telefônico por celular
8.1.c) Desvio padrão da idade dos clientes que receberam contato telefônico por celular
Nos itens (8.1.b) e (8.1.c), arredonde cada resposta para 2 casas decimais e NÃO COLOQUE
A UNIDADE DE MEDIDA.

8.2) Considerando o tempo de duração da chamada telefônica com os clientes que fizeram a adesão
do produto, CALCULE os percentis de ordem 0%, 10%, 90% e 100%. Analisando APENAS esses
resultados calculados, assinale a afirmação verdadeira:
8.2.a) Há maior quantidade de clientes nos 10% menores tempos de duração do que nos 10%
maiores tempos de duração da chamada telefônica.
8.2.b) Há menor quantidade de clientes nos 10% menores tempos de duração do que nos 10%
maiores tempos de duração da chamada telefônica.
8.2.c) Há maior concentração de clientes nos 10% menores tempos de duração do que nos 10%
maiores tempos de duração da chamada telefônica.
8.2.d) Há menor concentração de clientes nos 10% menores tempos de duração do que nos 10%
maiores tempos de duração da chamada telefônica.

10
ESTATÍSTICA I

8.3) Construa um histograma para a variável duration considerando apenas os clientes que fizeram
a adesão do produto oferecido pelo contato telefônico. Nesse histograma, obrigatoriamente,
considere faixas iguais com amplitudes de 60 segundos, iniciando em zero e terminando em 420.
Assinale a afirmação verdadeira:
8.3.a) Para quem adere ao produto, há uma menor concentração de ligações com tempo de
duração da chamada telefônica durante o segundo minuto do que durante o terceiro minuto de
ligação
8.3.b) Há maiores concentrações nos maiores tempos de duração da chamada telefônica para
clientes que aderem ao produto, ou seja, assimetria à direita
8.3.c) Há assimetria à esquerda, portanto, espera-se que a duração média seja superior à
duração mediana da chamada telefônica para clientes que aderem ao produto
8.3.d) A minoria dos clientes que aderem ao produto possui tempo duração da chamada
telefônica pelo menos igual a média

EXERCÍCIO 9 (PI 2021_01)


Esta base de dados é original do Instituto Nacional de Doenças da Diabetes, Digestivas e dos Rins
(National Institute of Diabetes and Digestive and Kidney Disease) e considera apenas mulheres com
mais de 40 anos de idade.
No caso, o objetivo é prever se uma paciente possui ou não diabetes a partir de algumas
características da paciente.
Essa base de dados contém as seguintes variáveis:

• Pregnancies: Número de vezes que paciente engravidou


• Glucose: Concentração plasmática de glicose por 2 horas em teste oral de tolerância à
glicose
• BloodPressure: Pressão arterial diastólica (mm Hg)
• SkinThickness: Espessura da dobra da pele do tríceps (mm)
• Insulin: Insulina sérica de 2 horas (mu U / ml)
• BMI: Índice de massa corporal (peso em kg / (altura em m)^2)
• DiabetesPedigreeFunction: Função de pedigree de diabetes
• Age: Idade (em anos)
• Outcome: classifica paciente sem ou com diabetes, sendo 0 se sem diabetes; e 1 se com
diabetes
Fonte: https://www.kaggle.com/uciml/pima-indians-diabetes-database?select=diabetes.csv
https://docs.lemonade.org.br/pt-br/spark/base-de-dados/
https://www.andreagrandi.it/2018/04/14/machine-learning-pima-indians-diabetes/

A base de dados original passou por algumas limpezas e correções, a qual está contida na planilha
pi2021_1 do arquivo Modulo1.xlsx.

9.1) Atenção: Coloque as respostas numéricas com arredondamento de 4 casas decimais e


use vírgula para separador decimal.

Calcule as seguintes medidas-resumo considerando a variável Age:


a) Média. Coloque o resultado aqui:
b) Mediana. Coloque o resultado aqui:

11
ESTATÍSTICA I

9.2) Atenção: Coloque as respostas numéricas com arredondamento de 4 casas decimais e


use vírgula para separador decimal.
Atenção: É necessário construir no R exatamente o que está sendo pedido no enunciado para
validar sua resposta.

O interesse é avaliar qual das duas variáveis quantitativas é mais heterogênea quanto aos valores
observados para pacientes sem diabetes.
Calcule uma medida de variabilidade relativa adequada para comparar a dispersão das
seguintes variáveis:
Variável 1: Pregnancies
Variável 2: Glucose

• Resultado da medida numérica adequada da Variável 1:


• Resultado da medida numérica adequada da Variável 2:
• Variável 1 é mais heterogênea do que a Variável 2? (Responda 1 para Sim ou 2 para Não):

9.3) Atenção: É necessário construir no R exatamente o que está sendo pedido no enunciado
para validar sua resposta.

CONSTRUA um histograma ALISADO para a variável Insulin considerando apenas as pacientes


sem diabetes.
Observando esse histograma alisado, assinale a afirmação verdadeira:
9.3.a) Há uma maior concentração de pacientes com insulina entre 90 e 100 do que entre 240
e 250
9.3.b) Há maiores concentrações nos menores valores dessa variável, ou seja, assimetria à
esquerda
9.3.c) Há assimetria à esquerda, portanto, espera-se que a insulina média dessas pacientes
seja superior à insulina mediana
9.3.d) A maioria dessas pacientes possui insulina pelo menos igual a média dessa variável

12
ESTATÍSTICA I

EXERCÍCIO 10 (PI 2021_02)


Esta base de dados foi coletada com o objetivo de fazer uma análise do perfil do cliente, que é uma
análise detalhada dos clientes ideais de uma empresa. Ajuda uma empresa a entender melhor seus
clientes e torna mais fácil para eles modificar produtos de acordo com as necessidades,
comportamentos e preocupações específicos de diferentes tipos de clientes.
Essa base de dados contém as seguintes variáveis:

• ID: Número de identificação do cliente


• Education: nível educacional máximo obtido pelo cliente (Basic, 2n Cycle, Graduation,
Master ou PhD)
• Marital: estado civil do cliente (Single, Married, Together, Divorced ou Widow)
• Income: renda familiar anual do cliente (em dólares)
• Complain: classifica se o cliente fez uma reclamação nos últimos 2 anos, sendo 0 se não
reclamou; e 1 se reclamou
• MntWines: quantia mensal gasta em vinho nos últimos 2 anos (em dólares)
• MntFruits: quantia mensal gasta em frutas nos últimos 2 anos (em dólares)
• MntMeatProducts: quantia mensal gasta em carne nos últimos 2 anos (em dólares)
• MntFishProducts: quantia mensal gasta em peixe nos últimos 2 anos (em dólares)
• MntSweetProducts: quantia mensal gasta em doces nos últimos 2 anos (em dólares)
• MntGoldProducts: quantia mensal gasta em ouro nos últimos 2 anos (em dólares)
• Response: classifica se o cliente aceitou a oferta na última campanha, sendo 0 se não
aceitou; e 1 se aceitou
• NumWebPurchases: número de compras feitas por meio do site da empresa
• NumCatalogPurchases: número de compras feitas usando um catálogo
• NumStorePurchases: número de compras feitas diretamente nas lojas
• NumWebVisitsMonth: número de visitas ao site da empresa no último mês
Fonte: https://www.kaggle.com/imakash3011/customer-personality-analysis

A base de dados original passou por algumas limpezas e correções, a qual está contida na planilha
pi2021_2 do arquivo Modulo1.xlsx.

Observação: Caso tenha dúvidas quanto a tradução das categorias de Education e Marital, veja a
tabela abaixo
Education Marital
Basic Ensino fundamental Single Solteiro
2n Cycle Ensino médio Married Casado
Graduation Graduação Together União estável
Master Mestrado Divorced Divorciado
PhD PhD Widow Viúvo

13
ESTATÍSTICA I

10.1) Atenção: Coloque as respostas numéricas com ARREDONDAMENTO de 2 casas


decimais e use vírgula para separador decimal.
Atenção: É necessário construir no R exatamente o que está sendo pedido no enunciado para
validar sua resposta.
A seguinte afirmação foi feita: “A quantia mensal gasta em vinho nos últimos 2 anos é mais
homogênea entre os clientes que possuem no máximo graduação do que entre os que possuem no
máximo PhD.”
Calcule as medidas numéricas adequadas para analisar a afirmação acima e:
• Coloque V se a afirmação for verdadeira ou F, se for falsa:
• Coloque o valor da medida numérica adequada para os clientes com no máximo graduação:
• Coloque o valor da medida numérica adequada para os clientes com no máximo PhD:

10.2) Atenção: É necessário construir no R exatamente o que está sendo pedido no enunciado
para validar sua resposta.

Separando os clientes que aceitaram dos que não aceitaram a oferta na última campanha,
OBTENHA os percentis 0%, 25%, 50%, 75% e 100% para a quantia mensal gasta em frutas nos
últimos 2 anos (em dólares).
Analisando os valores obtidos e suas interpretações, assinale a resposta correta:
10.2.a) Enquanto metade dos clientes que aceitaram a oferta na última campanha gastaram no
máximo 21 dólares por mês com frutas nos últimos 2 anos, mais de 25% dos clientes que não
aceitaram a oferta gastaram no mínimo esta quantia.
10.2.b) Enquanto 75% dos clientes que fizeram uma reclamação nos últimos 2 anos gastaram
no máximo 27 dólares por mês com frutas nos últimos 2 anos, mais de 25% dos clientes que não
reclamaram gastaram no mínimo esta quantia.
10.2.c) Enquanto metade dos clientes que aceitaram a oferta na última campanha gastaram 21
dólares por mês com frutas nos últimos 2 anos, mais de 25% dos clientes que não aceitaram a
oferta gastaram no mínimo esta quantia.
10.2.d) Enquanto 75% dos clientes que fizeram uma reclamação nos últimos 2 anos
gastaram 27 dólares por mês com frutas nos últimos 2 anos, mais de 25% dos clientes que não
reclamaram gastaram no mínimo esta quantia.

10.3) Atenção: Coloque as respostas numéricas com ARREDONDAMENTO de 2 casas


decimais e use vírgula para separador decimal.
Atenção: É necessário construir no R exatamente o que está sendo pedido no enunciado para
validar sua resposta.
A seguinte afirmação foi feita: “A renda familiar anual do cliente solteiro possui distribuição
assimétrica à esquerda.”
Calcule as medidas numéricas solicitadas para analisar a afirmação acima e, então, indique no local
adequado se a afirmação é verdadeira ou falsa:
• Coloque o valor da renda familiar anual média do cliente solteiro:

14
ESTATÍSTICA I

• Coloque o valor da renda familiar anual mediana do cliente solteiro:


• Coloque V se a afirmação for verdadeira ou F, se for falsa:

EXERCÍCIO 11
O dono de uma venda desconfia que um de seus vendedores tem aconselhado seus fregueses a realizarem
suas compras em outro estabelecimento. Para testar sua hipótese, ele contou o número de vendas realizadas
a cada dia como função das horas que aquele funcionário passou atendendo os clientes. O estabelecimento
ficou aberto durante o mesmo período de tempo em todos os dias, com outros funcionários responsáveis
pelas vendas quando o funcionário suspeito não estava presente. Baseado apenas nos dados recolhidos abaixo
para 3 dos dias em que as medidas foram feitas, verifique se as suspeitas do dono da venda são razoáveis.
Utilize, para tanto, dois métodos de verificação, um gráfico (ou visual) e o outro através do cálculo de uma
quantidade que possa responder esta pergunta. Essas informações estão armazenadas na planilha Suspeita
do arquivo Modulo1.xlsx.
Coloque a resposta numérica com ARREDONDAMENTO de 2 casas decimais.

EXERCÍCIO 12
Um estudante realizou um estudo comparando o número de buracos em uma estrada com o número de pneus
furados observados nas borracharias da beira da estrada por várias semanas. Os resultados abaixo equivalem
às 20 observações realizadas por este estudante. Os números de pneus furados são representados pela
variável x, os números de buracos por y:

 x = 210  x = 2870  y = 409  y


2 2
= 10967

 (x − x ) = 671,108  (y − y ) = 2626,119  (x − x )(y − y ) = 1320,396


2 2

Baseado nestes resultados, o estudante concluiu que um número maior de pneus furados causa mais buracos
na estrada.
Refaça os cálculos do estudante de forma a verificar se existe alguma relação entre as variáveis.
Coloque a resposta numérica com ARREDONDAMENTO de 4 casas decimais.
O estudante estava correto em suas conclusões? Comente.

15
ESTATÍSTICA I

EXERCÍCIO 13
Para alavancar suas vendas, uma loja de móveis investiu em comerciais de TV.
A base de dados vendas do arquivo Modulo1.xlsx exibe os dados do desempenho da loja (através do volume
de vendas, em unidade monetárias) e do número de comerciais veiculados em 19 semanas.
a. Há evidências de que a veiculação de comerciais alavanca as vendas? Por quê?
b. O gerente de marketing propôs a veiculação de 70 comerciais em uma semana. Critique essa proposta (se
você a considera boa, justifique e se você a considerar ruim, faça uma contraproposta).

EXERCÍCIO 14
Uma empresa de recursos humanos é responsável pelo processo seletivo de várias empresas com sede em
São Paulo. Em uma das etapas do processo o candidato faz uma apresentação oral e é avaliado por dois
avaliadores. O dono da empresa está suspeitando que esses avaliadores adotaram critérios diferentes de
avaliação e para verificar se esta suspeita se confirma ele resolveu fazer um estudo. Neste estudo foram
registradas as notas dos dois avaliadores para 30 candidatos, veja os resultados abaixo.

10

6
Avaliador 2

4
^y = 1,065x + 0,308
2
r=0,92

0
0 2 4 6 8 10
Avaliador 1

a. O modelo ajustado é adequado? Por quê? Respostas sem justificativas serão ignoradas.
b. Interprete os coeficientes apresentados.
c. Você acha que as suspeitas do dono da empresa se confirmam? Por quê? Em caso afirmativo, qual avaliador
faz melhores avaliações? Justifique. Respostas sem justificativas serão ignoradas.
d. Qual deve ser a nota esperada do Avaliador 2 para um candidato que obteve nota 6,5 com o avaliador 1?
Coloque a resposta com ARREDONDAMENTO de 2 casas decimais.

16
ESTATÍSTICA I

EXERCÍCIO 15
O gráfico abaixo reproduz o comportamento das notas de uma prova (eixo y) em relação à proporção de faltas
dos alunos (eixo x).
a. Analise o gráfico. Como a nota está relacionada com a presença às aulas?
b. A partir desses dados ajustou-se o seguinte modelo de regressão: 𝑦̂ = 4,78 − 6,42(𝑥 − 0,05). Qual o
significado prático de 4,78? E de -6,42?

10
9
8
7
6
Nota na prova

5
4
3
2
1
0
0 0,05 0,1 0,15 0,2
Proporção de faltas

EXERCÍCIO 16
O gráfico abaixo traz informações sobre o nível de satisfação de professores de uma escola (eixo y) e o número
médio de reuniões semestrais que os professores devem participar (eixo x).
a. Faça uma análise completa das informações apresentadas.
b. Interprete os parâmetros do modelo de regressão.
c. Preveja o nível de satisfação de um professor que tem que participar de 7 reuniões semestrais. Coloque a
resposta com ARREDONDAMENTO de 3 casas decimais.

^y = -0,4202x + 5,6807
6 Correl(X,Y)=-0,49
5
Nível de satisfação

0
5 6 7 8 9 10
Número médio de reuniões semestrais

17
ESTATÍSTICA I

EXERCÍCIO 17
O gráfico abaixo representa o comportamento dos retornos diários (variação percentual de preços) da
Empresa PET (PET) em relação aos retornos do IBOVESPA (IBV).

0,08

0,06

0,04

0,02
PET

0
-0,04 -0,02 0 0,02 0,04 0,06
-0,02

-0,04

-0,06
IBV

a. Faça uma análise completa do gráfico. O modelo linear é adequado para descrever a relação entre os
retornos dos dois ativos? Por quê? Respostas sem justificativa serão ignoradas.

Em seguida, são apresentados o modelo de regressão linear simples e o coeficiente de correlação


correspondente.
̂ = 1,0480 𝐼𝐵𝑉 + 0,0006
𝑃𝐸𝑇
𝐶𝑜𝑟𝑟(𝑃𝐸𝑇, 𝐼𝐵𝑉) = 0,75
b. Interprete os coeficientes fornecidos, em termos do problema.
c. O IBOV pode ser considerado como uma medida do comportamento médio do mercado. Admita que o
modelo de regressão apresentado acima seja adequado para descrever como PET se comporta em relação ao
IBOV. Realize uma análise que visa determinar em que circunstâncias investir em PET pode ser mais vantajoso
do que investir no próprio IBOV. Explique sua resposta, pois respostas sem justificativa serão descartadas.

EXERCÍCIO 18
Deseja-se explicar a diferença de desempenho de um conjunto de alunos em duas avaliações. Uma das
hipóteses é que parte da diferença observada deve-se à participação em um programa complementar de
estudos. Para verificar se essa hipótese é válida, foi ajustado o seguinte modelo linear:
yˆ = −1,0 + 0,4 x
sendo: y=Nota na segunda avaliação – Nota da primeira avaliação e x = tempo (em horas) gasto no programa
complementar de estudos. Baseado no modelo acima, responda:
a. É possível afirmar que a segunda avaliação foi mais difícil (ou mais fácil do que a primeira)? Por quê?
Respostas sem justificativa serão ignoradas.

18
ESTATÍSTICA I

b. É possível afirmar que o programa de estudos foi bem-sucedido? Por quê? Respostas sem justificativa serão
ignoradas.
c. Qual a nota esperada na segunda avaliação de um aluno que tirou 5 na primeira avaliação e participou em
5 horas do programa complementar de estudos? Coloque a resposta com ARREDONDAMENTO de 1 casa
decimal.

EXERCÍCIO 19
Um analista de mercado deseja avaliar duas aplicações: as ações da Empresas Soles S/A e as ações da Empresa
AFEM. Nessa avaliação ele considera que o IBOVESPA é um indicador do comportamento geral do mercado.
A análise será feita utilizando dados sobre os retornos (variação percentual diária) do IBOVESPA (x), da
Empresa Soles S/A (y) e da Empresa AFEM (w). Através de um diagrama de dispersão ele concluiu pela
existência de uma relação linear entre as variáveis. Os modelos abaixo correspondem às retas de regressão
entre os retornos das empresas e o retorno do IBOVESPA:

yˆ = 0,870 x + 0,001 e wˆ = 1,017 x + 0,002


a) Como se comportam as ações de cada uma dessas empresas em relação ao IBOVESPA?
b) Compare o comportamento dos retornos das duas empresas e, baseado no IBOVESPA, descreva as
recomendações que você daria aos investidores sobre a compra das duas ações.

EXERCÍCIO 20
Neste exercício, faça uso da base de dados mundo do arquivo Modulo1.xlsx, no qual irá encontrar as seguintes
informações para 85 países.
X1: população em milhares de habitantes
X2: densidade populacional
X3: % de população urbana
X4: expectativa de vida feminina
X5: expectativa de vida masculina
X6: crescimento populacional
X7: mortalidade infantil
X8: PIB per capita
X9: % de mulheres alfabetizadas
X10: população em 100.000 habitantes

Construa um diagrama de dispersão do PIB per capita (y) em função do percentual da população que vive em
áreas urbanas (x).
a. Interprete o gráfico.
b. Um modelo de regressão linear seria adequado para modelar a relação entre essas variáveis?

19
ESTATÍSTICA I

c. Construa um diagrama de dispersão entre o logaritmo do PIB per capita (y) em função do percentual da
população que vive em áreas urbanas. Você acha que um modelo de regressão linear poderia ser adotado
para analisar esses dados?
d. Estime o modelo de regressão linear sugerido no item (c). Interprete os coeficientes em termos do
problema. Coloque os coeficientes da equação com ARREDONDAMENTO de 3 casas decimais.
e. Suponha que você tenha que fazer a previsão de quanto é o PIB per capita de um país com 50% de população
que vive em áreas urbanas. Usando o modelo estimado em (d), faça a previsão do PIB per capita para este
país. Utilize os coeficientes da equação SEM ARREDONDAMENTO PARA AS CONTAS e, então, apresente o
resultado da previsão com ARREDONDAMENTO de 3 casas decimais.

EXERCÍCIO 21
Na base de dados acoes do arquivo Modulo1.xlsx estão dispostos os preços diários de fechamento dos
seguintes ativos: Petr4 (Petrobras), Ibovespa (carteira de ações que simula a composição do Ibovespa), ITSA3
(Itaú) e AMBV4 (Ambev). É comum analisar o comportamento de ativos por meio de seu retorno.
Se yt é o valor de um determinado ativo no instante t, o retorno composto do ativo no dia t é definido por
rt=ln(yt)-ln(yt-1).
a) O que mede o retorno? Justifique.
b) Baseado nos retornos, que recomendação de investimentos você daria a um investidor com perfil
conservador? E com perfil arrojado? Justifique.
c) Como se comportam os riscos da Petr4, ITSA3 e AMBV4 em relação ao Ibovespa?
d) Construa, num mesmo par de eixos, os Boxplots relativos aos retornos dos quatro ativos. Por meio desses
gráficos, compare o comportamento desses investimentos.

EXERCÍCIO 22
(PI 2012_01) Os avanços na tecnologia, a abordagem mais científica em todas as etapas da produção e a
conquista de diversas certificações de qualidade tornaram a elaboração de vinho um processo bem controlado
e higiênico. Os investimentos em pesquisa e inovação com estes objetivos são consideráveis - uma vez que, o
mercado comporta-se de forma bastante rigorosa - e mídia, críticos e degustadores profissionais exercem
influência direta sobre o consumo.
Um produtor responsável não pode correr o risco de colocar no mercado um vinho com defeitos, com sabor
e aroma desagradáveis ou impróprios. Em casos extremos, pode-se perder uma safra, o que significa perder
um ano de rendimento, além dos "arranhões" na imagem da marca.
Fonte: http://revistaadega.uol.com.br/Edicoes/42/artigo132576-1.asp

20
ESTATÍSTICA I

Uma vinícola resolveu avaliar um de seus melhores vinhos junto com outros nove de marcas concorrentes.
Cada um desses dez vinhos foi avaliado, por um degustador profissional, nos seguintes quesitos: Limpidez2,
Aroma, Viscosidade3 e Sabor. Por fim, também foi computada uma nota de Qualidade que envolve, além das
variáveis de degustação, outras que mensuram a apresentação do rótulo, o tipo de rolha, etc.

A Tabela 1 apresenta, para cada vinho, as notas referentes aos quesitos de degustação Limpidez, Viscosidade
e Sabor e as da Qualidade geral, todas variando de 0 a 100.

Tabela 1. Banco de dados contendo as notas da degustação e da qualidade geral de cada vinho.
Vinho Limpidez Viscosidade Sabor Qualidade
1 29 55 56 78
2 29 67 56 57
3 34 68 68 93
4 30 79 68 95
5 34 55 68 89
6 37 69 68 89
7 39 67 61 72
8 34 68 68 72
9 20 53 56 47
10 27 59 56 19

Na Tabela 2, algumas medidas-resumo são apresentadas para todos os quesitos avaliados na degustação e
para a qualidade geral, sendo que todas as covariâncias foram calculadas entre a variável da coluna em
questão (quesito de degustação) e a variável de qualidade geral.
Tabela 2. Algumas medidas-resumo das notas da degustação e da qualidade geral dos vinhos.
Medidas-resumo Limpidez Aroma Viscosidade Sabor Qualidade
Média 31,30 67,20 64,00 62,50 71,10
Desvio Padrão 5,22 14,40 7,80 5,68 22,88
Covariância 70,07 248,38 80,20 99,45 -
Tamanho da amostra 10 10 10 10 10

Gráfico 1. Boxplots das notas de cada quesito de degustação.

2 Limpidez: um bom vinho deve apresentar-se sem partículas em suspensão e sem depósito, já que a presença destas indica que o vinho é mal
feito ou está deteriorado.
3 Viscosidade: definida pela aderência do líquido nas paredes da taça. Um vinho pouco viscoso é considerado “aguado”.

21
ESTATÍSTICA I

100

80

60
Notas

40

20

0
1
Limpidez 2
Aroma 3
Viscosidade 4
Sabor

Responda:
a) Verifique a veracidade ou não de cada frase descrita a seguir. Justifique sua resposta de forma clara, sucinta
e objetiva. Nas afirmações a seguir, pode ser necessário calcular medidas descritivas para auxiliarem na sua
justificativa.
a.1) “Para avaliar a qualidade geral de um vinho é melhor associá-la ao quesito Sabor do que ao quesito
Aroma desse mesmo vinho”.
a.2) “Para a amostra estudada, temos indícios de que os vinhos são mais homogêneos entre si no
quesito Limpidez”.
a.3) “Observando o comportamento do boxplot desenhado no Gráfico 1, o formato do polígono de
densidades das notas no quesito Viscosidade será semelhante ao de uma distribuição assimétrica a
direita ou positiva.”
a.4) “A distribuição de 50% das notas centrais no quesito Sabor se assemelha à distribuição de 50% das
notas centrais no quesito Viscosidade. Nada podemos dizer sobre a outra metade das notas no quesito
Sabor, pois essa outra metade não está representada no Gráfico 1.”
a.5) “Há um possível valor aberrante entre as notas que descrevem a qualidade geral dos vinhos.”

b) (DESAFIO) Como o objetivo de prever a qualidade geral de um vinho com as características semelhantes da
amostra estudada, será feito o seguinte ajuste linear:
yˆ i = azi + b , (1)
sendo
ŷ i o valor previsto para qualidade geral do vinho i;

22
ESTATÍSTICA I

z i = ( xi − x ) , em que xi é a nota no quesito Aroma do vinho i e x a nota média no quesito Aroma; e


b e a os coeficientes linear e angular, respectivamente.
Responda:
b.1) Calcule os coeficientes linear e angular descritos na equação (1). Interprete-os considerando o
contexto do problema apresentado (ou seja, considerando os significados das variáveis), caso
contrário, sua resposta será desconsiderada.
b.2) Baseada na reta ajustada descrita na equação (1) e nos coeficientes calculados no item anterior,
qual deve ser a nota de degustação no quesito de Aroma de um vinho com qualidade igual a 73?

EXERCÍCIO 23 (PI 2018_01)


“Esta quarta-feira, 28 de fevereiro, é o Dia Mundial Sem Facebook, a rede social mais famosa do mundo, que conta com
mais de dois bilhões de usuários. A iniciativa é lançada por um grupo de especialistas em tecnologia da Sillicon Valley, região
da Califórnia que abriga as maiores empresas do setor. O objetivo é sensibilizar as pessoas sobre os perigos do vício nas
redes sociais. Para tentar diminuir a hiperconectividade, a desintoxicação digital ou "digital detox", uma tendência criada
nos Estados Unidos, tem se espalhado pelo mundo e avança na Europa.”
...
“Além de sintomas de depressão, diminuição do desempenho escolar, distúrbios do sono, o vício em internet pode levar ao
isolamento social. Quem passa muitas horas em frente às telas corre maior risco de ter alterações de humor e aumento de
ansiedade.”
(Fonte: trechos de uma notícia “Clínicas de desintoxicação digital contra vício na internet aumentam na Europa” em
http://br.rfi.fr/europa/20180228-clinicas-de-desintoxicacao-digital-contra-vicio-na-internet-aumentam-na-europa)

Preocupada com essa notícia publicada em 28/02/2018, as professoras de uma disciplina de 2º semestre de
uma faculdade de Administração e Economia decidiram realizar um estudo com uma amostra de 30 alunos
selecionados aleatoriamente entre seus ex-alunos do 2º semestre de 2017. Elas observaram o número de
amigos no Facebook e a nota na prova final de cada um desses 30 alunos e realizaram algumas análises
estatísticas que são apresentadas nas tabelas e gráficos a seguir.

Tabela 1. Medidas resumo da nota na prova final e do número de amigos no Facebook dos alunos do 2º
semestre de 2017.
Variável Mínimo Q1 Q2 Média Q3 Máximo Desvio-padrão
Número de amigos no
210,00 415,00 650,00 679,50 890,00 1500,00 308,85
facebook
Nota na prova 4,30 4,85 5,28 5,20 5,47 5,98 0,44

Figura 1. Gráfico de dispersão relacionando a nota na prova final e o número de amigos no Facebook dos
alunos do 2º semestre de 2017.

23
ESTATÍSTICA I

𝑦̂ = −0,0010𝑥 + 5,8514
Corr(x,y) = − 0,677

Figura 2. Gráfico de dispersão relacionando a nota na prova final e o número de amigos no Facebook dos
alunos do 2º semestre de 2017 (dividido em quadrantes de acordo com a nota média da prova final e o
número médio de amigos no Facebook dos 30 alunos).

Responda:
a) A Figura 2 apresenta um gráfico que está associando a nota na prova final e o número de amigos no
Facebook dos alunos do 2º semestre de 2017, ainda, foi dividido em 4 quadrantes (veja as numerações no
24
ESTATÍSTICA I

gráfico) de acordo com a nota média da prova final e o número médio de amigos no Facebook dos 30
alunos. Um aluno que cursa a disciplina neste semestre (1o semestre de 2018), disse que se o seu
desempenho fosse igual a um dos alunos da amostra, ele gostaria de se encontrar no quadrante II. Você
concorda ou discorda dele?
( ) Concordo ( ) Discordo
JUSTIFIQUE SUA ESCOLHA.

As professoras da disciplina gostariam também de comparar os resultados com os alunos do 1º semestre de


2017. Então, novamente elas selecionaram aleatoriamente 30 alunos que cursaram a disciplina no 1º semestre
de 2017 e, observaram as mesmas variáveis e realizaram novas análises estatísticas.

Tabela 2. Medidas resumo da nota na prova final e do número de amigos no Facebook dos alunos do 1º
semestre de 2017.
Variável Mínimo Q1 Q2 Média Q3 Máximo Desvio-padrão
Número de amigos no
158,00 311,80 488,00 509,80 667,50 1125,00 231,61
facebook
Nota na prova 4,95 5,52 5,84 5,85 6,20 6,88 0,50

b) No 1º semestre de 2017, espera-se que o impacto do número de amigos no Facebook sobre a nota final
da prova da disciplina tenha sido maior do que o observado no 2º semestre de 2017, pois existe uma
associação mais forte (r = –0,812) entre essas variáveis no 1º semestre.
( ) Verdadeira ( ) Falsa
JUSTIFIQUE SUA ESCOLHA.

c) Ainda no 1º semestre de 2017, foi constatado que a nota da prova reduzia, em média, 0,17 ponto a cada
100 amigos a mais que o aluno tivesse no Facebook e, ainda, que a nota esperada na prova final de um
aluno dessa disciplina que não possuía amigos no Facebook era de 6,7415.
Com base nessas informações e nas demais que julgar necessárias, compare a situação dos alunos do 2º
semestre de 2017 com a dos alunos do semestre anterior.

25
ESTATÍSTICA I

EXERCÍCIO 24
Visando aumentar a produtividade de uma grande empresa, a diretoria de recursos humanos avaliou 400
funcionários de uma unidade produtiva.
Foram observadas as seguintes variáveis:
y: Produtividade (quanto maios a nota, melhor)
F1: Nota de satisfação com a empresa (quanto maior a nota, maior a satisfação, valor F1=0 indica
neutralidade)
F2: Grau de ambição do funcionário (quanto maior a nota, maior a ambição, valor F2=0 indica
neutralidade)
F3: Grau de satisfação com a remuneração (quanto maior a nota, maior a satisfação, valor F3=0 indica
neutralidade)
Idade: Idade em anos completos
Sexo = 0, se masculino; 1, se feminino
Estudo: anos de estudos formais completos

A base de dados Produtividade está disponível no arquivo Modulo1.xlsx.


Baseado em análises gráficas e numéricas, identifique a variável que melhor prevê a produtividade. Coloque
as respostas numéricas com ARREDONDAMENTO de 3 casas decimais.

EXERCÍCIO 25 (PI 2019_2)


KAGGLE:
O Kaggle.com é um site de competições internacionais de Data Science no qual empresas oferecem prêmios
para os analistas que fizerem a melhor modelagem preditiva de diversos problemas.
Em uma das competições recentes, o desafio era prever o preço de um imóvel a partir das características
descritas de uma “casa” dos sonhos (https://www.kaggle.com/c/house-prices-advanced-regression-
techniques). Assim, assuma que o objetivo geral para trabalhar com a base de dados seja: “Analisar como uma
determinada variável pode impactar sobre o preço de vendas de um imóvel”.
Em um link disponibilizado no Blackboard, você receberá um conjunto de dados bem menor em termos de
número de variáveis que realmente está disponível no Kaggle.
A seguir, veja o significado das variáveis.

SIGNIFICADO DAS VARIÁVEIS:


A base de dados a que terá acesso traz informações de 1460 imóveis cujas variáveis selecionadas possuem as
seguintes descrições traduzidas (mantendo os nomes das variáveis e das categorias do problema original - em
inglês):
✓ Id: número que identifica o imóvel na base de dados.

26
ESTATÍSTICA I

✓ SalePrice: preço de venda do imóvel (em mil dólares). Essa é a variável alvo que você irá tentar predizer.
✓ LotArea: tamanho do lote (em pés quadrados).
✓ X1stFlrSF: tamanho do primeiro andar (em pés quadrados).
✓ X2ndFlrSF: tamanho do segundo andar (em pés quadrados).
✓ GarageCars: tamanho da garagem em capacidade de carros (número de carros).
✓ Foundation: tipo de fundação, com as seguintes categorias:
BrkTil Tijolo e telha
CBlock Bloco de concreto
PConc Concreto usinado
Slab Laje
Stone Pedra
Wood Madeira
✓ Street: tipo de acesso rodoviário à propriedade, com as seguintes categorias:
Grvl Cascalho
Pave Pavimentado
✓ CentralAir: ar condicionado central, com as seguintes categorias:
N Não
Y Sim
✓ YearBuilt: ano da construção do imóvel.

A base de dados house do arquivo Modulo1.xlsx traz todas essas 10 variáveis.

Responda:
a) Utilizando uma ferramenta estatística gráfica que seja adequada, analise “como a presença ou não de ar
condicionado central no imóvel impacta o preço de vendas de um imóvel”.
A interpretação, baseada apenas na técnica escolhida, precisa ser completa PORÉM sucinta. Deixe claro que
aspecto do gráfico você está utilizando na sua análise.

b) Utilizando uma ferramenta estatística numérica que seja adequada e, utilizando apenas essas informações
numéricas, faça:
✓ Descreva o tipo de assimetria dos preços de vendas considerando apenas os imóveis com garagem
para 4 carros.
A descrição com base na(s) técnica(s) escolhida(s) precisa ser completa PORÉM sucinta. Deixe claro como você
está usando as informações numéricas na sua análise.
Coloque as respostas numéricas com ARREDONDAMENTO de 2 casas decimais.

27
ESTATÍSTICA I

EXERCÍCIO 26 (PF 2020_2)


Fonte: Extraído da plataforma Kaggle (https://www.kaggle.com) intitulado “Analyze diamonds by their cut, color, clarity, price, and
other atributes”, com adaptações de textos e dos dados para fins didáticos. Ainda, a base de dados original
passou por algumas limpezas e transformações.

Essa base de dados possui os preços e outros atributos de dois mil diamantes.
As variáveis apresentadas na planilha pf2020_2 do arquivo Modulo1.xlsx são:
• id: número de identificação do diamante
• preco: preço do diamante (em mil dólares);
• corte: qualidade do corte com as categorias ordinais: 'Moderado', 'Bom', 'Muito bom', 'Premium',
'Ideal';
• cor: cor do diamante com as categorias ordinais: 'D' (pior) até 'J' (melhor);
• claridade: indica quão claro é o diamante com as categorias ordinais: 'I1' (pior), 'SI2', 'SI1', 'VS2',
'VS1', 'VVS2', 'VVS1' e 'IF' (melhor);
• peso: peso do diamante (em gramas);
• comprimento: comprimento do diamante (em milímetros);
• largura: largura do diamante (em milímetros); e
• profundidade: profundidade do diamante (em milímetros).

26.1) CALCULE uma medida de associação adequada que permita avaliar o grau de associação entre as
variáveis: preco e peso.
Ainda, interprete o grau da associação: fraco, moderado ou forte.
26.1.a) Digite o valor da medida de associação (com 4 casas decimais):
26.1.b) Digite o grau (fraco, moderado ou forte):

26.2) CONSTRUA um boxplot para a variável preco dividida pelos rótulos da variável corte.
Analisando o boxplot da variável preco apenas com qualidade de corte Moderado, com base nos 50% dos
valores centrais, assinale a alternativa correta:
26.2.a) Presença de assimetria a esquerda, em que a mediana está mais próxima do terceiro quartil do
que do primeiro quartil.
26.2.b) Presença de assimetria a esquerda, em que a mediana está mais distante do terceiro quartil do
que do primeiro quartil.
26.2.c) Presença de assimetria a direita, em que a mediana está mais próxima do terceiro quartil do que
do primeiro quartil.
26.2.d) Presença de assimetria a direita, em que a mediana está mais distante do terceiro quartil do que
do primeiro quartil.
26.2.e) Presença de simetria, em que mediana está equidistante do terceiro quartil e do primeiro quartil.

26.3) CALCULE os coeficientes linear e angular da reta estimada para prever o preço do diamante em função
da variável peso. Obtenha os coeficientes com ARREDONDAMENTO de 4 casas decimais.

28
ESTATÍSTICA I

Considerando os valores estimados desses coeficientes e suas respectivas interpretações, assinale a resposta
correta:
26.3.a) O acréscimo esperado no preço do diamante é 2,1656 mil dólares a cada 1 grama a mais em
um diamante.
26.3.b) O aumento no preço do diamante é 2,1656 mil dólares a cada 1 grama a mais em um diamante.
26.3.c) O acréscimo esperado no preço do diamante é 0,4000 mil dólares a cada 1 grama a mais em
um diamante.
26.3.d) O aumento no preço do diamante é 0,4000 mil dólares a cada 1 grama a mais em um diamante.
26.3.e) O acréscimo esperado no preço do diamante é 6,0832 mil dólares a cada 1 grama a mais em
um diamante.

EXERCÍCIO 27 (PF 2021_1)


Fonte: Extraído da plataforma Kaggle (https://www.kaggle.com) intitulado “Students Performance in Exams”,
com adaptações de textos e dos dados para fins didáticos. Ainda, a base de dados original passou por algumas
limpezas e transformações.

Este conjunto de dados inclui pontuações de 1000 estudantes em três exames (de 0 a 100) e uma variedade
de aspectos pessoais, sociais e econômicos que podem ter associação com essas pontuações.
As variáveis apresentadas na planilha pf2021_1 do arquivo Modulo1.xlsx são:

• sexo: sexo do estudante (feminino ou masculino);


• raca: raça/etnia do estudante (grupo A, grupo B, grupo C, grupo D ou grupo E);
• escolaridadepais: grau de escolaridade dos pais (medio incompleto, medio completo, curso tecnico,
superior incompleto, superior completo, pos-graduacao completa);
• almoco: indica se o estudante paga o valor padrão do almoço escolar ou se é qualificado para ter
valor reduzido ou grátis (padrao ou reduzido);
• curso: se o estudante realizou um curso preparatório para os exames (sim ou nao);
• matematica: pontuação obtida pelo estudante no exame de matemática (0 a 100);
• escrita: pontuação obtida pelo estudante no exame de escrita (0 a 100); e
• leitura: pontuação obtida pelo estudante no exame de leitura (0 a 100).

27.1) Um dos objetivos da pesquisa é avaliar se a pontuação obtida pelo estudante no exame de matemática
seria bem modelada por uma distribuição normal. Utilize um método numérico adequado e, então, escolha a
alternativa correta.
Atenção: no script, obrigatoriamente, é necessário ter as linhas de comando que justifiquem a alternativa que
julgar correta.
Considerando apenas as estudantes mulheres:
27.1.a) A variável pontuação no exame de matemática delas seria bem modelada por uma distribuição
normal, pois sua distribuição é praticamente simétrica (b1 é aproximadamente -0,3310), ou seja, é levemente
assimétrica

29
ESTATÍSTICA I

27.1.b) A variável pontuação no exame de matemática delas seria bem modelada por uma distribuição
normal, pois JB é aproximadamente 4,5034
27.1.c) A variável pontuação no exame de matemática delas não seria bem modelada por uma
distribuição normal, pois JB é aproximadamente 16,489
27.1.d) A variável pontuação no exame de matemática delas seria bem modelada por uma distribuição
normal, pois sua distribuição é praticamente simétrica (b1 é aproximadamente -0,1448), ou seja, é levemente
assimétrica
27.1.e) Nenhuma destas alternativas

27.2) CALCULE os coeficientes linear e angular da reta estimada para prever a pontuação no exame de
leitura em função da pontuação no exame de matemática. Obtenha os coeficientes com
ARREDONDAMENTO de 4 casas decimais.
Considerando os valores estimados desses coeficientes e suas respectivas interpretações, assinale a resposta
correta:
27.2.a) O acréscimo esperado na pontuação no exame de leitura é 0,8044 a cada 1 ponto a mais no
exame de matemática.
27.2.b) O aumento na pontuação no exame de leitura é 0,8044 a cada 1 ponto a mais no exame de
matemática.
27.2.c) O acréscimo esperado na pontuação no exame de matemática é 0,8009 a cada 1 ponto a mais
no exame de leitura.
27.2.d) O aumento na pontuação no exame de matemática é 0,8009 a cada 1 ponto a mais no exame
de leitura.
27.2.e) Nenhuma das anteriores.

27.3) OBTENHA os valores do esquema de 5 pontos para a pontuação no exame de leitura segmentada por
sexo.
Analisando os valores obtidos e suas interpretações, assinale a resposta correta:
27.3.a) Há indícios de que metade dos estudantes do sexo feminino com as melhores notas obtiveram
pontuação mínima um pouco abaixo de 75, enquanto mais de 75% dos estudantes do sexo masculino com as
piores notas parecem ter obtido no máximo uma pontuação de 75.
27.3.b) Há indícios de que 25% dos estudantes do sexo feminino obtiveram pontuação um pouco
abaixo de 65, enquanto metade dos estudantes do sexo masculino obtiveram pontuação um pouco abaixo
de 65.
27.3.c) Há indícios de que metade dos estudantes do sexo feminino com as piores notas obtiveram
pontuação máxima de 65, enquanto mais de 50% dos estudantes do sexo masculino com as melhores notas
parecem ter obtido no mínimo uma pontuação de 65.

30
ESTATÍSTICA I

27.3.d) Há indícios de que 75% dos estudantes do sexo feminino obtiveram pontuação um pouco
abaixo de 75, enquanto menos de 75% dos estudantes do sexo masculino obtiveram pontuação um pouco
abaixo de 75.
27.3.e) Nenhum das anteriores.

EXERCÍCIO 28 (PF 2021_2)


O Relatório de Felicidade Mundial é uma pesquisa histórica sobre o estado de felicidade global. O primeiro
relatório foi publicado em 2012, o segundo em 2013, o terceiro em 2015 e o quarto na Atualização de 2016.
O World Happiness 2017, que classifica os países por seus níveis de felicidade, foi lançado nas Nações Unidas
em um evento que celebra o Dia Internacional da Felicidade em 20 de março.
O índice de felicidade é obtido pedindo aos entrevistados que pensem em uma escada com a melhor vida
possível para eles sendo 10 e a pior vida possível sendo 0 e para classificar suas próprias vidas atuais nessa
escala.
O objetivo é avaliar até que ponto cada um dos seis fatores - produção econômica, suporte social,
expectativa de vida, liberdade, ausência de corrupção e generosidade - contribui para tornar as avaliações
de vida (de felicidade) mais altas em cada país.

A base de dados armazena os resultados obtidos em 2016, com as seguintes variáveis:


Country: nome do país
Continent: continente ao qual o país pertence (Africa, Asia, Australia, Europe, North America e South
America)
Happiness: Índice de felicidade em uma escala de 0 a 10, sendo que quanto maior o valor “mais feliz” é o
país
Economy: log do PIB per capita do país
Family: Importância de ter uma família ou amigos para ajudar quando preciso (é um valor entre 0 e 1, ou
seja, pode ser analisada como a proporção de pessoas que acham importante ter uma família ou amigos
para ajudar quando preciso, em cada país)
Life: expectativa de vida, em anos, do país
Freedom: Importância da liberdade em cada país (é um valor entre 0 e 1, ou seja, pode ser analisada como a
proporção de pessoas que estão satisfeitas com sua liberdade de escolha na vida, em cada país)
Generosity: grau de generosidade de um país, que pode variar de -1 a +1, sendo quanto mais negativa,
menos generoso em termos de doação um país é; e quanto mais positivo, mais generoso em termos de
doação um país é
Trust: Percepção de corrupção em um governo (é um valor entre 0 e 1, ou seja, pode ser analisada como a
proporção de pessoas que acham que há corrupção no país, então, quanto menor o valor, menos corrupção
no país)

Fonte: https://www.kaggle.com/unsdsn/world-happiness e https://worldhappiness.report/ed/2017/#appendices-and-data

31
ESTATÍSTICA I

A base de dados original passou por algumas limpezas e correções, a qual está contida na planilha pf2021_2
do arquivo Modulo1.xlsx.

28.1) Atenção: Coloque as respostas numéricas com ARREDONDAMENTO de 3 casas decimais e use vírgula
para separador decimal.
Atenção: É necessário construir no R exatamente o que está sendo pedido no enunciado para validar sua
resposta.
A seguinte afirmação foi feita: “Considerando apenas os países da América do Norte, há uma associação mais
forte entre o índice de felicidade e a importância da família do que entre o índice de felicidade e a importância
da liberdade.”
Calcule as medidas de associação adequadas para analisar a afirmação acima e:
• Coloque V se a afirmação for verdadeira ou F, se for falsa:
• Coloque o valor da medida de associação adequada entre o índice de felicidade e a importância da
família considerando apenas os países da América do Norte:
• Coloque o valor da medida de associação adequada entre o índice de felicidade e a importância da
liberdade considerando apenas os países da América do Norte:

28.2) Atenção: Coloque as respostas numéricas com ARREDONDAMENTO de 3 casas decimais e use vírgula
para separador decimal.
Atenção: É necessário construir no R exatamente o que está sendo pedido no enunciado para validar sua
resposta.
Seja y:Happiness e x=Freedom, obtenha os coeficientes linear e angular da reta relacionando essas variáveis.
Faça isso considerando todos os países de todos os continentes.
Com base nos coeficientes obtidos, realizou-se a seguinte interpretação para o valor obtido do coeficiente
angular da reta ajustada:
“O valor do coeficiente angular indica o acréscimo médio no índice de felicidade a cada aumento de uma
unidade na proporção de pessoas satisfeitas com sua liberdade de escolha na vida”
• Coloque V se a interpretação for verdadeira (correta) ou F, se for falsa (incorreta):
• Coloque o valor do coeficiente LINEAR da reta ajustada considerando todos os países de todos os
continentes:
• Coloque o valor do coeficiente ANGULAR da reta ajustada considerando todos os países de todos os
continentes:

28.3) Atenção: Coloque as respostas numéricas com ARREDONDAMENTO de 3 casas decimais e use vírgula
para separador decimal.
Atenção: É necessário construir no R exatamente o que está sendo pedido no enunciado para validar sua
resposta.
A seguinte afirmação foi feita:
“O impacto previsto da expectativa de vida sobre o índice de felicidade é superior quando considera
apenas os países da Ásia do que quando considera apenas os países da Europa.”

32
ESTATÍSTICA I

Calcule as medidas numéricas adequadas para analisar a afirmação acima e:


• Coloque V se a afirmação for verdadeira ou F, se for falsa:
• Coloque o valor da medida numérica adequada quando considera apenas os países da Ásia:
• Coloque o valor da medida numérica adequada quando considera apenas os países da Europa:

33

Você também pode gostar