Análise de Dados

Medidas de dispersão são maneiras de resumir um grupo de dados descrevendo a
variabilidade dos dados. Ela significa até que ponto é provável que os dados
numéricos variem sobre um valor médio. Em outras palavras, a dispersão ajuda a
entender a distribuição dos dados. Determine o desvio-padrão e a variância do
conjunto de valores:
[6,8,4.5,6.3,7.1,8.9,5.2,9.1,23,34,2.2].
Alternativas:
Desvio-padrão: 9.49 e variância: 90.15.checkCORRETO

Desvio-padrão: 9.49 e variância: 50.15.
Resolução comentada:
Código da questão: 58505

2)
As análises de correlação e regressão são frequentemente usadas dentro das
pesquisas de todas as áreas de interesse. Embora parecidas, correlação e regressão
não são sinônimos, e cada abordagem estatística é usada para uma finalidade
determinada, baseada em um conjunto de suposições específicas. Sobre a correlação,
podermos afirmar que:
Alternativas:
Os resultados do coeficiente de correlação (r) varia entre -1 a 0.

Na correlação positiva, um valor diminui à medida que o outro aumenta.
Em uma correlação negativa, não existe correlação entre as variáveis.
Ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação (r)
para quantificar a força e a direção do relacionamento entre duas variáveis
numéricas.checkCORRETO
A análise de correlação (r) fornece um valor que resume o grau de relacionamento
linear somente em uma variável.
ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação (r)
para quantificar a força e a direção do relacionamento entre duas variáveis
numéricas.
Sejam x1, x2, ..., xn e y1, y2, ..., yn. os valores observados de X e Y,
respectivamente. Denomina-se coeficiente de correlação (amostral) entre X e Y o
número dado por:
Em que:
r = o coeficiente de correlação.
xi = os valores da variável x em uma amostra.
yi = os valores da variável y em uma amostra.
x̅ = a média dos valores da variável

3)
Em um banco de dados, muitas vezes, encontramos dados nulos. Esses valores precisam
ser removidos do DataFrame antes da exploração de dados. O Python fornece vários
métodos para limpeza e tratamento. Portanto, ao analisar o conjunto de dados a
seguir, notamos que existem alguns valores nulos.
Figura 1 – Conjunto de dados
Fonte: elaborada pela autora.
Vamos supor que seja necessário substituir os valores nulos pelas médias dos
valores. Qual opção a seguir indica o método para substituir os valores pela média?
Alternativas:
data.drop('data', inplace=True, axis=media).

data.fillna(data.mean(0)).checkCORRETO
data.drop('data', inplace=True, axis=mediana).
data.fillna(data.mean(A)).
data.fillna(data.mean(A e C)).
o método .fillna().substituindo o valor NaN por outro que seja satisfatório para a
nossa análise, como a média dos valores, por exemplo.

4)
O teste t é usado com frequência para avaliar duas populações distintas quanto a
uma variável quantitativa, em que o parâmetro médias (µ) e desvios-padrão (σ) são
desconhecidos. Em relação aos testes T de Student para amostras independentes,
podemos afirmar que:
Alternativas:
Teste usado com frequência para avaliar uma população.

Teste t de amostras independentes para comparar médias do mesmo grupo em períodos
diferentes.
Teste t de amostras independentes testa a média de um único grupo em relação a uma
média conhecida.
O teste de independência compara as médias de dois grupos independentes para
determinar se há evidência estatística de que as médias da população associada são
significativamente diferentes.checkCORRETO
O teste t para amostras independentes compara as médias apenas de um grupo
dependente para verificar a evidência estatística de que as médias da população
associada são significativamente diferentes.
teste t de amostras independentes para comparar as médias de dois grupos
diferentes, sobre o mesmo período.

5)
Uma distribuição de probabilidade é uma função que descreve a probabilidade de
obter os possíveis valores que uma variável aleatória pode assumir. Dentre as
distribuições de probabilidade, temos as do tipo discreta, que descreve a
probabilidade de valores contábeis, como uma lista de números inteiros não
negativos. Com uma distribuição de probabilidade discreta, cada valor possível da
variável aleatória discreta pode ser associado a uma probabilidade diferente de
zero. Sobre distribuição de probabilidade, podemos afirmar que:
I. A mais básica de todas as variáveis aleatórias discretas é a binomial. Diz-se
que X tem uma distribuição de binomial se X = 1 ocorrer com probabilidade π e X =
0.
II. A distribuição Normal segue X1, X2,…, Xn como variáveis aleatórias Bernoulli
independentes e identicamente distribuídas (iid).
III. Na distribuição Bernoulli E(X) = V (X) = λ.
IV. A distribuição contínua binomial é conhecida como n eventos de Bernoulli.
V. A distribuição exponencial é utilizada para análise de sobrevivência.
São verdadeiras:
Alternativas:
I – II – III – V.
II – V.
I – II – IV.
II – IV.
Apenas V.checkCORRETO
I é falsa – A mais básica de todas as variáveis aleatórias discretas é a Bernoulli.
Diz-se que X tem uma distribuição de Bernoulli se X = 1 ocorrer com probabilidade π
e X = 0.
II é falsa – A Binomial segue X1, X2,…, Xn como variáveis aleatórias Bernoulli
independentes e identicamente distribuídas (iid).
III é falsa – Distribuição Poisson E(X) = V (X) =λ.
IV é falsa – Distribuição binomial é do tipo discreta.
V é verdadeira – A distribuição exponencial é utilizada para análise de
sobrevivência.

6)
Teste de hipóteses é uma metodologia estatística em que um pesquisador testa uma
suposição sobre um parâmetro populacional, no qual precisamos avaliar a natureza
dos dados para indica qual teste seguir. Sobre o teste de hipótese t de Student,
determine a opção correta.
Alternativas:
A amostra em um teste t de Student testa apenas a hipótese alternativa.

Os dados não precisam seguir normalidade para aplicar o teste T de Student.
O teste t de Student é uma metodologia usada para testar hipóteses retirada
diretamente de uma população.
T de Student testa hipóteses sobre a média de uma amostra extraída de uma
população.checkCORRETO
O teste t tipo não paramétrico, podendo ser usado para testar amostras
independentes.
o teste t de Student, em estatística, é um método para testar hipóteses sobre a
média de uma pequena amostra retirada de uma população normalmente distribuída
quando o desvio-padrão da população é desconhecido.

7)
Medidas de tendência central descrevem a posição de um elemento dentro do conjunto
de dados, ou seja, são medidas que fornecem uma ideia de todo os elementos, como as
de tendência central: média, mediana e moda. A média (x ̅) de um conjunto de dados é
encontrada por meio da soma de todos os números no conjunto de dados e depois
dividindo pelo número de valores no conjunto. Com base nesse conceito, determine a
média da distribuição a seguir:
[6,8,4.5,6.3,7.1,8.9,5.2,9.1,23,34,2.2]
Alternativas:
13.
12.
14.5.
10.39.checkCORRETO
11.40.

8)
A análise de dados fornece suporte para extrair informações e realizar inferências
que tragam escopo e suporte para a tomada de decisão de um negócio. À medida que o
mercado se torna mais impulsionado pela tecnologia e rapidez nas informações, a
análise de dados tem um papel cada vez mais importante nos negócios. Acerca desse
tema, analise as afirmativas a seguir e classifique-as em verdadeiras (V) ou falsas
(F):
( ) Existem somente técnicas de visualização de dados.
( ) Um parâmetro faz uma descrição sobre as características da população.
( ) A análise de dados pode ser aplicada somente no setor gerencial de uma empresa.
( ) Gráficos facilitam a comunicação dos resultados.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
V – V – F – V.
F – F – F – V.
V – V – V – F.
V – F – F – F.
F – V – F – V.checkCORRETO
F – Na análise de dados, existem métodos estatísticos e matemáticos capazes de
transformar dados em informações.
V – Os atributos da população podem ser descritos por meio do parâmetro.
F – A análise de dados fornece suporte para todos os setores da empresa, por
exemplo, para o setor financeiro, reduz os custos e aumenta os lucros.
V – Os gráficos são uma forma simples para transmitir os feedback das análises dos
dados.

9)
A correlação é uma técnica estatística que mostra o quão forte são os pares de
variáveis. Ela denota a associação entre duas variáveis quantitativas.
Sobre correlação, podemos afirmar que:
I. Correlação e causalidade têm a mesma definição.
II. A correlação avalia somente os relacionamentos entre variáveis V.
III. A correlação avalia todos os fatores que levam aos relacionamentos entre
variáveis.
IV. O motivo de um determinado evento ocorrer junto com outro significa que os dois
são dependentes.
São verdadeiras:
Alternativas:
II – IV.
Apenas a II.checkCORRETO
I – II – III – IV.
I – IV.
II – III.
I. Falsa – A correlação não deve ser confundida com causalidade, pois, caso duas
variáveis estejam correlacionadas, isso não implica que uma variável cause as
alterações em outra.
II. Verdadeira – A correlação apenas avalia os relacionamentos entre variáveis.
III. Falsa – A correlação não avalia todos os fatores que levam aos relacionamentos
entre variáveis.
IV. Falsa – O motivo de um evento ocorrer junto com outro não significa que um
cause o outro.

10)
Python é uma aplicação web de código aberto que permite criar e compartilhar
documentos. Ele permite resolver vários tipos de problemas, como: exploração de
dados, estatística, limpeza e transformação de dados, visualização, entre outras
funcionalidades.
Sobre as funcionalidades do Python para exploração e limpeza de dados, identifique
as opções corretas.
I. Matplotlib: biblioteca fundamental para exploração de dados.
II. Para modificar um valor nulo pela média dos valores: data.fillna(data.mean(0)).
III. O comando data.drop('E', inplace=True, axis=1) é usado com frequência para
excluir linhas e colunas no banco.
IV. O comando data.dropna() remove do banco todos os valores com NaN.
São verdadeiras:
Alternativas:
II – IV.checkCORRETO
I – IV.
Apenas a I.
I – II – III.
I – II – III.
I. Pandas: biblioteca fundamental para análise de dados. NumPy: biblioteca usada
para realizar cálculos matemáticos. Matplotlib: biblioteca para visualização de
dados.
II. data.fillna(data.mean(0)).
III. data.drop('E', inplace=True, axis=1).
IV. data.dropna(): remove do banco todos os valores com NaN.

Análise de Dados

Enviado por

Direitos autorais:

Formatos disponíveis

Análise de Dados

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise de Dados

Enviado por

Direitos autorais:

Formatos disponíveis

Medidas de dispersão são maneiras de resumir um grupo de dados descrevendo a

Desvio-padrão: 9.49 e variância: 90.15.checkCORRETO

Código da questão: 58505

Os resultados do coeficiente de correlação (r) varia entre -1 a 0.

xi = os valores da variável x em uma amostra.

yi = os valores da variável y em uma amostra.

x̅ = a média dos valores da variável

Código da questão: 58514

Figura 1 – Conjunto de dados

Fonte: elaborada pela autora.

data.drop('data', inplace=True, axis=media).

Código da questão: 58517

Teste usado com frequência para avaliar uma população.

Código da questão: 58510

Código da questão: 58499

A amostra em um teste t de Student testa apenas a hipótese alternativa.

Código da questão: 58509

Código da questão: 58502

Código da questão: 58497

Código da questão: 58513

Código da questão: 58520

Você também pode gostar