Análise de Dados

Fazer download em txt, pdf ou txt
Fazer download em txt, pdf ou txt
Você está na página 1de 5

Medidas de dispersão são maneiras de resumir um grupo de dados descrevendo a

variabilidade dos dados. Ela significa até que ponto é provável que os dados
numéricos variem sobre um valor médio. Em outras palavras, a dispersão ajuda a
entender a distribuição dos dados. Determine o desvio-padrão e a variância do
conjunto de valores:
[6,8,4.5,6.3,7.1,8.9,5.2,9.1,23,34,2.2].

Alternativas:

Desvio-padrão: 9.49 e variância: 90.15.checkCORRETO


Desvio-padrão: 9.49 e variância: 50.15.
Desvio-padrão: 8.1 e variância: 90.15.
Desvio-padrão: 8.7 e variância: 90.15.
Desvio-padrão: 8.7 e variância: 50.15.
Resolução comentada:

Código da questão: 58505


2)
As análises de correlação e regressão são frequentemente usadas dentro das
pesquisas de todas as áreas de interesse. Embora parecidas, correlação e regressão
não são sinônimos, e cada abordagem estatística é usada para uma finalidade
determinada, baseada em um conjunto de suposições específicas. Sobre a correlação,
podermos afirmar que:

Alternativas:

Os resultados do coeficiente de correlação (r) varia entre -1 a 0.


Na correlação positiva, um valor diminui à medida que o outro aumenta.
Em uma correlação negativa, não existe correlação entre as variáveis.
Ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação (r)
para quantificar a força e a direção do relacionamento entre duas variáveis
numéricas.checkCORRETO
A análise de correlação (r) fornece um valor que resume o grau de relacionamento
linear somente em uma variável.
Resolução comentada:
ao testar a correlação entre duas variáveis, usamos o coeficiente de correlação (r)
para quantificar a força e a direção do relacionamento entre duas variáveis
numéricas.

Sejam x1, x2, ..., xn e y1, y2, ..., yn. os valores observados de X e Y,
respectivamente. Denomina-se coeficiente de correlação (amostral) entre X e Y o
número dado por:

Em que:

r = o coeficiente de correlação.

xi = os valores da variável x em uma amostra.

yi = os valores da variável y em uma amostra.

x̅ = a média dos valores da variável

Código da questão: 58514


3)
Em um banco de dados, muitas vezes, encontramos dados nulos. Esses valores precisam
ser removidos do DataFrame antes da exploração de dados. O Python fornece vários
métodos para limpeza e tratamento. Portanto, ao analisar o conjunto de dados a
seguir, notamos que existem alguns valores nulos.

Figura 1 – Conjunto de dados

Fonte: elaborada pela autora.

Vamos supor que seja necessário substituir os valores nulos pelas médias dos
valores. Qual opção a seguir indica o método para substituir os valores pela média?

Alternativas:

data.drop('data', inplace=True, axis=media).


data.fillna(data.mean(0)).checkCORRETO
data.drop('data', inplace=True, axis=mediana).
data.fillna(data.mean(A)).
data.fillna(data.mean(A e C)).
Resolução comentada:
o método .fillna().substituindo o valor NaN por outro que seja satisfatório para a
nossa análise, como a média dos valores, por exemplo.

Código da questão: 58517


4)
O teste t é usado com frequência para avaliar duas populações distintas quanto a
uma variável quantitativa, em que o parâmetro médias (µ) e desvios-padrão (σ) são
desconhecidos. Em relação aos testes T de Student para amostras independentes,
podemos afirmar que:

Alternativas:

Teste usado com frequência para avaliar uma população.


Teste t de amostras independentes para comparar médias do mesmo grupo em períodos
diferentes.
Teste t de amostras independentes testa a média de um único grupo em relação a uma
média conhecida.
O teste de independência compara as médias de dois grupos independentes para
determinar se há evidência estatística de que as médias da população associada são
significativamente diferentes.checkCORRETO
O teste t para amostras independentes compara as médias apenas de um grupo
dependente para verificar a evidência estatística de que as médias da população
associada são significativamente diferentes.
Resolução comentada:
teste t de amostras independentes para comparar as médias de dois grupos
diferentes, sobre o mesmo período.

Código da questão: 58510


5)
Uma distribuição de probabilidade é uma função que descreve a probabilidade de
obter os possíveis valores que uma variável aleatória pode assumir. Dentre as
distribuições de probabilidade, temos as do tipo discreta, que descreve a
probabilidade de valores contábeis, como uma lista de números inteiros não
negativos. Com uma distribuição de probabilidade discreta, cada valor possível da
variável aleatória discreta pode ser associado a uma probabilidade diferente de
zero. Sobre distribuição de probabilidade, podemos afirmar que:
I. A mais básica de todas as variáveis aleatórias discretas é a binomial. Diz-se
que X tem uma distribuição de binomial se X = 1 ocorrer com probabilidade π e X =
0.
II. A distribuição Normal segue X1, X2,…, Xn como variáveis aleatórias Bernoulli
independentes e identicamente distribuídas (iid).
III. Na distribuição Bernoulli E(X) = V (X) = λ.
IV. A distribuição contínua binomial é conhecida como n eventos de Bernoulli.
V. A distribuição exponencial é utilizada para análise de sobrevivência.
São verdadeiras:

Alternativas:

I – II – III – V.
II – V.
I – II – IV.
II – IV.
Apenas V.checkCORRETO
Resolução comentada:
I é falsa – A mais básica de todas as variáveis aleatórias discretas é a Bernoulli.
Diz-se que X tem uma distribuição de Bernoulli se X = 1 ocorrer com probabilidade π
e X = 0.
II é falsa – A Binomial segue X1, X2,…, Xn como variáveis aleatórias Bernoulli
independentes e identicamente distribuídas (iid).
III é falsa – Distribuição Poisson E(X) = V (X) =λ.
IV é falsa – Distribuição binomial é do tipo discreta.
V é verdadeira – A distribuição exponencial é utilizada para análise de
sobrevivência.

Código da questão: 58499


6)
Teste de hipóteses é uma metodologia estatística em que um pesquisador testa uma
suposição sobre um parâmetro populacional, no qual precisamos avaliar a natureza
dos dados para indica qual teste seguir. Sobre o teste de hipótese t de Student,
determine a opção correta.

Alternativas:

A amostra em um teste t de Student testa apenas a hipótese alternativa.


Os dados não precisam seguir normalidade para aplicar o teste T de Student.
O teste t de Student é uma metodologia usada para testar hipóteses retirada
diretamente de uma população.
T de Student testa hipóteses sobre a média de uma amostra extraída de uma
população.checkCORRETO
O teste t tipo não paramétrico, podendo ser usado para testar amostras
independentes.
Resolução comentada:
o teste t de Student, em estatística, é um método para testar hipóteses sobre a
média de uma pequena amostra retirada de uma população normalmente distribuída
quando o desvio-padrão da população é desconhecido.

Código da questão: 58509


7)
Medidas de tendência central descrevem a posição de um elemento dentro do conjunto
de dados, ou seja, são medidas que fornecem uma ideia de todo os elementos, como as
de tendência central: média, mediana e moda. A média (x ̅) de um conjunto de dados é
encontrada por meio da soma de todos os números no conjunto de dados e depois
dividindo pelo número de valores no conjunto. Com base nesse conceito, determine a
média da distribuição a seguir:
[6,8,4.5,6.3,7.1,8.9,5.2,9.1,23,34,2.2]

Alternativas:

13.
12.
14.5.
10.39.checkCORRETO
11.40.
Resolução comentada:

Código da questão: 58502


8)
A análise de dados fornece suporte para extrair informações e realizar inferências
que tragam escopo e suporte para a tomada de decisão de um negócio. À medida que o
mercado se torna mais impulsionado pela tecnologia e rapidez nas informações, a
análise de dados tem um papel cada vez mais importante nos negócios. Acerca desse
tema, analise as afirmativas a seguir e classifique-as em verdadeiras (V) ou falsas
(F):
( ) Existem somente técnicas de visualização de dados.
( ) Um parâmetro faz uma descrição sobre as características da população.
( ) A análise de dados pode ser aplicada somente no setor gerencial de uma empresa.
( ) Gráficos facilitam a comunicação dos resultados.
Assinale a alternativa que contenha a sequência correta:

Alternativas:

V – V – F – V.
F – F – F – V.
V – V – V – F.
V – F – F – F.
F – V – F – V.checkCORRETO
Resolução comentada:
F – Na análise de dados, existem métodos estatísticos e matemáticos capazes de
transformar dados em informações.
V – Os atributos da população podem ser descritos por meio do parâmetro.
F – A análise de dados fornece suporte para todos os setores da empresa, por
exemplo, para o setor financeiro, reduz os custos e aumenta os lucros.
V – Os gráficos são uma forma simples para transmitir os feedback das análises dos
dados.

Código da questão: 58497


9)
A correlação é uma técnica estatística que mostra o quão forte são os pares de
variáveis. Ela denota a associação entre duas variáveis quantitativas.
Sobre correlação, podemos afirmar que:
I. Correlação e causalidade têm a mesma definição.
II. A correlação avalia somente os relacionamentos entre variáveis V.
III. A correlação avalia todos os fatores que levam aos relacionamentos entre
variáveis.
IV. O motivo de um determinado evento ocorrer junto com outro significa que os dois
são dependentes.

São verdadeiras:

Alternativas:
II – IV.
Apenas a II.checkCORRETO
I – II – III – IV.
I – IV.
II – III.
Resolução comentada:
I. Falsa – A correlação não deve ser confundida com causalidade, pois, caso duas
variáveis estejam correlacionadas, isso não implica que uma variável cause as
alterações em outra.
II. Verdadeira – A correlação apenas avalia os relacionamentos entre variáveis.
III. Falsa – A correlação não avalia todos os fatores que levam aos relacionamentos
entre variáveis.
IV. Falsa – O motivo de um evento ocorrer junto com outro não significa que um
cause o outro.

Código da questão: 58513


10)
Python é uma aplicação web de código aberto que permite criar e compartilhar
documentos. Ele permite resolver vários tipos de problemas, como: exploração de
dados, estatística, limpeza e transformação de dados, visualização, entre outras
funcionalidades.
Sobre as funcionalidades do Python para exploração e limpeza de dados, identifique
as opções corretas.
I. Matplotlib: biblioteca fundamental para exploração de dados.
II. Para modificar um valor nulo pela média dos valores: data.fillna(data.mean(0)).
III. O comando data.drop('E', inplace=True, axis=1) é usado com frequência para
excluir linhas e colunas no banco.
IV. O comando data.dropna() remove do banco todos os valores com NaN.
São verdadeiras:

Alternativas:

II – IV.checkCORRETO
I – IV.
Apenas a I.
I – II – III.
I – II – III.
Resolução comentada:
I. Pandas: biblioteca fundamental para análise de dados. NumPy: biblioteca usada
para realizar cálculos matemáticos. Matplotlib: biblioteca para visualização de
dados.
II. data.fillna(data.mean(0)).
III. data.drop('E', inplace=True, axis=1).
IV. data.dropna(): remove do banco todos os valores com NaN.

Código da questão: 58520

Você também pode gostar