Análise de Dados e Estatística

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 30

ANÁLISE DE

DADOS E
ESTATÍSTICA
1º Semestre/2023
Prof. Ronaldo Buzzo
ANÁLISE DE DADOS E ESTATÍSTICA

A análise de dados e a estatística são usadas para processar problemas


complexos no mundo real, permitindo que cientistas e analistas de dados
identifiquem tendências e mudanças significativas no assunto em estudo.

Em outras palavras, este ramo científico e profissional pode ser usada para
extrair informações relevantes por meio dos dados, realizando cálculos
matemáticos.
ANÁLISE DE DADOS E ESTATÍSTICA

Várias funções, princípios e algoritmos estatísticos são implementados para


analisar dados brutos, criar um modelo específico e assim, inferindo (ou até
mesmo prevendo) resultados.

O campo da estatística tem influência sobre todos os domínios da nossa vida; o


mercado de ações, as ciências médicas, o clima, o varejo, os seguros e a
educação são apenas alguns exemplos bem amplos.
ANÁLISE DE DADOS E ESTATÍSTICA

Deve-se conhecer algumas terminologias estatísticas importantes ao lidar com a


Estatística Aplicada. Discutimos algumas dessas terminologias abaixo:

• A população é o conjunto completo de fontes das quais os dados são coletados;

• Uma amostra é um subconjunto da população;

• Variável é qualquer característica, número ou quantidade que possa ser medida


ou contada.
ANÁLISE DE DADOS E ESTATÍSTICA

• Também conhecido como modelo estatístico, um parâmetro estatístico ou


parâmetro populacional é uma quantidade que indexa uma família de
distribuições de probabilidade. Por exemplo, a média, mediana, etc. de uma
população.

Antes de avançarmos e discutirmos as categorias estatísticas, veremos suas


abordagens analíticas.
TIPOS DE ANÁLISE

Uma análise de qualquer evento pode ser feita de duas maneiras:

1. Análise Quantitativa: A abordagem quantitativa é a ciência da coleta e


interpretação de dados com números e gráficos para identificar padrões e
tendências.

2. Análise Qualitativa: A análise qualitativa compila informações utilizando


diferentes ferramentas de linguagem como o usa texto, som e outras formas de
mídia para aprofundar o entendimento.
ANÁLISE DE DADOS
E ESTATÍSTICA
• CONTEXTUALIZANDO: Por exemplo, se quisermos comprar
um café na Starbucks, geralmente o disponibilizam em copos
Curto, Alto etc. Pense em exemplos de análise qualitativa.

• Mas fazer comparações e análises sólidas sobre as
quantidades vendidas por cada franqueado trata-se de análise
quantitativa.

• Embora o objetivo de ambas as análises seja fornecer


resultados e insights válidos, a análise quantitativa tem a
capacidade de esmiuçar dados, servindo como prova real de uma
ideia ou comparação inicial.

• Isso a torna crucial na análise.


CATEGORIAS EM ESTATÍSTICA

1. Estatísticas Descritivas

2. Estatísticas Inferenciais
ESTATÍSTICA DESCRITIVA

A Estatística Descritiva ajuda a organizar os dados e se concentra nas


características centrais destes.

Suponha que você queira estudar a altura média dos alunos em uma sala de aula;
em estatística descritiva prosseguiria registrando as alturas de todos os alunos da
classe e descobriria assim a altura máxima, a mínima e a média da classe.
ESTATÍSTICA INFERENCIAL

A Estatística Inferencial faz inferências e previsões sobre uma população com


base em uma amostra de dados extraídos da mesma.

As estatísticas inferenciais fazem uso um grande conjunto de dados e aplicam


cálculos probabilísticos para chegar a uma conclusão. Permite inferir parâmetros
da população com base em estatísticas de amostra e construir modelos sobre
ela.
CATEGORIAS EM ESTATÍSTICA

Portanto, se considerarmos o mesmo exemplo de como encontrar a altura média


dos alunos em uma turma usando a estat. inferencial, você terá um conjunto de
amostras da mesma que basicamente seria a “coleta” de algumas pessoas de
toda a turma. Com isso agruparia a turma em alta, média e baixa.

Nesse método basicamente se cria um modelo estatístico e o expande para toda


a população da classe.
USOS DA ESTATÍSTICA DESCRITIVA

Quando tentamos representar dados na forma de gráficos como histogramas,


gráficos de linhas, etc., em primeiro lugar calculamos e tomamos base das
medidas de tendência central.

Medidas de tendência central como a média, mediana ou medidas de dispersão,


etc, são usadas para análise descritiva. Para entender melhor vamos discutir as
diferentes medidas com a ajuda de um exemplo.
USOS DA ESTATÍSTICA DESCRITIVA

1. Média: mensura e pondera todos os elementos de uma amostra.

2. Mediana: a medida (elemento) central do conjunto de amostras é chamada mediana.

3. Moda: O valor mais recorrente no conjunto de amostras é conhecido como moda.

Usando a Análise descritiva, é possível analisar cada uma das variáveis no conjunto de dados de
amostra para média, desvio padrão, mínimo e máximo.
EXEMPLO - ESTATÍSTICA DESCRITIVA

Aqui está um conjunto de dados automobilísticos contendo as variáveis:

1. Carros
2. Quilometragem por litro (km/l)
3. Tipo de cilindro
4. Deslocamento
5. Potência (cavalo-força)
6. Relação real do eixo
EXEMPLO - ESTATÍSTICA DESCRITIVA

• Se quisermos descobrir a potência média dos carros entre a população de carros, verificaremos
e calcularemos a média de todos os valores. Nesse caso, tomaremos a soma da potência de cada
carro, dividida pelo número total de carros:

Carros 1º 2º 3º 4º 5º 6º 7º 8º
Valores (hp) 90 93 96 110 110 110 110 110

Média
103,6
EXEMPLO - ESTATÍSTICA DESCRITIVA

• Se quisermos descobrir o valor central de km por litro entre a população de carros,


organizaremos os valores em ordem crescente ou decrescente e escolheremos o valor médio.

Nesse caso, temos 8 valores, que é uma entrada par. Portanto, devemos tomar a média dos dois
valores médios.

Elementos 1º 2º 3º 4º 5º 6º 7º 8º
Valores 21 21 21,3 22,8 23 23 23 23
EXEMPLO - ESTATÍSTICA DESCRITIVA

Então...

Mediana = (22,8 + 23) / 2 = 22,9

• Se quisermos descobrir o tipo mais comum de cilindro entre a população de carros,


verificaremos o valor repetido na maioria das vezes. Provavelmente chegaremos em dois valores:
4 e 6.
FÓRMULAS

MÉDIA:

DADOS = 10, 23, 47, 30, 10, 47, 15, 25, 20, 40

Somando, temos um total de: X

Quantos elementos? Temos: Y

Então, MÉDIA é igual o total dividido pela quantidade de elementos:

Quanto seria a MÉDIA, então?


FÓRMULAS

Vamos lá...

DADOS = 10, 23, 47, 30, 10, 47, 15, 25, 20, 40

Somando, temos um total de: 267

Quantos elementos? Temos: 10

Então, MÉDIA é igual o total dividido pela quantidade de elementos:

267/10 = 26,70!
FÓRMULAS

MEDIANA:

DADOS = 10, 23, 47, 30, 10, 47, 15, 25, 20, 40

DADOS ORDENADOS (SORT):


10, 10, 15, 20, 23, 25, 30, 40, 47, 47

Neste caso (par) selecionamos os dois elementos mais centralizados: 23 e 25.

Tiramos a média dentre os dois: (23 + 25) / 2 = 24


FÓRMULAS

MODA:

O elemento ou “valor” mais evidenciado ao longo da lista.

DADOS = 10, 23, 47, 30, 10, 47, 15, 25, 20, 40

DESTACANDO: DADOS = 10, 23, 47, 30, 10, 47, 15, 25, 20, 40
DISTRIBUIÇÃO NORMAL
CURVA NORMAL:
CURVA NORMAL

Vemos que a probabilidade de uma observação assumir um valor entre dois pontos quaisquer é igual à área
compreendida entre esses dois pontos.

Quando a distribuição é de fato normal, temos os seguintes pontos:


68,26% => 1 desvio
95,44% => 2 desvios
99,73% => 3 desvios
DISPERSÃO
Amplitude
A amplitude também conhecida como intervalo total, é obtida comparando os valores extremos da variável.

Desvio
O desvio médio pode ser calculado comparando diferença entre um elemento e a média da variável. O
desvio médio aponta a distância de cada elemento pelo seu valor médio.

Desvio Padrão
O DP calcula a uniformidade do conjunto de dados. Ou seja, quanto mais próximo de zero, mais
aproximados da média estarão os dados.

Variância
Tem a utilidade de indicar o quão dispersos estão os dados amostrais em relação à média.
DESVIO E VARIÂNCIA

1. Desvio é a diferença entre cada elemento da média.

2. Desvio padrão: é a medida da dispersão de um conjunto de dados a partir de


sua média.

3. Variância da população é a média dos desvios ao quadrado

4. Variância da amostra é a média das diferenças ao quadrado da média


MEDIDAS DE DISPERSÃO

Assim como a medida central, também temos medidas de distanciamento ou dispersão, que
compreendem as seguintes medidas:

1. Intervalo: é a medida fornecida de como os valores de um conjunto de dados estão


separados.

2. Desvios e Variâncias: descreve o quanto uma variável aleatória difere do seu valor esperado.
Isso implica calcular os quadrados dos desvios.
ESTATÍSTICA INFERENCIAL

Os estatísticos usam o teste de hipóteses para verificar formalmente se a


hipótese é aceita ou rejeitada. O teste de hipóteses é uma técnica estatística
inferencial usada para determinar se há evidência suficiente em uma amostra de
dados para inferir que uma determinada condição é verdadeira e pode ser
extrapolada.
INFERENCIAL

Para entender melhor isso, considere um problema:

Uma garotada muito louca, Zeca, Joca, Maria e Felisbina (Sessão da Tarde), que foram pegos
atrapalhando uma aula. O bando foi convidado a voltar para a aula e limpar a sala como
“punição”.

Então, Joca decidiu que os quatro se revezariam para limpar a sala de aula. Ele veio com um plano
de escrever cada um de seus nomes em papéis e colocá-los em seu boné. Todos os dias eles
precisariam pegar um nome do boné e o felizardo deveria limpar a classe.

Quais seriam as implicações desta “regra” para os envolvidos? Todos seriam responsáveis
seguindo puramente uma espécie de “média”?
DESDOBRAMENTOS

➢ Modelagem (Análise de Regressão);

➢ Séries de Tempo;

➢ Análise Envoltória de Dados;

➢ Clusterização de Dados;

➢ Treinamento de Modelos (IA e Machine Learning);

➢ Modelos de Machine Learning;

➢ Conhecimento voltado para a Ciência de Dados.


PROFESSOR - CONTATO

Procurar para qualquer dúvida, orientação e demais assuntos


acadêmicos!

Prof. Ronaldo Buzzo

E-mail: [email protected]

Você também pode gostar