Data Science E Book
Data Science E Book
Data Science E Book
Boa leitura!
Sumário
1. Arrume a casa: implantando data 05
science em sua empresa
1.1. Organize e trate seus dados 05
2.5. Desenvolva modelos com Machine Learning para ter dados preditivos 32
3.2. Frentes 47
Pré-processamento de dados
O pré-processamento de dados prepara os dados para
serem usados em técnicas posteriores de modelagem ou
Machine Learning. Envolve limpar, transformar, reduzir e
normalizar os dados, de acordo com as necessidades e
os objetivos da análise.
11 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS
Modelagem estatística
Mineração de dados
Essa técnica procura descobrir padrões, tendências e
conhecimentos ocultos nos dados. Para isso, usa métodos
de estatística, Machine Learning, inteligência artificial e
banco de dados para analisar grandes e complexos
conjuntos de dados.
Visualização de dados
A visualização de dados procura apresentar os dados de
forma gráfica e interativa. Ela usa elementos visuais como
pontos, linhas, barras, cores, formas, mapas, para facilitar
18 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS
Deep Learning
O Deep Learning (aprendizado profundo) faz os
computadores aprenderem com os dados por meio de
redes neurais artificiais.
Ele usa camadas sucessivas de unidades computacionais
que podem extrair características abstratas e complexas
dos dados, podendo ser usado para diversos fins, como
reconhecimento facial, detecção de objetos, geração de
imagem ou síntese de voz.
Volume Velocidade
Pode gerar transtornos caso a instituição
Diz respeito ao volume não tiver velocidade para verificar
de dados gerados diariamente dados em uma compra online.
Os
Variedade Veracidade
Dentro do grande volume gerado,
está uma grande variedade de tipos
5 V’s Uma empresa deve ter processos
que consigam selecionar apenas
de dados, como imagens, vídeos, áudios
os dados que sejam confiáveis
e documentos
Valor
Todos os "Vs" citados anteriormente
só trarão benefícios para uma empresa
se eles forem realmente significativos
e tiverem valor.
23 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS
Indique o contexto
Forneça o contexto necessário para que os dados sejam
entendidos corretamente. Isso inclui usar títulos, legendas,
rótulos, escalas e unidades que expliquem o que os dados
representam e como eles foram obtidos ou calculados.
Ordenação e formatação
Ordene e formate os dados de forma que facilite
a comparação e a análise. Isso inclui usar ordens lógicas
ou hierárquicas para organizar os itens, usar formatos
padronizados ou personalizados para exibir os valores
e usar alinhamentos consistentes para posicionar
os elementos.
30 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS
Importante:
3.1. Ferramentas
Ferramentas de Data Science são softwares ou
plataformas que permitem coletar, preparar, explorar,
analisar, visualizar e implementar dados e modelos de
forma eficiente e escalável.
Linguagem de programação:
É o conjunto de regras e símbolos que permite escrever códigos para
instruir o computador a realizar determinadas tarefas. As linguagens
de programação mais usadas em Data Science são Python, R, Julia,
Scala e Java.
Ferramentas de automação:
São softwares ou plataformas que permitem automatizar tarefas
repetitivas ou complexas em Data Science, como limpeza de
dados, seleção de variáveis, otimização de hiperparâmetros
ou implementação de modelos. Alguns exemplos de ferramentas
de automação são AutoML, Auto-sklearn, TPOT e MLflow.
47 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS
3.2. Frentes
Engenharia de Dados:
É a frente responsável por construir
e gerenciar a infraestrutura de dados,
que envolve a coleta, o armazenamento,
o processamento e a distribuição dos dados
em larga escala e alta velocidade, usando
ferramentas como Hadoop, Spark, Kafka.
48 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS
Cloud Computing:
É a frente responsável por prover e consumir
recursos computacionais na nuvem, ou seja,
acessíveis pela internet e pagos conforme o
uso, usando plataformas como AWS, Google
Cloud Platform, Microsoft Azure.
Análise da Conjuntura
Econômica em Cenários
de Tecnologias Disruptivas:
É a frente responsável por estudar e avaliar o
impacto das tecnologias disruptivas, ou seja,
aquelas que criam novos mercados ou
transformam os existentes, na economia e na
sociedade, usando técnicas como análise
macroeconômica, análise setorial, análise de
cenários.
Legislação no Ambiente
Digital (LGPD):
É a frente responsável por conhecer e aplicar as
normas jurídicas que regulam o uso dos dados
pessoais no ambiente digital, especialmente a
Lei Geral de Proteção de Dados (LGPD), que visa
garantir a privacidade e a segurança dos dados
dos usuários.
50 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS
Machine Learning:
É a frente responsável por criar e implementar
modelos de aprendizado de máquina, que são
algoritmos capazes de aprender com os dados e
fazer previsões ou classificações sem
programação explícita, usando técnicas como
regressão, classificação, clustering.
TensorFlow:
É uma plataforma de código aberto para
criar e implementar modelos de aprendizado
profundo, que são redes neurais artificiais
com várias camadas ocultas. O TensorFlow
permite definir, treinar e executar modelos
complexos de forma rápida e escalável,
usando linguagens como Python, C++ ou
Java.
PyTorch:
É uma plataforma de código aberto para
criar e implementar modelos de aprendizado
profundo, que oferece uma interface simples
e flexível baseada em tensores e operações
dinâmicas. O PyTorch permite definir, treinar
e executar modelos complexos de forma
interativa e personalizada, usando
linguagens como Python ou C++.
Keras:
É uma biblioteca de código aberto para criar
e implementar modelos de aprendizado
profundo, que oferece uma interface de alto
nível baseada em camadas e blocos
modulares. O Keras permite definir, treinar e
executar modelos complexos de forma fácil
e intuitiva, usando linguagens como Python
ou R.
52 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS
Scikit-learn:
É uma biblioteca de código aberto para criar
e implementar modelos de aprendizado de
máquina tradicional, que oferece uma
interface unificada baseada em objetos e
métodos. O Scikit-learn permite definir,
treinar e executar modelos simples ou
complexos de forma eficiente e consistente,
usando linguagens como Python ou Cython.
NLTK:
É uma biblioteca de código aberto para criar
e implementar modelos de processamento
de linguagem natural, que oferece uma
coleção de recursos e ferramentas para
trabalhar com dados textuais. O NLTK
permite definir, treinar e executar modelos
para tarefas como análise sintática, análise
semântica, análise de sentimentos, usando
linguagens como Python ou Java.
OpenCV:
É uma biblioteca de código aberto para criar
e implementar modelos de visão
computacional, que oferece uma coleção de
recursos e ferramentas para trabalhar com
dados visuais. O OpenCV permite definir,
treinar e executar modelos para tarefas
como detecção facial, reconhecimento
óptico de caracteres, segmentação de
imagens, usando linguagens como C++,
Python ou Java.
53 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS
AutoML:
É uma plataforma proprietária da Google
Cloud para criar e implementar modelos de
aprendizado automático, que oferece uma
solução completa e integrada para
automatizar todo o processo de Data
Science. O AutoML permite definir, treinar e
executar modelos personalizados ou
pré-treinados para tarefas como
classificação de imagens, análise de texto,
previsão estruturada, usando uma interface
web ou uma API REST.
Lobe:
É um aplicativo proprietário da Microsoft
para criar e implementar modelos de
aprendizado profundo, que oferece uma
solução simples e visual para criar modelos
rápidos sem código. O Lobe permite definir,
treinar e executar modelos personalizados
ou pré-treinados para tarefas como
classificação de imagens, detecção de
objetos, reconhecimento facial, usando uma
interface gráfica ou um SDK.
54 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS
TENDÊNCIAS EM DATA
04 SCIENCE E ANALYTICS
IA Generativa
É a tendência que envolve o uso de modelos de
inteligência artificial, especialmente de aprendizado
profundo, para gerar dados sintéticos ou conteúdos
criativos, como imagens, textos, áudios, vídeos.
Prompt Engineering
Envolve o uso de técnicas de engenharia de linguagem
natural para criar prompts ou instruções que orientam os
modelos de processamento de linguagem natural,
especialmente os baseados em transformers, a realizar
tarefas específicas ou complexas.
56 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS
Graph Analytics
Envolve o uso de técnicas de análise de grafos para
explorar e modelar os dados que representam redes
ou relações entre entidades, como pessoas, produtos,
eventos.
A graph analytics pode ser usada para fins diversos,
como detectar comunidades, recomendar itens, prever
comportamentos, identificar influenciadores.
Data Wrangling
É a tendência que envolve o uso de técnicas de
preparação de dados para limpar, transformar
e enriquecer os dados brutos ou não estruturados
em dados prontos ou estruturados para análise ou
modelagem.
Análise Espacial
Envolve o uso de técnicas de análise geográfica ou
geoespacial para explorar e modelar os dados que
representam fenômenos ou entidades localizados no
espaço físico ou terrestre.
Deep Learning
COMBINANDO A IA E A CIÊNCIA DE
05 DADOS
Coleta de dados:
É o passo que envolve o uso de técnicas de coleta de dados
para obter dados relevantes ou úteis para o problema ou
objetivo em questão. Os dados podem ser obtidos de
diversas fontes, como bancos de dados, arquivos, sensores,
APIs, web scraping, por exemplo. A coleta de dados pode
usar ferramentas de IA para automatizar ou otimizar o
processo, como crawlers, chatbots, reconhecimento óptico
de caracteres.
Análise de dados:
É o passo que envolve o uso de técnicas de análise de dados
para explorar e entender os dados limpos e processados.
A análise de dados pode envolver tarefas como visualizar
os dados, calcular estatísticas descritivas, testar hipóteses,
identificar correlações ou associações.
Modelagem:
é o passo que envolve o uso de técnicas de modelagem
para criar e implementar modelos que representam os
dados ou o problema em questão.
67 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS
Tomada de decisão:
06 CONCLUSÃO
Esperamos que este ebook tenha sido útil para você e que
ele possa te ajudar a utilizar Data Science para tomar
decisões de tecnologia mais informadas, eficientes e
estratégicas. Se você quiser saber mais sobre Data Science
ou sobre outras áreas relacionadas à tecnologia, continue
acompanhando o nosso blog. Até a próxima!
Outros materiais
Acessar Acessar
maitha.com.br