Data Science E Book

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 71

02 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Você já se perguntou como as empresas mais inovadoras


e bem-sucedidas do mundo usam os dados para tomar
decisões de tecnologia?

Como elas conseguem transformar dados brutos em


informações valiosas que orientam suas estratégias,
seus produtos e seus serviços? Como elas criam um
ambiente complexo de dados em um verdadeiro
laboratório de informações e insights?

Se você tem essas dúvidas, este ebook é para você.


Aqui, você vai aprender o que é Data Science, como ele
pode ser aplicado para tomar decisões de tecnologia e
quais são as ferramentas e áreas complementares que
você precisa conhecer para se destacar nesse campo.

Você também vai descobrir quais são as tendências


do mercado de Data Science e como se preparar para
o futuro.

Data Science é a ciência que estuda e analisa dados


estruturados e não estruturados para extrair
conhecimento, detectar padrões e obter insights.
03 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Ela combina técnicas de matemática, estatística,


computação, inteligência artificial e outras disciplinas
para resolver problemas complexos e gerar valor para
as organizações.

Ou seja, Data Science é uma área essencial para


a tomada de decisões de tecnologia, pois permite:

• entender melhor os clientes, os usuários, os


concorrentes e o mercado;
• otimizar processos, produtos, serviços e recursos;
• inovar com soluções criativas, personalizadas e
escaláveis;
• prever cenários, tendências, comportamentos e
resultados;
• testar hipóteses, validar ideias e medir impactos.

Aproveite bem este e-book e transforme um ambiente


complexo de dados em um verdadeiro laboratório de
informações e insights.

Boa leitura!
Sumário
1. Arrume a casa: implantando data 05
science em sua empresa
1.1. Organize e trate seus dados 05

1.2. Escolha a técnica que vai usar 09

2. Construindo insights valiosos 20


2.1. Data Science e Big Data no ambiente de negócios 20

2.2. Business Intelligence e Business Analytics com Data Science 23

2.3. Business Intelligence e DataVisualization 26

2.4. Use técnicas de Storytelling para comunicar seus dados 30

2.5. Desenvolva modelos com Machine Learning para ter dados preditivos 32

2.6. Escolha o tipo de modelo que irá utilizar: modelos supervisionados 35


e não supervisionados

3. Para tomar as decisões, fique por dentro 43


das ferramentas, práticas e frentes em
data science
3.1. Ferramentas 44

3.2. Frentes 47

3.3. Ferramentas de IA que podem ajudar 50

4. Tendências em data science e analytics 54


5. Combinando a ia e a ciência de dados 64
6. Conclusão 68
05 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

ARRUME A CASA: IMPLANTANDO DATA


01 SCIENCE EM SUA EMPRESA

Vamos começar preparando a empresa para explorar


bem os recursos que a ciência de dados oferece para
ajudar na tomada de decisão.

Para isso, vamos entender como organizar e tratar os


dados que sua empresa possui (ou que vai buscar).

1.1. Organize e trate seus dados

Antes de aplicar qualquer técnica ou ferramenta de Data


Science, é preciso arrumar a casa, ou seja, organizar e
fazer o tratamento dos seus dados. Vamos ver como fazer
isso a partir dos seguintes passos:

A. Identificar quais são os problemas que você


quer resolver ou definir quais seus objetivos
com esses dados

O primeiro passo é ter clareza sobre o que você quer fazer


com os seus dados. Qual é o problema que você quer
resolver?
06 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Qual é o objetivo que você quer alcançar? Essas


questões vão ajudar a definir o escopo do seu projeto de
Data Science e a delimitar quais dados são relevantes e
necessários para ele.

Nele, você pode usar técnicas como análise descritiva,


diagnóstica, preditiva e prescritiva para formular
perguntas relevantes e hipóteses sobre os dados.

Um exemplo de problema que você pode querer resolver


com Data Science é como aumentar as vendas da sua
empresa.

Para isso, você pode definir como objetivo usar os dados


para identificar os perfis dos seus clientes, os produtos
mais vendidos, as preferências de consumo, as
tendências de mercado, por exemplo.

B. Mapear onde estão essas informações

O segundo passo é saber onde estão os dados que você


precisa. Dependendo do seu problema ou objetivo, os
dados podem estar dentro da sua empresa, como
vendas, estoque, clientes, ou fora dela (dados externos),
como mercado, concorrência, tendências.
07 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Em alguns casos, podem ser necessários dados de


diferentes fontes, formatos e sistemas, como planilhas,
bancos de dados e APIs. Em situações como essas, é
preciso integrá-los em uma única plataforma ou
ambiente de análise.

Imaginando o objetivo de aumentar as vendas, uma fonte


de dados interna da sua empresa é o seu sistema de
gestão, que pode conter informações sobre as vendas, o
estoque, os clientes.

Um exemplo de fonte de dados externa é o site do IBGE,


que pode conter informações sobre a população, a renda,
o consumo.

Um exemplo de integração de dados é usar uma


ferramenta como o Power BI para conectar diferentes
fontes e criar um painel de visualização.
08 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

C. Fazer o tratamento desses dados:


pré-processar os dados, corrigir, padronizar
etc.

Objetivo definido, dados e fontes identificados e


coletados! Agora, vem o terceiro passo: fazer o
tratamento dos seus dados. Isso significa verificar se eles
estão completos, consistentes, corretos e padronizados.

Muitas vezes, os dados podem conter erros, ruídos,


duplicidades, valores ausentes ou inválidos, que podem
comprometer a qualidade da sua análise.

Por isso, é preciso fazer uma limpeza e uma


transformação dos seus dados, usando técnicas e
ferramentas de pré-processamento. Alguns exemplos
são:

• Remover ou substituir valores ausentes ou inválidos;


• Corrigir erros de digitação ou de formatação;
• Eliminar ou tratar dados duplicados ou inconsistentes;
• Padronizar unidades de medida, escalas, categorias;
• Criar novas variáveis ou colunas a partir de dados existentes;
• Reduzir a dimensionalidade ou a complexidade dos seus
dados;
• Normalizar ou padronizar os seus dados.
09 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Com esse trabalho, você terá uma base sólida e confiável


para aplicar as técnicas e ferramentas de Data Science e
obter resultados mais precisos e eficientes.

1.2. Escolha a técnica que vai usar


Após organizar e tratar os dados, é necessário escolher as
técnicas adequadas para extrair insights valiosos. Abaixo,
estão algumas das técnicas mais comuns usadas em
Data Science:

Análise exploratória de dados (EDA)

A análise exploratória de dados (EDA) visa entender os


dados por meio de métodos estatísticos e gráficos.
Ela ajuda a verificar a qualidade, a distribuição, as
relações e as características dos dados, bem como
identificar possíveis problemas ou hipóteses a serem
testadas.
10 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

A EDA é uma etapa importante antes de aplicar técnicas


mais avançadas de modelagem ou Machine Learning.

Um exemplo prático de EDA é analisar um conjunto de


dados sobre o consumo de energia elétrica em uma
cidade.

Você pode usar métodos como média, desvio padrão,


histograma, boxplot, gráfico de dispersão, para responder
perguntas sobre consumo médio de energia por mês, a
variação do consumo ao longo do ano ou quais são os
meses com maior e menor consumo.

Pré-processamento de dados
O pré-processamento de dados prepara os dados para
serem usados em técnicas posteriores de modelagem ou
Machine Learning. Envolve limpar, transformar, reduzir e
normalizar os dados, de acordo com as necessidades e
os objetivos da análise.
11 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

O pré-processamento de dados é essencial para


melhorar a qualidade e a eficiência dos resultados.

Um exemplo prático é preparar um conjunto de dados


sobre o preço de imóveis em uma cidade.

Você pode usar métodos como remover ou substituir


valores ausentes ou inválidos, corrigir erros de digitação
ou formatação, eliminar ou tratar dados duplicados ou
inconsistentes, padronizar unidades de medida, escalas,
categorias ou criar novas variáveis ou colunas a partir de
dados existentes, entre outros.

Modelagem estatística

A modelagem estatística visa construir modelos


matemáticos que representem os dados e as relações
entre eles.

Ela ajuda a testar hipóteses, estimar parâmetros, inferir


causas e efeitos, fazer previsões e avaliar incertezas.
A modelagem estatística pode ser dividida em dois tipos
principais: modelos descritivos e modelos inferenciais.

Um exemplo prático de modelagem estatística é construir


um modelo linear para estimar o preço de imóveis em
uma cidade, lembrando da situação anterior.
12 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Você pode usar métodos como regressão linear, análise


de variância, teste t, coeficiente de determinação, para
responder perguntas sobre a equação que relaciona o
preço com as variáveis explicativas, como área, número
de quartos, localização; os valores dos coeficientes e das
constantes do modelo ou quão preciso é o modelo para
prever o preço de novos imóveis.

Machine Learning (aprendizado de máquina)

O Machine Learning (aprendizado de máquina) é uma


técnica que ensina os computadores a aprender com os
dados e a realizar tarefas complexas sem programação
explícita.
13 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Ele usa algoritmos que podem se adaptar e melhorar


com base na experiência e no feedback.

O Machine Learning pode ser dividido em três tipos


principais: aprendizado supervisionado; aprendizado
não supervisionado; e aprendizado por reforço.

Um exemplo prático: construir um sistema de


recomendação para sugerir produtos aos clientes de um
site de comércio eletrônico.

Você pode usar métodos como classificação, regressão,


clusterização, associação, árvore de decisão, k-means,
regra de associação, para responder perguntas a
respeito dos produtos mais relevantes para cada cliente,
com base no seu histórico de compras, preferências
e perfil; as probabilidades de um cliente comprar um
14 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

determinado produto, com base nos seus atributos e no


seu preço; ou quais são os grupos de clientes que têm
comportamentos ou interesses semelhantes, com base
nos seus dados demográficos e nas suas interações com
o site.

Mineração de dados
Essa técnica procura descobrir padrões, tendências e
conhecimentos ocultos nos dados. Para isso, usa métodos
de estatística, Machine Learning, inteligência artificial e
banco de dados para analisar grandes e complexos
conjuntos de dados.

A mineração de dados pode ser usada para diversos fins,


como classificação, clusterização, associação, regressão,
detecção de anomalias, entre outros.

Um exemplo prático de mineração de dados é descobrir


padrões de fraude em transações bancárias.
15 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Você pode usar métodos como árvore de decisão, rede


neural, algoritmo genético, detecção de outliers, para
responder perguntas como: “quais são as características
que diferenciam uma transação fraudulenta de uma
legítima, como valor, horário, localização?”, “quais são as
regras que podem ser usadas para identificar e prevenir
fraudes, com base na frequência e na confiança das
transações?” ou “quais são as transações que se desviam
do padrão normal e podem indicar uma fraude ou um
erro?

Processamento de linguagem natural

O processamento de linguagem natural faz os


computadores entenderem e gerarem linguagem
humana por meio de métodos de linguística, ciência da
16 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

computação e inteligência artificial para analisar e


manipular textos, áudios ou imagens que contenham
linguagem.

O processamento de linguagem natural pode ser usado


para diversos fins, como tradução, sumarização, geração
de texto, análise de sentimento, reconhecimento de voz.

Um exemplo prático de processamento de linguagem


natural é construir um chatbot para atender os clientes
de um site de comércio eletrônico. Você pode usar
métodos como tokenização, lematização, análise
sintática, análise semântica, geração de resposta, para
responder perguntas sobre como dividir um texto em
17 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

palavras, frases e sentenças; como reduzir as palavras à


sua forma básica ou raiz; como identificar as partes do
discurso e as relações entre elas em uma frase; como
extrair o significado e a intenção de uma frase ou um
texto; ou como gerar uma resposta adequada e coerente
para uma pergunta ou um comentário.

Visualização de dados
A visualização de dados procura apresentar os dados de
forma gráfica e interativa. Ela usa elementos visuais como
pontos, linhas, barras, cores, formas, mapas, para facilitar
18 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

a compreensão e a comunicação dos dados.


A visualização pode ser usada para diversos fins, como
explorar, comparar, destacar ou contar histórias com os
dados (veremos mais sobre isso adiante). Um exemplo
prático são os dashboards para mostrar os indicadores
de desempenho de uma empresa.

Você pode usar ferramentas como Excel, Power BI


ou Tableau, para mostrar de forma mais direta as
respostas para saber qual é o faturamento da
empresa por mês, trimestre ou ano; qual é a participação
de mercado da empresa por região ou segmento;
qual é o nível de satisfação dos clientes da empresa
por produto ou serviço?; ou quais são os principais
desafios ou oportunidades da empresa no cenário atual.
Gráfico Gráfico Gráfico de Gráfico de Mapa
de Rosca de Gantt Transmissão Transmissão Choropleth

Gráfico Mapa Gráfico de Gráfico de Diagrama de


de Linha de Pontos Transmissão Bolhas Árvore
19 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Deep Learning
O Deep Learning (aprendizado profundo) faz os
computadores aprenderem com os dados por meio de
redes neurais artificiais.
Ele usa camadas sucessivas de unidades computacionais
que podem extrair características abstratas e complexas
dos dados, podendo ser usado para diversos fins, como
reconhecimento facial, detecção de objetos, geração de
imagem ou síntese de voz.

Por exemplo: um sistema de reconhecimento facial para


identificar pessoas em fotos ou vídeos. Para construí-lo,
você pode usar métodos como convolução, pooling,
dropout, softmax, para responder perguntas sobre como
20 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

dividir uma imagem em pixels e extrair os atributos


relevantes de cada pixel, como cor, borda, forma; como
combinar os atributos dos pixels em camadas sucessivas
para formar representações mais abstratas e complexas
da imagem, como olhos, nariz, boca; ou como melhorar o
desempenho do sistema com base no feedback e na
experiência.

02 CONSTRUINDO INSIGHTS VALIOSOS

Agora, vamos acompanhar os processos e relações


a partir de dados e ferramentas para gerar ideias ou
insights que vão nortear você e sua equipe para tomar
as melhores decisões.

2.1. Data Science e Big Data no ambiente de


negócios
Data Science e Big Data são dois conceitos que estão
cada vez mais presentes no ambiente de negócios.
Eles se referem à forma como as empresas podem
usar os dados para obter vantagens competitivas, inovar,
melhorar processos e tomar decisões mais inteligentes.
Antes, vale relembrar: Big Data é o termo que
descreve o enorme volume de dados gerados, coletados
e armazenados pelas empresas e pela sociedade.
21 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Esses dados podem ser de diferentes tipos, formatos e


origens, como textos, números, imagens, vídeos, áudios,
sensores, redes sociais.

A relação entre Data Science e Big Data é de


complementaridade e dependência. Em outras palavras:

• Por um lado, o Big Data fornece a matéria-prima para a Data


Science – os dados. Sem eles, não há como fazer ciência com
eles.
• De outro, a Data Science fornece o valor para o Big Data – o
conhecimento. Sem conhecimento, os dados são apenas ruído
ou lixo.

Portanto, a Data Science usa o Big Data para gerar


conhecimento e o Big Data usa a Data Science para gerar
valor.

O Big Data desempenha um papel fundamental no


ambiente de negócios, especialmente quando a empresa
possui uma grande quantidade de dados.

E dele temos os 5 Vs: volume, velocidade, variedade,


veracidade e valor. Esses conceitos são muito
importantes:

Volume: refere-se à quantidade massiva de dados


gerados e coletados;
22 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Velocidade: está relacionada à velocidade em que os


dados são gerados e processados;

Variedade: se refere à diversidade dos tipos e formatos


de dados disponíveis;

Veracidade: refere-se à qualidade e confiabilidade dos


dados;

Valor: diz respeito à capacidade de extrair insights e valor


dos dados para tomar decisões estratégicas.

Volume Velocidade
Pode gerar transtornos caso a instituição
Diz respeito ao volume não tiver velocidade para verificar
de dados gerados diariamente dados em uma compra online.

Os
Variedade Veracidade
Dentro do grande volume gerado,
está uma grande variedade de tipos
5 V’s Uma empresa deve ter processos
que consigam selecionar apenas
de dados, como imagens, vídeos, áudios
os dados que sejam confiáveis
e documentos

Valor
Todos os "Vs" citados anteriormente
só trarão benefícios para uma empresa
se eles forem realmente significativos
e tiverem valor.
23 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Imagine uma empresa de comércio eletrônico.


Ela pode coletar uma grande quantidade de dados,
como informações de compras, dados de navegação,
dados de mídia social e dados de terceiros.

Ao aplicar técnicas de Data Science e Big Data,


a empresa pode analisar esses dados para identificar
padrões de comportamento do cliente, personalizar
recomendações de produtos, otimizar a logística
e melhorar a eficácia das campanhas de marketing.

2.2. Business Intelligence e Business Analytics


com Data Science

Business Intelligence (BI) e Business Analytics (BA)


se referem ao uso de dados para apoiar a gestão
e a estratégia dos negócios. Eles se complementam
e se beneficiam da Data Science.

A. Como utilizar Data Science para coletar, organizar e


gerenciar as informações na área de inteligência de
negócios

Data Science pode ser utilizada para coletar, organizar


e gerenciar as informações na área de inteligência de
negócios de diversas formas.
24 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Algumas delas são:

• usar técnicas de web scraping para extrair dados de fontes


externas, como sites, redes sociais, blogs;
• usar técnicas de integração de dados para combinar dados de
diferentes fontes internas ou externas em um único repositório
ou plataforma;
• usar técnicas de pré-processamento de dados para limpar,
transformar, reduzir e normalizar os dados antes da análise;
• usar técnicas de armazenamento de dados para organizar os
dados em estruturas lógicas e físicas que facilitem o acesso e a
consulta;
• usar técnicas de segurança de dados para proteger os dados
contra perdas, roubos ou vazamentos.
25 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

B. Como usar Data Science para antecipar problemas


e agir proativamente na análise de negócios

Data Science pode ser usada para antecipar problemas


e agir proativamente na análise de negócios de diversas
formas. Algumas delas são:

• Usar técnicas de modelagem estatística para testar hipóteses


sobre os dados e estimar parâmetros ou relações entre as
variáveis;
• Usar técnicas de Machine Learning para construir modelos que
possam aprender com os dados e fazer previsões ou
classificações sobre novos casos;
• Usar técnicas de mineração de dados para descobrir padrões
ou tendências ocultas nos dados que possam indicar
problemas ou oportunidades;
• Usar técnicas de processamento de linguagem natural para
analisar textos ou áudios que contenham opiniões ou
sentimentos dos clientes ou do mercado;
• Usar técnicas de visualização de dados para apresentar os
resultados da análise em forma gráfica ou interativa.
26 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

2.3. Business Intelligence e DataVisualization

Business Intelligence (BI) e Data Visualization são dois


conceitos que se referem ao uso de dados para apoiar
a gestão e a estratégia dos negócios.

Eles se complementam e se beneficiam um do outro, pois


o BI fornece os dados e a Data Visualization fornece a
forma de apresentá-los.

Provavelmente, você deve estar se perguntando sobre


o que é Data Visualization no contexto de BI. Vamos lá!

Data Visualization é a técnica de representar os dados


de forma gráfica e interativa, usando elementos visuais
como pontos, linhas, barras, cores, formas, mapas.
27 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

O objetivo da Data Visualization é facilitar a compreensão


e a comunicação dos dados, por meio de relatórios,
dashboards, indicadores, entre outros.

Assim, ela ajuda os gestores a explorar, comparar,


destacar ou contar histórias com os dados.

Nesse processo, existem as categorias de visualização de


dados. Elas são formas de classificar os tipos de gráficos
ou elementos visuais usados para representar os dados
e podem variar de acordo com o critério usado.

No entanto, a forma comum é baseada na função ou no


objetivo da visualização. Nesse caso, podemos citar as
seguintes categorias:

• Visualização de comparação: usada para mostrar as


diferenças ou semelhanças entre dois ou mais itens, como
barras, colunas, linhas;
• Visualização de composição: usada para mostrar as partes que
compõem um todo, como pizza, donut, empilhado;
• Visualização de distribuição: usada para mostrar a frequência
ou a dispersão dos dados em um intervalo ou em grupos, como
histograma, boxplot, dispersão;
• Visualização de relação: usada para mostrar a correlação ou a
dependência entre duas ou mais variáveis, como bolhas,
matriz, rede;
28 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

• Visualização de evolução: usada para mostrar a mudança ou o


desenvolvimento dos dados ao longo do tempo ou do espaço,
como área, mapa, linha do tempo.

• Para fazer uma boa visualização de dados é preciso seguir


algumas boas práticas que garantam a qualidade, a clareza e
a eficácia da comunicação:

Defina sua audiência


Antes de criar uma visualização de dados, é preciso saber
para quem ela se destina e qual é o seu objetivo. Isso ajuda
a escolher o tipo de gráfico mais adequado, o nível de
detalhe mais apropriado e o tom mais conveniente.

Mantenha consistência cores e fontes


Use cores e fontes que sejam consistentes com o tema, o
contexto e o estilo da visualização. Isso ajuda a criar uma
identidade visual e a facilitar a leitura e a interpretação dos
dados.
29 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Indique o contexto
Forneça o contexto necessário para que os dados sejam
entendidos corretamente. Isso inclui usar títulos, legendas,
rótulos, escalas e unidades que expliquem o que os dados
representam e como eles foram obtidos ou calculados.

Ordenação e formatação
Ordene e formate os dados de forma que facilite
a comparação e a análise. Isso inclui usar ordens lógicas
ou hierárquicas para organizar os itens, usar formatos
padronizados ou personalizados para exibir os valores
e usar alinhamentos consistentes para posicionar
os elementos.
30 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Apresente dados com precisão


Apresente os dados com precisão e honestidade. Isso inclui
usar escalas adequadas e proporcionais para mostrar as
diferenças ou as tendências dos dados, evitar distorções
ou manipulações que possam induzir ao erro ou ao engano
e usar fontes confiáveis e atualizadas para obter os dados.

Dependendo do conjunto de dados,


tabelas são úteis
Considere usar uma tabela seria no lugar de um gráfico
para mostrar os dados. Isso depende do tipo e da
quantidade de dados, do nível de detalhe e da finalidade
da visualização. Uma tabela pode ser mais útil quando os
dados são simples, discretos, numéricos e precisam ser
consultados ou comparados exatamente.

2.4. Use técnicas de Storytelling para


comunicar seus dados
Storytelling com dados é uma técnica que usa dados
para contar uma história. É uma forma de transmitir
dados por meio de técnicas narrativas em conjunto com
elementos visuais.
31 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Seu objetivo é simplificar a análise de grandes


quantidades de informação e fornecer insights para a
tomada de decisões.

Usar storytelling com dados pode trazer


diversos benefícios, como:

• Aumentar a atenção e o engajamento do público;


• Provocar uma resposta emocional ou racional do público;
• Facilitar a compreensão e a memorização dos dados;
• Destacar os pontos mais importantes ou relevantes dos dados;
• Influenciar o comportamento ou a ação do público.

Para usar storytelling com dados é preciso


seguir alguns passos:

• Defina o objetivo e o público da história;


• Colete e analise os dados relevantes para a história;
• Escolha o tipo e o formato de visualização de dados mais
adequado para a história;
• Crie um roteiro ou uma estrutura para a história, usando
elementos como introdução, desenvolvimento e conclusão;
• Adicione elementos narrativos à história, como contexto,
personagens, conflito, resolução;
• Revise e refine a história, eliminando o excesso de informações
ou ruídos visuais;
• Apresente ou compartilhe a história com o público.
32 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

2.5. Desenvolva modelos com Machine


Learning para ter dados preditivos

Se sua empresa já está com mais experiência ou


maturidade na coleta de dados, ela pode seguir os
seguintes passos para desenvolver modelos com
Machine Learning para ter dados preditivos:

Defina o problema e o objetivo do modelo


preditivo

Por exemplo, você pode querer prever falhas em


equipamentos, detectar fraudes e classificar clientes.
Assim, colete e explore os dados disponíveis para o
problema.

Você pode usar fontes internas ou externas de dados,


como bancos de dados, arquivos, APIs, sensores. Você
deve fazer uma análise descritiva dos dados para
entender sua estrutura, distribuição, qualidade e relações.

Pré-processe os dados para torná-los


adequados para o modelo preditivo

Isso pode envolver limpar valores faltantes, tratar


outliers, padronizar ou normalizar variáveis, reduzir
a dimensionalidade, criar variáveis derivadas.
33 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Escolha um ou mais algoritmos de Machine Learning que


sejam adequados para o tipo de problema e de dados
que você tem.

Por exemplo, você pode usar árvores de decisão,


regressão logística, redes neurais, k-means.

Você deve considerar as vantagens e desvantagens


de cada algoritmo, bem como os requisitos de tempo
e recursos computacionais.

Treine e ajuste os modelos

Você deve dividir os dados em conjuntos de


treinamento e teste (ou usar validação cruzada)
para evitar o sobreajuste do modelo aos dados.

Você também deve definir e otimizar os hiperparâmetros


do algoritmo, como taxa de aprendizado, número de
iterações, número de camadas ocultas, entre outras.
34 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Avalie o desempenho dos modelos

Avalie o desempenho do(s) modelo(s) preditivo(s)


usando métricas apropriadas para o tipo de problema
e de dados que você tem.

Por exemplo, você pode usar acurácia, precisão, recall,


F1-score, AUC-ROC, MSE, R2. Você deve comparar os
resultados dos diferentes modelos e escolher o melhor de
acordo com o seu objetivo e critério.

Implemente e monitore o modelo

Você deve integrar o modelo com os sistemas existentes


e garantir que ele receba dados atualizados e confiáveis.

Você também deve acompanhar o desempenho do


modelo ao longo do tempo e verificar se ele precisa ser
atualizado ou reajustado.
35 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

2.6. Escolha o tipo de modelo que irá utilizar:


modelos supervisionados e não supervisionados

Modelos supervisionados e não supervisionados são dois


tipos de modelos de aprendizado de máquina, que é uma
área da inteligência artificial que usa dados para criar
algoritmos capazes de aprender e fazer previsões ou
classificações.

Os modelos supervisionados são aqueles que aprendem


com base em dados rotulados, ou seja, dados que
possuem uma variável alvo ou resposta que se deseja
prever ou classificar.

Esses modelos usam os dados rotulados para treinar o


algoritmo e ajustar os parâmetros do modelo, de forma
a minimizar o erro entre as previsões ou classificações
e os valores reais da variável alvo.
36 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Esses modelos podem ser validados diretamente,


comparando as previsões ou classificações com
os valores reais em um conjunto de dados de teste.

Já os modelos não supervisionados são aqueles que


aprendem com base em dados não rotulados, ou seja,
dados que não possuem uma variável alvo ou resposta
definida. Eles usam os dados não rotulados para
encontrar padrões, agrupamentos, associações ou
estruturas nos dados, sem um critério prévio ou objetivo
específico.

Esses modelos são mais abstratos, propensos a erros e


exigem mais conhecimento prévio para encontrar uma
interpretação.

Existem vários exemplos de modelos supervisionados e


não supervisionados, cada um com suas características,
vantagens e desvantagens. Alguns deles são:

Clustering: É um modelo não supervisionado que agrupa


os dados em subconjuntos homogêneos, de acordo com
alguma medida de similaridade ou distância entre os dados.
Um exemplo de aplicação é a segmentação de clientes por
perfil de consumo.
37 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Análise Fatorial e PCA: são modelos não supervisionados


que reduzem a dimensionalidade dos dados, ou seja,
encontrar um número menor de variáveis que expliquem
a maior parte da variância dos dados originais.
Um exemplo de aplicação é a identificação de fatores
latentes que influenciam o comportamento dos indivíduos.

Análise de Correspondência Simples e Múltipla: são


modelos não supervisionados que analisam a relação entre
duas ou mais variáveis categóricas, por meio de uma
representação gráfica das frequências observadas e
esperadas em uma tabela de contingência. Um exemplo de
aplicação é a análise da associação entre marcas e
atributos percebidos pelos consumidores.

Análise de Regressão Simples e Múltipla: são modelos


supervisionados que estimam a relação entre uma variável
dependente contínua e uma ou mais variáveis
independentes contínuas ou categóricas, por meio de uma
equação matemática que minimiza o erro quadrático entre
os valores observados e preditos da variável dependente.
38 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Um exemplo de aplicação é a previsão do preço de um


imóvel com base em suas características.

Modelos Logísticos Binários e Multinomiais: são modelos


supervisionados que estimam a probabilidade de ocorrência
de um evento dicotômico ou politômico, respectivamente,
em função de uma ou mais variáveis independentes
contínuas ou categóricas, por meio de uma função logística
que transforma as probabilidades em logitos.
Um exemplo de aplicação é a classificação de clientes como
inadimplentes ou não inadimplentes com base em seus
dados socioeconômicos.

Modelos para Dados de Contagem: são modelos


supervisionados que modelam a distribuição de uma
variável dependente discreta e não negativa, como o
número de ocorrências de um evento em um intervalo fixo
de tempo ou espaço, em função de uma ou mais variáveis
independentes contínuas ou categóricas, por meio de
distribuições discretas como Poisson, Binomial Negativa, por
exemplo.
39 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Um exemplo de aplicação é a previsão do número de


acidentes em uma rodovia com base em suas condições
climáticas e de tráfego.

Modelagem Multinível: é um modelo supervisionado que


modela a variação de uma variável dependente contínua ou
discreta em função de uma ou mais variáveis independentes
contínuas ou categóricas, levando em conta a estrutura
hierárquica ou aninhada dos dados, por meio de equações
que estimam os efeitos fixos e aleatórios dos diferentes níveis
de agrupamento dos dados. Um exemplo de aplicação é a
análise do desempenho escolar dos alunos com base em
suas características individuais e das escolas que
frequentam.

Séries Temporais: são modelos supervisionados que


modelam a evolução de uma variável dependente contínua
ou discreta ao longo do tempo, em função de seus próprios
valores passados e de outras variáveis independentes
contínuas ou categóricas, por meio de equações que
estimam os componentes de tendência, sazonalidade,
ciclicidade e aleatoriedade da série.
40 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Um exemplo de aplicação é a previsão da demanda de um


produto com base em seus dados históricos e em fatores
externos.

Big Data e Deployment de Modelos: são conceitos


relacionados ao uso de grandes volumes, variedades e
velocidades de dados para criar e implementar modelos de
aprendizado de máquina, por meio de plataformas e
ferramentas que permitem o armazenamento, o
processamento, a análise e a integração dos dados com
sistemas operacionais ou aplicativos. Um exemplo de
aplicação é a recomendação personalizada de produtos ou
serviços para os usuários com base em seus dados
comportamentais e preferenciais.

Importante:

Após definir e passar a usar um modelo de Data Science


para tomar decisões de tecnologia, é importante fazer os
ajustes e refinamentos necessários para melhorar o seu
desempenho e adequá-lo às mudanças nos dados ou no
contexto.
41 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Alguns exemplos de ajustes e refinamentos são:

• Alterar os parâmetros ou os hiperparâmetros do modelo, como


o número de iterações, a taxa de aprendizado, a regularização,
para otimizar o seu treinamento e evitar o sobreajuste ou o sub
ajuste dos dados;
• Alterar as variáveis independentes ou as características do
modelo, como adicionar, remover, transformar ou combinar
variáveis, para aumentar a sua relevância ou reduzir a sua
colinearidade para a variável dependente;
• Alterar o método de validação cruzada ou o conjunto de dados
de teste do modelo, como usar diferentes proporções, técnicas
ou critérios de divisão dos dados, para avaliar o seu
desempenho de forma mais robusta ou representativa;
• Alterar o método de seleção ou de comparação do modelo,
como usar diferentes métricas, testes estatísticos ou técnicas
de ensemble, para escolher o melhor modelo entre as
alternativas disponíveis ou combinar os resultados de vários
modelos.

Passe a monitorar constantemente o desempenho do


modelo e ajustá-lo com base nos resultados da
avaliação.
42 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Após definir e passar a usar um modelo de Data Science


para tomar decisões de tecnologia, é importante
monitorar constantemente o seu desempenho e ajustá-lo
com base nos resultados da avaliação.

Alguns exemplos de monitoramento e avaliação são:

• Acompanhar as previsões ou as classificações do modelo em


relação aos valores reais da variável dependente, como usar
gráficos, tabelas ou relatórios para visualizar e analisar as
diferenças entre os valores observados e preditos ao longo do
tempo ou do espaço;
• Acompanhar as métricas de desempenho do modelo em
relação aos objetivos definidos, como usar indicadores
numéricos ou qualitativos para medir e comparar a acurácia, a
precisão, a sensibilidade, o erro quadrático médio, o coeficiente
de determinação, do modelo em relação aos valores esperados
ou desejados;
• Acompanhar as mudanças nos dados ou no contexto que
afetam o modelo, como usar métodos de detecção de
anomalias, outliers ou mudanças estruturais nos dados, ou
métodos de análise de cenários, tendências ou impactos no
contexto, para identificar e avaliar os fatores que podem
comprometer a validade ou a aplicabilidade do modelo;
43 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

• Ajustar o modelo com base nos resultados do monitoramento e


da avaliação, como usar os feedbacks, as sugestões ou as
críticas recebidas sobre o modelo, ou usar os novos dados ou
informações disponíveis sobre o problema, para corrigir,
melhorar ou atualizar o modelo conforme necessário.

PARA TOMAR AS DECISÕES, FIQUE POR


03 DENTRO DAS FERRAMENTAS, PRÁTICAS
E FRENTES EM DATA SCIENCE

Vamos agora conhecer as ferramentas e frentes que você


e sua empresa precisam conhecer e estar bem atentas.
44 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

3.1. Ferramentas
Ferramentas de Data Science são softwares ou
plataformas que permitem coletar, preparar, explorar,
analisar, visualizar e implementar dados e modelos de
forma eficiente e escalável.

Existem diversas ferramentas disponíveis no mercado,


cada uma com suas características, vantagens e
desvantagens. Alguns exemplos são:

Linguagem de programação:
É o conjunto de regras e símbolos que permite escrever códigos para
instruir o computador a realizar determinadas tarefas. As linguagens
de programação mais usadas em Data Science são Python, R, Julia,
Scala e Java.

Bibliotecas de análise de dados:


São conjuntos de funções ou módulos que facilitam a manipulação,
a transformação e a análise de dados em uma linguagem de
programação. Algumas bibliotecas de análise de dados populares
são Pandas, NumPy e SciPy para Python; dplyr, tidyr e ggplot2 para R;
DataFrames, StatsBase e Plots para Julia.
45 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Ambiente de desenvolvimento integrado (IDE):


É um software que oferece recursos para facilitar o desenvolvimento,
o teste e a depuração de códigos em uma linguagem de
programação. Alguns exemplos de IDEs para Data Science são
Jupyter Notebook, RStudio, Spyder, PyCharm e Visual Studio Code.

Ferramentas de visualização de dados:


São softwares ou plataformas que permitem criar gráficos, mapas,
dashboards ou relatórios interativos para apresentar os dados e os
resultados das análises de forma clara e atrativa. Alguns exemplos
de ferramentas de visualização de dados são Tableau, Power BI, Qlik
Sense, Plotly e Matplotlib.

Ferramentas de Big Data:


São softwares ou plataformas que permitem armazenar, processar e
analisar grandes volumes, variedades e velocidades de dados,
usando técnicas como computação distribuída, paralela ou em
memória. Alguns exemplos de ferramentas de Big Data são Hadoop,
Spark, Kafka, MongoDB e Cassandra.

Plataformas de Cloud Computing:


São serviços que oferecem recursos computacionais como
armazenamento, processamento, rede ou segurança na nuvem, ou
seja, acessíveis pela internet e pagos conforme o uso. Alguns
exemplos de plataformas de cloud computing são AWS, Google
Cloud Platform, Microsoft Azure e IBM Cloud.
46 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Ferramentas de Deep Learning:


São softwares ou plataformas que permitem criar, treinar e
implementar redes neurais artificiais profundas, que são modelos
capazes de aprender representações complexas dos dados. Alguns
exemplos de ferramentas de Deep Learning são TensorFlow, PyTorch,
Keras e MXNet.

Ferramentas de automação:
São softwares ou plataformas que permitem automatizar tarefas
repetitivas ou complexas em Data Science, como limpeza de
dados, seleção de variáveis, otimização de hiperparâmetros
ou implementação de modelos. Alguns exemplos de ferramentas
de automação são AutoML, Auto-sklearn, TPOT e MLflow.
47 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

3.2. Frentes

Frentes de Data Science são áreas ou domínios de


aplicação da ciência de dados, que envolvem o uso de
dados e modelos para resolver problemas específicos ou
gerar valor para as organizações.

Assim com as ferramentas, existem diversas frentes de


Data Science possíveis, cada uma com seus desafios,
oportunidades e requisitos. Alguns exemplos de frentes
são:

Engenharia de Dados:
É a frente responsável por construir
e gerenciar a infraestrutura de dados,
que envolve a coleta, o armazenamento,
o processamento e a distribuição dos dados
em larga escala e alta velocidade, usando
ferramentas como Hadoop, Spark, Kafka.
48 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Cloud Computing:
É a frente responsável por prover e consumir
recursos computacionais na nuvem, ou seja,
acessíveis pela internet e pagos conforme o
uso, usando plataformas como AWS, Google
Cloud Platform, Microsoft Azure.

Social Network Analysis:


É a frente responsável por analisar as redes
sociais, ou seja, as estruturas formadas por
indivíduos ou entidades conectados por
algum tipo de relação ou interação, usando
técnicas como análise de grafos, mineração
de texto e análise de sentimentos.

Tecnologia da Informação (TI)


e Inovação Tecnológica:
É a frente responsável por planejar, implementar e
gerenciar os sistemas de informação e as soluções
tecnológicas que suportam os processos e as
estratégias das organizações, usando
metodologias como DevOps, Agile, Scrum.
49 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Análise da Conjuntura
Econômica em Cenários
de Tecnologias Disruptivas:
É a frente responsável por estudar e avaliar o
impacto das tecnologias disruptivas, ou seja,
aquelas que criam novos mercados ou
transformam os existentes, na economia e na
sociedade, usando técnicas como análise
macroeconômica, análise setorial, análise de
cenários.

Analytics e Gestão de Riscos:


É a frente responsável por identificar, avaliar
e mitigar os riscos associados às atividades
das organizações, usando técnicas como
análise estatística, modelagem preditiva,
simulação Monte Carlo.

Legislação no Ambiente
Digital (LGPD):
É a frente responsável por conhecer e aplicar as
normas jurídicas que regulam o uso dos dados
pessoais no ambiente digital, especialmente a
Lei Geral de Proteção de Dados (LGPD), que visa
garantir a privacidade e a segurança dos dados
dos usuários.
50 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Tópicos Especiais de Gestão


em Tecnologia de Negócios:
É a frente responsável por abordar temas
emergentes ou específicos relacionados à
gestão em tecnologia de negócios, como
inteligência artificial, internet das coisas e
blockchain.

Machine Learning:
É a frente responsável por criar e implementar
modelos de aprendizado de máquina, que são
algoritmos capazes de aprender com os dados e
fazer previsões ou classificações sem
programação explícita, usando técnicas como
regressão, classificação, clustering.

3.3. Ferramentas de IA que podem ajudar

Ferramentas de IA para Data Science são softwares ou


plataformas que usam técnicas de inteligência artificial,
como aprendizado de máquina, processamento de
linguagem natural, visão computacional, para analisar e
gerar dados e modelos de forma inteligente e
automatizada.
51 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Alguns exemplos de ferramentas são:

TensorFlow:
É uma plataforma de código aberto para
criar e implementar modelos de aprendizado
profundo, que são redes neurais artificiais
com várias camadas ocultas. O TensorFlow
permite definir, treinar e executar modelos
complexos de forma rápida e escalável,
usando linguagens como Python, C++ ou
Java.

PyTorch:
É uma plataforma de código aberto para
criar e implementar modelos de aprendizado
profundo, que oferece uma interface simples
e flexível baseada em tensores e operações
dinâmicas. O PyTorch permite definir, treinar
e executar modelos complexos de forma
interativa e personalizada, usando
linguagens como Python ou C++.

Keras:
É uma biblioteca de código aberto para criar
e implementar modelos de aprendizado
profundo, que oferece uma interface de alto
nível baseada em camadas e blocos
modulares. O Keras permite definir, treinar e
executar modelos complexos de forma fácil
e intuitiva, usando linguagens como Python
ou R.
52 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Scikit-learn:
É uma biblioteca de código aberto para criar
e implementar modelos de aprendizado de
máquina tradicional, que oferece uma
interface unificada baseada em objetos e
métodos. O Scikit-learn permite definir,
treinar e executar modelos simples ou
complexos de forma eficiente e consistente,
usando linguagens como Python ou Cython.

NLTK:
É uma biblioteca de código aberto para criar
e implementar modelos de processamento
de linguagem natural, que oferece uma
coleção de recursos e ferramentas para
trabalhar com dados textuais. O NLTK
permite definir, treinar e executar modelos
para tarefas como análise sintática, análise
semântica, análise de sentimentos, usando
linguagens como Python ou Java.

OpenCV:
É uma biblioteca de código aberto para criar
e implementar modelos de visão
computacional, que oferece uma coleção de
recursos e ferramentas para trabalhar com
dados visuais. O OpenCV permite definir,
treinar e executar modelos para tarefas
como detecção facial, reconhecimento
óptico de caracteres, segmentação de
imagens, usando linguagens como C++,
Python ou Java.
53 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

AutoML:
É uma plataforma proprietária da Google
Cloud para criar e implementar modelos de
aprendizado automático, que oferece uma
solução completa e integrada para
automatizar todo o processo de Data
Science. O AutoML permite definir, treinar e
executar modelos personalizados ou
pré-treinados para tarefas como
classificação de imagens, análise de texto,
previsão estruturada, usando uma interface
web ou uma API REST.

Lobe:
É um aplicativo proprietário da Microsoft
para criar e implementar modelos de
aprendizado profundo, que oferece uma
solução simples e visual para criar modelos
rápidos sem código. O Lobe permite definir,
treinar e executar modelos personalizados
ou pré-treinados para tarefas como
classificação de imagens, detecção de
objetos, reconhecimento facial, usando uma
interface gráfica ou um SDK.
54 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

TENDÊNCIAS EM DATA
04 SCIENCE E ANALYTICS

Tendências em Data Science e analytics são temas ou


áreas que estão em alta ou que prometem crescer e se
destacar no campo da ciência de dados e da análise de
dados nos próximos anos.

Essas tendências refletem os avanços tecnológicos, as


demandas do mercado, as oportunidades de inovação e
os desafios da sociedade.
55 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Alguns exemplos de tendências são:

IA Generativa
É a tendência que envolve o uso de modelos de
inteligência artificial, especialmente de aprendizado
profundo, para gerar dados sintéticos ou conteúdos
criativos, como imagens, textos, áudios, vídeos.

A IA generativa pode ser usada para fins diversos,


como aumentar a diversidade de dados, melhorar
a privacidade dos dados, criar simulações realistas,
produzir entretenimento personalizado.

Prompt Engineering
Envolve o uso de técnicas de engenharia de linguagem
natural para criar prompts ou instruções que orientam os
modelos de processamento de linguagem natural,
especialmente os baseados em transformers, a realizar
tarefas específicas ou complexas.
56 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

O prompt engineering pode ser usado para fins diversos,


como extrair informações, gerar respostas, classificar
textos, traduzir idiomas.

Graph Analytics
Envolve o uso de técnicas de análise de grafos para
explorar e modelar os dados que representam redes
ou relações entre entidades, como pessoas, produtos,
eventos.
A graph analytics pode ser usada para fins diversos,
como detectar comunidades, recomendar itens, prever
comportamentos, identificar influenciadores.

Data Wrangling
É a tendência que envolve o uso de técnicas de
preparação de dados para limpar, transformar
e enriquecer os dados brutos ou não estruturados
em dados prontos ou estruturados para análise ou
modelagem.

O data wrangling pode ser usado para fins diversos, como


melhorar a qualidade dos dados, integrar fontes de
dados, extrair características dos dados.
57 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Análise Espacial
Envolve o uso de técnicas de análise geográfica ou
geoespacial para explorar e modelar os dados que
representam fenômenos ou entidades localizados no
espaço físico ou terrestre.

A análise espacial pode ser usada para fins diversos,


como mapear distribuições, medir distâncias, calcular
áreas, estimar densidades.

Árvores, Redes e Ensemble Models

Tendência que envolve o uso de técnicas de aprendizado


de máquina supervisionado baseadas em estruturas
hierárquicas ou combinadas de modelos simples ou
complexos. As árvores são modelos que dividem os dados
em subconjuntos com base em regras ou critérios.
58 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

As redes são modelos que conectam os dados em


camadas com base em pesos ou funções. Os ensembles
são modelos que agregam os resultados de vários
modelos individuais. Essas técnicas podem ser usadas
para fins diversos, como classificar categorias, prever
valores numéricos, reduzir erros ou variâncias.
59 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Introdução ao Deep Learning

É a tendência que envolve o uso de técnicas de


aprendizado profundo para criar e implementar modelos
de aprendizado de máquina baseados em redes neurais
artificiais profundas.

O Deep Learning é um ramo do Machine Learning que


permite aprender representações complexas dos dados
com várias camadas ocultas.

Essas técnicas podem ser usadas para fins diversos,


como reconhecer padrões, gerar conteúdos, otimizar
funções.
60 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Deep Learning

Envolve o uso avançado de técnicas de aprendizado


profundo para criar e implementar modelos de
aprendizado de máquina baseados em redes neurais
artificiais profundas especializadas ou inovadoras.

O Deep Learning é um ramo do Machine Learning que


permite aprender representações complexas dos dados
com várias camadas ocultas. Essas técnicas podem ser
usadas para fins diversos, como processar linguagem
natural, visão computacional, áudio e vídeo.
61 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

Coleta de dados: Crawlers e Web Scraping

Tendência que envolve o uso de técnicas de coleta de


dados para extrair dados estruturados ou não
estruturados de fontes online, especialmente de páginas
web. Os crawlers são programas que navegam pela web
seguindo links ou regras.

O web scraping é o processo de extrair dados específicos


de uma página web usando expressões regulares ou
parsers. Essas técnicas podem ser usadas para fins
diversos, como obter informações, monitorar preços,
analisar tendências.

Text Mining, Sentiment Analysis e Natural


Language Processing

Envolve o uso de técnicas de mineração de texto, análise


de sentimentos e processamento de linguagem natural
para explorar e modelar os dados que representam textos
escritos ou falados em linguagem natural. A mineração
de texto é o processo de extrair informações relevantes ou
úteis de um texto. A análise de sentimentos é o processo
de identificar e classificar as emoções ou opiniões
expressas em um texto.
62 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

O processamento de linguagem natural é o ramo da


inteligência artificial que estuda e modela a linguagem
natural.

Essas técnicas podem ser usadas para fins diversos,


como resumir textos, gerar respostas, classificar textos,
traduzir idiomas, por exemplo.

Pesquisa Operacional e Modelos de Otimização


e Simulação

Envolve o uso de técnicas de pesquisa operacional e


modelos de otimização e simulação para explorar e
modelar os dados que representam problemas ou
situações complexas envolvendo recursos limitados ou
incertos.

A pesquisa operacional é o ramo da matemática


aplicada que estuda e soluciona problemas de tomada
de decisão. A otimização é o processo de encontrar a
melhor solução possível para um problema dado um
conjunto de restrições.
63 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

A simulação é o processo de imitar o comportamento


de um sistema real usando um modelo matemático.
Essas técnicas podem ser usadas para fins diversos,
como planejar rotas, alocar recursos, prever demandas
ou avaliar cenários.

Gestão da Mudança na Era Digital (Change


Management)
Envolve o uso de técnicas de gestão da mudança
para facilitar e acelerar a transformação digital das
organizações, especialmente no que diz respeito
à adoção e ao uso de dados e tecnologias.

A gestão da mudança é o conjunto de processos,


ferramentas e estratégias que visam gerenciar as
pessoas, os processos e a cultura envolvidos em uma
mudança organizacional.

Essas técnicas podem ser usadas para fins diversos,


como alinhar objetivos, engajar stakeholders, capacitar
colaboradores ou monitorar resultados.
64 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

COMBINANDO A IA E A CIÊNCIA DE
05 DADOS

IA e ciência de dados são áreas complementares que


podem se beneficiar mutuamente para resolver
problemas complexos e gerar valor para as organizações.

A IA é o ramo da computação que estuda e cria sistemas


capazes de realizar tarefas que normalmente requerem
inteligência humana, como aprender, raciocinar,
perceber.

A ciência de dados é o campo interdisciplinar que estuda


e analisa dados estruturados e não estruturados com o
objetivo de extrair conhecimento, detectar padrões e
obter insights.
65 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

A combinação entre IA e ciência de dados pode ser feita


seguindo os seguintes passos:

Coleta de dados:
É o passo que envolve o uso de técnicas de coleta de dados
para obter dados relevantes ou úteis para o problema ou
objetivo em questão. Os dados podem ser obtidos de
diversas fontes, como bancos de dados, arquivos, sensores,
APIs, web scraping, por exemplo. A coleta de dados pode
usar ferramentas de IA para automatizar ou otimizar o
processo, como crawlers, chatbots, reconhecimento óptico
de caracteres.

Limpeza e processamento de dados:


é o passo que envolve o uso de técnicas de limpeza e
processamento de dados para preparar os dados coletados
para análise ou modelagem. A limpeza e o processamento
de dados podem envolver tarefas como remover dados
duplicados, corrigir dados inconsistentes, tratar dados
ausentes, padronizar dados heterogêneos, reduzir a
dimensionalidade dos dados.
66 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

A limpeza e o processamento de dados podem usar


ferramentas de IA para automatizar ou otimizar o processo,
como algoritmos de aprendizado não supervisionado,
processamento de linguagem natural, visão computacional.

Análise de dados:
É o passo que envolve o uso de técnicas de análise de dados
para explorar e entender os dados limpos e processados.
A análise de dados pode envolver tarefas como visualizar
os dados, calcular estatísticas descritivas, testar hipóteses,
identificar correlações ou associações.

A análise de dados pode usar ferramentas de IA para


automatizar ou otimizar o processo, como algoritmos de
aprendizado semi-supervisionado, análise de sentimentos,
análise de redes sociais.

Modelagem:
é o passo que envolve o uso de técnicas de modelagem
para criar e implementar modelos que representam os
dados ou o problema em questão.
67 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

A modelagem pode envolver tarefas como selecionar


variáveis ou características, escolher algoritmos ou métodos,
treinar ou ajustar modelos, avaliar ou validar modelos.
A modelagem pode usar ferramentas de IA para automatizar
ou otimizar o processo, como algoritmos de aprendizado
supervisionado ou reforçado, Deep Learning, otimização
matemática, simulação computacional.

Tomada de decisão:

É o passo que envolve o uso dos resultados da análise ou da


modelagem para tomar decisões informadas ou ações
efetivas. A tomada de decisão pode envolver tarefas como
interpretar os insights ou as previsões, comunicar os
resultados ou as recomendações, implementar as soluções
ou as melhorias, monitorar os impactos ou os feedbacks.

A tomada de decisão pode usar ferramentas de IA para


automatizar ou otimizar o processo, como sistemas
especialistas, agentes inteligentes, sistemas multiagentes,
sistemas adaptativos complexos.
68 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

06 CONCLUSÃO

Chegamos ao final deste ebook sobre Data Science e


como ele pode ser aplicado para tomar decisões de
tecnologia.

Esperamos que você tenha gostado da leitura e que


tenha aprendido muito com os conteúdos apresentados.

Antes de encerrar, queremos ressaltar alguns pontos que


você não pode perder de vista:

• Data Science é a ciência que estuda e analisa dados


estruturados e não estruturados com o objetivo de extrair
conhecimento, detectar padrões e obter insights;

• Data Science é uma área essencial para a tomada de decisões


de tecnologia, pois permite entender melhor os clientes, os
usuários, os concorrentes e o mercado, otimizar processos,
produtos, serviços e recursos, inovar com soluções criativas,
personalizadas e escaláveis, prever cenários, tendências,
comportamentos e resultados, testar hipóteses, validar ideias e
medir impactos;
69 UTILIZANDO DATA SCIENCE PARA TOMAR DECISÕES ESTRATÉGICAS

• Para utilizar Data Science para tomar decisões de tecnologia, é


preciso criar um ambiente complexo de dados em um
verdadeiro laboratório de informações e insights, coletando,
armazenando, processando, analisando e visualizando dados
de diversas fontes e formatos;

• Para potencializar o uso dos dados, é preciso conhecer as


ferramentas e áreas complementares ao Data Science, como
Machine Learning, Deep Learning, Big Data, cloud computing,
entre outras tecnologias que permitem resolver problemas
mais complexos e gerar mais valor;

• O mercado de Data Science está em constante crescimento e


diversificação, exigindo dos profissionais de Data Science
capacitação, atualização e diferenciação constantes.

Esperamos que este ebook tenha sido útil para você e que
ele possa te ajudar a utilizar Data Science para tomar
decisões de tecnologia mais informadas, eficientes e
estratégicas. Se você quiser saber mais sobre Data Science
ou sobre outras áreas relacionadas à tecnologia, continue
acompanhando o nosso blog. Até a próxima!
Outros materiais

Quer mais conhecimento sobre


tecnologia, gestão e inovação?
Confira outros materiais gratuitos que separamos para você.

E-book gratuito E-book gratuito E-book gratuito

Saiba quais são as Guia de métricas e Princípios de Desenvolvimento


tendências tech de 2023 indicadores de TI de Produtos Digitais

Acessar Acessar Acessar

E-book gratuito E-book gratuito

Product-Led Growth Guia prático para


Guia e Frameworks implantação DEVOPS

Acessar Acessar
maitha.com.br

Você também pode gostar