Aula 02

Aula 02
Caixa Econômica Federal (CEF) Passo

Estratégico de Conhecimentos e
Comportamentos Digitais - 2024
(Pós-Edital)
Autor:
Thiago Rodrigues Cavalcanti
29 de Março de 2024
85764731518 - Anna Clara nascimento

Thiago Rodrigues Cavalcanti
Aula 02
6 - CIÊNCIA DE DADOS. 8 - PENSAMENTO

COMPUTACIONAL. 9 - ANÁLISE DE NEGÓCIOS
Sumário
Análise Estatística .............................................................................................................................. 2
Roteiro de revisão e pontos do assunto que merecem destaque ............................................................. 2
Ciência de Dados ............................................................................................................................ 3
O que é Ciência de Dados? ........................................................................................................... 3
Inteligência Artificial ....................................................................................................................... 4
Machine Learning ........................................................................................................................... 5
Tipos de Sistemas de Aprendizagem de Máquina ........................................................................... 7
Aprendizagem supervisionada/não supervisionada ........................................................................ 8
Validação e avaliação de modelos preditivos ............................................................................... 14
Treinamento, Validação e Teste ................................................................................................. 21
Underfitting, overfitting e técnicas de regularização .................................................................... 21
Supervisionado vs. Não supervisionado ....................................................................................... 26
Deep Learning .............................................................................................................................. 27
Processos de Ciência de Dados (OSEMN) ........................................................................................ 29
Análise exploratória de dados ........................................................................................................ 31
Técnicas de Ciência de Dados ........................................................................................................ 41
Aposta estratégica ........................................................................................................................... 42
Questões estratégicas ...................................................................................................................... 44
Questionário de revisão e aperfeiçoamento........................................................................................ 54
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br

. Túlio Lages
Aula 00 Rodrigues Cavalcanti
Thiago
Aula 02
Perguntas .................................................................................................................................... 55
Perguntas com respostas............................................................................................................... 56
Lista de Questões Estratégicas .......................................................................................................... 59
Gabarito....................................................................................................................................... 63
ANÁLISE ESTATÍSTICA
Inicialmente, convém destacar os percentuais de incidência de todos os assuntos previstos no
nosso curso – quanto maior o percentual de cobrança de um dado assunto, maior sua importância:
Grau de incidência em
concursos similares
Assunto
CESGRANRIO
6 - Ciência de dados. 8 - Pensamento computacional. 9 - Análise de
44,90%
Negócios.
3 - Design Thinking, Design de Serviço. 36,73%
4 - Metodologias ágeis, Lean Manufacturing, SCRUM. 18,37%
ROTEIRO DE REVISÃO E PONTOS DO ASSUNTO QUE

MERECEM DESTAQUE
A ideia desta seção é apresentar um roteiro para que você realize uma revisão completa do assunto
e, ao mesmo tempo, destacar aspectos do conteúdo que merecem atenção.
Para revisar e ficar bem preparado no assunto, você precisa, basicamente, seguir os passos a
seguir:

. Túlio Lages
Thiago
Aula 02
Ciência de Dados
O que é Ciência de Dados?
A Ciência de Dados é um campo que utiliza técnicas e abordagens avançadas para explorar e
extrair conhecimentos valiosos de grandes volumes de dados, fornecendo insights significativos
para informar a tomada de decisões e impulsionar o progresso em diversas áreas. É uma
abordagem sistemática para coletar, organizar, analisar e interpretar dados, com o objetivo de obter
informações significativas e tomar decisões informadas.
A Ciência de Dados envolve a aplicação de métodos estatísticos, algoritmos de aprendizado de

máquina e técnicas de visualização de dados para explorar e compreender padrões, tendências e
relações nos dados. Isso geralmente é feito por meio de um processo iterativo que inclui a
formulação de perguntas de pesquisa, coleta de dados relevantes, limpeza e transformação dos
dados, análise exploratória, modelagem estatística ou de machine learning e interpretação dos
resultados.
A Ciência de Dados é usada para estudar dados de quatro maneiras principais: análise descritiva,
análise diagnóstica, análise preditiva e análise prescritiva.
1. Análise descritiva
A análise descritiva analisa os dados para obter insights sobre o que aconteceu ou o que está
acontecendo no ambiente de dados. Ela é caracterizada por visualizações de dados, como gráficos
de pizza, gráficos de barras, gráficos de linhas, tabelas ou narrativas geradas. Por exemplo, um
serviço de reserva de voos pode registrar dados como o número de bilhetes reservados a cada dia.
A análise descritiva revelará picos de reservas, quedas nas reservas e meses de alta performance
para este serviço.
2. Análise diagnóstica
A análise diagnóstica é uma análise aprofundada ou detalhada de dados para entender por que
algo aconteceu. Ela é caracterizada por técnicas como drill-down, descoberta de dados, mineração
de dados e correlações. Várias operações e transformações de dados podem ser realizadas em
um determinado conjunto de dados para descobrir padrões exclusivos em cada uma dessas
técnicas. Por exemplo, o serviço de voo pode fazer drill-down em um mês particularmente de alta
performance para entender melhor o pico de reserva. Isso pode levar à descoberta de que muitos
clientes visitam uma determinada cidade para assistir a um evento esportivo mensal.
3. Análise preditiva
A análise preditiva usa dados históricos para fazer previsões precisas sobre padrões de dados que
podem ocorrer no futuro. Ela é caracterizada por técnicas como machine learning, previsão,
correspondência de padrões e modelagem preditiva. Em cada uma dessas técnicas, os
computadores são treinados para fazer engenharia reversa de conexões de causalidade nos dados.
Por exemplo, a equipe de serviço de voo pode usar a ciência de dados para prever padrões de

. Túlio Lages
Thiago
Aula 02
reserva de voo para o próximo ano no início de cada ano. O programa de computador ou algoritmo
pode analisar dados anteriores e prever picos de reservas para determinados destinos em maio.
Tendo previsto as futuras necessidades de viagem de seus clientes, a empresa poderia iniciar a
publicidade direcionada para essas cidades a partir de fevereiro.
4. Análise prescritiva
A análise prescritiva leva os dados preditivos a um novo patamar. Ela não só prevê o que
provavelmente acontecerá, mas também sugere uma resposta ideal para esse resultado. Ela pode
analisar as potenciais implicações de diferentes escolhas e recomendar o melhor plano de ação. A
análise prescritiva usa análise de gráficos, simulação, processamento de eventos complexos, redes
neurais e mecanismos de recomendação de machine learning.
Voltando ao exemplo de reserva de voo, a análise prescritiva pode analisar campanhas de

marketing históricas para maximizar a vantagem do próximo pico de reservas. Um cientista de
dados pode projetar resultados de reservas para diferentes níveis de gastos de marketing em vários
canais de marketing. Essas previsões de dados dariam à empresa de reservas de voos mais
confiança para tomar suas decisões de marketing.
Inteligência Artificial
A inteligência artificial nasceu na década de 1950, quando um punhado de pioneiros do campo

nascente da ciência da computação começaram a perguntar se os computadores poderiam ser
feitos para "pensar" — uma questão cujas ramificações ainda estamos explorando hoje. Embora
muitas das ideias subjacentes haviam se formado nos anos e até décadas anteriores, a "inteligência
artificial" finalmente cristalizou-se como um campo de pesquisa em 1956, quando John McCarthy,
então um jovem professor assistente de matemática no Dartmouth College, organizou um workshop
de verão sob a seguinte proposta:
"O estudo deve prosseguir com base na conjectura de que todos os aspectos da aprendizagem ou
qualquer outra característica da inteligência podem, em princípio, ser tão precisamente descritos
que uma máquina pode ser feita para simulá-la. Uma tentativa será feita para descobrir como fazer
as máquinas usarem a linguagem, formar abstrações e conceitos, resolver tipos de problemas
agora reservados aos seres humanos e melhorar a si mesmos. Achamos que um avanço
significativo pode ser feito em um ou mais desses problemas se um grupo cuidadosamente
selecionado de cientistas trabalhar nele juntos por um verão."
No final do verão, a oficina terminou sem ter resolvido totalmente o enigma que se propus a
investigar. No entanto, contou com a presença de muitas pessoas que se tornariam pioneiras no
campo, e desencadeou uma revolução intelectual que ainda está em curso até hoje.
Concisamente, a IA pode ser descrita como o "esforço para automatizar tarefas intelectuais
normalmente realizadas por humanos." Como tal, a IA é um campo geral que abrange aprendizado
de máquina e deep learning, mas que também inclui muitas outras abordagens que podem não

. Túlio Lages
Thiago
Aula 02
envolver qualquer aprendizado. Considere que até a década de 1980, a maioria dos livros didáticos
de IA não mencionavam "aprender" em tudo! Os primeiros programas de xadrez, por exemplo,
envolviam apenas regras codificadas por programadores, e não se qualificavam como aprendizado
de máquina. De fato, por um tempo bastante longo, a maioria dos especialistas acreditava que a
inteligência artificial em nível humano poderia ser alcançada com programadores artesanalmente
um conjunto suficientemente grande de regras explícitas para manipulação de conhecimento
armazenado em bancos de dados explícitos. Essa abordagem é conhecida como IA simbólica. Foi
o paradigma dominante na IA entre os anos 1950 e o final dos anos 1980, e atingiu seu pico de
popularidade durante o boom de sistemas especializados dos anos 1980.
Embora a IA simbólica tenha se mostrado adequada para resolver problemas lógicos bem definidos,
como jogar xadrez, acabou por ser intratável descobrir regras explícitas para resolver problemas
mais complexos e confusos, como classificação de imagem, reconhecimento de fala ou tradução
natural da língua. Surgiu uma nova abordagem para tomar o lugar simbólico da IA: aprendizado de
máquina.
Machine Learning
O que é aprender, afinal? O que é aprendizado de máquina? Estas são questões filosóficas e não
nos interessamos muito por filosofia nessa aula; nossa ênfase está focada na sua prova de
concurso. No entanto, vale a pena passar alguns instantes tratando sobre questões fundamentais,
apenas para ver o quão complicado elas são, antes de arregaçar as mangas e olhar para a
aprendizagem de máquina na prática. Nosso dicionário define “aprender” como:
• 1. Ficar sabendo, reter na memória, tomar conhecimento de,

• 2. Adquirir habilidade prática (em),
• 3. Passar a compreender (algo) melhor graças a um depuramento da capacidade de
apreciação, empatia, percepção etc.
Esses significados têm algumas falhas quando associados a computadores. Veja se você consegue
responder a seguinte pergunta: como sabemos se uma máquina "tem conhecimento sobre " alguma
coisa? Toda a questão sobre se os computadores podem estar cientes ou conscientes é uma
questão filosófica. O fato é, será que eles conseguem aprender?
Anteriormente, definimos mineração de dados operacionalmente, como o processo de descoberta

de padrões, de forma automática ou semiautomática, em grandes quantidades de dados – e que
esses padrões devem ser úteis. Uma definição operacional pode ser formulada da mesma maneira
para a aprendizagem. As coisas são aprendidas quando eles mudam o comportamento de
uma forma que nos faz ter um melhor desempenho no futuro.
Tal fato associa o aprendizado ao desempenho e não ao conhecimento. Você pode testar o
aprendizado observando o comportamento e comparando-o com o comportamento passado. Este
é um tipo de definição muito mais objetiva e parece ser muito mais satisfatória.

. Túlio Lages
Thiago
Aula 02
Mas ainda há um problema. A aprendizagem é um conceito bastante escorregadio. Muitas coisas

mudam seu comportamento de forma a torná-las melhor no futuro, mas não queremos dizer que
elas realmente aprenderam. Um bom exemplo é um chinelo confortável. Será que ele aprendeu a
forma do seu pé? Certamente mudou sua forma para se tornar melhor como um chinelo! No entanto,
dificilmente podemos chamar isso de aprendizado.
Na linguagem cotidiana, muitas vezes usamos a palavra “treinamento” para denotar um tipo de
aprendizado sem sentido. Nós treinamos animais e até plantas. Mas aprender é diferente.
Aprender implica pensar. Aprender implica propósito. Algo que se aprende tem que ser feito
intencionalmente. É por isso que não falamos que uma vinha aprendeu a crescer em torno de uma
treliça em um vinhedo - falamos que ela foi treinada. Aprender sem propósito é apenas treinar.
Assim, em um exame mais detalhado, uma definição de aprendizado, em termos operacionais e

orientados para o desempenho, tem seus próprios problemas quando falamos sobre computadores.
Para decidir se algo realmente aprendeu, você precisa ver o que se pretendia, se havia algum
propósito envolvido. Isso torna o conceito discutível quando aplicado a máquinas porque não é claro
se os artefatos se comportam propositadamente. Enfim ... discussões filosóficas sobre o que
realmente significa “aprender”, como discussões sobre o que realmente significa “intenção” ou
“propósito” estão repletas de dificuldades. Até os tribunais de justiça acham difícil lidar com a
intenção.
Felizmente, os tipos de técnicas de aprendizado explicadas nesta aula não apresentam esses
problemas conceituais - eles são chamados de “aprendizado de máquina” sem realmente
pressupor qualquer posição filosófica específica sobre o que a aprendizagem realmente é. A
mineração de dados é um tópico prático e envolve aprendizado em um sentido prático, não teórico.
Estamos interessados em técnicas para encontrar padrões em dados, padrões que forneçam
insight ou possibilitem tomadas de decisão rápidas e precisas.
Muitas técnicas de aprendizado procuram descrições estruturais do que é aprendido, descrições

que podem se tornar bastante complexas e são tipicamente expressas como conjuntos de regras
ou como árvores de decisão. Como elas podem ser entendidas pelas pessoas, essas descrições
servem para explicar o que foi aprendido, em outras palavras, para explicar a base para novas
previsões.
Para ajudar a resolver esses questionamentos surge um conjunto de conceitos relacionados à

aprendizado de máquina. Veremos a estrutura teórica da matéria nesta parte da aula. Vem comigo!
A figura abaixo apresenta alguns conceitos sobre aprendizados que serão vistos mais à frente, não
tente entendê-los agora. Deixe apenas a sua mente capturar uma primeira percepção sobre o
assunto.

. Túlio Lages
Thiago
Aula 02
(i) Não iremos nos aprofundar nesse tema, tendo em vista que ele foi abordado nas
duas primeiras aulas do nosso curso. Vamos as outras tecnologias que fazem
parte da Ciência de Dados.
Tipos de Sistemas de Aprendizagem de Máquina
Existem tantos tipos diferentes de sistemas de Machine Learning que é útil classificá-los em
categorias amplas, com base nos seguintes critérios:
• Sejam eles treinados ou não exemplos já classificados (supervisionados, não

supervisionados, semisupervisionados e aprendizado de reforço)
• Se eles podem ou não aprender incrementalmente (on-line versus aprendizado em lote)
• Se eles funcionam simplesmente comparando novos pontos de dados com pontos de dados
conhecidos, ou, em vez disso, detectando padrões nos dados de treinamento e construindo
um modelo preditivo, assim como os cientistas fazem (aprendizado baseado em instância
versus baseado em modelo)
Esses critérios não são exclusivos; você pode combiná-los da maneira que quiser. Por exemplo,
um filtro de spam de última geração pode aprender em tempo real usando um modelo de rede
neural profunda treinado usando exemplos de spam e não spam; isso o torna um sistema de
aprendizagem on-line, baseado em modelos e supervisionado. Vamos olhar cada um desses
critérios um pouco mais de perto.

. Túlio Lages
Thiago
Aula 02
Aprendizagem supervisionada/não supervisionada
Os sistemas de Machine Learning podem ser classificados de acordo com a quantidade e o tipo de
supervisão que recebem durante o treinamento. São quatro categorias principais: aprendizagem
supervisionada, aprendizagem não supervisionada, aprendizagem semisupervisionada
e Aprendizado de Reforço.
Aprendizagem supervisionada
No aprendizado supervisionado, o conjunto de treinamento que você alimenta para o algoritmo

inclui as soluções desejadas, chamadas rótulos.
Figura 1 - Um conjunto de treinamento rotulado para classificação de spam (um exemplo de aprendizado
supervisionado)
Uma tarefa típica de aprendizagem supervisionada é a classificação. O filtro de spam é um bom

exemplo disso: ele é treinado com muitos e-mails de exemplo junto com suas respectivas
classes (spam ou ham), e deve aprender a classificar novos e-mails.
Outra tarefa típica é prever um valor numérico de destino, como o preço de um carro, dado um
conjunto de características (quilometragem, idade, marca, etc.) chamados preditores. Esse tipo de
tarefa é chamada de regressão. Para treinar o sistema, você precisa dar-lhe muitos exemplos de
carros, incluindo tanto seus preditores quanto suas etiquetas ou rótulos (ou seja, seus preços).
Observe que alguns algoritmos de regressão também podem ser usados para classificação, e vice-
versa. Por exemplo, a Regressão Logística é comumente utilizada para classificação, pois pode
produzir um valor que corresponde à probabilidade de pertencer a uma determinada classe (por
exemplo, 20% de chance de ser spam).
Aqui estão alguns dos mais importantes algoritmos de aprendizagem supervisionados (abordados
neste livro):
• k-Vizinhos mais próximos (KNN)

• Regressão Linear

. Túlio Lages
Thiago
Aula 02
• Regressão Logística
• Máquinas de vetores de suporte (SVMs)
• Árvores de decisão e Florestas Aleatórias
• Redes neurais
As Máquinas de Vetores de Suporte (SVM) são um tipo de algoritmo de

aprendizado de máquina utilizado principalmente para tarefas de classificação e
regressão. Elas são particularmente eficazes em problemas nos quais os dados são
linearmente separáveis ou quase linearmente separáveis.
O objetivo do SVM é encontrar um hiperplano de separação que maximize a margem
entre as classes. Em problemas de classificação binária, o hiperplano divide o espaço
de características em duas regiões, uma para cada classe.
As SVMs utilizam parâmetros de regularização para controlar a complexidade do
modelo e evitar o overfitting. O parâmetro de regularização C é usado para ajustar a
penalidade por classificações incorretas no conjunto de treinamento.
Uma das vantagens das SVMs é a capacidade de usar o "kernel trick", que permite
mapear os dados para um espaço de características de maior dimensão sem
realmente calcular todas as transformações. Isso é útil quando os dados não são
linearmente separáveis no espaço original, pois pode-se encontrar um hiperplano de
separação em um espaço de características de maior dimensão.
Kernel Linear vs. Kernel Não-linear: Um kernel linear é utilizado quando os dados são
linearmente separáveis, enquanto kernels não-lineares (como o kernel polinomial, o
kernel RBF - Radial Basis Function, entre outros) são utilizados quando os dados não
podem ser separados por um hiperplano linear no espaço original.
- Vantagens: SVMs são eficazes em espaços de alta dimensionalidade, podem lidar

com conjuntos de dados pequenos a médios e são robustas contra overfitting quando
devidamente ajustadas.
- Desvantagens: SVMs podem ser computacionalmente intensivas, especialmente
em conjuntos de dados muito grandes, e podem ser sensíveis à escolha dos
parâmetros, como o parâmetro de regularização C e o tipo de kernel.
Aprendizado não supervisionado
Em aprendizado não supervisionado, como você pode imaginar, os dados de treinamento não são
rotulados. O sistema tenta aprender sem um professor.

. Túlio Lages
Thiago
Aula 02
Figura 2 - Um conjunto de treinamento sem rótulo para aprendizado não supervisionado
Aqui estão alguns dos mais importantes algoritmos de aprendizagem não supervisionados:
• Clustering
o K-Means
o DBSCAN
o Análise hierárquica de cluster (HCA)
• Detecção de anomalias e detecção de novidades
o SVM de uma classe
o Floresta de Isolamento
• Visualização e redução de dimensionalidade
o Análise de componentes principais (PCA)
o Kernel PCA
o Incorporação linear local (LLE)
o t-Distributed Stochastic Neighbor Embedding (t-SNE)
• Aprendizagem de regras da associação
o Apriori
o Eclat
o Por amostragem
o Árvore de Padrão-Frequente
Por exemplo, digamos que você tenha um monte de dados sobre os visitantes do seu blog. Você
pode querer executar um algoritmo de clustering para tentar detectar grupos de visitantes
semelhantes. Em nenhum momento você diz ao algoritmo a qual grupo um visitante pertence: ele
encontra essas conexões sem a sua ajuda. Por exemplo, pode notar que 40% dos seus visitantes
são homens que amam histórias em quadrinhos e geralmente leem seu blog à noite, enquanto 20%
são jovens amantes de ficção científica que visitam durante os fins de semana. Se você usar um
algoritmo hierárquico de clustering, ele também pode subdividir cada grupo em grupos menores.
Isso pode ajudá-lo a direcionar seus posts para cada grupo.

. Túlio Lages
Thiago
Aula 02
Figura 3 - Clustering
Algoritmos de visualização também são bons exemplos de algoritmos de aprendizagem não

supervisionados: você os alimenta com muitos dados complexos e não rotulados, e eles fazem uma
representação 2D ou 3D de seus dados que podem ser facilmente plotados. Esses algoritmos
tentam preservar o máximo de estrutura possível (por exemplo, tentando evitar que os clusters
separados no espaço de entrada se sobreponham na visualização) para que você possa entender
como os dados são organizados e talvez identificar padrões insuspeitável.
Figura 4 - Exemplo de visualização t-SNE destacando clusters semânticos
Uma tarefa relacionada é a redução da dimensionalidade, na qual o objetivo é simplificar os dados

sem perder muitas informações. Uma maneira de fazer isso é fundir várias características
correlacionadas em uma. Por exemplo, a quilometragem de um carro pode estar fortemente
correlacionada com sua idade, de modo que o algoritmo de redução de dimensionalidade irá
mesclá-los em uma característica que representa o desgaste do carro. Isso é chamado de extração
de recursos.

. Túlio Lages
Thiago
Aula 02
Curiosidade: Muitas vezes é uma boa ideia tentar reduzir a dimensão de seus dados de
treinamento usando um algoritmo de redução de dimensionalidade antes de alimentá-lo para
outro algoritmo de Machine Learning (como um algoritmo de aprendizagem supervisionado). Ele
será executado muito mais rápido, os dados ocuparão menos espaço em disco e memória, e em
alguns casos também podem ter um desempenho melhor.
Outra tarefa não supervisionada comum é o aprendizado de regras de associação, no qual o

objetivo é cavar grandes quantidades de dados e descobrir relações interessantes entre atributos.
Por exemplo, suponha que você tenha um supermercado. Executar uma regra de associação em
seus registros de vendas pode revelar que as pessoas que compram molho de churrasco e batatas
fritas também tendem a comprar bife. Assim, você pode querer colocar esses itens perto um do
outro.
Aprendizado semisupervisionado
Uma vez que rotular dados geralmente é demorado e caro, muitas vezes você terá muitas
instâncias não rotuladas, e poucas instâncias rotuladas. Alguns algoritmos podem lidar com dados
que são parcialmente rotulados. Isso é chamado de aprendizagem semisupervisionados.
Figura 5 - Aprendizado semisupervisionado com duas classes (triângulos e quadrados): os exemplos não rotulados
(círculos) ajudam a classificar uma nova instância (a cruz) para a classe triângulo em vez da classe quadrada, mesmo
estando mais perto dos quadrados r
Alguns serviços de hospedagem de fotos, como o Google Fotos, são bons exemplos disso. Uma
vez que você envia todas as fotos de sua família para o serviço, ele reconhece automaticamente
que a mesma pessoa A aparece nas fotos 1, 5 e 11, enquanto outra pessoa B aparece nas fotos 2,
5 e 7. Esta é a parte não supervisionada do algoritmo (clustering). Agora tudo o que o sistema
precisa é que você diga quem são essas pessoas. Basta adicionar um rótulo por pessoa e é capaz
de nomear todos em cada foto, o que é útil para pesquisar fotos.
A maioria dos algoritmos de aprendizagem semisupervisionados são combinações de algoritmos

não supervisionados e supervisionados. Por exemplo, redes de crenças profundas (DBNs) são

. Túlio Lages
Thiago
Aula 02
baseadas em componentes não supervisionados chamados máquinas Boltzmann restritas (RBMs)

empilhadas umas nas outras. Os RBMs são treinados sequencialmente de forma não
supervisionada, e então todo o sistema é ajustado usando técnicas de aprendizagem
supervisionadas.
Aprendizado de reforço
O Aprendizado de Reforço é usa um sistema diferente. O sistema de aprendizagem, chamado

de agente neste contexto, pode observar o ambiente, selecionar e executar ações e
receber recompensas em troca (ou penalidades sob a forma de recompensas negativas. Ele deve
então aprender por si mesmo qual é a melhor estratégia, chamada de política, para obter a maior
recompensa ao longo do tempo. Uma política define qual ação o agente deve escolher quando está
em uma determinada situação.
1. Observa
2. Seleciona a ação
baseada na política
3. Age!
4. Recebe uma
recompensa ou
penalidade
5. Atualiza a política
6. Segue o fluxo até que
um política ótima seja
encontrada
Aprendizado por Reforço
Figura 6 - Aprendizado de reforço
Por exemplo, muitos robôs implementam algoritmos de Aprendizagem de Reforço para aprender a
andar. O programa AlphaGo do DeepMind também é um bom exemplo de Aprendizado de Reforço:
ele fez as manchetes em maio de 2017, quando venceu o campeão mundial Ke Jie no jogo de Go.
Aprendeu sua política vencedora analisando milhões de jogos e, em seguida, jogando muitos jogos
contra si mesmo. Note que o aprendizado foi desligado durante os jogos contra o campeão;
AlphaGo estava apenas aplicando a política que tinha aprendido.
Resumindo os três tipos de aprendizado, podemos construir o seguinte esquema:

. Túlio Lages
Thiago
Aula 02
Não
Supervisionado Por Reforço
supervisionado
Dados rotulados Sem rótulos Processo de decisão
Sistema de
Feedback direto Sem feedback
recompensas
Previsão de Procura uma estrutura Aprende com a série de

resultado/futuro escondida nos dados ações
Validação e avaliação de modelos preditivos
Depois do treinamento do modelo, faz-se necessário avaliar se o resultado é adequado o suficiente

para ser colocado em produção. Nas próximas linhas, iremos apresentá-lo à métodos de avaliação
de modelo, onde avaliamos o desempenho de cada modelo que treinamos antes de decidir colocá-
lo em produção. Ao final desta seção, você será capaz de criar um conjunto de dados de avaliação.
Você estará preparado para avaliar o desempenho dos modelos de regressão linear usando o erro
médio absoluto e o erro quadrático médio. Você também poderá avaliar o desempenho dos modelos
de regressão logística ou classificadores binários usando as métricas acurácia, precisão, recall e
F1 Score.
Avaliando o desempenho do modelo para modelos de regressão
Ao criar um modelo de regressão, você cria um modelo que prevê uma variável numérica contínua.
Ao separar seu conjunto de dados de avaliação (teste), você tem algo que pode usar para comparar
a qualidade do seu modelo.
O que você precisa fazer para avaliar a qualidade do seu modelo é comparar a qualidade da sua
previsão com o que é chamado de verdade fundamental, que é o valor real observado que você
está tentando prever. Dê uma olhada na tabela abaixo, na qual a primeira coluna contém a verdade
fundamental (chamada de actuals) e a segunda coluna contém os valores previstos:
Atual Valores Previstos

0 4.891 4.132270
1 4.194 4.364320
2 4.984 4.440703
3 3.109 2.954363
4 5.115 4.987951

. Túlio Lages
Thiago
Aula 02
A linha 0 na saída compara o valor real em nosso conjunto de dados de avaliação com o que nosso
modelo previu. O valor real do nosso conjunto de dados de avaliação é 4,891. O valor que o modelo
previu é 4,132270.
A linha 1 compara o valor real de 4,194 com o que o modelo previu, que é 4,364320.
Na prática, o conjunto de dados de avaliação conterá muitos registros, portanto, você não fará essa
comparação visualmente. Em vez disso, você fará uso de algumas equações.
Você deve fazer essa comparação calculando a perda (loss). A perda é a diferença entre os valores
reais e previstos da tabela anterior. Na mineração de dados, é chamada de medida de distância.
Existem várias abordagens para calcular medidas de distância que dão origem a diferentes funções
de perda. Duas delas são:
• Distância de manhattan
• Distância euclidiana
Existem várias funções de perda para regressão, veremos duas das funções de perda comumente
usadas para regressão, que são:
• Erro médio absoluto (MAE - Mean absolute error) - é baseado na distância de Manhattan
• Erro quadrático médio (MSE - Mean squared error) - é baseado na distância euclidiana
O objetivo dessas funções é medir a utilidade de seus modelos, fornecendo a você um valor
numérico que mostra quanto de desvio existe entre as verdades fundamentais e os valores
previstos pelos seus modelos.
Sua missão é treinar novos modelos com erros consistentemente menores.
A pontuação R2 (pronuncia-se "r quadrado") às vezes é chamada de "pontuação" e mede o

coeficiente de determinação do modelo. Pense nisso como a capacidade do modelo de fazer
previsões boas e confiáveis. Essa medida é acessada usando o método score() do modelo de
regressão da biblioteca do Scikitlearn.
Seu objetivo é treinar modelos sucessivos com objetivo de obter a pontuação mais alta de R 2. Os
valores de R2 variam entre 0 e 1. Seu objetivo é tentar fazer com que o modelo tenha uma pontuação
próxima a 1.
O erro médio absoluto (EMA) é uma métrica de avaliação para modelos de regressão que mede a
distância absoluta entre suas previsões e a verdade fundamental. A distância absoluta é a distância
independentemente do sinal, seja positivo ou negativo. Por exemplo, se a valor real for 6 e você
predizer 5, a distância será 1. No entanto, se você predisser 7, a distância será -1. A distância
absoluta, sem levar em consideração os sinais, é 1 em ambos os casos. Isso é chamado de
magnitude. O EMA é calculado somando todas as magnitudes e dividindo pelo número de
observações.

. Túlio Lages
Thiago
Aula 02
O EMA é calculado subtraindo todas as previsões da verdade fundamental, encontrando o valor

absoluto, somando todos os valores absolutos e dividindo pelo número de observações. Esse tipo
de medida de distância é chamado de distância de Manhattan na mineração de dados.
O erro quadrático médio (EQM) é calculado tomando os quadrados das diferenças entre os valores
reais e as previsões, somando-as e dividindo pelo número de observações. O EQM é grande e, às
vezes, a raiz quadrada deste valor é usada, que é a raiz do erro quadrático médio (REQM).
O erro logarítmico médio quadrático (ELMQ) introduz logaritmos na equação adicionando um ao

valor real e à previsão antes de tomar os logaritmos, depois elevar ao quadrado as diferenças,
somá-las e dividir pelo número de observações. O ELMQ tem a propriedade de ter um custo menor
para previsões que estão acima do valor real do que para aquelas que estão abaixo dele.
Avaliando o desempenho do modelo para modelos de classificação
Os modelos de classificação são usados para prever em qual classe um grupo de recursos se
enquadrará. Ao considerar um modelo de classificação, você pode começar a se perguntar o quão
preciso é o modelo. Mas como você avalia a precisão? Você precisa criar um modelo de
classificação antes de começar a avaliá-lo.
Como você já deve ter aprendido, avaliamos um modelo com base em seu desempenho em um
conjunto de teste. Um conjunto de teste terá seus rótulos, que chamamos de verdade fundamental,
e, usando o modelo, também geramos previsões para o conjunto de teste. A avaliação do
desempenho do modelo envolve a comparação da verdade fundamental com as previsões. Vamos
ver isso em ação com um conjunto de teste fictício:
Exemplos de teste Valores reais Valores Previstos Avaliação

Exemplo 1 Sim Sim Correto
Exemplo 2 Sim Não Incorreto
Exemplo 4 Não Não Correto
Exemplo 6 Não Sim Incorreto
Exemplo 7 Sim Não Incorreto
A tabela anterior mostra um conjunto de dados fictício com sete exemplos. A segunda coluna é a
verdade fundamental, que são os rótulos reais, e a terceira coluna contém os resultados de nossas
previsões. A partir dos dados, podemos ver que quatro foram classificados corretamente e três
foram classificados incorretamente.
Uma matriz de confusão gera a comparação resultante entre a previsão e a verdade fundamental,
conforme representado na tabela a seguir:
Valores reais↓ Previsto Sim Previsto Não

Sim Verdadeiro Positivo (TP) = 3 Falso Negativo (FN) = 2
Não Falso Positivo (FP) = 1 Verdadeiro negativo (TN) = 1

. Túlio Lages
Thiago
Aula 02
Figura 7 - Matriz de confusão
Como você pode ver na tabela, existem cinco exemplos cujos rótulos (verdade fundamental) são
Sim e o dois exemplos que têm os rótulos Não.
A primeira linha da matriz de confusão é a avaliação do rótulo Sim. O verdadeiro positivo (TP)
mostra aqueles exemplos cuja verdade fundamental e previsões são Sim (exemplos 1, 3 e 5). O
falso negativo mostra aqueles exemplos cuja verdade fundamental é Sim e que foram erroneamente
previstos como Não (exemplos 2 e 7).
Da mesma forma, a segunda linha da matriz de confusão avalia o desempenho do rótulo “Não”.
Falsos positivos são aqueles exemplos cuja verdade fundamental é “Não” e que foram
erroneamente classificados como Sim (exemplo 6). Os verdadeiros exemplos negativos são
aqueles cuja verdade fundamental e previsões são Não (exemplo 4).
Um exemplo bem-humorado da matriz de confusão pode ser visto na figura a seguir, perceba que
neste exemplo e nos próximos esquemas o valor negativo fica no canto esquerdo, enquanto o valor
positivo fica do lado direito.
A geração de uma matriz de confusão é usada para calcular muitas das matrizes, como a acurácia
e o relatório de classificação (composto pelos indicadores de precisão, recall e F1-score). Vamos
trabalhar a definição destes indicadores nas próximas seções
Acurácia
Acurácia é a métrica mais simples, ela representa o número de previsões corretas do modelo. É
uma ótima métrica para se utilizar quando os dados estão balanceados, vai dar uma visão geral do
quanto o modelo está identificando as classes corretamente. Porém, não devemos utilizar a

. Túlio Lages
Thiago
Aula 02
acurácia, quando temos classes desbalanceadas, pode causar uma falsa impressão de estamos
obtendo um bom desempenho.
Por exemplo: considere um estudo em que apenas 5% da população apresenta uma determinada
doença. Logo, temos um conjunto de dados desbalanceado. Se o modelo escolhido conseguir
classificar corretamente todas as pessoas que não têm a doença e errar a classificação de todos
os doentes, teremos uma acurácia de 95%, dando uma falsa impressão de que o modelo treinado
tem uma ótima previsão. Porém, o modelo não consegue classificar corretamente a classe de
interesse. A figura abaixo apresenta a fórmula para o cálculo da acurácia.
Valor Preditivo Negativo
Valor Preditivo Negativo (VPN) é a métrica que traz a informação da quantidade de observações
classificadas como negativa (0) que realmente são negativas. Ou seja, entre todas as observações
prevista como negativa (0), quantas foram identificadas corretamente. Por exemplo: entre os
pacientes classificados como não doentes, quantos foram identificados corretamente.
Precisão (Precision)
Precision ou precisão, também conhecida como Valor Preditivo Positivo (VPP), é a métrica que traz
a informação da quantidade de observações classificadas como positiva (1) que realmente são
positivas. Ou seja, entre todas as observações identificadas como positivas (1), quantas foram
identificadas corretamente. Por exemplo: entre os pacientes classificados como doentes, quantos
foram identificados corretamente. A tabela abaixo apresenta a fórmula utilizada no cálculo da
previsão.

. Túlio Lages
Thiago
Aula 02
Recall (Sensibilidade)
Recall ou Sensibilidade é a proporção dos Verdadeiros Positivos entre todas as observações que
realmente são positivas no seu conjunto de dados. Ou seja, entre todas as observações que são
positivas quantas o modelo conseguiu identificar como positiva. Representa a capacidade de um
modelo em prever a classe positiva. Por exemplo: dentre todos os pacientes doentes, quantos
pacientes o modelo conseguiu identificar corretamente.
Especificidade
Especificidade é a proporção dos Verdadeiros Negativos entre todas as observações que realmente
são negativas no seu conjunto de dados. Ou seja, entre todas as observações que são negativas,
quantas o modelo conseguiu prever como negativa. Representa a capacidade de um modelo em
prever a classe negativa. Por exemplo: dentre todos os pacientes não doentes, quantos foram
classificados corretamente.

. Túlio Lages
Thiago
Aula 02
F1- Score
F1-Score é a média harmônica entre o recall e a precisão (precision). Utilizada quando temos
classes desbalanceada.
Área sob a Curva ROC
A curva ROC (Receiver Operating Characteristic Curve) é a curva gerada pela taxa de verdadeiros
positivos (sensibilidade) e pela taxa de falsos positivos (1 – especificidade) para diferentes pontos
de cortes (c). A curva ROC oferece uma visão geral de um classificador e pode ser utilizada para
encontrar pontos de corte ideias. O corte que deixa a curva mais próxima do vértice (0, 1) maximiza
a sensibilidade conjuntamente com a especificidade.
Uma medida decorrente da curva ROC é o AUC (Area Under the Curve), que nada mais é que a
área abaixo da curva. O AUC varia entre 0 e 1 e quanto maior o AUC melhor o modelo.
Utilizada quando temos classes desbalanceada e sua principal vantagem é poder escolher o melhor
ponto de corte para otimizar o desempenho do modelo.
Representa a capacidade
Representa a capacidade do modelo prever a classe
do modelo prever a classe negativa corretamente.
positiva corretamente.
(1 – Especificidade)
Representa a capacidade
do modelo prever a classe
negativa incorretamente.
Quanto MAIOR
esse valor:
MELHOR!! Quanto MENOR
esse valor:
MELHOR!!
Todas essas métricas variam no intervalo [0,1] e quanto mais próximos de 1, melhor é o modelo.

. Túlio Lages
Thiago
Aula 02
Treinamento, Validação e Teste
Para fins de treinamento e teste de nosso modelo, devemos ter nossos dados divididos em três
divisões distintas de conjuntos de dados: treinamento, validação e teste.
O conjunto de treinamento
É o conjunto de dados que é usado para treinar e fazer o modelo aprender os recursos/padrões
ocultos nos dados. Em cada época, os mesmos dados de treinamento são alimentados
repetidamente na rede neural e o modelo continua aprendendo os recursos dos dados. O conjunto
de treinamento deve ter um conjunto diversificado de entradas para que o modelo seja treinado em
todos os cenários e possa prever qualquer amostra de dados não vista que possa aparecer no
futuro.
O conjunto de validação
O conjunto de validação é um conjunto de dados, separado do conjunto de treinamento, que é

usado para validar o desempenho do nosso modelo durante o treinamento. Esse processo de
validação fornece informações que nos ajudam a ajustar os hiperparâmetros e as configurações do
modelo de acordo. É como um crítico nos dizendo se o treinamento está indo na direção certa ou
não.
O modelo é treinado no conjunto de treinamento e, simultaneamente, a avaliação do modelo é

realizada no conjunto de validação após cada época. A ideia principal de dividir o conjunto de dados
em um conjunto de validação é evitar que nosso modelo seja superajustado, ou seja, o modelo se
torna realmente bom em classificar as amostras no conjunto de treinamento, mas não pode
generalizar e fazer classificações precisas nos dados que não viu antes.
O conjunto de teste
O conjunto de teste é um conjunto separado de dados usado para testar o modelo após a conclusão
do treinamento. Ele fornece uma métrica de desempenho do modelo final imparcial em termos de
exatidão, precisão, etc. Para simplificar, ele responde à pergunta " Qual é o desempenho do
modelo? "
Underfitting, overfitting e técnicas de regularização
O overfitting ocorre quando o modelo é muito complexo em relação à quantidade e ao ruído dos
dados de treinamento. Aqui estão as soluções possíveis:
• Simplifique o modelo selecionando um com menos parâmetros (por exemplo, um modelo

linear em vez de um modelo polinomial de alto grau), reduzindo o número de atributos nos
dados de treinamento ou restringindo o modelo.
• Reúna mais dados de treinamento.

. Túlio Lages
Thiago
Aula 02
• Reduza o ruído nos dados de treinamento (por exemplo, corrija erros de dados e remova
outliers).
Como você pode imaginar, underfitting é o oposto de overfitting: ele ocorre quando seu modelo é
muito simples para aprender a estrutura subjacente dos dados. Por exemplo, um modelo linear de
satisfação com a vida tende a ser insuficiente; a realidade é mais complexa do que o modelo,
portanto, suas previsões tendem a ser imprecisas, mesmo nos exemplos de treinamento. Aqui estão
as principais opções para corrigir esse problema:
• Selecione um modelo mais poderoso, com mais parâmetros.

• Alimente melhores recursos para o algoritmo de aprendizagem (engenharia de recursos).
• Reduza as restrições no modelo (por exemplo, reduza o hiperparâmetro de regularização).
Em algum lugar entre overfitting e underfitting existe um ponto ideal onde temos a capacidade ideal
de previsão; ou seja, os hiperparâmetros do modelo que são perfeitamente adequados para a tarefa
e os dados - é isso que estamos buscando. O objetivo da regularização é evitar que nosso modelo
se ajuste demais aos dados de treinamento. Agora que sabemos o propósito da regularização,
vamos explorar algumas das muitas maneiras de regularizar nossas redes neurais.
Adicionar uma penalidade de norma de parâmetro à função objetivo é o mais clássico dos métodos
de regularização. O que isso faz é limitar a capacidade do modelo. Esse método existe há várias
décadas e antecede o advento do aprendizado profundo. Podemos escrever isso da seguinte
forma:
Função de custo Penalidade
Aqui, . O valor α, na equação anterior, é um hiperparâmetro que determina o tamanho do

efeito que o regularizador terá sobre a função de custo regularizada. Quanto maior o valor de α,
mais regularização é aplicada, e quanto menor, menor o efeito da regularização na função de custo.
No caso de redes neurais, aplicamos apenas as penalidades de norma de parâmetro aos pesos,
pois eles controlam a interação ou relacionamento entre dois nós em camadas sucessivas, e
deixamos os vieses como estão. Existem algumas escolhas diferentes que podemos fazer quando
se trata de que tipo de norma de parâmetro usar, e cada uma tem um efeito diferente na
solução. Vejamos os dois principais métodos de regularização usados.
L2 regularization
O método de regularização L2 é muitas vezes referido como regressão Rigde (mais comumente
conhecido como decaimento de peso). Ela força os pesos da rede na direção da origem através do
seguinte termo de regularização para a função objetivo:

. Túlio Lages
Thiago
Aula 02
Por simplicidade, vamos supor que θ = w e que todas as letras são matrizes. A função objetivo
regularizada, neste caso, será a seguinte:
Se pegarmos seu gradiente, ele se torna o seguinte:
Usando o gradiente anterior, podemos calcular a atualização dos pesos em cada etapa do
gradiente, como segue:
Podemos expandir e reescrever o lado direito da atualização anterior da seguinte maneira:
A partir dessa equação, podemos ver claramente que a regra de aprendizado modificada faz com
que nosso peso diminua a cada passo, como no diagrama a seguir:
Figura 8 - Ridge Regularization - observe que o termo regularizador é um círculo.

. Túlio Lages
Thiago
Aula 02
No diagrama anterior, podemos ver o efeito que a regularização L2 tem em nossos pesos. Os
círculos sólidos no lado superior direito representam contornos de igual valor da função de objetivo
original, , à qual ainda não aplicamos nosso regularizador. Perceba que o w central aos
círculos sólidos seria o ponto ótimo calculado usando gradiente descendente. Mas este valor w é
sobrestimado e precisamos alterar o valor dos parâmetros para convergir para outro ponto. Aí que
entra o termo de regularização. Os círculos pontilhados, por outro lado, representam os contornos
do termo regularizador, . Finalmente, , o ponto onde ambos os contornos se encontram,
representa quando os objetivos concorrentes atingem o equilíbrio.
L1 regularization
Outra forma de penalidade de norma é usar a regularização L1, que às vezes é chamada
de regressão de menor encolhimento absoluto e operador de seleção (LASSO). Neste caso, o
prazo de regularização é o seguinte:
O que isso faz é somar os valores absolutos dos parâmetros. O efeito que isso tem é que introduz
esparsidade (sparsity) em nosso modelo zerando alguns dos valores, nos dizendo que eles não são
muito importantes. Isso pode ser pensado como uma forma de seleção de recursos.
Semelhante à regularização L2 anterior, na regularização L1, o hiperparâmetro α controla quanto

efeito a regularização tem na função objetivo:
Isso é ilustrado a seguir:
Figura 9 - Lasso regularization - perceba que a figura do termo de regularização é um losango.

. Túlio Lages
Thiago
Aula 02
Como você pode ver no diagrama anterior, os contornos da função objetivo agora se encontram
nos eixos em vez de em um ponto distante dele que é de onde vem a esparsidade neste método.
Parada antecipada
Durante o treinamento, sabemos que nossas redes neurais (que têm capacidade suficiente para
aprender os dados de treinamento) tendem a se ajustar demais aos dados de treinamento em
muitas iterações e, portanto, são incapazes de generalizar o que aprenderam para ter um bom
desempenho no conjunto de teste. Uma maneira de superar esse problema é plotar o erro nos
conjuntos de treinamento e teste em cada iteração e avaliar analiticamente a iteração em que o erro
dos conjuntos de treinamento e teste é o mais próximo. Em seguida, escolhemos esses parâmetros
para o nosso modelo.
Outra vantagem deste método é que em nada altera a função objetivo, o que facilita o uso e não
interfere na dinâmica de aprendizado da rede, que é mostrada no diagrama a seguir:
No entanto, essa abordagem não é perfeita – ela tem um lado negativo. É computacionalmente
caro porque temos que treinar a rede por mais tempo do que o necessário e coletar mais dados
para ela, e então observar o ponto em que o desempenho começou a degradar. Pense que, para
construir o gráfico acima, você precisa estender o treinamento por mais tempo.
Dropout
Este método foi proposto como uma alternativa para evitar overfitting e permitir redes maiores
explorarem mais regiões do espaço amostral. A ideia é bastante simples - durante cada etapa de
treinamento, dada uma porcentagem predefinida nd, uma camada de dropout seleciona
aleatoriamente nd*N unidades de entrada e as define para zero (a operação só está ativa durante
a fase de treinamento, enquanto é completamente removida quando o modelo é empregado para
novas previsões).
Esta operação pode ser interpretada de várias maneiras. Quanto mais camadas de dropout são
empregadas, o resultado de sua seleção é uma sub-rede com capacidade reduzida que pode evitar
o sobreajuste no conjunto de treinamento. A sobreposição de muitas sub-redes treinadas (cada
uma com uma eliminação diferente de nós) compõe um conjunto implícito cuja previsão é uma

. Túlio Lages
Thiago
Aula 02
média sobre todos os modelos. Se o dropout for aplicado em camadas de entrada, ele adiciona um
ruído aleatório às amostras. Ao mesmo tempo, o emprego de várias camadas de dropout permite
explorar várias configurações potenciais que são continuamente combinadas e refinadas.
Essa estratégia é claramente probabilística, e o resultado pode ser afetado por muitos fatores
impossíveis de prever; no entanto, vários testes confirmaram que o emprego de um dropout é uma
boa escolha quando as redes são muito profundas, pois as sub-redes resultantes têm uma
capacidade residual que lhes permite modelar uma grande parte das amostras, sem levar toda a
rede a fixar sua configuração, superajustando ao conjunto de treinamento. Por outro lado, este
método não é muito eficaz quando as redes são rasas ou contêm um pequeno número de neurônios
(nestes casos, a regularização L2 é provavelmente a melhor escolha).
Perceba que foi introduzido um novo hiperparâmetro que especifica a probabilidade de eliminação
das saídas da camada ou, inversamente, a probabilidade de retenção das saídas da camada. A
interpretação é um detalhe de implementação que pode mudar de acordo com a biblioteca de
código. Um valor comum é uma probabilidade de 0,5 para reter a saída de cada nó em uma camada
oculta e um valor próximo a 1,0, como 0,8, para reter as entradas da camada visível. Abaixo temos
uma figura que ilustra a aplicação de dropout sobre uma rede neural. Observe que, tanto dos
neurônicos da camada de entrada quanto das camadas intermediárias podem ser excluídos.
Figura 10 - (a) Rede Neural completa. (b) Rede Neural após o DROPOUT
Supervisionado vs. Não supervisionado
O campo do aprendizado de máquina tem dois ramos principais — aprendizado

supervisionado e aprendizagem não supervisionado — e muitos sub-ramos que fazem a ponte
entre os dois.
No aprendizado supervisionado, o agente de inteligência artificial tem acesso a rótulos, que

podem usar para melhorar seu desempenho em alguma tarefa. No problema do filtro de spam de
e-mail, temos um conjunto de dados de e-mails com todo o texto dentro de cada e-mail. Também

. Túlio Lages
Thiago
Aula 02
sabemos quais desses e-mails são spam ou não (os chamados rótulos). Esses rótulos são muito
valiosos para ajudar a IA de aprendizagem supervisionada a separar os e-mails de spam dos
demais.
Em aprendizado não supervisionado, os rótulos não estão disponíveis. Portanto, a tarefa do

agente de IA não está bem definida, e o desempenho não pode ser tão claramente medido.
Considere o problema do filtro de spam de e-mail — desta vez sem rótulos. Agora, o agente de IA
tentará entender a estrutura subjacente dos e-mails, separando o banco de dados de e-mails em
diferentes grupos, de modo que os e-mails dentro de um grupo são semelhantes entre si, mas
diferentes de e-mails em outros grupos.
Este problema de aprendizagem não supervisionado é menos claramente definido do que o

problema de aprendizagem supervisionado e mais difícil para o agente de IA resolver. Mas, se bem
tratada, a solução é mais poderosa.
Eis o porquê: a IA de aprendizagem não supervisionada pode encontrar vários grupos que
mais tarde marca como sendo "spam" — mas a IA também pode encontrar grupos que mais
tarde sejam marcados como sendo "importantes" ou categorizados como "família", "profissional",
"notícias", "compras", etc. Em outras palavras, como o problema não tem uma tarefa
estritamente definida, o agente de IA pode encontrar padrões interessantes acima e além do
que estávamos procurando inicialmente.
Deep Learning
O deep learning é um subcampo específico do aprendizado de máquina: uma nova visão sobre
as representações de aprendizagem a partir de dados que coloca ênfase no aprendizado de
camadas sucessivas de representações cada vez mais significativas. O "profundo" em
"aprendizagem profunda" não é uma referência a qualquer tipo de compreensão mais profunda
alcançada pela abordagem; em vez disso, representa essa ideia de sucessivas camadas de
representações. Quantas camadas contribuem para um modelo de dados é chamado de
profundidade do modelo. Outros nomes apropriados para o campo poderiam ter sido
representações de aprendizado em camadas ou aprendendo representações hierárquicas.
O aprendizado profundo moderno muitas vezes envolve dezenas ou mesmo centenas de camadas
sucessivas de representações, e todas são aprendidas automaticamente com a exposição a dados
de treinamento. Enquanto isso, outras abordagens para o aprendizado de máquina tendem a se
concentrar em aprender apenas uma ou duas camadas de representações dos dados (por exemplo,
tomar um histograma de pixel e, em seguida, aplicar uma regra de classificação); portanto, às vezes
são chamados de aprendizado raso.
No aprendizado profundo, essas representações em camadas são aprendidas através de

modelos chamados redes neurais, estruturadas em camadas literais empilhadas umas sobre as
outras. O termo "rede neural" refere-se à neurobiologia, embora alguns dos conceitos centrais em
aprendizagem profunda tenham sido desenvolvidos em parte, inspirando-se na nossa compreensão

. Túlio Lages
Thiago
Aula 02
do cérebro (em particular, o córtex visual), modelos de aprendizagem profunda não são modelos
do cérebro. Não há evidência de que o cérebro implemente algo como os mecanismos de
aprendizagem usados em modelos modernos de aprendizagem profunda. Você pode se deparar
com artigos de ciência pop proclamando que o aprendizado profundo funciona como o cérebro ou
foi modelado após o cérebro, mas esse não é o caso. Para nossos propósitos, o deep learning é
uma estrutura matemática para aprender representações a partir de dados.
Como são as representações aprendidas por um algoritmo de aprendizagem profunda? Vamos

examinar como uma rede de várias camadas que transforma uma imagem de um dígito para
reconhecer que dígito é.
Como você pode ver na figura abaixo, a rede transforma a imagem digital em representações cada
vez mais diferentes da imagem original e cada vez mais informativas sobre o resultado. Você pode
pensar em uma rede profunda como um processo de destilação de informações, onde a
informação passa por filtros sucessivos e sai cada vez mais purificada (ou seja, útil no que diz
respeito a alguma tarefa).

. Túlio Lages
Thiago
Aula 02
Então é isso que é o aprendizado profundo, tecnicamente: uma maneira de aprender

representações de dados. É uma ideia simples — mas, como se vê, mecanismos muito simples,
suficientemente dimensionados, podem acabar parecendo magia.
Processos de Ciência de Dados (OSEMN)
O processo de Ciência de Dados geralmente segue uma estrutura sistemática e iterativa. Embora
as etapas possam variar dependendo do contexto e do problema específico o OSEMN (mnemônico
de Obter dados; Suprimir dados; Explorar dados; Modelar dados; e Interpretar resultados) é uma
descrição geral dessas etapas.
O: Obter dados (Coleta)
Os dados podem ser pré-existentes, recém-adquiridos ou um repositório de dados que pode ser
baixado da Internet. Os cientistas de dados podem extrair dados de bancos de dados internos ou
externos, software de CRM da empresa, logs de servidores da Web, mídias sociais ou comprá-los
de fontes confiáveis de terceiros.
S: Suprimir dados (Limpeza e pré-processamento)

. Túlio Lages
Thiago
Aula 02
A supressão de dados, ou limpeza de dados, é o processo de padronização dos dados de acordo

com um formato predeterminado. Ela inclui lidar com a ausência de dados, corrigir erros de dados
e remover quaisquer dados atípicos. Alguns exemplos de supressão de dados são:
• Alterar todos os valores de data para um formato padrão comum.

• Corrigir erros de ortografia ou espaços adicionais.
• Corrigir imprecisões matemáticas ou remover vírgulas de números grandes.
E: Explorar dados (Análise exploratória)
A exploração de dados é uma análise de dados preliminar que é usada para planejar outras
estratégias de modelagem de dados. Os cientistas de dados obtêm uma compreensão inicial dos
dados usando estatísticas descritivas e ferramentas de visualização de dados. Em seguida, eles
exploram os dados para identificar padrões interessantes que podem ser estudados ou acionados.
M:Modelar dados
Os algoritmos de software e machine learning são usados para obter insights mais profundos,
prever resultados e prescrever o melhor plano de ação. Técnicas de machine learning, como
associação, classificação e clustering, são aplicadas ao conjunto de dados de treinamento. O
modelo pode ser testado em relação a dados de teste predeterminados para avaliar a precisão dos
resultados. O modelo de dados pode ser ajustado várias vezes para melhorar os resultados.
N: Interpretar resultados
Os cientistas de dados trabalham em conjunto com analistas e empresas para converter insights
de dados em ação. Eles fazem diagramas, gráficos e tabelas para representar tendências e
previsões. A sumarização de dados ajuda as partes interessadas a entender e implementar os
resultados de forma eficaz.

. Túlio Lages
Thiago
Aula 02
Análise exploratória de dados
Em estatística, a análise exploratória de dados (AED) é uma abordagem usada para análise de
conjuntos de dados de modo a resumir suas características principais, frequentemente com
métodos visuais. Um modelo estatístico pode ou não ser usado. Primariamente a AED tem como
objetivo observar o que os dados podem nos dizer além da modelagem formal ou do processo
de teste de hipóteses.
Diferentemente do que é feito na Estatística Clássica e Estatística Bayesiana, na Análise

Exploratória de Dados não há a imposição de um modelo aos dados, mas sim um trabalho de
mineração nos dados que pode eventualmente indicar qual o melhor modelo. A AED vai além do
uso descritivo da estatística, procura olhar de forma mais profunda os dados, sem resumir muito a
quantidade de informações. Veja a figura abaixo a diferença entre as abordagens estatísticas e
suas estratégias.
Antes de darmos continuidade a parte teórica do assunto gostaria de fazer um comentário sobre
uma proximidade entre a mineração de dados e análise exploratória dos dados. Na minha humilde
opinião são duas ciências, ou abordagem para soluções de problemas bem semelhantes. A
mineração de dados foi desenvolvida por cientistas da computação enquanto a AED foi evoluída
por estatística.
A AED pertence, portanto, ao campo do que era conhecido como Estatística descritiva que, com o
acréscimo de técnicas chamadas robustas, permite dar tratamento mais detalhado aos dados
explorando pontos de vista não abrangidos pela Estatística descritiva. Ela foi promovida pelo
estatístico norte-americano John Tukey, que incentivava os estatísticos a explorar os dados e
possivelmente formular hipóteses que poderiam levar a novas coletas de dados e experimentos.
A AED emprega grande variedade de técnicas gráficas e quantitativas, visando maximizar a

obtenção de informações ocultas na sua estrutura, descobrir variáveis importantes em suas
tendências, detectar comportamentos anômalos do fenômeno, testar se são válidas as hipóteses
assumidas, escolher modelos e determinar o número ótimo de variáveis. Enfim, sua finalidade é
examinar os dados previamente à aplicação de qualquer técnica estatística. Desta forma o
analista consegue um entendimento básico de seus dados e das relações existentes entre as
variáveis analisadas.
Após a coleta e a digitação de dados em um banco de dados apropriado, o próximo passo é a

análise descritiva. Esta etapa é fundamental, pois uma análise descritiva detalhada permite ao
pesquisador familiarizar-se com os dados, organizá-los e sintetizá-los de forma a obter as

. Túlio Lages
Thiago
Aula 02
informações necessárias do conjunto de dados para responder as questões que estão sendo
estudadas.
Faz parte também da AED sintetizar dados através das chamadas medidas estatísticas. Elas
podem ser classificadas em quatro grupos:
(i) medidas de posição, entre elas as medidas de tendência central e as separatrizes;

(ii) medidas de dispersão como a variância e o desvio padrão;
(iii) medidas de assimetria e
(iv) medidas de achatamento ou de curtose.
A ideia central da utilização de dados numéricos para a análise de fenômenos está em

acrescentar mais uma peça de evidências ao corpo teórico e observações sobre achados da
realidade. No entanto, essa utilização deve estar cercada de alguns cuidados de forma a prevenir
a má utilização das técnicas estatísticas que podem levar a sérias distorções da realidade.
De forma sintética, podemos dizer que a análise de dados consiste de métodos e técnicas que
permitem ao investigador reforçar, confirmar ou não ideias acerca de um fenômeno real. Dois
conjuntos de métodos podem ser distinguidos a partir dessa ideia. O primeiro, mais simples,
consiste em aplicar tratamentos gráficos e numéricos de forma a compreender o
comportamento dos dados: esses tratamentos são conhecidos modernamente como Análise
Exploratória de Dados.
O outro conjunto de técnicas, conhecido como Inferência Estatística, permite que a partir da
observação de uma parte dos dados, chamada de amostra, se faça ilações para um grupo maior,
chamado população, que abrange aquele grupo menor.
Para realizar uma AED recomenda-se seguir as seguintes etapas:
• preparar os dados para serem acessíveis a qualquer técnica estatística;

• realizar um exame gráfico da natureza das variáveis individuais a analisar e uma análise
descritiva que permita quantificar alguns aspectos gráficos dos dados;
• realizar um exame gráfico das relações entre as variáveis analisadas e uma análise
descritiva que quantifique o grau de inter-relação entre elas;
• identificar os possíveis casos atípicos (outliers);
• avaliar, se for necessário, a presença de dados ausentes (missing values);
Conceitos estatísticos

. Túlio Lages
Thiago
Aula 02
Longe de mim querer ensinar estatística em algumas páginas. Nosso objetivo é quase construir um
pequeno glossário para que você possa recorrer quanto tiver alguma dificuldade nos conceitos
estatísticos que vão aparecer a seguir. Vejamos, portanto, alguns termos.
População e Amostra
População é o conjunto de todas as unidades que são de interesse em um certo estudo.
Amostra é qualquer subconjunto da população selecionado de acordo com certas regras. Para
escolher a nossa amostra podemos usar algumas técnicas:
• Amostragem Aleatória: Cada elemento da população tem uma chance conhecida

de ser selecionado.
• Amostragem Estratificada: Classificar a população em pelo menos dois estratos e
selecionar uma amostra de cada um.
• Amostragem Sistemática: Selecionar um elemento a cada k.
• Amostragem por Conglomerados: Dividir a população em conjuntos homogêneos,
mas com elementos heterogêneos. Selecionar aleatoriamente alguns destes
conjuntos e tomar amostras deles.
• Amostragem por Conveniência: Selecionar elementos de fácil acesso ou de
interesse para o estudo
Moda
A moda é o valor mais comumente relatado para uma variável particular. Pode ser ilustrado usando
a seguinte variável cujos valores são:
3, 4, 5, 6, 7, 7, 7, 8, 8, 9
A moda seria o valor 7, uma vez que existem três ocorrências de 7 (mais do que qualquer outro
valor). Ela fornece a única medida de tendência central para variáveis medidas em uma escala
nominal. A moda também pode ser calculada para variáveis medidas nas escalas ordinal, intervalo
e proporção.
Mediana
A mediana é o valor médio de uma variável uma vez que foi ordenada do menor para o maior.
Para variáveis com um número par de valores, a média dos dois valores mais próximos do meio é
selecionada (ou seja, temos que somar os dois valores e dividir por 2). O seguinte conjunto de
valores será usado para ilustrar:
Conjunto: 3, 4, 7, 2, 3, 7, 4, 2, 4, 7, 4
Ordenando: 2, 2, 3, 3, 4, 4, 4, 4, 7, 7, 7

. Túlio Lages
Thiago
Aula 02
Mediana: 4
Média
A média é a indicação mais comum de tendência central para variáveis medidas nas escalas
de intervalo ou proporção. É definida como a soma de todos os valores divididos pelo número de
valores. Por exemplo, para o seguinte conjunto de valores:
3, 4, 5, 7, 7, 8, 9, 9, 9
A soma dos nove valores é (3 + 4 + 5 + 7 + 7 + 8 + 9 + 9 + 9) ou 61. A soma dividida pelo número

de valores é 61 ÷ 9 ou 6.78. Veja a fórmula matemática para o cálculo da média. Observem que o
x com uma barra em cima representa a média de uma variável. Grave isso que esse valore será
usado nas próximas fórmulas.
Outro ponto interessante xi representa o valor da variável na posição i. Veja nosso exemplo, o 3 é
o elemento x1, já o 5 é o elemento x3.
Variância
A variância descreve a disseminação dos dados. É uma medida do desvio de uma variável da
sua média. Para variáveis que não representam toda a população, a fórmula de variância da
amostra é:
Em outras palavras: é uma medida da dispersão estatística de uma variável, indicando "o quão
longe" em geral os seus valores se encontram do valor esperado. Veja que a variância é a somas
dos desvios da média elevados ao quadrado. Pense um pouco, porque é importante elevar ao
̅ ? Se calcularmos a média dos desvios,
quadrado a diferença entre o valor da variável (xi) da média 𝑥
somando-os e dividindo o resultado pela quantidade de valores, ela será nula, pois a soma de todos
esses desvios será zero, pelo próprio significado da média como medida de tendência central.
Desvio padrão

. Túlio Lages
Thiago
Aula 02
Observem que a variância não está na mesma unidade que as nossas variáveis, pois os desvios
são elevados ao quadrado. Para conservarmos as unidades do desvio e dos dados, calculamos o
desvio-padrão, o qual nada mais é do que extrair a raiz quadrada da variância.
Escalas de mensuração
As técnicas a serem utilizadas dependem da natureza de mensuração das variáveis de interesse:
Nominal: as variáveis são medidas em classes discretas, mas não é possível estabelecer ordem.
Ordinal: as variáveis são medidas em classes discretas entre as quais é possível definir uma
ordem, segundo uma relação descritível, mas não quantificável.
Intervalar: as variáveis assumem valores quantitativos, não possuem zero absoluto, i.e., não
possuem uma medida de ausência de atributo.
Razão: as variáveis assumem valores quantitativos, cuja relação exata entre estes é possível
definir porque esta escala possui um zero absoluto.
O tipo da análise que pode ser realizado depende da escala de medida da variável analisada. Na
tabela a seguir se sugerem as representações gráficas e resumos descritivos numéricos mais
recomendáveis para realizar essa análise.
Vamos tentar detalhar um pouco mais termos vistos acima. A teoria de escalas de medida ou de
mensuração é interessante e já foi abordada por diversas bancas. Assim, não custa nada reforçar
os conceitos vistos acima. São consideradas variáveis de nível de mensuração:

. Túlio Lages
Thiago
Aula 02
Nominal - O nível nominal é também conhecido como categórico ou qualitativo. Não há relação
de maior, menor ou qualquer escala de ordem. Uma variável nominal pode apenas ser igual ou
diferente de outra variável nominal.
Ordinal - O nível ordinal também é qualitativo (embora em alguns casos pode ser transformado
em quantitativo). Neste caso, as variáveis possuem uma relação de ordem, podendo estabelecer
comparações como X é maior que Z.
Intervalar – é como o nível ordinal, com a propriedade adicional de que a diferença entre
quaisquer dois valores de dados é significativa. No entanto, os dados nesse nível não têm um
ponto inicial zero natural (quando o nada da quantidade está presente). A escala intervalar,
caracterizada pela existência de:
Uma unidade de medida (arbitrária, porém fixa);

Um zero relativo, isto é, convencional.
Razão - é o nível intervalar com a propriedade adicional de que há também um ponto inicial zero
natural (onde zero indica que nada da quantidade está presente). Para valores nesse nível,
diferenças e razões são, ambas, significativas. O 4º nível define a chamada escala de razão ou
racional. Em função disso, todas as operações aritméticas passam a ter sentido.
Vamos agora, organizar mais uma vez as variáveis observando agora os operadores matemáticos,
operações avançadas e as propriedades de medida.
Variáveis e tipos de variáveis

. Túlio Lages
Thiago
Aula 02
Uma variável pode ser definida como qualquer característica associada a uma população. Pensem,
por exemplo, as notas dos alunos do Estratégia no concurso de Auditor. Ainda no escopo dos alunos
podemos analisar algumas características categóricas, por exemplo, sexo, cor, faixa etária.
Os dados estatísticos são obtidos através de um processo que envolve a observação ou algum
outro tipo de mensuração (coleta de dados) de características típicas (respostas, preferências) de
cada elemento (indivíduo, sujeito, caso) componente da unidade de análise (população ou
amostra). Lembre-se que, em estatística, utiliza-se com muita frequência o termo variável para
representar cada característica observada em uma população ou amostra.
Constata-se que a escolha do processo a ser utilizado na descrição ou na análise dos dados
estatísticos obtidos, depende da natureza de cada variável envolvida. As variáveis podem
basicamente ser classificadas de acordo com o seu nível de mensuração (o quanto de informação
cada variável apresenta) e seu nível de manipulação (como uma variável relaciona-se com as
outras no estudo).
A primeira classificação divide as variáveis em qualitativas e quantitativas. Outra forma de

classificar as variáveis refere-se à sua manipulação, neste caso temos as variáveis independentes
e dependentes.
Qualitativa x quantitativa
As variáveis qualitativas são aquelas que apresentam como possíveis realizações uma qualidade
ou atributo do indivíduo pesquisado, desta forma podemos dividir as variáveis qualitativas em:
Nominal: sexo, cor dos olhos.
Ordinal: classe social, grau de instrução.
Já as variáveis quantitativas são aquelas que apresentam como possíveis realizações números
resultantes de uma contagem ou mensuração, também podemos segregá-las da seguinte forma:
Contínua: peso, altura.
Discreta: número de filhos, número de carros.
As variáveis quantitativas nos levam a outros conceitos interessantes associados a medida de

posição e medida de dispersão. No primeiro estamos preocupados com a ordenação dos valores,
em saber, por exemplo, quem tirou a nota máxima e a mínima. Qual valor acontece com maior
frequência em um conjunto de dados (moda). Já as medidas de dispersão têm por finalidade
encontrar um valor que resuma a variabilidade de um conjunto de dados. Vejamos alguns exemplos:
Medidas de posição: moda, média, mediana (medidas de tendência central), percentis,

quartis.
Medidas de dispersão: amplitude, intervalo interquartil, variância, desvio padrão,
coeficiente de variação.

. Túlio Lages
Thiago
Aula 02
Dependentes x independentes x de controle
Variáveis independentes são aquelas que são

manipuladas, veja primeiramente a figura ao lado,
estamos testando um determinado experimento com e
sem água. Já as variáveis dependentes são apenas
medidas ou registradas como resultado da manipulação
das variáveis independentes. Neste caso a variável se
refere aos dados que observamos. Por fim, temos as
variáveis de controle, são aquela que mantemos fixas
ou inalteradas durante o seu experimento.
A figura abaixo, embora em inglês, apresenta de forma

consistente e bem diagramada os conceitos acima
apresentados sobre tipos de variáveis.

. Túlio Lages
Thiago
Aula 02
Banco de dados para análise estatística
Bancos de dados estatísticos são usados para fornecer informações estatísticas ou resumos dos
valores com base em diversos critérios. Por exemplo, um banco de dados para estatísticas de
população pode oferecer estatísticas com base em faixas etárias, níveis de renda, tamanho de
residência, níveis de educação e outros critérios.
Os usuários de banco de dados estatísticos, como os estatísticos do governo ou empresas de

pesquisa de mercado, têm permissão para acessar o banco de dados e recuperar informações
estatísticas sobre uma população, mas não para acessar informações confidenciais detalhadas
sobre indivíduos específicos.
A segurança para os bancos de dados estatísticos deve garantir que informações sobre os
indivíduos não possam ser acessadas. Às vezes, é possível deduzir certos fatos com relação aos
indivíduos baseando-se em consultas que envolvem apenas estatísticas de resumo sobre grupos;
consequentemente, isso também não deve ser permitido. Esse problema, chamado de segurança
de banco de dados estatístico, e as medidas de controle correspondentes são chamadas de
medidas de controle de inferência.
No banco de dados para análise estatística, todo o conteúdo, com exceção do nome das
variáveis, deve ser numérico. Se a variável for uma medida contínua, o conteúdo pode conter vírgula
com casas decimais (quantas forem necessárias). Se a variável for categórica, deve-se numerar
com códigos suas categorias e deixar “em Branco” a categoria de ausência de informação.
O nome das variáveis não pode conter acentuação (por exemplo, “cesárea”), ser formado por mais
de uma palavra (por exemplo “local do parto”), nem começar com número. Por isso, uma
documentação conhecida como “Dicionário” deve ser criada. Um exemplo de um dicionário de
dados pode ser visto na figura a seguir:

. Túlio Lages
Thiago
Aula 02
Se uma determinada variável permitir múltiplas respostas, então ela deverá ser desmembrada em
mais de uma variável, abrangendo as possíveis respostas para amostra estudada. A figura abaixo
mostra uma tabela com dados corretos que permitem uma análise estatística consistente. Perceba
que todos os campos são numérico e possuem apenas um valor para cada registro (são atômicos).

. Túlio Lages
Thiago
Aula 02
Técnicas de Ciência de Dados
As principais técnicas usadas pelos cientistas de dados são:
Classificação
Classificação é a ordenação de dados em grupos ou categorias específicos. Os computadores são

treinados para identificar e classificar dados. Conjuntos de dados conhecidos são usados para criar
algoritmos de decisão em um computador que processa e categoriza rapidamente os dados. Por
exemplo:·
• Classificar produtos como populares ou não populares·

• Classificar as aplicações de seguro como de alto risco ou baixo risco·
• Classificar comentários de mídias sociais em positivos, negativos ou neutros.
Os profissionais de ciência de dados usam sistemas de computação para acompanhar o processo

de ciência de dados.
Regressão
A regressão é o método de encontrar uma relação entre dois pontos de dados aparentemente não
relacionados. A conexão geralmente é modelada em torno de uma fórmula matemática e
representada como um gráfico ou curvas. Quando o valor de um ponto de dados é conhecido, a
regressão é usada para prever o outro ponto de dados. Por exemplo:
• A taxa de propagação de doenças transmitidas pelo ar.·

• A relação entre a satisfação do cliente e o número de funcionários.
• A relação entre o número de quartéis de bombeiros e o número de feridos em decorrência
de um incêndio em um determinado local.
Clustering
Clustering é o método de agrupar dados intimamente relacionados para procurar padrões e

anomalias. O clustering é diferente da classificação porque os dados não podem ser classificados
com precisão em categorias fixas. Portanto, os dados são agrupados em relações mais prováveis.
Novos padrões e relações podem ser descobertos com o clustering. Por exemplo:
• Agrupar clientes com comportamento de compra semelhante para melhorar o atendimento

ao cliente.
• Agrupar o tráfego de rede para identificar padrões de uso diário e identificar um ataque à
rede mais rapidamente.
• Agrupar artigos em diversas categorias de notícias diferentes e usar essas informações para
encontrar conteúdo de notícias falsas.

. Túlio Lages
Thiago
Aula 02
Embora os detalhes variem, os princípios subjacentes por trás dessas técnicas são:
Ensinar uma máquina a classificar dados com base em um conjunto de dados conhecido. Por
exemplo, palavras-chave de amostra são fornecidas ao computador com seus respectivos valores
de classificação. “Feliz” é positivo, enquanto “Ódio” é negativo.
Fornecer dados desconhecidos à máquina e permitir que o dispositivo classifique o conjunto de

dados de forma independente.
Permitir imprecisões de resultados e lidar com o fator de probabilidade do resultado.
APOSTA ESTRATÉGICA
A ideia desta seção é apresentar os pontos do conteúdo que mais possuem chances de serem
cobrados em prova, considerando o histórico de questões da banca em provas de nível semelhante
à nossa, bem como as inovações no conteúdo, na legislação e nos entendimentos doutrinários e
jurisprudenciais1.
Tipos de algoritmos de aprendizagem de máquina
Existem 3 tipos de algoritmos de aprendizado de máquina (ML):
Algoritmos de aprendizagem supervisionados: O aprendizado supervisionado usa

dados de treinamento rotulados para aprender a função de mapeamento que
transforma as variáveis de entrada (X) na variável de saída (Y). Em outras palavras,
ele resolve para f na seguinte equação:
Y = f (X)
1
Vale deixar claro que nem sempre será possível realizar uma aposta estratégica para um determinado
assunto, considerando que às vezes não é viável identificar os pontos mais prováveis de serem cobrados
a partir de critérios objetivos ou minimamente razoáveis.

. Túlio Lages
Thiago
Aula 02
Isso nos permite gerar saídas com precisão quando dadas novas entradas.
Algoritmos de aprendizagem não supervisionados: Modelos de aprendizagem

não supervisionados são usados quando temos apenas as variáveis de entrada (X)
e nenhuma variável de saída correspondente. Eles usam dados de treinamento não
rotulados para modelar a estrutura subjacente dos dados.
Aprendizado por reforço: O aprendizado por reforço é um tipo de algoritmo de

aprendizado de máquina que permite que um agente decida a melhor próxima ação
com base em seu estado atual (política), aprendendo comportamentos que
maximizarão uma recompensa.
1. Análise descritiva
A análise descritiva analisa os dados para obter insights sobre o que aconteceu ou o que está
acontecendo no ambiente de dados. Ela é caracterizada por visualizações de dados, como gráficos
de pizza, gráficos de barras, gráficos de linhas, tabelas ou narrativas geradas. Por exemplo, um
serviço de reserva de voos pode registrar dados como o número de bilhetes reservados a cada dia.
A análise descritiva revelará picos de reservas, quedas nas reservas e meses de alta performance
para este serviço.
2. Análise diagnóstica
A análise diagnóstica é uma análise aprofundada ou detalhada de dados para entender por que
algo aconteceu. Ela é caracterizada por técnicas como drill-down, descoberta de dados, mineração
de dados e correlações. Várias operações e transformações de dados podem ser realizadas em
um determinado conjunto de dados para descobrir padrões exclusivos em cada uma dessas
técnicas. Por exemplo, o serviço de voo pode fazer drill-down em um mês particularmente de alta
performance para entender melhor o pico de reserva. Isso pode levar à descoberta de que muitos
clientes visitam uma determinada cidade para assistir a um evento esportivo mensal.
3. Análise preditiva
A análise preditiva usa dados históricos para fazer previsões precisas sobre padrões de dados que
podem ocorrer no futuro. Ela é caracterizada por técnicas como machine learning, previsão,
correspondência de padrões e modelagem preditiva. Em cada uma dessas técnicas, os
computadores são treinados para fazer engenharia reversa de conexões de causalidade nos dados.
Por exemplo, a equipe de serviço de voo pode usar a ciência de dados para prever padrões de
reserva de voo para o próximo ano no início de cada ano. O programa de computador ou algoritmo
pode analisar dados anteriores e prever picos de reservas para determinados destinos em maio.
Tendo previsto as futuras necessidades de viagem de seus clientes, a empresa poderia iniciar a
publicidade direcionada para essas cidades a partir de fevereiro.

. Túlio Lages
Thiago
Aula 02
4. Análise prescritiva
A análise prescritiva leva os dados preditivos a um novo patamar. Ela não só prevê o que
provavelmente acontecerá, mas também sugere uma resposta ideal para esse resultado. Ela pode
analisar as potenciais implicações de diferentes escolhas e recomendar o melhor plano de ação. A
análise prescritiva usa análise de gráficos, simulação, processamento de eventos complexos, redes
neurais e mecanismos de recomendação de machine learning.
-----------------------------------------------------------------------------------------------------------------------------------
Classificação
Classificação é a ordenação de dados em grupos ou categorias específicos. Os computadores são

treinados para identificar e classificar dados. Conjuntos de dados conhecidos são usados para criar
algoritmos de decisão em um computador que processa e categoriza rapidamente os dados
Regressão
A regressão é o método de encontrar uma relação entre dois pontos de dados aparentemente não
relacionados. A conexão geralmente é modelada em torno de uma fórmula matemática e
representada como um gráfico ou curvas. Quando o valor de um ponto de dados é conhecido, a
regressão é usada para prever o outro ponto de dados.
Clustering
Clustering é o método de agrupar dados intimamente relacionados para procurar padrões e

anomalias. O clustering é diferente da classificação porque os dados não podem ser classificados
com precisão em categorias fixas. Portanto, os dados são agrupados em relações mais prováveis.
Novos padrões e relações podem ser descobertos com o clustering.
Imprima o capítulo Aposta Estratégica separadamente e dedique um tempo para absolver tudo o
que está destacado nessas duas páginas. Caso tenha alguma dúvida, volte ao Roteiro de Revisão
e Pontos do Assunto que Merecem Destaque. Se ainda assim restar alguma dúvida, não hesite em
me perguntar no fórum.
QUESTÕES ESTRATÉGICAS
Nesta seção, apresentamos e comentamos uma amostra de questões objetivas selecionadas
estrategicamente: são questões com nível de dificuldade semelhante ao que você deve esperar
para a sua prova e que, em conjunto, abordam os principais pontos do assunto.

. Túlio Lages
Thiago
Aula 02
A ideia, aqui, não é que você fixe o conteúdo por meio de uma bateria extensa de questões, mas
que você faça uma boa revisão global do assunto a partir de, relativamente, poucas questões.
1. CESGRANRIO - 2024 - Técnico de Planejamento e Pesquisa (IPEA)/Ciência de Dados

A partir de dados da pesquisa Perfil do Processado e Produção de Provas nas Ações Criminais
por Tráfico de Drogas, realizada em dezembro de 2023 pelo Instituto de Pesquisa Econômica
Aplicada (Ipea), é possível levantar informações sociodemográficas sobre os bairros em que
o direito à inviolabilidade domiciliar é relativizado. Os resultados revelam que os bairros mais
ricos e aqueles de população predominantemente branca são praticamente imunes às
entradas em domicílio, as quais se concentram substancialmente nos bairros mais pobres e
naqueles com população predominantemente negra ou minoritariamente branca.
Qual técnica de desidentificação de dados sensíveis é a mais adequada para preservar a
privacidade dos indivíduos processados, permitindo, ainda, a análise sociodemográfica dos
bairros?
A) Anonimização: remover todos os identificadores diretos dos indivíduos, incluindo nome,
CPF, RG e endereço, e também remover qualquer referência a bairro ou características
sociodemográficas.
B) Pseudonimização: substituir os identificadores diretos dos indivíduos por códigos ou
símbolos, mas publicar a tabela de correspondência junto com os dados.
C) Agregação: agrupar os dados dos indivíduos em categorias amplas, como faixa etária
e classe social, mas excluir informações sobre cor ou raça e bairro.
D) Perturbação: adicionar ruído ou alterar aleatoriamente todos os valores dos dados,
incluindo informações sociodemográficas e de bairro, de forma a tornar os dados inúteis
para análise específica de bairro.
E) Generalização: substituir informações detalhadas de identificação pessoal por
categorias mais amplas, mantendo dados sobre bairro e características
sociodemográficas, como faixa etária, classe social, cor ou raça.
Comentários
A generalização é uma técnica que preserva a privacidade dos indivíduos ao substituir informações
detalhadas de identificação pessoal por categorias mais amplas. Isso permite a análise
sociodemográfica dos bairros sem expor informações específicas que possam identificar
individualmente as pessoas envolvidas.
Portanto, ela é a técnica de desidentificação de dados sensíveis mais adequada para preservar a
privacidade dos indivíduos processados, permitindo a análise sociodemográfica dos bairros.

. Túlio Lages
Thiago
Aula 02
Agora vamos ver o que está errado nas outras alternativas:
A) A anonimização que remove todos os identificadores diretos e qualquer referência a bairro ou

características sociodemográficas tornaria os dados praticamente inúteis para a análise
sociodemográfica. Sem informações sobre bairro e características sociodemográficas, não seria
possível identificar padrões ou realizar a análise necessária para entender como o direito à
inviolabilidade domiciliar é relativizado em diferentes áreas e grupos populacionais.
B) A pseudonimização por si só não é suficiente para garantir a privacidade, especialmente se a

tabela de correspondência for publicada junto com os dados. Isso permitiria a reidentificação dos
indivíduos, violando a privacidade deles. A pseudonimização é uma técnica útil, mas deve ser
acompanhada de outras medidas de segurança para proteger adequadamente os dados.
C) A agregação excluindo informações sobre cor ou raça e bairro limitaria a análise

sociodemográfica, já que essas informações são cruciais para entender as disparidades no
tratamento de diferentes bairros e grupos populacionais. Sem esses dados, não seria possível
realizar uma análise completa e significativa das desigualdades identificadas na pesquisa.
D) A perturbação que altera aleatoriamente todos os valores dos dados pode proteger a
privacidade, mas também tornaria os dados inúteis para a análise específica de bairros. Adicionar
ruído ou alterar os dados sociodemográficos e de bairro impediria a detecção de padrões reais e
comprometeria a utilidade dos dados para a análise desejada.
Gabarito: alternativa E.

Em um estudo de saúde pública, um pesquisador está analisando um conjunto de dados que
inclui informações sobre idade, peso, altura e nível de atividade física dos participantes, no
entanto ele percebe que alguns dados referentes ao peso estão ausentes.
Considerando-se a necessidade de manter a precisão e a confiabilidade do estudo, qual das
seguintes abordagens seria a mais apropriada para tratar esses dados ausentes sobre o peso
dos participantes?
A) Interpolação de dados, para estimar os valores de peso ausentes, com base em um
modelo matemático que leva em conta as tendências e os padrões dos dados existentes.
B) Remoção de registros, para excluir todos os registros de participantes que não
incluíram informações de peso, mesmo que as outras informações estejam completas.
C) Substituição por zero, para substituir os dados de peso ausentes por zero, assumindo
que a ausência de informação indica a menor medida possível.
D) Substituição por valores extremos, para substituir os dados de peso ausentes pelos
valores máximos ou mínimos observados no conjunto de dados.
E) Uso de dados de outra pesquisa, para substituir os dados de peso ausentes por dados
de peso de um estudo similar.

. Túlio Lages
Thiago
Aula 02
Comentários
A interpolação de dados é uma técnica estatística que permite estimar valores ausentes com base
nos dados disponíveis, considerando as tendências e os padrões observados nos dados existentes.
Isso ajuda a manter a precisão do estudo ao fornecer estimativas plausíveis para os valores de
peso ausentes, sem comprometer a integridade dos dados.
Portanto, ela é a abordagem mais apropriada para tratar os dados ausentes sobre o peso dos
participantes, visando manter a precisão e a confiabilidade do estudo.
Vamos ver o que está errado nas outras alternativas:
B) A remoção de registros pode resultar em perda significativa de dados e reduzir o tamanho da

amostra, o que pode comprometer a validade estatística e a representatividade do estudo. Além
disso, isso pode introduzir um viés se os registros excluídos não forem aleatórios.
C) Substituir dados ausentes por zero não é apropriado, pois zero não é uma medida válida de peso
e introduziria um viés extremo nos dados. Isso distorceria as análises e as conclusões do estudo.
D) Substituir dados ausentes por valores extremos não é uma prática recomendada, pois
introduziria distorções nos dados. Isso poderia afetar negativamente as análises estatísticas e levar
a conclusões incorretas.
E) Substituir dados ausentes por dados de outra pesquisa pode não ser apropriado, pois os
participantes de diferentes estudos podem ter características diferentes. Isso pode introduzir vieses
e comprometer a validade das conclusões do estudo original.
Gabarito: alternativa A.

Outliers são pontos ou observações em um conjunto de dados que diferem significativamente
da maioria dos demais outros pontos. Eles podem ser resultados de variações na medição,
erros de entrada de dados ou, ainda, podem indicar uma variação genuína da fonte de coleta.
Em preparação para análise de um conjunto de dados, o tratamento de outliers
A) é sempre necessário, independentemente do tamanho do conjunto de dados ou do
objetivo da análise.
B) é sempre uma tarefa simples que pode ser realizada por qualquer analista de dados,
sem risco de perder informações valiosas.
C) é sempre uma tarefa complexa que requer um conhecimento profundo de estatística e
que independe do conjunto de dados e do objetivo da análise.
D) deve ser realizado antes de realizar agregações, pois os outliers podem afetar os
resultados da análise que inclua uma agregação.

. Túlio Lages
Thiago
Aula 02
E) deve ser realizado após realizar agregações, pois os outliers podem obscurecer os
resultados da agregação.
Comentários
O tratamento de outliers em preparação para a análise de um conjunto de dados depende de vários

fatores e não pode ser considerado como uma prática padrão que se aplica igualmente a todos os
conjuntos de dados.
Vamos analisar as alternativas:
A) ERRADA. O tratamento de outliers depende do contexto e da natureza dos dados.
B) ERRADA. Tratar outliers pode ser complexo e requer julgamento e conhecimento do domínio
específico dos dados.
C) ERRADA. Embora seja verdade que o tratamento de outliers pode ser complexo e exija
conhecimento estatístico, não é verdade que seja independente do conjunto de dados e do objetivo
da análise.
D) CERTA. Esta é uma prática comum, pois outliers podem distorcer agregações.
E) ERRADA. Tratar outliers antes de agregar é mais comum para evitar distorções nos resultados
da agregação.
Gabarito: alternativa D.
4. CESGRANRIO - 2023 - Escriturário (BB)/Agente de Tecnologia

Sabendo que existe, na organização em que trabalha, uma base de dados formada por uma
grande tabela que contém apenas o id do cliente e colunas do tipo booleano indicando se um
cliente possuía ou já tinha possuído cada produto da organização, um funcionário de TI
resolveu dividir os clientes em grupos apenas com base nessa informação, utilizando
aprendizado de máquina.
Para essa tarefa, o funcionário de TI deve utilizar o aprendizado de máquina
A) independente
B) não supervisionado
C) por recompensa
D) por reforço
E) supervisionado
Comentários

. Túlio Lages
Thiago
Aula 02
O aprendizado de máquina não supervisionado é adequado para tarefas em que não temos rótulos
ou categorias pré-definidas para os dados. Nesse caso, o objetivo é agrupar os clientes com base
em padrões nos dados, sem a necessidade de rótulos ou categorias conhecidas. Algoritmos como
o K-Means Clustering são exemplos de técnicas não supervisionadas que podem ser úteis para
essa tarefa.
Portanto, a alternativa correta é a letra B.
Vamos analisar as outras alternativas:
A) "Aprendizado de máquina independente" não é um termo comum ou reconhecido nas práticas

de aprendizado de máquina. Provavelmente, essa opção não se aplica ao contexto da tarefa
descrita.
C) Aprendizado por recompensa, também conhecido como aprendizado por reforço (opção D), é
uma técnica onde um agente aprende a tomar decisões através de interações com um ambiente e
recebe recompensas ou penalidades. Isso não se aplica à tarefa de agrupar clientes com base em
dados booleanos, pois não envolve uma sequência de decisões ou recompensas.
D) O aprendizado por reforço envolve a aprendizagem através de interações com um ambiente

dinâmico onde o agente recebe feedback na forma de recompensas ou punições. Essa técnica é
mais adequada para problemas onde há uma sequência de ações a serem aprendidas, como em
jogos ou controle robótico. Agrupar clientes com base em dados booleanos não envolve esse tipo
de interação sequencial.
E) O aprendizado supervisionado requer dados de entrada e saída etiquetados para treinar o

modelo. No caso descrito, não há uma variável de saída predefinida (rótulo) indicando os grupos
dos clientes. O objetivo é descobrir padrões inerentes nos dados sem rótulos, o que caracteriza o
aprendizado não supervisionado.
Gabarito: alternativa B.

Um pesquisador conseguiu uma base de dados que mostrava terrenos classificados de acordo
com:
• características físicas;
• tipo de negócio a ser nele implantado;
• risco esperado, que compreendia os rótulos alto, médio, baixo ou nenhum.
Decidiu, então, usar um algoritmo de aprendizado de máquina que, a partir das características
físicas do terreno e do tipo de negócio a ser nele implantado, aprenderia a determinar o risco
esperado, enquadrando o terreno em questão em um daqueles rótulos.

. Túlio Lages
Thiago
Aula 02
Nesse cenário, que algoritmo de aprendizado de máquina é indicado para resolver esse
problema?
A) PCA
B) K-NN
C) DBSCAN
D) K-Medoids
E) Redes de Kohonen
Comentários
==a2a0d==
O algoritmo K-NN é uma técnica de classificação baseada em instâncias que pode ser usada para
atribuir rótulos ou categorias a novos dados com base na proximidade deles com dados já rotulados.
Nesse caso, ele pode aprender a determinar o risco esperado dos terrenos com base nas
características físicas e no tipo de negócio a ser implantado, enquadrando-os em um dos rótulos
(alto, médio, baixo ou nenhum) com base nas características dos terrenos que são mais
semelhantes a eles.
Vamos analisar o que está errado nas outras alternativas:
A) PCA é uma técnica de redução de dimensionalidade e análise exploratória de dados que

transforma os dados em componentes principais. Não é uma técnica de classificação e, portanto,
não é adequada para prever o risco esperado.
C) DBSCAN é um algoritmo de aprendizado não supervisionado usado para clustering, que

identifica grupos de pontos densamente conectados. Não é adequado para problemas de
classificação onde se deseja prever um rótulo específico para novos dados.
D) K-Medoids é um algoritmo de clustering similar ao K-Means, mas mais robusto a outliers. Como
DBSCAN, é um método de aprendizado não supervisionado e não é adequado para tarefas de
classificação supervisionada.
E) Redes de Kohonen são um tipo de rede neural não supervisionada usada para visualização de
dados e clustering. Elas não são adequadas para tarefas de classificação supervisionada onde se
deseja prever rótulos específicos.
Gabarito: alternativa B.

Ao tentar resolver um problema de aprendizado de máquina que separava um evento
entre duas classes, um desenvolvedor encontrou uma acurácia de exatamente 90%.

. Túlio Lages
Thiago
Aula 02
Analisando a matriz de confusão, o desenvolvedor constatou que os verdadeiros positivos

eram 14169, que os verdadeiros negativos eram 15360, os falsos positivos eram 1501, e
os falsos negativos eram
A) 1778
B) 1779
C) 1780
D) 1781
E) 1782
Comentários
Vamos relembrar alguns conceitos importantes para essa questão:
• Matriz de confusão aborda sobre um dos problemas de classificação (classificação é

separar em grupos. Ex.: "A" e "B"). Um problema de classificação é calculado a partir de
quando a máquina agrupa, mas erra algum(s) sujeito(s) e acerta outros querendo, pois,
saber o quão bem foi (acurácia).
• Acurácia é a divisão entre: o que você acertou (true)/total (true + false).
Definições importantes:
• falso-positivo - a máquina achou que era, mas não é (errou).

• verdadeiro-negativo - a máquina achou que era algo estranho e de fato é (acertou).
Agora vamos aos dados:
• A questão nos deu o percentual de acurácia: 90% ou 0,9

• O que a máquina acertou? 14169 (VP) + 15360 (VN) = 29.529
• Total = 29.529 + 1501 + FN = 31.030
A fórmula de acurácia é:
Agora vamos calcular:
0,9 = 29.529 / 31.030 + FN

. Túlio Lages
Thiago
Aula 02
0,9 * (31.030 + FN) = 29.529
27.927 + 0,9FN = 29.529
0,9 FN = 1.602
FN = 1602/0,9
1780 (alternativa C)
Gabarito: alternativa C.

Uma organização decidiu monitorar a opinião do público sobre ela nas redes sociais. Para
isso, processou as mensagens com referências ao seu nome, a fim de possibilitar o uso de
uma técnica de processamento de linguagem natural conhecida como análise de sentimentos.
Após transformar cada mensagem em uma string, um dos passos importantes nessa técnica
é a tokenização, que consiste em
A) colocar todos os caracteres da mensagem em minúsculas.
B) colocar todos os verbos da mensagem no infinitivo.
C) dividir o texto da mensagem em palavras isoladas.
D) eliminar todos os marcadores HTML ou XML da mensagem.
E) substituir todos os caracteres acentuados da mensagem por suas versões sem acento.
Comentários
A tokenização em processamento de linguagem natural consiste em dividir o texto da mensagem

em palavras isoladas.
Portanto, o passo importante da tokenização é separar o texto em palavras individuais, também

chamadas de tokens, para que cada palavra possa ser analisada separadamente no contexto da
análise de sentimentos.
Esses tokens podem ser palavras individuais, partes de palavras (como sufixos ou prefixos),
números, pontuações ou qualquer outra unidade que faça sentido na análise do texto. A
tokenização é uma etapa fundamental no pré-processamento de texto, pois permite que os
algoritmos de processamento de linguagem natural trabalhem com unidades significativas e
facilitem a análise do texto de forma mais granular.
Por exemplo, ao tokenizar a frase "O cachorro correu para o parque", o texto seria dividido em
tokens como "O", "cachorro", "correu", "para", "o" (artigo), "parque". Cada token representa uma

. Túlio Lages
Thiago
Aula 02
unidade semântica que pode ser usada para análise, tradução, classificação de texto, entre outras
tarefas.
A) Colocar todos os caracteres em minúsculas é uma técnica de normalização de texto que ajuda
a garantir que palavras como "Organização" e "organização" sejam tratadas da mesma maneira.
Embora seja um passo comum no processamento de linguagem natural, não é o que se entende
por tokenização.
B) Colocar verbos no infinitivo é parte de um processo chamado lematização, que reduz palavras à
sua forma base ou dicionário. Embora útil, isso não é o mesmo que tokenização.
D) Remover marcadores HTML ou XML é um passo de limpeza de texto, que ajuda a eliminar
elementos desnecessários do texto. Isso é importante, mas não se trata de tokenização.
E) Substituir caracteres acentuados é outra técnica de normalização de texto, usada para garantir
a consistência dos dados, mas não é o mesmo que tokenização.
Gabarito: alternativa C.

Um cientista de dados está utilizando máquinas de vetor de suporte (SVM) em um projeto de
classificação, pois deseja evitar o overfitting do modelo aos dados de treinamento.
Qual das seguintes técnicas auxilia a prevenir o overfitting em SVM?
A) Apagar algumas ligações da rede.
B) Garantir que o hiperplano divida perfeitamente os pontos.
C) Misturar o conjunto de teste com o de treinamento.
D) Usar todos os pontos para a tomada de decisão.
E) Utilizar um kernel linear.
Comentários
Um kernel linear é uma função de kernel que transforma os dados para um espaço de
características linearmente separável. Isso simplifica o modelo e reduz a complexidade, o que pode
ajudar a evitar o overfitting, pois modelos mais complexos têm maior probabilidade de se ajustar
demais aos dados de treinamento. Além disso, um kernel linear é menos propenso a capturar ruído
nos dados, focando mais nos padrões essenciais para a classificação.

. Túlio Lages
Thiago
Aula 02
A) Esta técnica é associada a redes neurais e aprendizado profundo, onde conexões entre
neurônios podem ser apagadas aleatoriamente durante o treinamento (dropout) para prevenir o
overfitting. Não é aplicável diretamente ao SVM.
B) Garantir que o hiperplano divida perfeitamente todos os pontos de treinamento pode levar ao
overfitting, pois o modelo pode se tornar muito específico aos dados de treinamento, não
generalizando bem para novos dados.
C) Misturar o conjunto de teste com o de treinamento é uma prática incorreta que invalida a
avaliação do modelo. O conjunto de teste deve ser mantido separado para avaliar a generalização
do modelo.
D) Usar todos os pontos para a tomada de decisão não é uma técnica para prevenir overfitting. O
SVM já utiliza os pontos mais informativos (os vetores de suporte) para definir o hiperplano de
separação. Usar todos os pontos indiscriminadamente pode levar a um modelo complexo e,
potencialmente, ao overfitting.
Gabarito: alternativa E.
QUESTIONÁRIO DE REVISÃO E APERFEIÇOAMENTO

A ideia do questionário é elevar o nível da sua compreensão no assunto e, ao mesmo tempo,
proporcionar uma outra forma de revisão de pontos importantes do conteúdo, a partir de perguntas
que exigem respostas subjetivas.
São questões um pouco mais desafiadoras, porque a redação de seu enunciado não ajuda na sua
resolução, como ocorre nas clássicas questões objetivas.
O objetivo é que você realize uma autoexplicação mental de alguns pontos do conteúdo, para
consolidar melhor o que aprendeu ;)
Além disso, as questões objetivas, em regra, abordam pontos isolados de um dado assunto. Assim,
ao resolver várias questões objetivas, o candidato acaba memorizando pontos isolados do
conteúdo, mas muitas vezes acaba não entendendo como esses pontos se conectam.
Assim, no questionário, buscaremos trazer também situações que ajudem você a conectar melhor
os diversos pontos do conteúdo, na medida do possível.
É importante frisar que não estamos adentrando em um nível de profundidade maior que o exigido
na sua prova, mas apenas permitindo que você compreenda melhor o assunto de modo a facilitar
a resolução de questões objetivas típicas de concursos, ok?
Nosso compromisso é proporcionar a você uma revisão de alto nível!

. Túlio Lages
Thiago
Aula 02
Vamos ao nosso questionário:
Perguntas
1) Como você definiria machine learning?
2) Você pode citar quatro tipos de problemas onde podemos usar ML?
3) O que é um conjunto de treinamento rotulado?
4) Quais são as duas tarefas supervisionadas mais comuns?
5) Você pode nomear quatro tarefas não supervisionadas comuns?
6) Que tipo de algoritmo de Machine Learning você usaria para permitir que um robô
andasse em vários terrenos desconhecidos?
7) Que tipo de algoritmo você usaria para segmentar seus clientes em vários grupos?
8) Você enquadraria o problema da detecção de spam como um problema de

aprendizagem supervisionado ou um problema de aprendizagem não supervisionado?
9) O que é um sistema de aprendizagem online?
10) O que é aprendizado fora do núcleo?
11) Que tipo de algoritmo de aprendizagem depende de uma medida de similaridade para
fazer previsões?
12) Qual é a diferença entre um parâmetro modelo e o hiperparâmetro de um algoritmo de

aprendizagem?
13) O que os algoritmos de aprendizagem baseados em modelos buscam? Qual é a

estratégia mais comum que eles usam para ter sucesso? Como eles fazem previsões?
14) Você pode citar quatro dos principais desafios do Machine Learning?
15) Se o seu modelo se sai bem nos dados de treinamento, mas se generaliza mal para
novas instâncias, o que está acontecendo? Você pode nomear três soluções
possíveis?
16) O que é um conjunto de testes, e por que você quer usá-lo?
17) Qual é o propósito de um conjunto de validação?

. Túlio Lages
Thiago
Aula 02
18) O que pode dar errado se você sintonizar hiperparâmetros usando o conjunto de
testes?
Perguntas com respostas
1) Como você definiria machine learning?

Machine Learning é sobre construir sistemas que possam aprender com dados. Aprender
significa melhorar em alguma tarefa, dada alguma medida de desempenho.
2) Você pode citar quatro tipos de problemas onde podemos usar ML?
O Machine Learning é ótimo para problemas complexos para os quais não temos solução
algorítmica, para substituir longas listas de regras afinadas à mão, para construir sistemas que
se adaptem a ambientes flutuantes e, finalmente, para ajudar os humanos a aprender (por
exemplo, a mineração de dados).
3) O que é um conjunto de treinamento rotulado?

Um conjunto de treinamento rotulado é um conjunto de treinamento que contém a solução
desejada (também conhecida como um rótulo) para cada instância.
4) Quais são as duas tarefas supervisionadas mais comuns?

As duas tarefas supervisionadas mais comuns são regressão e classificação.
5) Você pode nomear quatro tarefas não supervisionadas comuns?

Tarefas não supervisionadas comuns incluem agrupamento, visualização, redução de
dimensionalidade e aprendizado de regras de associação.
6) Que tipo de algoritmo de Machine Learning você usaria para permitir que um robô
andasse em vários terrenos desconhecidos?
O Aprendizado de Reforço provavelmente será melhor se quisermos que um robô aprenda a
andar em vários terrenos desconhecidos, já que este é tipicamente o tipo de problema que o
Aprendizado de Reforço enfrenta. Pode ser possível expressar o problema como um problema
de aprendizagem supervisionado ou semi-supervisionado, mas seria menos natural.
7) Que tipo de algoritmo você usaria para segmentar seus clientes em vários grupos?
Se você não sabe como definir os grupos, então você pode usar um algoritmo de clustering
(aprendizado não supervisionado) para segmentar seus clientes em clusters de clientes

. Túlio Lages
Thiago
Aula 02
semelhantes. No entanto, se você sabe quais grupos você gostaria de ter, então você pode
alimentar muitos exemplos de cada grupo para um algoritmo de classificação (aprendizado
supervisionado), e classificará todos os seus clientes nesses grupos.
8) Você enquadraria o problema da detecção de spam como um problema de aprendizagem

supervisionado ou um problema de aprendizagem não supervisionado?
A detecção de spam é um típico problema de aprendizagem supervisionada: o algoritmo é
alimentado com muitos e-mails junto com seus rótulos (spam ou não spam).
9) O que é um sistema de aprendizagem online?

Um sistema de aprendizagem on-line pode aprender incrementalmente, em oposição a um
sistema de aprendizagem em lote. Isso o torna capaz de se adaptar rapidamente tanto à
mudança de dados quanto aos sistemas autônomos, e ao treinamento em grandes
quantidades de dados.
10) O que é aprendizado fora do núcleo?

Algoritmos fora do núcleo podem lidar com grandes quantidades de dados que não podem se
encaixar na memória principal de um computador. Um algoritmo de aprendizagem fora do
núcleo corta os dados em mini-lotes e usa técnicas de aprendizagem on-line para aprender
com esses mini-lotes.
11) Que tipo de algoritmo de aprendizagem depende de uma medida de similaridade para
fazer previsões?
Um sistema de aprendizagem baseado em instâncias aprende os dados de treinamento por
semelhanças; então, quando uma nova instância é informada, ele usa uma medida de
similaridade para encontrar as instâncias aprendidas mais semelhantes e as usa para fazer
previsões.
12) Qual é a diferença entre um parâmetro modelo e o hiperparâmetro de um algoritmo de

aprendizagem?
Um modelo tem um ou mais parâmetros de modelo que determinam o que ele vai prever dada
uma nova instância (por exemplo, a inclinação de um modelo linear). Um algoritmo de
aprendizagem tenta encontrar valores ideais para esses parâmetros de tal forma que o modelo
generaliza bem para novas instâncias. Um hiperparâmetro é um parâmetro do algoritmo de
aprendizagem em si, não do modelo (por exemplo, a quantidade de regularização para aplicar).
13) O que os algoritmos de aprendizagem baseados em modelos buscam? Qual é a

estratégia mais comum que eles usam para ter sucesso? Como eles fazem previsões?

. Túlio Lages
Thiago
Aula 02
Algoritmos de aprendizagem baseados em modelos buscam um valor ideal para os parâmetros

do modelo, de tal forma que o modelo generalize bem para novas instâncias. Geralmente
treinamos esses sistemas minimizando uma função de custo que mede o quão ruim o sistema
é em fazer previsões sobre os dados de treinamento, além de uma penalidade pela
complexidade do modelo se o modelo for regularizado. Para fazer previsões, alimentamos as
características da nova instância na função de previsão do modelo, e calculamos usando os
valores dos parâmetros encontrados pelo algoritmo de aprendizagem.
14) Você pode citar quatro dos principais desafios do Machine Learning?
Alguns dos principais desafios no Machine Learning são a falta de dados, má qualidade dos
dados, dados não representativos, características não informativas, modelos excessivamente
simples que subestimam os dados de treinamento e modelos excessivamente complexos que
superpõem os dados.
15) Se o seu modelo se sai bem nos dados de treinamento, mas se generaliza mal para novas
instâncias, o que está acontecendo? Você pode nomear três soluções possíveis?
Se um modelo se sai bem nos dados de treinamento, mas se generaliza mal para novas
instâncias, o modelo provavelmente está sobreajustado (overfitting) os dados de treinamento.
Possíveis soluções para o sobreajuste são obter mais dados, simplificar o modelo (selecionar
um algoritmo mais simples, reduzir o número de parâmetros ou recursos utilizados ou
regularizar o modelo) ou reduzir o ruído nos dados de treinamento.
16) O que é um conjunto de testes, e por que você quer usá-lo?

Um conjunto de testes é usado para estimar o erro de generalização que um modelo fará em
novas instâncias, antes do modelo ser lançado em produção.
17) Qual é o propósito de um conjunto de validação?

Um conjunto de validação é usado para comparar modelos. Torna possível selecionar o melhor
modelo e sintonizar os hiperparâmetros.
18) O que pode dar errado se você sintonizar hiperparâmetros usando o conjunto de testes?
Se você sintonizar hiperparâmetros usando o conjunto de testes, você corre o risco de se
adaptar demais ao conjunto de testes, e o erro de generalização que você mede será otimista
(você pode lançar um modelo que tenha um desempenho pior do que você espera).

. Túlio Lages
Thiago
Aula 02
LISTA DE QUESTÕES ESTRATÉGICAS

1. CESGRANRIO - 2024 - Técnico de Planejamento e Pesquisa (IPEA)/Ciência de
Dados
A partir de dados da pesquisa Perfil do Processado e Produção de Provas nas Ações Criminais
por Tráfico de Drogas, realizada em dezembro de 2023 pelo Instituto de Pesquisa Econômica
Aplicada (Ipea), é possível levantar informações sociodemográficas sobre os bairros em que
o direito à inviolabilidade domiciliar é relativizado. Os resultados revelam que os bairros mais
ricos e aqueles de população predominantemente branca são praticamente imunes às
entradas em domicílio, as quais se concentram substancialmente nos bairros mais pobres e
naqueles com população predominantemente negra ou minoritariamente branca.
Qual técnica de desidentificação de dados sensíveis é a mais adequada para preservar a

privacidade dos indivíduos processados, permitindo, ainda, a análise sociodemográfica dos
bairros?
A) Anonimização: remover todos os identificadores diretos dos indivíduos, incluindo nome,
CPF, RG e endereço, e também remover qualquer referência a bairro ou características
sociodemográficas.
B) Pseudonimização: substituir os identificadores diretos dos indivíduos por códigos ou
símbolos, mas publicar a tabela de correspondência junto com os dados.
C) Agregação: agrupar os dados dos indivíduos em categorias amplas, como faixa etária
e classe social, mas excluir informações sobre cor ou raça e bairro.
D) Perturbação: adicionar ruído ou alterar aleatoriamente todos os valores dos dados,
incluindo informações sociodemográficas e de bairro, de forma a tornar os dados inúteis
para análise específica de bairro.
E) Generalização: substituir informações detalhadas de identificação pessoal por
categorias mais amplas, mantendo dados sobre bairro e características
sociodemográficas, como faixa etária, classe social, cor ou raça.

Em um estudo de saúde pública, um pesquisador está analisando um conjunto de dados que
inclui informações sobre idade, peso, altura e nível de atividade física dos participantes, no
entanto ele percebe que alguns dados referentes ao peso estão ausentes.
Considerando-se a necessidade de manter a precisão e a confiabilidade do estudo, qual das
seguintes abordagens seria a mais apropriada para tratar esses dados ausentes sobre o peso
dos participantes?

. Túlio Lages
Thiago
Aula 02
A) Interpolação de dados, para estimar os valores de peso ausentes, com base em um

modelo matemático que leva em conta as tendências e os padrões dos dados existentes.
B) Remoção de registros, para excluir todos os registros de participantes que não
incluíram informações de peso, mesmo que as outras informações estejam completas.
C) Substituição por zero, para substituir os dados de peso ausentes por zero, assumindo
que a ausência de informação indica a menor medida possível.
D) Substituição por valores extremos, para substituir os dados de peso ausentes pelos
valores máximos ou mínimos observados no conjunto de dados.
E) Uso de dados de outra pesquisa, para substituir os dados de peso ausentes por dados
de peso de um estudo similar.

Outliers são pontos ou observações em um conjunto de dados que diferem significativamente
da maioria dos demais outros pontos. Eles podem ser resultados de variações na medição,
erros de entrada de dados ou, ainda, podem indicar uma variação genuína da fonte de coleta.
Em preparação para análise de um conjunto de dados, o tratamento de outliers
A) é sempre necessário, independentemente do tamanho do conjunto de dados ou do
objetivo da análise.
B) é sempre uma tarefa simples que pode ser realizada por qualquer analista de dados,
sem risco de perder informações valiosas.
C) é sempre uma tarefa complexa que requer um conhecimento profundo de estatística e
que independe do conjunto de dados e do objetivo da análise.
D) deve ser realizado antes de realizar agregações, pois os outliers podem afetar os
resultados da análise que inclua uma agregação.
E) deve ser realizado após realizar agregações, pois os outliers podem obscurecer os
resultados da agregação.

Sabendo que existe, na organização em que trabalha, uma base de dados formada por uma
grande tabela que contém apenas o id do cliente e colunas do tipo booleano indicando se um
cliente possuía ou já tinha possuído cada produto da organização, um funcionário de TI
resolveu dividir os clientes em grupos apenas com base nessa informação, utilizando
aprendizado de máquina.
Para essa tarefa, o funcionário de TI deve utilizar o aprendizado de máquina
A) independente
B) não supervisionado

. Túlio Lages
Thiago
Aula 02
C) por recompensa
D) por reforço
E) supervisionado

Um pesquisador conseguiu uma base de dados que mostrava terrenos classificados de acordo
com:
• características físicas;
• tipo de negócio a ser nele implantado;
• risco esperado, que compreendia os rótulos alto, médio, baixo ou nenhum.
Decidiu, então, usar um algoritmo de aprendizado de máquina que, a partir das características
físicas do terreno e do tipo de negócio a ser nele implantado, aprenderia a determinar o risco
esperado, enquadrando o terreno em questão em um daqueles rótulos.
Nesse cenário, que algoritmo de aprendizado de máquina é indicado para resolver esse
problema?
A) PCA
B) K-NN
C) DBSCAN
D) K-Medoids
E) Redes de Kohonen

Ao tentar resolver um problema de aprendizado de máquina que separava um evento
entre duas classes, um desenvolvedor encontrou uma acurácia de exatamente 90%.
Analisando a matriz de confusão, o desenvolvedor constatou que os verdadeiros positivos
eram 14169, que os verdadeiros negativos eram 15360, os falsos positivos eram 1501, e
os falsos negativos eram
A) 1778
B) 1779
C) 1780
D) 1781
E) 1782

. Túlio Lages
Thiago
Aula 02

Uma organização decidiu monitorar a opinião do público sobre ela nas redes sociais. Para
isso, processou as mensagens com referências ao seu nome, a fim de possibilitar o uso de
uma técnica de processamento de linguagem natural conhecida como análise de sentimentos.
Após transformar cada mensagem em uma string, um dos passos importantes nessa técnica
é a tokenização, que consiste em
A) colocar todos os caracteres da mensagem em minúsculas.
B) colocar todos os verbos da mensagem no infinitivo.
C) dividir o texto da mensagem em palavras isoladas.
D) eliminar todos os marcadores HTML ou XML da mensagem.
E) substituir todos os caracteres acentuados da mensagem por suas versões sem acento.

Um cientista de dados está utilizando máquinas de vetor de suporte (SVM) em um projeto de
classificação, pois deseja evitar o overfitting do modelo aos dados de treinamento.
Qual das seguintes técnicas auxilia a prevenir o overfitting em SVM?
A) Apagar algumas ligações da rede.
B) Garantir que o hiperplano divida perfeitamente os pontos.
C) Misturar o conjunto de teste com o de treinamento.
D) Usar todos os pontos para a tomada de decisão.
E) Utilizar um kernel linear.

. Túlio Lages
Thiago
Aula 02
Gabarito
1. alternativa E.
2. alternativa A.
3. alternativa D.
4. alternativa B.
5. alternativa B.
6. alternativa C.
7. alternativa C.
8. alternativa E.
...
Forte abraço e bons estudos.
"Hoje, o 'Eu não sei', se tornou o 'Eu ainda não sei'"
(Bill Gates)
Thiago Cavalcanti
Face: www.facebook.com/profthiagocavalcanti
Insta: www.instagram.com/prof.thiago.cavalcanti
YouTube: youtube.com/profthiagocavalcanti

Aula 02 - CD, Pensamento Computacional, BI

Enviado por

Direitos autorais:

Formatos disponíveis

Aula 02 - CD, Pensamento Computacional, BI

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula 02 - CD, Pensamento Computacional, BI

Enviado por

Direitos autorais:

Formatos disponíveis

Caixa Econômica Federal (CEF) Passo

85764731518 - Anna Clara nascimento

6 - CIÊNCIA DE DADOS. 8 - PENSAMENTO

Análise Estatística .............................................................................................................................. 2

Roteiro de revisão e pontos do assunto que merecem destaque ............................................................. 2

Ciência de Dados ............................................................................................................................ 3

O que é Ciência de Dados? ........................................................................................................... 3

Inteligência Artificial ....................................................................................................................... 4

Machine Learning ........................................................................................................................... 5

Tipos de Sistemas de Aprendizagem de Máquina ........................................................................... 7

Aprendizagem supervisionada/não supervisionada ........................................................................ 8

Validação e avaliação de modelos preditivos ............................................................................... 14

Treinamento, Validação e Teste ................................................................................................. 21

Underfitting, overfitting e técnicas de regularização .................................................................... 21

Supervisionado vs. Não supervisionado ....................................................................................... 26

Deep Learning .............................................................................................................................. 27

Processos de Ciência de Dados (OSEMN) ........................................................................................ 29

Análise exploratória de dados ........................................................................................................ 31

Técnicas de Ciência de Dados ........................................................................................................ 41

Aposta estratégica ........................................................................................................................... 42

Questões estratégicas ...................................................................................................................... 44

Questionário de revisão e aperfeiçoamento........................................................................................ 54

85764731518 - Anna Clara nascimento

Perguntas com respostas............................................................................................................... 56

Lista de Questões Estratégicas .......................................................................................................... 59

ROTEIRO DE REVISÃO E PONTOS DO ASSUNTO QUE

85764731518 - Anna Clara nascimento

O que é Ciência de Dados?

A Ciência de Dados envolve a aplicação de métodos estatísticos, algoritmos de aprendizado de

85764731518 - Anna Clara nascimento

Voltando ao exemplo de reserva de voo, a análise prescritiva pode analisar campanhas de

A inteligência artificial nasceu na década de 1950, quando um punhado de pioneiros do campo

85764731518 - Anna Clara nascimento

• 1. Ficar sabendo, reter na memória, tomar conhecimento de,

Anteriormente, definimos mineração de dados operacionalmente, como o processo de descoberta

85764731518 - Anna Clara nascimento

Mas ainda há um problema. A aprendizagem é um conceito bastante escorregadio. Muitas coisas

Assim, em um exame mais detalhado, uma definição de aprendizado, em termos operacionais e

Muitas técnicas de aprendizado procuram descrições estruturais do que é aprendido, descrições

Para ajudar a resolver esses questionamentos surge um conjunto de conceitos relacionados à

85764731518 - Anna Clara nascimento

Tipos de Sistemas de Aprendizagem de Máquina

• Sejam eles treinados ou não exemplos já classificados (supervisionados, não

85764731518 - Anna Clara nascimento

Aprendizagem supervisionada/não supervisionada

No aprendizado supervisionado, o conjunto de treinamento que você alimenta para o algoritmo

Uma tarefa típica de aprendizagem supervisionada é a classificação. O filtro de spam é um bom

• k-Vizinhos mais próximos (KNN)

85764731518 - Anna Clara nascimento

As Máquinas de Vetores de Suporte (SVM) são um tipo de algoritmo de

- Vantagens: SVMs são eficazes em espaços de alta dimensionalidade, podem lidar

Aprendizado não supervisionado

85764731518 - Anna Clara nascimento

Figura 2 - Um conjunto de treinamento sem rótulo para aprendizado não supervisionado

85764731518 - Anna Clara nascimento

Algoritmos de visualização também são bons exemplos de algoritmos de aprendizagem não

Figura 4 - Exemplo de visualização t-SNE destacando clusters semânticos

Uma tarefa relacionada é a redução da dimensionalidade, na qual o objetivo é simplificar os dados