Aula 02 - CD, Pensamento Computacional, BI
Aula 02 - CD, Pensamento Computacional, BI
Aula 02 - CD, Pensamento Computacional, BI
Autor:
Thiago Rodrigues Cavalcanti
29 de Março de 2024
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Perguntas .................................................................................................................................... 55
Gabarito....................................................................................................................................... 63
ANÁLISE ESTATÍSTICA
Inicialmente, convém destacar os percentuais de incidência de todos os assuntos previstos no
nosso curso – quanto maior o percentual de cobrança de um dado assunto, maior sua importância:
Grau de incidência em
concursos similares
Assunto
CESGRANRIO
6 - Ciência de dados. 8 - Pensamento computacional. 9 - Análise de
44,90%
Negócios.
3 - Design Thinking, Design de Serviço. 36,73%
4 - Metodologias ágeis, Lean Manufacturing, SCRUM. 18,37%
A ideia desta seção é apresentar um roteiro para que você realize uma revisão completa do assunto
e, ao mesmo tempo, destacar aspectos do conteúdo que merecem atenção.
Para revisar e ficar bem preparado no assunto, você precisa, basicamente, seguir os passos a
seguir:
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Ciência de Dados
A Ciência de Dados é um campo que utiliza técnicas e abordagens avançadas para explorar e
extrair conhecimentos valiosos de grandes volumes de dados, fornecendo insights significativos
para informar a tomada de decisões e impulsionar o progresso em diversas áreas. É uma
abordagem sistemática para coletar, organizar, analisar e interpretar dados, com o objetivo de obter
informações significativas e tomar decisões informadas.
A Ciência de Dados é usada para estudar dados de quatro maneiras principais: análise descritiva,
análise diagnóstica, análise preditiva e análise prescritiva.
1. Análise descritiva
A análise descritiva analisa os dados para obter insights sobre o que aconteceu ou o que está
acontecendo no ambiente de dados. Ela é caracterizada por visualizações de dados, como gráficos
de pizza, gráficos de barras, gráficos de linhas, tabelas ou narrativas geradas. Por exemplo, um
serviço de reserva de voos pode registrar dados como o número de bilhetes reservados a cada dia.
A análise descritiva revelará picos de reservas, quedas nas reservas e meses de alta performance
para este serviço.
2. Análise diagnóstica
A análise diagnóstica é uma análise aprofundada ou detalhada de dados para entender por que
algo aconteceu. Ela é caracterizada por técnicas como drill-down, descoberta de dados, mineração
de dados e correlações. Várias operações e transformações de dados podem ser realizadas em
um determinado conjunto de dados para descobrir padrões exclusivos em cada uma dessas
técnicas. Por exemplo, o serviço de voo pode fazer drill-down em um mês particularmente de alta
performance para entender melhor o pico de reserva. Isso pode levar à descoberta de que muitos
clientes visitam uma determinada cidade para assistir a um evento esportivo mensal.
3. Análise preditiva
A análise preditiva usa dados históricos para fazer previsões precisas sobre padrões de dados que
podem ocorrer no futuro. Ela é caracterizada por técnicas como machine learning, previsão,
correspondência de padrões e modelagem preditiva. Em cada uma dessas técnicas, os
computadores são treinados para fazer engenharia reversa de conexões de causalidade nos dados.
Por exemplo, a equipe de serviço de voo pode usar a ciência de dados para prever padrões de
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
reserva de voo para o próximo ano no início de cada ano. O programa de computador ou algoritmo
pode analisar dados anteriores e prever picos de reservas para determinados destinos em maio.
Tendo previsto as futuras necessidades de viagem de seus clientes, a empresa poderia iniciar a
publicidade direcionada para essas cidades a partir de fevereiro.
4. Análise prescritiva
A análise prescritiva leva os dados preditivos a um novo patamar. Ela não só prevê o que
provavelmente acontecerá, mas também sugere uma resposta ideal para esse resultado. Ela pode
analisar as potenciais implicações de diferentes escolhas e recomendar o melhor plano de ação. A
análise prescritiva usa análise de gráficos, simulação, processamento de eventos complexos, redes
neurais e mecanismos de recomendação de machine learning.
Inteligência Artificial
"O estudo deve prosseguir com base na conjectura de que todos os aspectos da aprendizagem ou
qualquer outra característica da inteligência podem, em princípio, ser tão precisamente descritos
que uma máquina pode ser feita para simulá-la. Uma tentativa será feita para descobrir como fazer
as máquinas usarem a linguagem, formar abstrações e conceitos, resolver tipos de problemas
agora reservados aos seres humanos e melhorar a si mesmos. Achamos que um avanço
significativo pode ser feito em um ou mais desses problemas se um grupo cuidadosamente
selecionado de cientistas trabalhar nele juntos por um verão."
No final do verão, a oficina terminou sem ter resolvido totalmente o enigma que se propus a
investigar. No entanto, contou com a presença de muitas pessoas que se tornariam pioneiras no
campo, e desencadeou uma revolução intelectual que ainda está em curso até hoje.
Concisamente, a IA pode ser descrita como o "esforço para automatizar tarefas intelectuais
normalmente realizadas por humanos." Como tal, a IA é um campo geral que abrange aprendizado
de máquina e deep learning, mas que também inclui muitas outras abordagens que podem não
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
envolver qualquer aprendizado. Considere que até a década de 1980, a maioria dos livros didáticos
de IA não mencionavam "aprender" em tudo! Os primeiros programas de xadrez, por exemplo,
envolviam apenas regras codificadas por programadores, e não se qualificavam como aprendizado
de máquina. De fato, por um tempo bastante longo, a maioria dos especialistas acreditava que a
inteligência artificial em nível humano poderia ser alcançada com programadores artesanalmente
um conjunto suficientemente grande de regras explícitas para manipulação de conhecimento
armazenado em bancos de dados explícitos. Essa abordagem é conhecida como IA simbólica. Foi
o paradigma dominante na IA entre os anos 1950 e o final dos anos 1980, e atingiu seu pico de
popularidade durante o boom de sistemas especializados dos anos 1980.
Embora a IA simbólica tenha se mostrado adequada para resolver problemas lógicos bem definidos,
como jogar xadrez, acabou por ser intratável descobrir regras explícitas para resolver problemas
mais complexos e confusos, como classificação de imagem, reconhecimento de fala ou tradução
natural da língua. Surgiu uma nova abordagem para tomar o lugar simbólico da IA: aprendizado de
máquina.
Machine Learning
O que é aprender, afinal? O que é aprendizado de máquina? Estas são questões filosóficas e não
nos interessamos muito por filosofia nessa aula; nossa ênfase está focada na sua prova de
concurso. No entanto, vale a pena passar alguns instantes tratando sobre questões fundamentais,
apenas para ver o quão complicado elas são, antes de arregaçar as mangas e olhar para a
aprendizagem de máquina na prática. Nosso dicionário define “aprender” como:
Esses significados têm algumas falhas quando associados a computadores. Veja se você consegue
responder a seguinte pergunta: como sabemos se uma máquina "tem conhecimento sobre " alguma
coisa? Toda a questão sobre se os computadores podem estar cientes ou conscientes é uma
questão filosófica. O fato é, será que eles conseguem aprender?
Tal fato associa o aprendizado ao desempenho e não ao conhecimento. Você pode testar o
aprendizado observando o comportamento e comparando-o com o comportamento passado. Este
é um tipo de definição muito mais objetiva e parece ser muito mais satisfatória.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Na linguagem cotidiana, muitas vezes usamos a palavra “treinamento” para denotar um tipo de
aprendizado sem sentido. Nós treinamos animais e até plantas. Mas aprender é diferente.
Aprender implica pensar. Aprender implica propósito. Algo que se aprende tem que ser feito
intencionalmente. É por isso que não falamos que uma vinha aprendeu a crescer em torno de uma
treliça em um vinhedo - falamos que ela foi treinada. Aprender sem propósito é apenas treinar.
Felizmente, os tipos de técnicas de aprendizado explicadas nesta aula não apresentam esses
problemas conceituais - eles são chamados de “aprendizado de máquina” sem realmente
pressupor qualquer posição filosófica específica sobre o que a aprendizagem realmente é. A
mineração de dados é um tópico prático e envolve aprendizado em um sentido prático, não teórico.
Estamos interessados em técnicas para encontrar padrões em dados, padrões que forneçam
insight ou possibilitem tomadas de decisão rápidas e precisas.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
(i) Não iremos nos aprofundar nesse tema, tendo em vista que ele foi abordado nas
duas primeiras aulas do nosso curso. Vamos as outras tecnologias que fazem
parte da Ciência de Dados.
Existem tantos tipos diferentes de sistemas de Machine Learning que é útil classificá-los em
categorias amplas, com base nos seguintes critérios:
Esses critérios não são exclusivos; você pode combiná-los da maneira que quiser. Por exemplo,
um filtro de spam de última geração pode aprender em tempo real usando um modelo de rede
neural profunda treinado usando exemplos de spam e não spam; isso o torna um sistema de
aprendizagem on-line, baseado em modelos e supervisionado. Vamos olhar cada um desses
critérios um pouco mais de perto.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Os sistemas de Machine Learning podem ser classificados de acordo com a quantidade e o tipo de
supervisão que recebem durante o treinamento. São quatro categorias principais: aprendizagem
supervisionada, aprendizagem não supervisionada, aprendizagem semisupervisionada
e Aprendizado de Reforço.
Aprendizagem supervisionada
Figura 1 - Um conjunto de treinamento rotulado para classificação de spam (um exemplo de aprendizado
supervisionado)
Outra tarefa típica é prever um valor numérico de destino, como o preço de um carro, dado um
conjunto de características (quilometragem, idade, marca, etc.) chamados preditores. Esse tipo de
tarefa é chamada de regressão. Para treinar o sistema, você precisa dar-lhe muitos exemplos de
carros, incluindo tanto seus preditores quanto suas etiquetas ou rótulos (ou seja, seus preços).
Observe que alguns algoritmos de regressão também podem ser usados para classificação, e vice-
versa. Por exemplo, a Regressão Logística é comumente utilizada para classificação, pois pode
produzir um valor que corresponde à probabilidade de pertencer a uma determinada classe (por
exemplo, 20% de chance de ser spam).
Aqui estão alguns dos mais importantes algoritmos de aprendizagem supervisionados (abordados
neste livro):
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
• Regressão Logística
• Máquinas de vetores de suporte (SVMs)
• Árvores de decisão e Florestas Aleatórias
• Redes neurais
Kernel Linear vs. Kernel Não-linear: Um kernel linear é utilizado quando os dados são
linearmente separáveis, enquanto kernels não-lineares (como o kernel polinomial, o
kernel RBF - Radial Basis Function, entre outros) são utilizados quando os dados não
podem ser separados por um hiperplano linear no espaço original.
Em aprendizado não supervisionado, como você pode imaginar, os dados de treinamento não são
rotulados. O sistema tenta aprender sem um professor.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Aqui estão alguns dos mais importantes algoritmos de aprendizagem não supervisionados:
• Clustering
o K-Means
o DBSCAN
o Análise hierárquica de cluster (HCA)
• Detecção de anomalias e detecção de novidades
o SVM de uma classe
o Floresta de Isolamento
• Visualização e redução de dimensionalidade
o Análise de componentes principais (PCA)
o Kernel PCA
o Incorporação linear local (LLE)
o t-Distributed Stochastic Neighbor Embedding (t-SNE)
• Aprendizagem de regras da associação
o Apriori
o Eclat
o Por amostragem
o Árvore de Padrão-Frequente
Por exemplo, digamos que você tenha um monte de dados sobre os visitantes do seu blog. Você
pode querer executar um algoritmo de clustering para tentar detectar grupos de visitantes
semelhantes. Em nenhum momento você diz ao algoritmo a qual grupo um visitante pertence: ele
encontra essas conexões sem a sua ajuda. Por exemplo, pode notar que 40% dos seus visitantes
são homens que amam histórias em quadrinhos e geralmente leem seu blog à noite, enquanto 20%
são jovens amantes de ficção científica que visitam durante os fins de semana. Se você usar um
algoritmo hierárquico de clustering, ele também pode subdividir cada grupo em grupos menores.
Isso pode ajudá-lo a direcionar seus posts para cada grupo.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Figura 3 - Clustering
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Curiosidade: Muitas vezes é uma boa ideia tentar reduzir a dimensão de seus dados de
treinamento usando um algoritmo de redução de dimensionalidade antes de alimentá-lo para
outro algoritmo de Machine Learning (como um algoritmo de aprendizagem supervisionado). Ele
será executado muito mais rápido, os dados ocuparão menos espaço em disco e memória, e em
alguns casos também podem ter um desempenho melhor.
Aprendizado semisupervisionado
Uma vez que rotular dados geralmente é demorado e caro, muitas vezes você terá muitas
instâncias não rotuladas, e poucas instâncias rotuladas. Alguns algoritmos podem lidar com dados
que são parcialmente rotulados. Isso é chamado de aprendizagem semisupervisionados.
Figura 5 - Aprendizado semisupervisionado com duas classes (triângulos e quadrados): os exemplos não rotulados
(círculos) ajudam a classificar uma nova instância (a cruz) para a classe triângulo em vez da classe quadrada, mesmo
estando mais perto dos quadrados r
Alguns serviços de hospedagem de fotos, como o Google Fotos, são bons exemplos disso. Uma
vez que você envia todas as fotos de sua família para o serviço, ele reconhece automaticamente
que a mesma pessoa A aparece nas fotos 1, 5 e 11, enquanto outra pessoa B aparece nas fotos 2,
5 e 7. Esta é a parte não supervisionada do algoritmo (clustering). Agora tudo o que o sistema
precisa é que você diga quem são essas pessoas. Basta adicionar um rótulo por pessoa e é capaz
de nomear todos em cada foto, o que é útil para pesquisar fotos.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Aprendizado de reforço
1. Observa
2. Seleciona a ação
baseada na política
3. Age!
4. Recebe uma
recompensa ou
penalidade
5. Atualiza a política
6. Segue o fluxo até que
um política ótima seja
encontrada
Aprendizado por Reforço
Por exemplo, muitos robôs implementam algoritmos de Aprendizagem de Reforço para aprender a
andar. O programa AlphaGo do DeepMind também é um bom exemplo de Aprendizado de Reforço:
ele fez as manchetes em maio de 2017, quando venceu o campeão mundial Ke Jie no jogo de Go.
Aprendeu sua política vencedora analisando milhões de jogos e, em seguida, jogando muitos jogos
contra si mesmo. Note que o aprendizado foi desligado durante os jogos contra o campeão;
AlphaGo estava apenas aplicando a política que tinha aprendido.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Não
Supervisionado Por Reforço
supervisionado
Dados rotulados Sem rótulos Processo de decisão
Sistema de
Feedback direto Sem feedback
recompensas
Ao criar um modelo de regressão, você cria um modelo que prevê uma variável numérica contínua.
Ao separar seu conjunto de dados de avaliação (teste), você tem algo que pode usar para comparar
a qualidade do seu modelo.
O que você precisa fazer para avaliar a qualidade do seu modelo é comparar a qualidade da sua
previsão com o que é chamado de verdade fundamental, que é o valor real observado que você
está tentando prever. Dê uma olhada na tabela abaixo, na qual a primeira coluna contém a verdade
fundamental (chamada de actuals) e a segunda coluna contém os valores previstos:
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
A linha 0 na saída compara o valor real em nosso conjunto de dados de avaliação com o que nosso
modelo previu. O valor real do nosso conjunto de dados de avaliação é 4,891. O valor que o modelo
previu é 4,132270.
A linha 1 compara o valor real de 4,194 com o que o modelo previu, que é 4,364320.
Na prática, o conjunto de dados de avaliação conterá muitos registros, portanto, você não fará essa
comparação visualmente. Em vez disso, você fará uso de algumas equações.
Você deve fazer essa comparação calculando a perda (loss). A perda é a diferença entre os valores
reais e previstos da tabela anterior. Na mineração de dados, é chamada de medida de distância.
Existem várias abordagens para calcular medidas de distância que dão origem a diferentes funções
de perda. Duas delas são:
• Distância de manhattan
• Distância euclidiana
Existem várias funções de perda para regressão, veremos duas das funções de perda comumente
usadas para regressão, que são:
• Erro médio absoluto (MAE - Mean absolute error) - é baseado na distância de Manhattan
• Erro quadrático médio (MSE - Mean squared error) - é baseado na distância euclidiana
O objetivo dessas funções é medir a utilidade de seus modelos, fornecendo a você um valor
numérico que mostra quanto de desvio existe entre as verdades fundamentais e os valores
previstos pelos seus modelos.
Seu objetivo é treinar modelos sucessivos com objetivo de obter a pontuação mais alta de R 2. Os
valores de R2 variam entre 0 e 1. Seu objetivo é tentar fazer com que o modelo tenha uma pontuação
próxima a 1.
O erro médio absoluto (EMA) é uma métrica de avaliação para modelos de regressão que mede a
distância absoluta entre suas previsões e a verdade fundamental. A distância absoluta é a distância
independentemente do sinal, seja positivo ou negativo. Por exemplo, se a valor real for 6 e você
predizer 5, a distância será 1. No entanto, se você predisser 7, a distância será -1. A distância
absoluta, sem levar em consideração os sinais, é 1 em ambos os casos. Isso é chamado de
magnitude. O EMA é calculado somando todas as magnitudes e dividindo pelo número de
observações.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
O erro quadrático médio (EQM) é calculado tomando os quadrados das diferenças entre os valores
reais e as previsões, somando-as e dividindo pelo número de observações. O EQM é grande e, às
vezes, a raiz quadrada deste valor é usada, que é a raiz do erro quadrático médio (REQM).
Os modelos de classificação são usados para prever em qual classe um grupo de recursos se
enquadrará. Ao considerar um modelo de classificação, você pode começar a se perguntar o quão
preciso é o modelo. Mas como você avalia a precisão? Você precisa criar um modelo de
classificação antes de começar a avaliá-lo.
Como você já deve ter aprendido, avaliamos um modelo com base em seu desempenho em um
conjunto de teste. Um conjunto de teste terá seus rótulos, que chamamos de verdade fundamental,
e, usando o modelo, também geramos previsões para o conjunto de teste. A avaliação do
desempenho do modelo envolve a comparação da verdade fundamental com as previsões. Vamos
ver isso em ação com um conjunto de teste fictício:
A tabela anterior mostra um conjunto de dados fictício com sete exemplos. A segunda coluna é a
verdade fundamental, que são os rótulos reais, e a terceira coluna contém os resultados de nossas
previsões. A partir dos dados, podemos ver que quatro foram classificados corretamente e três
foram classificados incorretamente.
Uma matriz de confusão gera a comparação resultante entre a previsão e a verdade fundamental,
conforme representado na tabela a seguir:
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Como você pode ver na tabela, existem cinco exemplos cujos rótulos (verdade fundamental) são
Sim e o dois exemplos que têm os rótulos Não.
A primeira linha da matriz de confusão é a avaliação do rótulo Sim. O verdadeiro positivo (TP)
mostra aqueles exemplos cuja verdade fundamental e previsões são Sim (exemplos 1, 3 e 5). O
falso negativo mostra aqueles exemplos cuja verdade fundamental é Sim e que foram erroneamente
previstos como Não (exemplos 2 e 7).
Da mesma forma, a segunda linha da matriz de confusão avalia o desempenho do rótulo “Não”.
Falsos positivos são aqueles exemplos cuja verdade fundamental é “Não” e que foram
erroneamente classificados como Sim (exemplo 6). Os verdadeiros exemplos negativos são
aqueles cuja verdade fundamental e previsões são Não (exemplo 4).
Um exemplo bem-humorado da matriz de confusão pode ser visto na figura a seguir, perceba que
neste exemplo e nos próximos esquemas o valor negativo fica no canto esquerdo, enquanto o valor
positivo fica do lado direito.
A geração de uma matriz de confusão é usada para calcular muitas das matrizes, como a acurácia
e o relatório de classificação (composto pelos indicadores de precisão, recall e F1-score). Vamos
trabalhar a definição destes indicadores nas próximas seções
Acurácia
Acurácia é a métrica mais simples, ela representa o número de previsões corretas do modelo. É
uma ótima métrica para se utilizar quando os dados estão balanceados, vai dar uma visão geral do
quanto o modelo está identificando as classes corretamente. Porém, não devemos utilizar a
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
acurácia, quando temos classes desbalanceadas, pode causar uma falsa impressão de estamos
obtendo um bom desempenho.
Por exemplo: considere um estudo em que apenas 5% da população apresenta uma determinada
doença. Logo, temos um conjunto de dados desbalanceado. Se o modelo escolhido conseguir
classificar corretamente todas as pessoas que não têm a doença e errar a classificação de todos
os doentes, teremos uma acurácia de 95%, dando uma falsa impressão de que o modelo treinado
tem uma ótima previsão. Porém, o modelo não consegue classificar corretamente a classe de
interesse. A figura abaixo apresenta a fórmula para o cálculo da acurácia.
Valor Preditivo Negativo (VPN) é a métrica que traz a informação da quantidade de observações
classificadas como negativa (0) que realmente são negativas. Ou seja, entre todas as observações
prevista como negativa (0), quantas foram identificadas corretamente. Por exemplo: entre os
pacientes classificados como não doentes, quantos foram identificados corretamente.
Precisão (Precision)
Precision ou precisão, também conhecida como Valor Preditivo Positivo (VPP), é a métrica que traz
a informação da quantidade de observações classificadas como positiva (1) que realmente são
positivas. Ou seja, entre todas as observações identificadas como positivas (1), quantas foram
identificadas corretamente. Por exemplo: entre os pacientes classificados como doentes, quantos
foram identificados corretamente. A tabela abaixo apresenta a fórmula utilizada no cálculo da
previsão.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Recall (Sensibilidade)
Recall ou Sensibilidade é a proporção dos Verdadeiros Positivos entre todas as observações que
realmente são positivas no seu conjunto de dados. Ou seja, entre todas as observações que são
positivas quantas o modelo conseguiu identificar como positiva. Representa a capacidade de um
modelo em prever a classe positiva. Por exemplo: dentre todos os pacientes doentes, quantos
pacientes o modelo conseguiu identificar corretamente.
Especificidade
Especificidade é a proporção dos Verdadeiros Negativos entre todas as observações que realmente
são negativas no seu conjunto de dados. Ou seja, entre todas as observações que são negativas,
quantas o modelo conseguiu prever como negativa. Representa a capacidade de um modelo em
prever a classe negativa. Por exemplo: dentre todos os pacientes não doentes, quantos foram
classificados corretamente.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
F1- Score
F1-Score é a média harmônica entre o recall e a precisão (precision). Utilizada quando temos
classes desbalanceada.
A curva ROC (Receiver Operating Characteristic Curve) é a curva gerada pela taxa de verdadeiros
positivos (sensibilidade) e pela taxa de falsos positivos (1 – especificidade) para diferentes pontos
de cortes (c). A curva ROC oferece uma visão geral de um classificador e pode ser utilizada para
encontrar pontos de corte ideias. O corte que deixa a curva mais próxima do vértice (0, 1) maximiza
a sensibilidade conjuntamente com a especificidade.
Uma medida decorrente da curva ROC é o AUC (Area Under the Curve), que nada mais é que a
área abaixo da curva. O AUC varia entre 0 e 1 e quanto maior o AUC melhor o modelo.
Utilizada quando temos classes desbalanceada e sua principal vantagem é poder escolher o melhor
ponto de corte para otimizar o desempenho do modelo.
Representa a capacidade
Representa a capacidade do modelo prever a classe
do modelo prever a classe negativa corretamente.
positiva corretamente.
(1 – Especificidade)
Representa a capacidade
do modelo prever a classe
negativa incorretamente.
Quanto MAIOR
esse valor:
MELHOR!! Quanto MENOR
esse valor:
MELHOR!!
Todas essas métricas variam no intervalo [0,1] e quanto mais próximos de 1, melhor é o modelo.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Para fins de treinamento e teste de nosso modelo, devemos ter nossos dados divididos em três
divisões distintas de conjuntos de dados: treinamento, validação e teste.
O conjunto de treinamento
É o conjunto de dados que é usado para treinar e fazer o modelo aprender os recursos/padrões
ocultos nos dados. Em cada época, os mesmos dados de treinamento são alimentados
repetidamente na rede neural e o modelo continua aprendendo os recursos dos dados. O conjunto
de treinamento deve ter um conjunto diversificado de entradas para que o modelo seja treinado em
todos os cenários e possa prever qualquer amostra de dados não vista que possa aparecer no
futuro.
O conjunto de validação
O conjunto de teste
O conjunto de teste é um conjunto separado de dados usado para testar o modelo após a conclusão
do treinamento. Ele fornece uma métrica de desempenho do modelo final imparcial em termos de
exatidão, precisão, etc. Para simplificar, ele responde à pergunta " Qual é o desempenho do
modelo? "
O overfitting ocorre quando o modelo é muito complexo em relação à quantidade e ao ruído dos
dados de treinamento. Aqui estão as soluções possíveis:
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
• Reduza o ruído nos dados de treinamento (por exemplo, corrija erros de dados e remova
outliers).
Como você pode imaginar, underfitting é o oposto de overfitting: ele ocorre quando seu modelo é
muito simples para aprender a estrutura subjacente dos dados. Por exemplo, um modelo linear de
satisfação com a vida tende a ser insuficiente; a realidade é mais complexa do que o modelo,
portanto, suas previsões tendem a ser imprecisas, mesmo nos exemplos de treinamento. Aqui estão
as principais opções para corrigir esse problema:
Em algum lugar entre overfitting e underfitting existe um ponto ideal onde temos a capacidade ideal
de previsão; ou seja, os hiperparâmetros do modelo que são perfeitamente adequados para a tarefa
e os dados - é isso que estamos buscando. O objetivo da regularização é evitar que nosso modelo
se ajuste demais aos dados de treinamento. Agora que sabemos o propósito da regularização,
vamos explorar algumas das muitas maneiras de regularizar nossas redes neurais.
Adicionar uma penalidade de norma de parâmetro à função objetivo é o mais clássico dos métodos
de regularização. O que isso faz é limitar a capacidade do modelo. Esse método existe há várias
décadas e antecede o advento do aprendizado profundo. Podemos escrever isso da seguinte
forma:
No caso de redes neurais, aplicamos apenas as penalidades de norma de parâmetro aos pesos,
pois eles controlam a interação ou relacionamento entre dois nós em camadas sucessivas, e
deixamos os vieses como estão. Existem algumas escolhas diferentes que podemos fazer quando
se trata de que tipo de norma de parâmetro usar, e cada uma tem um efeito diferente na
solução. Vejamos os dois principais métodos de regularização usados.
L2 regularization
O método de regularização L2 é muitas vezes referido como regressão Rigde (mais comumente
conhecido como decaimento de peso). Ela força os pesos da rede na direção da origem através do
seguinte termo de regularização para a função objetivo:
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Por simplicidade, vamos supor que θ = w e que todas as letras são matrizes. A função objetivo
regularizada, neste caso, será a seguinte:
Usando o gradiente anterior, podemos calcular a atualização dos pesos em cada etapa do
gradiente, como segue:
A partir dessa equação, podemos ver claramente que a regra de aprendizado modificada faz com
que nosso peso diminua a cada passo, como no diagrama a seguir:
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
No diagrama anterior, podemos ver o efeito que a regularização L2 tem em nossos pesos. Os
círculos sólidos no lado superior direito representam contornos de igual valor da função de objetivo
original, , à qual ainda não aplicamos nosso regularizador. Perceba que o w central aos
círculos sólidos seria o ponto ótimo calculado usando gradiente descendente. Mas este valor w é
sobrestimado e precisamos alterar o valor dos parâmetros para convergir para outro ponto. Aí que
entra o termo de regularização. Os círculos pontilhados, por outro lado, representam os contornos
do termo regularizador, . Finalmente, , o ponto onde ambos os contornos se encontram,
representa quando os objetivos concorrentes atingem o equilíbrio.
L1 regularization
Outra forma de penalidade de norma é usar a regularização L1, que às vezes é chamada
de regressão de menor encolhimento absoluto e operador de seleção (LASSO). Neste caso, o
prazo de regularização é o seguinte:
O que isso faz é somar os valores absolutos dos parâmetros. O efeito que isso tem é que introduz
esparsidade (sparsity) em nosso modelo zerando alguns dos valores, nos dizendo que eles não são
muito importantes. Isso pode ser pensado como uma forma de seleção de recursos.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Como você pode ver no diagrama anterior, os contornos da função objetivo agora se encontram
nos eixos em vez de em um ponto distante dele que é de onde vem a esparsidade neste método.
Parada antecipada
Durante o treinamento, sabemos que nossas redes neurais (que têm capacidade suficiente para
aprender os dados de treinamento) tendem a se ajustar demais aos dados de treinamento em
muitas iterações e, portanto, são incapazes de generalizar o que aprenderam para ter um bom
desempenho no conjunto de teste. Uma maneira de superar esse problema é plotar o erro nos
conjuntos de treinamento e teste em cada iteração e avaliar analiticamente a iteração em que o erro
dos conjuntos de treinamento e teste é o mais próximo. Em seguida, escolhemos esses parâmetros
para o nosso modelo.
Outra vantagem deste método é que em nada altera a função objetivo, o que facilita o uso e não
interfere na dinâmica de aprendizado da rede, que é mostrada no diagrama a seguir:
No entanto, essa abordagem não é perfeita – ela tem um lado negativo. É computacionalmente
caro porque temos que treinar a rede por mais tempo do que o necessário e coletar mais dados
para ela, e então observar o ponto em que o desempenho começou a degradar. Pense que, para
construir o gráfico acima, você precisa estender o treinamento por mais tempo.
Dropout
Este método foi proposto como uma alternativa para evitar overfitting e permitir redes maiores
explorarem mais regiões do espaço amostral. A ideia é bastante simples - durante cada etapa de
treinamento, dada uma porcentagem predefinida nd, uma camada de dropout seleciona
aleatoriamente nd*N unidades de entrada e as define para zero (a operação só está ativa durante
a fase de treinamento, enquanto é completamente removida quando o modelo é empregado para
novas previsões).
Esta operação pode ser interpretada de várias maneiras. Quanto mais camadas de dropout são
empregadas, o resultado de sua seleção é uma sub-rede com capacidade reduzida que pode evitar
o sobreajuste no conjunto de treinamento. A sobreposição de muitas sub-redes treinadas (cada
uma com uma eliminação diferente de nós) compõe um conjunto implícito cuja previsão é uma
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
média sobre todos os modelos. Se o dropout for aplicado em camadas de entrada, ele adiciona um
ruído aleatório às amostras. Ao mesmo tempo, o emprego de várias camadas de dropout permite
explorar várias configurações potenciais que são continuamente combinadas e refinadas.
Essa estratégia é claramente probabilística, e o resultado pode ser afetado por muitos fatores
impossíveis de prever; no entanto, vários testes confirmaram que o emprego de um dropout é uma
boa escolha quando as redes são muito profundas, pois as sub-redes resultantes têm uma
capacidade residual que lhes permite modelar uma grande parte das amostras, sem levar toda a
rede a fixar sua configuração, superajustando ao conjunto de treinamento. Por outro lado, este
método não é muito eficaz quando as redes são rasas ou contêm um pequeno número de neurônios
(nestes casos, a regularização L2 é provavelmente a melhor escolha).
Perceba que foi introduzido um novo hiperparâmetro que especifica a probabilidade de eliminação
das saídas da camada ou, inversamente, a probabilidade de retenção das saídas da camada. A
interpretação é um detalhe de implementação que pode mudar de acordo com a biblioteca de
código. Um valor comum é uma probabilidade de 0,5 para reter a saída de cada nó em uma camada
oculta e um valor próximo a 1,0, como 0,8, para reter as entradas da camada visível. Abaixo temos
uma figura que ilustra a aplicação de dropout sobre uma rede neural. Observe que, tanto dos
neurônicos da camada de entrada quanto das camadas intermediárias podem ser excluídos.
Figura 10 - (a) Rede Neural completa. (b) Rede Neural após o DROPOUT
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
sabemos quais desses e-mails são spam ou não (os chamados rótulos). Esses rótulos são muito
valiosos para ajudar a IA de aprendizagem supervisionada a separar os e-mails de spam dos
demais.
Eis o porquê: a IA de aprendizagem não supervisionada pode encontrar vários grupos que
mais tarde marca como sendo "spam" — mas a IA também pode encontrar grupos que mais
tarde sejam marcados como sendo "importantes" ou categorizados como "família", "profissional",
"notícias", "compras", etc. Em outras palavras, como o problema não tem uma tarefa
estritamente definida, o agente de IA pode encontrar padrões interessantes acima e além do
que estávamos procurando inicialmente.
Deep Learning
O deep learning é um subcampo específico do aprendizado de máquina: uma nova visão sobre
as representações de aprendizagem a partir de dados que coloca ênfase no aprendizado de
camadas sucessivas de representações cada vez mais significativas. O "profundo" em
"aprendizagem profunda" não é uma referência a qualquer tipo de compreensão mais profunda
alcançada pela abordagem; em vez disso, representa essa ideia de sucessivas camadas de
representações. Quantas camadas contribuem para um modelo de dados é chamado de
profundidade do modelo. Outros nomes apropriados para o campo poderiam ter sido
representações de aprendizado em camadas ou aprendendo representações hierárquicas.
O aprendizado profundo moderno muitas vezes envolve dezenas ou mesmo centenas de camadas
sucessivas de representações, e todas são aprendidas automaticamente com a exposição a dados
de treinamento. Enquanto isso, outras abordagens para o aprendizado de máquina tendem a se
concentrar em aprender apenas uma ou duas camadas de representações dos dados (por exemplo,
tomar um histograma de pixel e, em seguida, aplicar uma regra de classificação); portanto, às vezes
são chamados de aprendizado raso.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
do cérebro (em particular, o córtex visual), modelos de aprendizagem profunda não são modelos
do cérebro. Não há evidência de que o cérebro implemente algo como os mecanismos de
aprendizagem usados em modelos modernos de aprendizagem profunda. Você pode se deparar
com artigos de ciência pop proclamando que o aprendizado profundo funciona como o cérebro ou
foi modelado após o cérebro, mas esse não é o caso. Para nossos propósitos, o deep learning é
uma estrutura matemática para aprender representações a partir de dados.
Como você pode ver na figura abaixo, a rede transforma a imagem digital em representações cada
vez mais diferentes da imagem original e cada vez mais informativas sobre o resultado. Você pode
pensar em uma rede profunda como um processo de destilação de informações, onde a
informação passa por filtros sucessivos e sai cada vez mais purificada (ou seja, útil no que diz
respeito a alguma tarefa).
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
O processo de Ciência de Dados geralmente segue uma estrutura sistemática e iterativa. Embora
as etapas possam variar dependendo do contexto e do problema específico o OSEMN (mnemônico
de Obter dados; Suprimir dados; Explorar dados; Modelar dados; e Interpretar resultados) é uma
descrição geral dessas etapas.
Os dados podem ser pré-existentes, recém-adquiridos ou um repositório de dados que pode ser
baixado da Internet. Os cientistas de dados podem extrair dados de bancos de dados internos ou
externos, software de CRM da empresa, logs de servidores da Web, mídias sociais ou comprá-los
de fontes confiáveis de terceiros.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
A exploração de dados é uma análise de dados preliminar que é usada para planejar outras
estratégias de modelagem de dados. Os cientistas de dados obtêm uma compreensão inicial dos
dados usando estatísticas descritivas e ferramentas de visualização de dados. Em seguida, eles
exploram os dados para identificar padrões interessantes que podem ser estudados ou acionados.
M:Modelar dados
Os algoritmos de software e machine learning são usados para obter insights mais profundos,
prever resultados e prescrever o melhor plano de ação. Técnicas de machine learning, como
associação, classificação e clustering, são aplicadas ao conjunto de dados de treinamento. O
modelo pode ser testado em relação a dados de teste predeterminados para avaliar a precisão dos
resultados. O modelo de dados pode ser ajustado várias vezes para melhorar os resultados.
N: Interpretar resultados
Os cientistas de dados trabalham em conjunto com analistas e empresas para converter insights
de dados em ação. Eles fazem diagramas, gráficos e tabelas para representar tendências e
previsões. A sumarização de dados ajuda as partes interessadas a entender e implementar os
resultados de forma eficaz.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Em estatística, a análise exploratória de dados (AED) é uma abordagem usada para análise de
conjuntos de dados de modo a resumir suas características principais, frequentemente com
métodos visuais. Um modelo estatístico pode ou não ser usado. Primariamente a AED tem como
objetivo observar o que os dados podem nos dizer além da modelagem formal ou do processo
de teste de hipóteses.
Antes de darmos continuidade a parte teórica do assunto gostaria de fazer um comentário sobre
uma proximidade entre a mineração de dados e análise exploratória dos dados. Na minha humilde
opinião são duas ciências, ou abordagem para soluções de problemas bem semelhantes. A
mineração de dados foi desenvolvida por cientistas da computação enquanto a AED foi evoluída
por estatística.
A AED pertence, portanto, ao campo do que era conhecido como Estatística descritiva que, com o
acréscimo de técnicas chamadas robustas, permite dar tratamento mais detalhado aos dados
explorando pontos de vista não abrangidos pela Estatística descritiva. Ela foi promovida pelo
estatístico norte-americano John Tukey, que incentivava os estatísticos a explorar os dados e
possivelmente formular hipóteses que poderiam levar a novas coletas de dados e experimentos.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
informações necessárias do conjunto de dados para responder as questões que estão sendo
estudadas.
Faz parte também da AED sintetizar dados através das chamadas medidas estatísticas. Elas
podem ser classificadas em quatro grupos:
De forma sintética, podemos dizer que a análise de dados consiste de métodos e técnicas que
permitem ao investigador reforçar, confirmar ou não ideias acerca de um fenômeno real. Dois
conjuntos de métodos podem ser distinguidos a partir dessa ideia. O primeiro, mais simples,
consiste em aplicar tratamentos gráficos e numéricos de forma a compreender o
comportamento dos dados: esses tratamentos são conhecidos modernamente como Análise
Exploratória de Dados.
O outro conjunto de técnicas, conhecido como Inferência Estatística, permite que a partir da
observação de uma parte dos dados, chamada de amostra, se faça ilações para um grupo maior,
chamado população, que abrange aquele grupo menor.
Conceitos estatísticos
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Longe de mim querer ensinar estatística em algumas páginas. Nosso objetivo é quase construir um
pequeno glossário para que você possa recorrer quanto tiver alguma dificuldade nos conceitos
estatísticos que vão aparecer a seguir. Vejamos, portanto, alguns termos.
População e Amostra
Amostra é qualquer subconjunto da população selecionado de acordo com certas regras. Para
escolher a nossa amostra podemos usar algumas técnicas:
Moda
A moda é o valor mais comumente relatado para uma variável particular. Pode ser ilustrado usando
a seguinte variável cujos valores são:
3, 4, 5, 6, 7, 7, 7, 8, 8, 9
A moda seria o valor 7, uma vez que existem três ocorrências de 7 (mais do que qualquer outro
valor). Ela fornece a única medida de tendência central para variáveis medidas em uma escala
nominal. A moda também pode ser calculada para variáveis medidas nas escalas ordinal, intervalo
e proporção.
Mediana
A mediana é o valor médio de uma variável uma vez que foi ordenada do menor para o maior.
Para variáveis com um número par de valores, a média dos dois valores mais próximos do meio é
selecionada (ou seja, temos que somar os dois valores e dividir por 2). O seguinte conjunto de
valores será usado para ilustrar:
Conjunto: 3, 4, 7, 2, 3, 7, 4, 2, 4, 7, 4
Ordenando: 2, 2, 3, 3, 4, 4, 4, 4, 7, 7, 7
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Mediana: 4
Média
A média é a indicação mais comum de tendência central para variáveis medidas nas escalas
de intervalo ou proporção. É definida como a soma de todos os valores divididos pelo número de
valores. Por exemplo, para o seguinte conjunto de valores:
3, 4, 5, 7, 7, 8, 9, 9, 9
Outro ponto interessante xi representa o valor da variável na posição i. Veja nosso exemplo, o 3 é
o elemento x1, já o 5 é o elemento x3.
Variância
A variância descreve a disseminação dos dados. É uma medida do desvio de uma variável da
sua média. Para variáveis que não representam toda a população, a fórmula de variância da
amostra é:
Em outras palavras: é uma medida da dispersão estatística de uma variável, indicando "o quão
longe" em geral os seus valores se encontram do valor esperado. Veja que a variância é a somas
dos desvios da média elevados ao quadrado. Pense um pouco, porque é importante elevar ao
̅ ? Se calcularmos a média dos desvios,
quadrado a diferença entre o valor da variável (xi) da média 𝑥
somando-os e dividindo o resultado pela quantidade de valores, ela será nula, pois a soma de todos
esses desvios será zero, pelo próprio significado da média como medida de tendência central.
Desvio padrão
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Observem que a variância não está na mesma unidade que as nossas variáveis, pois os desvios
são elevados ao quadrado. Para conservarmos as unidades do desvio e dos dados, calculamos o
desvio-padrão, o qual nada mais é do que extrair a raiz quadrada da variância.
Escalas de mensuração
Nominal: as variáveis são medidas em classes discretas, mas não é possível estabelecer ordem.
Ordinal: as variáveis são medidas em classes discretas entre as quais é possível definir uma
ordem, segundo uma relação descritível, mas não quantificável.
Intervalar: as variáveis assumem valores quantitativos, não possuem zero absoluto, i.e., não
possuem uma medida de ausência de atributo.
Razão: as variáveis assumem valores quantitativos, cuja relação exata entre estes é possível
definir porque esta escala possui um zero absoluto.
O tipo da análise que pode ser realizado depende da escala de medida da variável analisada. Na
tabela a seguir se sugerem as representações gráficas e resumos descritivos numéricos mais
recomendáveis para realizar essa análise.
Vamos tentar detalhar um pouco mais termos vistos acima. A teoria de escalas de medida ou de
mensuração é interessante e já foi abordada por diversas bancas. Assim, não custa nada reforçar
os conceitos vistos acima. São consideradas variáveis de nível de mensuração:
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Nominal - O nível nominal é também conhecido como categórico ou qualitativo. Não há relação
de maior, menor ou qualquer escala de ordem. Uma variável nominal pode apenas ser igual ou
diferente de outra variável nominal.
Ordinal - O nível ordinal também é qualitativo (embora em alguns casos pode ser transformado
em quantitativo). Neste caso, as variáveis possuem uma relação de ordem, podendo estabelecer
comparações como X é maior que Z.
Intervalar – é como o nível ordinal, com a propriedade adicional de que a diferença entre
quaisquer dois valores de dados é significativa. No entanto, os dados nesse nível não têm um
ponto inicial zero natural (quando o nada da quantidade está presente). A escala intervalar,
caracterizada pela existência de:
Razão - é o nível intervalar com a propriedade adicional de que há também um ponto inicial zero
natural (onde zero indica que nada da quantidade está presente). Para valores nesse nível,
diferenças e razões são, ambas, significativas. O 4º nível define a chamada escala de razão ou
racional. Em função disso, todas as operações aritméticas passam a ter sentido.
Vamos agora, organizar mais uma vez as variáveis observando agora os operadores matemáticos,
operações avançadas e as propriedades de medida.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Uma variável pode ser definida como qualquer característica associada a uma população. Pensem,
por exemplo, as notas dos alunos do Estratégia no concurso de Auditor. Ainda no escopo dos alunos
podemos analisar algumas características categóricas, por exemplo, sexo, cor, faixa etária.
Os dados estatísticos são obtidos através de um processo que envolve a observação ou algum
outro tipo de mensuração (coleta de dados) de características típicas (respostas, preferências) de
cada elemento (indivíduo, sujeito, caso) componente da unidade de análise (população ou
amostra). Lembre-se que, em estatística, utiliza-se com muita frequência o termo variável para
representar cada característica observada em uma população ou amostra.
Constata-se que a escolha do processo a ser utilizado na descrição ou na análise dos dados
estatísticos obtidos, depende da natureza de cada variável envolvida. As variáveis podem
basicamente ser classificadas de acordo com o seu nível de mensuração (o quanto de informação
cada variável apresenta) e seu nível de manipulação (como uma variável relaciona-se com as
outras no estudo).
Qualitativa x quantitativa
As variáveis qualitativas são aquelas que apresentam como possíveis realizações uma qualidade
ou atributo do indivíduo pesquisado, desta forma podemos dividir as variáveis qualitativas em:
Já as variáveis quantitativas são aquelas que apresentam como possíveis realizações números
resultantes de uma contagem ou mensuração, também podemos segregá-las da seguinte forma:
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Bancos de dados estatísticos são usados para fornecer informações estatísticas ou resumos dos
valores com base em diversos critérios. Por exemplo, um banco de dados para estatísticas de
população pode oferecer estatísticas com base em faixas etárias, níveis de renda, tamanho de
residência, níveis de educação e outros critérios.
A segurança para os bancos de dados estatísticos deve garantir que informações sobre os
indivíduos não possam ser acessadas. Às vezes, é possível deduzir certos fatos com relação aos
indivíduos baseando-se em consultas que envolvem apenas estatísticas de resumo sobre grupos;
consequentemente, isso também não deve ser permitido. Esse problema, chamado de segurança
de banco de dados estatístico, e as medidas de controle correspondentes são chamadas de
medidas de controle de inferência.
No banco de dados para análise estatística, todo o conteúdo, com exceção do nome das
variáveis, deve ser numérico. Se a variável for uma medida contínua, o conteúdo pode conter vírgula
com casas decimais (quantas forem necessárias). Se a variável for categórica, deve-se numerar
com códigos suas categorias e deixar “em Branco” a categoria de ausência de informação.
O nome das variáveis não pode conter acentuação (por exemplo, “cesárea”), ser formado por mais
de uma palavra (por exemplo “local do parto”), nem começar com número. Por isso, uma
documentação conhecida como “Dicionário” deve ser criada. Um exemplo de um dicionário de
dados pode ser visto na figura a seguir:
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Se uma determinada variável permitir múltiplas respostas, então ela deverá ser desmembrada em
mais de uma variável, abrangendo as possíveis respostas para amostra estudada. A figura abaixo
mostra uma tabela com dados corretos que permitem uma análise estatística consistente. Perceba
que todos os campos são numérico e possuem apenas um valor para cada registro (são atômicos).
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Classificação
Regressão
A regressão é o método de encontrar uma relação entre dois pontos de dados aparentemente não
relacionados. A conexão geralmente é modelada em torno de uma fórmula matemática e
representada como um gráfico ou curvas. Quando o valor de um ponto de dados é conhecido, a
regressão é usada para prever o outro ponto de dados. Por exemplo:
Clustering
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Embora os detalhes variem, os princípios subjacentes por trás dessas técnicas são:
Ensinar uma máquina a classificar dados com base em um conjunto de dados conhecido. Por
exemplo, palavras-chave de amostra são fornecidas ao computador com seus respectivos valores
de classificação. “Feliz” é positivo, enquanto “Ódio” é negativo.
APOSTA ESTRATÉGICA
A ideia desta seção é apresentar os pontos do conteúdo que mais possuem chances de serem
cobrados em prova, considerando o histórico de questões da banca em provas de nível semelhante
à nossa, bem como as inovações no conteúdo, na legislação e nos entendimentos doutrinários e
jurisprudenciais1.
Y = f (X)
1
Vale deixar claro que nem sempre será possível realizar uma aposta estratégica para um determinado
assunto, considerando que às vezes não é viável identificar os pontos mais prováveis de serem cobrados
a partir de critérios objetivos ou minimamente razoáveis.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Isso nos permite gerar saídas com precisão quando dadas novas entradas.
1. Análise descritiva
A análise descritiva analisa os dados para obter insights sobre o que aconteceu ou o que está
acontecendo no ambiente de dados. Ela é caracterizada por visualizações de dados, como gráficos
de pizza, gráficos de barras, gráficos de linhas, tabelas ou narrativas geradas. Por exemplo, um
serviço de reserva de voos pode registrar dados como o número de bilhetes reservados a cada dia.
A análise descritiva revelará picos de reservas, quedas nas reservas e meses de alta performance
para este serviço.
2. Análise diagnóstica
A análise diagnóstica é uma análise aprofundada ou detalhada de dados para entender por que
algo aconteceu. Ela é caracterizada por técnicas como drill-down, descoberta de dados, mineração
de dados e correlações. Várias operações e transformações de dados podem ser realizadas em
um determinado conjunto de dados para descobrir padrões exclusivos em cada uma dessas
técnicas. Por exemplo, o serviço de voo pode fazer drill-down em um mês particularmente de alta
performance para entender melhor o pico de reserva. Isso pode levar à descoberta de que muitos
clientes visitam uma determinada cidade para assistir a um evento esportivo mensal.
3. Análise preditiva
A análise preditiva usa dados históricos para fazer previsões precisas sobre padrões de dados que
podem ocorrer no futuro. Ela é caracterizada por técnicas como machine learning, previsão,
correspondência de padrões e modelagem preditiva. Em cada uma dessas técnicas, os
computadores são treinados para fazer engenharia reversa de conexões de causalidade nos dados.
Por exemplo, a equipe de serviço de voo pode usar a ciência de dados para prever padrões de
reserva de voo para o próximo ano no início de cada ano. O programa de computador ou algoritmo
pode analisar dados anteriores e prever picos de reservas para determinados destinos em maio.
Tendo previsto as futuras necessidades de viagem de seus clientes, a empresa poderia iniciar a
publicidade direcionada para essas cidades a partir de fevereiro.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
4. Análise prescritiva
A análise prescritiva leva os dados preditivos a um novo patamar. Ela não só prevê o que
provavelmente acontecerá, mas também sugere uma resposta ideal para esse resultado. Ela pode
analisar as potenciais implicações de diferentes escolhas e recomendar o melhor plano de ação. A
análise prescritiva usa análise de gráficos, simulação, processamento de eventos complexos, redes
neurais e mecanismos de recomendação de machine learning.
-----------------------------------------------------------------------------------------------------------------------------------
Classificação
Regressão
A regressão é o método de encontrar uma relação entre dois pontos de dados aparentemente não
relacionados. A conexão geralmente é modelada em torno de uma fórmula matemática e
representada como um gráfico ou curvas. Quando o valor de um ponto de dados é conhecido, a
regressão é usada para prever o outro ponto de dados.
Clustering
Imprima o capítulo Aposta Estratégica separadamente e dedique um tempo para absolver tudo o
que está destacado nessas duas páginas. Caso tenha alguma dúvida, volte ao Roteiro de Revisão
e Pontos do Assunto que Merecem Destaque. Se ainda assim restar alguma dúvida, não hesite em
me perguntar no fórum.
QUESTÕES ESTRATÉGICAS
Nesta seção, apresentamos e comentamos uma amostra de questões objetivas selecionadas
estrategicamente: são questões com nível de dificuldade semelhante ao que você deve esperar
para a sua prova e que, em conjunto, abordam os principais pontos do assunto.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
A ideia, aqui, não é que você fixe o conteúdo por meio de uma bateria extensa de questões, mas
que você faça uma boa revisão global do assunto a partir de, relativamente, poucas questões.
Comentários
A generalização é uma técnica que preserva a privacidade dos indivíduos ao substituir informações
detalhadas de identificação pessoal por categorias mais amplas. Isso permite a análise
sociodemográfica dos bairros sem expor informações específicas que possam identificar
individualmente as pessoas envolvidas.
Portanto, ela é a técnica de desidentificação de dados sensíveis mais adequada para preservar a
privacidade dos indivíduos processados, permitindo a análise sociodemográfica dos bairros.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
D) A perturbação que altera aleatoriamente todos os valores dos dados pode proteger a
privacidade, mas também tornaria os dados inúteis para a análise específica de bairros. Adicionar
ruído ou alterar os dados sociodemográficos e de bairro impediria a detecção de padrões reais e
comprometeria a utilidade dos dados para a análise desejada.
Gabarito: alternativa E.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Comentários
A interpolação de dados é uma técnica estatística que permite estimar valores ausentes com base
nos dados disponíveis, considerando as tendências e os padrões observados nos dados existentes.
Isso ajuda a manter a precisão do estudo ao fornecer estimativas plausíveis para os valores de
peso ausentes, sem comprometer a integridade dos dados.
Portanto, ela é a abordagem mais apropriada para tratar os dados ausentes sobre o peso dos
participantes, visando manter a precisão e a confiabilidade do estudo.
C) Substituir dados ausentes por zero não é apropriado, pois zero não é uma medida válida de peso
e introduziria um viés extremo nos dados. Isso distorceria as análises e as conclusões do estudo.
D) Substituir dados ausentes por valores extremos não é uma prática recomendada, pois
introduziria distorções nos dados. Isso poderia afetar negativamente as análises estatísticas e levar
a conclusões incorretas.
E) Substituir dados ausentes por dados de outra pesquisa pode não ser apropriado, pois os
participantes de diferentes estudos podem ter características diferentes. Isso pode introduzir vieses
e comprometer a validade das conclusões do estudo original.
Gabarito: alternativa A.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
E) deve ser realizado após realizar agregações, pois os outliers podem obscurecer os
resultados da agregação.
Comentários
B) ERRADA. Tratar outliers pode ser complexo e requer julgamento e conhecimento do domínio
específico dos dados.
C) ERRADA. Embora seja verdade que o tratamento de outliers pode ser complexo e exija
conhecimento estatístico, não é verdade que seja independente do conjunto de dados e do objetivo
da análise.
D) CERTA. Esta é uma prática comum, pois outliers podem distorcer agregações.
E) ERRADA. Tratar outliers antes de agregar é mais comum para evitar distorções nos resultados
da agregação.
Gabarito: alternativa D.
Comentários
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
O aprendizado de máquina não supervisionado é adequado para tarefas em que não temos rótulos
ou categorias pré-definidas para os dados. Nesse caso, o objetivo é agrupar os clientes com base
em padrões nos dados, sem a necessidade de rótulos ou categorias conhecidas. Algoritmos como
o K-Means Clustering são exemplos de técnicas não supervisionadas que podem ser úteis para
essa tarefa.
C) Aprendizado por recompensa, também conhecido como aprendizado por reforço (opção D), é
uma técnica onde um agente aprende a tomar decisões através de interações com um ambiente e
recebe recompensas ou penalidades. Isso não se aplica à tarefa de agrupar clientes com base em
dados booleanos, pois não envolve uma sequência de decisões ou recompensas.
Gabarito: alternativa B.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Nesse cenário, que algoritmo de aprendizado de máquina é indicado para resolver esse
problema?
A) PCA
B) K-NN
C) DBSCAN
D) K-Medoids
E) Redes de Kohonen
Comentários
==a2a0d==
O algoritmo K-NN é uma técnica de classificação baseada em instâncias que pode ser usada para
atribuir rótulos ou categorias a novos dados com base na proximidade deles com dados já rotulados.
Nesse caso, ele pode aprender a determinar o risco esperado dos terrenos com base nas
características físicas e no tipo de negócio a ser implantado, enquadrando-os em um dos rótulos
(alto, médio, baixo ou nenhum) com base nas características dos terrenos que são mais
semelhantes a eles.
D) K-Medoids é um algoritmo de clustering similar ao K-Means, mas mais robusto a outliers. Como
DBSCAN, é um método de aprendizado não supervisionado e não é adequado para tarefas de
classificação supervisionada.
E) Redes de Kohonen são um tipo de rede neural não supervisionada usada para visualização de
dados e clustering. Elas não são adequadas para tarefas de classificação supervisionada onde se
deseja prever rótulos específicos.
Gabarito: alternativa B.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Comentários
Definições importantes:
A fórmula de acurácia é:
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
0,9 FN = 1.602
FN = 1602/0,9
1780 (alternativa C)
Gabarito: alternativa C.
Comentários
Esses tokens podem ser palavras individuais, partes de palavras (como sufixos ou prefixos),
números, pontuações ou qualquer outra unidade que faça sentido na análise do texto. A
tokenização é uma etapa fundamental no pré-processamento de texto, pois permite que os
algoritmos de processamento de linguagem natural trabalhem com unidades significativas e
facilitem a análise do texto de forma mais granular.
Por exemplo, ao tokenizar a frase "O cachorro correu para o parque", o texto seria dividido em
tokens como "O", "cachorro", "correu", "para", "o" (artigo), "parque". Cada token representa uma
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
unidade semântica que pode ser usada para análise, tradução, classificação de texto, entre outras
tarefas.
A) Colocar todos os caracteres em minúsculas é uma técnica de normalização de texto que ajuda
a garantir que palavras como "Organização" e "organização" sejam tratadas da mesma maneira.
Embora seja um passo comum no processamento de linguagem natural, não é o que se entende
por tokenização.
B) Colocar verbos no infinitivo é parte de um processo chamado lematização, que reduz palavras à
sua forma base ou dicionário. Embora útil, isso não é o mesmo que tokenização.
D) Remover marcadores HTML ou XML é um passo de limpeza de texto, que ajuda a eliminar
elementos desnecessários do texto. Isso é importante, mas não se trata de tokenização.
E) Substituir caracteres acentuados é outra técnica de normalização de texto, usada para garantir
a consistência dos dados, mas não é o mesmo que tokenização.
Gabarito: alternativa C.
Comentários
Um kernel linear é uma função de kernel que transforma os dados para um espaço de
características linearmente separável. Isso simplifica o modelo e reduz a complexidade, o que pode
ajudar a evitar o overfitting, pois modelos mais complexos têm maior probabilidade de se ajustar
demais aos dados de treinamento. Além disso, um kernel linear é menos propenso a capturar ruído
nos dados, focando mais nos padrões essenciais para a classificação.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
A) Esta técnica é associada a redes neurais e aprendizado profundo, onde conexões entre
neurônios podem ser apagadas aleatoriamente durante o treinamento (dropout) para prevenir o
overfitting. Não é aplicável diretamente ao SVM.
B) Garantir que o hiperplano divida perfeitamente todos os pontos de treinamento pode levar ao
overfitting, pois o modelo pode se tornar muito específico aos dados de treinamento, não
generalizando bem para novos dados.
C) Misturar o conjunto de teste com o de treinamento é uma prática incorreta que invalida a
avaliação do modelo. O conjunto de teste deve ser mantido separado para avaliar a generalização
do modelo.
D) Usar todos os pontos para a tomada de decisão não é uma técnica para prevenir overfitting. O
SVM já utiliza os pontos mais informativos (os vetores de suporte) para definir o hiperplano de
separação. Usar todos os pontos indiscriminadamente pode levar a um modelo complexo e,
potencialmente, ao overfitting.
Gabarito: alternativa E.
São questões um pouco mais desafiadoras, porque a redação de seu enunciado não ajuda na sua
resolução, como ocorre nas clássicas questões objetivas.
O objetivo é que você realize uma autoexplicação mental de alguns pontos do conteúdo, para
consolidar melhor o que aprendeu ;)
Além disso, as questões objetivas, em regra, abordam pontos isolados de um dado assunto. Assim,
ao resolver várias questões objetivas, o candidato acaba memorizando pontos isolados do
conteúdo, mas muitas vezes acaba não entendendo como esses pontos se conectam.
Assim, no questionário, buscaremos trazer também situações que ajudem você a conectar melhor
os diversos pontos do conteúdo, na medida do possível.
É importante frisar que não estamos adentrando em um nível de profundidade maior que o exigido
na sua prova, mas apenas permitindo que você compreenda melhor o assunto de modo a facilitar
a resolução de questões objetivas típicas de concursos, ok?
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Perguntas
2) Você pode citar quatro tipos de problemas onde podemos usar ML?
6) Que tipo de algoritmo de Machine Learning você usaria para permitir que um robô
andasse em vários terrenos desconhecidos?
7) Que tipo de algoritmo você usaria para segmentar seus clientes em vários grupos?
11) Que tipo de algoritmo de aprendizagem depende de uma medida de similaridade para
fazer previsões?
14) Você pode citar quatro dos principais desafios do Machine Learning?
15) Se o seu modelo se sai bem nos dados de treinamento, mas se generaliza mal para
novas instâncias, o que está acontecendo? Você pode nomear três soluções
possíveis?
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
18) O que pode dar errado se você sintonizar hiperparâmetros usando o conjunto de
testes?
2) Você pode citar quatro tipos de problemas onde podemos usar ML?
O Machine Learning é ótimo para problemas complexos para os quais não temos solução
algorítmica, para substituir longas listas de regras afinadas à mão, para construir sistemas que
se adaptem a ambientes flutuantes e, finalmente, para ajudar os humanos a aprender (por
exemplo, a mineração de dados).
6) Que tipo de algoritmo de Machine Learning você usaria para permitir que um robô
andasse em vários terrenos desconhecidos?
O Aprendizado de Reforço provavelmente será melhor se quisermos que um robô aprenda a
andar em vários terrenos desconhecidos, já que este é tipicamente o tipo de problema que o
Aprendizado de Reforço enfrenta. Pode ser possível expressar o problema como um problema
de aprendizagem supervisionado ou semi-supervisionado, mas seria menos natural.
7) Que tipo de algoritmo você usaria para segmentar seus clientes em vários grupos?
Se você não sabe como definir os grupos, então você pode usar um algoritmo de clustering
(aprendizado não supervisionado) para segmentar seus clientes em clusters de clientes
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
semelhantes. No entanto, se você sabe quais grupos você gostaria de ter, então você pode
alimentar muitos exemplos de cada grupo para um algoritmo de classificação (aprendizado
supervisionado), e classificará todos os seus clientes nesses grupos.
11) Que tipo de algoritmo de aprendizagem depende de uma medida de similaridade para
fazer previsões?
Um sistema de aprendizagem baseado em instâncias aprende os dados de treinamento por
semelhanças; então, quando uma nova instância é informada, ele usa uma medida de
similaridade para encontrar as instâncias aprendidas mais semelhantes e as usa para fazer
previsões.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
14) Você pode citar quatro dos principais desafios do Machine Learning?
Alguns dos principais desafios no Machine Learning são a falta de dados, má qualidade dos
dados, dados não representativos, características não informativas, modelos excessivamente
simples que subestimam os dados de treinamento e modelos excessivamente complexos que
superpõem os dados.
15) Se o seu modelo se sai bem nos dados de treinamento, mas se generaliza mal para novas
instâncias, o que está acontecendo? Você pode nomear três soluções possíveis?
Se um modelo se sai bem nos dados de treinamento, mas se generaliza mal para novas
instâncias, o modelo provavelmente está sobreajustado (overfitting) os dados de treinamento.
Possíveis soluções para o sobreajuste são obter mais dados, simplificar o modelo (selecionar
um algoritmo mais simples, reduzir o número de parâmetros ou recursos utilizados ou
regularizar o modelo) ou reduzir o ruído nos dados de treinamento.
18) O que pode dar errado se você sintonizar hiperparâmetros usando o conjunto de testes?
Se você sintonizar hiperparâmetros usando o conjunto de testes, você corre o risco de se
adaptar demais ao conjunto de testes, e o erro de generalização que você mede será otimista
(você pode lançar um modelo que tenha um desempenho pior do que você espera).
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
A partir de dados da pesquisa Perfil do Processado e Produção de Provas nas Ações Criminais
por Tráfico de Drogas, realizada em dezembro de 2023 pelo Instituto de Pesquisa Econômica
Aplicada (Ipea), é possível levantar informações sociodemográficas sobre os bairros em que
o direito à inviolabilidade domiciliar é relativizado. Os resultados revelam que os bairros mais
ricos e aqueles de população predominantemente branca são praticamente imunes às
entradas em domicílio, as quais se concentram substancialmente nos bairros mais pobres e
naqueles com população predominantemente negra ou minoritariamente branca.
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
C) por recompensa
D) por reforço
E) supervisionado
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br
Gabarito
1. alternativa E.
2. alternativa A.
3. alternativa D.
4. alternativa B.
5. alternativa B.
6. alternativa C.
7. alternativa C.
8. alternativa E.
...
(Bill Gates)
Thiago Cavalcanti
Face: www.facebook.com/profthiagocavalcanti
Insta: www.instagram.com/prof.thiago.cavalcanti
YouTube: youtube.com/profthiagocavalcanti
Caixa Econômica Federal (CEF) Passo Estratégico de Conhecimentos e Comportamentos Digitais - 2024 (Pós-Edital)
www.estrategiaconcursos.com.br