Aula 12 Mineracao de Dados
Aula 12 Mineracao de Dados
Aula 12 Mineracao de Dados
ASSUNTOS PÁGINA
Mineração de
dados
Não é uma nova disciplina,
(Extração de Utiliza técnicas de estatística, mas uma interseção de muitas
conhecimento, análise matemática e inteligência (estatística, inteligência artificial,
de padrões, artificial. aprendizado de máquinas, ciência de gestão,
arqueologia de dados, sistemas de informação e bancos de dados).
busca de padrões ou
dragagem de dados)
Pesquisas.
Finanças, varejo, marketing,
Amplamente utilizada em
manufatura e saúde.
diversos ramos
Vantagem competitiva
estratégica.
Bancos de dados
muito grandes Arquitetura
Requer, por vezes, cliente/servidor ou
processamento uma baseada na
paralelo Web
Características
da mineração de
Fácil combinação dados Ferramentas
com outras sofisticadas para
ferramentas recuperação de
informações
Resultados
inesperados e Consultas sem
exigência de conhecimento de
pensamento criativo programação
Vamos detalhar cada uma das seis etapas do modelo CRISP-DM, mas antes
é importante fazer uma ressalva: embora estas etapas possuam uma
natureza sequencial, geralmente há uma grande quantidade de
retornos às fases anteriores. Como podemos notar na figura, por exemplo,
pode haver um retorno da etapa de construção do modelo para a preparação
dos dados caso seja necessário.
Como a mineração de dados é conduzida com base na experiência e
experimentação, dependendo da situação do problema e do conhecimento ou
experiência do analista, o processo pode ser bastante iterativo e demorado.
Outro importante destaque é que como os últimos passos são construídos sobre
o resultado dos anteriores, deve-se prestar atenção extra às etapas anteriores,
a fim de não colocar todo o estudo em um caminho incorreto desde o início.
❖ Também compreende a
avaliação e comparação das
análises realizadas com os
diversos modelos construídos.
Esquema 4 – CRISP-DM.
Análise de ligações
Associação
Padrões sequenciais
Descobrir
relacionamentos
entre variáveis em Uma sequência de ações ou
grandes bancos de eventos é buscada.
dados.
Classes são
As similaridades entre os
previamente
dados podem ser detectadas
desconhecidas.
dentro de posições de uma
série temporal.
Agrupamento
(clusterização)
Análise de outliers
Partição de uma
coleção de eventos ou Identificação dos dados que
itens em segmentos não apresentam o
cujos membros são comportamento padrão.
características
semelhantes.
4.1 Classificação
A classificação é o processo de aprender um modelo que descreve
diferentes classes de dados. As classes são predefinidas e, portanto, esse
tipo de atividade é também chamado de aprendizado supervisionado.
Quando o modelo é criado, ele pode ser usado para classificar novos dados.
O primeiro passo – aprendizado do modelo – é realizado com um conjunto de
treinamento de dados que já foram classificados. Cada registro nos dados de
treinamento contém um atributo, chamado rótulo de classe, que indica a que
classe o registro pertence.
A classificação é talvez a mais comum de todas as tarefas de
mineração de dados. O objetivo da classificação é analisar os dados
históricos armazenados em um banco de dados e gerar
automaticamente um modelo que pode prever o comportamento futuro.
Esse modelo induzido consiste em generalizações sobre os registros de um
conjunto de dados de treinamento, que ajudam a distinguir as classes
predefinidas. A expectativa é que o modelo possa então ser usado para prever
as classes de outros registros não classificados e, mais importante, prever com
precisão os eventos futuros reais.
EXEMPLO:
Para entender melhor a classificação, imagine-se como um proprietário de um
grande banco com uma infinidade de clientes correntistas. Você quer distribuir
alguns cartões de crédito especiais entre estes clientes, mas quer correr o
.
menor risco possível de crédito. Assim, não seria útil se estes clientes
estivessem separados com base no risco de “calote”.
Dessa forma, os clientes do seu banco podem estar classificados em algumas
categorias pré-definidas:
Os clientes podem, então, ser dispostos nessas classes e, assim, você pode
identificar facilmente para quem você irá “distribuir” os cartões especiais.
Perceba que como se trata de classificação, as categorias são definidas
previamente para depois organizar os dados nelas.
EXEMPLO:
Visando entender a estrutura de uma árvore de decisão, vejamos o seguinte
exemplo que visa classificar os clientes de um banco quanto ao risco para obter
um cartão de crédito especial.
Processo de aprender
um modelo que Classes pre-
descreve diferentes definidas.
classes de dados.
Classificação
Ferramentas
comuns
Aprendizado
Estatística Emergentes
de máquina
Máquinas
Árvores Análise Conjuntos de Algoritmo
Redes Regressão
de discrimina aproxima vetores s
neurais loigística
decisão tória dos de genéticos
suporte
Esquema 8 – Classificação.
Uma das maiores redes de varejo dos Estados Unidos descobriu, em seu
.
gigantesco armazém de dados, que a venda de fraldas descartáveis estava
associada à de cerveja. Em geral, os compradores eram homens, que saíam à
noite para comprar fraldas e aproveitavam para levar algumas latinhas para
casa. Os produtos foram postos lado a lado. Resultado: a venda de fraldas e
cervejas disparou.
Neste caso, vemos claramente a ideia das regras de associação através do
relacionamento entre duas variáveis de produtos. A descoberta de um padrão
de relacionamento entre dois itens aparentemente não relacionados pode
auxiliar bastante na tomada de decisões.
Regras de associação
PP-
Growth,
Análise de Padrões de Suporte ou Confiança
Apriori OneR,
ligações sequência prevalência ou força
ZeroR e
Eclat.
Esquema 9 – Associação.
Agrupamentos
(clusterização)
5. DETECÇÃO DE ANOMALIAS
A deteção de anomalias consiste na identificação de padrões em
dados com um comportamento diferente do esperado. Estes padrões são
muitas vezes referidos como anomalias, outliers, exceções, aberrações,
observações discordantes, entre outros, variando de acordo com o contexto.
No contexto da mineração de dados, a análise de outliers é uma técnica
ou tarefa realizada na análise de clusters que consiste na identificação dos
dados que não apresentam o mesmo comportamento padrão da maioria.
Ex.: identificação de pessoa com renda muito superior aos perfis de renda em
determinada organização.
Os resultados produzidos pelos métodos de deteção de anomalias são
de um dos dois tipos seguintes:
❖ Pontuações: os métodos de pontuação atribuem uma pontuação de
anomalia para cada instância no teste de dados, dependendo do grau da
anomalia. O analista pode optar por analisar as anomalias mais
“pontuadas” ou usar um ponto de corte para as selecionar.
❖ Rótulos: os métodos usados atribuem um rótulo (normal ou anormal)
para cada instância de teste.
6. MODELAGEM PREDITIVA
A modelagem preditiva é uma técnica estatística para modelar e
encontrar padrões, que utiliza dados históricos para realizar previsões de
tendências, padrões de comportamento ou eventos futuros.
A modelagem preditiva utiliza de estatísticas e modelos
matemáticos para prever resultados futuros. Basicamente, escolhe-se o
melhor modelo fundamentado na probabilidade de um resultado ocorrer
conforme um conjunto de dados de entrada. Esses modelos utilizam um ou mais
classificadores que avaliam a probabilidade de um conjunto de dados
pertencerem a outro conjunto. Assim, no nosso contexto de mineração de
dados, as tarefas preditivas de classificação e regressão são utilizadas com
esta finalidade.
7. APRENDIZADO DE MÁQUINA
Aprendizado de Máquina (ou machine learning) é um método de
análise de dados que automatiza o desenvolvimento de modelos
analíticos. Usando algoritmos que aprendem interativamente a partir de
dados, o aprendizado de máquinas permite que os computadores encontrem
insights ocultos sem serem explicitamente programados para procurar algo
específico.
As tarefas e técnicas de mineração de dados estão bem relacionadas com
o aprendizado de máquina, pois a mineração de dados descobre padrões e
conhecimento previamente desconhecidos e o aprendizado de máquina
usa esses padrões e conhecimentos adquiridos, aplicando isso a outros
dados, e, em seguida, aplicando automaticamente esses resultados à tomada
de decisões e ações.
O aprendizado de máquina é bastante utilizado para:
❖ Detecção de fraudes.
❖ Resultados de pesquisa na Web.
❖ Anúncios em tempo real em páginas da web e dispositivos móveis.
❖ Análise de sentimento baseada em texto.
❖ Pontuação de crédito e próximas melhores ofertas.
❖ Previsão de falhas em equipamento.
❖ Novos modelos de precificação.
❖ Detecção de invasão na rede.
❖ Reconhecimento de padrões e imagem.
❖ Filtragem de spams no e-mail.
8. MINERAÇÃO DE TEXTO
A mineração de texto (também conhecida como mineração de dados
de texto ou descoberta de conhecimento em bancos de dados textuais)
é o processo semiautomático de extração de padrões (informações úteis
e conhecimento) de grandes quantidades de fontes de dados não
estruturadas. Lembre-se de que a mineração de dados é o processo de
identificação de padrões válidos, novos, potencialmente úteis e, finalmente,
compreensíveis em dados armazenados em bancos de dados estruturados, onde
os dados são organizados em registros estruturados por variáveis categóricas,
ordinais ou contínuas. A mineração de texto é semelhante a mineração de
dados, na medida em que tem o mesmo propósito e usa os mesmos processos;
mas com a mineração de texto, a entrada para o processo é uma coleção
de arquivos de dados não estruturados ou semiestruturados, como
documentos do Word, arquivos PDF, trechos de texto, arquivos XML e assim por
diante.
Em essência, a mineração de texto pode ser pensada como um
processo (com duas etapas principais) que começa com imposição de
uma estrutura para as fontes de dados baseadas em texto, seguindo da
extração de informações e conhecimentos relevantes a partir desses
dados estruturados baseados em texto usando técnicas e ferramentas de
mineração de dados.
Os benefícios da mineração de texto são evidentes nas áreas em que
grandes quantidades de dados textuais estão sendo gerados, como lei (ordens
judiciais), pesquisa acadêmica (artigos de pesquisa), finanças (relatórios
trimestrais), medicamentos (sumários de alta), biologia (interações
moleculares), tecnologia (arquivos de patentes) e marketing (comentários de
clientes).
EXEMPLO:
Por exemplo, as interações baseadas em texto de forma livre com clientes sob
a forma de queixas (ou elogios) e reivindicações de garantia podem ser usadas
para identificar objetivamente características de produtos e serviços que são
consideradas imperfeitas e podem ser usadas como entrada para melhor
desenvolvimento de produtos e alocações de serviços. Da mesma forma,
.
programas de divulgação de mercado e grupos focais geram grandes
quantidades de dados e, ao não restringir o feedback do produto ou do serviço
à forma codificada, os clientes podem apresentar, em suas próprias palavras, o
que eles pensam dos produtos e serviços de uma empresa. Outra área em que
o processamento automatizado de textos não estruturados teve muito impacto
é em comunicações eletrônicas e e-mail. A mineração de texto não só pode ser
usada para classificar e filtrar o e-mail indesejável, mas também pode ser usada
para priorizar automaticamente o email com base no nível de importância, além
de gerar respostas automáticas.
Dados semi-
Dados não estruturados
estuturados
Ex.:
Documentos
do Word,
arquivos PDF,
trechos de
texto, arquivos
XML
2ª etapa
9. QUESTÕES COMENTADAS
Noções de Mineração de Dados. Conceitos e características
14- (CESPE - 2016 - TCE-PA - Auditor de Controle Externo - Área
Informática - Analista de Sistema) Julgue o item a seguir, em relação a data
warehouse e data mining.
No contexto de data mining, o processo de descoberta de conhecimento em
base de dados consiste na extração não trivial de conhecimento previamente
desconhecido e potencialmente útil.
Resolução:
A mineração de dados (data mining) refere-se à mineração ou
descoberta de novas informações em termos de padrões ou regras com
base em grandes quantidades de dados. Pode ser entendida também como o
processo não trivial de identificar padrões válidos, novos,
potencialmente úteis e, em última instância, compreensíveis em dados
armazenados em bancos de dados estruturados.
Gabarito: Certo.
Resolução:
Questão que define árvore geradora mínima, portanto o Gabarito é letra E.
Vejamos os conceitos dos demais algoritmos:
a) K média (K-means): o algoritmo atribui cada ponto de dados (cliente,
evento, objeto, etc.) ao cluster cujo centro (também chamado centróide) é o
mais próximo. O centro é calculado como a média de todos os pontos no cluster;
ou seja, suas coordenadas são a média aritmética para cada dimensão
separadamente em todos os pontos do cluster.
b) K medoides (K-medoids): o elemento que melhor representa o cluster, é
definido de acordo com seus atributos sem que haja muita influência dos valores
próximos aos limites do cluster.
c) Apriori: dado um conjunto de itens, o algoritmo tenta encontrar
subconjuntos que são comuns a, pelo menos, um número mínimo de conjuntos.
d) DBSCAN: dado um conjunto de pontos em algum espaço, agrupa pontos que
estão intimamente empacotados (pontos com muitos vizinhos próximos),
marcando como pontos atípicos que ficam sozinhos em regiões de baixa
densidade (cujos vizinhos mais próximos estão muito distantes).
Gabarito: Letra E.
Resolução:
Os algoritmos genéticos podem ser usados na mineração de dados tanto para
realizar a análise de clusters quanto para a classificação.
Os Algoritmos genéticos são implementados como uma simulação de
computador em que uma população de representações abstratas de
solução é selecionada em busca de soluções melhores. A evolução geralmente
se inicia a partir de um conjunto de soluções criado aleatoriamente e é realizada
por meio de gerações. A cada geração, a adaptação de cada solução na população
é avaliada, alguns indivíduos são selecionados para a próxima geração, e
recombinados ou mutados para formar uma nova população. A nova população
então é utilizada como entrada para a próxima iteração do algoritmo.
Gabarito: Certo.
Resolução:
Os métodos de clusterização baseados em estatística (k-clusterização) podem
utilizar a média (k-means), a mediana (k-medoids) ou a moda (k-mode) para
definir os elementos centrais dos clusters. No k-medoids ao invés de usar a
média para definir o centro dos clusters, utiliza a mediana (valor mais ao
centro do conjunto de dados). Assim, o elemento que melhor representa o
cluster, é definido de acordo com seus atributos sem que haja muita influência
dos valores próximos aos limites do cluster.
Gabarito: Certo.
Mineração de texto.
42- (CESPE - 2011 - STM - Analista Judiciário - Análise de Sistemas) A
respeito de bancos de dados textuais, julgue o item a seguir.
Bancos de dados textuais auxiliam a tomada de decisão nos níveis gerenciais,
uma vez que tratam de dados históricos. Na mineração de dados para um data
warehouse, é necessária a montagem de um banco de dados textual, tal que as
pesquisas possam ser realizadas por meio de dados históricos.
Resolução:
A mineração de dados não exige a montagem de um banco de dados
textual, podendo ser realizada em um Data Warehouse estruturado. Quando
esta mineração ocorre nestes bancos de dados textuais, temos a chamada
mineração de texto (text mining).
A mineração de texto (também conhecida como mineração de dados de
texto ou descoberta de conhecimento em bancos de dados textuais) é
o processo semiautomático de extração de padrões (informações úteis
e conhecimento) de grandes quantidades de fontes de dados não
estruturadas.
Gabarito: Errado.
Mineração de
dados
Não é uma nova disciplina,
(Extração de Utiliza técnicas de estatística, mas uma interseção de muitas
conhecimento, análise matemática e inteligência (estatística, inteligência artificial,
de padrões, artificial. aprendizado de máquinas, ciência de gestão,
arqueologia de dados, sistemas de informação e bancos de dados).
busca de padrões ou
dragagem de dados)
Pesquisas.
Finanças, varejo, marketing,
Amplamente utilizada em
manufatura e saúde.
diversos ramos
Vantagem competitiva
estratégica.
Bancos de dados
muito grandes
Arquitetura
Requer, por vezes, cliente/servidor ou
processamento uma baseada na
paralelo Web
Características Ferramentas
Fácil combinação
da mineração de sofisticadas para
com outras
dados recuperação de
ferramentas
informações
Resultados
inesperados e Consultas sem
exigência de conhecimento de
pensamento criativo programação
✓ CRISP-DM.
❖ Também compreende a
avaliação e comparação das
análises realizadas com os
diversos modelos construídos.
Análise de ligações
Associação
Padrões sequenciais
Descobrir
relacionamentos
entre variáveis em Uma sequência de ações ou
grandes bancos de eventos é buscada.
dados.
Classes são
As similaridades entre os
previamente
dados podem ser detectadas
desconhecidas.
dentro de posições de uma
série temporal.
Agrupamento
(clusterização)
Análise de outliers
Partição de uma
coleção de eventos ou Identificação dos dados que
itens em segmentos não apresentam o
cujos membros são comportamento padrão.
características
semelhantes.
✓ Classificação.
Processo de aprender
um modelo que Classes pre-
descreve diferentes definidas.
classes de dados.
Classificação
Ferramentas
comuns
Aprendizado
Estatística Emergentes
de máquina
Máquinas
Árvores Análise Conjuntos de Algoritmo
Redes Regressão
de discrimina aproxima vetores s
neurais loigística
decisão tória dos de genéticos
suporte
✓ Associação.
Regras de associação
PP-
Growth,
Análise de Padrões de Suporte ou Confiança
Apriori OneR,
ligações sequência prevalência ou força
ZeroR e
Eclat.
✓ Agrupamentos (clusterização).
Agrupamentos
(clusterização)
Dados semi-
Dados não estruturados
estuturados
Ex.:
Documentos
do Word,
arquivos PDF,
trechos de
texto, arquivos
XML
2ª etapa
Mineração de texto.
42- (CESPE - 2011 - STM - Analista Judiciário - Análise de Sistemas) A
respeito de bancos de dados textuais, julgue o item a seguir.
Bancos de dados textuais auxiliam a tomada de decisão nos níveis gerenciais,
uma vez que tratam de dados históricos. Na mineração de dados para um data
12. GABARITO
1 Certo 12 Errado 23 Errado 34 Certo
2 Certo 13 Certo 24 Errado 35 Errado
3 Errado 14 Certo 25 E 36 Certo
13. REFERÊNCIAS
APRENDIS. Detecção de anomalias. Disponível em <
http://aprendis.gim.med.up.pt/index.php/Detec%C3%A7%C3%A3o_de_anom
alias> . Acesso em: 11 dez. 2017.
CHAPMAN, Pete et al. CRISP-DM 1.0: Step-by-step data mining guide. 2000.
ELMASRI, Ramez; NAVATHE, Shamkant B. Sistema de Banco de Dados. 6ed.
São Paulo: Pearson Addison Wesley, 2011.
HAN, Jiawei; PEI, Jian; KAMBER, Micheline. Data mining: concepts and
techniques. Elsevier, 2011.
IMASTERS. Modelagem preditiva e produtos relacionados aos dados.
Disponível em <https://imasters.com.br/infra/modelagem-preditiva-e-
produtos-relacionados-aos-dados/?trace=1519021197&source=single>.
Acesso em: 11 dez. 2017.
SAS. Machine Learning: O que é e por que é importante? Disponível em
<https://www.sas.com/pt_br/insights/analytics/machine-learning.html>.
Acesso em: 11 dez. 2017.
TAN, Pang-Ning et al. Introduction to data mining. Pearson Education India,
2006.
TURBAN, Efraim et al. Business intelligence: A managerial approach. Upper
Saddle River, NJ: Pearson Prentice Hall, 2008.