Min Dados @1

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 12

AULA 1

MINERAÇÃO DE DADOS

Prof. Roberson Cesar Alves de Araújo


TEMA 1 – O QUE É DATA MINING? QUE TIPO DE DADOS MINERAR?

Dado o crescente aumento do volume de dados produzido e armazenado,


podemos observar a possibilidade e capacidade de se obter um maior volume de
informações valiosas para os gestores. Porém, em muitos casos, o enorme
volume gerado inviabiliza tanto a percepção quanto a avaliação ao ultrapassar os
limites da capacidade humana de efetuar essas ações.

Crédito: Aleutie/Shutterstock.

A mineração de dados, ou do inglês data mining, pode ser entendida como


um grupo de técnicas que possibilita a estratificação de conhecimento baseado
em grandes volumes de dados. Consiste em uma extração baseada em padrões
que simbolizam o conhecimento armazenado de maneira implícita em diferentes
bancos de dados, data warehouses e até mesmo repositórios informacionais com
grandes volumes de dados.

1.1 Entendendo data mining

A capacidade atual para gerar dados e coletá-los está em constante


aumento de velocidade. O volume gerado está se tornando impossível de ser
analisado por um ser humano, sendo necessários recursos de tecnologia para seu
processamento. As áreas de estatística, inteligência artificial e banco de dados
destacam-se em proporcionar soluções necessárias à análise de dados.

2
A mineração de dados, somada à área de gestão e descoberta do
conhecimento em bases de dados, se destaca na formação de uma nova área
importante e promissora. A junção dessas áreas diz respeito à quantidade elevada
de dados na atualidade e também à carência das organizações na transformação
desse volume de dados em informação útil.

1.2 Tipologia dos dados a minerar

São inúmeros os tipos de dados que encontramos atualmente, tanto por


sua aplicação compartilhada em diversas áreas quanto aqueles específicos de
algumas áreas. Diferentes dados científicos – médicos, financeiros, demográficos
ou mesmo dados gerados a partir de sensores provenientes da internet das coisas
(IoT), por exemplo – são gerados quase que constantemente.
Assim, o volume de dados disponível vem aumentando exponencialmente.
A grande dificuldade encontrada na análise desses dados, no entanto, está na
utilização de ferramentas de uso tradicional para gerenciá-los. Ao gerarmos um
modelo ou uma estrutura de mineração de dados, precisamos definir os tipos de
dados para cada uma das colunas em uma estrutura de mineração.
Os tipos de dados comunicam ao instrumento de análise quando um dado
é do tipo numérico ou textual, por exemplo. Assim, podemos averiguar
diretamente na fonte de dados a forma como os dados numéricos serão tratados,
se inteiros ou com casas decimais.
Outra classificação para definir os tipos de dados diz respeito à sua
estruturação. Nessa linha, podemos encontrar dados estruturados e não
estruturados.

1.2.1 Dados estruturados

Dados estruturados são dados formatados, com a devida organização em


diferentes tabelas com linhas e colunas. Esses dados possuem maior facilidade
em seu processamento pela ordem em que se apresentam. Usualmente são
utilizados sistemas de gerenciamento de banco de dados (SGBD) com a
finalidade de armazenarem os dados. Aplicações empresariais como ERP
(Enterprise Resource Planning) ou sistema integrado de gestão empresarial
fazem uso desse tipo de dado.

1.2.2 Dados não estruturados


3
Dados não estruturados não possuem formatação específica, o que
dificulta sua capacidade de processamento. Similarmente aos dados estruturados,
os não estruturados requerem processamento e análise para serem apresentados
como informação. São encontrados em imagens, mensagens de e-mail,
documentos de textos, planilhas e mensagens postadas em redes sociais.

1.2.3 Dados armazenados pelo formato

Os dados armazenados requerem diferentes tipos de técnicas de extração


baseadas em seu formato. Esse formato ou tipo de dado pode ser caracterizado
em textual ou literal, numérico, booleano ou de lógica boolena (verdadeiro ou
falso) ou data (período temporal).

 Textuais ou literais: esses dados são constituídos em uma sequência de


caracteres com letras, dígitos e símbolos especiais em seu conteúdo.
Usualmente, também são conhecidos como dados alfanuméricos ou cadeia
de caracteres, e no inglês são chamados de string. O tamanho desse tipo
de dado é determinado por sua quantidade de caracteres. Em geral, são
encontrados em uma chamada de algoritmo por uma coleção de caracteres
delimitada tanto no início como no final pelo caractere aspas (“);
 Numéricos: são basicamente subdivididos em inteiros e reais. Os dados
numéricos inteiros não apresentam nenhum componente decimal ou
fracionário, sendo positivos ou negativos. Já os dados numéricos reais têm
capacidade de armazenar decimais e fracionários, além da capacidade de
serem negativos ou positivos;
 Booleanoos: são utilizados para representar apenas dois valores possíveis,
sendo ou verdadeiro ou falso. Os valores possíveis são: 0 ou 1; sim ou não;
verdadeiro ou falso; 0 ou 1;
 Data: o propósito desse tipo de dado está na capacidade de proporcionar
uma série de cálculos e operações de ordem cronológica, por exemplo a
quantidade de dias entre duas datas, somar ou subtrair períodos contendo
dias, meses ou anos.

TEMA 2 – FASES DO PROCESSO DE DESCOBERTA DE CONHECIMENTO EM


BANCO DE DADOS

4
O volume de dados estruturados e não estruturados em larga escala
encontrado hoje fornece por meio de um processo de análise informações úteis a
serem utilizadas pelas organizações. Estas, por sua vez, passam a evoluir frente
ao desenvolvimento tecnológico. Como exemplos dessas empresas utilizadoras
da tecnologia da mineração de dados, destacam-se:

a) Bancos: beneficiam-se de informações que venham a identificar padrões


auxiliando no processo de gerenciamento das relações com o mercado e
clientes;
b) Cobrança: pode extrair como benefício as ações de agilização e detecção
de fraudes financeiras, evitando desgastes e prejuízos;
c) Medicina: utiliza a indicação de resultados em diagnósticos com precisão,
proporcionando ampla análise de dados com cruzamento de informações
que venham a ampliar a qualidade da área como um todo no que diz
respeito às suas funções;
d) Recursos humanos: o destaque pode estar na capacidade de identificar as
competências de indivíduos baseadas em currículos;
e) Comércio de varejo: uma das maiores vantagens é ampliar a potencialidade
de aprimorar a disposição de seus produtos em gôndolas e prateleiras
observando padrões de consumo de seus clientes.

Para tornar possível a melhoria proporcionada pela análise de dados


nessas áreas, alguns aspectos relevantes à tecnologia de mineração de dados
precisam ser considerados, como as questões de descoberta de conhecimento
em bases de dados, a exemplo do uso do Knowledge Discovery in Database
(KDD), com suas etapas e modelo funcional.

2.1 Apoio à tomada de decisões

A experiência profissional possibilita um efetivo processo de gestão do


conhecimento, o qual demanda elevada quantidade de decisões em relação às
atividades presentes em uma organização. Isso impacta diretamente na cadeia
produtiva de uma organização de maneira geral.
O volume de dados a serem geridos vem se tornando numeroso e
dificultoso quanto à sua organização, extração e análise. Com o objetivo de
auxiliar o processo de gestão, inúmeras ferramentas computacionais têm sido
criadas para efetuar a estratificação e o armazenamento de dados. Essas

5
ferramentas atuam principalmente no processo de análise de dados de maneira a
gerar informações que gerem conhecimento. O processo de gerar o conhecimento
ocorre pela mineração de dados, tornando-se vital no apoio à tomada de decisão.
A informação é um dos ativos mais importantes para os negócios das
organizações, além de ser um diferencial na competitividade. As estratégias que
assumem estão baseadas em informações factíveis, minimizando erros que
possam ser cometidos por gestores na tomada de decisão. A evolução
tecnológica possibilitou a criação de processos como o Knowledge Discovery in
Database (KDD), que possibilita a descoberta de conhecimento em banco de
dados.

2.2 Métodos de data mining

Existem vários métodos de data mining para descobrir respostas ou extrair


conhecimento de diferentes e numerosos repositórios de dados. Entre eles
podemos citar o KDD, de classificação; modelos de relacionamento entre
variáveis, cluster ou agrupamento, sumarização, dependência e associação.

2.2.1 Classificação

A classificação utiliza uma técnica estatística denominada análise


discriminante, buscando o envolvimento de uma descrição gráfica ou algébrica
das características de diferenciação das diversas populações – dessa forma
classificando as observações em diferentes classes predefinidas.

2.2.2 Relacionamento entre variáveis

Esse tipo de modelo efetua uma associação entre um ou mais itens às


variáveis de predição de valores reais. As variáveis utilizadas podem ser
independentes ou exploratórias. As técnicas utilizadas para esse fim são de
regressão linear simples, múltipla e modelos lineares atuantes por transformação.

2.2.3 Cluster ou agrupamento

Esse modelo opera por associação de um item a uma ou mais classes


categorizadas, que se chamam clusters. Essas classes são classificadas pelos
tipos de dados contidos independentemente de uma pré-classificação.

6
A definição dos clusters se estabelece mediante a formação de grupos de
dados fundamentados em medidas de similaridade ou em modelos
probabilísticos. O objetivo é detectar a existência de grupos diferenciados
inseridos em um conjunto de dados.

2.2.4 Sumarização

A utilização do modelo de sumarização está essencialmente nas medidas


de posição e variabilidade. Por sumarização é estabelecida uma descrição com
dispersão reduzida em determinado subconjunto de dados.

2.2.5 Dependência

Como o próprio nome sugere, neste modelo é descrita a dependência entre


as variáveis. Esses modelos são classificados em dois tipos: quantitativo ou
estruturado, sendo que o primeiro define o grau de interdependência utilizando
uma escala numérica, enquanto o segundo, estruturado, apresenta em forma de
gráfico as variáveis localmente dependentes.

2.2.6 Regras de associação

Esse modelo opera pela forma como ocorrem as relações entre diferentes
campos de um banco de dados, portanto associando valores correlatos que
venham a se tornar significantes.

TEMA 3 – PROCESSO KDD E SUAS ETAPAS

O termo Knowledge Discovery in Database (KDD), apesar de ser


considerado por diversos autores como um sinônimo de data mining, tem distinção
clara em sua forma de operação. Enquanto a mineração de dados está no
processo de busca pelo conhecimento em dados, enfatizando uma aplicação de
grande porte, o KDD se apresenta como um processo de descoberta do
conhecimento útil dos dados. Nessa linha, a mineração de dados aponta para a
aplicação de algoritmos que extraem modelos de dados.

7
Como ambos os conceitos se distinguem, o KDD faz surgir uma nova
demanda por ferramentas e técnicas de análise de dados. Essa demanda
contempla uma série de etapas que representam melhor sua aplicação. Nelas
podemos entender melhor a forma de extração de conhecimento de dados e
entender como os elementos de dados e padrões se relacionam. Dessa maneira,
a mineração de dados pressupõe as fases do descobrimento do processo de KDD,
que visa descobrir o conhecimento em banco de dados, sendo esse processo
dividido em etapas.

3.1 Etapa de seleção

A etapa de seleção é fundamental para o sucesso do processo pois nela


deverão ser selecionados quais os conjuntos de dados são de fato relevantes para
que sejam obtidos os resultados baseados em informações úteis.

3.2 Etapa de pré-processamento

Nessa etapa ocorre a limpeza dos dados além da seleção de atributos. É


efetuada uma correção de dados de forma que informações ausentes,
inconsistentes ou que possuam erros sejam corrigidas, de maneira que não
venham a comprometer a qualidade dos modelos de conhecimento que serão
extraídos ao final do processo de KDD.

3.3. Etapa de transformação

É também conhecida como etapa de formatação, na qual os dados obtidos


na etapa de pré-processamento são analisados. Aqui os dados são reorganizados
de forma que possam se tornar interpretáveis pela etapa de mineração.

3.4. Etapa de mineração

Nessa etapa ocorrem as ações que resultaram na efetiva atividade do KDD.


Depois da transformação dos dados, eles precisam ser lidos e interpretados. Aqui,
os dados serão convertidos em informações de fato, sendo indicadas por força
bruta em um procedimento de leitura individual de regras com interpretação em
cada uma.

3.5. Etapa de interpretação


8
A última etapa do processo KDD refere-se à interpretação da informação
com atividade de avaliação. Uma vez que os dados tenham sido interpretados
poderão ser encontrados novos padrões, além de novos relacionamentos e
descobertas de fatos antes não encontrados. Essas novas informações poderão
ser utilizadas em novas pesquisas ou otimização da atual.

TEMA 4 – mineração de regras de associação


Entre as tarefas a serem executadas no processo de mineração de dados
está a busca por tendências que possam ser utilizadas para o entendimento e
exploração de padrões de comportamento de dados.
Em data mining temos atividades preditivas e descritivas. A atividade
descritiva possui três fases: regras de associação, clustering e sumarização. A
atividade preditiva contém duas fases: classificação e regressão.

4.1 Situação prática

De forma a exemplificar a associação de dados dentro do processo de


mineração de dados, vamos aplicá-la em uma situação prática. Para melhor
entendimento, precisamos tem em mente o conceito de itemset, um conjunto de
atributos ou itens ordenados lexicograficamente. Como exemplos, temos:
{a,b,c,d}; {9,10,11,12}; {Ana, Clara, Maria, Zélia}.
O cenário que utilizaremos será o de uma rede de lojas que possui como
regra o fato de que 70% dos clientes que compram o produto X adquirem no
mesmo momento o produto Z. Nessa situação, o fator de confiabilidade da regra
se encontra em 70%.
Precisamos definir de maneira clara o nosso problema, que é, neste caso,
analisar um enorme volume de conhecimento extraído em um formato de regras.

4.2 Funcionamento da associação

Para entendermos o funcionamento da associação, vamos utilizar uma


definição exemplo. Assim, adotamos uma base de dados BD com um conjunto de
itens CJ = {it1, it2, it3....itz} ordenados lexicograficamente e também um conjunto
de transações T = { t1,t2,t3...tz}, em que cada uma das transações tn é composta
por um conjunto de itens de forma que tn está contido em CJ .

9
Assim, podemos ter um conjunto de itens:

CJ = {produto1, produto2, produto3, produto4}


Conjunto de transações:
t1: produto1, produto2
t2: produto1, produto2, produto3, produto4
t3: produto2, produto4

4.2.1 Entendimento conceitual

Os itemsets frequentes correspondem àqueles que possuem maior suporte


do que o suporte mínimo especificado pelo usuário. Para uma associação, deve-
se utilizar esses itemsets frequentes, criando, assim, as regras de associação com
confiança mínima superior à que o usuário especificou inicialmente.

TEMA 5 – ANÁLISE ESTATÍSTICA DE DADOS

O procedimento de análise estatística de dados é, além de necessário,


importante para a validação desses dados. Além disso, a análise possibilita
extrapolar os resultados obtidos para a população estudada.
Diversos aspectos são relevantes dentro de uma análise estatística, mas
destaca-se como ponto-chave a escolha do teste estatístico. Essa escolha exige
do usuário alguns conhecimentos necessários para o entendimento e execução
do processo como um todo:

a) Classificação do tipo de dado para estudo, podendo ser ordinal ou nominal,


categórico ou contínuo;
b) Conhecimento sobre os tipos de amostras a serem examinadas, se
dependentes ou independentes;
c) A maneira em que os dados estarão dispostos ao final de sua coleta, se
com distribuição normal ou anormal.

Dessa forma, é importante que o usuário conheça bem esses aspectos


para que a análise estatística dos dados ocorra da maneira correta.

5.1 Tipologia de dados

Existem duas classificações básicas para os dados: qualitativos ou


quantitativos. Os dados quantitativos são apresentados normalmente de maneira

10
contínua em formato escalar. Como exemplo temos os números que podem ser
fracionados, como o diâmetro de um objeto ou sua inclinação.
Após efetuar a coleta de dados, pode-se identificar uma curva de tendência
ou medida de tendência central, além de um indicador para a variação dos dados.
Os dados em formato numérico em geral utilizam essa medida de tendência
central para o posicionamento de uma média, sendo a variação ou a variabilidade
definida como um desvio padrão, que normalmente é atribuído a variáveis do tipo
paramétrica ou contínua.
Para uma variável do tipo qualitativa para dados, é atribuído um número
limitado de valores ou de categorias. Esses valores podem ser classificados de
modo ordinal ou nominal. Para uma classificação ordinal, a escala deverá ser
determinada sempre de forma crescente entre as diversas categorias. Podemos
citar como exemplo desse tipo de classificação um índice qualquer que possua
uma escala ordinal de 0 a 4.

5.2 Distribuição dos dados

No que se refere à distribuição dos dados, ela é efetuada de duas formas:


normal ou anormal. Uma distribuição normal também é conhecida como
distribuição gaussiana, apresentando um formato similar a uma curva em forma
de sino ao encontrarmos os dados contínuos dispostos em uma curva de
distribuição. Pode ser verificado, nesse caso, que os dados estão concentrados
próximos a uma média, dispersando-se simetricamente, tendo como centro a
curva da média.
Os outros casos, ou seja, em que a curva não apresenta o formato de sino,
são denominados assimétricos ou de forma anormal, podendo ainda serem
chamados de dados de livre distribuição. Os testes efetuados para esses tipos de
dados possuem a denominação de dados estatísticos não paramétricos.
A utilização de dados paramétricos possibilita melhor detecção de diferença
real entre as amostras, destacando-as como estatisticamente significativas.
Contudo, quando não ocorre uma distribuição normal, o teste paramétrico não é
considerado confiável quanto à execução de uma análise estatística.

11
REFERÊNCIAS

AMARAL, F. Introdução à ciência de dados: mineração de dados e big data.


São Paulo: Alta Books, 2016.

ARAUJO, G. et al. Exploração do paralelismo em algoritmos de mineração de


dados com Pthreads, OpenMP, FastFlow, TBB e Phoenix++. In: Anais da XVII
Escola Regional de Alto Desempenho do Estado do Rio Grande do Sul, SBC,
2017.

BECKER, K.; TUMITAN, D. Introdução à mineração de opiniões: Conceitos,


aplicações e desafios. Simpósio brasileiro de banco de dados, v. 75, 2013.

BRAGA, L. P. V. B. Introdução à mineração de dados: edição ampliada e


revisada. Editora E-papers, 2005.

CALIL, L. A. de A. et al. Mineração de dados e pós-processamento em padrões


descobertos. Ponta Grossa: UEPG, 2008.

DANTAS, E. R. G. et al. O uso da descoberta de conhecimento em base de dados


para apoiar a tomada de decisões. V Simpósio de Excelência em Gestão e
Tecnologia, p. 1-10, 2008.

DOS SANTOS, B. S. et al. Data Mining: Uma abordagem teórica e suas


aplicações. Revista ESPACIOS, 37(5), 2016.

GOLDSCHMIDT, R.; PASSOS, E. Data mining: um guia prático. Gulf


Professional Publishing, 2005.

GRINSTEIN, U. M. F. G. G.; WIERSE, A. Information visualization in data


mining and knowledge discovery. Burlington: Morgan Kaufmann, 2002.

HAND, D. J. Data Mining. Encyclopedia of Environmetrics, v. 2, 2006.

HANG, J.; KAMBER, M. Data mining: concepts and techniques. 2006.

SANTOS, M. F.; AZEVEDO, C. S. Data mining: descoberta de conhecimento em


bases de dados". Lisboa: FCA, 2005.

STEINER, M. T. A. et al. Abordagem de um problema médico por meio do


processo de KDD com ênfase à análise exploratória dos dados. Gest Prod, v. 13,
n. 2, p. 325-37, 2006.

WITTEN, I. H.; FRANK, E.; HALL, M. A. Practical machine learning tools and
techniques. Burlington: Morgan Kaufmann, 2005.
12

Você também pode gostar