SLIDE05

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 24

WBA0754_v1.

Machine Learning
Clustering, Support Vector
Machines e processamento
em linguagem natural
Métodos de Clusterização

Bloco 1
Stella Marys Dornelas Lamounier
Clustering – Análise de agrupamento
• Aprendizado não supervisionado – Classificação/Regressão.
• Não tem rótulos-aprendizagem por relações de dados.
• Encontrar grupos “naturais” de objetos para um conjunto de
dados não rotulados.
• Os objetos de um grupo devem ser mais similares (clusters).

Figura 1 – Clusterização de um conjunto de dados

Fonte: adaptada de Oliveira (2008).


Aprendizado não supervisionado
• Segmentação de mercado.
• Encontrar potenciais clientes de um produto.
• Agrupamento de notícias/produtos similares.
• Perfis de clientes/Análise de redes sociais.
Figura 2 – Agrupamento de pessoas

Fonte: Santana (2017, [s.p.]).


Clustering – Análise de agrupamento

Figura 3 – Etapas da Clusterização

Representação dos dados

Dados
Seleção das Similaridade
Clusterização
variáveis dos dados

Avaliação

Fonte: adaptada de Oliveira (2008).


Clustering – Análise de agrupamento
• Inicia os centroides aleatoriamente.
• Para cada ponto na base de dados, calcula-se a distância
para cada centroide e o associa ao mais próximo.
• Calcula-se a média de todos os pontos ligados a cada
centroide e define-se um novo centroide (repetir 2 e 3).
Figura 4 – Representação gráfica K-MEANS

Salário

Idade
Fonte: elaborada pela autora.
Clustering – Análise de agrupamento

Figura 5 – Representação gráfica Clusterização K-MEANS

Salário

Idade
Fonte: elaborada pela autora.
Clustering, Support Vector
Machines e processamento
em linguagem natural
Support Vector Machine

Bloco 2
Stella Marys Dornelas Lamounier
Support Vector Machine
• Cria linhas ou hiperplanos para separação dos dados.
• Utilizado em Classificação e Regressão.
• Muito utilizado para reconhecimento de padrões.

Problemas:
• Dificilmente interpretável.
• Incapaz de manipular textos.
• Dificuldade de escolher o melhor caminho a seguir.
• Pouco desempenho com grandes volumes de dados.
Support Vector Machine

Figura 6 – Representação gráfica SVM – Linearmente separáveis

Fonte: elaborada pela autora.


Support Vector Machine – Truque do Kernel

Figura 7 – Representação gráfica SVM – Não linearmente separáveis

Fonte: elaborada pela autora.


Support Vector Machine – Truque do kernel

Figura 8 – Representação gráfica SVM – Não linearmente separáveis

Fonte: Augusto (2020, [s.p.]).


Processamento em Linguagem Natural

Figura 9 – Representação gráfica PLN

Fonte: elaborada pela autora.


Teoria em Prática
Bloco 3
Stella Marys Dornelas Lamounier
Reflita sobre a seguinte situação
O aprendizado de máquina é um conteúdo muito amplo, e
como visto durante todos os conteúdos, um mesmo problema
pode ser resolvido de inúmeras maneiras diferentes. Com
certeza, existem técnicas mais eficientes do que outras, ou até
técnicas que não funcionam para a resolução de todo tipo de
problema. Um fator muito importante na escolha do
algoritmo a ser utilizado é a estrutura do domínio dos dados.
O estudo de cada algoritmo apresentado só é realmente
aprendido quando você tenta implementar a técnica
estudada, pois a implementação exige muito conhecimento.
Reflita sobre a seguinte situação
Existem inúmeras ferramentas que auxiliam na
implementação de diversos algoritmos. Tendo em vista que
você já está bastante familiarizado com pelo menos uma
dessas plataformas, seu desafio agora será implementar o
algoritmo K-means para a resolução do clássico problema Iris.
Escolha a ferramenta com que você mais se familiarize. Você
também pode comparar os dados com outros algoritmos de
clusterização já existentes.
Dicas do(a) Professor(a)
Bloco 4
Stella Marys Dornelas Lamounier
Leitura Fundamental
Prezado aluno, as indicações a seguir podem estar disponíveis
em algum dos parceiros da nossa Biblioteca Virtual (faça o login
através do seu AVA). Algumas indicações também podem estar
disponíveis em sites acadêmicos como o Scielo, repositórios de
instituições públicas, órgãos públicos, anais de eventos
científicos ou periódicos científicos, acessíveis pela internet.
Isso não significa que o protagonismo da sua jornada de
autodesenvolvimento deva mudar de foco. Reconhecemos que
você é a autoridade máxima da sua própria vida e deve,
portanto, assumir uma postura autônoma nos estudos e na
construção da sua carreira profissional.
Por isso, te convidamos a explorar todas as possibilidades da
nossa Biblioteca Virtual e além! Sucesso!
Indicação de leitura 1
Tutorial WEKA
Este tutorial traz as informações precisas de como usar a
ferramenta WEKA, que é de muita utilização para o
processamento de algoritmos de aprendizagem de máquina.
Nele você vai ficar por dentro de inúmeras funcionalidades e
recursos de forma objetiva e gratuita.
Para acessá-lo, basta pesquisar por Weka Tutorial –
Tutorialspoint em seu navegador na internet.
Indicação de leitura 2

O artigo indicado apresenta em sua essência os


algoritmos de clusterização K-means (K-médias) e uma de
suas variações mais conhecidas, o Bisecting K-means. São
apresentadas as diferenças entre ambos os algoritmos e
as vantagens do K-means em relação a algoritmos de
clusterização hierárquica.

Referência
FONSECA, Felipe Cesar Stanzani; BELTRAME, Walber Antônio Ramos.
Aplicações Práticas dos Algoritmos de Clusterização K-means e Bisecting K-
means. Vitória: UFES, 2009.
Dica do(a) Professor(a)
• Clusterização Hierárquica:

Figura 10 – Clusterização Hierárquica

Fonte: Minitab (2022, [s.p.]).


Referências
AMPADU, Hyacinth. Random Forests Understanding. AI Pool, 2019. Disponível
em: https://ai-pool.com/a/s/random-forests-understanding. Acesso em: 13 mar.
2022.
APRENDENDO GESTÃO. Árvores de Decisão: Exemplo Completo. Aprendendo
Gestão, 2019. Disponível em:
https://aprendendogestao.com.br/2019/09/21/arvores-de-decisao-exemplo-
completo/. Acesso em: 12 mar. 2022.
AUGUSTO, Felipe. Support Vector Machine — SVMs. Luna, 2020. Disponível em:
https://medium.com/oiluna/support-vector-machine-svms-3c18c29e6a2b.
Acesso em: 31 mar. 2022.
BISPO, Rodolfo César. Planejador de roteiros turísticos: uma aplicação do
problema do Caixeiro viajante na cidade do Recife. Monografia (Bacharel em
Sistemas de Informação) – Universidade Federal Rural de Pernambuco, Recife,
2018.
Referências
MINITAB. Interpretar os principais resultados para Agrupar observações. Suporte
ao Minatab 18, 2022. Disponível em: https://support.minitab.com/pt-
br/minitab/18/help-and-how-to/modeling-statistics/multivariate/how-to/cluster-
observations/interpret-the-results/key-results/. Acesso em: 17 mar. 2022.
OLIVEIRA, Tatyana Bitencourt Soares de. Clusterização de dados utilizando
técnicas de redes complexas e computação bioinspirada. Dissertação (Mestrado
em Ciências e Matemática Computacional) – Universidade de São Paulo, São
Carlos, 2008.
SANTANA, Felipe. Entenda o Algoritmo K-means e Saiba como Aplicar essa
Técnica. Minerando Dados, 2017. Disponível em:
https://minerandodados.com.br/entenda-o-algoritmo-k-means/. Acesso em: 31
mar. 2022.
Bons estudos!

Você também pode gostar