SLIDE05

WBA0754_v1.
Machine Learning
Clustering, Support Vector
Machines e processamento
em linguagem natural
Métodos de Clusterização
Bloco 1
Stella Marys Dornelas Lamounier
Clustering – Análise de agrupamento
• Aprendizado não supervisionado – Classificação/Regressão.
• Não tem rótulos-aprendizagem por relações de dados.
• Encontrar grupos “naturais” de objetos para um conjunto de
dados não rotulados.
• Os objetos de um grupo devem ser mais similares (clusters).
Figura 1 – Clusterização de um conjunto de dados
Fonte: adaptada de Oliveira (2008).

Aprendizado não supervisionado
• Segmentação de mercado.
• Encontrar potenciais clientes de um produto.
• Agrupamento de notícias/produtos similares.
• Perfis de clientes/Análise de redes sociais.
Figura 2 – Agrupamento de pessoas
Fonte: Santana (2017, [s.p.]).

Figura 3 – Etapas da Clusterização
Representação dos dados
Dados
Seleção das Similaridade
Clusterização
variáveis dos dados
Avaliação
Fonte: adaptada de Oliveira (2008).

• Inicia os centroides aleatoriamente.
• Para cada ponto na base de dados, calcula-se a distância
para cada centroide e o associa ao mais próximo.
• Calcula-se a média de todos os pontos ligados a cada
centroide e define-se um novo centroide (repetir 2 e 3).
Figura 4 – Representação gráfica K-MEANS
Salário
Idade
Fonte: elaborada pela autora.
Figura 5 – Representação gráfica Clusterização K-MEANS
Salário
Idade
Clustering, Support Vector
Machines e processamento
em linguagem natural
Support Vector Machine
Bloco 2
• Cria linhas ou hiperplanos para separação dos dados.
• Utilizado em Classificação e Regressão.
• Muito utilizado para reconhecimento de padrões.
Problemas:
• Dificilmente interpretável.
• Incapaz de manipular textos.
• Dificuldade de escolher o melhor caminho a seguir.
• Pouco desempenho com grandes volumes de dados.
Figura 6 – Representação gráfica SVM – Linearmente separáveis

Support Vector Machine – Truque do Kernel
Figura 7 – Representação gráfica SVM – Não linearmente separáveis

Support Vector Machine – Truque do kernel
Figura 8 – Representação gráfica SVM – Não linearmente separáveis
Fonte: Augusto (2020, [s.p.]).

Processamento em Linguagem Natural
Figura 9 – Representação gráfica PLN

Teoria em Prática
Bloco 3
Reflita sobre a seguinte situação
O aprendizado de máquina é um conteúdo muito amplo, e
como visto durante todos os conteúdos, um mesmo problema
pode ser resolvido de inúmeras maneiras diferentes. Com
certeza, existem técnicas mais eficientes do que outras, ou até
técnicas que não funcionam para a resolução de todo tipo de
problema. Um fator muito importante na escolha do
algoritmo a ser utilizado é a estrutura do domínio dos dados.
O estudo de cada algoritmo apresentado só é realmente
aprendido quando você tenta implementar a técnica
estudada, pois a implementação exige muito conhecimento.
Reflita sobre a seguinte situação
Existem inúmeras ferramentas que auxiliam na
implementação de diversos algoritmos. Tendo em vista que
você já está bastante familiarizado com pelo menos uma
dessas plataformas, seu desafio agora será implementar o
algoritmo K-means para a resolução do clássico problema Iris.
Escolha a ferramenta com que você mais se familiarize. Você
também pode comparar os dados com outros algoritmos de
clusterização já existentes.
Dicas do(a) Professor(a)
Bloco 4
Leitura Fundamental
Prezado aluno, as indicações a seguir podem estar disponíveis
em algum dos parceiros da nossa Biblioteca Virtual (faça o login
através do seu AVA). Algumas indicações também podem estar
disponíveis em sites acadêmicos como o Scielo, repositórios de
instituições públicas, órgãos públicos, anais de eventos
científicos ou periódicos científicos, acessíveis pela internet.
Isso não significa que o protagonismo da sua jornada de
autodesenvolvimento deva mudar de foco. Reconhecemos que
você é a autoridade máxima da sua própria vida e deve,
portanto, assumir uma postura autônoma nos estudos e na
construção da sua carreira profissional.
Por isso, te convidamos a explorar todas as possibilidades da
nossa Biblioteca Virtual e além! Sucesso!
Indicação de leitura 1
Tutorial WEKA
Este tutorial traz as informações precisas de como usar a
ferramenta WEKA, que é de muita utilização para o
processamento de algoritmos de aprendizagem de máquina.
Nele você vai ficar por dentro de inúmeras funcionalidades e
recursos de forma objetiva e gratuita.
Para acessá-lo, basta pesquisar por Weka Tutorial –
Tutorialspoint em seu navegador na internet.
Indicação de leitura 2
O artigo indicado apresenta em sua essência os

algoritmos de clusterização K-means (K-médias) e uma de
suas variações mais conhecidas, o Bisecting K-means. São
apresentadas as diferenças entre ambos os algoritmos e
as vantagens do K-means em relação a algoritmos de
clusterização hierárquica.
Referência
FONSECA, Felipe Cesar Stanzani; BELTRAME, Walber Antônio Ramos.
Aplicações Práticas dos Algoritmos de Clusterização K-means e Bisecting K-
means. Vitória: UFES, 2009.
Dica do(a) Professor(a)
• Clusterização Hierárquica:
Figura 10 – Clusterização Hierárquica
Fonte: Minitab (2022, [s.p.]).

Referências
AMPADU, Hyacinth. Random Forests Understanding. AI Pool, 2019. Disponível
em: https://ai-pool.com/a/s/random-forests-understanding. Acesso em: 13 mar.
2022.
APRENDENDO GESTÃO. Árvores de Decisão: Exemplo Completo. Aprendendo
Gestão, 2019. Disponível em:
https://aprendendogestao.com.br/2019/09/21/arvores-de-decisao-exemplo-
completo/. Acesso em: 12 mar. 2022.
AUGUSTO, Felipe. Support Vector Machine — SVMs. Luna, 2020. Disponível em:
https://medium.com/oiluna/support-vector-machine-svms-3c18c29e6a2b.
Acesso em: 31 mar. 2022.
BISPO, Rodolfo César. Planejador de roteiros turísticos: uma aplicação do
problema do Caixeiro viajante na cidade do Recife. Monografia (Bacharel em
Sistemas de Informação) – Universidade Federal Rural de Pernambuco, Recife,
2018.
Referências
MINITAB. Interpretar os principais resultados para Agrupar observações. Suporte
ao Minatab 18, 2022. Disponível em: https://support.minitab.com/pt-
br/minitab/18/help-and-how-to/modeling-statistics/multivariate/how-to/cluster-
observations/interpret-the-results/key-results/. Acesso em: 17 mar. 2022.
OLIVEIRA, Tatyana Bitencourt Soares de. Clusterização de dados utilizando
técnicas de redes complexas e computação bioinspirada. Dissertação (Mestrado
em Ciências e Matemática Computacional) – Universidade de São Paulo, São
Carlos, 2008.
SANTANA, Felipe. Entenda o Algoritmo K-means e Saiba como Aplicar essa
Técnica. Minerando Dados, 2017. Disponível em:
https://minerandodados.com.br/entenda-o-algoritmo-k-means/. Acesso em: 31
mar. 2022.
Bons estudos!

SLIDE05

Enviado por

Direitos autorais:

Formatos disponíveis

SLIDE05

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

SLIDE05

Enviado por

Direitos autorais:

Formatos disponíveis

WBA0754_v1.

Figura 1 – Clusterização de um conjunto de dados

Fonte: adaptada de Oliveira (2008).

Fonte: Santana (2017, [s.p.]).

Figura 3 – Etapas da Clusterização

Representação dos dados

Fonte: adaptada de Oliveira (2008).

Figura 5 – Representação gráfica Clusterização K-MEANS

Figura 6 – Representação gráfica SVM – Linearmente separáveis

Fonte: elaborada pela autora.

Figura 7 – Representação gráfica SVM – Não linearmente separáveis

Fonte: elaborada pela autora.

Figura 8 – Representação gráfica SVM – Não linearmente separáveis

Fonte: Augusto (2020, [s.p.]).

Figura 9 – Representação gráfica PLN

Fonte: elaborada pela autora.

O artigo indicado apresenta em sua essência os

Figura 10 – Clusterização Hierárquica

Fonte: Minitab (2022, [s.p.]).

Você também pode gostar