Pertemuan-X - Manajemen Data Bagian 2
Pertemuan-X - Manajemen Data Bagian 2
Pertemuan-X - Manajemen Data Bagian 2
We Are Here!!!
AGENDA
5
Quality: What Is Good Clustering?
6
Major Clustering Approaches 1
• Partitioning approach:
• Construct various partitions and then evaluate them by some criterion, e.g.,
minimizing the sum of square errors
• Typical methods: k-means, k-medoids, CLARANS
• Hierarchical approach:
• Create a hierarchical decomposition of the set of data (or objects) using
some criterion
• Typical methods: Diana, Agnes, BIRCH, CAMELEON
• Density-based approach:
• Based on connectivity and density functions
• Typical methods: DBSACN, OPTICS, DenClue
• Grid-based approach:
• based on a multiple-level granularity structure
• Typical methods: STING, WaveCluster, CLIQUE
7
Major Clustering Approaches 2
• Model-based:
• A model is hypothesized for each of the clusters and tries to find the best fit
of that model to each other
• Typical methods: EM, SOM, COBWEB
• Frequent pattern-based:
• Based on the analysis of frequent patterns
• Typical methods: p-Cluster
• User-guided or constraint-based:
• Clustering by considering user-specified or application-specific constraints
• Typical methods: COD (obstacles), constrained clustering
• Link-based clustering:
• Objects are often linked together in various ways
• Massive links can be used to cluster objects: SimRank, LinkClus
8
Partitioning Methods
9
Partitioning Algorithms: Basic Concept
K=2
Until no change
11
Tahapan Algoritma k-Means
1. Pilih jumlah klaster k yang diinginkan
2. Inisialisasi k pusat klaster (centroid) secara random
3. Tempatkan setiap data atau objek ke klaster terdekat. Kedekatan dua objek
ditentukan berdasar jarak. Jarak yang dipakai pada algoritma k-Means adalah
Euclidean distance (d)
n
d Euclideanx, y
i i 2
x y
i 1
SSE d p, mi
i 1 pCi
13
Interasi 2
m2 3 4 5 4 2 / 5, 3 3 3 2 1 / 5 3,6;2,4
14
Iterasi 3
4. Terdapat perubahan anggota
cluster yaitu cluster1={A,E,G,H},
cluster2={B,C,D,F}, maka cari lagi
nilai centroid yang baru yaitu:
m1=(1,25;1,75) dan m2=(4;2,75)
5. Tugaskan lagi setiap objek
dengan memakai pusat klaster
yang baru
Nilai SSE yang baru:
15
Hasil Akhir
• Dapat dilihat pada tabel.
Tidak ada perubahan anggota
lagi pada masing-masing
cluster
• Hasil akhir yaitu:
cluster1={A,E,G,H}, dan
cluster2={B,C,D,F}
Dengan nilai SSE = 6,25 dan
jumlah iterasi 3
16
Density-Based Methods
17
Density-Based Clustering Methods
18
Density-Based Clustering: Basic Concepts
• Dua parameter:
• Eps: Radius maksimum lingkungan
• MinPts: Jumlah minimum poin di lingkungan Eps dari titik itu
• Density-reachable: p
• Titik p dapat dicapai dengan kerapatan dari titik q p1
jika ada rantai titik p1, …, pn, p1 = q, pn = p q
sedemikian rupa sehingga pi+1 dapat dicapai
langsung oleh kerapatan dari pi
• Density-connected
• Sebuah titik p terhubung dengan kepadatan ke titik
q jika ada titik o sehingga keduanya, p dan q dapat
dicapai kerapatan dari o p q
20
DBSCAN: Density-Based Spatial Clustering of
Applications with Noise
• Menggunakan ide pembentukan cluster berbasis kepadatan:
cluster didefinisikan sebagai kumpulan maksimal titik yang
terhubung dengan kepadatan
• Menemukan cluster dengan berbagai bentuk dalam
database spasial dengan adanya noise
Outlier
Border
Eps = 1cm
Core MinPts = 5
21
DBSCAN: The Algorithm
1. Pilih sembarang titik p
2. Ambil semua titik yang density-reachable dari p
3. Jika p adalah titik inti, maka terbentuk cluster
4. Jika p adalah titik batas, tidak ada titik yang density-
reachable oleh i p dan DBSCAN mengunjungi titik
database berikutnya
5. Lanjutkan proses hingga semua poin selesai diproses
22
DBSCAN: Sensitive to Parameters
http://webdocs.cs.ualberta.ca/~yaling/Cluster/Applet/Code/Cluster.html
23
Soal DBSCAN
24
Iterasi 1
NB:
Dilakukan hal yang sama untuk
titik yang lain
25
Pengambilan titik yang density reachable
26
Hasil iterasi 1
27
Iterasi 2
• Pilih titik yang memiliki jarak terjauh yang masih termasuk dalam dari
core object pada iterasi pertama.
28
Iterasi 2 (lanjutan)
1. hitung jarak masing-masing titik dengan core point untuk iterasi
kedua,
2. Ambil semua point yang density
reachable terhadap titik pusatnya.
Dari jumlah titik yang terpilih adalah 10. Jumlah ini sudah
memenuhi untuk terbentuknya neighborhood core object
29
Hasil Akhir
30
Note