Pertemuan 5
Pertemuan 5
Pertemuan 5
(Pahami dan (Pilih Metode (Pahami Model dan (Analisis Model dan
Persiapkan Data) Sesuai Karakter Data) Pengetahuan yg Sesuai ) Kinerja Metode)
5
Pemisahan Data
Manual
6
Latihan: Penentuan Kelayakan Kredit
• Gunakan dataset di bawah:
• creditapproval-training.xls: untuk membuat model
• creditapproval-testing.xls: untuk menguji model
• Data di atas terpisah dengan perbandingan:
data testing (10%) dan data training (90%)
• Data training sebagai pembentuk model, dan data testing untuk
pengujian model, ukur performancenya
7
Confusion Matrix Accuracy
10
PPV and NPV
We need to know the probability that the classifier will give
the correct diagnosis, but the sensitivity and specificity do
not give us this information
• Positive Predictive Value (PPV) is the proportion of cases with
’positive’ test results that are correctly diagnosed
11
Kurva ROC - AUC (Area Under Curve)
• ROC (Receiver Operating Characteristics) curves: for visual comparison
of classification models
• Originated from signal detection theory
• ROC curves are two-dimensional graphs in which the TP rate is plotted
on the Y-axis and the FP rate is plotted on the X-axis
• ROC curve depicts relative trade-offs between benefits (’true
positives’) and costs (’false positives’)
• Two types of ROC curves: discrete and continuous
12
Kurva ROC - AUC (Area Under Curve)
13
Guide for Classifying the AUC
(Gorunescu, 2011)
14
Latihan: Prediksi Kanker Payudara
• Gunakan dataset: breasttissue.xls
• Split data dengan perbandingan:
data testing (10%) dan data training
(90%)
• Ukur performance
(Accuracy dan Kappa)
15
Kappa Statistics
• The (Cohen’s) Kappa statistics is a more vigorous
measure than the ‘percentage correct prediction’
calculation, because Kappa considers the correct
prediction that is occurring by chance
• Kappa is essentially a measure of how well the
classifier performed as compared to how well it
would have performed simply by chance
• A model has a high Kappa score if there is a big
difference between the accuracy and the null
error rate (Markham, K., 2014)
• Kappa is an important measure on classifier
performance, especially on imbalanced data set
16
Latihan: Prediksi Harga Saham
• Gunakan dataset di bawah:
• hargasaham-training.xls: untuk membuat model
• hargasaham-testing.xls: untuk menguji model
• Data di atas terpisah dengan perbandingan:
data testing (10%) dan data training (90%)
• Jadikan data training sebagai pembentuk model/pola/knowledge,
dan data testing untuk pengujian model
• Ukur performance
17
18
Root Mean Square Error
• The square root of the mean/average of the square of all of the
error
23
Split Data Otomatis
• The Split Data operator takes a dataset as its input and
delivers the subsets of that dataset through its output ports
• The sampling type parameter decides how the examples
should be shuffled in the resultant partitions:
1. Linear sampling: Divides the dataset into partitions without
changing the order of the examples
2. Shuffled sampling: Builds random subsets of the dataset
3. Stratified sampling: Builds random subsets and ensures that
the class distribution in the subsets is the same as in the
whole dataset
24
25
Latihan: Prediksi Kelulusan Mahasiswa
1. Dataset: datakelulusanmahasiswa.xls
2. Pisahkan data menjadi dua secara otomatis (Split Data): data testing
(10%) dan data training (90%)
3. Ujicoba parameter pemisahan data baik menggunakan Linear
Sampling, Shuffled Sampling dan Stratified Sampling
4. Jadikan data training sebagai pembentuk model/pola/knowledge, dan
data testing untuk pengujian model
5. Terapkan algoritma yang sesuai dan ukur performance dari model
yang dibentuk
26
Proses Prediksi Kelulusan Mahasiswa
27
Latihan: Estimasi Konsumsi Minyak
1. Dataset: HeatingOil.csv
2. Pisahkan data menjadi dua secara otomatis (Split Data): data
testing (10%) dan data training (90%)
3. Jadikan data training sebagai pembentuk
model/pola/knowledge, dan data testing untuk pengujian model
4. Terapkan algoritma yang sesuai dan ukur performance dari
model yang dibentuk
28
Pemisahan Data dan Evaluasi
Model Otomatis dengan Cross-
Validation
29
Metode Cross-Validation
• Metode cross-validation digunakan untuk menghindari
overlapping pada data testing
• Tahapan cross-validation:
1. Bagi data menjadi k subset yg berukuran sama
2. Gunakan setiap subset untuk data testing dan sisanya untuk data
training
• Disebut juga dengan k-fold cross-validation
• Seringkali subset dibuat stratified (bertingkat) sebelum cross-
validation dilakukan, karena stratifikasi akan mengurangi variansi
dari estimasi
30
10 Fold Cross-Validation
GLM LR NN DL SVM
RMSE
34
Komparasi Algoritma Data Mining
35
Metode Data Mining
1. Estimation (Estimasi):
Linear Regression (LR), Neural Network (NN), Deep Learning (DL), Support Vector Machine
(SVM), Generalized Linear Model (GLM), etc
2. Forecasting (Prediksi/Peramalan):
Linear Regression (LR), Neural Network (NN), Deep Learning (DL), Support Vector Machine
(SVM), Generalized Linear Model (GLM), etc
3. Classification (Klasifikasi):
Decision Tree (CART, ID3, C4.5, Credal DT, Credal C4.5, Adaptative Credal C4.5), Naive
Bayes (NB), K-Nearest Neighbor (kNN), Linear Discriminant Analysis (LDA), Logistic
Regression (LogR), etc
4. Clustering (Klastering):
K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means (FCM), etc
5. Association (Asosiasi):
FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
36
Latihan: Prediksi Elektabilitas Caleg
1. Lakukan training pada data pemilu (datapemilukpu.xls)
dengan menggunakan algoritma
1. Decision Tree (C4.5)
2. Naïve Bayes (NB)
3. K-Nearest Neighbor (K-NN)
2. Lakukan pengujian dengan menggunakan 10-fold X
Validation
DT NB K-NN
Accuracy 92.45% 77.46% 88.72%
AUC 0.851 0.840 0.5
37
38
Latihan: Prediksi Elektabilitas Caleg
1. Lakukan training pada data pemilu
(datapemilukpu.xls) dengan menggunakan algoritma
C4.5, NB dan K-NN
2. Lakukan pengujian dengan menggunakan 10-fold X
Validation
3. Ukur performance-nya dengan confusion matrix dan
ROC Curve
4. Uji beda dengan t-Test untuk mendapatkan model
terbaik
39
40
Hasil Prediksi Elektabilitas Caleg
• Komparasi Accuracy dan AUC
C4.5 NB K-NN
Accuracy 92.45% 77.46% 88.72%
AUC 0.851 0.840 0.5
C4.5
NB
kNN
C4.5
NB
kNN
2. Statistik Inferensi
• Perkiraan dan estimasi
• Pengujian Hipotesis
44
Statistik Inferensi
(Pengujian Hipotesis)
46
Metode Non Parametrik
• Metode ini dapat dipergunakan secara lebih luas, karena tidak
mengharuskan datanya berdistribusi normal
• Dapat dipakai untuk data nominal dan ordinal sehingga sangat berguna
bagi para peneliti sosial untuk meneliti perilaku konsumen, sikap
manusia, dsb
• Cenderung lebih sederhana dibandingkan dengan metode parametrik
alpha=0.05
Bila p < 0.05, maka Ho ditolak
C4.5
NB
kNN
LogR
51
52
Latihan: Estimasi Konsumsi Minyak
1. Lakukan training pada data minyak
pemanas (HeatingOil.csv) dengan
menggunakan algoritma linear
regression, neural network dan support
vector machine, Deep Learning
2. Lakukan pengujian dengan XValidation
(numerical) dan Uji beda dengan t-Test
3. Ukur performance-nya dengan
menggunakan RMSE (Root Mean Square
LR NN SVM DL
Error)
RMSE
53
Urutan model terbaik:
1. NN dan DL
2. LR dan SVM
LR NN DL SVM
LR
NN
DL
SVM 54
Latihan: Prediksi Elektabilitas Caleg
1. Lakukan training pada data pemilu (datapemilukpu.xls) dengan
menggunakan algoritma Decision Tree, Naive Bayes, K-Nearest
Neighbor, RandomForest, Logistic Regression
2. Lakukan pengujian dengan menggunakan XValidation
3. Ukur performance-nya dengan confusion matrix dan ROC Curve
4. Masukkan setiap hasil percobaan ke dalam file Excel
DT NB K-NN RandFor LogReg
Accuracy 92.21% 76.89% 89.63%
AUC 0.851 0.826 0.5
55
Latihan: Prediksi Harga Saham
1. Lakukan training pada data harga saham
(hargasaham-training.xls) dengan neural
network, linear regression, support vector
machine
2. Lakukan pengujian dengan menggunakan
XValidation
LR NN SVM
RMSE
56
Latihan: Klastering Jenis Bunga
Iris
1. Lakukan training pada data iris (ambil dari repositories rapidminer)
dengan menggunakan algoritma clustering k-means
2. Gunakan pilihan nilai untuk k, isikan dengan 3, 4, 5, 6, 7
3. Ukur performance-nya dengan Cluster Distance Performance, dari
analisis Davies Bouldin Indeks (DBI), tentukan nilai k yang paling
optimal
• Baca dan pahami paper di atas dan jelaskan apa yang dilakukan
peneliti pada paper tersebut:
1. Object Penelitian
2. Masalah Penelitian
3. Tujuan Penelitian
4. Metode Penelitian
5. Hasil Penelitian
61
Tugas: Mereview Paper
• Technical Paper:
• Judul: A Comparison Framework of Classification Models for Software Defect
Prediction
• Author: Romi Satria Wahono, Nanna Suryana Herman, Sabrina Ahmad
• Publications: Adv. Sci. Lett. Vol. 20, No. 10-12, 2014
• Download: http://romisatriawahono.net/lecture/dm/paper
• Baca dan pahami paper di atas dan jelaskan apa yang dilakukan peneliti
pada paper tersebut:
1. Object Penelitian
2. Masalah Penelitian
3. Tujuan Penelitian
4. Metode Penelitian
62
5. Hasil Penelitian
Tugas Mereview Paper
• Technical Paper:
• Judul: An experimental comparison of classification algorithms for imbalanced
credit scoring data sets
• Author: Iain Brown and Christophe Mues
• Publications: Expert Systems with Applications 39 (2012) 3446–3453
• Download: http://romisatriawahono.net/lecture/dm/paper
• Baca dan pahami paper di atas dan jelaskan apa yang dilakukan
peneliti pada paper tersebut:
1. Object Penelitian
2. Masalah Penelitian
3. Tujuan Penelitian
4. Metode Penelitian
5. Hasil Penelitian
63
Tugas: Menulis Paper Penelitian
• Cari dataset yang ada di sekitar kita
• Lakukan penelitian berupa komparasi dari (minimal)
5 algoritma machine learning untuk memining
knowledge dari dataset tersebut
• Gunakan uji beda (baik parametrik dan non
parametric) untuk analisis dan pembuatan ranking
dari algoritma machine learning
• Tulis makalah tentang penelitian yang kita buat
• Contoh-contoh makalah komparasi ada di:
http://romisatriawahono.net/lecture/dm/paper/method%20comparison/
• Upload seluruh file laporan ke Card di Trello.Com
• Deadline: sehari sebelum mata kuliah berikutnya
64
Paper Formatting
• Ikuti template dan contoh paper dari:
http://journal.ilmukomputer.org
• Isi paper:
• Abstract: Harus berisi obyek-masalah-metode-hasil
• Introduction: Latar belakang masalah penelitian dan struktur paper
• Related Work: Penelitian yang berhubungan
• Theoretical Foundation: Landasan dari berbagai teori yang digunakan
• Proposed Method: Metode yang diusulkan
• Experimental Results: Hasil eksperimen
• Conclusion: Kesimpulan dan future works 65
Competency Check
1. Dataset – Methods – Knowledge
1. Dataset Main Golf (Klasifikasi)
2. Dataset Iris (Klasifikasi)
3. Dataset Iris (Klastering)
4. Dataset CPU (Estimasi)
5. Dataset Pemilu (Klasifikasi)
6. Dataset Heating Oil (Association)
7. Dataset Transaksi (Association)
8. Dataset Harga Saham (Forecasting)
2. Dataset – Methods – Knowledge – Evaluation
1. Manual
2. Data Split Operator
3. Cross Validation
3. Methods Comparison
• Uji t-Test
4. Paper Reading
1. Lan Yu (DeLong Pearson Test) 66
Terima Kasih
67