Buku Data Mining Libre
Buku Data Mining Libre
Buku Data Mining Libre
i|Pengantar
Kata
Pengantar
Dengan mengucapkan puji syukur kepada Tuhan
YME atas Berkah Rahmat dan Hidayah-Nya, penulis
dapat menyelesaikan buku yang berjudul Belajar Data
Mining dengan RapidMiner.
Produk-produk
perangkat
lunak
gratis
(freeware) dan bersifat open source yang demikian
banyak jumlahnya, telah memudahkan kita dalam
melakukan proses pengolahan dan analisis data. Dalam
melakukan analis terhadap data mining, RapidMiner
merupakan salah satu solusi yang dapat kita gunakan.
Keberadaan RapidMiner yang berupa freeware dan
dapat dijalankan pada berbagai sistem operasi tidak
hanya menguntungkan penyedia aplikasi karena tidak
perlu mengeluarkan biaya untuk lisensi perangkat
lunak, tetapi juga memudahkan pengembang maupun
calon pengembang dalam mempelajari dan mencoba
sendiri fitur-fitur yang ada.
ii | P e n g a n t a r
Buku ini diharapkan dapat membantu pembaca
mempelajari RapidMiner, melalui rangkaian tutorial
bertahap mulai dari proses instalasi hingga
pemrograman. Pada buku ini juga dibahas beberapa
teori penunjang mengenai data mining seperti, decision
tree, neural network dan market basket analysis untuk
membuka wawasan pembaca mengenai data mining
sebelum melakukan analisis data mining.
Penulis mengucapkan terima kasih yang
sebesar-besarnya kepada semua pihak yang telah
membantu penyelesaian buku ini.
Akhir kata, penulis menyadari masih terdapat
kekurangan dalam penyusunan buku ini baik pada
teknis penulisan maupun materi, mengingat akan
kemampuan yang dimiliki penulis. Untuk itu kritik dan
saran dari semua pihak penulis harapkan demi
penyempurnaan pembuatan buku ini. Semoga buku ini
dapat bermanfaat bagi para pembaca.
Penulis
iii | P e n g a n t a r
Daftar
Isi
Kata Pengantar ........................................................... i
Daftar Isi .................................................................. iii
Daftar Gambar .......................................................... v
Daftar Tabel ............................................................viii
Kecerdasan Buatan .................................................... 2
Definisi Kecerdasan Buatan ........................................2
Ruang Lingkup Kecerdasan Buatan .............................5
Perbedaan Komputasi Kecerdasan Buatan dan
Komputasi Konvensional.............................................6
RapidMiner ......... ..Error! Bookmark not defined.8
Apa itu RapidMiner? ...................................................8
Instalasi Software ......................................................11
Pengenalan Interface ................................................16
Cara Menggunakan Repositori..................................28
iv | P e n g a n t a r
Data Mining ............................................................ 39
Mengenal Data Mining .............................................39
Pengelompokan Teknik Data Mining ........................43
Decision Tree........................................................... 45
Mengenal Decision Tree ...........................................45
Algoritma c4.5 ...........................................................48
Kelebihan Pohon Keputusan .....................................55
Kekurangan Pohon Keputusan..................................56
Decision Tree pada RapidMiner ................................56
Neural Network ....................................................... 84
Market Basket Analysis ........................................... 96
Memahami Market Basket Analysis .........................96
Metodologi Association Rules................................ 100
Contoh Association Rules....................................... 102
Frequent Itemset Generation dan Rule Generation
................................................................................ 105
Market Basket Analysis pada RapidMiner ............. 107
Glossarium ............................................................ 122
Daftar Pustaka....................................................... 125
v|Pengantar
Daftar
Gambar
Gambar 1.1 Proses Kecerdasan Buatan ....................................................... 4
Gambar 2.1 Form Awal Instalasi ................................................................ 14
Gambar 2.2 Form Persetujuan Lisensi ....................................................... 14
Gambar 2.3 Form Pemilihan Lokasi Instalasi ............................................. 15
Gambar 2.4 Form Proses Instalasi ............................................................. 15
Gambar 2.5 Form Instalasi selesai ............................................................. 16
Gambar 2.6 Tampilan Welcome Perspective ............................................. 17
Gambar 2.7 Welcome Perspective............................................................. 19
Gambar 2.8 Header Tab ............................................................................. 20
Gambar 2.9 Tampilan Design Perspective ................................................. 21
Gambar 2.10 Kelompok Operator dalam Bentuk Hierarki ......................... 23
Gambar 2.11 Tampilan Parameter View .................................................... 25
Gambar 2.12 Problem & Log View ............................................................. 27
Gambar 2.13 Kumpulan Sample Data Repository ...................................... 28
Gambar 2.14 Tampilan Design Perspective Awal ...................................... 29
Gambar 2.15 Repository berada dalam Main Process ............................... 29
Gambar 2.16 Menghubungkan Output Repositori ke Result ..................... 30
Gambar 2.17 Isi Sample Golf Data Repository ........................................... 30
Gambar 2.18 Repository ............................................................................ 32
Gambar 2.19 Step 1 of 5 Import Wizard .................................................... 32
Gambar 2.20 Step 2 of 5 Import Wizard .................................................... 33
Gambar 2.21 Step 3 of 5 Import Wizard .................................................... 34
Gambar 2.22 Step 4 of 5 Import Wizard .................................................... 34
Gambar 2.23 Tipe Data .............................................................................. 35
vi | P e n g a n t a r
Gambar 2.24 Step 5 of 5 Import Wizard .................................................... 35
Gambar 2.25 Repository yang sudah diimport .......................................... 36
Gambar 2.26 Menghubungkan Output Repositori pada Result ................. 36
Gambar 2.27 Tabel Repository .................................................................. 37
Gambar 4.1 Bentuk Decision Tree Secara Umum ...................................... 48
Gambar 4.2 Grafik Entropi ......................................................................... 50
Gambar 4.3 Tabel Keputusan dalam Format xls ........................................ 57
Gambar 4.4 Lokasi Tabel pada Repository ................................................. 58
Gambar 4.5 Repository PlayGolf pada Main Process ................................. 59
Gambar 4.6 Daftar Operator pada View Operators ................................... 59
Gambar 4.7 Posisi Operator Decision Tree ................................................ 60
Gambar 4.8 Menghubungkan Tabel Playgolf dengan Operator Decision
Tree ............................................................................................................ 61
Gambar 4.9 Parameter Decision Tree ........................................................ 62
Gambar 4.10 Tipe Criterion ....................................................................... 62
Gambar 4.11 Ikon Run ............................................................................... 66
Gambar 4.12 Hasil Berupa Graph Pohon Keputusan ................................. 66
Gambar 4.13 Hasil Berupa Penjelasan Teks ............................................... 67
Gambar 4.14 Tabel SakitHipertensi dalam format xls ................................ 69
Gambar 4.15 Lokasi Tabel pada Repository ............................................... 69
Gambar 4.16 Tabel SakitHipertensi pada Main Process ............................ 70
Gambar 4.17 Hirarki Operator X-Validation............................................... 72
Gambar 4.18 Operator Validation ............................................................. 72
Gambar 4.19 Parameter X-Validation ........................................................ 74
Gambar 4.20 Hirarki Operator Apply ......................................................... 77
Gambar 4.21 Operator Apply Model ......................................................... 78
Gambar 4.22 Parameter Apply Model ....................................................... 79
Gambar 4.23 Hirarki Operator Performance ............................................. 80
Gambar 4.24 Operator Performance ......................................................... 81
Gambar 4.25 Parameter Performance....................................................... 82
Gambar 4.26 Susunan Operator Decision Tree, Apply Model, Performance
................................................................................................................... 82
Gambar 4.27 Susunan Operator Retrieve dengan Operator Validation .... 83
Gambar 4.28 Tampilan Decision Tree ........................................................ 83
Gambar 6.1 Frequent Item Set tanpa Apriori .......................................... 106
Gambar 6.2 Frequent Item Set dengan Apriori ........................................ 106
vii | P e n g a n t a r
Gambar 6.3 Tabel Penjualan Sederhana .................................................. 108
Gambar 6.4 Repositori ............................................................................. 108
Gambar 6.5 Database dalam Main Process ............................................. 109
Gambar 6.6 Operator Create Association Rules ...................................... 109
Gambar 6.7 Operator FP-Growth ............................................................ 110
Gambar 6.8 Operator Numerical to Binominal ........................................ 110
Gambar 6.9 Pencarian Operator Numerical to Binominal ....................... 111
Gambar 6.10 Pencarian Association Rules ............................................... 112
Gambar 6.11 Menghubungan Database TransaksiMakanan pada Operator
Numerical to Binomial ............................................................................. 112
Gambar 6.12 Parameter Numerical to Binomial ...................................... 113
Gambar 6.13 Menghubungkan Operator Numerical to Binomial dengan
Operator FP-Growth ................................................................................ 114
Gambar 6.14 Parameter FP-Growth ........................................................ 115
Gambar 6.15 Menghubungkan Operator FP-Growth dengan Operator
Create Association Rules .......................................................................... 115
Gambar 6.16 Parameter Association Rules .............................................. 116
Gambar 6.17 Susunan Operator Association Rules ................................. 117
Gambar 6.18 Hasil Association Rules Pertama ........................................ 117
Gambar 6.19 Operator FP-Growth .......................................................... 118
Gambar 6.20 Mengubah Parameter FP-Growth ...................................... 119
Gambar 6.21 Operator Create Association Rules .................................... 119
Gambar 6.22 Mengubah Parameter Association Rules ........................... 120
Gambar 6.23 Hasil Association Rules Kedua ............................................ 120
Gambar 6.24 Hasil dalam bentuk Graph View ......................................... 121
viii | P e n g a n t a r
Daftar
Tabel
Tabel 1.1 Perbedaan Kecerdasan Buatan dan Komputasi Konvensional ..... 7
Tabel 4.1 Keputusan Bermain Tenis ........................................................... 52
Tabel 4.2 Perhitungan Simpul 1 ................................................................. 53
Tabel 6.1 Tabel Transaksi ......................................................................... 102
Tabel 6.2 Kombinasi Produk dan Nilai Support ........................................ 103
Tabel 6.3 Association Rules dan Nilai Confidence .................................... 104
Bagian Satu
Pendahuluan
2|Kecerdasan Buatan
Chapter 1
Kecerdasan
Buatan
Definisi Kecerdasan Buatan
Manusia memiliki kecerdasan, manusia memiliki
kemampuan untuk menganalisa suatu masalah dengan
menggunakan pengetahuan dalam otaknya dan
pengalaman yang pernah dilaluinya. Pengetahuan
datang ketika manusia belajar, maka dari itu
pembelajaran merupakan faktor penting bagi manusia
untuk mencapai sebuah kecerdasan. Namun
pengetahuan tidak akan cukup untuk menyelesaikan
masalah jika tidak memiliki pengalaman, karena
pengalaman akan selalu membawa pengetahuan baru.
Tetapi akan sia sia, jika seseorang yang memiliki banyak
pengalaman tetapi tidak memiliki akal untuk menalar
3|Kecerdasan Buatan
semua pengetahuan dan pengalaman yang ia miliki.
Kombinasi dari pengetahuan, pengalaman, dan
kemampuan menalar inilah yang membuat manusia
menjadi cerdas dan dapat menyelesaikan permasalahan
yang ia hadapi.
Berdasarkan konsep diataslah kecerdasan
buatan dibuat. Agar mesin dapat bertindak seperti
seorang manusia, maka mesin tersebut harus memiliki
sejumlah pengetahuan dan pengalaman serta
kemampuan menalar yang dapat mengubah
pengetahuan dan pengalaman tersebut menjadi sebuah
keputusan dalam menyelesaikan sebuah permasalahan.
Komputer awalnya diciptakan hanya untuk
melakukan sebuah perhitungan saja. Jaman terus
berkembang
hingga akhirnya
komputer
kini
diberdayakan manusia untuk membantu pekerjaannya
dalam kesehariannya. Maka dari itu komputer
diharapkan memiliki kemampuan yang hampir sama
dengan manusia agar dapat mengerjakan segala
sesuatu yang bisa dikerjakan oleh manusia
Kecerdasan Buatan.
4|Kecerdasan Buatan
output
Basis
Pengetahuan
Motor
Interferensi
jawaban
solusi
pertanyaan
5|Kecerdasan Buatan
6|Kecerdasan Buatan
2. Pengolahan Basa Alami. dengan pengolahan
bahasa alami ini diharapkan user dapat
berkomunikasi dengan komputer dengan
menggunakan bahasa sehari-hari.
3. Pengenalan Ucapan. Melalui pengenalan ucapan
diharapkan manusia dapat berkomunikasi
dengan komputer dengan menggunakan suara.
4. Robotika dan Sistem Sensor
5. Computer Vision. Mencoba untuk dapat
menginterpretasikan gambar atau objek-objek
tampak melalui komputer.
6. Intelligent
Computer-aided
Instruction.
Komputer dapat digunakan sebagai tutor yang
dapat melatih dan mengajar.
7. Game Playing.
Perbedaan Komputasi
Kecerdasan Buatan dan
Komputasi Konvensional
Komputasi Konvensional merupakan Komputer
yang hanya digunakan untuk alat hitung. Sangatlah
berbeda, kerja dan konsep dari kedua komputasi ini.
Agar dapat memberikan gambaran, table berikut adalah
7|Kecerdasan Buatan
detail dari perbedaan komputasi kecerdasan buatan
dan komputasi konvensional.
Tabel 1.1 Perbedaan Kecerdasan Buatan dan Komputasi Konvensional
Dimensi
Pemrosesan
Sifat Input
Pencarian
Keterangan
Fokus
Struktur
Kemampuan
menalar
Komputasi Kecerdasan
Buatan
Mengandung konsepkonsep simbolik
Bisa tidak lengkap
Kebanyakan bersifat
heuristic
Disediakan
Pengetahuan
Kontrol dipisahkan dari
pengetahuan
Ya
Komputasi
Konvensional
Algoritmik
Harus lengkap
Biasanya didasarkan
pada algoritma
Biasanya tidak
disediakan
Data dan Informasi
Kontrol terintegrasi
dengan informasi
Tidak
8|RapidMiner
Chapter 2
RapidMiner
9|RapidMiner
sebagai mesin data mining yang dapat diintegrasikan
pada produknya sendiri. RapidMiner ditulis dengan
munggunakan bahasa java sehingga dapat bekerja di
semua sistem operasi.
RapidMiner sebelumnya bernama YALE (Yet
Another Learning Environment), dimana versi awalnya
mulai dikembangkan pada tahun 2001 oleh
RalfKlinkenberg, Ingo Mierswa, dan Simon Fischer di
Artificial Intelligence Unit dari University of Dortmund.
RapidMiner didistribusikan di bawah lisensi AGPL (GNU
Affero General Public License) versi 3. Hingga saat ini
telah ribuan aplikasi yang dikembangkan mengunakan
RapidMiner di lebih dari 40 negara. RapidMiner sebagai
software open source untuk data mining tidak perlu
diragukan lagi karena software ini sudah terkemuka di
dunia. RapidMiner menempati peringkat pertama
sebagai Software data mining pada polling oleh
KDnuggets, sebuah portal data-mining pada 2010-2011.
RapidMiner menyediakan GUI (Graphic User
Interface) untuk merancang sebuah pipeline analitis.
GUI ini akan menghasilkan file XML )Extensible Markup
Language) yang mendefenisikan proses analitis
keingginan pengguna untuk diterpkan ke data. File ini
kemudian dibaca oleh RapidMiner untuk menjalankan
analis secara otomatis.
10 | R a p i d M i n e r
11 | R a p i d M i n e r
Instalasi Software
System Requirement
Sebelum
melakukan
instalasi
software
RapidMiner, terdapat beberapa spesifikasi minimal
yang yang harus dimiliki komputer pengguna.
Spesifikasi minimal bergantung pada komputer dan
sistem operasi yang akan diinstal. Berikut ini beberapa
spesifikasi minimal yang dibutuhkan software
RapidMiner:
1. Sistem Operasi
RapidMiner
merupakan
software
yang
multiplatform, sehingga software ini dapat
dijalankan pada berbagai sistem operasi. Berikut ini
beberapa jenis sistem operasi yang dapat diinstal
RapidMiner:
12 | R a p i d M i n e r
13 | R a p i d M i n e r
Instalasi RapidMiner
Seperti yang yang telah dikemukakan
sebelumnya bahwa RapidMiner merupakan software
gratis yang bersifat terbuka (open source). Software ini
dapat dijalankan pada sistem operai Windows, Linux,
maupun Mac. RapidMiner dapat diunduh pada situs
resminya, yaitu www.rapid-i.com. Pada bagian ini, akan
dijelaskan bagaimana cara melakukan instalasi software
RapidMiner versi 5.3 pada sistem operasi Microsoft
Windows.
Untuk memulai instalasi software RapidMiner
pada sistem operasi Microsoft Windows, jalankan file
installer RapidMiner-5.3.000x32-install.exe, sehingga
akan muncul tampilan wizard seperti pada Gambar 2.
14 | R a p i d M i n e r
15 | R a p i d M i n e r
Pilih I Agree untuk melanjutkan. Kemudian, wizard akan
menampilkan form seperti pada gambar 2.4.
16 | R a p i d M i n e r
Setelah proses selesai, pilih Next > untuk melanjutkan,
maka wizard akan menampilkan informasi bahwa
proses instalasi telah selesai dilakukan, seperti yang
ditunjukkan pada Gambar 2.6.
Pengenalan Interface
RapidMiner menyediakan tampilan yang user
friendly untuk memudahkan penggunanya ketika
menjalankan aplikasi. Tampilan pada RapidMiner
dikenal dengan istilah Perspective. Pada RapidMiner
terdapat 3 Perspective, yaitu; Welcome Perspective,
Design Perspective dan Result Perspective.
17 | R a p i d M i n e r
Welcome Perspective
Ketika membuka aplikasi Anda akan disambut
dengan tampilan yang disebut dengan Welcome
Perspective, seperti yang ditunjukkan pada Gambar 6.
Pada bagian toolbar, terdapat toolbar Perspectives
yang terdiri dari ikon-ikon untuk menampilkan
perspective dari RapidMiner. Toolbar ini dapat
dikonfigurasikan sesuai dengan kebutuhan Anda.
Sedangkan Views menunjukkan pandangan (view) yang
sedang Anda tampilkan.
18 | R a p i d M i n e r
Processes), bagian ini menampilkan daftar proses
analisis yang baru saja dilakukan. Hal ini akan
memudahkan Anda jika ingin melanjutkan proses
sebelumnya yang sudah ditutup, dengan mengklik dua
kali salah satu proses yang ada pada daftar tersebut.
Bagian Actions menunjukkan daftar aksi yang dapat
Anda lakukan setelah membuka RapidMine. Berikut ini
rincian lengkap daftar aksi tersebut:
1. New : Aksi ini berguna ntuk memulai proses analis
baru. Untuk memulai proses analisis, pertama-tama
Anda harus menentukan nama dan lokasi proses
dan Data Repository. Setelah itu, Anda bisa mulai
merancang sebuah analisis baru.
2. Open Recent Process : Aksi ini berguna untuk
membuka proses yang baru saja ditutup. Selain aksi
ini, Anda juga bisa membuka proses yang baru
ditutup dengan mengklik dua kali salah satu daftar
yang ada pada Recent Process. Kemudian tampilan
Welcome Perspective akan otomotasi beralih ke
Design Perspective.
3. Open Process : Aksi ini untuk membuka Repository
Browser yang berisi daftar proses. Anda juga bisa
memilih proses untuk dibuka pada Design
Perspective.
4. Open Template : Aksi ini menunjukkan pilihan lain
yang sudah ditentukan oleh proses analisis.
19 | R a p i d M i n e r
5. Online Tutorial : Aksi digunakan untuk memulai
tutorial secara online (terhubung internet). Tutorial
yang dapat secara langsung digunakan dengan
RapidMiner ini, memberikan perkanalan dan
beberapa konsep data mining. Hal ini
direkomendasikan untuk Anda yang sudah memiliki
pengetahuan dasar mengenai data mining dan
sudah akrab dengan operasi dasar RapidMiner.
RapidMiner dapat menampilkan beberapa view
pada saat bersamaan. Seperti yang ditunjukkan pada
Gambar 7, pada tampilan Welcome Perspective tedapat
Welcome view dan Log View. Ukuran dari setiap view
tersebut dapat diubah sesuai dengan kebutuhan Anda
dengan Mengklik dan menarik garis batas diantara
keduanya ke atas atau ke bawah.
20 | R a p i d M i n e r
Design Perspective
Design Perspective merupakan lingkungan kerja
RapidMiner. Dimana Design Perspective ini merupakan
perspective utama dari RapidMiner yang digunakan
sebagai area kerja untuk membuat dan mengelola
21 | R a p i d M i n e r
proses analisis. Seperti yang ditunjukkan pada Gambar
2.10, perspective ini memiliki beberapa view dengan
fungsinya masing-masing yang dapat mendukung Anda
dalam melakukan proses analisis data mining. Anda bisa
mengganti perspective dengan mengklik salah satu ikon
dari tollbar perspective yang sebelumnya telah
dijelaskan. Selain dengan cara tersebut, Anda juga bisa
mengganti perspective dengan mengklik menu view,
kemudian pilih perspective, lalu pilih perspective yang
ingin Anda tampilkan.
22 | R a p i d M i n e r
Operator View merupakan view yang paling
penting pada perspective ini. Semua operator atau
langkah kerja dari RapidMiner disajikan dalam bentuk
kelompok hierarki di Operator View ini sehingga
operator-operator tersebut dapat digunakan pada
proses analisis, seperti yang ditunjukkan pada Gambar
2.10. Hal ini akan memudahkan Anda dalam mencari
dan menggunakan operator yang sesuai dengan
kebutuhan Anda. Pada Operator View ini terdapat
beberapa kelompok operator sebagai berikut:
Process Control : Operator ini terdiri dari
operator perulangan dan percabangan yang
dapat mengatur aliran proses.
Utility : Operator bantuan, seperti operator
macros, loggin, subproses, dan lain-lain.
Repository Access : Kelompok ini terdiri dari
operator-operator yang dapat digunakan untuk
membaca atau menulis akses pada repository.
Import : Kelompok ini terdiri dari banyak
operator yang dapat digunakan untuk membaca
data dan objek dari format tertentu seperti file,
database, dan lain-lain.
Export : Kelompok ini terdiri dari banyak
operator yang dapat digunakan untuk menulis
data dan objek menjadi format tertentu.
23 | R a p i d M i n e r
Data Transformation : kelompok ini terdiri dari
semua operator yang berguna untuk
transformasi data dan meta data.
Modeling : kolompok ini berisi proses data
mining untuk menerapkan model yang
dihasilkan menjadi set data yang baru.
Evaluation : kelompok ini berisi operator yang
dapat digunakan untuk menghitung kualitas
pemodelan dan untuk data baru.
2. Repository View
Repository View merupakan komponen utama
dalam Design Perspective selain Operator View. View
ini dapat Anda gunakan untuk mengelola dan menata
proses Analisis Anda menjadi proyek dan pada saat
24 | R a p i d M i n e r
yang sama juga dapat digunakan sebagai sumber data
dan yang berkaitan dengan meta data.
3. Process View
Process View menunjukkan langkah-langkah
tertentu dalam proses analisis dan sebagai penghubung
langkah-langkah tersebut. Anda dapat menambahkan
langkah baru dengan beberapa cara. hubungan diantara
langkah-langkah ini dapat dibuat dan dilepas kembali.
Pada dasarnya bekerja dengan RapidMiner ialah
mendefinisikan proses analisis, yaitu dengan
menunjukkan serangkaian langkah kerja tertentu.
Dalam RapidMiner, komponen proses ini dinamakan
sebagai operator. Operator pada RapidMiner
didefinisikan sebagai beikut:
Deskripsi dari input yang diharapkan.
Deskripsi dari output yang disediakan.
Tindakan yang dilakukan oleh operator pada
input, yang akhirnya mengarah dengan
penyediaan output.
Sejumlah parameter yang dapat mengontrol
action performed.
4. Parameter View
Beberapa
operator
dalam
RapidMiner
membutuhkan satu atau lebih parameter agar dapat
diindikasikan sebagai fungsionalitas yang benar. Namun
25 | R a p i d M i n e r
terkadang parameter tidak mutlak dibutuhkan,
meskipun eksekusi operator dapat dikendalikan dengan
menunjukkan nilai parameter tertentu. Parameter view
memiliki toolbar sendiri sama seperti view-view yang
lain. Pada Gambar 2.12, Anda dapat melihat bahwa
pada Parameter View ini terdapat beberapa ikon dan
nama-nama operator terkini yang dikuti dengan aktual
parameter.
26 | R a p i d M i n e r
Poin pentingnya ialah beberapa parameter hanya
ditunjukkan ketika parameter lain memiliki nilai
tertentu.
5. Help & Comment View
Setiap kali Anda memilih operator pada Operator
View atau Process View, maka jendela bantuan dalam
Help View akan menunjukkan penjelasan mengenai
operator ini. Penjelasn yang ditampilkan dalam Help
View meliputi:
Sebuah penjelasan singkat mengenai fungsi
operator dalam satu atau beberapa kalimat.
Sebuah penjelasan rinci mengenai fungsi
operator.
Daftar semua parameter termasuk deskripsi
singkat dari parameter, nilai default (jika
tersedia), petunjuk apakah parameter ini adalah
parameter ahli serta indikasi parameter
dependensi.
Sedangkan Comment View merupakan area bagi
Anda untuk menuliskan komentar pada langkahlangkah proses tertentu. Untuk membuat komentar,
Anda hanya perlu memilih operator dan menulis teks di
atasnya dalam bidang komentar. Kemudian komentar
tersebut disimpan bersama-sama dengan definisi
proses Anda. Komentar ini dapat berguna untuk
27 | R a p i d M i n e r
melacak langkah-langkah tertentu dalam rancangan
nantinya.
6. Problem & Log View
Problem View merupakan komponen yang sangat
berharga dan merupkan sumber bantuan bagi Anda
selama merancang proses analisis. Setiap peringatan
dan pesan kesalahan jelas ditunjukkan dalam Problem
View, seperti yang ditunjukkan pada Gambar 2.13.
28 | R a p i d M i n e r
29 | R a p i d M i n e r
Untuk mengambil Sample Data Repository, buka hirarki
Samples, masuk ke folder Data. Sehingga seperti
gambar berikut.
30 | R a p i d M i n e r
31 | R a p i d M i n e r
Import Repository
Dibanyak kesempatan lain, kita akan selalu
menggunakan database yang kita miliki. RapidMiner
menyediakan
layanan
agar
pengguna dapat
mengimport database miliknya. Namun, tidak seperti
kebanyakan tools Data Mining Lain, RapidMiner
memiliki kelebihan tersendiri yakni dapat langsung
melakukan import file dengan ekstensi .xls atau .xlsx,
yakni file dari Microsoft Excel, Program yang relatif
sering digunakan oleh pengguna. Berikut adalah cara
untuk melakukan import file Microsoft Excel.
Lihat pada bagian Repository. Klik pada ikon import
seperti gambar 2.18. Seperti yang dapat kita lihat, ada
beberapa ekstensi file yang dapat kita masukkan
kedalam repository kita. CSV File, Excel Sheen File,
Access Database Table File, Database Table, Binary File.
Namun pada Dasarnya cara melakukan import pada
semua file ini sama. Sebagai contoh, pilih Import Excel
Sheet.
32 | R a p i d M i n e r
33 | R a p i d M i n e r
Cari file excel kalian dengan klik pada bagian Look in
. Setelah menemukan file
yang dibutuhkan lalu Klik tombol Next
.
Berikutnya pada Step 2 ialah, pilih Sheet yang akan
dimasukkan. Pada dasarnya, Repository RapidMiner
hanya menyediakan 1 repositori untuk 1 buah table.
34 | R a p i d M i n e r
35 | R a p i d M i n e r
36 | R a p i d M i n e r
Hasil Import Repository akan terlihat pada bagian
Repository seperti dalam gambar 2.25.
37 | R a p i d M i n e r
38
Bagian Dua
Data Mining
39 | D a t a M i n i n g
Chapter 3
Data Mining
40 | D a t a M i n i n g
Jawabannya adalah 2. Kebetulan? Sebagai
seorang analis, pasti jawabannya adalah tidak.
Bagaimana dengan kejadian acak lainnya,
seperti le par koi . Te tu jika te a u e e ak
secara langsung dan hasil dari kejadian tersebut
ternyata tepat seperti yang temanmu tebak, kau pasti
akan mengatakan bahwa itu merupakan kebetulan.
Kita ambil satu contoh sederhana lagi. Terdapat
kejadian seperti: Seseorang menjatuhkan sebuah gelas
dari ketinggian tertentu. Detik pertama orang tersebut
menjatuhkan gelasnya, kau pasti akan mengatakan
dengan pasti bahwa gelas tersebut akan pecah, padahal
hukum fisika belum menunjukkan proses penghancuran
gelas tersebut ketika bersentuhan dengan tanah. Dan
lagi, tebakanmu itu dikatakan bukanlah kebetulan. Jadi
secara logika, bagaimana kau tahu dengan sangat tepat
hasil dari kejadian tersebut? Bukankah kondisinya sama
seperti kejadia le par koi se elu ya?
Jadi apakah yang kita lakukan dalam otak kita?
Kita mempertimbangkan karakteristik-karakteristik dari
kejadian ini. Pada kasus gelas yang jatuh, kita dengan
cepat mengetahui karakteristik penting dari
serangkaian kejadian tersebut, bahan gelas, ketinggian,
tipe pijakan, dan lain-lain. Kemudian kita menjawab
dengan cepat berdasarkan analogi, contohnya kita kita
41 | D a t a M i n i n g
membuat perbandingan dengan kejadian gelas atau
cangkir atau piring yang jatuh sebelumnya. Berarti dua
hal yang diperlukan adalah: pertama, kita
membutuhkan data dari kejadian-kejadian sebelumnya,
dan kedua, seberapa mirip kejadian yang di tempat
dengan kejadian sebelumnya. Kita bisa membuat
estimasi atau prediksi dengan mencari kejadian yang
paling mirip dengan kejadian di tempat. Karena kita
lebih sering melihat bahwa benda berbahan kaca
dijatuhkan akan pecah, maka secara otomatis inilah
yang menjadi prediksi kita.
Bagaimanapun, prosedur diatas tidak cocok
u tuk kejadia le par koi . I i dise a ka terdapat
lebih banyak faktor yang harus dipertimbangkan, ada
yang sulit dan ada yang tidak bisa diukur. Belum lagi
kita harus dapat memikirkan proses kejadian menuju
hasil dengan baik, memikirkan analogi yang paling
cocok dengan kejadian untuk melakukan prediksi.
Dita ah le par koi
e iliki ko disi ya g dapat
berubah-ubah tiap kejadiannya dan berlangsung cepat,
ini berarti perhitungan juga harus dilakukan secara
cepat. Mustahil untuk seorang manusia? Benar. Tetapi
tidak mustahil untuk metode data mining.
Data Mining adalah serangkaian proses untuk
menggali nlai tambah dari suatu kumpulan data
42 | D a t a M i n i n g
berupa pengetahuan yang selama ini tidak
diketahui secara manual. (Pramudiono, 2006)
Data Mining adalah analisis otomatis dari data
yang berjumlah besar atau kompleks dengan
tujuan untuk menemukan pola atau
kecenderungan yang penting yang biasanya
tidak disadari keberadaanya. (Pramudiono,
2006)
Data Mining merupakan analisis dari
peninjauan kumpulan data untuk menemukan
hubungan yang tidak diduga dan meringkas
data dengan cara yang berbeda dengan cara
yang berbeda dengan sebelumnya, yang dapat
dipahami dan bermanfaat bagi pemilik data.
(Larose, 2005)
Data Mining merupakan bidang dari beberapa
bidang keilmuan yang menyatukan teknik dari
pembelajaran mesin, pengenalan pola, statistic,
database, dan visualisasi untuk penanganan
permasalahan pengambilan informasi dari
database yang besar. (Larose, 2005)
43 | D a t a M i n i n g
tersembunyi dari kumpulan data yang sangat besar.
Karena itu Data Mining sebenarnya memiliki akar yang
panjang dari bidang ilmu seperti kecerdasan buatan
(artificial intelligent), machine learning, statistik dan
basis Data.
Classification
Suatu teknik dengan melihat pada kelakuan dan atribut
dari kelompok yang telah didefinisikan. Teknik ini dapat
memberikan klasifikasi pada data baru dengan
memanipulasi data yang ada yang telah diklasifikasi dan
dengan menggunakan hasilnya untuk memberikan
sejumlah aturan. Salah satu contoh yang mudah dan
popular adalah dengan Decision tree yaitu salah satu
metode klasifikasi yang paling populer karena mudah
untuk diinterpretasi. Decision tree adalah model
prediksi menggunakan struktur pohon atau struktur
berhirarki.
44 | D a t a M i n i n g
Association
Digunakan untuk mengenali kelakuan dari kejadiankejadian khusus atau proses dimana hubungan asosiasi
muncul pada setiap kejadian. Salah satu contohnya
adalah Market Basket Analysis, yaitu salah sati metode
asosiasi yang menganalisa kemungkinan pelanggan
untuk membeli beberapa item secara bersamaan.
Clustering
Digunakan untuk menganalisis pengelompokkan
berbeda terhadap data, mirip dengan klasifikasi, namun
pengelompokkan
belum
didefinisikan
sebelum
dijalankannya tool data mining. Biasanya menggunkan
metode neural network atau statistik. Clustering
membagi
item
menjadi
kelompok-kelompok
berdasarkan yang ditemukan tool data mining.
45 | D e c i s i o n T r e e
Chapter 4
Decision Tree
46 | D e c i s i o n T r e e
Seiring dengan perkembangan kemajuan pola
pikir manusia, manusia mulai mengembangkan sebuah
sistem yang dapat membantu manusia dalam
menghadapi masalah-masalah yang timbul sehingga
dapat menyelesaikannya dengan mudah.
Pohon keputusan atau yang lebih dikenal
dengan istilah Decision Tree ini merupakan
implementasi dari sebuah sistem yang manusia
kembangkan dalam mencari dan membuat keputusan
untuk
masalah-masalah
tersebutdengan
memperhitungkan berbagai macam faktor yang
berkaitan di dalam lingkup masalah tersebut.
Dengan pohon keputusan, manusia dapat
dengan mudah mengidentifikasi dan melihat hubungan
antara faktor-faktor yang mempengaruhi suatu masalah
sehingga dengan memperhitungkan faktor-faktor
tersebut dapat dihasilkan penyelesaian terbaik untuk
masalah tersebut. Pohon keputusan ini juga dapat
menganalisa nilai resiko dan nilai suatu informasi yang
terdapat dalam suatu alternatif pemecahan masalah.
Pohon keputusan dalam analisis pemecahan
masalah pengambilan keputusan merupakan pemetaan
alternatif-alternatif pemecahan masalah yang dapat
diambil dari masalah tersebut. Pohon keputusan juga
memperlihatkan faktor-faktor kemungkinan yang dapat
47 | D e c i s i o n T r e e
mempengaruhi
alternative-alternatif
keputusan
tersebut, disertai dengan estimasi hasil akhir yang akan
didapat bila kita mengambil alternatif keputusan
tersebut.
Secara umum, pohon keputusan adalah suatu
gambaran permodelan dari suatu persoalan yang terdiri
dari serangkaian keputusan yang mengarah kepada
solusi yang dihasilkan. Peranan pohon keputusan
sebagai alat bantu dalam mengambil keputusan telah
dikembangkan oleh manusia sejak perkembangan teori
pohon yang dilandaskan pada teori graf. Seiring dengan
perkembangannya, pohon keputusan kini telah banyak
dimanfaatkan oleh manusia dalam berbagai macam
sistem pengambilan keputusan.
Decision tree adalah struktur flowchart yang
menyerupai tree (pohon), dimana setiap simpul internal
menandakan suatu tes pada atribut, setiap cabang
merepresentasikan hasil tes, dan simpul daun
merepresentasikan kelas atau distribusi kelas. Alur pada
decision tree di telusuri dari simpul akar ke simpul daun
yang memegang prediksi. (Han, J., & Kamber, M.
(2006). Data Mining Concept and Tehniques. San
Fransisco: Morgan Kauffman.)
48 | D e c i s i o n T r e e
Algoritma c4.5
Pohon keputusan merupakan metode yang
umum digunakan untuk melakukan klasifikasi pada data
mining. Seperti yang telah dijelaskan sebelumnya,
klasifikasi merupakan Suatu teknik menemukan
kumpulan pola atau fungsi yang mendeskripsikan serta
memisahkan kelas data yang satu dengan yang lainnya
untuk menyatakan objek tersebut masuk pada kategori
tertentu dengan melihat pada kelakuan dan atribut dari
kelompok yang telah didefinisikan.
49 | D e c i s i o n T r e e
Metode ini popular karena mampu melakukan
klasifikasi sekaligus menunjukkan hubungan antar
atribut. Banyak algoritma yang dapat digunakan untuk
membangun suatu decision tree, salah satunya ialah
algoritma C45.
Algoritma C4.5 dapat menangani data numerik
dan diskret. Algoritma C.45 menggunakan rasio
perolehan (gain ratio). Sebelum menghitung rasio
perolehan, perlu dilakukan perhitungan nilai informasi
dalam satuan bits dari suatu kumpulan objek, yaitu
dengan menggunakan konsep entropi.
Konsep Entropy
Entropy(S) merupakan jumlah bit yang
diperkirakan dibutuhkan untuk dapat mengekstrak
suatu kelas (+ atau -) dari sejumlah data acak pada
ruang sampel S. Entropy dapat dikatakan sebagai
kebutuhan bit untuk menyatakan suatu kelas. semakin
kecil nilai Entropy maka akan semakin Entropy
digunakan dalam mengekstrak suatu kelas. Entropi
digunakan untuk mengukur ketidakaslian S.
50 | D e c i s i o n T r e e
Dimana:
S : ruang (data) sampel yang digunakan untuk
pelatihan
51 | D e c i s i o n T r e e
Konsep Gain
Gain (S,A) merupakan Perolehan informasi dari
atribut A relative terhadap output data S. Perolehan
informasi didapat dari output data atau variabel
dependent S yang dikelompokkan berdasarkan atribut
A, dinotasikan dengan gain (S,A).
| |
| |
Dimana:
A : Atribut
S : Sampel
n : Jumlah partisis himpunan atribut A
|Si| : Jumlah sampel pada pertisi ke i
|S| : Jumlah sampel dalam S
52 | D e c i s i o n T r e e
Untuk memudahkan penjelasan mengenai
algoritma C4.5berikut ini disertakan contoh kasus yang
dituangkan dalam Tabel 4.1:
Tabel 4.1 Keputusan Bermain Tenis
No
OUTLOOK
TEMPERATURE
HUMIDITY
WINDY
PLAY
Sunny
Hot
High
FALSE
No
Sunny
Hot
High
TRUE
No
Cloudy
Hot
High
FALSE
Yes
Rainy
Mild
High
FALSE
Yes
Rainy
Cool
Normal
FALSE
Yes
Rainy
Cool
Normal
TRUE
Yes
Cloudy
Cool
Normal
TRUE
Yes
Sunny
Mild
High
FALSE
No
Sunny
Cool
Normal
FALSE
Yes
10
Rainy
Mild
Normal
FALSE
Yes
11
Sunny
Mild
Normal
TRUE
Yes
12
Cloudy
Mild
High
TRUE
Yes
13
Cloudy
Hot
Normal
FALSE
Yes
14
Rainy
Mild
High
TRUE
No
53 | D e c i s i o n T r e e
1. Pilih atribut sebagai akar. Sebuah akar didapat dari
nilai gain tertinggi dari atribut-atribut yang ada.
2. Buat cabang untuk masing-masing nilai
3. Bagi kasus dalam cabang
4. Ulangi proses untuk masing-masing cabang sampai
semua kasus pada cabang memiliki kelas yang sama.
Tabel 4.2 Perhitungan Simpul 1
NODE
1
TOTAL
JUMLAH
KASUS
NO
(S1)
14
YES
(S2)
10
ENTROPY
GAIN
0.863120569
OUTLOOK
0.258521037
CLOUDY
RAINY
0.721928095
SUNNY
0.970950594
TEMPERATURE
0.183850925
COOL
HOT
MILD
0.918295834
HUMIDITY
0.370506501
HIGH
0.985228136
NORMAL
WINDY
0.005977711
FALSE
0.811278124
TRUE
0.918295834
54 | D e c i s i o n T r e e
55 | D e c i s i o n T r e e
56 | D e c i s i o n T r e e
57 | D e c i s i o n T r e e
membuat decision tree secara manual yaitu dengan
melakukan perhitungan menggunakan algoritma C4.5
yang telah dijelaskan sebelumnya.
Contoh Kasus:
Keputusan Bermain Tenis
Pada contoh kali ini, kita akan membuat
keputusan bermain tenis atau tidak. Untuk
memudahkan dalam menggunakan RapidMiner untuk
membuat decision tree, kita gunakan data sederhana
yang ada pada sub bab decision tree. Pertama-tama
data pada tabel 2 dibuat lagi dalam format excel seperti
yang terlihat pada Gambar 4.3.
58 | D e c i s i o n T r e e
Setelah data yang kita punya dibuat dalam
bentuk tabel format xls, selanjutnya lakukan Importing
Data kedalam Repositori, seperti yang sudah dijelaskan
pada Bab 2. Lalu cari table Microsoft Excel yang telah
dibuat dan masukan kedalam Local Repository seperti
yang terlihat pada Gambar 4.4.
59 | D e c i s i o n T r e e
60 | D e c i s i o n T r e e
Setelah menemukan operator Decision Tree,
seret (drag) operator tersebut lalu letakkan (drop) ke
dalam view Process. Kemudian susun posisinya
disamping operator Retrieve, seperti yang tampak pada
Gambar 4.7.
61 | D e c i s i o n T r e e
62 | D e c i s i o n T r e e
63 | D e c i s i o n T r e e
64 | D e c i s i o n T r e e
65 | D e c i s i o n T r e e
66 | D e c i s i o n T r e e
67 | D e c i s i o n T r e e
view dengan mengklik button Text View seperti yang
tampak pada Gambar 4.13.
Contoh Kasus :
Keputusan seseorang mempunyai
potensi menderita hipertensi
Sebelumnya kita telah mengetahui bagaimana
membuat pohon keputusan untuk menentukan
bermain tenis dengan menggunakan operator decision
tree. Pada pembahasan kali ini kita akan membuat
pohon keputusan untuk menentukan apakah seseorang
berpotensi sakit hipertensi atau tidak. Untuk
menambah pengeatahuan kita mengenai kegunaan
operator yang ada pada RapidMiner, oleh karena itu
untuk membuat pohon keputusan kali ini kita
68 | D e c i s i o n T r e e
menggunakan operator X-Validation, Apply Model dan
Performance. Selain itu, kita juga tetap menggunakan
operator decision tree dalam pembuatan pohon
keputusan kali ini.
Cara yang digunakan dalam membuat pohon
keputusan untuk menentukan apakah seseorang
berpotensi sakit hipertensi, tidak jauh berbeda dengan
cara membuat pohon keputusan yang sebelumnya,
yaitu pertama-tama import data ke dalam repository
RapidMiner, lalu lakukan drag dan drop data tersebut
pada view process untuk mengubah data yang berisi
atribut pohon keputusan menjadi operator retrieve.
setelah itu, lakukan drag dan drop operator decision
tree ke dalam view process dengan cara yang sama
seperti penjelasan sebelumnya.
69 | D e c i s i o n T r e e
70 | D e c i s i o n T r e e
71 | D e c i s i o n T r e e
independen dari data pengujian, umumnya model
tersebut tidak cocok dengan data percobaan maupun
data pengujian. Hal ini disebut dengan istilah 'over-pas',
dan sangat mungkin terjadi ketika ukuran set data
training kecil, atau ketika jumlah parameter dalam
model besar. Sehingga validasi silang merupakan cara
untuk memprediksi kesesuaian model untuk satu set
pengujian hipotesis ketika set pengujian eksplisit tidak
tersedia.
Untuk menemukan operator X-Validation, pilih
Evaluation pada View Operator, lalu pilih Validation,
lalu pilih X-Validation .Setelah menemukan operator XValidation, seret (drag) operator tersebut lalu letakkan
(drop) ke dalam view Process.
72 | D e c i s i o n T r e e
73 | D e c i s i o n T r e e
digunakan selama subproses pengujian untuk menguji
model.
Selain itu, operator ini juga memiliki port output
sebagai berikut:
model (mod), Pelatihan subprocess harus
mengembalikan sebuah model yang dilatih pada
input ExampleSet. Harap dicatat bahwa model yang
dibangun ExampleSet disampaikan melalui port ini.
training example set (tra), The ExampleSet yang
diberikan sebagai masukan pada port input
pelatihan dilewatkan tanpa mengubah ke output
melalui port ini. Port ini biasa digunakan untuk
menggunakan kembali ExampleSet sama di
operator lebih lanjut atau untuk melihat
ExampleSet dalam Workspace Result.
averagable (ave), subproses pengujian harus
mengembalikan Vector Kinerja. Hal ini biasanya
dihasilkan dengan menerapkan model dan
mengukur kinerjanya. Dua port tersebut diberikan
tetapi hanya dapat digunakan jika diperlukan. Harap
dicatat bahwa kinerja statistik dihitung dengan
skema estimasi hanya perkiraan (bukan perhitungan
yang tepat) dari kinerja yang akan dicapai dengan
model yang dibangun pada set data yang
disampaikan secara lengkap.
74 | D e c i s i o n T r e e
75 | D e c i s i o n T r e e
76 | D e c i s i o n T r e e
77 | D e c i s i o n T r e e
biasanya untuk prediksi. Semua parameter yang
diperlukan disimpan dalam objek model. Ini adalah
wajib bahwa kedua ExampleSets harus persis nomor
yang sama, order, jenis dan peran atribut. Jika sifat
meta data dari ExampleSets tidak konsisten, hal itu
dapat menyebabkan kesalahan serius.
Untuk menemukan operator Apply Model, pilih
Modeling pada View Operator, lalu pilih Model
Application, lalu pilih Confidence dan pilih Apply Model
.Setelah menemukan operator Apply Model, seret
(drag) operator tersebut lalu letakkan (drop) ke dalam
view Process.
78 | D e c i s i o n T r e e
Operator ini memiliki port input yaitu, model
(mod) port ini mengharapkan model. Port ini harus
memastikan bahwa nomor, order, jenis dan peran
atribut dari ExampleSet pada model yang dilatih
konsisten dengan ExampleSet pada port input data
unlabeled. unlabelled data (unl) port ini mengharapkan
suatu ExampleSet. Ini harus memastikan bahwa nomor,
order, jenis dan peran atribut ExampleSet ini konsisten
dengan ExampleSet pada model yang dikirim ke port
input model dilatih.
Operator ini juga memiliki port output,
diantaranya, labeled Data (lab), Model yang diberikan
dalam input diterapkan pada ExampleSet yang
diberikan dan ExampleSet terbaru disampaikan dari
port ini. Beberapa informasi akan ditambahkan ke input
ExampleSet sebelum dikirimkan melalui port output.
Dan model (mod), Model yang diberikan sebagai
masukan dilewatkan tanpa mengubah ke output
melalui port ini.
79 | D e c i s i o n T r e e
Seperti yang terlihat pada gambar 4.22,
Operator Apply Model hanya memiliki dua parameter
yaitu, application parameters (menu) parameter ini
merupakan parameter ahli yang berguna memodelkan
parameter untuk aplikasi (biasanya tidak diperlukan).
Dan create view (boolean) Jika model diterapkan pada
port input mendukung Views, Hal ini mungkin untuk
membuat View bukannya mengubah data yang
mendasarinya. Transformasi yang akan biasanya
dilakukan langsung di data kemudian akan dihitung
setiap kali nilai diminta dan hasilnya dikembalikan
tanpa mengubah data. Beberapa model tidak
mendukung Views.
80 | D e c i s i o n T r e e
kinerja. Kriteria kinerja secara otomatis ditentukan agar
sesuai dengan jenis tugas belajar. Berbeda dengan
operator lain, operator ini dapat digunakan untuk
semua jenis tugas belajar. Secara otomatis menentukan
jenis tugas belajar dan menghitung kriteria yang paling
umum untuk jenis tersebut.
Untuk menemukan operator Performance, pilih
Evaluation pada View Operator, lalu pilih Performance
and Measurement, lalu pilih Performance. Setelah
menemukan operator Performance, seret (drag)
operator tersebut lalu letakkan (drop) ke dalam view
Process.
81 | D e c i s i o n T r e e
Operator Performance memiliki port input yaitu,
labelled data (lab), Port ini mengharapkan
mengharapkan ExampleSet berlabel. Apply Model
merupakan contoh yang baik dari operator yang
menyediakan data berlabel. Pastikan bahwa
ExampleSet memiliki atribut label dan atribut prediksi.
performance (per) Ini adalah parameter opsional yang
membutuhkan Performance Vector.
Selain itu, Operator ini juga memiliki port output
yaitu, performance (per), port ini memberikan
Peformance
Vector
(kita
menyebutnya
outputperformance-vektor untuk saat ini). Peformance
Vector adalah daftar nilai kinerja kriteria. example set
(exa), ExampleSet yang diberikan sebagai masukan
dilewatkan tanpa mengubah ke output melalui port ini.
82 | D e c i s i o n T r e e
memungkinkan. Parameter ini memiliki tidak memiliki
efek jika atribut tidak memiliki peran bobot.
83 | D e c i s i o n T r e e
84 | N e u r a l N e t w o r k
Chapter 5
Neural
Network
Apa itu Neural Network?
Dapat dikatakan bahwa neural netwok dapat
mempelajari pemetaan input data ke output data.
Neural network merupakan model komputasi yang
terinspirasi oleh prinsip-prinsip mengenai bagaimana
cara otak manusia bekerja. Mereka dapat
mempelajarinya dari data, mereka mampu mengeneralisasi dengan baik, dan mereka tahan dengan
kebisingan.
Biasanya jaringan saraf digunakan untuk
masalah-masalah seperti klasifikasi (classification),
prediksi (prediction), pengenalan pola (pattern
recognition), pendekatan (approximation), dan asosiasi
85 | N e u r a l N e t w o r k
(association). Mereka hanya perlu belajar dari beberapa
data
sampel,
dan
setelah
mereka
telah
mempelajarinya, mereka dapat bekerja dengan input
data yang tidak diketahui, atau bahkan input data yang
bising maupun tidak lengkap.
Secara umum Neural Network (NN) adalah
jaringan dari sekelompok unit pemroses kecil yang
dimodelkan berdasarkan jaringan syaraf manusia. NN
ini merupakan sistem adaptif yang dapat merubah
strukturnya untuk memecahkan masalah berdasarkan
informasi eksternal maupun internal yang mengalir
melalui jaringan tersebut.
Secara sederhana NN adalah sebuah alat
pemodelan data statistik non-linear. NN dapat
digunakan untuk memodelkan hubungan yang
kompleks antara input dan output untuk menemukan
pola-pola pada data. Secara mendasar, sistem
pembelajaran
merupakan
proses penambahan
pengetahuan pada NN yang sifatnya kontinuitas
sehingga pada saat digunakan pengetahuan tersebut
akan dieksploitasikan secara maksimal dalam
mengenali suatu objek. Neuron adalah bagian dasar
dari pemrosesan suatu Neural Network. Dibawah ini
merupakan bentuk dasar dari suatu neuron.
86 | N e u r a l N e t w o r k
87 | N e u r a l N e t w o r k
88 | N e u r a l N e t w o r k
89 | N e u r a l N e t w o r k
Supervised Learning
Sistem pembelajaran pada metoda Supervised
learning adalah system pembelajaran yang mana, setiap
pengetahuan yang akan diberikan kepada sistem, pada
awalnya diberikan suatu acuan untuk memetakan suatu
masukan menjadi suatu keluaran yang diinginkan.
Proses pembelajaran ini akan terus dilakukan selama
90 | N e u r a l N e t w o r k
kondisi error atau kondisi yang diinginkan belum
tercapai. Adapun setiap perolehan error akan
dikalkulasikan untuk setiap pemrosesan hingga data
atau nilai yang diinginkan telah tercapai.
Unsupervised Learning
Sistem pembelajaran pada neural network, yang
mana sistem ini memberikan sepenuhnya pada hasil
komputasi dari setiap pemrosesan, sehingga pada
sistem ini tidak membutuhkan adanya acuan awal agar
perolehan nilai dapat dicapai. Meskipun secara
mendasar, proses ini tetap mengkalkulasikan setiap
langkah
pada
setiap
kesalahannya
dengan
mengkalkulasikan setiap nilai weight yang didapat.
91 | N e u r a l N e t w o r k
keuangan dan robotika. Akhir-akhir ini mereka sangat
popular di industri game karena berkat mekanisme
belajar yang dilakukan, mereka dapat memberikan
kontrol adaptif dan pembelajaran untuk karakter yang
dikendalikan computer.
game
92 | N e u r a l N e t w o r k
add-ins Microsoft Excel yang bernama DownloaderXL,
dimana data mengenai harga saham yang terjadi dalam
rentang waktu tertentu telah dicatat pada sebuah web
hosting.
Contoh Kasus:
Perkiraan harga saham dengan
menggunakan metoda Neural
Network.
93 | N e u r a l N e t w o r k
High, Low, Close, Volume, Stochastic Oscilator. Isilah sel
seperti gambar [berapa]. Simpan dengan nama GE.xls
Lakukan pemilihan repository GE_TEMP_XLSDATA
dengan melakukan drag and drop yang ditempatkan
pada panel main process seperti gambar 5.6.
94 | N e u r a l N e t w o r k
95 | N e u r a l N e t w o r k
klik ikon Play
membutuhkan
perhitungan.
96 | M a r k e t B a s k e t A n a l y s i s
Chapter 6
Market
Basket
Analysis
Memahami Market Basket
Analysis
Retail atau Eceran salah satu cara pemasaran
produk meliputi semua aktivitas yang melibatkan
penjualan barang secara langsung ke konsumen akhir,
konsumen akhir membeli kumpulan produk dengan
jumlah yang berbeda di waktu yang berbeda. Namun
penjualan secara ritel hari ini bukanlah apa-apa jika
insdustrinya tidak mampu berkompetisi dengan baik.
97 | M a r k e t B a s k e t A n a l y s i s
Lanskap yang kompleks dan cepat berubah, persaingan
yang ketat, dan pelanggan yang semakin menuntut
mendorong retailer harus memikirkan kembali
bagaimana mereka beroperasi. Kemampuan untuk
memahami pola pikir konsumen adalah hal yang sangat
penting bagi retailer.
Teknologi telah membantu retailer dengan
memungkinkan untuk menyimpan data konsumen
dengan volume yang sangat besar dan biaya yang
sangat wajar. Retailer kini dapat memiliki miliyaran
informasi tentang informasi pelanggan mereka.
Informasi ini dapat menjawab pertanyaan-pertanyaan
penting termasuk: Kapan pelanggan akan membeli?
Bagaimana pembayaran dilakukan? Berapa banyak dan
apa item tertentu yang dibeli? Apa hubungan antara
barang yang dibeli?
Tidak ada keraguan bahwa data point-of-sales
(POS) ini yang (ketika digunakan secara efektif)
diberdayakan pengecer untuk lebih memahami bisnis
mereka dan meningkatkan pengambilan keputusan.
Pengecer proaktif menggunakan informasi ini untuk
memberikan penawaran yang ditargetkan yang sesuai
dengan harapan konsumen dan kemudian memberikan
dampak penghasilan positif.
98 | M a r k e t B a s k e t A n a l y s i s
Namun pada dasarnya, bagaimanakan retailer
menggunakan miliyaran informasi ini? Jawabannya
adalah menghubungkan produk-produk yang ada.
Sering kali, sebagai konsumen, kita cenderung
mengabaikan bagaimana barang secara fisik diatur
dalam sebuah toko retail atau supermarket. Apa yang
mungkin terlihat (bagi kita) hanyalah seperti sebuah
'distribusi acak', namun sebenarnya hal tersebut
merupakan pengaturan barang yang direncanakan
secara cermat. Pada intinya, toko retail menilai pola
pembelian pelanggan dan mengatur produk-produk
yang akan dibeli secara sesuai. Sehingga menyebabkan
pelanggan melakukan kegiatan pembelian beberapa
produk sekaligus tanpa disadarinya.
Teknik untuk menemukan hubungan dari
produk-produk yang dibeli secara bersamaan inilah
yang dikenal sebagai Market Basket Analysis (MBA).
Seperti namanya, Market Basket Analysis pada
dasarnya melibatkan penggunaan data transaksional
konsumen untuk mempelajari pola pembelian dan
menjelajahi kemungkinan (probabilitas dan) crossselling. Tujuan dari MBA adalah untuk memanfaatkan
data penjualan efektif untuk meningkatkan taktik
pemasaran dan penjualan di tingkat toko.
99 | M a r k e t B a s k e t A n a l y s i s
Contoh yang paling umum dari Market Basket
A alysis adalah Beer da Diapers . Co toh i i
merupakan kasus dari salah satu toko retail besar yang
ada di US, Wal-Mart. Seorang manajer toko
menemukan hubungan yang kuat antara salah satu
merek popok bayi (diapers) dan salah satu merek beer
pada
beberapa
pembeli.
Analisa
pembelian
mengungkapkan bahwa kegiatan pembelian dilakukan
oleh laki-laki dewasa pada hari jumat malam terutama
sekitar jam enam dan tujuh sore. Setelah beberapa
observasi, supermarket mengetahui bahwa:
100 | M a r k e t B a s k e t A n a l y s i s
101 | M a r k e t B a s k e t A n a l y s i s
Association rule adalah sebuah ekspresi
implikasi dari bentuk X Y, dimana X dan Y adalah
itemset yang saling terpisah (disjoint), dengan kata lain
X
Y =
. Dalam menentukan Association Rule,
terdapat suatu interestingness measure (ukuran
ketertarikan) yang didapatkan dari hasil pengolahan
data dengan perhitungan tertentu. Ada dua ukuran
yaitu:
1. Support: Bagian transaksi yang mengandung
kedua X dan Y.
102 | M a r k e t B a s k e t A n a l y s i s
Mengapa
menggunakan
Support
dan
Confidence? Support adalah ukuran yang penting
karena jika aturan memiliki support yang kecil, maka
kejadian bisa saja hanyalah sebuah kebetulan. Aturan
Support yang rendah juga cenderung tidak menarik dari
perspektif bisnis karena mungkin tidak akan
memberikan keuntungan saat mempromosikan barangbarang yang jarang dibeli pelanggan bersamaan. Untuk
alasan ini, dukungan sering digunakan untuk
menghilangkan ketidak-menarikan ini. Confidence,
adalah ukuran kehandalan dari kesimpulan yang dibuat
oleh aturan. Semakin besar Confidence, semakin besar
kemungkinan untuk Y hadir dalam transaksi yang
mengandung X. Confidence juga memberikan
probabilitas bersyarat dari Y yang diberikan ke X.
Kode Transaksi
001
002
003
103 | M a r k e t B a s k e t A n a l y s i s
004
005
Roti, Mentega
Roti, Mentega, Kecap, Telur, Susu
Kombinasi Produk
{roti}
{mentega}
{telur}
{susu}
{roti, mentega}
Nilai Support
80%
80%
60%
60%
80%
40%
40%
104 | M a r k e t B a s k e t A n a l y s i s
yang memenuhi syarat minimum untuk confidence. Bila
ditentukan syarat minimum untuk confidence sebesar
50% maka Association Rules yang dapat dipakai adalah:
Tabel 6.3 Association Rules dan Nilai Confidence
Association Rules
{roti} {mentega}
{roti} {telur}
{roti} {susu}
{roti} {mentega, telur}
{roti} {mentega, susu}
{roti} {telur, susu}
{roti} {mentega, telur, susu}
Support
80%
40%
40%
40%
40%
40%
40%
40%
40%
40%
40%
Confidence
100%
50%
50%
50%
50%
50%
50%
100%
100%
100%
100%
105 | M a r k e t B a s k e t A n a l y s i s
cukup signifikan karena mewakili 40% dari catatan
sela a i i.
106 | M a r k e t B a s k e t A n a l y s i s
107 | M a r k e t B a s k e t A n a l y s i s
Rule Generation
Tujuannya adalah untuk mengekstrak semua aturan
yang memiliki high-confidence dari itemsets yang
ditemukan dari langkah sebelumnya. Aturan ini disebut
Strong Rules.
Contoh Kasus :
Transaksi Penjualan Sederhana.
Kita mulai dengan menggunakan data
sederhana yang kita miliki yang terdapat pada sub bab
pengenalan Market Basket Analysis, Tabel 5.1.
108 | M a r k e t B a s k e t A n a l y s i s
109 | M a r k e t B a s k e t A n a l y s i s
Lakukan Drag dan Drop Tabel TransaksiMakanan
tadi kedalam Process. Sehingga Operator Database
muncul dalam Main Proses seperti gambar 5.5.
Assocuation
rules
dilakukan
dengan
menganalisis data pada frequent if/then patterns
110 | M a r k e t B a s k e t A n a l y s i s
menggunakan kriteria support dan confidence untuk
mengidentifikasikan suatu relasi antar item. Frequent
if/then pattern digali menggunakan operator FPGrowth.
Operator
Create
Association
Rules
menggunakan frequent itemsets ini dan menghasilkan
association rules.
111 | M a r k e t B a s k e t A n a l y s i s
Operator Numerical to Binominal diperlukan
untuk mengubah nilai atribut yang berada pada table
TransaksiMakanan menjadi binominal.
Selanjutnya lakukan Pencarian Filter untuk
memudahkan kita menemukan operator yang
dibutuhkan, lakukan seperti pada gambar berikut.
112 | M a r k e t B a s k e t A n a l y s i s
113 | M a r k e t B a s k e t A n a l y s i s
114 | M a r k e t B a s k e t A n a l y s i s
115 | M a r k e t B a s k e t A n a l y s i s
116 | M a r k e t B a s k e t A n a l y s i s
117 | M a r k e t B a s k e t A n a l y s i s
Setelah itu hubungkan Association Rules pada result.
Sehingga seluruhnya membentuk seperti gambar 5.17.
lalu klik ikon Play . Tunggu beberapa saat, komputer
membutuhkan
waktu
untuk
menyelesaikan
perhitungan.
118 | M a r k e t B a s k e t A n a l y s i s
Tentunya ini akan menyulitkan kita untuk mengambil
kesimpulan karena jumlah rules yang terlalu banyak.
Maka dari itu yang harus kita lakukan adalah mengubah
nilai minimum support dan minimum confidence.
Klik ikon Edit
untuk kembali pada model view. Lalu
klik Operator FP-Growth.
119 | M a r k e t B a s k e t A n a l y s i s
120 | M a r k e t B a s k e t A n a l y s i s
121 | M a r k e t B a s k e t A n a l y s i s
122 | M a r k e t B a s k e t A n a l y s i s
Glossarium
Algoritma
Apriori
Association Rules
Decision tree
123 | M a r k e t B a s k e t A n a l y s i s
simpul daun merepresentasikan kelas atau
distribusi kelas.
Disjoint
Flowchart
Frequent Itemset
Minimum Support
Numeric Attributes
Operator
Parameter
124 | M a r k e t B a s k e t A n a l y s i s
batas-batas tertentu dari suatu suatu
sistem persamaan.
Pruning
RapidMiner
Repositori
Simpul akar
Simpul daun
Simpul internal
Support
Teori graf
Validasi
125 | D a f t a r P u s t a k a
Daftar
Pustaka
Akhtar, Fareed dan Caroline Hahne. 2012. RapidMiner 5
Operator Reference, [online], (www.rapid-i.com,
diakses tanggal 30 Januari 2013).
Amiruddin, dkk. Penerapan Association Rule Mining
Pada Data Nomor Unik Pendidik dan Tenaga
Kependidikan Untuk Menemukan Pola Sertifikasi Guru.
Institut Teknologi Surabaya. Surabaya.
Basuki, Achmad dan Iwan Syarif. Decision Tree, [online],
(http://lecturer.eepis-its.edu/~entin/Data%20Mining/
Minggu%205%20Decision%20Tree.pdf, diakses tanggal
05 Februari 2013).
Khusnawi. 2007. Pengantar Solusi Data Mining.
Yogyakarta.
126 | D a f t a r P u s t a k a
Kusumadewi, Sri. 2003. Artificial Intelligence: Teknik
dan Aplikasinya.
Mitchel, Tom M. 1997. Machine Learning. New York:
McGraw-Hill.
Prasetyo, Bowo. 2011. Mengenal RapidMiner, [online],
(www.slideshare.net/bowoprasetyo/RapidMiner,
diakses tanggal 31 Januari 2013).
Prasetyo, Kokoh Philips. 2006. APriori, [online]
(http://philips.wordpress.com/2006/06/07/apriori,
diakses tanggal 03 Februari 2013)
---------------------------------------. 2006. Association Rule
Mining,
[online].
(http://philips.wordpress.com/2006/05/10/associationrule-mining, diakses tanggal 03 Februari 2013).
Rafaida, Ropi. Decision Tree (Pohon Keputusan),
[online],
(http://file.upi.edu/Direktori/FPEB/PRODI._MANAJEME
N_FPEB/197302052005012ROFI_ROFAIDA/MATERI_KULIAH/DECISION_TREE.pdf,
diakses tanggal 05 februari 2013).
127 | D a f t a r P u s t a k a
Ross, Peter. 2000. Data Mining [online]. (http://
www.soc.napier.ac.uk/~peter/vldb/dm/dm.html,
diakses tanggal 07 Februari 2013)
Wahono, Romi satria. Data Mining:Proses Data Mining,
[online],
(http://romisatriawahono.net/lecture/dm/
romi-dm-02-proses-june2012.pptx, diakses tanggal 31
Januari 2013).
2012. RapidMiner 5.0 Manual English, (online),
(www.rapid-i.com, diakses tanggal 30 Januari 2013).
3 tips for Setting up Association Rules using RapidMiner,
[online].
(http://www.simafore.com/blog
/bid/110113/3-tips-for-setting-up-a-Market-BasketAnalysis-using-RapidMiner, diakses tanggal 08 Maret
2013).
Association Analysis: Basic Concepts and Algorithms,
[online].
(http://www-users.cs.umn.edu/
~kumar/dmbook/ch6.pdf, diakses tanggal 08 April
2013)
Decision
Tree
(Pohon
Keputusan),
[online],
(http://www.google.co.id/url?sa=f&rct=j&url=http://no
vrina.staff.gunadarma.ac.id/Downloads/files/21783/Alg
oritma%2BC4.pdf&q=algoritma+c4&ei=6h9gUcbJFIqrrA
128 | D a f t a r P u s t a k a
fT7IGQAw&usg=AFQjCNG7HbyNPOqa63ZoPexX76TrIlJ7g, diakses tanggal 05 februari 2013).
Landasan Teori Market Basket Analysis, [online].
(http://library.binus.ac.id/eColls/eThesis/Bab2/2010-100498-MTIF%20Bab%202.pdf, diakses tanggal 08 April
2013)
Understanding the Concept of Market Basket Analysis,
[online].
(http://www.thesmartcube.com/
insights/blog/brand-strategy/understanding-theconcept-of-market-basket-analysis, diakses tanggal 08
Maret 2013)
RapidMiner Resources. (http://RapidMinerresources
.com/uploads/videos/tomott/RapidMiner5-Vid1.flv,
diakses tanggal 02 Februari 2013)
-------------------------------. (http://RapidMinerresources
.com/uploads/videos/neural%20networks%201.flv,
diakses tanggal 02 Februari 2013)
-------------------------------. (http://RapidMinerresources
.com/uploads/videos/neural%20networks%202.flv,
diakses tanggal 02 Februari 2013)