Belajar Data Mining Dengan RapidMiner PDF
Belajar Data Mining Dengan RapidMiner PDF
Belajar Data Mining Dengan RapidMiner PDF
Penyusun:
Dennis Aprilla C
Donny Aji Baskoro
Lia Ambarwati
I Wayan Simri Wicaksana
Editor: Remi Sanjaya
Kata
Pengantar
Dengan mengucapkan puji syukur kepada Tuhan
YME atas Berkah Rahmat dan Hidayah-Nya, penulis
dapat menyelesaikan buku yang berjudul Belajar Data
Mining dengan RapidMiner.
Penulis
iii | P e n g a n t a r
Daftar
Isi
Kata Pengantar ........................................................... i
Daftar Isi .................................................................. iii
Daftar Gambar .......................................................... v
Daftar Tabel ............................................................viii
Kecerdasan Buatan .................................................... 2
Definisi Kecerdasan Buatan ........................................2
Ruang Lingkup Kecerdasan Buatan .............................5
Perbedaan Komputasi Kecerdasan Buatan dan
Komputasi Konvensional.............................................6
RapidMiner ......... ………..Error! Bookmark not defined.8
Apa itu RapidMiner? ...................................................8
Instalasi Software ......................................................11
Pengenalan Interface ................................................16
Cara Menggunakan Repositori..................................28
iv | P e n g a n t a r
Daftar
Gambar
Gambar 1.1 Proses Kecerdasan Buatan ....................................................... 4
Gambar 2.1 Form Awal Instalasi ................................................................ 14
Gambar 2.2 Form Persetujuan Lisensi ....................................................... 14
Gambar 2.3 Form Pemilihan Lokasi Instalasi ............................................. 15
Gambar 2.4 Form Proses Instalasi ............................................................. 15
Gambar 2.5 Form Instalasi selesai ............................................................. 16
Gambar 2.6 Tampilan Welcome Perspective ............................................. 17
Gambar 2.7 Welcome Perspective............................................................. 19
Gambar 2.8 Header Tab ............................................................................. 20
Gambar 2.9 Tampilan Design Perspective ................................................. 21
Gambar 2.10 Kelompok Operator dalam Bentuk Hierarki ......................... 23
Gambar 2.11 Tampilan Parameter View .................................................... 25
Gambar 2.12 Problem & Log View ............................................................. 27
Gambar 2.13 Kumpulan Sample Data Repository ...................................... 28
Gambar 2.14 Tampilan Design Perspective Awal ...................................... 29
Gambar 2.15 Repository berada dalam Main Process ............................... 29
Gambar 2.16 Menghubungkan Output Repositori ke Result ..................... 30
Gambar 2.17 Isi Sample Golf Data Repository ........................................... 30
Gambar 2.18 Repository ............................................................................ 32
Gambar 2.19 Step 1 of 5 Import Wizard .................................................... 32
Gambar 2.20 Step 2 of 5 Import Wizard .................................................... 33
Gambar 2.21 Step 3 of 5 Import Wizard .................................................... 34
Gambar 2.22 Step 4 of 5 Import Wizard .................................................... 34
Gambar 2.23 Tipe Data .............................................................................. 35
vi | P e n g a n t a r
Daftar
Tabel
Tabel 1.1 Perbedaan Kecerdasan Buatan dan Komputasi Konvensional ..... 7
Tabel 4.1 Keputusan Bermain Tenis ........................................................... 52
Tabel 4.2 Perhitungan Simpul 1 ................................................................. 53
Tabel 6.1 Tabel Transaksi ......................................................................... 102
Tabel 6.2 Kombinasi Produk dan Nilai Support ........................................ 103
Tabel 6.3 Association Rules dan Nilai Confidence .................................... 104
1
Bagian Satu
Pendahuluan
Pengenalan RapidMiner
2|Kecerdasan Buatan
Chapter 1
Kecerdasan
Buatan
Definisi Kecerdasan Buatan
Manusia memiliki kecerdasan, manusia memiliki
kemampuan untuk menganalisa suatu masalah dengan
menggunakan pengetahuan dalam otaknya dan
input output
Basis Motor
masalah jawaban
Pengetahuan Interferensi
pertanyaan solusi
Perbedaan Komputasi
Kecerdasan Buatan dan
Komputasi Konvensional
Komputasi Konvensional merupakan Komputer
yang hanya digunakan untuk alat hitung. Sangatlah
berbeda, kerja dan konsep dari kedua komputasi ini.
Agar dapat memberikan gambaran, table berikut adalah
7|Kecerdasan Buatan
Chapter 2
RapidMiner
Instalasi Software
System Requirement
Sebelum melakukan instalasi software
RapidMiner, terdapat beberapa spesifikasi minimal
yang yang harus dimiliki komputer pengguna.
Spesifikasi minimal bergantung pada komputer dan
sistem operasi yang akan diinstal. Berikut ini beberapa
spesifikasi minimal yang dibutuhkan software
RapidMiner:
1. Sistem Operasi
RapidMiner merupakan software yang
multiplatform, sehingga software ini dapat
dijalankan pada berbagai sistem operasi. Berikut ini
beberapa jenis sistem operasi yang dapat diinstal
RapidMiner:
12 | R a p i d M i n e r
Instalasi RapidMiner
Seperti yang yang telah dikemukakan
sebelumnya bahwa RapidMiner merupakan software
gratis yang bersifat terbuka (open source). Software ini
dapat dijalankan pada sistem operai Windows, Linux,
maupun Mac. RapidMiner dapat diunduh pada situs
resminya, yaitu www.rapid-i.com. Pada bagian ini, akan
dijelaskan bagaimana cara melakukan instalasi software
RapidMiner versi 5.3 pada sistem operasi Microsoft
Windows.
Untuk memulai instalasi software RapidMiner
pada sistem operasi Microsoft Windows, jalankan file
installer RapidMiner-5.3.000x32-install.exe, sehingga
akan muncul tampilan wizard seperti pada Gambar 2.
14 | R a p i d M i n e r
Pengenalan Interface
RapidMiner menyediakan tampilan yang user
friendly untuk memudahkan penggunanya ketika
menjalankan aplikasi. Tampilan pada RapidMiner
dikenal dengan istilah Perspective. Pada RapidMiner
terdapat 3 Perspective, yaitu; Welcome Perspective,
Design Perspective dan Result Perspective.
17 | R a p i d M i n e r
Welcome Perspective
Ketika membuka aplikasi Anda akan disambut
dengan tampilan yang disebut dengan Welcome
Perspective, seperti yang ditunjukkan pada Gambar 6.
Pada bagian toolbar, terdapat toolbar Perspectives
yang terdiri dari ikon-ikon untuk menampilkan
perspective dari RapidMiner. Toolbar ini dapat
dikonfigurasikan sesuai dengan kebutuhan Anda.
Sedangkan Views menunjukkan pandangan (view) yang
sedang Anda tampilkan.
Design Perspective
Design Perspective merupakan lingkungan kerja
RapidMiner. Dimana Design Perspective ini merupakan
perspective utama dari RapidMiner yang digunakan
sebagai area kerja untuk membuat dan mengelola
21 | R a p i d M i n e r
1. Operator View
22 | R a p i d M i n e r
2. Repository View
Repository View merupakan komponen utama
dalam Design Perspective selain Operator View. View
ini dapat Anda gunakan untuk mengelola dan menata
proses Analisis Anda menjadi proyek dan pada saat
24 | R a p i d M i n e r
3. Process View
Process View menunjukkan langkah-langkah
tertentu dalam proses analisis dan sebagai penghubung
langkah-langkah tersebut. Anda dapat menambahkan
langkah baru dengan beberapa cara. hubungan diantara
langkah-langkah ini dapat dibuat dan dilepas kembali.
Pada dasarnya bekerja dengan RapidMiner ialah
mendefinisikan proses analisis, yaitu dengan
menunjukkan serangkaian langkah kerja tertentu.
Dalam RapidMiner, komponen proses ini dinamakan
sebagai operator. Operator pada RapidMiner
didefinisikan sebagai beikut:
Deskripsi dari input yang diharapkan.
Deskripsi dari output yang disediakan.
Tindakan yang dilakukan oleh operator pada
input, yang akhirnya mengarah dengan
penyediaan output.
Sejumlah parameter yang dapat mengontrol
action performed.
4. Parameter View
Beberapa operator dalam RapidMiner
membutuhkan satu atau lebih parameter agar dapat
diindikasikan sebagai fungsionalitas yang benar. Namun
25 | R a p i d M i n e r
Import Repository
Dibanyak kesempatan lain, kita akan selalu
menggunakan database yang kita miliki. RapidMiner
menyediakan layanan agar pengguna dapat
mengimport database miliknya. Namun, tidak seperti
kebanyakan tools Data Mining Lain, RapidMiner
memiliki kelebihan tersendiri yakni dapat langsung
melakukan import file dengan ekstensi .xls atau .xlsx,
yakni file dari Microsoft Excel, Program yang relatif
sering digunakan oleh pengguna. Berikut adalah cara
untuk melakukan import file Microsoft Excel.
Bagian Dua
Data Mining
Chapter 3
Data Mining
Classification
Suatu teknik dengan melihat pada kelakuan dan atribut
dari kelompok yang telah didefinisikan. Teknik ini dapat
memberikan klasifikasi pada data baru dengan
memanipulasi data yang ada yang telah diklasifikasi dan
dengan menggunakan hasilnya untuk memberikan
sejumlah aturan. Salah satu contoh yang mudah dan
popular adalah dengan Decision tree yaitu salah satu
metode klasifikasi yang paling populer karena mudah
untuk diinterpretasi. Decision tree adalah model
prediksi menggunakan struktur pohon atau struktur
berhirarki.
44 | D a t a M i n i n g
Association
Digunakan untuk mengenali kelakuan dari kejadian-
kejadian khusus atau proses dimana hubungan asosiasi
muncul pada setiap kejadian. Salah satu contohnya
adalah Market Basket Analysis, yaitu salah sati metode
asosiasi yang menganalisa kemungkinan pelanggan
untuk membeli beberapa item secara bersamaan.
Clustering
Digunakan untuk menganalisis pengelompokkan
berbeda terhadap data, mirip dengan klasifikasi, namun
pengelompokkan belum didefinisikan sebelum
dijalankannya tool data mining. Biasanya menggunkan
metode neural network atau statistik. Clustering
membagi item menjadi kelompok-kelompok
berdasarkan yang ditemukan tool data mining.
45 | D e c i s i o n T r e e
Chapter 4
Decision Tree
Algoritma c4.5
Pohon keputusan merupakan metode yang
umum digunakan untuk melakukan klasifikasi pada data
mining. Seperti yang telah dijelaskan sebelumnya,
klasifikasi merupakan Suatu teknik menemukan
kumpulan pola atau fungsi yang mendeskripsikan serta
memisahkan kelas data yang satu dengan yang lainnya
untuk menyatakan objek tersebut masuk pada kategori
tertentu dengan melihat pada kelakuan dan atribut dari
kelompok yang telah didefinisikan.
49 | D e c i s i o n T r e e
Konsep Entropy
Entropy(S) merupakan jumlah bit yang
diperkirakan dibutuhkan untuk dapat mengekstrak
suatu kelas (+ atau -) dari sejumlah data acak pada
ruang sampel S. Entropy dapat dikatakan sebagai
kebutuhan bit untuk menyatakan suatu kelas. semakin
kecil nilai Entropy maka akan semakin Entropy
digunakan dalam mengekstrak suatu kelas. Entropi
digunakan untuk mengukur ketidakaslian S.
50 | D e c i s i o n T r e e
( )
Dimana:
S : ruang (data) sampel yang digunakan untuk
pelatihan
: jumlah yang bersolusi positif atau mendukung
pada data sampel untuk kriteria tertentu
: jumlah yang bersolusi negatif atau tidak
mendukung pada data sampel untuk kriteria
tertentu.
51 | D e c i s i o n T r e e
Konsep Gain
Gain (S,A) merupakan Perolehan informasi dari
atribut A relative terhadap output data S. Perolehan
informasi didapat dari output data atau variabel
dependent S yang dikelompokkan berdasarkan atribut
A, dinotasikan dengan gain (S,A).
| |
( ) ( ) ∑ ( )
| |
Dimana:
A : Atribut
S : Sampel
n : Jumlah partisis himpunan atribut A
|Si| : Jumlah sampel pada pertisi ke –i
|S| : Jumlah sampel dalam S
52 | D e c i s i o n T r e e
JUMLAH NO YES
NODE ENTROPY GAIN
KASUS (S1) (S2)
1 TOTAL 14 4 10 0.863120569
OUTLOOK 0.258521037
CLOUDY 4 0 4 0
RAINY 5 1 4 0.721928095
SUNNY 5 3 2 0.970950594
TEMPERATURE 0.183850925
COOL 4 0 4 0
HOT 4 2 2 1
MILD 6 2 4 0.918295834
HUMIDITY 0.370506501
HIGH 7 4 3 0.985228136
NORMAL 7 0 7 0
WINDY 0.005977711
FALSE 8 2 6 0.811278124
TRUE 6 4 2 0.918295834
54 | D e c i s i o n T r e e
Contoh Kasus:
Keputusan Bermain Tenis
Pada contoh kali ini, kita akan membuat
keputusan bermain tenis atau tidak. Untuk
memudahkan dalam menggunakan RapidMiner untuk
membuat decision tree, kita gunakan data sederhana
yang ada pada sub bab decision tree. Pertama-tama
data pada tabel 2 dibuat lagi dalam format excel seperti
yang terlihat pada Gambar 4.3.
Contoh Kasus :
Keputusan seseorang mempunyai
potensi menderita hipertensi
Sebelumnya kita telah mengetahui bagaimana
membuat pohon keputusan untuk menentukan
bermain tenis dengan menggunakan operator decision
tree. Pada pembahasan kali ini kita akan membuat
pohon keputusan untuk menentukan apakah seseorang
berpotensi sakit hipertensi atau tidak. Untuk
menambah pengeatahuan kita mengenai kegunaan
operator yang ada pada RapidMiner, oleh karena itu
untuk membuat pohon keputusan kali ini kita
68 | D e c i s i o n T r e e
Chapter 5
Neural
Network
Apa itu Neural Network?
Dapat dikatakan bahwa neural netwok dapat
mempelajari pemetaan input data ke output data.
Neural network merupakan model komputasi yang
terinspirasi oleh prinsip-prinsip mengenai bagaimana
cara otak manusia bekerja. Mereka dapat
mempelajarinya dari data, mereka mampu men-
generalisasi dengan baik, dan mereka tahan dengan
kebisingan.
1. Supervised Learning
2. Unsupervised Learning
Supervised Learning
Sistem pembelajaran pada metoda Supervised
learning adalah system pembelajaran yang mana, setiap
pengetahuan yang akan diberikan kepada sistem, pada
awalnya diberikan suatu acuan untuk memetakan suatu
masukan menjadi suatu keluaran yang diinginkan.
Proses pembelajaran ini akan terus dilakukan selama
90 | N e u r a l N e t w o r k
Unsupervised Learning
Sistem pembelajaran pada neural network, yang
mana sistem ini memberikan sepenuhnya pada hasil
komputasi dari setiap pemrosesan, sehingga pada
sistem ini tidak membutuhkan adanya acuan awal agar
perolehan nilai dapat dicapai. Meskipun secara
mendasar, proses ini tetap mengkalkulasikan setiap
langkah pada setiap kesalahannya dengan
mengkalkulasikan setiap nilai weight yang didapat.
Contoh Kasus:
Perkiraan harga saham dengan
menggunakan metoda Neural
Network.
Chapter 6
Market
Basket
Analysis
Memahami Market Basket
Analysis
Retail atau Eceran salah satu cara pemasaran
produk meliputi semua aktivitas yang melibatkan
penjualan barang secara langsung ke konsumen akhir,
konsumen akhir membeli kumpulan produk dengan
jumlah yang berbeda di waktu yang berbeda. Namun
penjualan secara ritel hari ini bukanlah apa-apa jika
insdustrinya tidak mampu berkompetisi dengan baik.
97 | M a r k e t B a s k e t A n a l y s i s
( )
( )
( | )
Rule Generation
Tujuannya adalah untuk mengekstrak semua aturan
yang memiliki high-confidence dari itemsets yang
ditemukan dari langkah sebelumnya. Aturan ini disebut
Strong Rules.
Contoh Kasus :
Transaksi Penjualan Sederhana.
Kita mulai dengan menggunakan data
sederhana yang kita miliki yang terdapat pada sub bab
pengenalan Market Basket Analysis, Tabel 5.1.
108 | M a r k e t B a s k e t A n a l y s i s
Glossarium
Algoritma Kumpulan perintah untuk menyelesaikan
suatu masalah.
Daftar
Pustaka
fT7IGQAw&usg=AFQjCNG7HbyNPOqa63Z-
oPexX76TrIlJ7g, diakses tanggal 05 februari 2013).
-------------------------------. (http://RapidMinerresources
.com/uploads/videos/neural%20networks%201.flv,
diakses tanggal 02 Februari 2013)
-------------------------------. (http://RapidMinerresources
.com/uploads/videos/neural%20networks%202.flv,
diakses tanggal 02 Februari 2013)