Data Mining For Business Intelligence

Unduh sebagai pdf atau txt
Unduh sebagai pdf atau txt
Anda di halaman 1dari 9

DATA MINING FOR BUSINESS INTELLIGENCE

Matakuliah Ilmu Data Industrial


Program Studi Teknik Industri
Universitas Jenderal Achmad Yani Yogyakarta

Konsep dan Aplikasi Data Mining


Dalam suatu interview dengan majalah ‘Computerworld’ pada Januari 1999, Dr. Arno Penzias
(pemenang nobel dan mantan kepala peneliti di Bell Labs) mengatakan bahwa sebentar lagi data
mining dari berbagai database perusahaan akan menjadi aplikasi yang menjadi andalan. Dalam
menjawab pertanyaan klasik dari ‘Computerworld’ mengenai “Apakah yang akan menjadi aplikasi
killer bagi korporasi?” Dr. Penzias menjawab: “Data mining”. Kemudian dia menambahkan, “Data
mining akan menjadi sesuatu yang sangat penting sehingga perusahaan-perusahaan tidak akan
membuang (data) apapun mengenai para pelanggan mereka karena hal itu merupakan sesuatu yang
sangat berharga. Bila anda tidak melakukan hal ini (data mining), anda akan terdepak keluar dari
bisnis”. Demikian pulan, dalam suatu artikel di ‘Harvard Business review’ Thomas Davenport (2006)
berpendapat bahwa senjata strategis terbaru bagi perusahaan-perusahaan adalah pembuatan
keputusan berdasarkan analitik, dengan memberikan contoh-contohnya seperti Amazon.com, Capital
One, Marriot International, dan lain-lain yang telah menggunakan analitik untuk memahami mengenai
para pelanggan mereka dengan lebih baik dan mengoptimasi supply chain mereka yang untuk
memaksimalkan RoI (return on investment) mereka sembari memberikan customer service yang
terbaik. Tingkat kesuksesan seperti ini akan bergantung pada perusahaan yang memahami
pelanggannya, vendornya, proses bisnisnya, dan supply chain-nya dengan baik.

Komponen utama dari pemahaman ini bermula dengan cara menganalisa jumlah data yang sangat
banyak yang dikumpulkan perusahaan. Biaya yang digunakan untuk menyimpan dan memproses data
dalam beberapa waktu terakhir telah menurun secara dramatis, dan dampaknya, jumlah data yang
disimpan dalam bentuk elektronik menjadi tumbuh dalam jumlah yang eksplosif. Dengan pembuatan
database-database yang besar, kemungkinan menganalisa data yang disimpan menjadi muncul/ada.
Istilah data mining awalnya digunakan untuk menjelaskan proses dimana berbagai pola di dalam data
yang tak diketahui sebelumnya menjadi terungkap. Definisi tersebut kemudian diperluas oleh
beberapa vendor software untuk memasukkan sebagian besar bentuk analisa data untuk
meningkatkan penjualan dengan popularitas label data mining. Pada seri ini, kita akan menggunakan
definisi asli mengenai data mining.

Meskipun istilah data mining relatif baru, tetapi ide dibelakangnya sama sekali bukan sesuatu yang
baru. Banyak sekali teknik dalam data minig yang berasal dari analisa statistik tradisional dan
kecerdasan buatan yang dilakukan di awal 1980an. Mengapa kemudian secara tiba-tiba mendapat
perhatian dari dunia bisnis? Berikut adalah beberapa alasan yang paling banyak disebut:

Definisi data mining, secara sederhana, adalah istilah yang digunakan untuk menjelaskan proses
pencarian atau penambangan knowledge dari data yang sangat besar. Menurut analogi, orang
mungkin berpikir bahwa istilah data mining adalah sesuatu yang tidak tepat; menambang emas dari
bebatuan atau lumpur diacu sebagai ‘penambangan emas’ dan bukannya penambangan ‘batu’ atau
‘lumpur’. Jadi, data mining barangkali lebih cocok diberi nama ‘knowledge mining’ atau ‘knowledge
discovery’. Meskipun ada ketidakcocokan antara makna dan istilah, data mining telah menjadi pilihan
bagi komunitas ilmu ini. Banyak nama-nama lain yang ter-asosiasi dengan data mining antara lain
‘knowledge extraction’, ‘pattern analysis’, ‘data archaeology’, ‘information harvesting’, ‘pattern
searching’, dan ‘data dredging’.

Secara teknis, data minig adalah proses yang memanfaatkan teknik-teknik statistik, matematika, dan
kecerdasan buatan untuk mengekstrak dan mengidentifikasi informasi dan knowledge selanjutnya
(atau pola-pola) yang berasal dari sekumpulan data yang sangat besar. Berbagai macam pola tersebut
bisa dalam bentuk aturan bisnis, kesamaan-kesamaan, korelasi, trend, atau model-model prediksi.
Kebanyakan literatur mendefinisikan data mining sebagai “proses yang rumit untuk mengidentifikasi
pola-pola yang valid, baru, memiliki potensi bermanfaat, dan bisa dipahami, terhadap data yang
disimpan di dalam database yang terstruktur”, dimana data diorganisir dalam baris-baris yang
terstruktur menurut kategori, ordinal/berurutan, dan variable-variabel yang berkesinambungan.
Dalam definisi ini, beberapa arti dari kata-kata kunci di atas adalah seperti berikut:

• Proses: artinya data mining terdiri dari banyak langkah perulangan Rumit: artinya bahwa ada
suatu dugaan/kesimpulan atau pencarian yang berbasis eksperimentasi yang dilibatkan; yang
artinya bahwa, itu bukanlah suatu hal yang mudah seperti komputasi terhadap suatu
kuantitas yang sudah ditetapkan sebelumnya
• Valid: artinya bahwa pola-pola yang ditemukan seharusnya tetap benar bila diterapkan pada
data yang baru dengan tingkat kepastian yang tinggi
• Baru: artinya bahwa pola-pola tidaklah diketahui sebelumnya oleh pengguna dalam konteks
sistem yang sedang dianalisa
• Berpotensi bermanfaat: artinya adalah bahwa pola-pola yang ditemukan harus membawa
manfaat bagi pengguna atau pada pekerjaan
• Dapat dipahami: artinya bahwa pola harus masuk akal secara bisnis yang membuat pengguna
berkata “mmmm! Ini masuk akal; mengapa saya tidak memikirkan hal itu” .

Cara Kerja Data Mining


Dengan menggunakan data yang ada dan relevan, data mining membuat beberapa model untuk
mengidentifikasi pola-pola diantara atribut-atribut yang ada di dalam dataset. Model adalah penyajian
matematis (persamaan linear sederhana dan/atau persamaan kompleks yang sangat tidak linear) yang
mengidentifikasi pola-pola diantara berbagai atribut object (misalnya, pelanggan) yang ada di dalam
dataset. Beberapa pola tersebut adalah bersifat deskriptif (menjelaskan saling-keterkaitan atau
persamaan dan kesamaan diantara berbagai atribut tersebut), sementara yang lain adalah bersifat
prediktif (meprediksi ‘value/hasil’ yang akan terjadi pada atribut-atribut tertentu).

Berdasarkan cara dimana pola-pola diekstraksi dari data historis, algorithma ‘learning’ (learning
algorithm) pada metode-metode data mining bisa diklasifikasikan sebagai ‘supervised’ maupun
‘unsupervised’. Dengan algorithma-algorithma ‘supervised learninng’, data yang digunakan untuk
pelatihan meliputi atribut-atribut deskriptif (misalnya variabel independent atau variabel decision)
dan juga atribut class (misalnya variabel output atau variabel hasil). Sebaliknya, dengan algorithma
‘unsupervised learning’ data pelatihan hanya terdiri dari atribut deskriptif. Gambar dibawah ini
menunjukkan taksonomi sederhana untuk tugas-tugas dalam data mining, serta metode-metode
pembelajaran, dan algoritma-algoritma yang popular pada setiap tugas dalam data mining.

Taxonomy data mining tasks


Secara umum, tugas-tugas dalam data mining bisa diklasifikasikan menjadi empat kategori utama:
prediksi (prediction), klasifikasi (classification), pengelompokan (clustering), dan asosiasi (association).
1) Prediksi (Prediction)
Prediction pada umumnya dianggap sebagai tindakan yang menjelaskan mengenai masa mendatang.
Hal ini berbeda dengan menebak secara sederhana dengan mempertimbangkan pengalaman, opini,
dan informasi lainnya dalam melakukan peramalan. Istilah yang umumnya dikaitkan dengan
‘prediction’ adalah ‘forecasting’. Meskipun banyak orang yang percaya bahwa kedua istilah itu adalah
sinonim, tetapi ada perbedaan tipis namun sangat penting diantara keduanya. ’Prediction’ pada
umumnya berbasis opini dan pengalaman, ‘forecasting’ berbasis data dan model. Itulah, secara urutan
reliabilitas, orang akan mengurutkan istilah itu seperti berikut: ‘guessing’, ‘predicting’, dan
‘forecasting’. Dalam terminology data mining, ‘prediction’ dan ‘forecasting’ digunakan secara sinonim,
dan istilah prediksi digunakan sebagai penyajian yang umum. Bergantung pada sifat alami yang akan
diprediksikan, ‘prediction’ bisa disebut secara lebih spesifik sebagai ‘classification’ (dimana hal yang
diprediksi, seperti ramalan esok, di beri label class misalnya ‘rainy’ or ‘sunny’) atau regresi (dimana hal
yang diprediksi, misalnya suhu esok, adalah angka riil misalnya ‘65oF’).

2) Klasifikasi (Classification)
Classification, atau ‘supervised induction’, barangkali adalah tugas dalam data mining yang paling
umum. Tujuan ‘classification’ adalah untuk menganalisa data historis yang disimpan dalam database
dan secara otomatis menghasilkan suatu model yang bisa memprediksi perilaku di masa mendatang.
Model induksi ini terdiri dari generalisasi pada baris-baris data yang digunakan untuk pelatihan, yang
akan membantu membedakan class-class standar. Harapannya adalah bahwa model tersebut
kemudian bisa digunakan untuk memprediksi class-class dari baris-baris lain yang belum
diklasifikasikan, dan lebih penting lagi, bisa secara akurat memprediksi peristiwa-peristiwa aktual
mendatang.

Berbagai macam tool ‘classification’ yang banyak digunakan antara lain ‘neural networks’ (jaringan
syaraf tiruan) dan ‘decision tree’ (pohon keputusan) –dari machine learning–, regresi logistic dan
analisa diskriminan (dari statistic tradisional), dan berbagai tool yang baru muncul seperti ‘rough sets’,
‘support vector machines’, dan ‘genetic algorithms’. Teknik-teknik ‘classification’ bebasis statistik
(misalnya regresi logistik dan analisa diskriminan) telah mendapatkan kritik—bahwa teknik-teknik itu
membuat asumsi-asumsi yang tidak realistis mengenai data, seperti ‘independence’ dan ‘normality’
(kemandirian/ketidakbergantungan dan normalitas)—yang membatasi penggunaanya dalam project-
project data mining jenis ‘classification’.

Neural networks (jaringan syaraf tiruan) melibatkan pengembangan struktur matematika (mirip
dengan jaringan syaraf dalam otak manusia) yang memiliki kemampuan belajar dari pengalaman masa
lalu yang disajikan dalam bentuk dataset yang terstruktur dengan baik. Neural networks akan lebih
efektif ketika jumlah variable yang terlibat agak banyak dan hubungan antara variable-varuiabel itu
sangat kompleks dan tidak akurat. Neural networks memiliki keunggulan dan kelemahan. Contohnya,
biasanya sangat sulit memberikan dasar alasan yang baik atas prediksi yang dibuat oleh neural
network. Selain itu, neural networks cenderung memerlukan pelatihan yang sangat banyak.
Sayangnya, waktu yang diperlukan untuk pelatihan cenderung meningkat secara eksponensial karena
volume data selalu meningkat, dan secara umum, neural networks tidak bisa dilatih pada database
yang sangat besar. Hal-hal ini dan berbagai faktor yang lain telah membatasi penerapan neural
networks dalam domain yang kaya dengan data.

Decision tree (pohon keputusan) mengklasifikasikan data menjadi jumlah class yang terbatas
berdasarkan nilai-nilai dari variable-variable input. Decision tree pada dasarnya adalah hirarki dari
statement ‘if-then’ dan karena itu jauh lebih cepat dibanding dengan neural networks. Decision tree
paling cocok untuk data kategorikal dan interval. Karena itu, penyatuan variable-variabel kontinyu ke
dalam suatu framework decision tree memerlukan ‘pendiskritan’; yaitu, dengan mengonversi
variable-variabel numerik kontinyu yang memiliki nilai ke beberapa ‘range’ dan kategori.

Kategori yang terkait dari tool-tool classification adalah ‘rule induction’. Tidak seperti ‘deciosion tree’,
dengan ‘rule induction’ statemen-statemen ‘if-then’ di-induksi dari data pelatihan secara langsung,
dan mereka pada dasarnya tidak memerlukan hirarki. Yang lain lagi, teknik-teknik yang lebih baru
seperti SVM, ‘rough sets’, dan algorithma genetika secara bertahap akan menemukan caranya ke
dalam gudang algorithma classification dan bisa dipelajari lebih dalam dalam topik mengenai
‘advanced intelligent systems’.

3) Pengelompokan (Clustering)
Clustering membagi sekumpulan hal (misalnya, objects, events, dll, yang disajikan di dataset yang
terstruktur/database) menjadi segment-segment (atau pengelompokan alami) berdasarkan
karakteristik yang serupa. Berbeda dengan ‘classification’, di dalam ‘clustering’ label-label class
tidaklah diketahui. Ketika algorithma terpilih memeriksa dataset, mengidentifikasi kesamaan berbagai
hal berdasarkan karakteristik-karakteristik nya, saat itulah cluster-cluster dibuat. Karena cluster-
cluster itu ditentukan dengan algorithma jenis ‘heuristic’, dan karena algorithma yang berbeda bisa
saja menghasilkan hasil yang berbeda meskipun menggunakan dataset yang sama, maka sebelum
hasil-hasil teknik clustering itu benar-benar digunakan sebaiknya perlu seorang pakar untuk
menginterpretasikan, dan mungkin saja memodifikasi, cluster-cluster yang diberikan. Setelah cluster-
cluster yang ‘masuk akal’ didapatkan, maka bisa digunakan untuk mengklasifikasi dan
menginterpretasikan data baru.

Tujuan dari clustering adalah membuat kelompok-kelompok dimana anggota kelompok dalam setiap
kelompok memiliki kemiripan yang maksimum dan anggota-anggota kelompok di kelompok lain
memiliki kemiripan yang minimum. Teknik clustering yang paling banyak digunakan adalah ‘k-means’
(dari statistik) dan ‘self-organizing maps’ (dari machine learning), yang merupakan arsitektur jaringan
syaraf yang unik yang dikembangkan oleh Kohonen (1982). Banyak perusahaan seringkali
menggunakan sistem data mining secara efektif untuk menunjukkan segmentasi market dengan
menggunakan analisa cluster. Analisa cluster adalah suatu cara dalam mengidentifikasi berbagai class
dari berbagai item sehingga item-item dalam suatu cluster memiliki lebih banyak kesamaan satu sama
lain dibanding item-item dengan cluster yang lain. Hal ini bisa digunakan untuk men-segment-kan
pelanggan dan mengarahkan produk marketing secara tepat ke segment-segment nya dalam waktu
yang tepat dengan format yang tepat dan dengan harga yang tepat. Analisa cluster juga bisa digunakan
untuk mengidentifikasi pengelompokan berbagai events atau objects sehingga sekumpulan
karakteristik yang sama dari grup-grup itu bisa diidentifikasi.

4) Asosiasi (Associations)
Associations, atau ‘association rule learning in data mining’, adalah teknik yang sangat popular dan
dikaji dengan baik sekali untuk menemukan hubungan yang menarik diantara berbagai variable dalam
database yang sangat besar. Terimakasih kepada teknologi pengumpul data otomatis seperti ‘bar-
code scanner’, penggunaan ‘association rules’ untuk menemukan pola keteraturan diantara berbagai
produk dalam transaksi dengan skala yang sangat besar yang dicatat oleh sistem PoS (point of sales)
dalam supermarket telah menjadi hal umum dalam ‘knowledge-discovery’ dalam industri retail.
Dalam konteks industri retail, ‘association rule mining’ seringkali disebut juga dengan ‘market-basket
analysis’.

Dua turunan dari ‘association rule mining’ yang paling umum digunakan adalah ‘link analysis’ dan
‘sequence analysis’ (analisa urutan aktivitas). Dengan ‘link analysis’, kaitan diantara banyak object
yang menarik didapatkan secara otomatis, seperti hubungan antara halaman-halaman web dan
hubungan referensial diantara berbagai grup penulis publikasi akademik. Dengan ‘sequence mining’,
berbagai macam hubungan diteliti berdasarkan urutan kejadian untuk mengidentifikasi ‘associations’
terhadap waktu. Berbagai algorithma yang digunakan dalam ‘association rule mining’ meliputi
algorithma Apriori yang sangat terkenal (dimana sekumpulan item yang sering muncul diidentifikasi)
dan FP-Growth, OneR, ZeroR, dan Eclat.

Penerapan-penerapan Data Mining


Data mining (DM) sudah menjadi suatu piranti yang sangat populer dalam menangani banyak isu
bisnis yang kompleks. DM sudah terbukti sangat sukses dan bermanfaat di berbagai area, diantaranya
adalah seperti yang ditunjukkan dengan berbagai contoh yang disajikan berikut. Tujuan dari berbagai
penerapan DM dalam bisnis adalah untuk menyelesaikan suatu masalah yang sangat memberi
‘pressure’ atau untuk mencari peluang bisnis yang bisa dimunculkan untuk membuat keunggulan
kompetitif yang berkelanjutan.

• Customer relationship management (CRM). CRM adalah perluasan dari marketing tradisional
yang baru dan sedang muncul. Tujuan CRM adalah menciptakan hubungan ‘one-on-one’
dengan pelanggan dengan mengembangkan pemahaman yang intim terhadap kebutuhan dan
keinginan mereka. Karena perusahaan membangun relasi dengan pelanggannya sepanjang
waktu melalui berbagai transaksi (misalnya ‘product inquiries’, ‘sales’, ‘service requests’,
‘warranty calls’), jadi mereka mengumpulkan banyak sekali data. Ketika dikombinasikan
dengan atribut-atribut demografi dan sosioekonomi, data yang kaya informasi ini bisa
digunakan untuk (1) mengetahui pembeli/pelanggan yang paling berminat pada produk atau
layanan baru (misalnya, ‘customer profiling’); (2) mengetahui akar penyebab berkurangnya
pelanggan sehingga bisa memperbaiki retensi pelanggan (misalnya, ‘churn analysis’); (3)
menemukan asosiasi varian waktu antara produk dan layanan untuk memaksimalkan
penjualan dan ‘customer value’; dan (4) mengetahui pelanggan yang paling ‘profitable’ dan
kebutuhan utama mereka untuk memperkuat hubungan dan memaksimalkan penjualan.
• DM bisa membantu bank dengan cara berikut: (1) meng-otomatisasi proses aplikasi
pinjaman/utang dengan memprediksi secara akurat mengenai para ‘pemangkir’
(pengemplang utang) yang paling potensial; (2) mendeteksi penipuan pada kartu kredit dan
transaksi online perbankan ; (3) mengetahui cara-cara dalam memaksimalkan ‘customer
value’ dengan menjual ke mereka produk-produk dan layanan yang paling cenderung mereka
beli; dan (4) meng-optimasi ‘cash return’ dengan memprediksi secara akurat ‘cash flow’ pada
entitas-entitas perbankan (misalnya, mesin-mesin ATM, cabang-cabang kantor bank).
• Retailing and logistics. Dalam industry retail, DM bisa digunakan untuk (1) memprediksi
volume penjualan pada lokasi retail tertentu sehingga bisa menentukan level inventory yang
tepat; (2) mengetahui hubungan penjualan antara berbagai produk yang berbeda (dengan
menggunakan market-basket analysis) untuk memperbaiki tata letak ‘store’ dan meng-
optimasi promosi penjualan; (3) memprediksi tingkat konsumsi berbagai jenis produk
(berdasarkan kondisi musim dan environment) untuk mengoptimasi logistic dan akhirnya
memaksimalkan penjualan; dan (4) menemukan pola-pola yang menarik pada pergerakan
berbagai produk (terutama pada produk-produk yang memiliki umur simpan yang pendek
karena rentan terhadap kadaluwarsa, busuk, dan kontaminasi) dalam ‘supply chain’ dengan
menganalisa data-data dari RFID dan sensor.
• Manufacturing and production. Pabrik-pabrik bisa menggunakan DM untuk (1) memprediksi
kegagalan mesin sebelum terjadi dengan cara penggunaan data dari sensor (memungkinkan
apa yang disebut ‘condition-based maintenance’); (2) mengetahui berbagai anomali dan
kesamaan di berbagai sistem produksi untuk mengoptimasi kapasitas produksi; dan (3)
menemukan pola-pola baru untuk mengetahui dan meningkatkan kualitas produk.
• Brokerage and securities trading. Para ‘broker’ dan ‘trader’ menggunakan DM untuk (1)
memprediksi kapan dan berapa harga obligasi tertentu akan berubah; (2) memprediksi
bentangan dan arah fluktuasi saham; (3) menaksir efek isu-isu dan peristiwa-peristiwa
tertentu pada pergerakan pasar secara keseluruhan; dan (4) mengetahui dan mencegah
berbagai aktivitas penipuan dalam trading sekuritas.
• Industry asuransi menggunakan teknik-teknik DM untuk memprediksi jumlah klaim untuk
biaya cover properti dan medis untuk membuat perencanaan bisnis yang lebih baik; (2)
menentukan angka rate optimal berdasarkan analisa klaim dan data pelangga; (3)
memprediksi pelanggan mana yang cenderung membeli kebijakan baru dengan fitur khusus;
dan (4) mengetauhi dan mencegah pembayaran klaim yang salah dan aktivitas penipuan.
• Computer hardware and software. DM bisa digunakan untuk memprediksi kegagalan disk
drive sebelum benar-benar terjadi; (2) mengetahui dan menyaring isi web dan pesan-pesan
email yang tak dinginkan; (3) mendeteksi dan mencegah lintasan keamanan jaringan
computer; dan (4) mengetahui produk-produk software yang berpotensi tidak aman.
• Government and defense. DM juga mempunyai sejumlah penerapan di bidang militer. DM
bisa digunakan untuk (1) memprediksi biaya peralatan dan personel militer yang aktif
bergerak; (2) memprediksi pergerakan musuh dan karena itu mengembangkan strategi yang
lebih baik bagi keterlibatan militer; (3) memprediksi konsumsi sumber daya untuk
perencanaan dan anggaran yang lebih baik; dan (4) mengetahui berbagai klas (kategori) dari
pengalaman-pengalaman yang unik, strategi, dan pelajaran yang diambil dari operasi militer
yang digunakan untuk berbagai pengetahuan yang lebih baik melalui organisasi.
• Travel industry (airlines, hotels/resorts, rental car companies). DM memiliki berbagai
penerapan dalam industry ‘travel’. DM digunakan untuk (1) memprediksi penjualan berbagai
layanan yang berbeda (jenis seat di pesawat, jenis kamar hotel/resort, jenis mobil di
perusahaan rental mobil) yang bertujuan untuk memberikan layanan harga yang optimal
untuk memaksimalkan revenue sebagai fungsi dari transaksi yang memiliki variasi yang
bergantung waktu (biasanya disebut dengan ‘yield management’); (2) memprediksi ‘demand’
pada berbagai lokasi yang berbeda untuk mengalokasikan sumber daya perusahaan yang
terbatas dengan lebih baik; (3) mengetahui mengetauhi pelanggan yang paling ‘profutable’
dan memberikan mereka layanan yang ‘personalized’ untuk menjaga hubungan bisnis dengan
mereka; dan (4) mempertahankan karyawan-karyawan yang memiliki ‘value’ yang tinggi.
• Health care. DM memiliki sejumlah penerapan di bidang perawatan kesehatan. DM bisa
digunakan untuk (1) mengetahui orang-orang yang tidak memiliki asuransi kesehatan dan
factor-faktor apa saja yang menyebabkan hal itu; (2) mengetahui hubungan ‘cost-benefit’
yang baru antara berbagai ‘treatment’ yang berbeda-beda yang bisa dugunakan untuk
mengembangkan stratehi yang lebih efektif; (3) memprediksi waktu dan tingkat kebutuhan di
berbagai lokasi layanan yang berbeda-beda untuk mengalokasikan sumberdaya perusahaan
secara optimal; dan (4) memahami alasan-alasan yang mendasari mengapa pelanggan dan
karyawan berkurang (pindah).
• Penggunaan DM dalam bidang pengobatan harus dilihat sebagai suatu komplemen yang tak
ternilai bagi penelitian di bidang pengobatan tradisional, yang pada dasarnya adalah bersifat
klinis dan biologis. Berbagai analisa DM bisa (1) mengetahui pola-pola baru untuk
meningkatkan kemungkinan pasien pengidap kanker untuk tetap hidup; (2) memprediksi
angka keberhasilan para pasien transplantasi organ untuk mengembangkan kebijakan-
kebijakan yang lebih sesuai dengan ‘donor-organ’; (3) mengetahui fungsi-fungsi gen yang
berbeda-beda dalam kromosom manusia (dikenal dengan genomics/genomik); dan (4)
menemukan hubungan antara berbagai gejala dan penyakit (dan juga hubungan antara
berbagai penyakit dan perawatan yang berhasil) untuk membantu para profesinal medis
membuat keputusan-keputusan yang benar dan terinformasi secara tepat waktu.
• Entainment industry. DM berhasil diterapkan oleh industri hiburan untuk (1) menganalisa data
penonton untuk memutuskan program-program apa saja untuk ditampilkan pada ‘prime time’
dan bagaimana memaksimalkan ‘return’ dengan mengetahui dimana menempatkan iklan; (2)
memprediksi keberhasilan film dari sisi financial sebelum film diproduksi yang digunakan
untuk membuat keputusan investasi dan mengoptimasi ‘return’; (3) memprediksi ‘demand’
pada berbagai lokasi yang berbeda-beda dan waktu yang berbeda-beda untuk membuat
jadwal entertainment yang lebih tepat dan mengalokasikan sumberdaya secara optimal; dan
(4) mengembangkan kebijakan mengenai harga yang optimal untuk memaksimalkan
‘revenue’.
• Homeland security and law enforcement. DM memiliki sejumlah penerapan dalam hal
‘homeland security and law enforcement’. DM sering digunakan untuk (1) mengetahui pola-
pola perilaku teroris (misalnya, untuk melacak pendanaan terhadap aktivitas teroris); (2)
menemukan pola-pola kejahatan (misalnya, lokasi, pemilihan waktu, perilaku penjahat, dan
cirri-ciri terkait lainnya) untuk membantu kasus-kasus criminal secara tepat waktu; (3)
memprediksi dan mengeliminasi serangan biologis dan kimia yang potensial ke infrastruktur
vital negara dengan menganalisa data sensor yang dibuat dengan tujuan khusus; dan (4)
mengetahui dan menghentikan serangan jahat ke infrastruktur-infrastruktur informasi yang
vital (sering disebut sebagai ‘informastion warfare’).
• DM digunakan untuk meningkatkan performa tim-tim NBA (National Basketball Association di
US. NBA mengembangkan ‘Advanced Scout’, aplikasi DM berbasis PC yang digunakan oleh
staff coaching untuk menemukan pola-pola yang menarik pada data pertandingan basketball.
Intertretasi pola tersebut dibantu dengan membolehkan pengguna untuk menghubungkan
pola-pola untuk direkam.

Proses dalam Data Mining


Untuk melaksanakan project-project dalam Data Mining (DM) secara sistematis, suatu proses yang
umum berlaku biasanya diterapkan. Berdasarkan ‘best practice’, para praktisi dan peneliti DM
mengusulkan beberapa proses (workflow atau pendekatan step-by-step yang sederhana) untuk
memperbesar peluang keberhasilan dalam melaksanakan project-project DM. Usaha-usaha itu
akhirnya menghasilkan beberapa proses yang dijadikan sebagai standard, beberapa diantaranya (yang
paling popular) dibahas dalam bagian ini.

Salah satu proses yang sudah dijadikan standard tersebut dan boleh dibilang sebagai yang paling
populer, yaitu ‘Cross-Industry Standard Process for Data Mining’ – atau CRISP-DM – telah diusulkan
pada pertengahan 1990an oleh konsorsium perusahaan-perusahaan eropa untuk dijadikan
methodology standard non-proprietary bagi DM (CRISP-DM, 2009). Gambar berikut di bawah ini
menggambarkan proses yang diusulkan tersebut, yang merupakan enam tahap berurutan yang
dimulai dengan pemahaman bisnis yang baik dan perlunya project DM dan berakhir dengan
‘deployment’ solusi yang memuaskan kebutuhan bisnis tertentu. Enam tahap proses CRISP-DM dalam
data mining adalah:

1) Business Understanding.
Ini adalah tahap pertama dalam CRISP-DM dan termasuk bagian yang cukup vital. Pada tahap
ini membutuhkan pengetahuan dari objek bisnis, bagaimana membangun atau mendapatkan
data, dan bagaimana untuk mencocokan tujuan pemodelan untuk tujuan bisnis sehingga model
terbaik dapat dibangun. Kegiatan yang dilakukan antara lain: menentukan tujuan dan
persyaratan dengan jelas secara keseluruhan, menerjemahkan tujuan tersebut serta
menentukan pembatasan dalam perumusan masalah data mining, dan selanjutnya
mempersiapkan strategi awal untuk mencapai tujuan tersebut.
2) Data Understanding.
Secara garis besar untuk memeriksa data, sehingga dapat mengidentifikasi masalah dalam data.
Tahap ini memberikan fondasi analitik untuk sebuah penelitian dengan membuat ringkasaan
(summary) dan mengidentifikasi potensi masalah dalam data. Tahap ini juga harus dilakukan
secara cermat dan tidak terburu-buru, seperti pada visualisasi data, yang terkadang insight-nya
sangat sulit didapat dika dihubungkan dengan summary data nya. Jika ada masalah pada tahap
ini yang belum terjawab, maka akan menggangu pada tahap modeling. Ringkasan atau summary
dari data dapat berguna untuk mengkonfirmasi apakah data terdistribusi seperti yang
diharapkan, atau mengungkapkan penyimpangan tak terduga yang perlu ditangani pada tahap
selanjutnya, yaitu Data Preperation. Masalah dalam data biasanya seperti nilai-nilai yang hilang,
outlier, berdistribusi spike, berdistribusi bimodal harus diidentifikasi dan diukur sehingga dapat
diperbaiki dalam Data Preperation.
3) Data Preparation.
Secara garis besar untuk memperbaiki masalah dalam data, kemudian membuat variabel
derived. Tahap ini jelas membutuhkan pemikiran yang cukup matang dan usaha yang cukup
tinggi untuk memastikan data tepat untuk algoritma yang digunakan. Bukan berarti saat Data
Preperation pertama kali dimana masalah-masalah pada data sudah diselesaikan, data sudah
dapat digunakan hingga tahap terakhir. Tahap ini merupakan tahap yang sering ditinjau kembali
saat menemukan masalah pada saat pembangunan model. Sehingga dilakukan iterasi sampai
menemukan hal yang cocok dengan data. Tahap sampling dapat dilakukan disini dan data secara
umum dibagi menjadi dua, data training dan data testing. Kegiatan yang dilakukan antara lain:
memilih kasus dan parameter yang akan dianalisis (Select Data), melakukan transformasi
terhadap parameter tertentu (Transformation), dan melakukan pembersihan data agar data
siap untuk tahap modeling (Cleaning).
4) Modeling.
Secara garis besar untuk membuat model prediktif atau deskriptif. Pada tahap ini dilakukan
metode statistika dan Machine Learning untuk penentuan terhadap teknik data mining, alat
bantu data mining, dan algoritma data mining yang akan diterapkan. Lalu selanjutnya adalah
melakukan penerapan teknik dan algoritma data mining tersebut kepada data dengan bantuan
alat bantu. Jika diperlukan penyesuaian data terhadap teknik data mining tertentu, dapat
kembali ke tahap data preparation. Beberapa modeling yang biasa dilakukan adalah
classification, scoring, ranking, clustering, finding relation, dan characterization.
5) Evaluation.
Melakukan interpretasi terhadap hasil dari data mining yang dihasilkan dalam proses
pemodelan pada tahap sebelumnya. Evaluasi dilakukan terhadap model yang diterapkan pada
tahap sebelumnya dengan tujuan agar model yang ditentukan dapat sesuai dengan tujuan yang
ingin dicapai dalam tahap pertama.
6) Deployment.
Tahap deployment atau rencana penggunaan model adalah tahap yang paling dihargai dari
proses CRISP-DM. Perencanaan untuk Deployment dimulai selama Business Understanding dan
harus menggabungkan tidak hanya bagaimana untuk menghasilkan nilai model, tetapi juga
bagaimana mengkonversi skor keputusan, dan bagaimana untuk menggabungkan keputusan
dalam sistem operasional. Pada akhirnya, rencana sistem Deployment mengakui bahwa tidak
ada model yang statis. Model tersebut dibangun dari data yang diwakili data pada waktu
tertentu, sehingga perubahan waktu dapat menyebabkan berubahnya karakteristik data.
Modelpun harus dipantau dan mungkin diganti dengan model yang sudah diperbaiki.

Anda mungkin juga menyukai