Data mining merupakan satu bidang ilmu komputer yang membahas tentang proses komputasi untuk menemukan pola dalam kumpulan data yang besar. Tujuan keseluruhan dari proses data mining adalah untuk mengekstrakinformasi dari kumpulan data dan mengubahnya menjadi sebuah struktur yang mudah dimengerti untuk digunakan lebih lanjut. Istilah data mining relatif baru namun teknologi yang digunakan dalam proses data mining tidaklah baru. Dalam prosesnya, data mining melibatkan beberapa tugas (hal-hal yang bisa dilakukan dalam data mining) yaitu, deteksi anomaly, association rule, clustering, classification, regression, dan summarization. Masing-masing menerapkan algoritma yang berbeda untuk menyelesaikan tugasnya, meskipun ada beberapa algoritma yang digunakan di lebihdari satu tugas.
0 penilaian0% menganggap dokumen ini bermanfaat (0 suara)
577 tayangan4 halaman
Data mining merupakan satu bidang ilmu komputer yang membahas tentang proses komputasi untuk menemukan pola dalam kumpulan data yang besar. Tujuan keseluruhan dari proses data mining adalah untuk mengekstrakinformasi dari kumpulan data dan mengubahnya menjadi sebuah struktur yang mudah dimengerti untuk digunakan lebih lanjut. Istilah data mining relatif baru namun teknologi yang digunakan dalam proses data mining tidaklah baru. Dalam prosesnya, data mining melibatkan beberapa tugas (hal-hal yang bisa dilakukan dalam data mining) yaitu, deteksi anomaly, association rule, clustering, classification, regression, dan summarization. Masing-masing menerapkan algoritma yang berbeda untuk menyelesaikan tugasnya, meskipun ada beberapa algoritma yang digunakan di lebihdari satu tugas.
Data mining merupakan satu bidang ilmu komputer yang membahas tentang proses komputasi untuk menemukan pola dalam kumpulan data yang besar. Tujuan keseluruhan dari proses data mining adalah untuk mengekstrakinformasi dari kumpulan data dan mengubahnya menjadi sebuah struktur yang mudah dimengerti untuk digunakan lebih lanjut. Istilah data mining relatif baru namun teknologi yang digunakan dalam proses data mining tidaklah baru. Dalam prosesnya, data mining melibatkan beberapa tugas (hal-hal yang bisa dilakukan dalam data mining) yaitu, deteksi anomaly, association rule, clustering, classification, regression, dan summarization. Masing-masing menerapkan algoritma yang berbeda untuk menyelesaikan tugasnya, meskipun ada beberapa algoritma yang digunakan di lebihdari satu tugas.
Data mining merupakan satu bidang ilmu komputer yang membahas tentang proses komputasi untuk menemukan pola dalam kumpulan data yang besar. Tujuan keseluruhan dari proses data mining adalah untuk mengekstrakinformasi dari kumpulan data dan mengubahnya menjadi sebuah struktur yang mudah dimengerti untuk digunakan lebih lanjut. Istilah data mining relatif baru namun teknologi yang digunakan dalam proses data mining tidaklah baru. Dalam prosesnya, data mining melibatkan beberapa tugas (hal-hal yang bisa dilakukan dalam data mining) yaitu, deteksi anomaly, association rule, clustering, classification, regression, dan summarization. Masing-masing menerapkan algoritma yang berbeda untuk menyelesaikan tugasnya, meskipun ada beberapa algoritma yang digunakan di lebihdari satu tugas.
Abstrak Data mining merupakan satu bidang ilmu komputer yang membahas tentang proses komputasi untuk menemukan pola dalam kumpulan data yang besar. Tujuan keseluruhan dari proses data mining adalah untuk mengekstrakinformasi dari kumpulan data dan mengubahnya menjadi sebuah struktur yang mudah dimengerti untuk digunakan lebih lanjut. Istilah data mining relatif baru namun teknologi yang digunakan dalam proses data mining tidaklah baru. Dalam prosesnya, data mining melibatkan beberapa tugas (hal-hal yang bisa dilakukan dalam data mining) yaitu, deteksi anomaly, association rule, clustering, classification, regression, dan summarization. Masing-masing menerapkan algoritma yang berbeda untuk menyelesaikan tugasnya, meskipun ada beberapa algoritma yang digunakan di lebihdari satu tugas. Kata kunci: Data Mining, Data Mining Task, Algoritma.
1. PENDAHULUAN Data mining (langkah analisis Knowledge Discovery dan Data Mining proses, atau KDD), [1] suatu disiplin ilmu komputer, [2][3][4] yaitu proses komputasi untuk menemukan pola dalam kumpulan data yang besar yang melibatkan metode di perpotongan antara bidang kecerdasan buatan, machine learning, statistika, dan sistem database.[2] Tujuan keseluruhan dari proses data mining adalah untuk mengekstrak informasi dari kumpulan data dan mengubahnya menjadi sebuah struktur yang mudah dimengerti untuk digunakan lebih lanjut.[2] Selain dari langkah analisis mentah, melibatkan database dan aspek pengolahan data, data pra-pengolahan, model dan inferensi pertimbangan, metrik ketertarikan, pertimbangan kompleksitas, pasca-pengolahan dari struktur yang ditemukan, visualisasi, dan perbaruan online.[2] Pihak lain mengartikan data mining (kadang-kadang disebut data atau penemuan pengetahuan) sebagai proses menganalisis data dari perspektif yang berbeda dan meringkas menjadi informasi yang berguna - informasi yang dapat digunakan untuk meningkatkan pendapatan, mengurangi biaya, atau keduanya. Software Data mining adalah salah satu dari sejumlah alat-alat analisis untuk menganalisis data. Hal ini memungkinkan pengguna untuk menganalisis data dari berbagai dimensi atau sudut, mengkategorikan, dan meringkas hubungan diidentifikasi. Secara teknis, data mining adalah proses menemukan korelasi atau pola antara puluhan field dalam database relasional yang besar.[5] Meskipun data mining adalah istilah yang relatif baru, namun teknologinya tidak. Perusahaan telah menggunakan komputer canggih untuk menyaring data scanner supermarket dan menganalisis laporan riset pasar selama bertahun-tahun. Namun, inovasi terus-menerus dalam performa pemrosesan komputer, media penyimpanan, dan perangkat lunak statistik secara dramatis meningkatkan akurasi analisis saat menurunkan biaya.[5]
2. DATA MINING TASK Data mining melibatkan enam jenis tasking [6], yaitu: Anomaly detection: identifikasi dari rekaman data aneh yang mungkin saja menarik atau data error yang membutuhkan penyelidikan lebih lanjut. Association rule learning: Mencari hubungan antar variable. misal sebuah toko mengumpulkan data tentang barang yang biasa dibeli. dengan menggunakan association rule learning, toko tersebut dapat menentukan produk apa yang biasanya dibeli bersama-sama dan menggunakannya sebagai bahan pertimbangan. Clustering: Tugas menemukan kumpulan dan struktur didalam data yang dirasa mirip, tanpa menggunakan struktur yang sudah diketahui didalam data. Classification: tugas menggeneralisasikan struktur yang telah diketahui untuk diaplikasikan ke data baru. misal program email bermaksud untuk mengklasifikasikan email kedalam inbox atau spam. Regression: upaya untuk menemukan function yang memodelkan data dengan kesalahan minimal. Summarization: menyediakan representasi data set yang lebih padat, termasuk visualisasi dan laporan generasi.
A. Anomaly Detection Dalam data mining, anomaly detection adalah pengidentifikasian dari item, event, atau observasi yang tidak sesuai dengan pola yang diharapkan atau item lain dalam dataset. Biasanya item yang anomali akan menjadi sebuah masalah seperti cacat struktural atau error. Anomali juga disebut sebagai outliers (asing), noveltiadalah es (baru) noise (bising), dan exception (pengecualian)
Algoritma dalam Anomaly Detection Algoritma yang dapat digunakan dalam anomaly detection adalah algoritma k-Nearest Neighbors, dan local outlier factor. [7]
B. Association Rule Mencari hubungan antar variable. misal sebuah toko mengumpulkan data tentang barang yang biasa dibeli. dengan menggunakan association rule learning, toko tersebut dapat menentukan produk apa yang biasanya dibeli bersama-sama dan menggunakannya sebagai bahan pertimbangan. Berikut beberapa algoritma yang bisa digunakan dalam metode association rule: [8] 1. Algoritma apriori Algoritma apriori merupakan sebuah algoritma pencarian pola yang sangat populer dalam teknik penambangan data (datamining). Algoritma ini ditujukan untuk mencari kombinasi item-set yang mempunyai suatu nilai keseringan tertentu sesuai kriteria atau filter yang diinginkan. Hasil dari algoritma ini dapat digunakan untuk membantu dalam pengambilan keputusan pihak manajemen.
2. Algoritma clat adalah salah satu metode kaidah asosiasi yang menggunakan perpotongan (intersection) antar transaksi ID List untuk mencari frequent item setnya untuk kemudian dibentuk rule agar dapat dijadikan rekomendasi.
3. Algoritma fp-growth Algoritma ini merupakan perluasan dari algoritma apriori yang telah ada sebelumnya, oleh karena setiap melakukan kombinasi item apriori akan menscan database berulang kali menyebabkan banyaknya waktu yang dibutuhkan untuk melakukan scanning database tersebut, apalagi bila jumlah datanya cukup besar, selain itu dibutuhkan generate candidate yang besar untuk mendapatkan kombinasi item dari database
C. Clustering Merupakan pengelompokan data yang memiliki kemiripan namun belum memiliki kelas. Clustering merupakan tugas utama eksplorasi dat mining, dan teknik biasa untuk statistical data analysis, digunakan pada banyak bidang, termasuk machine learning, pattern recognition, image analysis, information retrieval, dan bioinformatics. Beberapa algoritma dalam clustering yaitu connectivity based clustering, centroid-based clustering, distribution- based clustering, dan density-based clustering. [9]
D. Classification Menggeneralisasikan struktur yang telah diketahui untuk diaplikasikan ke data baru. misal program email bermaksud untuk mengklasifikasikan email kedalam inbox atau spam. Berikut ini 4 algoritma klasifikasi yang cenderung digunakan dalam pengembangan data mining: [10] 1. C45, merupakan algoritma dengan prioritas tertinggi menjadi pilihan developer data mining karena kecepetannya dalam mengklasifikasikan pohon keputusan selain kemampuannya dalam mengkonstruksi pengklasifikasian dengan aturan lainnya.
2. k-NN, k-NN dipilih salah satunya dikarenakan penggunaan pilihan k-nya. k yang sangat kecil dapat mengakibatkan noise, namun jika terlalu besar dapat menyebabkan n dengan banyak kelas yang harus diklasifikasikan. Algoritma k-NN mudah dipahami dan diimplemetasikan.
3. Naive bayes, memiliki kemudahan dalam konstruksinya dan tidak membutuhkan parameter skema pengulangan yang kompleks sehingga mudah dalam membaca data dengan jumlah yang besar. Naive bayes dinyatakan sebagai algoritma yang memiliki sifat simplicity, elegance, dan robustness.
4. CART, banyak digunakan di bidang-bidang yang membutuhkan pengolahan data yang komprehensif. Cart memiliki mekanisme bertingkat meliputi automatic class balancing, automatic missing, value handling cost-sensitive dan allows for learning, dynamic feature construction dan probability tree estimation sehingga tingkat kompleksitas menjadi pertimbangan para peneliti pemula.
E. Regression Regresi merupakan proses statistik untuk memperkirakan hunbungan antar variabel. Analisis regrsi mencakup banyak teknik untuk pemodelan dan menganalisis beberapa variabel, saat fokus ada pada hubungan antara variabel dependen dan satu atau lebih variabel variabel independen. Lebih spesifik lagi, analisis regresi membantu seseorang mengerti bagaimana nilai typical value dari variabel dependen berubah ketika salah satu variabel independen berganti-ganti, sedangkan variabel independen yang lain tidak berganti-ganti. Biasanya analisis regresi memperkirakan ekspektasi bersyarat dari variable dependen jika diberikan variabel independen - yang mana, nilai rata-rata dari variabel dependen jika variabel independen tidak berganti-ganti. Selain itu juga, walaupun kurang umum, fokus ada pada parameter lokasi lain dari distribusi kondisi variabel dependen jika diberikan variabel independen. Pada semua kasus, target estimasi adalah fungsi dari variabel independen yang disebut fungsi regresi. pada nalisis regresi, itu juga kadang disebut distribusi probabilitas. [11] Beberapa algoritma yang digunakan dalam analisis regresi adalah F. Summarization Merupakan proses mengurangi dokumen teks dengan program komputer untuk membuat ringkasan yang tetap memiliki poin-poin paling penting dari dokumen yang sebenarnya. Karena masalah information overload telah berkembang, dan juga kuantitas data telah bertambah, begitu pula keminatan pada automatic summarization. Teknologi yang dapat membuat ringkasan jelas memperhitungkan variabel sperti panjang data, gaya penulisan, dan sintaks. Misal seperti teknologi summarization adalah search engine seperti google. Contoh lain ialah document summarization. [12] Beberapa metode yang digunakan dalam summarization adalah extraction-based summarization, abstraction-based summarization, maximum entropy-based summarization, dan aided summarization.
DAFTAR REFERENSI [1] Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "From Data Mining to Knowledge Discovery in Databases". [2] "Data Mining Curriculum". ACM SIGKDD. [3] Clifton, Christopher (2010). "Encyclopdia Britannica: Definition of Data Mining". [4] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning: Data Mining, Inference, and Prediction". [5] Bill Palace. Data Mining: What is Data Mining?. [6] Wikipedia encyclopedia. Data Mining, Diakses tanggal 2 Maret 2014. [7] Wikipedia encyclopedia. Anomali Detection, Diakses tanggal 2 Maret 2014. [8] Wikipedia encyclopedia. Association rule learning, Diakses tanggal 2 Maret 2014. [9] Wikipedia encyclopedia. Cluster Analysis, Diakses tanggal 2 Maret 2014. [10] Subiyakto, Aang; Penggunaan Algoritma klasifikasi dalam Data Mining. [11] Wikipedia encyclopedia. Regression Analysis, Diakses tanggal 2 Maret 2014. [12] Wikipedia encyclopedia. Automatic Summarization, Diakses tanggal 2 Maret 2014.