-->

Halo !!! Saya Kang Ismet, ini adalah blog tentang AMP HTML dan cara penerapannya

Pengertian dan Penjelasan Data Mining

Ada beberapa penjelasan mengenai apa itu Data Mining.
Data mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar (Davies, 2004).

Data mining juga disebut sebagai serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data lain (Pramudiono, 2007)

Data mining sering juga disebut sebagai Knowledge Discovery in Database (KDD). KDD adalah kegiatan yang meliputi pengumpulan, pemakaian data histori untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar (Santoso, 2007)
Data mining adalah kegiatan menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse atau penyimpanan informasi lainnya.
Posisi Data Mining
Data mining berkaitan dengan bidang-bidang ilmu lain, seperti :
    Pengertian dan Penjelasan Data Mining
  1. Database system
  2. Data warehousing
  3. Statistic
  4. Machine learning
  5. Information retrieval
  6. High performance computing
  7. Neural networks
  8. Pattern recognition
  9. Spatial data analysis
  10. Image database
  11. Signal Processing
Karakteristik Data Mining
  • Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.
  • Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil yang lebih dipercaya.
  • Data mining  berguna untuk membuat keputusan kritis, terutama dalam strategi (Davies, 2004).
Pekerjaan/Fungsi Data Mining
  • Model Prediksi (prediction modelling)
  • Analisis Kelompok (cluster analysis)
  • Analisis Asosiasi (association analysis)
  • Deteksi Anomal (anomaly detection)
Tahapan Proses Data Mining1. Selection
Pada tahapan ini, user memilih data apa yang akan diproses oleh data mining. Pemilihan data ditentukan berdasarkan kebutuhan atau studi kasus yang diinginkan. Istilah data dalam data mining disebut sebagai dataset.

2. Preprocessing – Preprocessed Data
Sebelum data diolah ke tahap selanjutnya, data perlu dilakukan prerocessing terlebih dahulu. Tujuan preprocessing adalah agar meningkatkan performance dari teknik atau metode data mining. 

Ada beberapa tahapan preprocessing (preprocessed data) sebagai berikut :
  • Pembersihan Data (data cleaning) Merupakan proses menghilangkan noise dan data yang tidak konsisten atau tidak relevan (misalnya tidak relevan dengan hipotesa data mining). Pembersihan data ini akan mempengaruhi performansi teknik/metode data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.
Tahapan preprocessing (preprocessed data) selanjutnya adalah :
  • Integrasi Data (data integration) Merupakan penggabungan data dari berbagai database ke dalam satu database baru. Integrasi data dilakukan pada atribut-atribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis_produk, nomor_pelanggan, dan lainnya. Ilustrasi dalam database seperti primary key dan foreign key Harus dilakukan dengan cermat karena kesalahan integrasi data bisa menghasilkan hasil yang menyimpang bahkan menyesatkan pengambilan aksi nantinya.
3. Transformation – Transformed Data
Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining.  Beberapa data mining membutuhkan format data yang khusu sebelum bisa dilakukan. Contoh, metode analisis asosiasi dan clustering analysis hanya bisa menerima input data kategorikal. Sehingga data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval.

4. Data Mining – Patterns
Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan/pola berharga dan tersembunyi dari data.
Metode-metode data mining antara lain :
  • Model prediksi (prediction anlysis), contoh Nearest-Neighbor Classifier, Naïve Bayes Classifier, Artificial Neural Networks (ANN), Support Vector Machine (SVM), Fuzzy K-Nearest Neighbor (Fuzzy K-NN), dll.
  • Analisis Kelompok (cluster analysis), contoh K-Means, Hierarchical Clustering, DBSCAN, Fuzzy C-Means, Self-Organizing Map (SOM), dll
  • Analisis asosiasi (association analysis), contoh algoritma apriori.
  • Deteksi anomali (anomaly detection), contoh, K-Nearest Neighbor (KNN), Outlier Removal Clustering, dll.
5. Interpretation/Evaluation – Knowledge 
Hasil dari penggunaan metode/teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai dengan hipotesa ada beberapa alternatif yang diambil, seperti :
  • Menjadikan hasil yang diperoleh sebagai umpan balik untuk memperbaiki proses data mining
  • Mencoba metode data mining lain yang lebih sesuai
  • Menerima hasil tersebut sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.
6. Action  
Tahapan terakhir dari proses data mining adalah bagaiman memformulasikan keputusan atau aksi dari hasil analisis yang didapat. Ada kalanya harus melibatkan orang-orang yang tidak memahami data mining sehingga presentasi hasil data mining dalam bentuk pengetahuan harus bisa dipahami semua orang.