Tugas Utama Data Mining – Kebanyakan aplikasinya, gol utama dari data mining adalah untuk membuat prediksi dan deskripsi. Prediksi menggunakan beberapa variabel atau field-field basis data untuk memprediksi nilai-nilai variabel masa mendatang yang diperlukan, yang belum diketahui saat ini. Deskripsi berfokus pada penemuan pola-pola tersembunyi dari data yang ditelaah. Dalam konteks KDD, deskripsi dipandang lebih penting daripada prediksi4. Ini berlawanan dengan aplikasi pengenalan pola dan mesin belajar. Prediksi dan deskripsi pada data mining dilakukan dengan tugas-tugas utama yang akan dijelaskan di bawah ini. Pada setiap tugas akan diberikan pointer ke masalah bisnis yang dapat diselesaikan. Gambar-gambar yang ada dimisalkan menunjukkan hubungan antara penghasilan pengecer dan kekurangan pembayaran yang ditanggung oleh distributor (pemasok barang).
- Klasifikasi adalah fungsi pembelajaran yang memetakan (mengklasifikasi) sebuah unsur (item) data ke dalam salah satu dari beberapa kelas yang sudah
- Regresi adalah fungsi pembelajaran yang memetakan sebuah unsur data ke sebuah variabel prediksi bernilai nyata. Aplikasi dari regresisi ini misalnya adalah pada prediksi volume biomasa di hutan dengan didasari pada pengukuran gelombang mikro penginderaan jarak jauh (remotely-sensed), prediksi kebutuhan kustomer terhadap sebuah produk baru sebagai fungsi dari pembiayaan advertensi, dll.
- Pengelompokan (clustering) merupakan tugas deskripsi yang banyak digunakan dalam mengidentifikasi sebuah himpunan terbatas pada kategori atau cluster untuk mendeskripsikan data yang ditelaah. Kategori-kategori ini dapat bersifat eksklusif dan ekshaustif mutual, atau mengandung representasi yang lebih kaya seperti kategori yang hirarkis atau saling menumpu (overlapping).
- Peringkasan melibatkan metodologi untuk menemukan deskripsi yang ringkas dari sebuah himpunan data. Satu contoh yang sederhana adalah mentabulasikan mean dan deviasi standar untuk semua field-field tabel.
- Pemodelan Kebergantungan adalah penemuan sebuah model yang mendeskripsikan kebergantungan yang signifikan antara variabelvariabel. Model kebergantungan ini ada di 2 tingkat: tingkat struktural yang menspesifikasikan variabelvariabel yang secara local bergantung satu sama lain, dan tingkat kuantitatif yang menspesifikasikan tingkat kebergantungan dengan menggunakan skala numerik.
- Pendeteksian Perubahan dan Deviasi berfokus pada penemuan perubahan yang paling signifikan di dalam data dari nilai-nilai yang telah diukur sebelumnya.
Komponen Algoritma Data Mining
Setelah tugas-tugas utama dari data mining didefinisikan seperti di atas, maka perlu dirumuskan algoritma-algoritma untuk mencari solusi dari tugas-tugas tersebut di atas. Dalam setiap algoritma data mining ada tiga komponen utama yaitu representasi model, evaluasi model dan metodologi pencarian.
- Representasi Model adalah bahasa untuk mendeskripsikan pola-pola yang dapat ditemukan. Jika representasi terlalu terbatas, maka tidak akan ada jumlah waktu pelatihan maupun sampel yang mencukupi, yang akan menghasilkan model yang akurat untuk data.
- Evaluasi Model mengestimasi tingkat kecocokan sebuah pola tertentu untuk memenuhi kriteria pada proses KDD. Evaluasi pada keakuratan prediksi (validasi) didasarkan pada validasi silang. Evaluasi kualitas deskriptif berkaitan dengan akurasi, kebaruan, utilitas dan kemampuan untuk dipahami dari model yang diterapkan. Kriteria logika dan statistik dapat digunakan untuk evaluasi model.
- Metodologi Pencarian terdiri dari dua komponen: pencarian parameter dan pencarian model. Pada pencarian parameter, algoritma harus mencari parameterparameter yang mengoptimisasi kriteria evaluasi model dengan tersedianya data yang diobservasi dan representasi model yang tetap. Pencarian model terjadi sebagai sebuah loop di atas metodologi pencarian parameter : representasi model diubah sehingga dibentuk satu keluarga model-model
Untuk setiap representasi model, metodologi pencarian parameter diinstansiasi untuk mengevaluasi kualitas dari model itu. Implementasi metodologi pencarian model cenderung untuk menggunakan teknik pencarian heuristic.