Pengertian Data Mining, Fungsi, Metode, Contoh Penerapan dan Permasalahannya


Berikut adalah pengertian data mining, fungsi, metode, contoh penerapan dan permasalahannya

A. PENGERTIAN
Data mining adalah suatu proses pengumpulan informasi penting dari suatu data yang besar dengan menggunakan metode statistika, matematika, hingga memanfaatkan teknologi artificial intelligence.

Nama alternatif data mining yaitu Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, dan lain-lain.

B. FUNGSI
2 fungsi utama data mining, yaitu:
  1. Descriptive (Fungsi deskripsi), yakni fungsi untuk memahami lebih jauh tentang data yang diamati. Dengan melakukan sebuah proses diharap bisa mengetahui perilaku dari sebuah data tersebut. Data tersebut itulah yang nantinya dapat digunakan untuk mengetahui karakteristik dari data yang dimaksud.
  2. Predictive (Fungsi prediksi), yaitu fungsi bagaimana sebuah proses nantinya akan menemukan pola tertentu dari suatu data. Pola-pola tersebut dapat diketahui dari berbagai variabel-variabel yang ada pada data.

Selain fungsi utama diatas, data mining memiliki fungsi alternatif lainnya, diantaranya:
  • Multidimensional concept description, yaitu berfungsi untuk menggeneralisasikan, meringkas, dan membedakan karakteristik data, dll.
  • Frequent patterns, association, correlation
  • Classification and prediction, yaitu menggambarkan dan membedakan kelas atau konsep untuk prediksi masa depan. Misalnya, mengklasifikasikan negara berdasarkan (iklim), atau mengklasifikasikan mobil berdasarkan (jarak tempuh gas)
  • Cluster analysis, yaitu membuat data grup untuk membentuk kelas baru, misalnya memaksimalkan kesamaan intra-kelas dan meminimalkan kesamaan antar kelas.
  • Outlier analysis, yaitu mendeteksi penipuan dan analisis peristiwa langka.
  • Trend and evolution analysis, yaitu trend dan penyimpangan, misalnya analisis regresi atau penambangan pola berurutan seperti kamera digital, atau analisis periodisitas dan analisis berbasis kesamaan.
  • Other pattern-directed or statistical analyses

C. METODE DATA MINING
Ada 2 metode Data mining untuk melakukan pengumpulan informasi yang akan membantu dalam proses menemukan data, yaitu:
a). Proses pengambilan Data
Proses atau tahapan-tahapan pengambilan data, yaitu:
  1. Data Cleansing, yakni proses dimana data-data yang tidak lengkap, mengandung error dan tidak konsisten dihapus dari koleksi data.
  2. Data Integration, yakni proses integrasi data dimana yang berulang akan dikombinasikan.
  3. Selection, yakni proses seleksi atau pemilihan data yang relevan terhadap analisis untuk diterima dari koleksi data yang ada.
  4. Data Transformation, yakni proses transformasi data yang sudah dipilih kedalam bentuk mining procedure melalui cara dan agresi data.
  5. Data Mining, yakni proses yang paling penting dimana akan dilakukan berbagai teknik yang diaplikasikan untuk mengekstrak berbagai pola-pola potensial untuk mendapatkan data yang berguna.
  6. Pattern Evolution, yakni sebuah proses dimana pola-pola menarik yang sebelumnya sudah ditemukan dengan identifikasi berdasarkan measure yang telah diberikan
  7. Knowledge Presentation, yakni merupakan proses tahap terakhir, yaitu digunakan teknik visualisasi yang bertujuan membantu user mengerti dan menginterpretasikan hasil dari penambangan data.
b). Teknik dalam Proses Penambangan Data
Beberapa macam teknik yang digunakan dalam proses penambangan data, diantaranya:
  1. Predictive Modeling. Terdapat dua teknik yaitu Classification dan Value Prediction Database Segmentation, yakni teknik melakukan partisi database menjadi sejumlah segmen, cluster, atau record yang sama
  2. Link analysis, yaitu teknik untuk membuat hubungan antara record yang individu atau sekumpulan record dalam database.
  3. Deviation detection, yaitu teknik untuk mengidentifikasi outlier yang mengekspresikan sebuah deviasi dari ekspektasi yang sudah diketahui sebelumnya.
  4. Nearest Neighbour, yaitu teknik yang memprediksi pengelompokan, teknik ini sendiri merupakan teknik yang tertua yang digunakan dalam data mining.
  5. Clustering, yaitu teknik untuk mengklasifikasikan data berdasarkan kriteria masing-masing data.
  6. Decision Tree, yaitu teknik generasi selanjutnya, dimana teknik ini adalah sebuah model prediktif yang dapat digambarkan seperti pohon. Setiap node yang terdapat dalam struktur pohon tersebut mewakili sebuah pertanyaan yang digunakan untuk menggolongkan data.

D. CONTOH PENERAPAN
Contoh penerapan data mining di beberapa sektor, antara lain:
a) Market Analysis dan Management
Dalam sektor pemasaran biasanya data mining digunakan untuk Pemasaran target, manajemen hubungan pelanggan (CRM), analisis pasar, cross selling, segmentasi pasar.
  • Target Pemasaran, misalnya menemukan kelompok pelanggan “model” yang memiliki karakteristik yang sama: minat, tingkat pendapatan, kebiasaan belanja, dll atau menentukan pola pembelian pelanggan dari waktu ke waktu.
  • Analysis lalu lintas pasar, menemukan hubungan antar produk penjualan, dan prediksi berdasarkan asosiasi tersebut.
  • Profiling pelanggan, jenis pelanggan apa yang membeli produk apa (pengelompokan atau klasifikasi)
  • Analisis kebutuhan pelanggan, misalnya identifikasi produk terbaik untuk berbagai kelompok pelanggan, memprediksi faktor apa yang akan menarik pelanggan baru, penyediaan informasi ringkasan, laporan ringkasan multidimensi, informasi ringkasan statistik (kecenderungan dan variasi pusat data)
b) Corporate Analysis & Risk Management
Penerapan data mining dalam sektor perusahaan biasanya digunakan untuk prediksi, retensi pelanggan, underwriting yang lebih baik, kontrol kualitas, analisis kompetitif.
  • Perencanaan keuangan dan evaluasi aset, misalnya analisis dan prediksi arus kas, analisis klaim kontinjensi untuk mengevaluasi aset, analisis cross-sectional dan time series (rasio keuangan, tren analisis, dll.)
  • Planning Perencanaan sumber daya, misalnya merangkum dan membandingkan sumber daya dan pengeluaran
  • Persaingan, misalnya memantau pesaing dan arah pasar, mengelompokkan pelanggan ke dalam kelas dan penetapan harga berbasis kelas prosedur, dan mengatur strategi penetapan harga di pasar yang sangat kompetitif.
c) Fraud Detection & Mining Unusual Patterns
Data mining juga berfungsi untuk mencari dan mendeteksi fraud pada sebuah sistem. Dengan menggunakan data mini maka akan bisa melihat dari jutaan transaksi yang masuk.
  • Pendekatan: clustering dan konstruksi model untuk penipuan, analisis outlier
  • Aplikasi: layanan kesehatan, ritel, layanan kartu kredit, telecomm. Misalnya asuransi otomatis, pencucian uang, asuransi kesehatan, telekomunikasi, analisis pola yang menyimpang dari norma yang diharapkan, industri retail, dll.

E. PERMASALAHAN
Kendala dan permasalahan dalam mengumpulkan informasi dan melakukan penambangan data saat melakukan penambangan data, antara lain :
a) Metodologi Mining
  • Menambang berbagai jenis pengetahuan dari berbagai tipe data
  • Kinerja: efisiensi, efektivitas, dan skalabilitas
  • Evaluasi pola: masalah ketertarikan
  • Memasukkan pengetahuan latar belakang
  • Menangani kebisingan dan data yang tidak lengkap
  • Metode penambangan paralel, terdistribusi dan tambahan
  • Integrasi pengetahuan yang ditemukan dengan yang ada: fusi pengetahuan
b) User interaction
  • Bahasa kueri penambangan data dan penambangan ad-hoc
  • Ekspresi dan visualisasi hasil penambangan data
  • Penambangan pengetahuan interaktif di berbagai tingkatan abstraksi
c) Applications and social impacts
  • Penambangan data khusus domain & penambangan data tak terlihat
  • Perlindungan keamanan data, integritas, dan privasi