Pendahuluan Data Mining: Apa sih Data Mining ?

Data mining” bagi sebagian orang istilah ini sudah tidak asing, tapi bagi sebagian yang lain, istilah Statistik lebih dikenal sebagai ilmu pengolahan data. Bahkan seringnya bagi masyarakat umum kata Data Mining diasosiasikan dengan pertambangan (mining). Well … Tidak sepenuhnya salah sih, karena memang Data Mining melakukan proses penambangan (mining), namun bukan mineral bumi yang di-mining, akan tetapi mining informasi/knowledge/pengetahuan yang bermanfaat dari data.

Data mining memiliki banyak kemiripan dengan Statistika, karena sama-sama bertujuan mengolah data untuk mendapatkan suatu kesimpulan/informasi darinya. Bahkan “akar/root” dari data mining adalah statistik. Akan tetapi tentu saja jika sama, maka istilah baru tidak perlu diperkenalkan. Ada beberapa perbedaan mendasar antara kedua bidang ilmu ini, mari kita bahas lebih lanjut.

[1]. Sumber Data

Di Statistika, data (sampel) biasanya diambil dari populasi lalu diolah dengan suatu metode statistika yang bersesuaian untuk kemudian mendapatkan suatu kesimpulan (hasil) dari modelnya [interpretasi/inferensi].

Data Mining umumnya mengolah data yang berasal dari observasi dan biasanya berukuran besar. Ukuran data yang besar tersebut ‘seringnya’ menjadi kendala bagi beberapa model Statistik tradisional. Sebut saja karena masalah memori komputer akibat perhitungannya, masalah stabilitas komputasi, dan masalah konvergensi pencapaian model yang optimal.

Jadi para Data Miner biasanya disuguhi data, jarang sekali di data mining dilakukan proses pengambilan data. Tentu saja ada kasus-kasus khusus (pengecualian), contohnya saja web mining. Web miner biasanya “crawl” data dari internet atau situs social media, untuk kemudian mengambil kesimpulan tentang pola belanja untuk kebutuhan perusahaan (advertisement), atau politik untuk kebutuhan strategi kampanye, atau kependudukan, kesehatan, dan lain-lain.

[2]. Bukan sekedar Pengolahan Data

Data Mining berkaitan dengan cukup banyak bidang ilmu lain: Matematika (terutama Optimasi), Computer Science [SI/TI], Kecerdasan Buatan [Machine Learning/Artificial Intelligence], Image Prosesing, Text Mining, NLP, Information Retrieval, dll. Data Mining (sering juga disebut Data Science) menggunakan pengetahuan di bidang database dan data warehouse di SI, pemrograman parallel/HPC [High Performance Computing] di TI, Pencarian pattern [Pola] di Machine Learning/Artificial Inteeligence/Image Processing, dan sebagainya. Secara konseptual keterkaitan berbagai bidang ilmu di datamining dapat dilihat pada bagan berikut:

DM

Keterkaitan Bidang Ilmu di Data Mining (Science). Picture taken from [1] & [2]

Perbedaan Data Mining dan Statistik berdasarkan besar dan format datanya dapat juga diilustrasikan dengan Tabel berikut [Pengertian data terstruktur dan tidak terstruktur akan dijelaskan pada tulisan lain].

Big Data

Data Mining dan Statistik dilihat dari bentuk dan besar data. Source of Picture: [3]

*Data Mining terkadang sering disebut juga sebagai KDD [Knowledge Discovery in Database] sebuah istilah yang umum digunakan di bidang kecerdasan buatan [AI-Artificial Intelligence].

Data Mining berusaha untuk mengatasi masalah data yang besar dengan mengembangkan algoritma atau model terkini agar pengolahan data yang besar tetap dapat dilakukan. Beberapa model di Data Mining sama dengan Statistika tradisional, mulai dari Regresi, Cluster [pengelompokan], maupun model-model klasifikasi. Akan tetapi model-model tersebut menjadi berbeda proses perhitungan dan interpretasinya mengingat domain data dan algoritma perhitungannya juga berbeda (Saya akan membuat tulisan lain yang akan menjelaskan lebih lanjut tentang hal ini).

[3]. Hipotesis
Perbedaan lain yang belum dijelaskan antara Statistik dan Data Mining adalah hipotesis (dugaan) yang akan di teliti. Di Statistik biasanya sejak awal sudah memiliki (sebuah) hipotesis yang jelas, lalu kemudian menentukan populasi, mengambil sample, lalu mengolah datanya dengan sebuah atau beberapa model Statistik untuk diambil kesimpulan.

Berbeda dengan Statistik, para Data Miner ‘biasanya’ tidak disodori atau diawali dengan suatu hipotesis di awal, tapi seonggok data yang biasanya besar, tidak terstruktur, noisy, terkadang bukan tabular, dan berformat yang beragam.  Para data miner “bersama” client kemudian mempelajari “domain knowledge” data tersebut dan mencoba menyusun “beberapa” hipotesis. Kemudian karena datanya  jarang sekali “siap saji” (tabular), sebuah proses panjang ‘pre-processing’ data biasanya dilakukan. Mulai dari transformasi data, noise removal, dimension reduction, atau proses-proses lainnya. Pre-processing data seringnya memakan waktu paling lama dari keseluruhan proses data mining. Di dalamnya termasuk merubah gambar, suara, log, xml, json, dokumen, dll ke bentuk data yang bisa digunakan oleh model statistik yang umum (tabular/tabel-tabel).

Setelah data siap untuk diolah, “model-model statistik*” digunakan untuk menguji semua hipotesis-hipotesis yang disusun sebelumnya untuk mendapatkan  sebanyak-banyaknya informasi yang berguna/bermanfaat  untuk client.

Sebagaimana layaknya Statistik yang terbagi menjadi Statistik Deskriptif dan Inferensi, maka Data Mining juga terbagi menjadi beberapa sub task/tipe. Dalam Data Mining terdapat proses EDA [Exploratory Data Analysis], Descriptive Modelling, Predictive Modelling [Regresi & Klasifikasi], Pencarian Patterns and Rules, dan Content Retrieval. Model-model tersebut juga akan dibahas dalam tulisan saya berikutnya (cek di link menu).

[4]. Definisi ????

Dari penjelasan diatas, sebenarnya kita bisa coba untuk menyimpulkan sendiri “apa sih sebenarnya Data Mining?”. Namun para ahli sekalipun berbeda pendapat tentang definisi Data Mining, tidak/belum ada kesepakatan umum akan hal ini (tidak terlalu penting juga untuk diperdebatkan). Berikut beberapa definisi Data Mining yang ada dari beberapa sumber sebagai contoh:

  1. Data mining adalah pencarian dan teknik analisa data yang besar untuk menemukan pola dan aturan yang berarti (Berry & Linoff, 2004: 7).
  2. Data mining adalah teknik untuk menganalisa sekumpulan data yang besar guna menemukan hubungan yang tidak diduga dan berguna bagi pemilik data  (Hand, 2001: 1).
  3. Data mining adalah proses untuk menemukan pola dan hubungan dalam suatu data (Hornick, 2007: 6).
  4. Data mining adalah suatu proses otomatis atau semi otomatis untuk menemukan informasi (knowledge) baru dan berpotensi dari sekumpulan data (Tang & Jamie, 2005:2).

[5]. Penutup dan Aplikasi

Data Mining terlahir lewat Statistik yang mendapatkan tantangan untuk memecahkan permasalahan terkini yang lebih kompleks dan besar. Selain itu, di data mining juga ada tantangan untuk dapat menggunakan teknologi-teknologi yang terbaru (NoSQL, Map Reuce, dll) secara tepat guna. Data Mining memegang peranan penting dalam berbagai aspek dalam kehidupan di masyarakat saat ini. Berikut beberapa contoh kecil aplikasi data mining di berbagai bidang:

Jika tertarik, berikut beberapa tulisan lain yang menjelaskan lebih lanjut tentang pendahuluan Data Mining:

  1. http://en.wikipedia.org/wiki/Data_mining
  2. http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/datamining.htm
  3. http://www.theatlantic.com/technology/archive/2012/04/everything-you-wanted-to-know-about-data-mining-but-were-afraid-to-ask/255388/
  4. http://docs.oracle.com/cd/B28359_01/datamine.111/b28129/process.htm
  5. PDF: www.cs.uiuc.edu/~hanj/pdf/ency99.pdf
  6. VIDEO: http://www.youtube.com/watch?v=R-sGvh6tI04

</TES>®~ 05 Feb 2013, revised: 08 July 2015
Daftar Referensi:

  1. Barry, A. J. Michael & Linoff, S. Gordon. 2004. Data Mining Techniques. Wiley Publishing, Inc. Indianapolis : xxiii + 615 hlm.
  2. Hand, David etc. 2001. Principles of Data Mining. MIT Press Cambridge, Massachusetts : xxvii + 467 hlm.
  3. Hornick, Mark F., Marcade, Erik & Vankayala, Sunil. 2007. Java Data Mining: Strategy,Standard, and Practice. Morgan Kaufman. San Francisco : xxi + 519 hlm.
  4. Tang, ZhaoHui & Jamie, MacLennan. 2005. Data Mining with SQL Server 2005. Wiley Publishing, Inc. Indianapolis : xvii + 435 hal

19 thoughts on “Pendahuluan Data Mining: Apa sih Data Mining ?

    • Maaf saya agak kurang memahami pertanyaannya, semoga jawaban saya tidak ngawur terlalu jauh :) Autokorelasi sebenarnya sama seperti korelasi biasa, bedanya ia korelasi ke dirinya sendiri (auto), yaitu ke observasi sebelumnya (lags). Sedangkan model time series (runtun waktu)-nya sendiri bisa Arima atau Vector Autoregressive tergantung permasalahannya. Tentu saja selain itu masih banyak model time series yang lain. Penggunaannya akan bergantung data dan hipotesis yang kita miliki.

  1. Pingback: Data Mining - Rivan Ghafara's blog

  2. tx pak, sy suka dengan contoh sederhananya saat jelasin konsepnya jd lebih mudah nyernanya …moga bapak dan keluarga senantiasa diberi kesehatan, rejeki yg lancar dan dimudahkan urusannya…sekali lagi tx pak

    • Aamiin, tsumma aamiin. Alhamdulillah, terima kasih banyak atas doa dan semangat yang diberikan. Insya Allah jadi penyemangat saya untuk lebih rajin lagi menulis. Tapi insya Allah setelah saya menyelesaikan beberapa deadline yang saat ini menghantui saya … :) … Sukses selalu juga ya untuk @Cahya Safira dan keluarga.

Leave a Reply