What is (not) big data?

Big data mungkin adalah salah satu istilah paling populer di bidang sains & teknologi beberapa tahun belakangan ini. Beralasan memang, mengingat perkembangan metode, teknologi, & dampak aplikasinya memang cukup besar baik di dunia industri, pendidikan, politik, penelitian, dan bahkan di dalam kehidupan sehari-hari masyarakat. Akan tetapi, tidak sedikit juga yang latah dalam menggunakan istilah ini, artikel kali ini membahas tidak hanya apa itu Big Data, tapi (lebih penting lagi) bilamana sebenarnya yang dibicarakan (teliti/kerjakan) bukanlah masalah Big Data.

“Jualan” istilah Big Data dan Resikonya

Istilah big data banyak digunakan secara berlebihan (abused) di beberapa situasi seperti konferensi/workshop, artikel ilmiah, artikel di media masa, dan bahkan di portfolio industri atau suatu jurusan di sebuah perguruan tinggi tertentu. Mengapa istilah big data sering digunakan secara berlebihan walau tidak pada tempatnya? setidaknya ada tiga alasan utama yang membuat istilah big data begitu menggoda untuk di-“abuse”:

  1. It’s a big business: Begitu banyak dana terkucur untuk pengembangan metode, teknologi, dan aplikasi terkait big data di pemerintahan maupun industri (swasta). Tidak sedikit perusahaan startup di bidang big data menjadi besar dalam waktu singkat karena pendanaan yang cukup fantastis (e.g. MongoDB). Negara-negara maju seperti Amerika, Autralia, dan Inggris; bahkan PBB (UN) tak akan segan-segan mengucurkan milyaran dolar setiap tahunnya untuk menjalankan program-program mereka yang berkaitan dengan big data, baik untuk keamanan nasional, pengentasan kemiskinan, pendidikan, ketahanan pangan, dsb.
    Big Data = Big Business

    Big Data = Big Business

  2. Seperti yang dilansir Forbes dan banyak media besar lainnya, data scientist (~big data) telah menjadi “the most sexy job” di tahun ini dan bahkan diprediksi akan tetap menjadi high demand job beberapa tahun ke depan.
    trends-analytics1
  3. Research trend: Karena banyak ‘open problem‘ di big data, publikasi ilmiah terkait big data menjadi relatif lebih mudah. Karena menjadi ‘hot topic‘, sitasi juga cenderung lebih mudah untuk didapatkan.

Lalu apa resikonya/salahnya/bahayanya kalau menggunakan istilah ini secara tidak tepat/berlebihan/tidak pada tempatnya? Menggunakan istilah big data yang tidak tepat akan menyesatkan, terutama di suatu artikel ilmiah, konferensi, atau portfolio suatu jurusan di perguruan tinggi.  Mereka yang baru belajar mengenai ilmu pengolahan data seperti mahasiswa tidak hanya akan mendapatkan pengertian yang salah tapi juga lebih bahaya lagi “arah” yang salah dalam mempelajari big data.

Suatu lulusan perguruan tinggi (PT) tertentu mungkin merasa percaya diri bahwa ia telah memiliki kemampuan (skill) di bidang big data melalui pendidikan formalnya. Namun kemudian kecewa ketika di dunia kerja skill yang ia dapat selama ini ternyata tidak seperti yang ia harapkan. Setelah belajar begitu banyak model statistik, pemrograman, dan database (datawarehouse) di bangku kuliah, ternyata saat menghadapi permasalahan “big data” yang sesungguhnya di dunia nyata, skill yang ia pelajari di bangku kuliah tidak dapat ia terapkan atau minimal masih sangat kurang dan baru menyadari bahwa kurikulum yang mereka pelajari selama ini salah arah.

Cukup banyak akademisi papan atas di negara-negara maju juga sudah aware tentang masalah abusing istilah big data ini. Tidak jarang ketika saya menghadiri beberapa konferensi/seminar internasional tentang big data, para profesor ‘mencibir’ mereka yang terlalu mudah menggunakan istilah big data baik di presentasi maupun paper-paper yang ditulis.

Lalu apa dong sebenarnya Big Data?

Pertama kali saya ingin menekankan terlebih dahulu bahwa big data tidak sama dengan sekedar data yang besar. Big data telah disepakati sebagai sebuah istilah (term) dan bukan sebuah kata (frase) bahasa inggris biasa (plain English). Dalam bahasa Inggris biasa, “data yang besar” terjemahan formalnya adalah “Large Data” bukan big data.

Big Data Cartoon

Copyright cartoon: Ted Goff dan D. Fletcher.

Big data sendiri didefinisikan secara berbeda-beda di kalangan akademisi (not written in stone). Wikipedia mencantumkan beberapa definisi, Forbes memuat setidaknya 12 definisi yang berbeda dari beberapa sumber. Kalau dari segi ukuran data, awalnya data berukuran Terrabyte sudah dianggap besar, namun sekarang Petabyte juga sepertinya sudah biasa. Namun demikian banyak yang keberatan jika masalah big data harus di batasi dengan menggunakan ukuran data.

Sejarah

Seperti yang dikutip dari artikel Forbes di atas, istilah “Big Data” pertama kali muncul pada sebuah publikasi ilmiah resmi tahun 1997 di sebuah paper ilmiah NASA. Pada tahun 2001 Doug Laney kemudian memperkenalkan tiga sifat big data yang sangat terkenal dan digunakan oleh banyak ahli (konsensus) sebagai salah satu komponen utama yang harus muncul pada pembahasan big data, yaitu 3 tantangan manajemen data besar – 3V: Volume, Variety, and Velocity. Tidak lama kemudian terdapat dua “V” tambahan (optional), yaitu Veracity (uncertainty) dan Value.  Veracity adalah penekanan terhadap kualitas data dan Value terkait nilai yang bisa didapat dari big data; mengingat infrastruktur, maintenance, dan operasional big data tidaklah murah.

Istilah big data mulai populer sejak tahun 2008 oleh beberapa peneliti ilmu komputer Amerika yang memprediksi dalam paper mereka bahwa komputasi big data akan membawa dampak besar di berbagai bidang (walau di paper tersebut mereka tidak mendefinisikan istilah big data computing :D ). Setelah itu, ratusan (kalau tidak ribuan atau bahkan lebih) artikel ilmiah maupun media masa sahut-menyahut mempopulerkan istilah big data. Hingga akhirnya semenjak sekitar tahun 2013 hingga saat ini aplikasi big data sudah cukup banyak ditemukan di industri swasta dan pemerintahan.

Properties of Big Data

Istilah dan ukuran big data memang belum (tidak) memiliki konsensus, namun ada kesepakatan bersama mengenai big data yang bisa digunakan sebagai koridor yang benar agar kita dapat menggunakan istilah big data dengan tepat atau tidak berlebihan dalam menggunakan istilah ini:

  1. The 3V: Volume, Variety, and Velocity adalah ‘constraint’ pertama yang membedakan apa itu big data sesungguhnya.  Menggunakan konsep 3V ini, perbedaan Big data dan Large data semakin jelas. “Large Data” hanyalah satu aspek dari Big Data, yaitu Volume atau ukuran data. Kalau hanya “sekedar” large data, maka teknologi NoSQL tidak akan berkembang dengan pesat seperti sekarang ini. Database relasional sebenarnya sanggup untuk menyimpan data yang besar (Notes: Facebook menggunakan MySQL walau mereka juga sepertinya sekarang agak menyesal/bermasalah akan hal itu).
    _
    Database (datawarehouse) konvensional mengalami berbagai permasalahan ketika harus berhadapan dengan 2V yang lainnya, yaitu Variety & Velocity.Dalam sebuah sistem big data, data terus bertambah secara cepat [velocity] (misal data media sosial atau data SMS sebuah perusahaan telekomunikasi). Selain itu data juga biasanya berbentuk semi-terstruktur atau bahkan tidak terstruktur seperti JSON atau dokumen, bahkan file media (baca lebih lanjut disini). Database relasional memiliki schema/struktur yang tetap/fixed, sedangkan NoSQL biasanya schemaless sehingga lebih cocok untuk data yang beragam dan tidak terstruktur.  Belum lagi solusi NoSQL biasanya cenderung lebih cost-friendly ketimbang solusi database relasional biasa.
  2. Karena 3V, maka data biasanya terdistribusi. Ini adalah sifat big data berikutnya. Memiliki sebuah database besar yang terpusat sudah mulai ditinggalkan. Biaya yang dibutuhkan untuk pusat data seperti itu terlalu besar dan tidak scalable. Tidak scalable dalam penjelasan sederhana artinya, ketika kelak datanya membesar maka para staff IT dan pimpinan perusahaan/institusi-nya akan pusing 7 keliling karena performa sistem mereka yang semakin menurun dan sulit untuk dicari solusinya (selain membuat sistem baru) .. :) ..
  3. Karena data terdistribusi maka baik pemrograman dan model statistik yang digunakan juga terdistribusi. Karena sangat penting mari kita bahas satu persatu.

Pemrograman terdistribusi: Pernah dengar Map Reduce? Map reduce adalah salah satu model pemrograman (parallel) untuk data yang terdistribusi. Itulah mengapa Map Reduce sering dikaitkan dengan pembahasan big data. Namun Map Reduce bukan satu-satunya solusi (tidak harus Map Reduce), sebenarnya sembarang pemrograman HPC yang menggunakan proses dan data terdistribusi dapat digunakan di big data. Namun dengan syarat tertentu (baca disini).

Statistik di Big Data: Satu asumsi dasar semua model statistik/data mining/machine learning/data science konvensional adalah datanya centralized (terpusat). Centralized data tidak lagi dipandang sebagai solusi efisien ketika datanya besar (baca disini).  Pemodelan statistik untuk data yang terdistribusi berbeda dengan ketika datanya berada di satu tempat.

Jika statistik konvensional hanya fokus pada optimal parameter untuk generalisasi ke populasi yang terbaik. Pada sistem dengan data terdistribusi, statistiknya juga dioptimalkan untuk komunikasi antar node yang minimal dan upaya untuk mencapai optimal global dari berbagai solusi parameter optimal local di node-node yang ada. Saya akan menjelaskan lebih detail di artikel yang lain. Namun paper berikut bisa dijadikan salah satu bacaan sebelum saya menulis artikel tersebut.

Teorema Hace

Teorema Hace

Jangan menggunakan algoritma/model statistik konvensional untuk big data, biasanya cuma akan membuat super komputer (HPC) perusahaan/institusi hang/crash/panas tanpa mendapatkan hasil atau mendapatkan hasil, namun jauh dari harapan. Biasanya hanya membuang-buang waktu dan resources saja. Kalau ternyata dipaksakan dan tidak masalah, maka perlu difikirkan kembali apakah masalah yang dihadapi benar-benar big data, atau sekedar large data.. :) …

Pengecualian (Exceptions)

Di dunia ini hampir segala sesuatu ada pengecualiannya, termasuk terkait big data. Mengapa pengecualian ini (harus/sebaiknya) muncul? Biasanya karena alasan pendidikan atau penelitian/riset. Big data di dunia industri memiliki harga mati, namun di dunia pendidikan ia masih bisa ditawar-tawar. Mengapa?

Industri atau pemerintahan yang menerapkan big data wajib menyelesaikan masalah dengan data yang sangat besar dan bertambah besar dengan cepat. Karena biaya investasi yang besar Return of Investment (RoI) yang baik dari sistem ini merupakan sebuah taruhan besar yang tidak bisa dianggap remeh.

Namun di dunia pendidikan hal tersebut tidak berlaku. Dunia pendidikan biasanya memiliki 2 keterbatasan besar: Dana & Data. Hanya sedikit institusi pendidikan yang memiliki infrastruktur big data yang mumpuni. Tidak banyak juga institusi pendidikan yang memiliki data yang besar “dengan” hak penggunaan (ethics) yang benar terhadap penggunaan data tersebut. Tapi di sisi lain industri dan pemerintahan membutuhkan para ahli big data yang diantaranya terlahir dari dunia pendidikan formal. Lalu apa yang bisa dilakukan?

  1. Data “sekedar” ratusan megabyte bisa digunakan untuk penelitian big data. Loh kok? … Sebuah paper ilmiah/penelitian menurut saya bisa dimaklumi melakukan penelitian terkait big data jika fokusnya ke model paralel dan terdistribusi atau paling tidak fokus pada scalability atau efisiensi, namun TIDAK hanya fokus pada akurasi/generalisasi seperti yang biasanya di lakukan di statistik tradisional.
  2. Meneliti secara teori suatu sifat Matematis/Statistik yang berbeda ketika datanya besar (saya juga akan membuat tulisan ini di lain waktu, karena ternyata jarang sekali yang membahas). Atau meneliti bagaimana memperbaiki performa (kecepatan/efisiensi komputasi/algoritma) suatu perhitungan, pemodelan, atau advance analysis tertentu (termasuk visualisasi).
  3. Penilaian performa waktu sebenarnya bisa tidak terlalu strict. Apa maksudnya? hasil penelitian yang disajikan dengan ukuran waktu (detik, menit, jam, atau hari) tidak harus menunjukkan hasil yang fantastis. Mengapa ? karena eksperimennya akan bergantung pada hardware dan software (tools/bahasa pemrograman) yang digunakan. Minimal terdapat 2 hal penting yang harus diperhatikan: Benchmark dan Speedup.

Benchmark artinya jika dibandingkan dengan model/algoritma lain (usahakan current state-of-the-art) maka model yang diajukan oleh sang peneliti lebih cepat.

Speedup artinya ketika resources yang digunakan lebih banyak (e.g. jumlah prosesor/computer nodes) maka pengurangan waktu/peningkatan efisiensi semakin baik (diusahakan semakin mendekati linier-linear speedups).

Penutup:

Kesalahan penggunaan istilah big data baik di artikel media masa dan ilmiah membawa dampak yang cukup serius terhadap perkembangan ilmu dan aplikasi terkait big data. Indonesia sendiri membutuhkan banyak ahli terkait big data saat ini dan di masa depan. Di awali dengan pemahaman yang tepat, maka pengembangan teori, teknologi, aplikasi, atau studi terkait big data dapat di salurkan ke arah yang tepat. Terutama dalam penyusunan kurikulum di perguruan tinggi dan berbagai diskusi  ilmiah di dalam workshop/konferensi.

</TES>® ~ Bne, 25122015

9 thoughts on “What is (not) big data?

    • Kalau maksudnya ada kalimat “Big Data adalah …” malah jadi debat kusir tak berujung … Karena tidak ada definisi yang fixed … cuma properties-nya jelas.

  1. pertayaan selanjutnya, apakah bisa lembaga seperti LPDP hanya sebagai pengguna Big Data, bukan pemilik Big Data tersebut? karena LPDP tdk memeiliki anggaran yg cukup untuk membuat infrastrukturnya dan juga memang bukan core bisnis nya

    • Most likely sebuah institusi besar adalah pemilik datanya. Untuk kepastiannya pastikan dengan bagian legal institusi tersebut. Mudahnya lihat di bagian “privacy policy/terms and agreement”. Kepemilikan dan pengelolaan data biasanya tidak terlalu masalah. Yang agak kompleks adalah legal dalam publikasi atau biasa disebut sebagai “research ethics”. Untungnya kalau sekedar summary dan hasil data, biasanya tidak masalah, asal intraceable dan tidak melanggar aturan privacy (faktor legal privacy agak rumit, tanya orang bagian hukumnya).

      Minimal ada 3 cara untuk menghindari membuat infrastruktur mahal Big Data:
      [1]. Third Party: Konsultan Big Data akan menganalisa datanya.
      [2]. Cloud Service: Google Big Query/Amazon AWS.
      [3]. Gunakan teknik paling efisien untuk mengolah Big Data, pakai metode yang seperti di artikel ini: http://sutanto.org/loci-vs-centroid/ saya sudah coba, bisa menganalisa (advance analytics seperti clustering/classification) ratusan giga data/hari dengan single PC biasa. Tapi datanya harus ter-indeks dengan baik di sistem informasi perusahaan.

Leave a Reply