Basic Data : Apa itu Data, Dark Data dan Data Science
Apa itu Data
Data adalah kumpulan fakta yang berisi informasi. Entah apapun format atau bentuknya, misalnya dalam format angka, deskripsi artikel, tabel sheet seperti excel, gambar, video, atau yang lainnya, selama itu berupa fakta yang mengandung informasi, itulah Data.
Oleh karena itu, Data ada di mana-mana. Data tersedia dalam berbagai struktur dan juga format. Memahami data dan menjelajahinya dapat mengungkapkan fakta menarik, serta akan membantu kita mendapatkan wawasan dan insight baru.
Konsep Data, Dark Data, dan AI
Hasil dari IBM research tahun 2015, menunjukkan bahwa dunia akan kehabisan programmer, karena tidak mungkin kita bisa memprogram dengan mengikuti skala, kecepatan serta pertumbuhan data yang tumbuh secara eksponensial. Oleh karena itu IBM melakukan research besar-besaran untuk menempuh jalan lain yaitu dengan mengembangkan Cognitive Artificial Intelligence.
Dan mengapa jalan itu yang dipilih? Apa tujuan sebenarnya dari Artificial Intelligence? Bukan untuk mereplikasi otak manusia secara utuh (seperti di film science fiction dimana AI akan menghancurkan kehidupan manusia) akan tetapi untuk membentuk sistem yang dapat menangani data dalam jumlah besar dengan ide yang terinspirasi dari cara kerja otak manusia.
Lantas mengapa banyaknya data tersebut seakan-akan "sangat urgent" untuk segera diolah?
Karena Data tersebut tidak hanya sekedar data yang bisa kita lihat, nyatanya banyak data yang “invisible”, tidak dapat dipahami (unstructured data). Dan hal itu seolah-olah menjadi misteri atau rahasia, karena kita tidak dapat memahaminya. Misalnya data noise atau data yang berformat aneh yang tidak dapat dibaca. Data-data tersebut diistilahkan sebagai “Dark Data”. Dan persentase Dark Data tersebut nilainya 80% dari data keseluruhan di tahun 2015 dan diprediksi meningkat menjadi 90% di tahun 2020.
Dark data harus segera dipecahkan atau “dirangkul” untuk bisa segera kita mengerti apa yang terkandung di dalamnya. Karena jika tidak, maka kita tidak akan pernah tahu data tersebut menunjukkan isyarat bahaya kah untuk kita? atau sebuah informasi berharga yang lain untuk memperbaiki kehidupan kita? Jangan sampai kita terlambat menyadari dan terkena bahaya tersebut hanya karena kita belum bisa memanfaatkan Dark Data tersebut.
Untuk itu dibutuhkan mesin yang dapat membantu pekerjaan manusia dalam mengeksplorasi dark data sehingga diharapkan dapat ditemukannya informasi-informasi berharga ataupun solusi-solusi dari pertanyaan di dunia yang belum terpecahkan saat ini. Sehingga tujuan utama dari Cognitive Computing adalah terciptanya sinergi antara manusia dan mesin (AI) di masa depan.
Apa itu Data Science
Data Scientist atau ilmuwan data adalah orang yang dapat menarik “harta karun” dari data yang berantakan/tidak terstruktur (Dark Data) untuk membuat, mencari atau menemukan informasi yang berguna. Ilmu tersebut dinamakan Data Science. Menurut IBM Corporation, Data Science merupakan suatu proses untuk memahami dunia dan segala hal yang berkaitan dengan data tersebut.
Ilmu ini sangat penting bagi perusahaan, karena sukses tidaknya sebuah perusahaan bergantung pada keputusan yang diambil. Dan untuk mengambil keputusan yang tepat dibutuhkan kemampuan yang baik dalam memprediksi masa depan. Dan prediksi itu bisa dilakukan dengan pendekatan Data Science.
Dengan Data Science, segala kemungkinan dan pertimbangan menjadi terlihat jelas karena didasarkan pada fakta yang terdapat dari Data. Data akan memperkuat alasan serta argumen dalam mengambil keputusan secara mantap dan pasti. Dengan peran Data Science, perusahaan dapat menghilangkan kemungkinan-kemungkinan yang tidak pasti. Dan rata-rata saat ini seorang Data Scientist juga menguasai Machine Learning (ML) atau Artificial Intelligence AI untuk memudahkan serta mempercepat pekerjaan mereka.
Pada intinya, Data Science merupakan penerapkan metode ilmiah untuk memecahkan masalah bisnis. Dalam pemecahan masalah bisnis tersebut menggunakan kecerdasan buatan untuk membuat prediksi, model serta untuk mengoptimalisasi sebuah sistem.
Sejarah Singkat Data Science
Data Science muncul pada pertengahan tahun 1980 sampai 1990 ketika beberapa guru besar dan profesor statistika dunia melihat dan mereview kurikulum statistika pada saat itu. Kemudia mereka memutuskan bahwa Data Science menjadi ilmu yang berdiri sendiri dan mulai berkembang secara mandiri hingga pada tahun 2009, Data Science mulai terkenal hingga sekarang.
Yang Harus Dimiliki Seorang Data Scientist
Karakteristik Data Scientist
- Ability to Tell The Story
Data Scientist yang baik harus bisa menjelaskan insight, informasi serta solusi yang terkandung di dalam Data dengan baik hingga dapat dipahami oleh user atau orang lain. - Curiosity
Data Scientist harus memiliki ketertarikan akan Data. Sehingga menimbulkan rasa penasaran terhadap Data serta informasi apa yang terkandung di dalamnya. - Extremely Argumentative
Data Scientist harus bisa membuat argumen yang kuat. Namun argumen tersebut harus mengiringi atau membersamai suatu case yang didasarkan pada data. - Judgemental
Artinya ketika melihat sebuah data, kita harus bisa langsung memulai hipotesis awal, akan tetapi kita juga harus bisa melihat data secara objektif.
Technical Skill Data Scientist
- Analytics
Pemecahan masalah, analisa dan eksplorasi data. - Visualization
Menampilkan data secara baik dan mudah dimengerti. - Statistic
Ilmu untuk menganalisa dan menginterpretasi data. - Machine Learning
Teknologi yang bisa melakukan proses pembelajaran secara mandiri. - Programming
Tools untuk mengolah data, seperti SQL, Python, R, dll.
Metodologi Data Science dan Contohnya
Proses tahapan atau Metodologi Data Science tidak selalu sama untuk setiap case nya, tergantung apa tujuan, bagaimana jenis datanya, dll. Namun secara umum Metodologi Data Science adalah sebagai berikut :
- Pemahaman Bisnis (Business Understanding)
Metodologi Data Science dimulai dengan pemahaman bisnis. Dengan memahami bisnisnya, diharapkan tujuan dapat ditentukan dengan jelas dan bisa berfokus untuk menggali informasi yang hanya dibutuhkan saja. Misalkan tujuannya adalah menampilkan prediksi penjualan untuk tahun depan, atau untuk membuat model yang dapat memprediksi diagnosa penyakit. - Pendekatan Analitik (Analytical Approach)
Setelah menemukan pemahaman mengenai tujuan bisnisnya, analisa dilakukan untuk mencari jalan awal untuk menemukan tahapan keseluruhan proses selanjutnya. Sehingga harapannya kita mendapatkan informasi data apa saja yang dibutuhkan, lalu mau diapakan data tersebut hingga mencapai tujuannya. - Pemahaman Kebutuhan Data
Kebutuhan data berbeda-beda tergantung dari tujuan bisnisnya, misalkan tujuannya adalah untuk menentukan bagaimana target pasar untuk tahun depan agar penjualan produk dapat maksimal, maka kita membutuhkan data penjualan di tiap region untuk dibandingkan, lalu data penjualan selama beberapa tahun terakhir dan semacamnya. - Pengumpulan Data (Data Collecting)
Setelah kebutuhan data dikehatui, maka pengumpulan data dilakukan. Pengumpulan dilakukan pada database perusahaan, atau jika ingin melakukan penelitian kita bisa mendapatkan data dari sumber-sumber open source seperti Kaggle. - Pemahaman Data (Data Understanding)
Setelah data yang dibutuhkan sudah tersedia dan siap diolah, langkah pertama adalah melihat data tersebut, menyisir data dan memahaminya semakismal mungkin. Biasanya tools yang digunakan pada tahap ini adalah Python. - Persiapan Data (Data Preprocessing)
Persiapan data rata-rata dilakukan untuk membersihkan data. Kenapa data harus dibersihkan terlebih dahulu? Karena seringkali data yang didapat mengandung banyak nilai error, seperti data kosong, ataupun data duplicate. Data tersebut bisa merusak analisa dan mempengaruhi hasil akhir, sehingga perlu di proses terlebih dahulu hingga "bersih" dan siap untuk diolah lebih lanjut. - Pemodelan (Modelling)
Setelah data dibersihkan dan siap untuk diolah lagi, lalu dilakukan pemodelan. Ada dua macam pemodelan yaitu : - Pemodelan Deskriptif, yaitu pemodelan untuk memvisualisasikan data dalam bentuk chart chart agar lebih mudah dibaca.
- Pemodelan Prediktif, yaitu pemodelan untuk menunjukkan trend perkiraan untuk masa depan yang didasarkan pada data yang diolah. Biasanya juga digunakan beberapa metode forcasting serta Machine Learning di tahap ini.
- Evaluasi (Evaluation)
Setelah dimodelkan baik itu visualisasi maupun prediktif, maka kita perlu melihat hasilnya. Apakah dari model ini score akurasinya bisa dipercaya atau tidak? Misalnya kita menggunakan salah satu metode Machine Learning, berapa score setelah Machine Learning tersebut melakukan Training? Jika misal dihasilkan 85%, apakah kita akan percaya dengan score tersebut, atau mencari model Machine Learning lain agar nilainya dapat lebih tinggi. - Pengembangan Aplikasi (Development)
Tahap ini sebenarnya opsional, boleh dilakukan atau tidak. Setelah selesai dilakukan tahap pemodelan terakhir menggunakan Machine Learning atau metode Forcasting lain, artinya kita sudah memutuskan untuk menggunakan model dari metode tersebut dalam menentukan keputusan, lalu setelah itu kita dapat membuat sebuah aplikasi untuk lebih memudahkan input data baru.
Sebagai contoh dibidang kesehatan, kita telah menentukan menggunakan metode Machine Learning Light GBM untuk menentukan jenis penyakit yang diderita pasien yang didasarkan pada database riwayat penyakit pasien 10 tahun kebelakang. Kemudian untuk memudahkan dokter dalam menggunakan model tersebut, maka dibuatlah aplikasi agar dokter tersebut dapat memasukkan riwayat penyakit pasien baru tersebut sebagai input, dan model tersebut memberikan output diagnosa prediksi penyakitnya. - Feedback
Seiring berjalannya waktu dan bertambahnya data baru, maka Feedback harus selalu dilakukan untuk mengupdate model yang sudah kita buat. Update model ini dilakukan dengan cara melatih lagi model machine lerarning sebelumnya. Apakah score nya mengalami penurunan sehingga mempengaruhi akurasinya, maka kita perlu mencari model lain sehingga dapat meningkatkan akurasinya lagi.
Menurut Harvard Business, Data Scientist menjadi pekerjaan yang paling "seksi" di abad 21, karena pertumbuhan data yang sangat pesat. Dan bidang dari data science ada banyak sekali, diantaranya adalah :
Sekian penjelasan mengenai Basic Data, Dark Data dan Data Science. Dalam artikel selanjutnya akan dijelaskan mengenai Python, SQL, Artificial Intelligence (AI), Machine Learning (ML) serta hal menarik lainnya yang berkaitan dengan data. Terimakasih telah mambaca di Blog ini. Semoga dapat bermanfaat untuk Anda.