Memahami Konsep Data Mining dan Machine Learning Secara Sederhana

Konsep Data Mining dan Machine Learning

Setiap tahun, peternak susu di New Zealand harus membuat keputusan business yang sulit, sapi mana yang ditahan dikandang dan sapi mana yang dijual untuk dipotong. Biasanya, 20% dari sapi perah dipilih di penghujung musim setiap tahunnya agar cadangan pakan tercukupi. Keputusan ini diambil berdasarkan riwayat produksi susu dan melahirkan. Faktor lain termasuk usia (biasanya setelah usia 8 tahun sudah tidak produktif lagi), masalah kesehatan, riwayat kemudahan hamil dan melahirkan, temperamen yang tidak baik (seperti suka menendang dan melompati pagar). Ada 700 atribut yang diperhitungkan sebelum keputusan diambil dan jumlah sapinya bisa mencapai beberapa juta ekor. Tidak mudah tapi dapat dilakukan oleh peternak yang berpengalaman, tapi jangan bicara berapa lama keputusan diambil dan keseragaman keputusan tersebut.

Mungkin Anda bertanya kok bisa sampai diperoleh 700 atribut ? Itulah yang akan kita bahas dalam artikel kali ini.

Data Mining Adalah Mencari Pola

Sejak jaman dahulu manusia sudah terlatih mencari dan menyimpulkan pola dari suatu fenomena. Pemburu terbiasa melihat pola migrasi dari binatang yang diburunya. Petani dapat melihat pola pertumbuhan dari tanamannya. Politikus membaca pola dari opini pemilihnya, dan kita bisa membaca pola dari reaksi calon pasangan kita bukan ?. Tugas seorang ilmuwan adalah memahami suatu fenomena, untuk mencari pola yang mengakibatkan fenomena itu terjadi, semua dibungkus dalam teori yang dapat digunakan untuk memprediksi apa yang akan terjadi di kemudian hari apabila pola yang sama muncul.

data mining
data mining

Fenomena adalah kejadian, dan kejadian adalah data historis yang dicatat dan ditelaah. Dalam era komputer saat ini, data historis tersimpan secara elektronis sedemikian rupa sehingga secara otomatis mudah dicari, diidentifikasi, divalidasi, dan digunakan untuk prediksi. Data yang tersimpan dari waktu ke waktu semakin bertambah dalam jumlah yang tidak sedikit. Proses pencarian pola menjadi tidak mudah dan menjadi satu bidang yang semakin menjadi perhatian karena pentingnya hasil analisa ini. Ya, Data Mining, yakni suatu proses pekerjaan mengolah data yang besar “Big Data” untuk mencari pola. Proses ini terjadi secara otomatis atau semi otomatis. Hasil dari olahan data ini tentunya diharapkan memberikan keuntungan secara ekonomis dan polanya didukung dengan data yang besar.

Input dan Output

Dalam mencari pola, perlu adanya fakta pendukung atas fenomena yang diamati. Ada tidaknya fakta pendukung ini yang menentukan apakah pola secara struktural dapat diperoleh. Secara sederhana pola sebagai ouput harus didukung data terstruktur yang menjadi inputnya.

durian dan machine learning
durian dan machine learning

Sekarang kita ambil contoh yang lain. Sampai saat ini rasanya sulit bagi saya untuk mendapatkan durian yang isinya pahit manis, rasa yang paling disukai kebanyakan orang. Bayangkan kalau kamu bisa jago memprediksi durian dengan rasa ini, kamu bisa menjual durian dengan harga yang lebih mahal. Sekarang cobalah beli 10 buah durian, dan upayakan memilih berdasarkan indera kamu. Lihat bentuknya, durinya, jarak antara duri, bau, warna dan lain-lain. Nah setelah puas memilih, buka dan catat hasil pengamatanmu termasuk hasil rasa durian yang diperoleh. Ok, ternyata dari 10 hanya 2 yang rasanya sesuai. Lain kesempatan coba beli lagi berdasarkan hasil pengamatan yang pertama. Masukkan lagi datanya dan amati hasilnya. Ternyata hasilnya lebih parah hanya 1 dari 10 yang rasanya sesuai. Jangan putus asa, coba lagi di lain kesempatan, catat lagi hasilnya. Begitu seterusnya. Apakah kamu sudah dapat menarik kesimpulan fisik durian seperti apa yang rasanya sesuai ? Belum ? Wah mungkin perlu dicari tahu durian dari mana itu. Jangan-jangan durian yang dibeli berbeda asalnya. Nah lho.

Contoh ini menunjukkan bahwa selama pola tidak ditemukan, maka perlu diamati lagi apakah ada data lain yang dibutuhkan.

Machine Learning

Karena ada keuntungan ekonomis kalau bisa memprediksi durian yang berasa pahit manis, maka kamu serius banget melakukan pengamatan mengenai hal ini. Setiap keluarga atau tetangga sekampung membeli durian, kamu melakukan pencatatan, dan semua data diinput di komputer. Nggak terasa ada ratusan ribu data durian berhasil kamu kumpulkan dalam beberapa tahun terakhir. wow.

Sekarang permasalahan analisa data menggunakan excel atau tools statistik seperti spss sudah semakin berat dan mungkin terasa kurang cocok dengan data yang kamu miliki. Kamu butuh yang lebih, dengan menulis algoritma program sendiri yang diharapkan setiap penambahan data, akan semakin mempertajam dalam mencari pola sesuai yang diharapkan. “Mesin” Komputer ini akan semakin tajam memprediksi tidak hanya durian yang memiliki rasa pahit manis tapi rasa-rasa yang lain. Itulah konsep Machine Learning.

Machine Learning akan mempermudah pengambilan keputusan kamu dalam memilih durian. Istilah-istilah yang digunakan sehubungan dengan machine learning, diantaranya :

  • Training Data – Data spesifikasi durian yang kamu input ke komputer
  • Feature – Atribut data durian seperti bentuk, duri, jarak antara duri, bau, warna dan lain-lain.
  • Output Variables – rasa manis pahit, manis, dan lain-lain.
  • Clustering, Classification and Regression – algoritma program yang mencoba untuk melakukan pengelompokan dan mencari korelasi dari setiap fitur yang ada.
  • Test Data – Durian yang baru dibeli coba kamu prediksi rasanya berdasarkan hasil analisa dari inputan sebelumnya.

Mengapa Ada Kata “Learning” pada Machine Learning ?

Korelasi atau hubungan antara input dengan output ternyata berjalannya waktu semakin banyak feature baru yang mempengaruhi. Misalnya kita baru sadar bahwa selama ini kita lupa memasukkan bahwa musim hujan atau kemarau ternyata juga berpengaruh pada rasa yang dihasilkan durian. Begitu seterusnya ternyata lokasi dimana pohon durian berada, struktur tanah, dan lain-lain perlu ditambahkan lagi. Muncullah istilah Reinforced Learning, yang menggambarkan bahwa berjalannya waktu algoritme program yang kamu buat harus terus disempurnakan karena adanya tambahan fitur, output variables dan mungkin yang lainnya.

 

 

Add a Comment

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *