CRISP-DM, Pendekatan Proses dalam Data Mining
Berdasarkan polling yang dilakukan oleh Kdnugget.com pada tahun 2014 dimana dibandingkan dengan poling yang telah dilakukan pada tahun 2007 didapatkan sebuah hasil yang tidak berbeda jauh terkait metodologi yang digunakan pada proses Data Mining
Dari gambar 1 di atas dapat dilihat bahwa CRISP-DM merupakan metode yang paling banyak digunakan, diikuti oleh Metode yang dikembangkan user sendiri serta SEMMA. CRISP-DM sebagai metode awal — diperkenalkan pertama kali tahun 1996 — dengan 6 tahapan adalah metode yang masih cukup baik dalam proses analitis akan tetapi perlu dikembangkan perihal detail dan spesifikasinya. Akan tetapi, CRISP-DM telah lama tidak di-maintain (tidak aktifnya situs asli crisp-dm.org) dan disesuaikan dengan tantangan big data dan data sains modern. Tingginya penggunaan metode yang dikembangkan sendiri dikarenakan semakin berkembangnya teknologi dan kebutuhan akan pengolahan data mining yang semakin meningkat menjadi alasan mengapa cukup bervariasi metode untuk Data analitis yang digunakan dan dikembangkan.
CRISP-DM memiliki kepanjangan Cross-Industry Standard Process for Data Mining adalah sebuah metode data mining yang dikembangkan bersama antara Daimler-Chrysler, SPSS, dan NCR dimana dari Namanya merupakan sebuah metode netral dan dapat digunakan dalam segala lini bisnis dan berbagai tool.
Sebagai sebuah metodologi, CRISP-DM menggambarkan fase dari tahapan — tahapan dalam sebuah proyek, pekerjaan yang terkait dalam tiap fase dan penjabaran terkait hubungan antar pekerjaan tersebut serta memberikan sebuah gambaran siklus hidup (life-cycle) dari Data Mining bila dilihat sebagai Model Proses.
Dari penggambaran tersebut metode ini memberikan sebuah proses standar yang bersifat umum atau tidak eksklusif dalam strategi pemecahan masalahdalam sebuah unit bisnis atau penelitian dengan menggunakan Data Mining yang sesuai atau tepat.
Pada metode CRISP-DM ini memiliki 6 model tahapan seperti pada gambar 2 dalam keseluruhan proses data mining yaitu:
a. Business/Research Understanding: Melakukan pengumpulan data perihal Business objective, peniliaian terkait kondisi terkini, menetapkan tujuan dari proses data mining, dan mengembangkan rencana proyek.
b. Data Understanding: Mengumpulkan data awal, deskripsi data, ekplorasi data, dan melakukan penilaian terkait kualitas data merupakan tahapan dalam fase ini. Dalam fase ini juga dilakukan eksplorasi data terkait ringkasan statistik yang dapat terjadi pada akhir fase ini serta melakukan clustering pada data untuk melihat pola data yang terbentuk.
c. Data Preparation: Setelah data didapatkan perlu dilakukan proses sebuah proses seleksi, cleansing, dibuat dalam bentuk tertentu, dan di format sesuai kebutuhan.
d. Modelling: Setelah data dibersihkan dan dibentuk sesuai kebutuhan kemudian dibutuhkan sebuah modeling yang sesuai dan dikalibrasi perihal pengaturan agar didapatkan hasil optimal. Bila dibutuhkan kembali dapat dilakukan data preparation agar data dapat sesuai dengan teknik data mining yang dibutuhkan.
e. Evaluation: Setelah didapatkan sebuah atau beberapa model sehingga dilakukan penilaian terkait kualitas dan efektifitas-nya. Kemudia ditentukan model seperti apa yang digunakan agar sesuai dengan objective pada fase 1 hingga diambil sebuah keputusan penggunaan dari hasil data mining.
f. Deployment: Pada fase ini secara umum ada 2 aktifitas yang dilakukan yaitu Perencanaan dan monitoring hasil dari proses deployment serta melengkapi keseluruhan aktifitas sehingga menghasilkan laporan terakhir dan melakukan review dari proyek yang dilakukan.
SEMMA (Sample, Explore, Modify, Model, dan Access)
Selain CRISP-DM ada beberapa proses data mining yang didapatkan salah satunya adalah SEMMA. SEMMA yang merupakan kepanjangan dari Sample, Explore, Modify, Model, dan Access adalah sebuah metode proses data mining yang dikembangkan oleh SAS Institute dimana digunakan dalam data berjumlah besar untuk mengungkapkan sebuah pola yang belum diketahui sebelumnya sehingga dapat digunakan sebagai keuntungan dalam bisnis.
SEMMA memiliki hubungan dengan SAS Enterprise Miner dan pada dasarnya sebuah organisasi logis dari sebuah alat fungsional yang memiliki 5 tahapan atau langkah, yaitu:
a. Sample: Merupakan sebuah langkah yang terpusat pada pengambilan data serta bersifat opsional. Sebagian besar dari data yang diambil merupakan sebuah data dengan jumlah besar sehingga cukup untuk di-ekstrak sebuah informasi yang signifikan dan cukup kecil untuk dimanipulasi dengan cepat.
b. Explore: Langkah kedua yang terfokus pada ekplorasi data sehingga dapat membantu dalam memperoleh pemahaman dan ide serta penyempurnaan pada proses penemuan dengan melakukan langkah pencarian dari tren and anomali.
c. Modify: Proses ini fokus pada modifikasi data dengan menciptakan, memilih, dan tranformasi dari variabel dalam proses pemilihan model. Pada langkah ini dapat pula melihat sebuah outlier dan mengurangi jumlah variabel dari data.
d. Model: Langkah ini adalah sebuah proses permodelan data dimana dengan sebuah perangkat lunak dapat secara otomatis mencari kombinasi dari data. Terdapat beberapa teknik permodelan yang berbeda dalam langkah ini dan tiap model memiliki keunggulan tersendiri dan kesesuaian terhadap situasi yang spesifik pada data dalam proses data mining.
e. Assess: Langkah terakhir dari SEMMA yang terpusat pada evaluasi dari kehandalan dan kegunaan pada temuan dan estimasi pada kinerja dari model.
Persamaan antara CRISP-DM dan SEMMA
Pada kedua metode CRISP-DM dan SEMMA dimana telah dijabarkan sebelumnya dapat dibuat kesimpulan bahwa ada beberapa persamaan terkait kedua metode tersebut.
a. Fase “Data Understanding” pada CRISP-DM sebanding dengan fase “Sample” dan “Explore” dari SEMMA dimana pada tahap ini dilakukan proses pengambilan data serta dilakukan ekplorasi data awal dengan melihat tren dan anomali sehingga terlihat pola data yang terbentuk
b. Fase “Data Preparation” pada CRISP-DM sebanding dengan “Modify” pada SEMMA dimana pada tahapan ini dilakukan proses seleksi, cleansing, dan transformasi data sesuai kebutuhan sebelum dimasukkan ke dalam sebuah model.
c. Fase “Modeling” di CRISP-DM sebanding dengan “Model” pada SEMMA yang merupakan sebuah tahapan dalam membuat model dari data yang telah disiapkan.
d. Fase “Evaluation” pada CRISP-DM sama seperti fase “Assess” pada SEMMA dimana dalam tahapan ini dilakukan sebuah evaluasi baik terhadap kualitas, kehandalan, dan efektifitas dari model yang telah ada.
Perbedaan antara CRISP-DM dan SEMMA
Bila dilihat dari pengertian SEMMA menurut SAS Institute: “SEMMA bukanlah sebuah metodologi data mining tetapi lebih sebagai organisasi logis dari sebuah set alat fungsional dari SAS Enterprise Miner yang melakukan sebuah kerja utama dari data mining. Enterprise Miner dapat digunakan dalam bagian dari metodologi data mining yang bersifat iteratif dan dapat di adopsi oleh klien. Langkah — langkah alami seperti memformulasikan sebuah proses bisnis atau penelitian yang didefinisikan dengan baik mengumpulkan data berkualitas bersifat sangat penting atau kritikal dalam setiap proyek data mining. SEMMA terpusat atau fokus pada aspek pengembangan model dari data mining.”
Dari pengertian tersebut bila dibandingkan dengan konsep CRISP-DM yang bersifat umum (general) dan dapat digunakan dalam variasi yang lebih luas dalam proses bisnis secara umum sehingga ada sebuah perbedaan dari kedua metodologi tersebut, yaitu:
a. SEMMA dikembangkan bersama dengan sebuah aplikasi atau tool dari SAS yang disebut Enterprise Miner sehingga tidak dapat digunakan secara lebih luas bila dihubungan dengan sebuah tool/alat data mining yang berbeda dan dalam proses bisnis secara umum.
b. Dikarenakan terpusat pada sebuah perangkat lunak SAS Enterprise Miner dan pada pengembangan model yang spesifik, sehingga pada proses perencanaan awal yang tercakup pada CRISP-DM (Bisnis Understanding) terjadi sebuah penekanan yang lemah atau kurang dilakukan analisa dari sebuah proses bisnis atau penelitian serta tidak adanya atau bahkan dihilangkan sebuah fase “Deployment” untuk mengevaluasi keseluruhan dari proses.
Referensi
(2) http://jesshampton.com/2011/02/16/semma-and-crisp-dm-data-mining-methodologies/
(3) Larose, Daniel T., Larose, Chantal D. Data Mining and Predictive Analytics. 2nd Edition. John Wiley and Sons, Inc. 2015
(4) IBM. IBM SPSS Modeler CRISP-DM Guide. IBM Corporations. 2011
(5) Olson D.L., Delen D. 2008. Advanced Data Mining Techniques. XII, 180 p. 21 ilus. Springer
(6) Shafique, Umar. Qaiser, Haseeb. 2014. A Comparative Study of Data Mining Process Models (KDD, CRISP-DM and SEMMA). International Journal of Innovation and Scientific Research. ISSN 2351–8014 Vol. 12 №1 Nov. 2014, pp. 217–222.
(7) Avezedo, Ana. Santos, Manuel F. 2008. KDD, SEMMA AND CRISP-DM: A PARALLEL OVERVIEW. IADIS European Conference Data Mining. ISBN: 978–972–8924–63–8
(8) SAS. SAS® Enterprise Miner™ 14.3: Reference Help. SAS Institute Inc. 2017