Perbandingan Kualitas Clustering antara Algoritma K-Means dan DBSCAN dalam Segmentasi Pelanggan Produk Digital
Authors
Muhamad Alip
Institut Prima Bangsa
Fani Laraswati
Institut Prima Bangsa
Ahwa Ramadan
Institut Prima Bangsa
Abstract
Segmentasi pelanggan merupakan strategi penting dalam menganalisis pola konsumsi dan perilaku pengguna dalam berbagai sektor industri, termasuk layanan digital. Dengan kemajuan teknologi dan meningkatnya volume data yang tersedia, organisasi kini membutuhkan metode analisis data yang mampu mengelompokkan pelanggan secara efisien dan bermakna. Penelitian ini bertujuan untuk melakukan perbandingan antara dua algoritma clustering populer, yaitu K-Means dan DBSCAN (Density-Based Spatial Clustering of Applications with Noise) dalam konteks segmentasi pelanggan berbasis atribut numerik yang diperoleh dari data interaksi dan transaksi digital. K-Means, yang bersifat partisional dan bergantung pada jumlah klaster yang ditentukan di awal, dievaluasi melalui pendekatan Elbow Method dan Silhouette Score untuk menentukan nilai K yang optimal. Di sisi lain, DBSCAN yang berbasis kepadatan tidak memerlukan penentuan jumlah klaster sebelumnya dan mampu mengidentifikasi outlier atau noise secara otomatis, namun sangat bergantung pada pemilihan parameter epsilon (ε) dan minimal sampel.
Data yang digunakan dalam penelitian ini adalah data pelanggan dari sebuah layanan digital, terdiri dari atribut seperti umur pengguna, frekuensi interaksi, dan jumlah pengeluaran. Seluruh data melalui proses pembersihan, normalisasi, dan rekayasa fitur sebelum dilakukan klasterisasi. Hasil penelitian menunjukkan bahwa algoritma K-Means menghasilkan lima klaster utama dengan distribusi yang lebih merata, sedangkan DBSCAN hanya membentuk satu klaster dominan dengan sejumlah data yang diklasifikasikan sebagai noise, menandakan adanya perbedaan sensitivitas terhadap distribusi data. Evaluasi kualitatif dilakukan menggunakan metrik Silhouette Score yang memperlihatkan nilai 0.32 untuk K-Means dan nilai yang sangat rendah untuk DBSCAN, menunjukkan kualitas cluster yang kurang optimal dalam skenario ini.
Penelitian ini menegaskan bahwa tidak ada satu algoritma clustering yang secara universal unggul, melainkan pemilihannya sangat bergantung pada karakteristik data, kebutuhan segmentasi, dan tujuan analisis. Implikasi praktis dari studi ini adalah pentingnya memahami kekuatan dan keterbatasan masing-masing algoritma dalam konteks implementasi nyata, khususnya dalam pengelolaan strategi personalisasi dan retensi pelanggan berbasis data.