Kombinasi Algoritma Data Reduksi untuk Optimalisasi Dokumen Cluster
Main Article Content
Abstract
Clustering adalah proses pengelompokkan tanpa pelatihan (unsupervised learning), salah satu algoritma yang dapat diterapkan untuk clustering adalah K-Means. Algoritma ini memiliki kinerja dengan konsep menghitung jarak terdekat dari sebuah cluster. Penelitian ini bertujuan untuk melakukan optimasi hasil clustering data abstrak skripsi dengan algoritma K-Means tersebut. Upaya yang dilakukan untuk optimalisasi hasil cluster adalah dengan model kombinasi algoritma Latent Semantic Analysis (LSA), Term Frequency – Inverse Document Frequency (TF-IDF) dan Hashing. Seperti penanganan data teks pada umumnya sebelum dilakukan clustering telah dilakukan praproses untuk pembersihan dan normalisasi data. Setelah praproses selanjutnya dilakukan ekstraksi data dalam bentuk vektor dengan metode Term Frequency – Inverse Document Frequency (TF-IDF) dan Hashing. Hasil vektor yang dihasilkan pada proses ekstraksi selanjutnya dilakukan kombinasi dari algoritma LSA bertujuan untuk mereduksi data. Hasil pengujian dari 229 data skripsi dan 4 cluster menunjukkan kombinasi LSA dengan ekstraksi TF-IDF memiliki keunggulan waktu eksekusi lebih efisien, sedangkan kombinasi LSA-Hashing memiliki nilai F-measure lebih baik.
Downloads
Article Details
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
Jurnal Eksplora Informatika bersifat open access, yaitu dapat diakses secara umum tanpa dikenakan biaya. Penulis yang menerbitkan artikelnya di Jurnal Eksplora Informatika setuju dengan ketentuan berikut:
- Penulis memegang hak cipta dan memberikan hak publikasi pertama kepada Jurnal Eksplora Informatika menggunakan lisensi Creative Commons Attribution-ShareAlike 4.0.
- Penulis diizinkan untuk mengarsipkan/menggunggah/meyimpan artikel mereka, misalnya dalam repositori institusional atau situs web/blog penulis, namun diharapkan agar memberikan rincian bibliografi yang menghargai publikasi di jurnal ini.
- Jurnal Eksplora Informatika berhak untuk menyediakan artikel dalam berbagai bentuk dan media, sehingga artikel dapat digunakan untuk teknologi terbaru bahkan setelah dipublikasikan.
- Jurnal Eksplora Informatika berhak untuk menegakkan hak-hak atas nama penulis pada artikel terhadap pihak ketiga. Misalnya dalam kasus plagiarisme atau pelanggaran hak cipta.