Perbandingan Aplikasi Algoritma Kernel K-Means pada Graf Bipartit dan K-Means pada Matriks Dokumen- Istilah dalam Dataset Penelitian Covid-19 RISTEKBRIN

Budi Nugroho

Perbandingan Aplikasi Algoritma Kernel K-Means pada Graf Bipartit dan K-Means pada Matriks Dokumen- Istilah dalam Dataset Penelitian Covid-19 RISTEKBRIN

2021

Budi Nugroho

Merebaknya kasus Covid-19 di Indonesia telah memunculkan berbagai macam topik penelitian yang dilakukan oleh para peneliti di berbagai bidang dan dari bermacam institusi. Berdasarkan data yang dihimpun oleh portal Sinta Ristekbrin, terdapat 351 topik penelitian yang telah diunggah oleh para peneliti. Kajian ini dimaksudkan untuk menganalisis dan memetakan topik penelitian yang sedang dan/atau telah dilakukan selama kurun waktu terjadinya pandemi Covid-19 di tanah air. Analisis dan pemetaan dilakukan dengan menerapkan algoritma kernel k-means untuk klastering dokumen berbasis graf bipartit dan k-mean s pada matriks dokumen-istilah. Dataset penelitian Covid-19 Ristekbrin dimodelkan sebagai graf bipartit antara daftar istilah dengan dokumennya. Selanjutnya skor kemiripan dihitung dengan metode kernel. Nilai matriks kernel yang mencerminkan skor kemiripan antar dokumen digunakan sebagai masukan bagi algoritma klastering kernel k-means yang memberikan hasil berupa pemetaan topik penelitian. Sebagai pembanding, algoritma k-means diterapkan pada matriks dokumen-istilah untuk klastering topik penelitian Covid-19. Dari kedua metode tersebut, hasil klastering diuji dengan validasi internal menggunakan indeks Dunn. Indeks Dunn digunakan karena dalam dataset tidak tersedia informasi awal mengenai label atau nama dari masing-masing klaster. Hasil penelitian ini menunjukkan bahwa algoritma kernel k-means memberikan validasi yang sedikit lebih baik dibandingkan dengan k-means . Hasil kajian ini diharapkan dapat memberikan tambahan informasi yang mendukung program pemerintah dalam mempercepat penanganan Covid-19 di Indonesia. Abstract The outbreak concerning the Covid-19 case in Indonesia has raised various topics of research carried out by researchers in diverse fields and from many institutions. Based on data compiled by the Sinta Ristekbrin portal, 351 research topics have been uploaded by researchers. This study is aimed to analyze and map research topics that are being and/or have been conducted during the period of the Covid-19 pandemic in Indonesia. Analysis and mapping are accomplished by applying the kernel k-means algorithm for document clustering based on bipartite graphs and k-means on document term matrix. Ristekbrin's Covid-19 research dataset is modeled as a bipartite graph between terms and documents. Furthermore, the similarity score is calculated using the kernel method. The kernel matrix value that represents the similarity score between documents is used as input for the kernel k-means clustering algorithm, which provides the results of mapping research topics. As comparison, we applied original k-means algorithm on the document-term matrix of the dataset. From these two methods, the clustering results were validated using Dunn index as an internal validation. The Dunn index was used because the dataset did not provide initial information regarding the label or name of each clusters..The comparison Dunn index shows that the kernel k-means algorithm outperforms than the k-means algorithm. This study is expected to provide additional information that supports government programs in accelerating the handling of Covid-19 in Indonesia..

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations