PEMILIHAN FEATURE DENGAN CHI SQUARE DALAM ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI BERITA

2015 
Klasifikasi berita secara manual tidak mungkin dilakukan. Klasifikasi otomatis banyak dilakukan dengan algoritma naive bayes, tetapi jumlah feature kata yang banyak dapat mengurangi akurasi klasifikasi. Penelitian ini bertujuan untuk mengetahui penerapan, pengaruh dan nilai recall, precision, f-measure dan akurasi dari pemilihan feature Chi Square terhadap kinerja algoritma Naive Bayes untuk mengklasifikasikan teks berita secara otomatis. Pada penelitian ini diterapkan teknik pemilihan feature dengan Chi Square dalam Algoritma Naive Bayes. Data penelitian diambil dari www.kompas.com sebanyak 1350 buah sebagai data latih dan 150 buah sebagai data uji. Pengujian dilakukan dengan mengklasifikasikan berita tanpa pemilihan feature Chi Square dan mengklasifikasikan berita dengan menerapkan pemilihan feature Chi Square dengan taraf nyata α 0.05, 0.01, 0.005, dan 0.001. Selanjutnya akan dievaluasi dengan metode evaluasi recall, precision, f-measure dan akurasi. Dari klasifikasi berita otomatis tanpa pemilihan feature yang dilakukan, diperoleh hasil recall 96.67%, precision 96.75%, f-measure 96.68% dan akurasi 96.67%. Sedangkan klasifikasi berita dengan pemilihan feature menggunakan chi square pada taraf nyata α 0.05, 0.01, 0.005, dan 0.001 diperoleh hasil yang sama yaitu recall 98%, precision 98%, f-measure 97.99%, dan akurasi 98%. Dari hasil tersebut, dapat diketahui bahwa pemilihan feature menggunakan chi square dapat mempengaruhi kinerja algoritma Naive Bayes untuk mengklasifikasikan berita secara otomatis. Classification of news manually impossible. Automatic classification lot to do with the naive Bayes algorithm, but the number of words that many features can reduce the accuracy of the classification. This study aims to determine the application, influence and value of recall, precision, f-measure and accuracy of election Chi Square feature of the performance Naive Bayes algorithm to automatically classify news text. In this study feature selection techniques applied by Chi Square in Naive Bayes algorithm. Data were taken from as many as 1350 pieces www.kompas.com as training data and 150 as test data. Testing is done by classifying feature election news without Chi Square and classifying news by applying the Chi Square feature selection with significance level α 0:05, 0:01, 0.005, and 0.001. Next will be evaluated by the evaluation method of recall, precision, f-measure and accuracy. Automatic classification of news without selecting a feature that is done, the result recall 96.67%, 96.75% precision, f-measure 96.68% and 96.67% accuracy. While the classification of news with feature selection using the chi square on the real level α 0:05, 0:01, 0005, and 0001 obtained the same result, namely 98% recall, 98% precision, f-measure 97.99%, and accuracy 98%. From these results, it is known that the selection of the feature using the chi square can affect the performance Naive Bayes algorithm to automatically classify news.
    • Correction
    • Cite
    • Save
    • Machine Reading By IdeaReader
    11
    References
    1
    Citations
    NaN
    KQI
    []