Um Modelo Ensemble Discriminativo para Classificação de Bactérias do Solo

2018 
Abstract. The process of identifying bacteria linked to plant growth is a great challenge for biological processes and those that use machine lear- ning. Considering this, in this paper a discriminative ensemble model is developed, which consists of the union of several classifiers, to classify soil bacteria, its objective is to use a meta-learning with set of classifiers in order to increase the assertiveness. In this paper, the classifiers used were: Naive Bayes, Logistic Regression, Decision Tree (CART) and Random Fo- rest. The tests were performed on a set of bacterial data that related the genres of bacteria derived from MALDI-TOF type mass spectra. A pre- processing was performed on the data set generating a base with 19,358 records, 36 genres of bacteria (classes) and 30 attributes. We evaluated the four classifiers in separate and the ensemble discriminative model in terms of accuracy, kappa index, precision, recall and f1-score. The results show that the ensemble discriminative model obtained a superior performance to the other classifiers in all the metrics, obtaining statistically significant differences. Keywords : machine learning, ensemble classifier, discriminative classifi- cation. Resumo. O processo de identificacao de bacterias ligadas ao crescimento vegetal e um grande desafio para processos biologicos e aqueles que utilizam aprendizado de maquina. Considerando isto, neste trabalho e desenvol- vido um modelo ensemble discriminativo, que consiste na uniao de diversos classificadores, para classificar bacterias do solo, seu objetivo e utilizar um meta-aprendizado com conjunto de classificadores a fim de aumentar a as- sertividade do modelo. Neste trabalho, os classificadores utilizados foram: Naive Bayes, Regressao Logistica, Arvore de Decisao (CART) e Floresta Randomica. Os testes foram realizados sobre um conjunto de dados bac- terianos que relacionavam o genero das bacterias provindos de espectros de massa do tipo MALDI-TOF. Foi realizado um pre-processamento no conjunto de dados gerando uma base com 19.358 registros, 36 generos de bacterias (classes) e 30 atributos. Foram avaliados os quatro classificadores em separados e o modelo ensemble discriminativo em termos de acuracia, indice kappa, precisao, revocacao e f1-score. Os resultados obtidos mostram que o modelo ensemble discriminativo obteve um desempenho superior aos demais classificadores em todas as metricas, obtendo diferencas estatistica- mente significativas. Palavras-chave : aprendizado de maquina, classificadores em conjunto, classificacao discriminativa.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []