Algoritmo kNN na imputação de dados de espectros de massa do tipo MALDI-TOF: uma análise da influência da imputação com kNN sobre o desempenho de classificadores logísticos para identificação de bactérias

2018 
O processo de identificacao de bacterias relacionadas ao crescimento vegetal,e alvo de diversos estudos na area de bioinformatica. Uma das formas para realizar esta identificacao e utilizar dados de espectrometria de massa do tipo MALDI-TOF para detectar a presenca de proteinas ribossomaisemumaamostra,eentao,usarclassificadoresparaprocessarestesdadoseselecionar o rotulo com a maior probabilidade. Durante o processo de geracao dos espectros de massa paraclassificacaoecomumanaodeteccaodealgumdospicosrelacionadosaproteinasribossomais. Considerando isto, este trabalho apresenta um estudo sobre o uso do algoritmo kNN para imputacao desses casos. O estudo foi desenvolvido com o uso de classificadores logisticos para identificacao de bacterias da especie Staphylococcus aureus e do genero Bacillus. Durante os experimentos foram testados tres tecnicas para imputar dados: imputacao com zero, imputacao com a media do atributo faltante, e a imputacao com kNN. Desta ultima foram usadas duas abordagens: funcao de agregacao de media e funcao de agregacao de mediana. O protocolo experimental implementado possibilitou avaliar a influencia da imputacao sobre os resultados de classificacao sob diferentes cenarios no que se refere ao numero de variaveis faltantes. Os resultadosobtidosmostramqueoempregodokNNnaolevouaumareducaododesempenhodos classificadores, em relacao aquele observado quando do uso de dados completos. Alem disto, a classificacao de dados submetidos a imputacao pelo kNN apresentou desempenho superior aquele verificado quando do uso dos demais metodos.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []