Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos

2018 
Apresenta metodologia para a extracao semiautomatica de uma taxonomia de conceitos, utilizando tecnicas de mineracao de textos, a partir de um corpus textual. A classificacao de textos e uma pratica natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositorios. A tecnica de agrupamento (clustering) de documentos fornece uma estrutura logica e compreensivel que facilita a organizacao, a navegacao e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e nao considera o relacionamento entre elas, presumindo que as palavras sao independentes umas das outras. A metodologia proposta apresenta a combinacao de um modelo de representacao de documentos por conceitos com um metodo de agrupamento hierarquico de documentos baseado na frequencia da coocorrencia dos conceitos e uma tecnica de rotulacao mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do dominio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos cientificos relacionados a area nuclear extraidos da producao cientifica da Comissao Nacional de Energia Nuclear (CNEN). Os resultados confirmaram que a mineracao de textos serve como poderosa tecnica para gerenciar conhecimento encapsulado em grandes colecoes de documentos e, assim, apoiar a gestao das atividades de pesquisa da area.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []