Extração de Informação integrando componentes PLN via framework GATE

2018 
A Extracao de Informacao (EI) e o ramo da area de recuperacao de informacao (RI) que utiliza tecnicas e algoritmos para identificar e coletar informacoes desejadas em documentos estruturados ou nao, persistindo-as em um formato apropriado para consultas futuras. A utilizacao de Processamento de Linguagem Natural (PLN) revela-se benefico ao processo de extracao, principalmente quando se processam documentos sem estrutura e/ou padrao definido. Um framework que reune dezenas de plug-ins que podem ajudar na tarefa de EI baseada em PLN e o conhecido GATE (General Architecture for Text Engineering). Neste sentido propoe-se o modulo RELPIE (Regular Expressions for Language Processing Information Extraction), contendo plug-ins para a extracao a partir de texto livre. O modulo e original e integra plug-ins GATE baseados em expressoes regulares (ER) e regras de producao (RP), que ficam totalmente separadas do sistema, visando modularidade na EI. Os resultados obtidos demonstram que a proposta apresenta bons niveis de extracao e reconhecimento de entidades nomeadas (NER), cerca de 80%, em texto livre.
    • Correction
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []