Extração de Informação integrando componentes PLN via framework GATE
2018
A Extracao de Informacao (EI) e o ramo da area de recuperacao de informacao (RI) que utiliza tecnicas e algoritmos para identificar e coletar informacoes desejadas em documentos estruturados ou nao, persistindo-as em um formato apropriado para consultas futuras. A utilizacao de Processamento de Linguagem Natural (PLN) revela-se benefico ao processo de extracao, principalmente quando se processam documentos sem estrutura e/ou padrao definido. Um framework que reune dezenas de plug-ins que podem ajudar na tarefa de EI baseada em PLN e o conhecido GATE (General Architecture for Text Engineering). Neste sentido propoe-se o modulo RELPIE (Regular Expressions for Language Processing Information Extraction), contendo plug-ins para a extracao a partir de texto livre. O modulo e original e integra plug-ins GATE baseados em expressoes regulares (ER) e regras de producao (RP), que ficam totalmente separadas do sistema, visando modularidade na EI. Os resultados obtidos demonstram que a proposta apresenta bons niveis de extracao e reconhecimento de entidades nomeadas (NER), cerca de 80%, em texto livre.
Keywords:
- Correction
- Cite
- Save
- Machine Reading By IdeaReader
0
References
0
Citations
NaN
KQI