Estratégias Lexicométricas para Detetar Especificidades Textuais

2018 
portuguesNeste artigo propomo-nos a definir e desenvolver uma estrategia automatica para procurar especificidades lexicais dentro de conjuntos de textos utilizando unidades lexicais simples e expressoes com varias palavras, ou termos multipalavra (MWE, a sua sigla em ingles). Propomos uma metodologia para o calculo da divergencia de distribuicoes de lemas e de MWE que permitira encontrar, automaticamente, diferencas e semelhancas entre textos nao anotados. Esta metodologia podera ser utilizada para posteriormente identificar grupos de textos sobre os quais se procedera a analises quantitativas e qualitativas semiautomaticas e/ou com intervencao humana. Num primeiro teste, utilizamos dois textos de especialidade (da area da pediatria) e um texto literario, presumindo que os textos de especialidade deveriam apresentar maiores divergencias relativamente ao texto literario do que entre eles proprios. Como os testes feitos mostraram a tendencia esperada, decidimos aplicar a mesma metodologia a um segundo grupo de textos (tres conjuntos de entrevistas a visitantes da cidade de Santiago de Compostela). EnglishIn this article we propose to to define and develop an automatic strategy to search for lexical specificities within sets of texts using simple lexical units and multiword expressions (MWE). We propose a methodology for calculating the divergence of lemma and MWE distributions that will automatically find differences and similarities between unlabeled texts. This methodology can be used to subsequently identify groups of texts to which quantitative and qualitative analyzes will be applied (semiautomatically and/or with human intervention). In a first test, we used two specialized texts (from the area of Paediatrics) and a literary text, assuming that the texts of specialty should present greater divergences with respect to the literary text than among themselves. As the tests that were done showed the expected trend, we decided to apply the same methodology to a second set of texts (three sets of interviews done to visitors in the city of Santiago de Compostela).
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    3
    Citations
    NaN
    KQI
    []