Extraire des patterns pour améliorer l'idiomaticité de résumés semiautomatiques en finances : le cas du lexique support

2020 
Cet article presente des travaux visant a developper un systeme de redaction automatique de resumes de textes economiques et financiers en attachant une attention particuliere a l’idiomaticite et a la fluidite de la langue d’arrivee. Pour ce faire, l’etude part d’un corpus de rapports periodiques de la Banque de France relevant des discours de conjoncture. Le travail linguistique permet de montrer qu’une redaction des resumes ne s’attachant qu’a l’extraction terminologique et collocationnelle stricte ignore tout un pan de vocabulaire, saisi ici comme « lexique support », jouant un role important dans l’organisation cognitive du domaine. Sur cette base, le travail presente sur les modeles de langage en apprentissage profond met en avant la pertinence du mecanisme d’auto-attention pour identifier et extraire des schemas lexico-grammaticaux ainsi le lexique support, et l’impact sur le guidage du modele de resume abstractif de CamemBERT a travers l'augmentation des donnees. Une premiere experimentation utilisant le corpus considere ainsi que la methode d'extraction sont presentees.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    1
    Citations
    NaN
    KQI
    []