CALOR-QUEST : un corpus d'entraînement et d'évaluation pour la compréhension automatique de textes

2019 
La comprehension automatique de texte est une tâche faisant partie de la famille des systemes de Question/Reponse ou les questions ne sont pas a portee generale mais sont liees a un document particulier. Recemment de tres grand corpus (SQuAD, MS MARCO) contenant des triplets (document, question, reponse) ont ete mis a la disposition de la communaute scientifique afin de developper des methodes supervisees a base de reseaux de neurones profonds en obtenant des resultats prometteurs. Ces methodes sont cependant tres gourmandes en donnees d'apprentissage, donnees qui n'existent pour le moment que pour la langue anglaise. Le but de cette etude est de permettre le developpement de telles ressources pour d'autres langue a moindre cout en proposant une methode generant des questions a partir d'une analyse semantique de maniere semi-automatique. La collecte de questions naturelle est reduite a un ensemble de validation/test. L'application de cette methode sur le corpus CALOR-Frame a permis de developper la ressource CALOR-QUEST presentee dans cet article. ABSTRACT Machine reading comprehension is a task related to the Question-Answering task where questions are not generic in scope but are related to a particular document. Recently very large corpora (SQuAD, MS MARCO) containing triplets (document, question, answer) were made available to the scientific community to develop supervised methods based on deep neural networks with promising results. These methods need very large training corpus to be efficient, however such kind of data only exists for English at the moment. The purpose of this study is the development of such resources for other languages by proposing a method generating questions from a semantic frame analysis in a semi-automatic way. The collect of natural questions is reduced to a validation/test set. We applied this method on the French CALOR-Frame corpus in order to develop the CALOR-QUEST resource presented in this paper. MOTS-CLES : Comprehension automatique de texte, Question Reponse, Analyse en cadre seman-tique, Generation de questions.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []