Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l'hétérogénéité des données d'entrainement

Louis Martin,Benjamin Muller,Pedro Javier Ortiz Suárez,Yoan Dupont,Laurent Romary,Éric Villemonte de la Clergerie,Benoît Sagot,Djamé Seddah

Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l'hétérogénéité des données d'entrainement

2020

Les modeles de langue neuronaux contextuels sont desormais omnipresents en traitement automatique des langues. Jusqu’a recemment, la plupart des modeles disponibles ont ete entraines soit sur des donnees en anglais, soit sur la concatenation de donnees dans plusieurs langues. L’utilisation pratique de ces modeles — dans toutes les langues sauf l’anglais — etait donc limitee. La sortie recente de plusieurs modeles monolingues fondes sur BERT (Devlin et al., 2019), notamment pour le francais, a demontre l’interet de ces modeles en ameliorant l’etat de l’art pour toutes les tâches evaluees. Dans cet article, a partir d’experiences menees sur CamemBERT (Martin et al., 2019), nous montrons que l’utilisation de donnees a haute variabilite est preferable a des donnees plus uniformes. De facon plus surprenante, nous montrons que l’utilisation d’un ensemble relativement petit de donnees issues du web (4Go) donne des resultats aussi bons que ceux obtenus a partir d’ensembles de donnees plus grands de deux ordres de grandeurs (138Go).

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations