Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l'hétérogénéité des données d'entrainement

2020 
Les modeles de langue neuronaux contextuels sont desormais omnipresents en traitement automatique des langues. Jusqu’a recemment, la plupart des modeles disponibles ont ete entraines soit sur des donnees en anglais, soit sur la concatenation de donnees dans plusieurs langues. L’utilisation pratique de ces modeles — dans toutes les langues sauf l’anglais — etait donc limitee. La sortie recente de plusieurs modeles monolingues fondes sur BERT (Devlin et al., 2019), notamment pour le francais, a demontre l’interet de ces modeles en ameliorant l’etat de l’art pour toutes les tâches evaluees. Dans cet article, a partir d’experiences menees sur CamemBERT (Martin et al., 2019), nous montrons que l’utilisation de donnees a haute variabilite est preferable a des donnees plus uniformes. De facon plus surprenante, nous montrons que l’utilisation d’un ensemble relativement petit de donnees issues du web (4Go) donne des resultats aussi bons que ceux obtenus a partir d’ensembles de donnees plus grands de deux ordres de grandeurs (138Go).
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []