Extraire et encoder l'information lexicale de Wiktionary : quel boulot pour étrangler le goulot !

2020 
Nous presentons dans cet article une demarche menee depuis une decennie qui consiste a exploiter le contenu du dictionnaire collaboratif Wiktionary afin de construire des ressources lexicales libres. Notre approche a permis de doter trois langues (le francais, l'italien et l'anglais) en dictionnaires electroniques et en lexiques flexionnels. Nous questionnons l’utilite des ressources lexicales a un moment ou la plupart des systemes de TAL par apprentissage automatique s’en passent completement. Nous profitons egalement de ce retour d’experience pour comparer differentes methodes de production de ressources et plus specifiquement differentes methodes d’extraction d’informations a partir de Wiktionary. Nous discutons ensuite de la pertinence des formats standards pour l’encodage de ressources idiosyncratiques telles que Wiktionary. Nous concluons sur la necessite de prioriser, avant tout, la production et le partage de ressources.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []