ISTEX, un projet national d'archives documentaires : au-delà de l'accès au texte intégral, l'enrichissement des données par méthodes de fouille de textes.

2017 
Titre : ISTEX, un projet national d'archives documentaires : au-dela de l'acces au texte integral, l'enrichissement des donnees par methodes de fouille de textes. Resume : Le projet ISTEX (initiative d'excellence en Information Scientifique et Technique) a pour objectif de permettre a la communaute scientifique francaise d'acceder, a une bibliotheque numerique pluridisciplinaire en texte integral regroupant l'essentiel des publications scientifiques mondiales. Ces dernieres sont accessibles a tous les chercheurs, notamment ceux gravitants autour des thematiques de la fouille de texte, du TAL, de la recherche d'Information, etc. Cela se concretise par des actions RD indexation automatique ; reconnaissance d'entites nommees ; categorisation des documents) nous avons repondu aux trois principaux challenges rencontres :  Mise au point et integration d'outils : entrainement, adaptation, mise en production,  Passage a l'echelle : 20 millions de documents a traiter,  Reversement des donnees. Le resultat d'une ou toute partie de ces travaux a permis de proposer un nouveau processus de diffusion d'ISTEX en construisant des triplets de donnees alignees et interoperables selon les standards du web semantique (LOD). Nous envisageons la creation d'une plateforme dediee a la fouille de textes directement connectee aux donnees ISTEX. Les outils mis a disposition, pourront etre developpes en collaboration avec tout laboratoire desireux de faire partager une application.
Keywords:
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []