Veille stratégique assistée sur des bases de données d’appels d’offres par traitement automatique de la langue naturelle et fouille de textes

2020 
Cette these, effectuee dans le cadre d’un contrat CIFRE avec la societe OctopusMind, est centree sur le developpement d'un outillage informatique dedie et optimise pour l'assistance a l'exploitation de la base d'appels d'offres, dans une finalite de veille strategique. Notre contribution se decline en trois chapitres : le premier concerne le developpement d’une ressource multilingue partiellement comparable. Qui est construite a partir des appels d’offres europeens publies par le TED (Tenders Electronic Daily). Elle contient plus de deux millions de documents traduits dans 24 langues publiees durant les 9 dernieres annees. Le deuxieme chapitre concerne une etude sur les questions de vectorisation de mots, phrases et documents susceptibles de capturer au mieux la semantique selon differentes echelles. Nous avons propose deux approches : la premiere est basee sur une combinaison entre word2vec et LSA. La deuxieme est basee sur une architecture neuronale originale basee sur des reseaux d’attention convolutionnels a deux niveaux. Ces vectorisations sont exploitees a titre de validation sur des tâches de classification et de clustering de textes. Le troisieme chapitre concerne l’extraction de relations semantiques contenues dans des appels d’offres, permettant de relier des bâtiments a des surfaces, des lots a des budgets, etc... Les developpees sont ici plus traditionnelles et reposent sur des CRF. La fin de ce chapitre concerne la mise en production dans l’environnement logiciel d’OctopusMind des differentes solutions, notamment l’extraction d’informations, le systeme de recommandation, ainsi que la combinaison de ces differents modules pour resoudre des problemes plus complexes
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []