Les titres des publications scientifiques en français : fouille de texte pour le repérage de schémas lexico-syntaxiques

2020 
Nous presentons dans cet article une premiere etude basee sur corpus visant a etablir un panorama des structures que les auteurs d'articles scientifiques en francais emploient pour construire les titres de leurs travaux. Nous nous basons sur un ensemble de 340 000 titres (articles de journaux, actes de conferences, chapitres d'ouvrages) extraits de l'archive ouverte institutionnelle HAL et correspondant a l'ensemble des domaines disponibles. Nous proposons une methode automatique inductive de fouille de texte qui permet de degager les schemas les plus productifs a differents niveaux de details (en choisissant de faire apparaitre ou non les elements lexicaux) comme par exemple « la place de X dans X » ou « X : quel X pour X ? ». Le croisement de ces schemas avec les domaines nous permet, dans un second temps, de mettre au jour des configurations contrastees et propres aux disciplines. Nous montrons egalement comment des methodes plus ciblees d'interrogation de corpus permettent d'identifier des familles de titres comme les chiasmes.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []