OOPS : une approche orientée objet pour l’interrogation et l’analyse linguistique de l’interface prosodie/syntaxe/discours

2014 
Dans cet article, nous nous interessons a la problematique de l'etude de la langue parlee multi-annotee. Dans de tels corpus, un meme echantillon de parole est associe a des informations inherentes a differents niveaux linguistiques. Cela souleve des problematiques liees a la difficulte d’organisation, de stockage et d’acces a ces informations pour l'analyse conjointe de niveaux linguistiques : intonosyntaxe, discours-prosodie et syntaxe-pragmatique par exemple. La principale difficulte qui sous-tend l'exploitation d'un tel corpus multi-annote de langue parlee est la mise en relation d’unites qui appartiennent a des niveaux linguistiques differents. Pour tous les niveaux linguistiques representes, chaque annotation conduit en effet a une hierarchie particuliere. L’agregation de toutes ces hierarchies ou arborescences linguistiques est l’enjeu du formalisme propose. Pour etudier l'interface entre differents niveaux linguistiques, nous proposons une approche orientee objet OOPS (Object-Oriented Processing of Speech) permettant de representer une large variete d’annotations au sein d’une architecture globale. Une telle structure ne peut en effet pas etre realisee entierement a partir de la seule transcription annotee, qui est au mieux exploitable par un humain. Elle necessite au contraire une mise en relation du signal et des autres support d’annotation avec cette transcription pour l'etude conjointe d’unites linguistiques appartenant a des niveaux differents. La particularite de l’aproche que nous proposons est qu'elle repose entierement sur un formalisme modulaire, ou objet. Une unite linguistique sera vue comme un objet (au sens informatique du terme) de la hierarchie dependant du niveau linguistique auquel elle appartient. Ces differentes hierarchies sont reliees par les mots de la transcription, qui leurs sont communs. Ainsi, il devient possible de faire des requetes mettant en jeu plusieurs niveaux linguistiques : syntaxe-prosodie, syntaxe-pragmatique ou encore prosodie-pragmatique, pour en extraire toute information jugee pertinente. L’approche que nous proposons repose sur le postulat que plus l'information sera modulaire, plus son traitement en sera simple et puissant. Cette hypothese nous a conduit a envisager certaines structures sous un angle un peu different de celui propose par les membres du projet Rhapsodie dans un soucis de toujours plus modulariser l’information linguistique. D'un point de vue beaucoup plus pratique, le systeme que nous decrivons dans cet article a ete developpe sous la forme d'un module Python permettant l'analyse et l'exploitation de donnees annotees selon le systeme mis en place dans le cadre du projet Rhapsodie (Lacheret, Kahane & Pietrandrea (eds) a paraitre). L'ensemble des outils presentes dans cette etude est diffuse sous licence libre GPLv3 et peut etre telecharge a l'adresse www.loria.fr/~aliutkus/oops
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    23
    References
    3
    Citations
    NaN
    KQI
    []