Loflòc : Lexic Obert flechit occitan

2020 
Lofloc (Lexic obert flechit occitan - Lexique ouvert flechi occitan) est un lexique informatise de formes flechies en occitan. Il a ete realise dans le cadre du projet ANR RESTAURE (Bernard et Vergez-Couret, 2016) en collaboration avec Lo Congres Permanent de la Lenga Occitana . La creation d'un lexique informatise pour l'occitan s'integre dans un projet plus global de creation de ressources linguistiques informatisees (pour une langue qui dispose de peu de ressources a l'heure actuelle). Ces ressources, qu’elles soient lexicales comme LoFloc, ou textuelles comme BaTelOc (Bras et Thomas 2011, Bras et Vergez Couret 2016), sont concues en suivant un double objectif : d'une part la preservation et la diffusion du patrimoine linguistique et d'autre part la creation de ressources pour le developpement d'outils de traitement automatique des langues (par exemple des outils pour la recherche et l’extraction d'information, la traduction automatique...). La creation de ces ressources se fait en harmonie avec la Feuille de route pour le developpement du numerique occitan (Lo Congres, 2014 ; Dazeas, 2015, Seguier et Mercadier, 2016). Les objectifs qui ont preside a la creation de Lofloc sont les suivants : •Doter l'occitan d'un lexique structure de formes flechies adapte aux besoins du TAL (Traitement Automatique des Langues) pour etre integre a des applications comme un lemmatiseur ou un analyseur morphosyntaxique (Vergez-Couret et Urieli, 2015) ; •Integrer le lexique dans une interface de consultation ; •Utiliser un jeu d'etiquettes morphosyntaxiques (tagset) standard ; •Accueillir par etapes toute la variation (dialectale, intra-dialectale, graphique). Les variations, qu'elles soient dialectales, intradialectales ou graphiques, sont presentes dans les productions en occitan, anciennes et actuelles. Les outils automatiques, tout comme les locuteurs (neo-locuteurs, apprenants…), sont confrontes a toutes ces variations. Afin de bâtir des outils les plus robustes possibles, il faut savoir decrire et representer cette variation dans les lexiques. En outre, dans les outils de consultation et d'interrogation du lexique, l'utilisateur pourra decouvrir et mieux apprehender toute la variation possible. Pour constituer ce lexique, nous commencons par integrer des ressources existantes au format numerique, a les enrichir avec des informations grammaticales lorsque ces dernieres sont incompletes ou inadaptees et a completer les paradigmes flexionnels (genre et nombre…). Les premieres ressources integrees a Lofloc pour le languedocien sont le Dictionnaire Occitan-Francais Languedocien de Laux (2001), Dictionnaire Francais-Occitan Languedocien de Laux (2005) ainsi que les donnees de l'application verb'Oc, conjugueur edite par Lo Congres (Sauzet et Ubaud, 1995 ; Sauzet, 2016). En effet, ceux-ci ayant ete normalises au format XML (norme TEI P5) par le Congres, il a ete possible d’en extraire automatiquement les lemmes, leurs flexions et les informations grammaticales necessaires. En ce qui concerne la structure et le choix des standards pour Lofloc, nous nous inspirons des lexiques francais tels que Morphalou (Romary, et al, 2004) et GlaFF (Sajous, et al., 2013). Nous avons adopte les etiquettes du standard Eagles/Multext/Grace (Rajman et al., 1997) que nous avons gardees en anglais tout en les adaptant aux specificites de l'occitan. Cela facilitera la comparaison de notre lexique aux lexiques des langues proches qui ont egalement adopte des jeux d'etiquettes semblables et comparables (francais, catalan). Nous presenterons dans la communication le lexique, sa structure, son contenu, ainsi que les differents types d’application qui ne peuvent etre developpees sans un lexique de ce type (analyseurs morpho-syntaxiques, analyseurs syntaxiques, traducteurs automatiques, outils de recherche d’information, outils d’aide a la redaction de textes ou sms, correcteurs orthographiques, etc.). Bibliographie : Bernhard, D., et Vergez-Couret, M. (2016). Le projet RESTAURE. In Les technologies pour les langues regionales de France, 82 90. Conde-sur-Noireau: DGLFLF. Bras, M., Thomas, J. (2011). « Bateloc : cap a una basa informatisada de textes occitans », in A. Rieger & D. Sumien (eds). Occitania convidada d’Euregio. Lieja 1981 - Aquisgran 2008 : Bilanc e amiras. Actes du Neuvieme Congres International de l’Association Internationale d’Etudes Occitanes, Aix-la-Chapelle, 24-31 aout 2008, Aachen, Shaker. Bras, M. & Vergez-Couret, M. (2016). « BaTelOc: A text base for the Occitan language. », in Vera Ferreira and Peter Bouda (eds.) Language Documentation and Conservation in Europe, Honolulu: University of Hawai'i Press, pp. 133-149. Dazeas, B. (2015). Feuille de route pour le developpement numerique occitan. In Actes de la Traitement Automatique des Langues Regionales de France et d’Europe, Caen. Laux C. (2001). Dictionnaire occitan-francais : languedocien, avec la collab. de Serge Granier, Puylaurens, IEO, Section du Tarn. Laux C. (2005). Dictionnaire Francais-Occitan. Castres : IEO del Tarn. Lo Congres (2014). Diagnostic e huelha de rota tau desvolopament numeric de la lenga occitana 2015-2019, raport finau deu projecte. Media.kom, elhuyar. http://locongres.org/images/docs/huelha_rota_numeric_occitan_oc.pdf. Rajman M. (1997). Format de description lexicale pour le francais – Partie 2 : description morphosyntaxique, technical report GRACE, http://www.limsi.fr/grace/. Romary L., Salmon-Alt S., Francopoulo G. (2004). Standards going concrete : from LMF to Morphalou. Workshop on Electronic Dictionaries, Coling 2004, Geneva, Switzerland. Sajous, F., Hathout, N., Calderone, B. (2013). 'GLAFF, un Gros Lexique A tout Faire du Francais'. Actes de la conference Traitement Automatique des Langues Naturelles (TALN 2013). Sauzet, P., Ubaud, J. (1995). Le verbe occitan. Lo verb occitan. Aix-en-Provence : Edisud. Sauzet, P. (2016). Conjugaison occitane. IEO edicions. Seguier, A., et Mercadier, G. (2016). Le numerique au service de la transmission de la langue occitane : situation et perspectives de developpement ». In Les technologies pour les langues regionales de France, 82 90. Conde-sur-Noireau: DGLFLF. Vergez-Couret, M., et Urieli, A. (2015). Analyse morphosyntaxique de l’occitan languedocien : l’amitie entre un petit languedocien et un gros catalan. In Actes du Workshop Traitement Automatique des Langues Regionales de France et d’Europe, Caen.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    1
    Citations
    NaN
    KQI
    []