Linguistic Linked Data for Lexicography

2019 
Nowadays, the number of resources that provide lexical data keeps significantly increasing as outcomes of projects in linguistics, lexicography and language technologies. However, this data is scattered throughout the Web, isolated, and often comes in a vast number of different formats and languages. To address this landscape of heterogeneous and isolated language resources, experts working in the domain of the Semantic Web have adopted approaches to linguistic data representation based on the Linked Data (LD) paradigm, giving birth to the Linguistic Linked Data (LLD) line of research. Although LLD is focused on the representation, publication and sharing of language resources, there exists no previous wide-scope exploration and assessment of the impact of the application of LLD to lexicography as a discipline: the requirements and process this involves, its practical and theoretical benefits, the challenges it raises, and the open problems on the way. Furthermore, as a required ingredient towards this exploration, guidelines to represent a wide range of lexicographic resources (as outcomes of a lexicographic compilation process) by following this new paradigm are lacking as well. In this thesis we address the application of LLD to lexicography from the looking glass of the lexicographer, the user who consults lexicographic works, or the linguist interested in lexical semantics who needs lexicographic content for their work. We detect and resolve obstacles on the way for LLD adoption in lexicography regarding the representation requirements of lexicographic works through the definition of application profiles and extensions of the de facto standards for LLD representation. On the basis of a set of representative resources that we convert to the Resource Descriptioin Framework (RDF), we analyse and showcase the benefits and implications of LLD for dictionary representation, both as a target format of a conversion, as well as a potential native format for lexicographic projects in the future. ----------RESUMEN---------- Con el incesante aumento de los recursos lexicos que surgen de numerosos proyectos en linguistica, lexicografia, y tecnologias del lenguaje, hoy en dia los datos lexicos se encuentran en distintos formatos, dispersos y aislados unos de otros en la Web. Los Datos Enlazados Linguisticos (por sus siglas en ingles, LLD) es una linea de investigacion desarrollada por expertos en el campo de la Web Semantica que responde a la necesidad de estandarizacion en la representacion de datos linguisticos y que se basa en el paradigma de los Datos Enlazados (LD). Pese a que la linea de LLD se centra en la representacion, la publicacion, y la difusion de los recursos linguisticos, no existe hasta la fecha un estudio amplio ni una valoracion del impacto que tendria su aplicacion a la lexicografia como disciplina: cuales son los requisitos que cumplir en la representacion de recursos lexicograficos como LLD, que procesos habria que llevar a cabo, cuales serian las ventajas practicas y teoricas de este tipo de representacion, los desafios a los que daria lugar, ni los posibles problemas a los que habria que hacer frente. Asimismo, como piezas necesarias en ese estudio, destaca tambien la falta de guias para representar un amplio abanico de recursos lexiograficos en este nuevo paradigma. En esta tesis doctoral se investiga la aplicacion de los LLD a la lexicografia desde la perspectiva del lexicografo, el usuario de recursos lexicograficos, o el linguista interesado en la semantica lexica que necesita acceder a contenido lexicografico para su trabajo. Esta tesis identifica y resuelve una serie de problemas de modelado a la hora de representar contenido lexicografico en el formato RDF (Resource Description Framework). Mediante la definicion de perfiles de aplicacion y extensiones para el estandar de facto mas utilizado en LLD, este trabajo presenta una serie de recursos lexicograficos en formato RDF que sirven para analizar y demostrar las ventajas de este paradigma para codificar informacion lexicografica, tanto como formato final de un recurso tras una conversion, como como formato nativo para la creacion de nuevas obras lexicograficas.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []