Expresiones de referencia y figuras retóricas para la distinción y descripción de entidades en discursos generados automáticamente

Raquel Hervás Ballesteros

Expresiones de referencia y figuras retóricas para la distinción y descripción de entidades en discursos generados automáticamente

2011

Raquel Hervás Ballesteros

El campo de la interaccion hombre-maquina ha ido evolucionando rapidamente en los ultimos anos, convirtiendose en un elemento fundamental de cualquier sistema informatico. Si un sistema es capaz de comunicarse con un ser humano mediante interacciones que a este le resulten naturales y amigables (voz, imagenes, etc.), el usuario sera mucho mas perceptivo hacia la informacion que esta recibiendo y tendra mas confianza en la aplicacion. En este sentido, un campo fundamental dentro de la interaccion hombre maquina es el de la Generacion de Lenguaje Natural (GLN), un subcampo de la Inteligencia Artificial y la Linguistica Computacional que se encarga del diseno e implementacion de sistemas que producen textos comprensibles en lenguajes humanos. Entre todos los problemas que se deben resolver para que el proceso completo de generacion resulte satisfactorio, se encuentra el de decidir como habra que referirse a las entidades o elementos que apareceran en el texto. La tarea de Generacion de Expresiones de Referencia se encarga de resolver este problema concreto. Las diferentes menciones al mismo elemento en un texto deben ser reemplazadas por la forma especifica en que referirse a ellas o referencias. A la hora de planificar las referencias de un texto se deben tener en cuenta dos propositos. En primer lugar, una referencia a un elemento del discurso debe permitir al lector u oyente distinguir a este elemento de cualquier otro presente en el contexto con el que se pudiera confundir. Por otro lado, en ocasiones las referencias contendran informacion que mas alla de la funcion de distinguir pretendan ademas describir las entidades a las que se refieren, presentando informacion relevante sobre las mismas previamente desconocida. De estas dos funciones (distintiva y descriptiva), solo la primera ha sido ampliamente estudiada en la literatura. Se pueden encontrar numerosos trabajos que se encargan de abarcar el problema de la generacion de expresiones de referencia con funcion distintiva estudiando aspectos como la minimalidad de una expresion, la semejanza de la expresion a las utilizadas por los seres humanos, la no ambiguedad de la referencia generada, etc. En cuanto a la descripcion de entidades, aunque existen trabajos sobre generacion de lenguaje natural basada en descripciones, se ha realizado poco trabajo desde el punto de vista del enriquecimiento del discurso con expresiones descriptivas que adem´as realcen cierta informacion considerada importante, o sobre la relacion de este proceso con la funcion distintiva de las referencias. En este trabajo se aborda la generacion de referencias de dos maneras diferentes. En primer lugar se proponen soluciones alternativas y mejoras a los algoritmos clasicos de generacion de expresiones de referencia basica con funcion distintiva. Se aborda el problema desde tres frentes diferentes: como adecuar el nivel de abstraccion al que se estan nombrando las referencias segun el contexto de la situacion, que estrategia de busqueda usar para la eleccion de los atributos que permitan distinguir a un concepto, y que palabras o expresiones resultan mas adecuadas para expresar una referencia en lenguaje natural. Para cada uno de estos frentes se presentan soluciones basadas en tecnicas y recursos clasicos de la Inteligencia Artificial como son los algoritmos evolutivos, el razonamiento basado en casos, o las ontologias. Ademas se evaluaran las diferentes soluciones presentadas teniendo en cuenta las metricas clasicas en este campo. En segundo lugar se explora el enriquecimiento de un discurso dado aportando informacion descriptiva utilizando figuras retoricas basadas en similitudes entre dominios como la comparacion y la analogia. Para que sea posible utilizar este tipo de figuras en un sistema de generacion de lenguaje natural se deben resolver problemas de arquitectura, fuentes de conocimiento, determinacion de las analogias y comparaciones, etc. En este trabajo se estudian estos problemas y se propone un marco general para abordar la generacion de este tipo de referencias. Los resultados obtenidos para las soluciones propuestas en este trabajo dan lugar a una discusion sobre aspectos a mejorar en trabajo futuro y limitaciones de los algoritmos implementados. Tambien se discute la relacion de la generacion de expresiones de referencia, desde el punto de vista de sus funciones distintiva y descriptiva, con el resto del proceso de generacion de lenguaje natural. Finalmente se presentan las conclusiones de esta investigacion, asi como lineas abiertas para trabajo futuro y campos de aplicacion de las soluciones y resultados obtenidos. [ABSTRACT] The field of human-computer interaction has evolved rapidly in recent years, becoming a key element of any computer system. If a system is capable of communicating with a human being through interactions that result natural and friendly for him or her (voice, images, etc.), the user will be much more perceptive to the transmitted information and will have more trust on the application and its results. In this regard, a key area within the human-computer interaction field is Natural Language Generation (NLG), a subfield of Artificial Intelligence and Computational Linguistics. The field of Natural Language Generation is responsible for the design and implementation of systems that produce understandable texts in human languages from an initial non-linguistic representation of information. Within this field, one of the problems to be solved in order to generate satisfactory results is to decide how to refer to entities or elements that appear in the text. The task of Referring Expression Generation deals with this specific problem. The different references to the same element in a text should be replaced by specific ways in which to refer to them or references. The process of referring expression generation should take into account two objectives. First, a reference to an element in the discourse should allow the reader or listener to distinguish it from any other element in the context with which it could be confused. In addition, sometimes the references may contain additional information intended to describe the corresponding entities beyond the function of distinguishing. Of these two functions (distinctive and descriptive), only the former has been widely studied in the literature. Numerous works can be found dealing with the problem of distinguishing references, confronting issues such as minimality of an expression, similarity of a expression with the ones used by human beings, absence of ambiguity in the generated reference, etc. However, although there is some work related to the generation of natural language descriptions, there are fewer works focused on enhancing a discourse with certain expressions that highlight descriptive information considered important, or on its relationship with the generation of distinguishing references. This work addresses the complete problem of reference planning in two different ways. Firstly, several solutions and improvements to classical referring expression generation are proposed for references that attempt to distinguish the referents from other entities in context. The problem is addressed from three fronts: how to adjust the level of abstraction employed to name the reference according to the situation, which strategy to use for choosing the attributes that distinguish a concept, and what words or expressions are more appropriate to express a reference in natural language. For each of these points we present solutions based on classical techniques and methodologies of Artificial Intelligence, such as evolutionary algorithms, case-based reasoning, or ontologies. The results obtained from the different solutions are also evaluated using classical metrics from this field. Secondly, this work explores the enhancement of a given speech by providing descriptive information using figures of speech based on similarities between domains, such as comparison and analogy. In order to use such figures in a natural language generation system, it is necessary to address issues related to managing sources of knowledge, determining the appropriate figures,and defining an architecture to implement such systems. This work studies these issues and proposes a general framework to generate this kind of references. The results obtained by the solutions proposed in this work lead to a discussion on the shortcomings of each approach, identifying aspects that could be improved in future work. The relationship between the generation of referring expressions (both distinctive and descriptive) and the complete process of natural language generation is also discussed. Finally, the conclusions derived from these lines of research are presented,along with the identification of possible lines for future work and areas of application for the solutions and results presented in this work.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations