Creación de un Framework para el tratamiento de corpus lingüísticos

2017 
A pesar de los indudables avances en el software para el tratamiento de corpus linguisticos en los ultimos tiempos, ya sea por medio de procesamiento de corpus cada vez mas grandes o inclusion de estadisticas mas complejas, sigue sin tenerse en cuenta la usabilidad y el perfil no tecnico del usuario final. La situacion resulta mas evidente cuando se trabaja con lenguas distintas del ingles y con combinaciones de lenguas, ya que la tipologia y especificidad de las mismas incide en los requisitos del software, y por este motivo la disponibilidad de recursos es menor y de peor calidad. El estado de la cuestion revela que la creacion de corpus linguisticos bi-/multilingues paralelos o comparables, asi como la incorporacion de etiquetados linguisticos en los frameworks para el tratamiento de corpus linguisticos ya existentes, obliga al usuario a disponer de ciertos conocimientos de programacion, o al menos a saber ejecutar programas con usabilidad reducida y/o scripts informaticos propios, para ajustar el corpus a los requisitos establecidos por el framework utilizado. Si no se dan estas condiciones, es indispensable contar con especialistas tecnicos con habilidades en programacion y NLP (por sus siglas en ingles Natural Language Processing). El objetivo de la tesis doctoral es, por tanto, el desarrollo de un software, denominado ACTRES Corpus Manager, que permita a los usuarios linguistas construir sus propios corpus linguisticos (monolingues, paralelos bi-/multilingues o comparables) con distintas capas de anotacion (gramatical, semantica o retorica) y obtener datos linguisticos y estadisticos sin necesidad sin necesidad de asistencia tecnica en ningun punto del proceso e independientemente de las habilidades tecnicas del usuario. La estrategia seleccionada para el desarrollo de ACTRES Corpus Manager es la creacion de un framework accesible via web formado por distintos componentes interconectados entre si. Cada actividad necesaria para la creacion de un corpus es asignada a cada uno de estos componentes, posibilitando su facil modificacion y reutilizacion. ACTRES Corpus Manager combina la utilizacion de recursos software de terceros, cuya eficiencia y validez haya sido demostrada (ej. The IMS Corpus Workbench, Treetagger, hunalign, etc.), junto con soluciones software propias en aquellos procesos que el estado de la cuestion ha relevado mas inmaduros y/o complejos de integrar (etiquetador retorico, etiquetador semantico, etc.). Por ultimo, senalar que la interfaz de consulta de ACTRES Corpus Manager se inspira en P-ACTRES 2.0 y permite la realizacion de consultas complejas asistidas, basadas en expresiones regulares, asi como la extraccion de las estadisticas habituales, sin necesidad de que el usuario disponga de conocimientos especificos de la sintaxis del lenguaje de consulta utilizado.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []