Contextual word spotting in historical handwritten documents

David Fernández Mota

Contextual word spotting in historical handwritten documents

2014

David Fernández Mota

Existen incontables colecciones de documentos historicos en archivos y librerias repletos de valiosa informacion para historiadores e investigadores. La extraccion de esta informacion se ha convertido en una de las principales tareas para investigadores del area de analisis de documentos. Hay un interes creciente en digitalizar, conservar y dar acceso a este tipo de documentos. Pero solo la digitalizacion no es suﬁciente para los investigadores. La extraccion y/o indexacion de la informacion de estos documentos tiene un creciente interes entre los investigadores. En muchos casos, y en particular en documentos historicos, la completa trascripcion de estos documentos es extremadamente dificil debido a diﬁcultades intrinsecas: preservacion fisica pobre, diferentes estilos de escritura, lenguajes obsoletos, etc. La busqueda de palabras se convierte en una popular y eﬁciente alternativa a la tran-scripcion completa. Este metodo conlleva una inherente degradacion de las imagenes. La busqueda de palabras se formula holisticamente como una busqueda visual de una forma dada en un conjunto grande de imagenes, en vez de reconocer el texto y buscar la palabra mediante la comparacion de codigos ascii. Pero el rendimiento de los metodos de busqueda de palabras clasicos puede verse afectado por el nivel de degradacion de las imagenes, que en algunos casos pueden ser inaceptables. Por esta razon, proponemos una busqueda de palabras contextual que utiliza la informacion contextual/semantica para obtener resultados donde los metodos de busqueda clasica no lo logran un rendimiento aceptable. El sistema de busqueda de palabras contextual propuesto en esta tesis utiliza un metodo de busqueda de palabras basado en segmentacion, y por tanto es necesaria una segmentacion de palabras precisa. Documentos historicos manuscritos presentan algunas diﬁcultades que pueden diﬁcultar la extraccion de palabras. Proponemos un metodo de segmentacion de palabras que formula el problema como la busqueda del camino central en el area que hay entre dos lineas consecutivas. Esto se resuelve mediante un problema de grafo transversal. Un algoritmo de busqueda de caminos es utilizado para encontrar el camino optimo en el grafo, calculado previamente, entre dos lineas de texto. Una vez las lineas se han extraido, las palabras son localizadas dentro de las lineas de texto utilizando un metodo del estado del arte para segmentar palabras. Los metodos de busqueda clasicos pueden mejor utilizando la informacion contextual de los documentos. Presentamos un nuevo sistema, orientado a documentos manuscritos que presentan una estructura a los largo de sus paginas, para extraer la informacion uti-lizando informacion contextual. El sistema es una eﬁciente herramienta para la transcripcion semiautomatica que utiliza la informacion contextual para obtener mejores resultados que los metodos de busqueda convencionales. La informacion contextual es descubierta automaticamente reconociendo estructuras repetitivas y categorizando las palabras con su correspondiente clase semantica. Se extraen las palabras mas frecuentes de cada clase semantica y asi el mismo texto es utilizado para transcribir todas ellas. Los resultados experimentales obtenidos en esta tesis mejoran los resultados de los metodos clasicos de busqueda de palabras, demostrando idoneidad de la arquitectura propuesta para la busqueda de palabras en documentos historicos manuscritos utilizando la informacion contextual.

Keywords:

Correction
Cite
Save
Machine Reading By IdeaReader

References

Citations