Management of Scientific Images: An approach to the extraction, annotation and retrieval of figures in the field of High Energy Physics

2013 
El entorno de la informacion en la primera decada del siglo XXI no tiene precedentes. Las barreras fisicas que han limitado el acceso al conocimiento estan desapareciendo a medida que los metodos tradicionales de acceso a informacion se reemplazan o se mejoran gracias al uso de sistemas basados en computador. Los sistemas digitales son capaces de gestionar colecciones mucho mas grandes de documentos, confrontando a los usuarios de informacion con la avalancha de documentos asociados a su topico de interes. Esta nueva situacion ha creado un incentivo para el desarrollo de tecnicas de mineria de datos y la creacion de motores de busqueda mas eficientes y capaces de limitar los resultados de busqueda a un subconjunto reducido de los mas relevantes. Sin embargo, la mayoria de los motores de busqueda en la actualidad trabajan con descripciones textuales. Estas descripciones se pueden extraer o bien del contenido o a traves de fuentes externas. La recuperacion basada en el contenido no textual de documentos es un tema de investigacion continua. En particular, la recuperacion de imagenes y el desentranar la informacion contenida en ellas estan suscitando un gran interes en la comunidad cientifica. Las bibliotecas digitales se situan en una posicion especial dentro de los sistemas que facilitan el acceso al conocimiento. Actuan como repositorios de documentos que comparten algunas caracteristicas comunes (por ejemplo, pertenecer a la misma area de conocimiento o ser publicados por la misma institucion) y como tales contienen documentos considerados de interes para un grupo particular de usuarios. Ademas, facilitan funcionalidades de recuperacion sobre las colecciones gestionadas. Normalmente, las publicaciones cientificas son las unidades mas pequenas gestionadas por las bibliotecas digitales cientificas. Sin embargo, en el proceso de creacion cientifica hay diferentes tipos de artefactos, entre otros: figuras y conjuntos de datos. Las figuras juegan un papel particularmente importante en el proceso de publicacion cientifica. Representan los datos en una forma grafica que nos permite mostrar patrones sobre grandes conjuntos de datos y transmitir ideas complejas de un modo facilmente entendible. Los sistemas existentes para bibliotecas digitales facilitan el acceso a figuras, pero solo como parte de los ficheros sobre los que se serializa la publicacion entera. El objetivo de esta tesis es proponer un conjunto de metodos y tecnicas que permitan transformar las figuras en productos de primera clase dentro del proceso de publicacion cientifica, permitiendo que los investigadores puedan obtener el maximo beneficio a la hora de realizar busquedas y revisiones de bibliografia existente. Los metodos y tecnicas propuestos estan orientados a facilitar la adquisicion, anotacion semantica y busqueda de figuras contenidas en publicaciones cientificas. Para demostrar la completitud de la investigacion se han ilustrado las teorias propuestas mediante ejemplos en el campo de la Fisica de Particulas (tambien conocido como Fisica de Altas Energias). Para aquellos casos en los que se han necesitadoo en las figuras que aparecen con mas frecuencia en las publicaciones de Fisica de Particulas: los graficos cientificos denominados en ingles con el termino plots. Los prototipos que propuestas mas detalladas, esta tesis se ha focalizadse han desarrollado para esta tesis se han integrado parcialmente dentro del software Invenio para bibliotecas digitales, asi como dentro de INSPIRE, una de las mayores bibliotecas digitales en Fisica de Particulas mantenida gracias a la colaboracion de grandes laboratorios y centros de investigacion como son el CERN, SLAC, DESY y Fermilab.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    2
    Citations
    NaN
    KQI
    []