Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio

2017 
El interes de la comunidad cientifica en la identificacion de contenidos audiovisuales ha crecido considerablemente en los ultimos anos, debido a la necesidad de ejecutar procesos automaticos de clasificacion y monitoreo del cada vez mayor contenido transmitido por diferentes medios como television, radio e internet. En este articulo se propone una arquitectura para la extraccion de informacion a partir de audio, con la finalidad de aplicarlo al analisis de contenidos televisivos en el contexto ecuatoriano. Para esto, se definen dos servicios, un servicio de segmentacion de audio y un servicio de transcripcion. El servicio de segmentacion identifica y extrae los segmentos de audio que contienen narrativa, musica, o narrativa sobre musica. Mientras que, el servicio de transcripcion hace un reconocimiento de los segmentos de tipo narrativa para obtener su contenido como texto. Estos servicios y las herramientas que los conforman han sido evaluados con el fin de medir su rendimiento y, en el caso de las herramientas usadas, definir cual de estas es la que mejor se ajusta a la definicion de la arquitectura. Los resultados de las evaluaciones realizadas sobre la arquitectura propuesta demuestran que la construccion de un sistema de reconocimiento de habla que haga uso de distintas herramientas de codigo abierto existentes ofrece un mayor nivel de precision que un servicio de transcripcion de disposicion general.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []