Acousting modeling advances for speech recognition

2008 
Esta tesis estudia una serie de contribuciones al modelado acustico en reconocimiento de voz. Se consideran tres aspectosfundamentales: el proceso de extraccion de caracteristicas de la voz, las estructuras de variable oculta en los modelos y lasdistribuciones del proceso de emision de observaciones. Estos aspectos han de considerarse de forma conjunta para conseguir buenasprestaciones a nivel acustico y construir sistemas que puedan ser robustos a distorsiones de ruido y capaces de adaptarse a multiplessituaciones y locutores. Por lo tanto, se ha estructurado la tesis en tres partes.En la primera parte, se describe el proceso de extraccion de caracteristicas y se presentan ciertas modificaciones para conseguircaracteristicas a partir de proyecciones locales en frecuencia. El objetivo de las caracteristicas locales en frecuencia es evitar la altasensibilidad al ruido de ancho de banda estrecho que tienen las proyecciones en los sistemas de referencia. Ademas en la primeraparte se discuten algunos mecanismos para optimizar los conjuntos de caracteristicas de voz gracias a dos metodos. El primeroconsiste en usar proyecciones lineales discriminativas, que permitan encontrar subespacios de menor tamano, en los que se conservela separacion de clases al maximo. El segundo metodo es la seleccion de caracteristicas, cuyo objetivo es encontrar un subconjuntode caracteristicas para el cual podamos obtener alguna propiedad deseada. El ejemplo que se presenta, esta basado en la medida de lainformacion mutua entre las caracteristicas y etiquetas de clase y esta orientado a reducir la sensibilidad al desajuste entre modelos ycondiciones ruidosas. Estas tecnicas, ademas, son mejoradas introduciendo el concepto de reduccion de errores, que se puedeconseguir usando tecnicas de vectores soporte, similares a las utilizadas en la optimizacion "large margin".En la segunda parte de la tesis se propone una modificacion de la estructura de variable oculta en los modelos de referencia.La modificacion implica el anadido de una nueva variable oculta, para capturar parte de la variabilidad del problema que no erasatisfactoriamente resuelto por los modelos anteriores en situaciones de desajuste. Entonces, existe un nuevo grado de libertad en losmodelos que se basa en un conjunto de transformaciones de la senal de voz, conocidas a priori. El objetivo de las transformacionesde los modelos es inicialmente la tecnica de la normalizacion del tracto vocal, que permite construir modelos capaces de adaptarse alocutores diferentes a los del entrenamiento o a pronunciaciones con problemas de diccion. Ademas, los modelos aumentados se hanprobado en otro tipo de aplicacion, esta vez orientada a la compensacion del ruido. En la tesis se muestra que el marco generalpresentado para estos modelos, basado en matrices de transformacion lineal insertadas en la estructura de variable oculta aumentada,puede usarse para reducir el impacto en las prestaciones de las distorsiones del ruido y del canal.En la tercera parte se estudian dos modificaciones a la distribucion del proceso de emision de observaciones en los estados de losmodelos. La primera es el uso de distribuciones de Gaussianas generalizadas, que han sido usadas anteriormente en otros tipos deaplicacion. Se muestra como las Gaussianas generalizadas pueden modelar con una precision mayor las observaciones de voz, ya quetienen un parametro de forma, que permite controlar la kurtosis de la distribucion de una forma sencilla. En la tesis se muestra unmetodo para usar distribuciones multivariadas de este tipo y como incluirlas en mezclas de distribuciones u otras estructuras devariable oculta. Ademas, se muestra como realizar una rotacion de los datos, de tal manera que podamos considerar las prestacionesde la distribucion equivalentes a las de las Gaussianas con matriz de covarianzas completa. El segundo tipo de distribucion consisteen la cuantificacion de los vectores de caracteristicas y modelarlos con variables aleatorias discretas multivariadas. Ya que ladistribucion conjunta no es asumible, se propone una tecnica de factorizacion que completa tecnicas previas. Las factorizaciones sebasan en grafos acicliclos con un numero limitado de padres por nodo. En la tesis se muestra que los modelos son eficientes en costecomputacional, ancho de banda requerido y robustez al ruido, especialmente en condiciones de entrenamiento y reconocimiento con desajuste.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []