Subspace Gaussian Mixture Models for Language Identification and Dysarthric Speech Intelligibility Assessment

2015 
En esta Tesis se ha investigado la aplicacion de tecnicas de modelado de subespacios de mezclas de Gaussianas en dos problemas relacionados con las tecnologias del habla, como son la identificacion automatica de idioma (LID, por sus siglas en ingles) y la evaluacion automatica de inteligibilidad en el habla de personas con disartria. Una de las tecnicas mas importantes estudiadas es el analisis factorial conjunto (JFA, por sus siglas en ingles). JFA es, en esencia, un modelo de mezclas de Gaussianas en el que la media de cada componente se expresa como una suma de factores de dimension reducida, y donde cada factor representa una contribucion diferente a la senal de audio. Esta factorizacion nos permite compensar nuestros modelos frente a contribuciones indeseadas presentes en la senal, como la informacion de canal. JFA se ha investigado como clasficador y como extractor de parametros. En esta ultima aproximacion se modela un solo factor que representa todas las contribuciones presentes en la senal. Los puntos en este subespacio se denominan i-Vectors. Asi, un i-Vector es un vector de baja dimension que representa una grabacion de audio. Los i-Vectors han resultado ser muy utiles como vector de caracteristicas para representar senales en diferentes problemas relacionados con el aprendizaje de maquinas. En relacion al problema de LID, se han investigado dos sistemas diferentes de acuerdo al tipo de informacion extraida de la senal. En el primero, la senal se parametriza en vectores acusticos con informacion espectral a corto plazo. En este caso, observamos mejoras de hasta un 50% con el sistema basado en i-Vectors respecto al sistema que utilizaba JFA como clasificador. Se comprobo que el subespacio de canal del modelo JFA tambien contenia informacion del idioma, mientras que con los i-Vectors no se descarta ningun tipo de informacion, y ademas, son utiles para mitigar diferencias entre los datos de entrenamiento y de evaluacion. En la fase de clasificacion, los i-Vectors de cada idioma se modelaron con una distribucion Gaussiana en la que la matriz de covarianza era comun para todos. Este metodo es simple y rapido, y no requiere de ningun post-procesado de los i-Vectors. En el segundo sistema, se introdujo el uso de informacion prosodica y formantica en un sistema de LID basado en i-Vectors. La precision de este estaba por debajo de la del sistema acustico. Sin embargo, los dos sistemas son complementarios, y se obtuvo hasta un 20% de mejora con la fusion de los dos respecto al sistema acustico solo. Tras los buenos resultados obtenidos para LID, y dado que, teoricamente, los i-Vectors capturan toda la informacion presente en la senal, decidimos usarlos para la evaluar de manera automatica la inteligibilidad en el habla de personas con disartria. Los logopedas estan muy interesados en esta tecnologia porque permitiria evaluar a sus pacientes de una manera objetiva y consistente. En este caso, los i-Vectors se obtuvieron a partir de informacion espectral a corto plazo de la senal, y la inteligibilidad se calculo a partir de los i-Vectors obtenidos para un conjunto de palabras dichas por el locutor evaluado. Comprobamos que los resultados eran mucho mejores si en el entrenamiento del sistema se incorporaban datos de la persona que iba a ser evaluada. No obstante, esta limitacion podria aliviarse utilizando una mayor cantidad de datos para entrenar el sistema.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    1
    Citations
    NaN
    KQI
    []