Métodos discriminativos para la optimización de modelos en la Verificación del Hablante

2014 
La creciente necesidad de sistemas de autenticacion seguros ha motivado el interes de algoritmos efectivos de Verificacion de Hablante (VH). Dicha necesidad de algoritmos de alto rendimiento, capaces de obtener tasas de error bajas, ha abierto varias ramas de investigacion. En este trabajo proponemos investigar, desde un punto de vista discriminativo, un conjunto de metodologias para mejorar el desempeno del estado del arte de los sistemas de VH. En un primer enfoque investigamos la optimizacion de los hiper-parametros para explicitamente considerar el compromiso entre los errores de falsa aceptacion y falso rechazo. El objetivo de la optimizacion se puede lograr maximizando el area bajo la curva conocida como ROC (Receiver Operating Characteristic) por sus siglas en ingles. Creemos que esta optimizacion de los parametros no debe de estar limitada solo a un punto de operacion y una estrategia mas robusta es optimizar los parametros para incrementar el area bajo la curva, AUC (Area Under the Curve por sus siglas en ingles) de modo que todos los puntos sean maximizados. Estudiaremos como optimizar los parametros utilizando la representacion matematica del area bajo la curva ROC basada en la estadistica de Wilcoxon Mann Whitney (WMW) y el calculo adecuado empleando el algoritmo de descendente probabilistico generalizado. Ademas, analizamos el efecto y mejoras en metricas como la curva detection error tradeoff (DET), el error conocido como Equal Error Rate (EER) y el valor minimo de la funcion de deteccion de costo, minimum value of the detection cost function (minDCF) todos ellos por sue siglas en ingles. En un segundo enfoque, investigamos la senal de voz como una combinacion de atributos que contienen informacion del hablante, del canal y el ruido. Los sistemas de verificacion convencionales entrenan modelos unicos genericos para todos los casos, y manejan las variaciones de estos atributos ya sea usando analisis de factores o no considerando esas variaciones de manera explicita. Proponemos una nueva metodologia para particionar el espacio de los datos de acuerdo a estas carcteristicas y entrenar modelos por separado para cada particion. Las particiones se pueden obtener de acuerdo a cada atributo. En esta investigacion mostraremos como entrenar efectivamente los modelos de manera discriminativa para maximizar la separacion entre ellos. Ademas, el diseno de algoritimos robustos a las condiciones de ruido juegan un papel clave que permite a los sistemas de VH operar en condiciones reales. Proponemos extender nuestras metodologias para mitigar los efectos del ruido en esas condiciones. Para nuestro primer enfoque, en una situacion donde el ruido se encuentre presente, el punto de operacion puede no ser solo un punto, o puede existir un corrimiento de forma impredecible. Mostraremos como nuestra metodologia de maximizacion del area bajo la curva ROC es mas robusta que la usada por clasificadores convencionales incluso cuando el ruido no esta explicitamente considerado. Ademas, podemos encontrar ruido a diferentes relacion senal a ruido (SNR) que puede degradar el desempeno del sistema. Asi, es factible considerar una descomposicion eficiente de las senales de voz que tome en cuenta los diferentes atributos como son SNR, el ruido y el tipo de canal. Consideramos que en lugar de abordar el problema con un modelo unificado, una descomposicion en particiones del espacio de caracteristicas basado en atributos especiales puede proporcionar mejores resultados. Esos atributos pueden representar diferentes canales y condiciones de ruido. Hemos analizado el potencial de estas metodologias que permiten mejorar el desempeno del estado del arte de los sistemas reduciendo el error, y por otra parte controlar los puntos de operacion y mitigar los efectos del ruido.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []