Apprentissage profond bout-en-bout pour le rehaussement de la parole

Guillaume Carbajal

Apprentissage profond bout-en-bout pour le rehaussement de la parole

2020

Guillaume Carbajal

Cette these s'insere dans le developpement des systemes de telecommunication mains-libres, en particulier avec des enceintes intelligentes en environnement domestique. L'utilisateur interagit avec un correspondant distant en etant generalement situe a quelques metres de ce type de systeme. Les microphones sont susceptibles de capter des sons de l'environnement qui se melent a la voix de l'utilisateur, comme le bruit ambiant, l'echo acoustique et la reverberation. Ces types de distorsions peuvent gener fortement l'ecoute et la comprehension de la conversation par le correspondant distant, et il est donc necessaire de les reduire. Des methodes de filtrage existent pour reduire individuellement chacun de ces types de distorsion sonore, et leur reduction simultanee implique de combiner ces methodes. Toutefois, celles-ci interagissent entre elles, et leurs interactions peuvent degrader de la voix de l'utilisateur. Il est donc necessaire d'optimiser conjointement ces methodes. En premier lieu, nous presentons une approche de reduction de l'echo acoustique combinant un filtre d'annulation d'echo avec un post-filtre de suppression d'echo residuel concu de maniere a s'adapter a differents modes de fonctionnement du filtre d'annulation. Pour cela, nous proposons d'estimer les coefficients du post-filtre en utilisant les spectres a court terme de plusieurs signaux observes, dont le signal estime par le filtre d'annulation, en entree d'un reseau de neurones. Nous montrons que cette approche ameliore la performance et la robustesse du post-filtre en matiere de reduction d'echo, tout en limitant la degradation de la parole de l'utilisateur, sur plusieurs scenarios dans des conditions reelles. En second lieu, nous decrivons une approche conjointe de reduction multicanale de l'echo, de la reverberation et du bruit. Nous proposons de modeliser simultanement la parole cible et les signaux residuels apres annulation d'echo et dereverberation dans un cadre probabiliste et de representer conjointement leurs spectres a court terme a l'aide d'un reseau de neurones recurrent. Nous integrons cette modelisation dans un algorithme de montee par blocs de coordonnees pour mettre a jour les filtres d'annulation d'echo et de dereverberation, ainsi que le post-filtre de suppression des signaux residuels. Nous evaluons notre approche sur des enregistrements reels dans differentes conditions. Nous montrons qu'elle ameliore la qualite de la parole ainsi que la reduction de l'echo, de la reverberation et du bruit, par rapport a une approche optimisant separement les methodes de filtrage et une autre approche de reduction conjointe. En dernier lieu, nous formulons une version en ligne de notre approche adaptee aux situations ou les conditions acoustiques varient dans le temps. Nous evaluons la qualite perceptuelle sur des exemples reels ou l'utilisateur se deplace durant la conversation.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations