Suivi multi-locuteurs avec information audio-visuel pour la perception du robot

Yutong Ban

Suivi multi-locuteurs avec information audio-visuel pour la perception du robot

2019

Yutong Ban

La perception des robots joue un role crucial dans l'interaction homme- robot (HRI). Le systeme de perception fournit les informations au robot sur l'environnement, ce qui permet au robot de reagir en consequence. Dans un scenario de conversation, un groupe de personnes peut discuter devant le robot et se deplacer librement. Dans de telles situations, les robots sont censes comprendre ou sont les gens, ceux qui parlent et de quoi ils parlent. Cette these se concentre sur les deux premieres questions, a savoir le suivi et la diarisation des locuteurs. Nous utilisons differentes modalites du systeme de perception du robot pour remplir cet objectif. Comme pour l'humain, l'ouie et la vue sont essentielles pour un robot dans un scenario de conversation. Les progres de la vision par ordinateur et du traitement audio de la derniere decennie ont revolutionne les capacites de perception des robots. Dans cette these, nous developpons les contributions suivantes : nous developpons d'abord un cadre variationnel bayesien pour suivre plusieurs objets. Le cadre bayesien variationnel fournit des solutions explicites, rendant le processus de suivi tres efficace. Cette approche est d'abord applique au suivi visuel de plusieurs personnes. Les processus de creations et de destructions sont en adequation avec le modele probabiliste propose pour traiter un nombre variable de personnes. De plus, nous exploitons la complementarite de la vision et des informations du moteur du robot : d'une part, le mouvement actif du robot peut etre integre au systeme de suivi visuel pour le stabiliser ; d'autre part, les informations visuelles peuvent etre utilisees pour effectuer l'asservissement du moteur. Par la suite, les informations audio et visuelles sont combinees dans le modele variationnel, pour lisser les trajectoires et deduire le statut acoustique d'une personne : parlant ou silencieux. Pour experimenter un scenario ou l'information visuelle est absente, nous essayons le modele pour la localisation et le suivi des locuteurs base sur l'information acoustique uniquement. Les techniques de dereverberation sont d'abord appliquees, dont le resultat est fourni au systeme de suivi. Enfin, une variante du modele de suivi des locuteurs basee sur la distribution de von-Mises est proposee, celle-ci etant plus adaptee aux donnees directionnelles. Toutes les methodes proposees sont validees sur des bases de donnees specifiques a chaque application.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations