Relocalisation Robuste de Caméra en Temps Réel pour la Réalité Augmentée par une Approche Hybride combinant Réseaux de Neurones et Méthodes Géométriques

Nam-Duong Duong,Amine Kacete,Catherine Soladie,Pierre-Yves Richard,Jérôme Royan

Relocalisation Robuste de Caméra en Temps Réel pour la Réalité Augmentée par une Approche Hybride combinant Réseaux de Neurones et Méthodes Géométriques

2018

La relocalisation des cameras se signale comme une pro-blematique centrale dans le domaine emergent de la realite augmentee. Les approches les plus courantes pour la trai-ter, regroupees sous l'appellation generique de methodes geometriques, ont pour noms SLAM (Simultaneous Locali-zation And Mapping) et SfM (Structure from Motion). Les rapides progres de l'apprentissage automatique, en par-ticulier ceux de l'apprentissage en profondeur, ont egale-ment offert de nouvelles perspectives prometteuses a cette problematique. De premieres tentatives ont recemment ete faites pour combiner les deux types d'approches. Cepen-dant, la lourdeur des algorithmes utilises rend difficile leur exploitation dans le contexte temps reel sous-jacent a la realite augmentee. De plus, les predictions concer-nant la pose d'une camera restent incertaines, n'etant encore assorties d'aucun score de confiance. Dans cet article , nous proposons une methode hybride melangeant a la fois les approches de l'apprentissage en profondeur et les approches geometriques pour estimer la pose d'une ca-mera independamment image par image. Nous presentons un reseau de neurones convolutif (CNN) leger, appele xyz-Net pour calculer en temps reel et robustement par regres-sion les coordonnees dans le repere du monde des points reels associes aux pixels d'une image. Ensuite, l'informa-tion geometrique sur les correspondances 2D-3D permet l'elimination des predictions ambigues et le calcul d'une pose de camera plus precise. De plus, nous montrons des resultats favorables quant a l'exactitude et la performance de notre methode sur des ensembles de donnees differents ainsi que sa capacite a relever les defis concernant la scene dynamique. Mots Clef Relocalisation de camera en temps reel, regression de l'ap-prentissage en profondeur. Abstract Camera relocalization is a central issue in augmented reality. The most common approaches for camera relocaliza-tion known as the geometric-based methods are Simultaneous Localization And Mapping (SLAM) and Structure from Motion (SfM). Also, camera relocalization has recently obtained many promising results thanks to progress in machine learning, especially in deep learning. First attempts to combine both kinds of approaches have recently been published. However, the latter are not suitable for a real time use, because of time consuming algorithms. Besides , prediction about camera pose keeps uncertain with no confidence score provided. In this paper, we propose a hybrid method merging both deep learning and geometric approaches to estimate camera pose in real time. We present a light Convolutional Neural Network (CNN) called xyzNet to efficiently and robustly regress world coordinates of pixels in an image. Then, the geometric information about 2D-3D correspondences allows the removal of ambiguous predictions and the calculation of more accurate camera pose. Moreover, we show favorable results about the accuracy and the performance of our method on different datasets as well as the capacity to address challenges concerning dynamic scene.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations