Viewpoint invariant features and robust monocular camera pose estimation

Luis Ferraz Colomina

Viewpoint invariant features and robust monocular camera pose estimation

2016

Luis Ferraz Colomina

La pose de la camera respecte a una escena del mon real determina la projeccio perspectiva de l'escena sobre el pla imatge. L'analisi de les deformacions entre parelles d'imatges degudes a la perspectiva i la pose de la camera han portat a molts investigadors en Visio per Computador a tractar amb problemes com, la capacitat per detectar i buscar coincidencies de les mateixes caracteristiques locals a diferents imatges o recuperar per cada imatge la pose original de la camera. La diferencia entre els dos problemes recau en la localitat de la informacio que es mostra a la imatge, mentre en el cas de les caracteristiques es busca la invariancia local, per al cas de la pose de la camera es busquen fonts d'informacio mes global, com ara conjunts de caracteristiques locals. La deteccio de caracteristiques locals es una peca clau per un ampli rang d'aplicacions de Visio per Computador donat que permet buscar coincidencies i localitzar regions especifiques de la imatge. A la primera part d'aquest treball la invariancia de les caracteristiques es abordada proposant algoritmes per millorar la robustesa a les pertorbacions de la imatge, canvis de perspectiva i poder de discriminacio des de dos punts de vista: (i) deteccio precisa de cantonades i taques a les imatges evitant redundancies mitjancant el seu moviment a traves de diferents escales, i (ii) aprenentatge de descriptors robustos. Concretament, proposem tres detectors invariants a escala on un d'ells detecta cantonades i taques simultaniament amb un increment de la carrega computacional insignificant. Tambe proposem un detector invariant afi de taques. Sobre descriptors, proposem aprendre'ls mitjancant xarxes neurals de convolucio i grans conjunts de regions d'imatges anotades sota diferents condicions. Malgrat que es un tema investigat durant decades, l'estimacio de la pose de la camera encara es un repte. L'objectiu dels algorismes de Perspective-n-Point (PnP) es estimar la localitzacio i orientacio d'una camera calibrada a partir de n correspondencies 3D-a-2D conegudes entre un previament conegut model 3D d'una escena real i caracteristiques 2D obtingudes d'una unica imatge. A la segona part d'aquesta tesi l'estimacio de la pose de la camera es adrecada amb nous metodes de PnP, els quals redueixen drasticament el cost computacional permetent aplicacions en temps real independentment del nombre de correspondencies. A mes, proporcionem un mecanisme integrat de rebuig de correspondencies incorrectes amb una carrega computacional insignificant i un nou metode per incrementar la precisio que modela l'error de reprojeccio de cada correspondencia. A escenaris complexos i grans, amb potser centenars de milers de caracteristiques, es dificil i computacionalment car trobar correspondencies correctes. En aquest cas, proposem un metode robust i precis per estimar la pose de la camera. El nostre metode s'aprofita de classificadors d'alt nivell, que estimen la pose de la camera de manera poc precisa, per tal de restringir les correspondencies a ser utilitzades pels nostres precisos algorismes de PnP.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations