Weakly Supervised Learning for Visual Recognition

Thibaut Durand

Weakly Supervised Learning for Visual Recognition

2017

Thibaut Durand

Cette these s'interesse au probleme de la classification d'images, ou l'objectif est de predire si une categorie semantique est presente dans l'image, a partir de son contenu visuel. Pour analyser des images de scenes complexes, il est important d'apprendre des representations localisees. Pour limiter le cout d'annotation pendant l'apprentissage, nous nous sommes interesse aux modeles d'apprentissage faiblement supervise. Dans cette these, nous proposons des modeles qui simultanement classifient et localisent les objets, en utilisant uniquement des labels globaux pendant l'apprentissage. L'apprentissage faiblement supervise permet de reduire le cout d'annotation, mais en contrepartie l'apprentissage est plus difficile. Le probleme principal est comment agreger les informations locales (e.g. regions) en une information globale (e.g. image). La contribution principale de cette these est la conception de nouvelles fonctions de pooling (agregation) pour l'apprentissage faiblement supervise. En particulier, nous proposons une fonction de pooling « max+min », qui unifie de nombreuses fonctions de pooling. Nous decrivons comment utiliser ce pooling dans le framework Latent Structured SVM ainsi que dans des reseaux de neurones convolutifs. Pour resoudre les problemes d'optimisation, nous presentons plusieurs solveurs, dont certains qui permettent d'optimiser une metrique d'ordonnancement (ranking) comme l'Average Precision. Experimentalement, nous montrons l'interet nos modeles par rapport aux methodes de l'etat de l'art, sur dix bases de donnees standard de classification d'images, incluant ImageNet.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations