Annotation de vidéos par paires rares de concepts

Abdelkader Hamadi,Philippe Mulhem,Georges Quénot

Annotation de vidéos par paires rares de concepts

2014

La detection d'un concept visuel dans les videos est une tâche difficile, specialement pour les concepts rares ou pour ceux dont il est complique de decrire visuellement. Cette question devient encore plus difficile quand on veut detecter une paire de concepts au lieu d'un seul. En effet, plus le nombre de concepts presents dans une scene video est grand, plus cette derniere est complexe visuellement, et donc la difficulte de lui trouver une description specifique s'accroit encore plus. Deux directions principales peuvent eˆtre suivies pour tacler ce probleme: 1) detecter chaque concept separement et combiner ensuite les predictions de leurs detecteurs correspondants d'une maniere similaire a celle utilisee souvent en recherche d'information, ou 2) considerer le couple comme un nouveau concept et generer un classifieur supervise pour ce nouveau concept en inferant de nouvelles annotations a partir de celles des deux concepts formant la paire. Chacune de ces approches a ses avantages et ses inconvenients. Le probleme majeur de la deuxieme methode est la necessite d'un ensemble de donnees annotees, surtout pour la classe positive. S'il y a des concepts rares, cette rarete s'accroit encore plus pour les paires formees de leurs combinaisons. D'une autre part, il peut y avoir deux concepts assez frequents mais il est tres rare qu'ils occurrent conjointement dans un meˆme document. Certains travaux de l'etat de l'art ont propose de palier ce probleme en recoltant des exemples representatifs des classes etudiees du web, mais cette tâche reste couˆteuse en temps et argent. Nous avons compare les deux types d'approches sans recourir a des ressources externes. Notre evaluation a ete realisee dans le cadre de la sous-tâche "detection de paire de concepts" de la tâche d'indexation semantique (SIN) de TRECVID 2013, et les resultats ont revele que pour le cas des videos, si on n'utilise pas de ressources d'information externes, les approches qui fusionnent les resultats des deux detecteurs sont plus performantes, contrairement a ce qui a ete montre dans des travaux anterieurs pour le cas des images fixes. La performance des methodes decrites depasse celle du meilleur resultat officiel de la campagne d'evaluation precedemment citee, de 9% en termes de gain relatif sur la precision moyenne (MAP).

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations