Segmentation non supervisée d'images de document en paragraphes

2012 
Dans cet article, nous presentons une methode de segmentation des images de documents dont la finalite est le decoupage des images en paragraphes. Nous proposons une chaine complete, basee sur l'application recursive de differents traitements et algorithmes de segmentation connus comme X-Y cut(Nagy et al., 1984) et l'analyse des rectangles blancs maximaux(Breuel, 2002). L'ensemble de la chaine de traitement, ainsi que le parametrage de chacun des algorithmes est guide par des statistiques calculees sur l'image ou les blocs en cours de traitement. Ainsi, nous nous affranchissons totalement de l'etape de reglage des parametres, que ce soit par une estimation manuelle ou automatique sur une base de validation. Enfin, nous proposons un systeme original et facilement extensible pour la detection de different types de mise en page de paragraphes. Nous extrayons donc non seulement la segmentation physique du document en paragraphes, mais aussi des informations sur la mise en page de chacun des paragraphes extraits. Nous illustrons les performances de notre algorithme sur la base de d'images complexe de documents historiques utilisee lors de la competition ICDAR2011.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    10
    References
    0
    Citations
    NaN
    KQI
    []