A new strategy for Arabic OCR based on script analysis and synthesis

2020 
La reconnaissance automatique de caracteres (OCR) a connu d’importantes ameliorations ces dernieres annees, meme si les strategies OCR conventionnelles n'exploitent pas encore les concepts linguistiques sur l'analyse de l'ecriture arabe. Nous presentons une strategie supplementaire, nouvelle, qui vise a ameliorer l'OCR en arabe. Dans cette approche, les points de desambiguisation sont temporairement elimines, ce qui reduit les classes de graphemes partageant le meme element de base a des archigraphemes uniques. En outre, le comportement contextuel des archigraphemes arabes est redefini comme une fusion : les archigraphemes fusionnent de maniere meconnaissable en blocs de lettres selon un systeme base sur des regles appelees grammaire de script. Le bloc de lettres est defini comme l'unite minimale de formation de l'ecriture arabe. Par exemple, le mot بحوث se compose de deux blocs de lettres, des groupes d'allographes fusionnes entoures d'un espace graphique, ٮحو et ٮ (BGW B). D'un corpus arabe d'environ 85 millions de mots, nous avons extrait une liste d'environ 47 000 blocs de lettres archigraphemiques uniques, ce qui implique que nous avons reduit le systeme d'ecriture arabe dynamique et generatif aux proportions d'une ecriture statique comme le chinois. Nous montrons ensuite comment synthetiser toutes les formes theoriques pour chaque bloc de lettres a partir de modeles informatiques de styles d'ecriture islamiques specifiques (ruqʿa, naskh, nastaʿlīq). Ce n'est que dans la derniere etape que nous devrons desambiguiser les archigraphemes en graphemes reels en utilisant des informations linguistiques, dont une partie a deja ete recueillie dans le corpus de 85 millions de mots. Cette approche rend egalement possible une formation initiale a l'OCR sur des textes rendus avec les memes modeles d'ecriture islamiques.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    1
    References
    0
    Citations
    NaN
    KQI
    []