Jochre, océrisation par apprentissage automatique : étude comparée sur le yiddish et l'occitan

2013 
Pour constituer des bases de textes pour des langues peu dotees comme le yiddish et l'occitan, il faut creer des outils et des ressources permettant une reconnaissance optique de caracteres (ocerisation) de qualite. Une des difficultes principales a surmonter pour ces deux langues est leur grande variation graphique (et dialectale pour l'occitan). Il est generalement admis qu'un lexique augmente la qualite de l'ocerisation, mais la facon dont il faut tenir compte de la variation au sein du lexique n'est pas toujours clair. Dans cette etude, nous avons utilise un logiciel d'apprentissage automatique supervise, Jochre. Nous comparons plusieurs facons de constituer et d'utiliser les lexiques. La meilleure methode nous permet d'atteindre une exactitude de 91,2 % (mots) et 97,4 % (lettres) sur le corpus yiddish, et de 93,2 % (mots) et 97,9 % (lettres) pour le corpus occitan.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    4
    Citations
    NaN
    KQI
    []