How to do lexical quality estimation of a large OCRed historical Finnish newspaper collection with scarce resources

Kimmo Kettunen

How to do lexical quality estimation of a large OCRed historical Finnish newspaper collection with scarce resources

2020

Kimmo Kettunen

The National Library of Finland has digitized and made available the historical newspapers published in Finland between 1771 and 1910 (Bremer-Laamanen 2014; Kettunen et al. 2014). This collection contains approximately 1.95 million pages in Finnish and Swedish. The Finnish part of the collection consists of about 2.40 billion words. The National Library’s Digital Collections are offered via the digi.kansalliskirjasto.fi web service, also known as Digi. An open data package of the whole collection was released in early 2017 (Paakkonen et al. 2016). Quality of OCRed collections is an important topic in digital humanities, as it affects general usability and searchability of collections. There is no single available method to assess quality of large collections, but different methods can be used to approximate quality. This paper discusses different corpus analysis style methods to approximate overall lexical quality of the Finnish part of the Digi collection. Methods include usage of parallel samples and word error rates, usage of morphological analysers, frequency analysis of words and comparisons to comparable edited lexical data. Our aim in the quality analysis is twofold: firstly to analyse the present state of the lexical data and secondly, to establish a set of assessment methods that build up a compact procedure for quality assessment after e.g. re-OCRing or post-correction of the material. Resume La Bibliotheque nationale de Finlande a numerise et rendu disponible les journaux historiques publies en Finlande entre 1771 et 1910 (Bremer-Laamanen 2014 ; Kettunen et al. 2014). Cette collection contient environ 1,95 million pages en finnois et suedois. La partie finnoise de la collection compte environ 2,40 milliards de mots. Les Collections numerisees de la Bibliotheque Nationale sont offertes sur le service web digi.kansalliskirjasto.fi , egalement appele Digi. Un ensemble de donnees disponibles de la collection entiere est sorti debut 2017 (Paakkonen et al. 2016). La qualite de collections en OCR est un theme important pour les humanites numeriques, puisqu’elle concerne l’utilite et la facilite de recherche de collections. Il n’y a pas qu’une seule methode pour evaluer la qualite de grandes collections, mais des methodes differentes peuvent etre employees pour en estimer la qualite. Cet article discute de methodes differentes d’analyses de corpus visant a estimer la qualite lexicale totale de la partie finnoise de la collection Digi. Les methodes comprennent l’usage d’echantillons paralleles et de frequences d’erreur de mot, l’usage d’analyseurs morphologiques, l’analyse de frequence de mots et les comparaisons a des donnees lexicales redigees comparables. Notre objectif dans l’analyse de qualite est double : premierement, analyser l’etat actuel des donnees lexicales et, deuxiemement, etablir un ensemble de methodes d’evaluation qui constituent une procedure compacte pour l’evaluation de la qualite apres, par exemple, la retransformation en OCR ou apres les apres corrections du materiel. Mots-cles: qualite d’OCR; estimation de qualite lexicale; collection de journaux finnois du 19e siecle

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations