Automatisierte Optimierung und Strukturierung von OCR-Ergebnissen mit nachnutzbaren Werkzeugen

2019 
Bibliotheken leisten einen wichtigen Beitrag zur Digitalisierung des kulturellen Erbes und ermoglichen Forschenden weltweit den Zugang zu diesen Werken. Textbasierte Dokumente werden haufig zusatzlich durch OCR (optical character recognition) erschlossen. Dies ermoglicht eine Suche nach Stichwortern im gesamten Inhalt sowie weitere Analysemoglichkeiten. Vielen Bibliotheken fehlt es jedoch an Know-how und Werkzeugen, um optimale OCR-Ergebnisse zu erzielen oder weitere Strukturerkennungsschritte selbststandig auszufuhren. Im Zuge des DFG-finanzierten Digitalisierungsprojekts "Aktienfuhrer-Datenarchiv II" wurden mehrere softwaretechnische Werkzeuge entwickelt, um in einem einheitlichen Workflow sowohl den Umgang mit den OCR-Daten zu vereinfachen als auch die Ergebnisse zu optimieren. Unter anderem werden dabei die OCR-Ergebnisse durch die Kombination der Ausgaben mehrerer OCR-Engines verbessert und eine Strukturerfassung im Volltext, inklusive Tabellenextraktion, vorgenommen.In diesem Beitrag werden die entwickelten Losungsansatze und Tools vorgestellt. Um sie fur ahnliche Projekte nachnutzbar und anpassbar zu machen, sind alle Tools als Open-Source-Software verfugbar.
Keywords:
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []