Grundlagen automatischer Texterkennung für historische Drucke (OCR) und Handschriften (HTR)

June 13, 2022, 11:00 a.m. (CEST)

Dieses Online-Seminar ist Teil einer virtuellen Veranstaltungsreihe der TU9-Bibliotheken.

Time: June 13, 2022, 11:00 a.m. – 12:30 p.m.
Download as iCal:

Die Generierung durchsuch- und maschinenlesbarer Volltexte ist eine wichtige Voraussetzung für die breite Nachnutzung retrodigitalisierter Bestände in Bibliotheken und Archiven.
Kommerzielle Software zur Texterkennung ist im Allgemeinen nicht dazu geeignet, die große Diversität und Spezifik historischer Materialien so zu berücksichtigen, dass die Textqualität der resultierenden Volltexte wissenschaftlichen Ansprüchen genügt.
Durch den verstärkten Einsatz von Techniken des maschinellen Lernens im Bereich von OCR und HTR und deren Verfügbarkeit in freier Software wie Tesseract ist es mittlerweile möglich materialadäquate Workflows und Erkennungsmodelle auf komfortable Art und Weise selbst auf- und einzusetzen!
Der Vortrag gibt einen Einblick in zugrundeliegende Konzepte und unterstützt Sie bei Ihren ersten Schritten hin zu selbsterzeugten digitalen Volltexten.

Vorkenntnisse: Kenntnisse der Kommandozeile in Linux, Windows oder Mac OS sind hilfreich.

Dozent*in: Kay-Michael Würzner (Referat Open Science, SLUB Dresden)

Zielgruppe: Wissenschaftliches Personal, Forschende

Online-Kurs via Zoom: https://us06web.zoom.us/j/87073020063?pwd=cmlMK3lMdW5ueXc0S0o0SlZGOHF0Zz09

List of all events


To the top of the page