WISO Abendkolloquium: Wolfgang Göderle/David Fleischhacker (Uni Graz). „Extraktion historischer Personendatensätze über maschinelles Lernen: Ein neuer Zugang zum Hof- und Staatshandbuch“

13.11.2023

Moderation: Annemarie Steidl (Uni Wien)

Zeit: Dienstag, 14. November 2023, 17.00–18.30 Uhr

Ort: via Zoom (s.u.) und Seminarraum WISO (ZG102.28), Hauptgebäude Universität Wien (Universitätsring 1), Stiege 6, 2. Zwischengeschoß

Teilnahme via Zoom: https://univienna.zoom.us/j/63664211141 
Meeting ID: 636 6421 1141   
Passcode: 435780


Die digitale Verfügbarkeit großer Mengen gedruckter Quellen zum langen 19. Jahrhundert hat die wirtschafts- und sozialhistorische Forschung in den letzten beiden Jahrzehnten vor grundlegend neue Möglichkeiten gestellt und enorme Potentiale freigesetzt. Insbesondere quantitative Forschungsansätze und innovative prosopografische Zugänge stoßen dabei aber an Grenzen: Komplexe und multimodale Layouts dieser Quellengattung, in der Texte in Kolumnen über mehrere Seiten organisiert sind, in die Tabellen eingebettet und häufig auch noch Bilder oder bildähnliche Daten enthalten sind, ziehen einen immensen Erschließungsaufwand nach sich. OCR bleibt in diesem Bereich eine Herausforderung, und nicht-textliche Komponenten gelten nach wie vor als primär manuell digitalisierbar. Als beispielhaft kann das Hof- und Staatshandbuch der österreichischen Monarchie, der sogenannte Schematismus, angesehen werden: In über 150 Bänden, die zwischen 1702 und 1918 erschienen sind, sind die Berufsbiographien von rund 100.000 habsburgischen Beamten enthalten, auf ±250.000 Seiten. Der enorme Umfang des Schematismus und der Umstand, dass keine Volltextsuche zur Verfügung steht, schränken das tatsächliche Potential der Quelle erheblich ein.

Unsere Arbeitsgruppe aus drei Forschern von TU Graz und Universität Graz hat ein Extraktionswerkzeug entwickelt, das eine durch maschinelles Lernen angetriebene Layout- und Strukturerkennung mit einer OCR der letzten Generation verbindet. Damit sind wir imstande, die komplexe Struktur des Schematismus aufzulösen und vollständige Datensätze über Personen, Institutionen und Orte in eine digitale Repräsentation zu exportieren. Über die Potentiale und Möglichkeiten einer solchen Repräsentation ebenso wie über die Konsequenzen der Transposition komplexer wirtschafts- und sozialhistorischer Quellen in den digitalen Raum möchten wir eine Diskussion anstoßen.