Teilnahme via Zoom: https://univienna.zoom.us/j/63664211141
Meeting ID: 636 6421 1141
Passcode: 435780
Die digitale Verfügbarkeit großer Mengen gedruckter Quellen zum langen 19. Jahrhundert hat die wirtschafts- und sozialhistorische Forschung in den letzten beiden Jahrzehnten vor grundlegend neue Möglichkeiten gestellt und enorme Potentiale freigesetzt. Insbesondere quantitative Forschungsansätze und innovative prosopografische Zugänge stoßen dabei aber an Grenzen: Komplexe und multimodale Layouts dieser Quellengattung, in der Texte in Kolumnen über mehrere Seiten organisiert sind, in die Tabellen eingebettet und häufig auch noch Bilder oder bildähnliche Daten enthalten sind, ziehen einen immensen Erschließungsaufwand nach sich. OCR bleibt in diesem Bereich eine Herausforderung, und nicht-textliche Komponenten gelten nach wie vor als primär manuell digitalisierbar. Als beispielhaft kann das Hof- und Staatshandbuch der österreichischen Monarchie, der sogenannte Schematismus, angesehen werden: In über 150 Bänden, die zwischen 1702 und 1918 erschienen sind, sind die Berufsbiographien von rund 100.000 habsburgischen Beamten enthalten, auf ±250.000 Seiten. Der enorme Umfang des Schematismus und der Umstand, dass keine Volltextsuche zur Verfügung steht, schränken das tatsächliche Potential der Quelle erheblich ein.
Unsere Arbeitsgruppe aus drei Forschern von TU Graz und Universität Graz hat ein Extraktionswerkzeug entwickelt, das eine durch maschinelles Lernen angetriebene Layout- und Strukturerkennung mit einer OCR der letzten Generation verbindet. Damit sind wir imstande, die komplexe Struktur des Schematismus aufzulösen und vollständige Datensätze über Personen, Institutionen und Orte in eine digitale Repräsentation zu exportieren. Über die Potentiale und Möglichkeiten einer solchen Repräsentation ebenso wie über die Konsequenzen der Transposition komplexer wirtschafts- und sozialhistorischer Quellen in den digitalen Raum möchten wir eine Diskussion anstoßen.
Gesamtprogramm WISO Abendkolloquium (inkl. WU) (pdf)