Künstliche Intelligenz im Stadtarchiv

Wer im Stadtarchiv Saarbrücken Akten einsehen und auswerten möchte, benötigt Fähigkeiten im Lesen alter Handschriften (z.B. Kurrentschrift oder Sütterlin) – schließlich wurden historische Unterlagen bis ins 20. Jahrhundert hinein von Hand verfasst. Erst ganz langsam begann zu Beginn des 20. Jahrhunderts der Siegeszug der Schreibmaschine in Deutschland, und auch die Stadt Saarbrücken stellte 1911 erstmals eine Frau ein, deren Aufgabe es war, Handschriftliches mit der Schreibmaschine zu übertragen.

Es dauerte jedoch seine Zeit, bis die Maschinenschrift sich in der Stadtverwaltung als Standard durchsetzte. Die Entwicklung nahm insbesondere in den 1920er Jahren an Fahrt auf, doch noch bis 1935 wurden die Sitzungen des Saarbrücker Stadtrates handschriftlich protokolliert.

In einem durch Künstliche Intelligenz (KI) gestützten Projekt plant das Stadtarchiv, mit den Stadtratsprotokollen eine wichtige Quelle zur Stadtgeschichte für breite Benutzergruppen zugänglich zu machen. Nachdem sich 1909 die Großstadt Saarbrücken aus den bislang eigenständigen Stadtteilen (Alt-)Saarbrücken, Malstatt-Burbach und St. Johann gegründet hatte, trat der neu gewählte Stadtrat erstmals am 6. Mai 1909 zusammen.

Von da an tagte er regelmäßig und beschäftigte sich mit einer großen Bandbreite an Themen: Sei es der Bau von Brücken und Straßenbahnlinien, der Erweiterung des St. Johanner Rathauses, die Errichtung eines Flughafens auf den St. Arnualer Wiesen, die Beteiligung der Stadt an Gesellschaften, der Erlass von Gebührenordnungen und Satzungen zu allen Bereichen des Städtischen Lebens oder auch die Ausgabe von Notgeld während des Ersten Weltkrieges und anschließende Instandsetzungs- und Fürsorgeaufgaben – sämtliche Entscheidungen der Saarbrücker Stadtpolitik können anhand der Stadtratsprotokolle nachvollzogen werden.

Verwendung von Transkribus zur HCR-Erkennung

In einem ersten Schritt wurden bereits 21 Protokollbücher von 1909 bis 1944 digitalisiert. Zur weiteren Bearbeitung greift das Stadtarchiv auf die kostenpflichtige Plattform Transkribus (https://www.transkribus.org/de) der Firma READ-COOP SCE zurück, die das im Rahmen von zwei EU-geförderten Forschungsprojekten entwickelte Tool seit 2019 pflegt.

Diese verfügt über eine HCR-Erkennung (handwritten text recognition), die über die die rund 15 000 Seiten umfassenden handschriftlichen Protokolle bis 1935 gelegt wird. Diese Software basiert auf Künstlicher Intelligenz und ist in der Lage, die historische Schrift zu lesen und in unsere heutige Schrift zu übertragen.

Hierzu werden die digitalisierten Dokumente zunächst in die Transkribus App hochgeladen. Im ersten Schritt ist anschließend eine Layout-Erkennung per KI notwendig. Diese wurde durch Mitarbeitende des Stadtarchivs speziell für die Bedürfnisse dieses Projektes trainiert. Denn anders als bei den meisten Akten und Protokollbüchern, können die Stadtratsprotokolle nicht einfach seitenweise, von oben nach unten gelesen werden.

Die Schreiber der Saarbrücker Stadtverordnetensammlung bereiteten die Sitzungen akribisch vor, indem sie auf der jeweils linken Buchseite sämtliche Tagesordnungspunkte notierten. Während der Sitzung protokollierten sie dann auf der gegenüberliegenden rechten Buchseite die Beschlüsse.

Diese für die tägliche Arbeit der Schreiber sicher praktische Vorgehensweise birgt heute die Schwierigkeit, dass beim Lesen zwischen den Buchseiten hin- und hergesprungen werden muss: Der zu Antrag eins gehörende Beschluss befindet sich auf der gegenüberliegenden rechten Seite, anschließend findet sich Antrag zwei erneut auf der linken Seite.

Die Künstliche Intelligenz muss später, beim Übertragen der Handschriften, in der Lage sein, dieser ungewöhnlichen Anordnung zu folgen, da sonst der Sinnzusammenhang der Texte verloren geht. Daher muss die Lesereihenfolge vor der Transkription festgelegt werden. Hierbei wirkt die trainierte Layout-Erkennung unterstützend, dennoch sind eine manuelle Kontrolle und Nachkorrektur jeder einzelnen Seite notwendig. Für diese Aufgabe werden ab Dezember 2024 Projektkräfte eingesetzt.

Im Anschluss an die Layout-Erkennung wird die eigentliche Transkription angestoßen. Transkribus bietet auch hier die Option, ein eigenes, auf eine bestimmte Handschrift zugeschnittenes Modell zu trainieren. Von 1909 bis 1935 kamen bei der Stadtverwaltung allerdings fast 50 verschiedene Schreiber zum Einsatz, die bei der Verschriftlichung der Stadtratsprotokolle mitwirkten und deren Handschriften sich entsprechend unterscheiden. Das aufwändige Training eines eigenen Modells für jede einzelne Handschrift macht vor diesem Hintergrund keinen Sinn. Daher nutzt das Stadtarchiv mit dem Text Titan ein bereits von Transkribus etabliertes Modell. Dieses konnte in den bisherigen Testläufen gute Ergebnisse erzielen.

Nach Abschluss der Arbeiten sollen die fertigen Dokumente online zur Verfügung gestellt werden. Hierbei wird durch die HCR-Erkennung auch eine Durchsuchbarkeit der Originale und der Transkriptionen möglich werden. Wer sich also für den Bau der Bismarckbrücke interessiert, erhält bei Eingabe dieses Suchbegriffs sofort die relevanten Stellen angezeigt. Zumindest, wenn die ursprüngliche Handschrift richtig erkannt wurde – denn eine zu 100 Prozent korrekte Transkription kann durch Künstliche Intelligenz allein bei weitem (noch) nicht erreicht werden.

Dennoch ermöglicht das Projekt erstmals einen raschen Zugang auch für Personen ohne besondere Lesekompetenzen und erleichtert zudem die zielgerichtete Suche in den Protokollbüchern, die bislang mit großem Aufwand manuell durchsucht werden müssen. Wer mehr als einen Überblick sucht und eine detaillierte Auswertung einzelner Abschnitte aus wissenschaftlichem oder heimatkundlichem Interesse benötigt, muss sich allerdings weiterhin das notwendige Wissen aneignen. Für eine komplett fehlerfreie Übersetzung der Texte werden auch in Zukunft paläographische Fachkenntnisse benötigt werden.