Warum wird keine automatische Texterkennung (OCR) eingesetzt?

Hallo,
ich habe heute angefangen, in #everydaycounts die Daten von Karteikarten abzutippen, nachdem ich im Deutschlandfunk von diesem Projekt gehört hatte.
Allerdings wundere ich mich sehr, dass diese Arbeit noch nicht automatisiert werden konnte. Beispielsweise sind die Karten der Ausbürgerungskartei so gut lesbar, dass jedes einfache OCR-Programm damit zurecht kommen würde. Die ganze Arbeit wäre damit in wenigen Stunden erledigt.
Grüße,
Helmut Schacht

Das habe ich mich ehrlich gesagt auch gefragt.

Bei den anderen Dokumenten ist oft das Format zu uneinheitlich oder die Qualität zu schlecht für OCR, manchmal sind sie auch handschriftlich.

Aber bei der Ausbürgerungskartei handelt es sich um gedruckte Dokumente mit (weitestgehend) einheitlichem Aufbau. Zwar sind manche Seiten in Frakturschrift, aber auch dafür gibt es mittlerweile OCR. Die wenigen Dokumente mit handschriftlichen Ergänzungen/Korrekturen könnte man sicherlich rausfiltern und manuell nachbearbeiten.

1 „Gefällt mir“

Ich stimme zu: Wo immer möglich und vertretbar, sollte Technik sinnbringend genutzt werden.
Trotzdem möchte ich persönlich diesen workflow nicht missen, weil er den Fokus auf einen weiteren Aspekt des NS Terrorregimes lenkt: die Schicksale und Odysseen der zwangsausgebürgerten Menschen.
Bisherige ENC Schwerpunkte waren u.a. Zwangsarbeit (Karten der polnischen Arbeiter), Konzentrationslager ( Buchenwald, Auschwitz, Gusen, Stutthof u.a.) Displaced Persons (Bremen), Vermisstensuche nach dem Krieg (CLI Karten).
Natürlich lässt sich IT-technisch vieles vereinfachen (jetzt oder zukünftig, gerade auch im Zuge der KI), aber für mich hat ENC neben der Archivierung auch einen gesellschaftlichen Aspekt. Es ist wichtig, Menschen heute zu berühren und zu sensibilisieren. Einige wenige „recherchierte“ Dokumente können nach meiner Erfahrung so viel bewirken, weil die Verfolgten als Individuen sichtbar werden.
In diesem workflow rücken sie ganz dicht heran, quasi in meine Nachbarschaft.
Als ich bei ENC anfing, glaubte ich, so einigermaßen über die NS-Zeit „Bescheid zu wissen“. Weit gefehlt. Auch in meinem privaten Umfeld höre ich immer wieder Sätze wie „Mir war ja gar nicht bewusst, wie viele Lager es gab, dass so viele Menschen so weit über alle Kontinente hinweg verstreut oder vertrieben wurden….“ -
ENC als Multiplikator.

Zum Schluss ein kleines Beispiel aus einer (inzwischen überholten?) „Texterkennung“:
Berufe erscheinen im Feld „Nachname“. Laut Anmerkung im Arolsen Archiv "automatically generated from document attributes on 2021-03-09". Gefunden in den Fehlermeldungen vom zooniverse-ENC, - weitere Beispiele z.B. hier

Kleine Frage ans Arolsen-Team: Wann und wie werden Fehlermeldungen eigentlich korrigiert? Ist das personell überhaupt leistbar?

Beste Grüße an euch alle!

4 „Gefällt mir“

Empfinde ich wie routebleue. Bei uns in der Arbeit verwenden wir OCR, für durchaus zahlreiche Dokumente. Auch bei gut lesbaren Dokumenten wird nicht immer alles zu 100% korrekt übernommen, d.h. man muss trotzdem nochmal drüberschauen und korrigieren. Zumindest wenn man an korrekten Daten interessiert ist. Ich kann mir auch schwer vorstellen, dass 107.000 Dokumente in wenigen Stunden verarbeitet werden können.

1 „Gefällt mir“

Hallo Helmut,

vielen Dank für deine Unterstützung!
Wir sind uns natürlich bewusst, dass aktuell große Fortschritte bei der Nutzung von OCR und KI gemacht werden. Die neu entstehenden Möglichkeiten testen wir fortlaufend und prüfen inwieweit sie bei uns einsetzbar sind.

Die Bearbeitung und Qualitätskontrolle durch Menschen ist jedoch insbesondere bei historischen/sensiblen Daten und Handschriften noch sehr wichtig. Hinzu kommt der (hier ja schon ausgeführte) Aspekt der aktiven Erinnerungsarbeit und der Möglichkeit sich mit den Hintergründen der Dokumente auseinanderzusetzen.

Viele Grüße
Mareike

3 „Gefällt mir“