Warum wird keine automatische Texterkennung (OCR) eingesetzt?

schacht · 9. November 2024 um 17:46

Hallo,
ich habe heute angefangen, in #everydaycounts die Daten von Karteikarten abzutippen, nachdem ich im Deutschlandfunk von diesem Projekt gehört hatte.
Allerdings wundere ich mich sehr, dass diese Arbeit noch nicht automatisiert werden konnte. Beispielsweise sind die Karten der Ausbürgerungskartei so gut lesbar, dass jedes einfache OCR-Programm damit zurecht kommen würde. Die ganze Arbeit wäre damit in wenigen Stunden erledigt.
Grüße,
Helmut Schacht

t-m · 9. November 2024 um 20:35

Das habe ich mich ehrlich gesagt auch gefragt.

Bei den anderen Dokumenten ist oft das Format zu uneinheitlich oder die Qualität zu schlecht für OCR, manchmal sind sie auch handschriftlich.

Aber bei der Ausbürgerungskartei handelt es sich um gedruckte Dokumente mit (weitestgehend) einheitlichem Aufbau. Zwar sind manche Seiten in Frakturschrift, aber auch dafür gibt es mittlerweile OCR. Die wenigen Dokumente mit handschriftlichen Ergänzungen/Korrekturen könnte man sicherlich rausfiltern und manuell nachbearbeiten.

routebleue · 11. November 2024 um 11:41

Ich stimme zu: Wo immer möglich und vertretbar, sollte Technik sinnbringend genutzt werden.
Trotzdem möchte ich persönlich diesen workflow nicht missen, weil er den Fokus auf einen weiteren Aspekt des NS Terrorregimes lenkt: die Schicksale und Odysseen der zwangsausgebürgerten Menschen.
Bisherige ENC Schwerpunkte waren u.a. Zwangsarbeit (Karten der polnischen Arbeiter), Konzentrationslager ( Buchenwald, Auschwitz, Gusen, Stutthof u.a.) Displaced Persons (Bremen), Vermisstensuche nach dem Krieg (CLI Karten).
Natürlich lässt sich IT-technisch vieles vereinfachen (jetzt oder zukünftig, gerade auch im Zuge der KI), aber für mich hat ENC neben der Archivierung auch einen gesellschaftlichen Aspekt. Es ist wichtig, Menschen heute zu berühren und zu sensibilisieren. Einige wenige „recherchierte“ Dokumente können nach meiner Erfahrung so viel bewirken, weil die Verfolgten als Individuen sichtbar werden.
In diesem workflow rücken sie ganz dicht heran, quasi in meine Nachbarschaft.
Als ich bei ENC anfing, glaubte ich, so einigermaßen über die NS-Zeit „Bescheid zu wissen“. Weit gefehlt. Auch in meinem privaten Umfeld höre ich immer wieder Sätze wie „Mir war ja gar nicht bewusst, wie viele Lager es gab, dass so viele Menschen so weit über alle Kontinente hinweg verstreut oder vertrieben wurden….“ -
ENC als Multiplikator.

Zum Schluss ein kleines Beispiel aus einer (inzwischen überholten?) „Texterkennung“:
Berufe erscheinen im Feld „Nachname“. Laut Anmerkung im Arolsen Archiv "automatically generated from document attributes on 2021-03-09". Gefunden in den Fehlermeldungen vom zooniverse-ENC, - weitere Beispiele z.B. hier

Kleine Frage ans Arolsen-Team: Wann und wie werden Fehlermeldungen eigentlich korrigiert? Ist das personell überhaupt leistbar?

Beste Grüße an euch alle!

macakm · 11. November 2024 um 18:01

Empfinde ich wie routebleue. Bei uns in der Arbeit verwenden wir OCR, für durchaus zahlreiche Dokumente. Auch bei gut lesbaren Dokumenten wird nicht immer alles zu 100% korrekt übernommen, d.h. man muss trotzdem nochmal drüberschauen und korrigieren. Zumindest wenn man an korrekten Daten interessiert ist. Ich kann mir auch schwer vorstellen, dass 107.000 Dokumente in wenigen Stunden verarbeitet werden können.

mareike.hennies · 13. November 2024 um 16:16

Hallo Helmut,

vielen Dank für deine Unterstützung!
Wir sind uns natürlich bewusst, dass aktuell große Fortschritte bei der Nutzung von OCR und KI gemacht werden. Die neu entstehenden Möglichkeiten testen wir fortlaufend und prüfen inwieweit sie bei uns einsetzbar sind.

Die Bearbeitung und Qualitätskontrolle durch Menschen ist jedoch insbesondere bei historischen/sensiblen Daten und Handschriften noch sehr wichtig. Hinzu kommt der (hier ja schon ausgeführte) Aspekt der aktiven Erinnerungsarbeit und der Möglichkeit sich mit den Hintergründen der Dokumente auseinanderzusetzen.

Viele Grüße
Mareike

Thema		Antworten	Aufrufe
Challenge 2026 - Anpassung 5-fache Erfassung Karten des Sicherheitsdienst Belgien	23	363	11. März 2026
[Häftlingspersonalkarten Verschiedene Lager Basics] 134626625 Dokumente	7	207	1. April 2023
Schwer lesbare Karten - besser einige Daten eingeben oder besser Dok wechseln? Hilfe bei Problemen	4	606	26. Januar 2025
Schwer vs. gut lesbare Dokumente Challenge 2025 - diverse Häftlings-Personal-Karten	3	47	30. Januar 2025
Wort teilweise lesbar Hilfe bei Problemen	16	429	6. Dezember 2025

Warum wird keine automatische Texterkennung (OCR) eingesetzt?

Verwandte Themen