Datenbestand vom 10. Dezember 2024
Verlag Dr. Hut GmbH Sternstr. 18 80538 München Tel: 0175 / 9263392 Mo - Fr, 9 - 12 Uhr
aktualisiert am 10. Dezember 2024
978-3-8439-0106-2, Reihe Informatik
Ulrich Reffle Algorithmen und Methoden zur dokumentenspezifischen Analyse historischer und OCR-erfasster Texte
140 Seiten, Dissertation Ludwig-Maximilians-Universität München (2011), Softcover, A5
Schon in den neunziger Jahren haben die großen Bibliotheken und Archive überall auf der Welt die Notwendigkeit erkannt, ihre Millionen von gedruckten Werken aus den vergangenen Jahrhunderten in digitaler Form zugänglich zu machen. Hierbei erweist sich das Scannen, also die digitale Bilderfassung der Druckseiten, als nicht ausreichend: nur wenn auch der digitale Volltext verfügbar ist, können die Dokumente durch Suchmaschinen für den Benutzer auffindbar und so erst wirklich sichtbar gemacht werden.
Das vorliegende Buch stellt Algorithmen und Methoden vor, um die Qualität der automatischen Volltexterfassung durch OCR (Optical Character Recognition) speziell auf alten Dokumenten aus früheren Jahrhunderten zu verbessern. Während zeitgenössische Dokumente mit ihren standardisierten Schrifttypen und Druckbildern bereits mit sehr guter Qualität durch OCR-Software erfasst werden können, führen alte Dokumentvorlagen bei der OCR in vielen Fällen zu nicht akzeptablen Fehlerraten. Die Gründe hierfür liegen nicht nur im äußeren Erscheinungsbild der Druckseiten, sondern auch in der vorgefundenen Sprache, die sich mit zunehmendem Alter der Vorlagen beträchtlich von der modernen Standardsprache unterscheidet.
Die hier präsentierten Methoden zeigen Lösungen auf, um der Herausforderung historischer Sprache bei der OCR, der Nachbearbeitung und bei der Volltextindexierung zu begegnen. Probleme ergeben sich dabei auch aus der Tatsache, dass die sprachliche Variation nicht nur vom Alter des Dokuments abhängt, sondern auch von regionalen Gewohnheiten oder gar dem individuellen Stil der Autoren geprägt ist. Die vorgestellten Algorithmen zielen daher darauf ab, Sprach-Charakteristika für einzelne Dokumente vollautomatisch zu analysieren und so eine dokumentenspezifische Weiterverarbeitung zu ermöglichen. Die Nützlichkeit der Verfahren wird in zahlreichen Anwendungen nachgewiesen.