Datenbestand vom 15. November 2024

Warenkorb Datenschutzhinweis Dissertationsdruck Dissertationsverlag Institutsreihen     Preisrechner

aktualisiert am 15. November 2024

ISBN 978-3-8439-0106-2

60,00 € inkl. MwSt, zzgl. Versand


978-3-8439-0106-2, Reihe Informatik

Ulrich Reffle
Algorithmen und Methoden zur dokumentenspezifischen Analyse historischer und OCR-erfasster Texte

140 Seiten, Dissertation Ludwig-Maximilians-Universität München (2011), Softcover, A5

Zusammenfassung / Abstract

Schon in den neunziger Jahren haben die großen Bibliotheken und Archive überall auf der Welt die Notwendigkeit erkannt, ihre Millionen von gedruckten Werken aus den vergangenen Jahrhunderten in digitaler Form zugänglich zu machen. Hierbei erweist sich das Scannen, also die digitale Bilderfassung der Druckseiten, als nicht ausreichend: nur wenn auch der digitale Volltext verfügbar ist, können die Dokumente durch Suchmaschinen für den Benutzer auffindbar und so erst wirklich sichtbar gemacht werden.

Das vorliegende Buch stellt Algorithmen und Methoden vor, um die Qualität der automatischen Volltexterfassung durch OCR (Optical Character Recognition) speziell auf alten Dokumenten aus früheren Jahrhunderten zu verbessern. Während zeitgenössische Dokumente mit ihren standardisierten Schrifttypen und Druckbildern bereits mit sehr guter Qualität durch OCR-Software erfasst werden können, führen alte Dokumentvorlagen bei der OCR in vielen Fällen zu nicht akzeptablen Fehlerraten. Die Gründe hierfür liegen nicht nur im äußeren Erscheinungsbild der Druckseiten, sondern auch in der vorgefundenen Sprache, die sich mit zunehmendem Alter der Vorlagen beträchtlich von der modernen Standardsprache unterscheidet.

Die hier präsentierten Methoden zeigen Lösungen auf, um der Herausforderung historischer Sprache bei der OCR, der Nachbearbeitung und bei der Volltextindexierung zu begegnen. Probleme ergeben sich dabei auch aus der Tatsache, dass die sprachliche Variation nicht nur vom Alter des Dokuments abhängt, sondern auch von regionalen Gewohnheiten oder gar dem individuellen Stil der Autoren geprägt ist. Die vorgestellten Algorithmen zielen daher darauf ab, Sprach-Charakteristika für einzelne Dokumente vollautomatisch zu analysieren und so eine dokumentenspezifische Weiterverarbeitung zu ermöglichen. Die Nützlichkeit der Verfahren wird in zahlreichen Anwendungen nachgewiesen.