Terese für Korrekturlesen von OCR-Texten

Screenshot Terese

Gestern wurde auf der Wikisource-Mailingliste auf Terese aufmerksam gemacht. Das Programm ist wohl noch in einer sehr frühen Entwicklungsphase (aktuelle Version 0.0.2) und steht unter der {de:GNU General Public License} und kann bei Sourceforge  heruntergeladen werden. Dort befindet sich auch eine ausführliche Installations- und Bedienungsanleitung.

Der Programmautor beschreibt das Programm folgendermaßen (Übersetzung von mir):

Terese is a tool which can be used to facilitate proofing the outcome of OCR programs, such as Tesseract. The basic idea is to try to map the OCR text to the original image. Differences, i.e. errors in the OCR text, are then easily identifiable.

(Deutsch: Terese ist ein Tool für Unterstützung beim Korrekturlesen der Ausgabe von OCR-Programmen, z.B. von Tesseract. Die grundlegende Idee dabei ist, den OCR-Text auf den  originalen Scan abzubilden. Unterschiede, z.B. Fehler im OCR-Text, sind somit leicht zu identifizieren.)

Ich habe Terese nicht ausprobiert, da ich Finereader benutze, wo die Funktionalität ja bereits eingebaut ist. Aber vll. kann ja jemand seine Erfahrungen mit Terese mitteilen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *