Dies ist ein kleines Bugfix Release.
Änderung:
- Parameter –m wird jetzt korrekt ausgewertet, dieser wurde zuvor komplett ignoriert
- Kleine Verbesserung in der Batchdatei bezüglich der Weitergabe der Parameter
Feb 25 2009
Dies ist ein kleines Bugfix Release.
Änderung:
Feb 25 2009
Wie vor einigen Tagen versprochen hier nun eine erste Galerie mit zehn Bildern, die ich im Juni 1990 in Berlin, damals noch Hauptstadt der DDR, gemacht habe. Auf Grund der Motive vermute ich stark, dass die alle am selben Tag irgendwann im Juni 1990 entstanden sein müssen. Aus dieser Reihe stammt auch das Bild, dass bei Heise verwendet wurde.
Viel Spaß beim Angucken.
Ich weiß, dass irgendwo in meinem Chaos noch mehr Bilder aus dieser Zeit existieren müssen. Und wenn ich die gefunden habe, werde ich die Euch natürlich nicht vorenthalten. [Update: Den zweiten Teil gibt es mittlerweile auch]
Feb 22 2009
Vor einer geraumen Weile hatte ich mal über unsere Transkription des bekannten Gedichtes Under der Linden von Walther von der Vogelweide aus dem Codex Manesse und meine Begeisterung über dieses Gedicht berichtet.
Mittlerweile haben wir auf Wikisource von diesem Gedicht zehn Versionen zu bieten. Mit Unterm Lindenbaume von Adalbert Schroeter (vielen Dank an Paulis dafür) sind es nun acht Übersetzungen ins Neuhochdeutsche, die Edition des mittelhochdeutschen Textes von Karl Lachmann und eben die Transkription aus dem Codex Manesse.
Für mich bleibt aber die Originalfassung weiterhin die schönste. Wie sagte Poupou damals in den Kommentaren:
tandaradei eben
Feb 18 2009
Nach all den Bildern, Videos und langen Texten nun mal wieder ein einfaches und langweiliges Update des AntiCommonist.
Änderungen:
usage: AntiCommonist [-c <categoryname>]
-d <localdirectory>
[-help]
[-m <true|false>]
[-t <textfile>]
[-w <wikiurl>]
-c, --category <categoryname> download files from given
category, alternative
to option t
-d, --dir <localdirectory> local directory to save
downloaded files
-help print this message
-m, --makedir <true|false> should local directory be
created if not exist,
default is true
-t, --textfile <textfile> name and path of file with
filenames to download from
wiki, alternative to
option c
-w, --wiki <wikiurl> url of wiki to download from,
if empty wikimedia commons
is used
Die Umstellung des Programmaufrufes ist erforderlich geworden, da ich auch in Zukunft neue Optionen einfach hinzuzufügen möchte. Und da sich andere Leute schon einige Gedanken gemacht haben, wie man die Kommandozeile auswertet und ich das Rad nicht zum Millionstenmal neu erfinden muß, verwende ich ab sofort das Command Line Interface von Apache Commons. Daraus resultierend hat sich das Aufrufformat zum ersten und letzten Mal geändert. In Zukunft kommen nur neue Optionen hinzu.
Feb 13 2009
Als ich im Sommer des Jahres 1990 dieses Bild gemacht habe, dachte ich garantiert nicht, dass es jemals in einem Artikel über das Funktionieren von Propaganda landen würde. Geschweige denn dass ich wusste wer oder was der Heise Verlag ist, den es immerhin schon damals gab, oder dass an das Internet oder die Wikipedia zu denken war.
Das Bild ist wie gesagt im Sommer 1990 in Berlin in der Straße Unter den Linden entstanden. Bis zum Ende der DDR standen vor der Neuen Wache, dem damaligen Mahnmal für die Opfer des Faschismus und Militarismus, ständig zwei Soldaten der Nationalen Volksarmee als Mahnwache. Das Bild zeigt nun eine der stündlichen Wachablösungen bzw. den Marsch der neuen Wachposten zur Neuen Wachen. Die Wachablösung erfolgte stets im Stechschritt und war schon alleine deshalb eine kleine Touristenattraktion, erst recht in der sich allmählich auflösenden DDR.
Und da ich in diesem Sommer nichts weiter zu tun hatte, als auf den Beginn meines Studiums zu warten und in der Ahnung, dass die DDR nicht mehr lange existieren würde, habe ich in diesen Wochen einige Filme mit den letzten noch sichtbaren Zeichen der DDR vollgeknipst. Darunter ein Stau mit vielen Trabis in Ostberlin, eine Botschafterakkreditierung im Staatsratsgebäude, die ersten Werbeplakate aus dem Westen, Demos gegen den Anschluß an die BRD, die Geldtransporter die die Westmark brachten, ostdeutsche Geldautomaten und noch so einiges mehr.
In Gewöhnung an die digitale Fotografie wundere selbst ich mich, dass es nur so wenige Bilder sind, die ich noch habe. Aber es waren nie mehr. Farbfilme und deren Entwicklung waren in der DDR schweineteuer. Irgendwo habe ich auch noch eine Quittung mit dem Preis. Westmark und damit auch geringere Preise kam erst etwas später mit der Währungsunion. Und man erinnere sich: auf jedem Film waren nur 32 Bilder. Wenn man den Film nicht alle drei Minuten wechseln wollte, musste man sehr sparsam umgehen und sich genau überlegen, was man fotografiert. Und natürlich mißlangen Bilder, was man aber erst Wochen später nach der Entwicklung feststellte.
Und da es in der Anfangszeit der Wikipedia noch sehr wenige Bilder gab, erst recht für die Zeit der DDR und die NVA, habe ich das Bild im August 2004 (mein Gott ist das lange her) gescannt und damals noch in die de-Wikipedia hochgeladen. Mittlerweile befindet es sich auf Commons und wird in 14 Wikipedien verwendet und nun eben auch bei Heise. Keine Ahnung warum Heise genau dieses Bild genommen hat, freuen tut es mich natürlich trotzdem :-)
Nun aber Schluß mit den ostalgischen und WP-nostalgischen Gedanken. Die anderen Bilder werde ich demnächst mal digitalisieren und eine Auswahl hier in einer Galerie präsentieren.
Update (wenig später):
Habe gerade die Quittung gefunden. Es waren 40,55 Mark der DDR für 19 Bilder. Der Rest von dem Film war wohl nichts geworden. Zum Vergleich laut Wikipedia betrug die Miete 60-m²-Neubauwohnung inkl. aller Nebenkosten 70 Mark.
Feb 09 2009
Bild aus Wikimedia Commons
Heute nun der versprochene Beitrag zu meinen Erfahrungen mit der OCR von Frakturschriften mit Finereader 9.
Finereader 9 ist die aktuellste Version des Finereader von Abbyy und eigentlich nicht für Fraktur-OCR vorgesehen. Aber da sich Abbyy den Finereader XIX der Fraktur von Haus aus vergolden lässt und man mit einer Lizenz nur eine beschränkte Anzahl von Seiten mit Frakturtext durch die OCR jagen kann, habe ich halt versucht es mit der normalen OCR durchzuführen. Und mit etwas Arbeit und hoffentlich diesen Tipps gelingt auch meist eine recht ordentliche Erkennung des Textes.
Vorbereitungen
Die wichtigste Voraussetzung sind natürlich gute Scans der zu erkennenden Seite. Am besten eignen sich nach meiner Erfahrung dafür Graustufen- oder Farbscans. Diese sollte man auch bevor man Finereader damit füttert nicht umwandeln. Die auf diversen Web-Seiten, insbesondere etwas ältere Digitalisate von Universitäten, zu findenden Schwarz-Weiß-Scans eignen sich meist weniger gut. Der Grund hierfür ist, dass Flecken, Fliegendreck u.ä. nach der Umwandlung in Schwarz-Weiß den gleichen Helligkeitswert (nämlich Schwarz) aufweisen wie die Nutzinformation und Finereader dann auch den Dreck ernst nimmt. Überlässt man die Auswertung des Bildes aber Finereader komplett, ist das Ergebnis wesentlich besser und der Dreck wird im Normalfall sehr gut ausgefiltert.
Beim Einscannen sehr dicker Bücher und fast immer beim Fotografieren mit einer Digicam wird der Text im Bereich der Bindung verzerrt, was für eine OCR tödlich ist. Zum Glück hat Abbyy in die Version 9 eine automatische Entzerrung eingebaut, die man aber auch manuell auslösen kann. Meine Versuche mit den vorhergehenden Versionen sind an diesem Problem gescheitert, da mit solchen Dokumenten kein vernünftiges Training möglich war.
Zu den Bildern selbst nur kurz, da diese Thema eines eigenen Beitrages werden sollen:
Training
Nachdem man alle Bildchen geladen hat, geht es mit dem Training der Software, im Finereader-Jargon „Benutzermuster testen” genannt, los. Dafür sind im Finereader-Dokument erst mal ein paar Einstellungen vorzunehmen.
Grundsätzlich sollte man die integrierten Muster für Antiqua-Schrift ausschalten, auch wenn etwas Antiqua im Frakturtext vorhanden ist. Denn sonst versucht Finereader, wenn es ein Zeichen nicht mit den trainierten Mustern erkannt hat, mit den eingebauten Mustern zu erkennen, was meist recht großen Murks ergibt. So werden gerne die großen Frakturbuchstaben als Copyright-Zeichen und anderen exotischen Sonderzeichen erkannt.
Im Menü Extras – Optionen – Tab Lesen nimmt man deshalb folgende Einstellungen vor:
Das sollte dann also wie im folgenden Screenshot aussehen:
Zusätzlich sollte man über den Button „Mustereditor” sich eine eigene Musterdatei anlegen, die man entsprechend benennt, z.B. Fraktur o.ä. Den Grund hierfür erläutere ich später.
Dann kann man mit dem eigentlichen Training anfangen. Damit die nachfolgende dargestellte Box erscheint, muss unbedingt „Benutzermuster testen” ausgewählt sein. Man wählt sich also eine möglichst repräsentative Seite aus und fängt am besten mit einem Block Fließtext an, indem man „Seite lesen” oder „Bereich lesen” auswählt.
Der eigentliche Trainingsvorgang ist in der Hilfe recht gut beschrieben, so dass ich mir genauere Erläuterungen dazu spare. Nur ein Hinweis: Wenn man mitten in der Seite die Trainingsbox mit dem Button “Schließen” schließt, muss man vor einem erneuten Training in den Optionen wieder die Option “Benutzermuster testen” auswählen, da in diesem Fall Finereader den Trainingsmodus beendet.
Wichtig beim Training ist, dass man die OCR nicht übertrainiert. Als Übertraining bezeichne ich für mich persönlich den Versuch jedes gerade noch für den Menschen erkennbare Zeichen auch der Software beizubringen. Das bringt nichts, sondern verschmutzt quasi nur die Muster, so dass die Software nicht mehr weiß welches Zeichen denn nun wirklich vorliegt. Also deshalb verwischte, unvollständige, zusammenklumpende, nicht eindeutige Buchstaben am besten überspringen.
Dass man übertrainiert hat, bemerkt man daran, dass sich die Erkennungsleistung drastisch verschlechtert. Dann am besten komplett neu anfangen und vorsichtiger trainieren. Der Versuch die vermeintlich fehlerhaften Zeichen aus dem Muster zu löschen, bringt nach meiner Erfahrung nichts, da nicht erkennbar ist welche Zeichen tatsächlich die Probleme verursachen. Vermutlich verwendet Finereader zusätzlich zu den für den Nutzer einsehbaren Mustern, noch viel mehr Informationen, die die Erkennung beeinflussen.
Genauso sollte man nicht versuchen der Software krampfhaft beizubringen sehr ähnliche Zeichen zu unterscheiden. So werden gern u und n, das lange s und f verwechselt. Hier meine Empfehlung prototypische und gut erkennbare Zeichen zu trainieren und bei offensichtlichen Fehlern, die Software zu korrigieren. Ansonsten die Buchstaben überspringen. Alles andere bringt mehr Frust und Arbeit, aber keine wesentlich bessere Erkennungsleistung. Eher im Gegenteil besteht auch hier die Gefahr des Übertrainierens.
Was sehr gute Resultate, besonders bei etwas schlechteren Vorlagen, bringt, ist das exzessive Training von Ligaturen, auch wenn es eigentlich keine sind. Zuerst natürlich die in Frakturschrift häufig anzutreffenden Verbindungen von s und t und langes s und i, sowie f und i, t und z u.ä. Weiterhin wird man während des Trainings feststellen, dass einem Finereader immer wieder die gleichen Buchstabenkombinationen als ein Zeichen vorschlägt. In solchen Fällen einfach eine neue Ligatur anlegen und die gesamte Buchstabengruppe in Zukunft zusammen erkennen lassen.
Das kann bis zur Anlage eines ganzen Wortes wie „und” als Ligatur gehen. Ein Vorteil von Ligaturen ist auch, dass sich durch die erhöhte Anzahl der Buchstaben, und damit an signifikanten Merkmalen, die Treffergenauigkeit wesentlich erhöht. Wenn man also das Wort „und” als Ligatur trainiert hat, weil die Buchstaben immer gern aneinanderkleben, dann kommt eine Verwechslung von u und n zumindest in diesem Wort wesentlich seltener vor.
Was sollte extra trainiert werden:
Für diese Zeichen also schauen wo sie etwas gehäufter vorkommen und dann diesen Bereich trainieren. Der Einfachheit halber kann man auch einen extra Bereich manuell anlegen, damit man nicht erst eine halbe Seite trainieren muss, um zu der gewissen Stelle zu gelangen. Den Bereich kann man nach dem Training wieder löschen.
Zu beachten ist außerdem, dass für unterschiedliche Schriftgrößen (Überschriften, Fußnoten etc.) sehr oft unterschiedliche Schriften eingesetzt wurden. In solchen Fällen muss man dann auch diese Bereiche extra trainieren. Wenn die Schrift allerdings nur an einigen wenigen Stellen, z.B. der Titelseite, vorkommt, dann sollte man sich die Arbeit sparen. Abtippen ist da meist schneller.
Wenn man der Meinung ist, dass die OCR eine ausreichend große Anzahl an Buchstaben erkennt, kann man das ganze Dokument oder wahlweise einzelnen Seiten komplett durch die OCR jagen. Wenn sich dabei an einigen Stellen Probleme ergeben, z.B. wegen wechselnder Schrift oder anderer Schriftgröße, muss man diese Stellen nachtrainieren. Anschließend sollte man dann das ganze Dokument neu erkennen lassen.
Nach meiner Erfahrung gelingt eine gute OCR nach etwa 1 bis 3 Stunden Training, je nach Qualität der Vorlage. Manchmal bekommt man aber selbst nach stundenlangem Training nichts Vernünftiges hin. Da hilft dann nur Abtippen.
Nachbereitung
Da die OCR, wie oben bereits angedeutet, immer mal wieder gern Buchstaben verwechselt, sollte man nach der OCR eine Textersetzung drüberlaufen lassen, die zumindest die gröbsten und häufigsten Fehlerkennungen ersetzt. Das Resultat ist dann schon meist ein recht gut lesbarer Text. Bei mir erledigt das vor dem Hochladen nach Wikisource mein Bot, der auch gleich die dazugehörigen Seiten anlegt und mit der OCR füllt.
Wiederverwendung
Schön ist, dass man die Musterdateien mit den trainierten Zeichen wiederverwenden kann. Das lohnt sich insbesondere bei der OCR mehrerer Bände eines Werks oder Jahrgängen von Zeitschriften. Aber auch bei unterschiedlichen Büchern lohnt nach meiner Erfahrung die Wiederverwendung, da sich die Trainingszeit, zumindest bei ähnlicher Schrift, dadurch drastisch verringern lässt. Schaden tut die Wiederverwendung aber auf keinen Fall. Im schlechtesten Fall muss man die verwendete Frakturschrift komplett neu trainieren, was man aber auch so hätte tun müssen.
Die Wiederverwendung geht leider nicht direkt über die Oberfläche, aber mit wenigen Handgriffen. Am einfachsten ist es ein älteres Fraktur-Projekt zu laden und unter neuem Namen zu speichern und anschließend die alten Bilder aus dem neuen Projekt zu löschen.
Als Alternative legt man sich einfach ein neues Projekt an, speichert es und kopiert aus einem älteren Frakturprojekt die Datei mit der Endung *.ptn in den neuen Projektordner. Und wenn wir oben dem Benutzermuster den Namen „Fraktur” gegeben haben, dann heißt die dazugehörige Datei fraktur.ptn. Deshalb die Empfehlung dem Benutzermuster einen Namen zu geben. Ansonsten landet die PTN-Datei nämlich in irgendeinem temporären Verzeichnis in den Tiefen der Festplatte. Im Anschluss muss man die kopierte Musterdatei noch aktivieren. Das geht mit Hilfe des Buttons „Mustereditors” in den Optionen (siehe oben den ersten Screenshot).
Fazit
Bei guten Vorlagen mit Texten aus dem späten 18. und 19. Jahrhundert, die maschinell gesetzt wurden und einheitliche Schriften innerhalb des Textes verwenden, ist meist eine akzeptable Qualität erreichbar. Die Texte müssen selbstverständlich noch korrigiert werden, um wirklich vorzeigbar zu sein.
Bei früheren Texten bin ich bisher gescheitert, da die Jungs damals sehr oft ziemlich wahllos in ihren Setzkasten griffen und für ein denselben Buchstaben Typen aus verschiedenen Schriften verwendeten, womit kaum ein vernünftiges Training möglich ist. Hinzu kommen krumme und schiefe Zeilen, unterschiedliche Zeichenabstände, ineinander ragende Zeilen und ähnliches. In solchen Fällen ist man mit dem Abtippen meist besser bedient.
Über Ergänzungen, Korrekturen oder Erfahrungsberichte zur Fraktur-OCR mit Finereader oder anderer Software würde ich mich freuen und gern hier veröffentlichen.
Feb 07 2009
Heute mal wieder eine neue Version des AntiCommonist.
Änderung:
Feb 06 2009
Ein hochinteressantes Gespräch mit dem Schweizer Historiker Thomas Maissen über das Verhältnis der Schweiz und Deutschland in einer Sendung des Schweizerischen Fernsehens SF1. Darin geht er ausführlich auch auf die Geschichte des deutsch-schweizerischen Verhältnisses ein, unter anderem als Bestandteil des Heiligen Römischen Reich:
Via: Blogwiese
Feb 05 2009
Feb 03 2009
Vor ein paar Tagen hat Google die Nutzungsbedingungen für den PDF-Download gemeinfreier Bücher (auf deutsch scheint es die nicht zu geben) geändert. Anstelle der Klausel:
- Use the files for non-commercial purposes only.
heißt es nun:
- Don’t engage in large scale redistribution or rehosting of the files
- Don’t sell digital or physical copies, or help other people buy and sell them.
Zumindest die erste der beiden neuen Klauseln ist offenbar gegen das Internet Archive gerichtet, das über 537.000 PDFs von Google gespiegelt hat. Eine Auswirkung auf Wikisource bzw. Wikimedia Commons ist aber auch nicht ausgeschlossen, da dort ebenfalls einige Bücher von Google hochgeladen wurden. Frage bleibt dabei was Google unter large scale versteht.
Klaus Graf weist in seinem Blog aber meines Erachtens zu recht darauf hin, dass nach deutschem Recht auch weiterhin einzelne gemeinfreie Werke einem solchen Datenbankwerk entnommen werden dürfen, was aber bei einer eventuellen Klage Googles gegen die Wikimedia Foundation keine Rolle spielen dürfte
In die PDF-Downloads selbst scheinen die Klauseln noch nicht eingeflossen zu sein, zumindest so ein paar meiner Stichproben.
Für eine ausführliche Analyse siehe: Change in Google Book Search Guidelines for Public Domain Books
Via: Archivalia
Feb 02 2009
Der AntiCommonist kann ja seit der Version 0.2.1. Bilder auch aus einer Kategorie herunterladen. Wer es lieber per Python mache möchte, der sei auf dieses Skript von Christoph verwiesen. Danke an ihn für den Hinweis.
Feb 02 2009
Heute mal aus aktuellem Anlass ein Gedicht:
Der Schnupfen
Ein Schnupfen hockt auf der Terrasse,
auf dass er sich ein Opfer fasse
- und stürzt alsbald mit großem Grimm
auf einen Menschen namens Schrimm.
Paul Schrimm erwidert prompt: „Pitschü!”
und hat ihn drauf bis Montag früh.
Dieses Gedicht haben wir leider noch nicht auf Wikisource, kommt aber sicherlich irgendwann.
Letzte Kommentare