Terese für Korrekturlesen von OCR-Texten

Screenshot Terese

Gestern wurde auf der Wikisource-Mailingliste auf Terese aufmerksam gemacht. Das Programm ist wohl noch in einer sehr frühen Entwicklungsphase (aktuelle Version 0.0.2) und steht unter der {de:GNU General Public License} und kann bei Sourceforge  heruntergeladen werden. Dort befindet sich auch eine ausführliche Installations- und Bedienungsanleitung.

Der Programmautor beschreibt das Programm folgendermaßen (Übersetzung von mir):

Terese is a tool which can be used to facilitate proofing the outcome of OCR programs, such as Tesseract. The basic idea is to try to map the OCR text to the original image. Differences, i.e. errors in the OCR text, are then easily identifiable.

(Deutsch: Terese ist ein Tool für Unterstützung beim Korrekturlesen der Ausgabe von OCR-Programmen, z.B. von Tesseract. Die grundlegende Idee dabei ist, den OCR-Text auf den  originalen Scan abzubilden. Unterschiede, z.B. Fehler im OCR-Text, sind somit leicht zu identifizieren.)

Ich habe Terese nicht ausprobiert, da ich Finereader benutze, wo die Funktionalität ja bereits eingebaut ist. Aber vll. kann ja jemand seine Erfahrungen mit Terese mitteilen.

Dank an die ULB Düsseldorf

Seit Anfang des Jahres gibt es auf Wikisource einen Account namens Ulbd digi. Dahinter verbergen sich offenbar eine oder mehrere Personen der Digitalen Sammlungen der Universitäts- und Landesbibliothek der Heinrich Heine Universität Düsseldorf. Mit Hilfe dieses Accounts werden seitdem fleißig die Digitalisate der ULBD auf den entsprechenden Autoren- und Themenseiten verlinkt und bereichern damit das Angebot von Wikisource. Da das nicht selbstverständlich ist, ganz im Gegenteil, wollte ich für diese Arbeit einfach mal Danke sagen.

Infobroschüre für Wikisource in Vorbereitung

Heute hat Michael Jahn von Wikimedia Deutschland einen ersten Grobentwurf zur geplanten Infobroschüre für Wikisource vorgestellt. Wer mag, kann auf einer seiner Benutzerseite bei Wikisource in den Entwurf reinschauen und vielleicht Verbesserungsvorschläge und Hinweise auf der Diskussionsseite hinterlassen.

Solche Infobroschüren gibt es bereits für die Wikipedia, Wikimedia Commons und Wikiversity.

22.000 Werke bei Wikisource

Nach langer Zeit mal wieder eine Wasserstandsmeldung zu den Inhalten bei Wikisource. Wie in der Überschrift schon erkenntlich wurde heute die Marke von 22.000 Werken im deutschsprachigen Wikisource-Projekt geknackt. Und die Nr. 22.000 trägt: Ein kurtzweilig lesen von Dyl Vlenspiegel gebore vß dem land zu Brunßwick : wie er sein Leben vollbracht hatt ; XCVI seiner Geschichten. Wie der Name schon erahnen lässt, ist dies eine Ausgabe der Geschichten des Till Eulenspiegels aus dem Jahre 1515. Der Text ist noch in der Erstellung deshalb ist derzeit noch nicht soviel zu lesen.

Wir waren schon mal bei über 23.000 Werken, aber Ende letzten Jahres wurden korrekterweise rund 3.000 Lexikonartikel aus der Zählung herausgenommen.

Wie sich die Zahl auf die verschiedenen Werkarten und -gattungen momentan und in der Vergangenheit aufteilt, kann man der seit einiger Zeit gut gepflegten Wikisource-Statistikseite entnehmen. Ende 2008 wurde die Grenze von 10.000 Werken überschritten und im April 2010 waren es 20.000 Werke. Das folgende Diagramm zeigt den Verlauf seit Beginn der statistischen Erhebungen.

[singlepic id=375 w=500 h= float=]

Sommeranfang 2011

Aus aktuellem Anlass gibt es heute ein Gedicht von Joachim Ringelnatz:

Deutsche Sommernacht

Wenn die Pfirsichpopos
Sich im Sekt überschlagen.
Und der Teufel legt los,
Uns mit Mücken zu plagen.
Und wir füllen einmal reichlich bloß
Einem Armen Tasche und Magen.

Doch es blähn sich Männerbäuche.
Tabakblau hängt sich an Sträuche.
Wenn wir dann die Jacken ausziehn,
Und ein Bratenduft poussiert Jasmin – –

In das dunkle Umunsschweigen
Senden zwei entfernte Geigen
Schwesterliche Melodie.
Uns durchglüht ein Urgedanke.
Und es wechseln runde, schlanke
Frauenbeine Knie um Knie.

Und auf einmal lacht die Runde,
Weil ein Herr aus einem Hunde
Hinten einen Faden nimmt.
Wenn dann wirklich alles, alles lacht,
Dann ist jene seltne deutsche Nacht,
Da mal alles stimmt.

Mehr Texte zum Sommer auf der Themenseite bei Wikisource

Katzenorgel – Das Gedicht

Jowinix, der mich heute im Chat bei der Recherche zur Katzenorgel unterstützt hat, dichtete dann noch das ultimative Gedicht zur Katzenorgel (hier wiedergegeben mit freundlicher Genehmigung des Autors):

Der Katzenorgelorganist beginnt am frühen Morgen
verschiedne Katzen-Stimmen für die Orgel zu besorgen.
Er packt sich eine Katze, tut sie in den Verschlag
sogleich gibt es Spektakel, weil die das garnicht mag.
Und während er sich müht, die Zweite einzufangen
gelingt es schon der Ersten ins Freie zu gelangen.
Er ist schon arg zerkratzt, gerät auch schon ins Schwitzen;
die Katzen in der Orgel bleiben da nicht lange sitzen.
So fängt er Katzen ein, die springen wieder raus,
der Tag neigt sich zum Ende und das Konzert fällt aus.

Katzen-Orgel

Ich hoffe mal schwer, dass die altehrwürdige Gartenlaube im Jahre 1858 da einer Legende aufgesessen ist (Nachtrag: vermutlich doch eine Legende, siehe dazu meine Ergänzungen weiter unten):

Katzen-Orgel. Katzengold, Katzenminze, Katzenkopf, Katzenjammer, Katzenmusik sind Alles Begriffe die Jedem mehr oder weniger aus dem Sprachgebrauche oder eigener Erfahrung bekannt geworden sind; befremdend möchte aber Vielen die „Katzenorgel“ klingen Hiermit hat es folgende Bewandtniß: Der Hofnarr irgend eines melancholischen Fürsten, der seine ganze Erfindungskunst aufbot, um seinen melancholischen Herrn zu heilen, kam unter Anderen auch auf die Idee, eine Partie verschiedene Katzen, alte und junge, mit groben und feinen Stimmen, in Abtheilungen einer Kiste gesondert einzusperren, und zwar so, daß die Schwänze derselben durch je ein Loch in so viel Röhren gingen und da festgehalten wurden, so viel der Katzen waren. Weiter bei Wikisource…

Nachtrag: Den frühesten Hinweis aus dem jahre 1650 auf eine Katzenorgel konnte ich in der Oeconomischen Enzyklopädie von Krünitz finden. Er schreibt zu diesem Thema in Band 36 auf Seite 206:

Der Jesuit Athanas. Kircher fiel einst auf den lächerlichen Einfall, ob man nicht mit Katzen-Stimmen eben eine selche Vocal-Musik machen könne, als mit Menschen- Stimmen. Er hielt dafür, man solle 7 oder 14 Katzen von unterschiedener Größe und Alter aussuchen, und ihre Stimmen probieren, ob sie harmonirten.

Als Belge hierfür gibt er folgendes Werk des Jesuiten an: Musurgia, Rom 1650, f. Th. 1, S. 590. In seiner Musurgia erzählt Kirchner die Geschichte, wie sie in der Gartenlaube zu finden ist, sagt aber nicht, dass er sie selbst gebaut habe oder bauen lassen wollte. Krünitz scheint das vermutlich nicht selbst gelesen zu haben, denn nach der Erläuterung der Orgel nach Kirchner gibt sich Krünitz skeptisch, ob der Jesuit tatsächlich so eine Orgel gebaut habe, da er wohl sonst auf Grund der scheußlichen Musik aus dem Kloster gejagt worden wäre, ohne aber die Geschichte vom melancholischen Fürsten wiederzugeben.

Andere Hinweise zu Katzenorgeln stammen vorrangig aus dem späten 18. oder frühen 19. Jahrhundert und geben entweder eine ähnliche Geschichte wie bei Kirchner wieder (z.B. hier) oder erzählen, dass Peter dem Großem in Hamburg so eine Orgel vorgeführt worden sein soll.

Nachtrag 2: Und wie ich gerade sehe, gibt es noch keinen Wikipedia-Artikel zur Katzenorgel und sie findet auch sonst keine Erwähnung. Wenn ich was wirklich valides zu dem Thema finden kann, springt vll. noch ein Artikel raus. Die Katzenorgel wird in der Wikipedia unter dem Namen Katzenklavier abgehandelt. Ich hab mal einen Redirect von Katzenorgel dahin gelegt. In dem Artikel wird die Existenz solch eines Instrumentes ebenfalls bezweifelt.

Nachtrag 3: Mittlerweile bin ich mir fast sicher, dass es sich hierbei um eine Legende handelt. Nirgendwo wird konkret benannt wo und wer solch ein Ding gebaut haben soll bzw. wer der melancholische Fürst gewesen sein soll. Später wird aus dem melancholischen Fürsten Peter der Große, so z.B.  in Carl Julius Weber’s sämmtliche Werke, Band 21 von 1839. Und vermutlich ließe sich die Geschichte noch weiter zurückverfolgen, wenn man tiefer als in Google-Books graben würde.

Hinzu kommt, dass es praktisch fast unmöglich sein dürfte 8, 9, 14 oder mehr Katzen in solch ein Box zu stopfen, ohne dass es mit größeren Blessuren beim Ausführenden abgeht und die Katzen so zu fixieren, dass sie auch wirklich in der Box bleiben.

Leider kann ich zumindest im Netz keine seriösen Aufsätze o.ä. finden, die meine These stützen, so dass ein Wikipedia-Artikel erstmal warten muss. Vll. hat ja jemand einen Hinweis auf wissenschaftliche Literatur zu dem Thema.

Nachtrag 4: Jowinix hat zumindest das lateinische Original des Textes aufgetrieben, auf den die gesamte Legende wohl beruht: Athanasius Kircher: Musurgia Universalis sive Ars Magna Consoni et Dissoni. Rom 1650 Band 1, S. 519. Digitalisat bei strasbg.fr. Und hier die entscheidende Seite, 3. Absatz:

[singlepic id=294 w=500 h= float=center]

Fraktur-OCR mit Tesseract

Die folgende Anleitung für Fraktur-OCR mit Tesseract unter Windows beruht auf einem Text von Jowinix in Wikisource. Ich habe den Text leicht überarbeitet und werde den Text noch mit ein paar Screenshots versehen. Wenn jemand bereits die kommerzielle OCR-Software Finereader auf der Platte hat, den möchte ich auf meinen älteren Artikel zur Fraktur-OCR mit Finereader verweisen.

Tesseract 3 ist eine Texterkennungssoftware, die aktuell von Google  weiterentwickelt wird und unter einer Open-Source-Lizenz steht und dementsprechend kostenlos verwendet werden kann. Tesseract wird auch für die Texterkennung bei Google Books verwendet und verarbeitet die folgenden Bildformate: tif, multipage tif, jpg, gif und png. Tesseract ermöglicht Texterkennung für mehr als 30 Sprachen, darunter auch Fraktur (Deutsch, Dänisch und Schwedisch). Das Programm liefert auch bei mehdrspaltigem Layout gute Ergebnisse. Allerdings ist keine grafische Benutzeroberfläche dabei (es gibt aber GUIs von Dritten) und das Layout der Seite geht komplett verloren, wobei letzteres für Wikisource kein Problem darstellt. Für die Durchführung der OCR muss man also ein klein wenig auf der Windows-Kommandozeile rumklimpern.

Windows Vista und Windows 7

Für die beiden neueren Betriebssysteme von Microsoft sind ein paar Dinge zu beachten, die ich an den entsprechenden Stellen entsprechend mit WINDOWS VISTA/7 markiert habe. Für Nutzer dieser Betriebssystem also diese entsprechenden Anmerkungen und Anweisungen unbedingt beachten.

Installation

Aus der Liste auf code.google.com lade man sich die folgenden ZIP-Dateien herunter: tesseract-ocr-setup-3.00.exe bzw. die jeweils aktuelle Version (das eigentliche Texterkennungsprogramm) und deu-frak.traineddata.gz (Sprachdatei Deutsch-Fraktur). Die Datei mit den Sprachdaten entpacken. Wenn man keinen passenden Entpacker für gz-Dateien an Bord hat, kann man sich in wenigen Minuten den kostenlosen und leistungsfähigen Entpacker 7-Zip installieren. Bei Bedarf können auch weitere Sprachdateien heruntergeladen werden und entpackt werden, die gängigsten Sprachen kann man sich aber auch später bei der  Installation hinzufügen.

Das heruntergeladene Installationsprogramm tesseract-ocr-setup-3.00.exe ausführen und Tesseract installieren. Bei der Installation kann man bzw. sollte man die deutschen Sprachdateien mitinstallieren, die sind aber erstmal nur für Antiqua-Schrift. Aber Texte die in Antiqua gesetzt wurden, will man ja auch durch die OCR jagen.

Den Ordner öffnen in dem Tesseract installiert wurde, das sollte normalerweise C:\Program Files\Tesseract-OCR sein, und in den Unterordner tessdata die entpackte Datei deu-frak.traineddata kopieren oder verschieben. WINDOWS VISTA/7: An dieser Stelle möchte Windows Adminstratorrechte haben, um die Kopieraktion durchführen zu können. Das muss bestätigt werden.

Jetzt ist Tesseract für Fraktur-OCR vorberereitet.

OCR durchführen

Die Scans (Bilddateien) die mit Tesseract verarbeitet werden sollen, können am einfachsten in den Ordner kopiert werden, in den Tesseract installiert wurde. WINDOWS VISTA/7: Auch hier fragt Windows wieder nach Administratorrechten, dies ebenfalls bestätigen.

Wem die Kopiererei in den Tesseract-Ordner und unter Win7 die Nachfragerei zu lästig ist, der kann sie auch in einem anderen Ordner belassen (bspw. c:\Bilder). In diesem Falle muss der Aufruf von Tesseract etwas angepasst werden.

Am besten eignen sich Scans mit 300 dpi und Graustufen.

Für die eigentliche OCR muss man die Windows-Kommandozeile aufrufen. Das geht mit: Windows-Taste+r, in die erscheinende Eingabezeile „cmd“ (ohne die Anführungszeichen) eingeben und Enter drücken. WINDOWS-VISTA/7:  Zum Start der Kommandozeile muss unbedingt Ctrl-Shift-Enter gedrückt werden, damit diese mit Adminstratorrechten ausgeführt wird. Alternativ kann die Kommandozeile wie in diesem Blogbeitrag angegeben aufgerufen werden, damit diese mit Adminstratorrechten ausgeführt wird.

In dem erscheinenden schwarzen Fenster mit blinkendem Cursor muss man nun zum Tesseract-OCR Verzeichnis wechseln. Das geht folgendermaßen (vorausgesetzt Tesseract ist im oben angegebenen Verzeichniss installiert). Nach jeder Zeile Enter drücken:

cd C:\
cd Programme
cd Tesseract-OCR

Nun geht es aber zur eigentlichen OCR. Damit Tesseract die OCR mit Fraktur durchführt, muss für Bild-Dateien im tif-Format folgende Zeile eingeben werden und Enter gedrückt werden:

for %i in (*.tif) do tesseract.exe %i %i -l deu-frak

Bei Dateien im jpg-, gif- oder png-Format muss der Befehl entsprechend geändert. Bei anderen Sprachen ist deu-frak durch das entsprechende Kürzel zu ersetzen: Deutsch=deu, English=eng usw. Wenn man die Dateien nicht in den Tesseract-Ordner kopiert hat, dann sieht der Aufruf entsprechend des obigen Beispielsordners in dem sich die Dateien befinden folgendermassen aus:

for %i in (c:\Bilder\*.tif) do tesseract.exe %i %i -l deu-frak

Das folgende Beispiel führt entsprechend eine OCR für Bilddateien im png-Format mit deutschem Antiqua-Text durch:

for %i in (*.png) do tesseract.exe %i %i -l deu

Das Programm arbeitet nun alle Scans im Stapel ab und erzeugt für jede Bilddatei eine Textdatei.

Die einzelnen Textdateien können mit:

copy /b *.txt Gesamttext.txt

zu einer großen Text-Datei zusammengefügt werden.

Weitere Informationen in englisch finden sich bei code.google.com.

Ab jetzt will ich immer brav sein, versprochen

So glimpflich dürfte es auch damals wohl nur für die allerwenigsten abgelaufen sein:

1388. August 12. Gerhard Stein Grifvogel, Mönch zu Nienburg, gelobt von nun an ruhig im Kloster zu bleiben, dem Abte zu gehorsamen und Beschädigung, Raub und Brand zu unterlassen, wofür er Bürgen stellt.

gefunden im Codex diplomaticus Anhaltinus, Band 5, Seite 87.

Schwüle Zeit

Gestern bin ich beim Korrigieren eines Textes auf Wikisource mal wieder über eine ungewohnte Formulierung gestolpert, die ich versuchen möchte zu erkunden. Konkret geht es um eine Stelle in dem geschichtswissenschaftlichen Aufsatz Untersuchungen zur Geschichte Wallenstein’s (1625-1629) von Moriz Richter:

Erschreckt durch diesen Anzug, traf Kurfürst Maximilian wieder die Anordnung, dass das Ligaheer zur eventuellen Verwendung gegen die kaiserliche Armee bereit zu halten sei; und Mainz schrieb an Baiern: nichts werde vielleicht helfen, als eine Verbindung der Liga, der Kurfürsten, sämmtlicher Kreisobersten zum Schutz der Reichsverfassung und zur Beschneidung der absoluten Gewalt des kaiserlichen Feldherrn.

In dieser schwülen Zeit besorgt sich Maximilian abermals Italienisch geschriebene Berichte über persönliche Verhältnisse und Absichten der kaiserlichen Regierung, besonders über Wallenstein’s Pläne und seine Stellung zum kaiserlichen Hof.

Es geht um die Formulierung „In dieser schwülen Zeit“. Bisher war mir das Wort schwül nur im Zusammenhang mit dem Wetter untergekommen bzw. solch ein Formulierung bezog sich darauf, dass in einer bestimmten Zeit das Wetter schwül ist, wie man an diesem Beispiel aus einer Reiseinformation sieht:

Ab dem Sommer beginnt die heisse und schwüle Zeit.

Also schauen wir erstmal, ob ein Wörterbuch weiterhilft, was das schwül mit Zeit zu tun haben könnte. Das Wiktionary sagt zur Bedeutung des Wortes folgendes, kennt aber auch nur die Bedeutung in Bezug auf das Wetter:

das Wetter und die Luft betreffend: unangenehm heiß und feucht

Also schauen wir weiter bei Grimm, die ja auch zeitlich etwas näher dran sind, ob es vll. eine ältere Bedeutung gibt, die so nicht mehr verwendet wird. Eigentlich kennt das Grimmsche Wörterbuch das Wort schwül auch nur für Wetter, gibt aber weiter an, dass

im eigentlichen hochd. gebiete ist schwul oder schwül nicht heimisch […],sondern eingeführt, meist nur im übertragenen sinne: es ist mir ganz schwul, mir ist heisz oder bänglich

Aha, da haben wir doch schon mal einen ersten Anhaltspunkt. Heiß könnte im übertragenen Sinne für unsere Formulierung passen, auch wenn man nicht so recht weiß, ob es das nun ist.

Also schauen wir weiter im Digitalen Wörterbuch der Deutschen Sprache nach und finden dort als dritte Bedeutung angegeben:

beängstigend, beklommen, spannungsgeladen

Ich denke, dass spannungsgeladen dem Sinn der Formulierung von Moriz Richter am nächsten kommt. Den fraglichen Satz könnte man also in modernes Deutsch übersetzen als:

In dieser spannungsgeladenen Zeit besorgt sich Maximilian ….

Wikisource hat einen Wert von 96.300 Dollar

Wenn man dieser Statistik bzw. Berechnung Glauben schenken darf (wobei ich nicht weiß wie die zustande kommt), hätte Wikisource derzeit das Potential täglich 256 Dollar an Werbeeinnahmen zu generieren und damit einen angenommen Wert von 96.300 Dollar. Wikipedia könnte tägliche Werbeeinnahmen von  396.264 $ verbuchen und hätte einen Wert von 141 Mio. $. Ich vermute aber, dass der wahre Wert der Marke Wikipedia um einiges höher liegen dürfte. Spielereien von Suchmaschinenoptimierern eben.

Kurz verlinkt

Wikisource twittert

Na gut nicht Wikisource selbst, sondern einer der Wikisource-Mitarbeiter. Seite einigen Tagen twittert Jens Bolm, welche Texte in Wikisource zweifach Korrektur gelesenen wurden und damit als fertig markiert auf Wikisource verfügbar sind. Über viele Follower wird er sich sicherlich freuen.

Da dies vermutlich meine letzter Beitrag in diesem Jahr sein wird, wünsche ich allen Lesern schonmal ein schönes Weihnachtsfest und einen guten Rutsch ins neue Jahr. Und für alle die es diese noch nicht kennen, der Hinweis auf die entsprechenden Themenseiten bei Wikisource: Weihnachten und Jahreswechsel.

Integration von Wikisource in den Kölner UniversitätsGesamtkatalog

OpenBibBlog berichtete gestern über das Vorgehen zur Integration der Metadaten von Wikisource. Für die Suche innerhalb der Bestände von Wikisource gibt es im KUG einen externen Katalog mit dem Namen E-Texte / Wikisource deutsch (Online-Vollzugriff), der derzeit 10448 Titel umfasst. Ein Beispiel für die Ansicht eines Wikisource-Digitalisates bietet der Friede von Lübeck.

Die Integration erfolgte mit Hilfe eines Wikisource-Dumps. Eine andere Möglichkeit wäre gewesen die Online-API von Mediawiki anzusprechen. Diesen Weg hatte ich gewählt, als ich mich vor einer geraumen Weile auch mit einem ähnlichen Projekt einer externen Wikisource-Suche beschäftigt hatte. Dies hätte den Vorteil, dass die Daten absolut aktuell sind, im Vergleich zu den Daten im Dump, die auch mal etwas älter sein können. Bei Bedarf stell ich die entsprechenden Programmquelltexte gern als Open Source zur Verfügung.

(Update: Danke an Enomil, der mich darauf hingewiesen hat, dass zwei der Links nicht funktionierten.)

ADB auf gutem Wege

Pfaerrich hat heute im Wikisource-Skriptorium eine Übersicht des aktuellen Standes der Arbeit an der ADB gegeben. Der Einfach- und Faulheit halber zitiere ich ihn einfach mal komplett.

Die Anzahl der unkorrigierten ADB-Artikel ist seit heute unter die 15tausender-Marke gefallen. Die korrigierten liegen bei 9.300 und über 2tausend sind sogar fertig (allerdings ist deren Verlinkung zu WP und PND noch größtenteils nicht erfolgt).

Für Freunde der Statistik hier noch ein Paar Infos, die sich aus der Chronik auf der ADB-Diskussion ziehen lassen. Seit Ende November 2008, als erstmalig alle 26.374 Artikel in OCR-Version eingestellt waren und fast gleichzeitig die Marke von 20tausend Restanten unterschritten wurde, sind es demnach 5tausend weniger geworden und zusätzliche tausend Artikel sogar (mit Einschränkung) komplett erledigt. Am 3.6.2009 hatten wir noch 16tausend unkorrigierte, das heißt, pro Woche wurden seitdem durchschnittlich 200 Artikel abgearbeitet. Vorausgesetzt, wir würden in diesem Tempo weiterarbeiten, wäre Ende 2010 ADB:unkorrigiert pleite. Für die Buchstaben A bis D, I, J, Q, U hat hier schon das letzte Stündlein geschlagen, E und Z droht in Kürze das gleiche Schicksal.

Die von mir [Pfaerrich] eingepflegte Liste von Professoren, deren Namen ja in den Artikeln teilweise im Dutzend vorkommen, hat die stattliche Größe von 1400 Positionen erreicht und wird immer noch erweitert.

Kleine Ergänzung noch von mir. Vor ein paar Tagen wurde die Grenze von insgesamt 13.000 Werken bei Wikisource überschritten. Stets aktuelle Zahlen, nicht nur zu den Werke, gibt es bei Wikisource:Statistik.

20.000 mal fertig

In den letzten Tagen purzeln die runden Jubiläen bei Wikisource nur so. Diesmal haben wir die Grenze von 20.000 Seiten überschritten, die zwei mal korrekturgelesen wurden. Und diese Zahl bezieht sich nur auf die Seiten im Seiten-Namensraum. Insgesamt sind es wesentlich mehr, da insbesondere viele Gedichte und andere Texte die nur einige wenige Seiten umfassen, meist nicht mit der Proofread-Extension bearbeitet werden.

Auch wenn einige Sprach-Versionen von Wikisource wesentlich mehr Seiten umfassen (fr: 270853, en: 237087, de: 86923), führt das deutschsprachige Wikisource mit großem Abstand bei den zweimal korrekturgelesen Seiten. Dies zeigen auch deutlich die beiden folgenden Grafiken. Zuerst der Verlauf der Gesamtzahl und danach die Zahl der zweimal korrekturgelesenen Seiten:

P.S. Eine tagesaktuelle Version der obigen Diagramme findet sich auf dem Toolserver.

Neuigkeiten aus Wikisource (7)

Vor ein paar Tagen hat Wikisource ein paar runde Grenzen überschritten. Erstens haben wir mehr als 5000 Gedichte und insegsamt mehr als 12.000 Werke. Außerdem gibt es mittlerweile mehr als 2000 Seiten zu Autoren.  Großen Anteil daran hatte die Erfassung und Erschließung einiger Sammelwerke, darunter z.B. Schillers Musenalmanach der Jahrgänge 1796, 1797, 1798, 1799 und 1800.

Da es seit geraumer Zeit Kritik daran gab, dass nicht alle Autorenseiten auch tatsächlich Autoren behandelten und Themenseiten für Personen auch nicht besonders passen sind, wurde eine neue Kategorie Personen eingeführt. Außerdem passte die Möglichkeit von Themenseiten schon deshalb nicht, da hier keine Personendaten zugeordnet werden können und auch keine PND zugeordnet werden kann. Die Autoren sind jetzt eine Unterkategorie der Personen. Mit Hife der dazugehörigen Vorlage, können nun auch Seiten angelegt werden, die Werke über Personen aufführen, ohne dass der Eindruck ensteht, dass diese Person Werke geschaffen hat.

Und überrascht war ich, als jemand die Fachkategorie Spezielle Relativitätstheorie einführte, wieviele Werke wir zu dem Thema mittlerweile haben. Für den an diesem Thema Interessierten ist das mittlerweile eine kleine Fundgrube geworden, die sich doch eher im Verborgenen entwickelt hat.

Die Anzahl der unkorrigierten Artikel in der ADB ist Anfang Juni auf unter 16.000 Artikel gesunken. Daraus resultiert, dass mittlerweile der Buchstabe I und der Band 55 vollständig korrigiert wurden.

Wikisource macht jetzt OCR

und sogar mit Fraktur. Gestern wurde eine Erweiterung live geschaltet, die  imagefür jede noch leere Seite im Seite-Namensraum zwei neue Knöpfe mitliefert. Jeweils einer für OCR von Antiqua-Schrift und von Fraktur-Schrift. Und die Qualität, ist zumindest bei ausreichender Scanqualität und Schriftgröße, auch bei Frakturschrift, verblüffend gut. Die OCR wird auf dem Toolserver mit Hilfe der Open-Source-OCR Tesseract durchgeführt und das Resultat wenig später in das Edit-Fenster gepustet, so dass man anschließend sofort mit der Erstkorrektur fortfahren kann. (Siehe Screenshot) Hier und da streikt die OCR, vermutlich wenn die Schrift auf der Seite zu klein ist. Bei der Gartenlaube werde ich vorerst also noch selbst Hand  anlegen müssen.

Zwei hochwertige Stücke deutscher Poesie

Als kleine Ergänzung für den neuesten Artikel von Felistoria Datei:Kladderadatsch1878.423..reichshund.2.jpgüber den Reichshund, habe ich mich bereit erklärt zwei kurze Gedichtlein über die Hunde von Bismarck abzutippseln. Und wie von ihr angedroht, sind es wahrlich zwei hochwertige Exemplare der deutschen Dichtkunst des 19. Jahrhunderts.

Als erstes das Gedicht An den Reichshund aus der Satirezeitschrift Kladderadatsch. Die Hintergründe zu dem Gedicht sind im Artikel gut erklärt.

Aedler Sultan, Hund der Hunde,
Von dem das Wochenblättlein spricht
Im kleinsten Nest der Erdenrunde,
O Sultan, du gefällst mir nicht!
Ich kann das Beißen gar nicht leiden,
Das dir im wilden Blute steckt;
Und läßt es sich ganz vermeiden,
So wähl’ doch besser dein Object.

Man weiß, wie beim Congreß dolose
Getrieben du dein schlimmes Spiel,
Und wie dir Rußlands Gala-Hose,
Die stattliche, zum Opfer fiel.
Vor Knickebeinen, die zum Gehen
Zu schwach sind, wichst du nicht zurück;
O Sultan, du mußt selbst gestehen,
Fürwahr, das war kein Heldenstück!

Dann hast mit frevelhaften Bissen
Der Herrin, die dir wild gebeut,
Du tückisch das Gewand zerrissen
Und zähnefletschend sie bedräut.
Die Dame, welche du vor Allen
Ein Freund und Schützer solltest sein,
In blindem Wüthen anzufallen,
Das, Sultan, scheint mir recht gemein!

Als du den Herrn zur salz’gen Quelle
Begleitet an der Saale Strand,
Schritt täglich über seine Schwelle
Ein Mann in schwärzlichem Gewand.
Zur Tafel war er mitgenommen;
Allein so oft dies auch geschah,
Nicht hat dein Herr ihn satt bekommen,
Stets war der Würd’ge wieder da.

Stets trat die prallste aller Waden
Im Seidenstrumpf zu dir herein;
Ach, diese Seidenstrümpfe laden
Zum Anbiß gar verlockend ein!
Doch nichts hört man von neuen Fehden,
Es sprach von dir nicht ein Gericht;
Du Krone aller Quadrupeden,
O Sultan, ich versteh’ dich nicht!

Kladderadatsch

und das zweite etwas kürzere von Karl Henckell aus der Abteilung Aus einem Notizbüchlein der Liebe:

Der Kaiser ist heiser, der Reichshund bellt,
Bald geht aus den Fugen die ganze Welt.

Wir sitzen auf freier Brüstung und schau’n
Auf lächelnde Thäler, auf sonnige Au’n.

Ein Blick in die Ferne, ein Blick nach dir,
Der Himmel dort oben, der Himmel hier.

In diese Himmel wollen wir lugen,
Und ginge die ganze Welt aus den Fugen.

Warum hier der Reichshund auftaucht und was uns dieses Gedichtlein sagen möchte, wird wohl ewig ein Geheimnis des Dichters bleiben.