E-Books für Wikisource

Mrs. Finanzer hat mir zu Weihnachten einen E-Book-Reader, genauer einen Kindle, geschenkt. Und ich muss sagen, ich bin begeistert. Handlich, leicht, sehr gut lesbares Display und E-Books in Hülle und Fülle, auch tausende kostenlose, da gemeinfrei oder unter freier Lizenz stehend. Also eigentlich genug Lesestoff auf Jahre hinaus. Aber auch Wikisource hat ja einiges zu bieten, dass es noch nicht als E-Book gibt.

Und da hab ich mir gedacht, warum nicht mal schauen, wie man möglichst einfach die Inhalte von Wikisource für die diversen E-Reader bereitstellen kann. Simples PDF wäre zwar nicht so schwer, aber auf einem E-Book-Reader schwieriger lesbar, da der Reader dafür das Neu-Layouten des PDFs beherrschen sollte, was z.B. Kindle nicht kann, da ansonsten das Lesen recht schwer wird. Beim Kindle muss man z.B. bei jedem PDF erstmal rumprobieren, wann es am Besten  lesbar ist: Quer- oder Hochformat, Vergrößern oder nicht, Kontrast einstellen und was man sonst noch so machen kann. Da ist ein natives E-Book doch wesentlich einfacher zu handhaben.

Also hab ich heute mal ein bisschen rumprobiert und hab mir ein paar Tools und Programme heruntergeladen, womit das Erstellen von E-Books direkt aus Wikisource heraus recht einfach zu machen ist und wenig manuelle Nacharbeit erfordert. Im Folgenden schildere ich kurz den Workflow, den ich mir zusammengebastelt habe. Vorweg schicken möchte ich, dass ich bisher nur Texte umgewandelt habe, die sich bei Wikisource auf einer Seite befinden. Den Fall, dass ein Werk auf mehrere Unterseiten (z.B. die einzelnen Kapitel o.ä.), aufgeteilt ist, habe ich noch nicht ausprobiert, was ich aber die nächsten Tagen auch noch machen möchte. Ich werde darüber berichten, insbesondere um wieviel höher der Aufwand zum hier beschrieben Workflow ist.

  1. Das eigentliche E-Book wird bereits ganz am Anfang mit einem Chrome-Plugin, das es wohl auch für andere Browser gibt, erstellt: dotEPUB. Das sendet den Inhalt einer beliebigen Webseite zum eigenen Webservice, der dann ein fertiges E-Book im EPub-Format zum Download anbietet. Das speichert man einfach auf seiner lokalen Platte. Offenbar analysiert der Webservice die Struktur der Seite und verwirft alle Elemente, die nicht zum eigentlichen Inhalt der Seite gehören. Im Falle von Wikisource (vermutlich auch bei der Wikipedia) sind das die Navigation oben und an der Seite, die Box mit den bibliografischen Angaben oben rechts (das hat mich am meisten verblüfft, da ich dachte die müsste ich später von Hand löschen), die Fußzeile und was es sonst noch so gibt an Elementen, die man in einem E-Book eher nicht haben möchte. Und er versucht die Struktur des Textes zu erkennen, denn aus den rein per Layout ausgezeichneten Überschriften im Text (fett und/oder etwas größer) werden richtige HTML-Überschriften. Das geht hier und da, insbesondere auf Titelseiten, daneben, was sich aber später leicht beheben lässt. HINWEIS: Möchte man die Links und Bilder aus dem Text bei Wikisource übernehmen, sollte man in den Einstellungen des Plugins die Einstellung „Immersive mode“ deaktivieren. Allerdings werden bei zuvielen Bildern alle entfernt und nur Platzhalter eingefügt.
  2. Dieses Grundgerüst eines E-Books, was man auch schon sofort verwenden könnte, kann man nun mit Hilfe des E-Book-Editors Sigil weiterbearbeiten und verfeinern. Sigil bietet einen WYSIWYG-Modus, man kann aber auch die XHTML-Dateien direkt bearbeiten, was hin und wieder sinnvoll sein kann. In Sigil habe ich bspw. die Titelseite angepasst, ein Coverbild ausgesucht oder Bilder wieder eingefügt, die dotEPUB rausgeworfen hat. Da der XHTML-Editor in Sigil eher rudimentär ist, hat mir ein WYSIWYG-HTML-Editor, wie z.B. Kompozer, gute Dienste geleistet, um die vielen Links die bei den Seitenzahlen auf die einzelnen Seiten zur Korrektur verweisen, zu entfernen. Die eigentliche Paginierung möchte man ja nach Möglichkeit erhalten. Weiterhin kann man hier die Metadaten des E-Books anpassen und ergänzen. Am besten macht man das direkt im entsprechenden XML-File, da die Oberfläche von Sigil hier noch etwas rudimentär ist. Alternativ kann man die Metadaten auch im nächsten Schritt ergänzen.Wichtig zu erwähnen ist noch eine Funktion von Sigil: die automatische Generierung eines Inhaltsverzeichnisses. dotEPUB generiert kein vollständiges Inhaltsverzeichnis, sondern nur ein rudimentäres mit Titelblatt, Inhalt und sogenanntem Disclaimer (enthält u.a. Hinweise auf den dotEPUB-Service, sollte man um dem kostenlosen Service die entsprechenden Meriten zuzugestehen einfach drin lassen). Die eigentliche Struktur des Textes kann man aber mit Sigil in Form eines vollständigen Inhaltsverzeichnisses automatisch aufbauen. Ein erster Schritt hierfür bietet die Funktion „Generate TOC from Headings“ rechts unten, was leicht zu übersehen ist. Sigil liest nun die HTML-Überschriften des Dokuments und versucht daraus ein Inhaltsverzeichnis zu basteln. Da ja dotEPUB dankenswerterweise schon einen Teil dieser Arbeit bei der Analyse und Generierung des E-Books übernommen hat, funktioniert das verblüffend gut. Man kann mit Sigil das E-Book noch viel mehr aufpeppen, als hier beschrieben, insbesondere bei Texten die bei Wikisource auf mehreren Unterseiten verteilt sind, wird es sicherlich noch seine Stärken ausspielen können. Wie bereits gesagt, über die dementsprechenden Erfahrungen werden ich später berichten.
  3. Der dritte und letzte Schritt ist notwendig, wenn man das E-Book für verschiedene Reader zur Verfügung stellen möchte. Der Kindle z.B. kann nur das Amazon-eigene Format AZW und das Format Mobipocket lesen und einige andere, aber eben nicht das EPUB-Format mit dem wir hier die ganze Zeit hantiert haben. Den Part der Konvertierung und der (weiteren) Ergänzung der Metadaten übernimmt Calibre. Calibre kann eine Vielzahl von Formaten ineinander umwandeln, bietet aber nur sehr eingeschränkte Möglichkeiten zur direkten Bearbeitung von E-Books. Außerdem ist es durch diverse Plugins erweiterbar und kann mit Hilfe dieser Plugins eine Vielzahl von Quellen aus dem Netz abrufen, für einen E-Reader aufbereiten und an diesen senden. Was ich zum Bsp. entdeckt habe, es gibt ein Plugin für Calibre, mit dem man den aktuellen Printspiegel (wenn man ein Abo hat oder wie ich Mitarbeiter des Spiegel-Verlages ist) herunterladen kann (verwendet wird dabei die Schnittstelle, die eigentlich für die IPad- und IPhone-App gedacht ist) und aufbereitet auf den Kindle senden kann. Das gelingt u.a. deshalb so gut, da die Spiegel-Apps intern ebenfalls das EPub-Format verwenden. Und das alles vollautomatisch und zeitgesteuert. HINWEIS: Für die Bearbeitung in Calibre wird das E-Book von Calibre in ein eigenes Verzeichnis kopiert (normalerweise $USER\Calibre Bibliothek). Wo sich die Datei auf dem eigenen Rechner befindet, kann man mit der Funktion „Öffne Speicherort“ erfahren, die über die rechte Maustaste beim Buch zu erreichen ist. Wenn man also an der ursprünglichen Version Änderungen vornimmt, merkt Calibre davon nichts. Bei mir hat sich deshalb bewährt das E-Book nach dem Herunterladen in Calibre zu importieren und erst diese importierte Version mit Sigil und Co. zu bearbeiten. Mit Calibre kann man die konvertierten E-Books, bzw. falls noch nicht konvertiert aber notwendig nach einer automatischen Konvertierung, dann bequem an seinen E-Reader senden oder so er mit dem Computer verbunden ist, direkt auf den Reader spielen. Im oben erwähnten Verzeichnis in das das E-Book importiert wurde, befinden sich nach der Konvertierung auch die anderen Formate.

Testweise habe ich heute zwei Texte auf Wikisource in E-Book umgewandelt. Zuerst einen einfachen Text ohne Bilder und Schnickschnack. Den historischen Aufsatz von Karl ZeumerDie Goldene Bulle Kaiser Karls IV. Erster Teil: Entstehung und Bedeutung der Goldenen Bulle. Die Erstellung des E-Books dauerte nur wenige Minuten und war wenig aufwändig. Als zweites habe ich mir das reich illustrierte Buch Ein kurtzweilig lesen von Dyl Vlenspiegel, einem der ersten Till-Eulenspiegel-Bücher, aus dem frühen 16. Jahrhundert vorgenommen. Hier gab es das Problem, dass der Text soviele Bilder enthält, dass dotEPUB streikte und anstelle der Bilder nur Platzhalter einfügte. Immerhin konnte man damit später die Bilder an der richtigen Stelle einfügen. Ansonsten wäre diese Nacharbeit wesentlich zeitaufenwändiger gewesen. Außerdem musste ich noch alle Links auf den Seitenzahlen die nach Wikisource verwiesen entfernen, was auch einige Zeit gebraucht hat. Insgesamt habe ich bei diesem Buch rund 4 Stunden benötigt. Wenn man das ganze Drumherum noch etwas sorgfältiger ausarbeiten und das Buch hübscher machen möchte, dann wird man wohl noch einiges mehr an Zeit investieren müssen.

Und nach all der Arbeit sieht dann auf meinem neuen Kindle eine Seite des Eulenspiegel-Buches so aus:

Screnshot KIndle mit Eulenspiegelbuch

Blöderweise kann man keines der E-Book-Format auf Commons oder ein anderes Wikimedia-Wiki hochladen (kann man das irgendwo beantragen?), weshalb eine Verlinkung des E-Books direkt in Wikisource erstmal nicht möglich ist. Deshalb werde ich die E-Books erstmal hier im Blog hosten. Und da ich aber nicht jedesmal wenn ich ein neues E-Book erstellt habe, diesen Blogbeitrag aktualiseren möchte, habe ich eine Seite in diesem Blog erstellt, die in Zukunft alle die von mir erstellten Bücher aufnehmen wird: [intlink id=“1298″ type=“page“]E-Books[/intlink]. Die ist im übrigen auch oben in der Navigation verlinkt.

Über Hinweise, Tricks, Kniffe und Erfahrungsberichte würde ich mich freuen. Und wenn jemand eigene E-Books aus Wikisource erstellt hat und weiß nicht wohin damit, dann lade ich die gerne hier hoch und bau sie in die oben erwähnte Liste mit ein.

10 Gedanken zu „E-Books für Wikisource“

  1. „Blöderweise kann man keines der E-Book-Format auf Commons oder ein anderes Wikimedia-Wiki hochladen (kann man das irgendwo beantragen?), “

    Grundsätzlich im https://bugzilla.wikimedia.org

    Freigeschaltet werden neue Datenformate aber nur, wenn sichergestellt ist, dass diese keine Viren enthalten können oder dies beim Hochladen geprüft werden kann.

    Aus diesem Grunde sind leider immer noch nicht OpenDocument-Formate zugelassen, da diese als ein Art Container alles mögliche enthalten können.

  2. Zu „Blöderweise kann man keines der E-Book-Format auf Commons oder ein anderes Wikimedia-Wiki hochladen (kann man das irgendwo beantragen?), “

    Grundsätzlich im Bugzilla: https://bugzilla.wikimedia.org

    Neue Datenformate werden aber nur freigeschaltet, wenn sichergestellt ist, dass diese keine Viren enthalten oder dies beim Hochladen direkt geprüft werden kann.

    Aus diesem Grund sind auch immer noch keine OpenDocument-Formate erlaubt, weil diese nur eine Art Container sind, teilweise gezippt, und alles mögliche enthalten können.

    1. Prinzipiell können EPUB-Dateien auch alles mögliche enthalten, da die auch nur ein umbenanntes ZIP-File mit einer festegelegten Struktur sind. Enthalten können mW XHTML, JS, Bilder und sonstige Binärfiles enthalten.Scanbar sollten die da ein ZIP-File und damit entpackbar sein, können aber wie gesagt auch Schadcode enthalten. Aber da müsste sich mal ein Fachmann zu äußern. Aber danke erstmal für den Hinweis.

        1. Mmh, wurde ja nicht gerade mit Begeisterung aufgenommen der Wunsch. Und danke für den Hinweis. Ich hätte aber auch vorher geschaut, ob es nicht sowieso schon so einen Bug gibt, was ja tatsächlich der Fall ist.

  3. Sorry for the English but I don’t speak German well.
    I want to talk you about a tool that the French Wikisource is building : an automatic export of books from Wikisource. You can test it here : http://genewiki.legtux.org/wikisource-site/wsexport/www/index.php/wsexport/ . It’s not finish yet but works pretty fine with French Wikisource : it is a list of books automatically build from a Wiki category that mark the main page of books with an automatic build of the epub.
    We will be glad to work with German Wikisource to adapt the tool to the other ones.
    The source code is available here : https://github.com/Tpt/wikisource-export-site

    1. Thanks for the information. Unfortunaly it’s only in french becaus i can understand the UI. But i will make a hint in my Blogpost, that other people can try the Tool. And of course is german wikisource very interested in such a tool.

  4. Danke für die Ideen. Wikisource hat mir als Quelle noch gefehlt; man kann ja mit Ebola und Cextra vom deutschen Gutenberg und von zeno.org schon ganz brauchbare Ergebnisse erzielen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *