Hundert E-Books für Wikisource

Titelbild Gerstäcker
Titelbild für E-Book: Beiträge in der Gartenlaube. Erzählungen, Geschichten, Kriegsberichte und Reportagen von Friedrich Gerstäcker veröffentlicht in der Gartenlaube in den Jahren 1853 bis 1872.

Der Reisebericht Die Prairien von Carl Beyschlag ist das einhunderste E-Book das ich aus den Beständen von Wikisource, und mit einigen wenigen Ausnahmen von Wikilivres, in den letzten Wochen gebaut habe. Da sich unter diesen E-Books auch einige Sammelwerke befinden, wie z.B. der selbst zusammengestellte Band Beiträge in der GartenlaubeErzählungen, Geschichten, Kriegsberichte und Reportagen von Friedrich Gerstäcker veröffentlicht in der Gartenlaube in den Jahren 1853 bis 1872, entsprechen diese E-Books etwa 400 Werke aus Wikisource.

Seit Anfang an habe ich Werke quer durch den Gemüsegarten ausgewählt und in E-Books umgewandelt. Soll heissen ich habe Werke aus allen Zeiten und allen bei Wikisource verfügbaren Gattungen verwendet. Dass es sich lohnt auch wissenschaftliche und Geschichtswerke als E-Books anzubieten, zeigt die Downloadstatistik.

Täglich werden ca. 10-20 E-Books heruntergeladen, was für mich zeigt, dass sich diese Arbeit, die das Angebot von Wikisource ergänzt sich lohnt und angenommen wird.

Im Folgenden präsentiere ich die Top 40 der Downloads (in Klammern die Anzahl der Downloads). Diese Liste ist aber noch mit etwas Vorsicht geniessen, da darin noch etliche „Downloads“ von Bots und Crawlern enthalten sind. Auch wenn ich das bereits etwas manuell korrigiert habe, ist eine gewissen Verzerrung noch enthalten. Eine jeweils aktuelle Liste findet sich in der Downloadsektion:

  1. Entstehung Der Arten EPUB (72)
  2. Über die Verfassung des deutschen Reiches EPUB (55)
  3. Doctor Brants Narrenschiff EPUB (55)
  4. Das Eiland der Toten EPUB (52)
  5. Kinder- und Haus-Märchen Band 1 (1812) EPUB (49)
  6. Der Geisterseher EPUB (49)
  7. Dämon Chanawutu EPUB (48)
  8. Das Geheimniß der alten Mamsell EPUB (47)
  9. Das Eiland der Toten MOBI (45)
  10. Das Geheimnis der Kabine 24 EPUB (44)
  11. Der Geisterseher MOBI (43)
  12. Othello EPUB (42)
  13. Dämon Chanawutu MOBI (42)
  14. Der letzte Höhlenmensch EPUB (41)
  15. Kinder- und Haus-Märchen Band 2 (1815) EPUB (41)
  16. Die Abstammung des Menschen und die geschlechtliche Zuchtwahl, I. Band EPUB (40)
  17. Über die Verfassung des deutschen Reiches EPUB (39)
  18. Othello MOBI (37)
  19. Das Geheimnis der Kabine 24 MOBI (37)
  20. Das Geheimniß der alten Mamsell MOBI (36)
  21. Die Abstammung des Menschen und die geschlechtliche Zuchtwahl, II. Band EPUB (35)
  22. Doctor Brants Narrenschiff MOBI (33)
  23. Des Freyherrn von Münchhausen Wunderbare Reisen EPUB (32)
  24. Die Entstehung der Kontinente und Ozeane EPUB (32)
  25. Die Abstammung des Menschen und die geschlechtliche Zuchtwahl, I. Band MOBI (31)
  26. Die Schätze des Wahhabiten EPUB (31)
  27. Die Motoryacht ohne Namen EPUB (30)
  28. Der Spiritistenklub EPUB (30)
  29. Ein kurtzweilig lesen von Dyl Vlenspiegel EPUB (28)
  30. Lustige Botanik Und Mineralogie EPUB (26)
  31. Lustige Naturgeschichte Oder Zoologia Comica EPUB (26)
  32. Die große Null EPUB (26)
  33. Der Spiritistenklub MOBI (26)
  34. Entstehung und Bedeutung der Goldenen Bulle EPUB (25)
  35. Die Schätze des Wahhabiten MOBI (24)
  36. Der Prozess EPUB (24)
  37. Kinder- und Haus-Märchen Band 2 (1815) MOBI (24)
  38. Der letzte Höhlenmensch MOBI (23)
  39. Die große Null MOBI (23)
  40. Entstehung und Bedeutung der Goldenen Bulle MOBI (22)

Mittlerweile gibt es auch eine nach den Autoren sortierte Liste der E-Books bei Wikisource und bei den einzelnen Werken wird darauf hingewiesen, dass diese auch als E-Book verfügbar sind.

Ich mach auf jeden Fall weiter mit den E-Books, sind ja auch erst ein Bruchteil der Werke bei Wikisource verwurstet worden, so dass noch genug Arbeit übrig bleibt.

24.000 Werke bei Wikisource

Gestern wurde, knapp nach dem Jahreswechsel, ein neuer Meilenstein bei Wikisource erreicht. Der Artikel Aus alter Zeit aus der Gartenlaube des Jahres 1874 ist das Werk mit der Nummer 24.000 bei Wikisource. Insgesamt wurden im Jahr 2011 etwa 1.800 neue Werke bei Wikisource eingestellt. Noch mehr Auswertungen und Informationen gibt es auf der Wikisource-Statistikseite.

Meilenstein bei der ADB

Der Einfachheit halber zitiere ich einfach mal die Jubelmeldung auf der Wikisource-Hauptseite:

Heute wurde ein enormer Meilenstein erreicht: Alle 26.380 Artikel der Allgemeinen Deutschen Biographie(„ADB“) sind mindestens einmal korrekturgelesen worden. Begonnen am 24.08.2005, hat es also 6 Jahre bis zu diesem Meilenstein gedauert. Momentan sind aber auch schon fast 5.000 Artikel im Bearbeitungsstand „fertig“, das heißt, sie sind

a) zweimal korrekturgelesen
b) sofern vorhanden, mit dem Wikipedia-Artikel verlinkt
c) intern innerhalb der ADB verlinkt
d) sofern zutreffend, mit einer PND-Nummer versehen.

     Hoffen wir mal, dass es nicht bis September 2017 dauert, bis dieses Projekt abgeschlossen wird.

Gratulation und ein großes Dankeschön an alle Beteiligten für die enorme Arbeit, die hier geleistet wurde.

22.000 Werke bei Wikisource

Nach langer Zeit mal wieder eine Wasserstandsmeldung zu den Inhalten bei Wikisource. Wie in der Überschrift schon erkenntlich wurde heute die Marke von 22.000 Werken im deutschsprachigen Wikisource-Projekt geknackt. Und die Nr. 22.000 trägt: Ein kurtzweilig lesen von Dyl Vlenspiegel gebore vß dem land zu Brunßwick : wie er sein Leben vollbracht hatt ; XCVI seiner Geschichten. Wie der Name schon erahnen lässt, ist dies eine Ausgabe der Geschichten des Till Eulenspiegels aus dem Jahre 1515. Der Text ist noch in der Erstellung deshalb ist derzeit noch nicht soviel zu lesen.

Wir waren schon mal bei über 23.000 Werken, aber Ende letzten Jahres wurden korrekterweise rund 3.000 Lexikonartikel aus der Zählung herausgenommen.

Wie sich die Zahl auf die verschiedenen Werkarten und -gattungen momentan und in der Vergangenheit aufteilt, kann man der seit einiger Zeit gut gepflegten Wikisource-Statistikseite entnehmen. Ende 2008 wurde die Grenze von 10.000 Werken überschritten und im April 2010 waren es 20.000 Werke. Das folgende Diagramm zeigt den Verlauf seit Beginn der statistischen Erhebungen.

[singlepic id=375 w=500 h= float=]

Kurz verlinkt

ADB auf gutem Wege

Pfaerrich hat heute im Wikisource-Skriptorium eine Übersicht des aktuellen Standes der Arbeit an der ADB gegeben. Der Einfach- und Faulheit halber zitiere ich ihn einfach mal komplett.

Die Anzahl der unkorrigierten ADB-Artikel ist seit heute unter die 15tausender-Marke gefallen. Die korrigierten liegen bei 9.300 und über 2tausend sind sogar fertig (allerdings ist deren Verlinkung zu WP und PND noch größtenteils nicht erfolgt).

Für Freunde der Statistik hier noch ein Paar Infos, die sich aus der Chronik auf der ADB-Diskussion ziehen lassen. Seit Ende November 2008, als erstmalig alle 26.374 Artikel in OCR-Version eingestellt waren und fast gleichzeitig die Marke von 20tausend Restanten unterschritten wurde, sind es demnach 5tausend weniger geworden und zusätzliche tausend Artikel sogar (mit Einschränkung) komplett erledigt. Am 3.6.2009 hatten wir noch 16tausend unkorrigierte, das heißt, pro Woche wurden seitdem durchschnittlich 200 Artikel abgearbeitet. Vorausgesetzt, wir würden in diesem Tempo weiterarbeiten, wäre Ende 2010 ADB:unkorrigiert pleite. Für die Buchstaben A bis D, I, J, Q, U hat hier schon das letzte Stündlein geschlagen, E und Z droht in Kürze das gleiche Schicksal.

Die von mir [Pfaerrich] eingepflegte Liste von Professoren, deren Namen ja in den Artikeln teilweise im Dutzend vorkommen, hat die stattliche Größe von 1400 Positionen erreicht und wird immer noch erweitert.

Kleine Ergänzung noch von mir. Vor ein paar Tagen wurde die Grenze von insgesamt 13.000 Werken bei Wikisource überschritten. Stets aktuelle Zahlen, nicht nur zu den Werke, gibt es bei Wikisource:Statistik.

20.000 mal fertig

In den letzten Tagen purzeln die runden Jubiläen bei Wikisource nur so. Diesmal haben wir die Grenze von 20.000 Seiten überschritten, die zwei mal korrekturgelesen wurden. Und diese Zahl bezieht sich nur auf die Seiten im Seiten-Namensraum. Insgesamt sind es wesentlich mehr, da insbesondere viele Gedichte und andere Texte die nur einige wenige Seiten umfassen, meist nicht mit der Proofread-Extension bearbeitet werden.

Auch wenn einige Sprach-Versionen von Wikisource wesentlich mehr Seiten umfassen (fr: 270853, en: 237087, de: 86923), führt das deutschsprachige Wikisource mit großem Abstand bei den zweimal korrekturgelesen Seiten. Dies zeigen auch deutlich die beiden folgenden Grafiken. Zuerst der Verlauf der Gesamtzahl und danach die Zahl der zweimal korrekturgelesenen Seiten:

P.S. Eine tagesaktuelle Version der obigen Diagramme findet sich auf dem Toolserver.

Neuigkeiten aus Wikisource (7)

Vor ein paar Tagen hat Wikisource ein paar runde Grenzen überschritten. Erstens haben wir mehr als 5000 Gedichte und insegsamt mehr als 12.000 Werke. Außerdem gibt es mittlerweile mehr als 2000 Seiten zu Autoren.  Großen Anteil daran hatte die Erfassung und Erschließung einiger Sammelwerke, darunter z.B. Schillers Musenalmanach der Jahrgänge 1796, 1797, 1798, 1799 und 1800.

Da es seit geraumer Zeit Kritik daran gab, dass nicht alle Autorenseiten auch tatsächlich Autoren behandelten und Themenseiten für Personen auch nicht besonders passen sind, wurde eine neue Kategorie Personen eingeführt. Außerdem passte die Möglichkeit von Themenseiten schon deshalb nicht, da hier keine Personendaten zugeordnet werden können und auch keine PND zugeordnet werden kann. Die Autoren sind jetzt eine Unterkategorie der Personen. Mit Hife der dazugehörigen Vorlage, können nun auch Seiten angelegt werden, die Werke über Personen aufführen, ohne dass der Eindruck ensteht, dass diese Person Werke geschaffen hat.

Und überrascht war ich, als jemand die Fachkategorie Spezielle Relativitätstheorie einführte, wieviele Werke wir zu dem Thema mittlerweile haben. Für den an diesem Thema Interessierten ist das mittlerweile eine kleine Fundgrube geworden, die sich doch eher im Verborgenen entwickelt hat.

Die Anzahl der unkorrigierten Artikel in der ADB ist Anfang Juni auf unter 16.000 Artikel gesunken. Daraus resultiert, dass mittlerweile der Buchstabe I und der Band 55 vollständig korrigiert wurden.

Laubenpieper-Statistik

Das Telephon.
Typische Gartenlauben-Illustration aus dem Artikel "Der Musiktelegraph

Auf meine neugierige Frage im Chat, wie viele Seiten der Gartenlaube denn bereits korrekturgelesen wurden oder sogar fertig sind, hat mir Joergens mal auf die Schnelle eine kleine Statistik bereitgestellt. Und damit diese Arbeit nicht umsonst war, erfährt sie nun die ganze Welt:

  • 22 Bände haben Scans und sind durch die OCR gejagt worden, das macht insgesamt 18916 Seiten
  • Ausgekoppelt, soll heißen als eigenständige Werke angelegt, wurden insgesamt 223 Artikel. Führend dabei der Jahrgang 1863 mit 89 Artikeln.
  • Das macht 532 einmal korrigierte Seiten und 283 Seiten die fertig sind, also zweimal korrekturgelesen wurden.
  • Bei 4 Bänden mit ca. 3000 Seiten existieren Scans auf Commons, die OCR fehlt aber noch.

Fazit: Ein büsschen ist noch zu tun.

P.S. Hätte ich fast vergessen. Seit dem Wochenende gibt es eine Liste der Autoren der Gartenlaube und eine Liste der Liste der Illustratoren, Zeichner und Maler der Gartenlaube. Zweck der Übung ist zuerst mal rauszubekommen, welche Texte und Bilder garantiert gemeinfrei sind. Anlaß diese Listen anzulegen, war der Umstand, dass wir vor ein paar Tagen darauf aufmerksam gemacht wurden, dass Bilder eines bestimmten Zeichners noch nicht gemeinfrei sind. Zu den beiden Listen schreibe ich in den nächsten Tagen noch etwas mehr.

Neuigkeiten aus Wikisource (6)

Es ist mal wieder Zeit und zum Glück auch Gelegenheit einige Neuigkeiten aus Wikisource der geneigten Leserschaft darzubieten:

  • Das Wichtigste gleich zu Beginn: Auf Wikisource befinden sich seit heute insgesamt 11.000 Werke. Damit hat die Neuanlage der letzten tausend Werke etwa 80 Tage gedauert. Dieser Bestand setzt sich u.a. zusammen aus über 4500 Gedichten, etwa 1300 Rechtstexten und fast 800 Texte die wissenschaftliche Sachverhalte darlegen. Hinzukommen über 1700 Autoren-, 187 Themen- und 84 Ortsseiten die den Gesamtbestand zumindest zu großen Teilen erschließen.
  • Mittlerweilen wurden von 18 Jahrgängen der Gartenlaube Scans und OCR-Texte auf Commons bzw. Wikisource verfügbar gemacht. Das sind rund 16.000 Seiten Text. Fast 200 Artikel wurden korrekturgelesen und sind als eigenständige Werke vorhanden.
  • Etwa ein Viertel des Gesamtbestandes von fast 120.000 Seiten in Wikisource wurde bereits zweimal korrekturgelesen. Ein weiteres Viertel wurde zumindest einmal korrekturgelesen.
  • Auch bei der ADB geht es gut voran. Mehr als 26 Prozent der Artikel wurden einmal korrekturgelesen und gute 5 Prozent bereits zweimal. Umgerechnet bedeutet dies, dass 6 Bände bzw. die Buchstaben A, B, C, D und X, Y komplett einmal korrekturgelesen wurden.

Vergleich Wikisource-Gutenberg.de

Heute mal ein rein zahlenmäßiger Vergleich zwischen Wikisource und Gutenberg.de  mit Stand Januar 2009. Die Zahlen sind Eigenangaben von Gutenberg und bei Wikisource habe ich die Zahlen der entsprechenden Kategorien herangezogen. Da die Zahlen in den Kategorien durch einige Softwarefehler von der Realität abweichen, habe ich diese einfach etwas gerundet:

Genre Wikisource Gutenberg
Werke insgesamt 10.500 k.A. (laut Werkgesamtliste 4.300, wobei aber Sammelbände wohl als ein Werk gezählt werden. Ich habe mal was von insgesamt 27.000 Werken gehört)
Autoren 1.700 1.000
Gedicht 4.300 ca. 20.000
Bücher 330 4.800
   -Seiten 52.000 1.5 Mio
Märchen 1.300 1.800
Fabeln 150 1.200
Sagen 105 3.500

 

Gutenberg gibt eine Anzahl von 4.800 Büchern an. Leider erfährt man nicht was als Buch definiert ist und welche Genres diese umfassen. Als Vergleichswert habe ich einfach die Anzahl der Indexseiten der Proofreading-Extension (siehe dazu auch meinen Beitrag über die Proofreading-Extension) gezählt. Mit Sicherheit sind es aber einige mehr Bücher, da ein Großteil noch gar nicht auf diese Extension umgestellt wurde bzw. wohl auch nie wird (z.B. Gedichtbände). Für die Anzahl der Buchseiten habe ich entsprechend die Anzahl im Namensraum Seite gezählt. Die Größenordnung dürfte aber hinkommen und als Vergleichswert ausreichend sein.

Bei den Autoren ist zu beachten, dass bei Wikisource z.B. für die Autoren der ADB und Paulys Realencyclopädie der classischen Altertumswissen-schaft Seiten angelegt wurden, wobei in den wenigsten Fällen Werke die über die Lexikonartikel hinausgehen bei Wikisource vorhanden sind. Hinzu kommen Autorenseiten bei Wikisource, die nur Digitalisate im Netz (z.B. Google Books, Universitzäten, Bibliotheken etrc.) nachweisen, aber auch hier keine Werke in Wikisource vorhanden sind.

Ich bin mir bewusst, dass solch ein Vergleich per se erst mal nicht viel aussagt, außer dass Gutenberg ein ganzes Stück größer ist und es deshalb nicht verwunderlich ist, dass Gutenberg wesentlich bekannter ist (zumindest mein Eindruck). Aber man kann auf jeden Fall sehen, dass wir noch ein großes Stück Arbeit vor uns haben um auch nur ansatzweise an diese Zahlen heranzukommen.

Aber schiere Größe ist nicht alles und daraus ziehen wir ja auch unser Selbstverständnis. Dass Wikisource eine wesentlich größere Bandbreite an Themen abdeckt, dessen bin ich mir sicher und dass Wikisource die bessere Qualität liefert, davon gehe ich einfach mal frech aus :-)

Etwas Statistik

 

 

Die wenigsten dürften es wissen: Aber das Statistik-Tool auf http://stats.grok.se, das vielfach in der Wikipedia Verwendung findet, ist auch für Wikisource und vermutlich auch für die anderen Schwesterprojekte, wie Wikiquote, Wikitionary etc. einsetzbar. Allerdings sind die Statistiken nicht über die Oberfläche aufrufbar, sondern man muss die URL manipulieren. Für die Hauptseite von Wikisource sieht der Aufruf dann folgendermassen aus: http://stats.grok.se/de.s/200901/Hauptseite. Man beachte, die Pfadangaben vor dem Datum. Dort muss das Projektkürzel ergänzt werden, also "de.s" für de-Wikisource und nicht nur "de" für die de-WP.

Eine weitere Statistik bietet Wikistics von Melancholie. Dieses Tool ist ebenfalls für alle Projekte verfügbar. Hier finden wir die Top 1000 der aufgerufenen Seiten bei Wikisource im Jahr 2008, im letzten Monat und eine Übersicht des letzten Tages. Leider scheint das Tool aber noch nicht für 2009 zu funktionieren. Außerdem werden in der Statistik alle Namensräume vermischt, so dass auch die üblichen Seiten die häufig von Mitarbeitern aufgerufen werden, wie die Beobachtungsliste, Letzte Änderungen, Benutzerseiten etc., die Statistik etwas "verschmutzen".

Auf stats.wikimedia.org gibt es außerdem noch ein Gesamtübersicht der PageViews über alle Sprach-Versionen. Demnach befindet sich das deutschsprachige Wikisource-Projekt nur auf Platz 5 aller Sprachversionen mit 2,1 Mio. PageViews im Dezember 2008 hinter fr mit 7,5 Mio, en mit 7,3 Mio, es mit 3,5 Mio und pt mit 2,2 Mio PageViews.

Und zu guter Letzt haben wir noch ein paar Wikisource-exklusive Statistiken. Die ProofreadPage Statistics führt Buch darüber wie die Proofread-Extension (ich berichtete darüber) in den einzelnen Version eingesetzt wird und wie der Korrekturstand der Seiten ist, die mit dieser Extension angelegt wurden. Wir sind zwar bei den totalen Seiten zwar weit hinter en und fr zurück, allerdings führen wir bei den Seiten die bereits zweimal korrekturgelesen wurden.

Auf dem Toolserver befindet sich die ADB-Statistik, die eine aktuelle Übersicht über den Bearbeitungsstand der ADB gibt. Und Joergens gibt auf einer seiner Unterseiten einen Überblick über das Gesamtprojekt.

Update (6. Januar 2008)

Gerade eben noch was sehr interessantes auf stats.wikimedia.org entdeckt: Wikisource Zeitgeist. Schön zu sehen, welche Projekte, wann hochaktuell waren. Gibt es auch für die Wikipedia (leider nur bis Januar 2008, schade): Wikipedia Zeitgeist

Neuigkeiten aus Wikisource (4)

Heute wieder ein paar Neuigkeiten aus Wikisource im Tickerformat.

Kleine Statistik

 Da Joergens.mi, einer unser aktivsten und fleißigsten Mitarbeiter bei Wikisource, gerade alle Texte erfasst, die wir mittlerweile als Scan nach Commons hochgeladen haben, hier mal die Zahlen die er dabei gewonnen hat:

  • auf Commons befinden sich die Scans von knapp 700 Büchern und rund 400 kürzeren Texten
  • diese liegen vor in Form von mindestens 75504 gescannten Seiten bzw. Dateien  (z.B. PDF, djvu)
  • damit stammen etwas über 4% der Dateien auf Commons vom deutschsprachigen Wikisource-Projekt

Man muss aber dazu sagen, dass wir noch längst nicht all diese Texte direkt in Wikisource als elektronischen Text verfügbar machen konnten. Es liegt also noch viel Arbeit vor uns.

Alle Scans auf Commons kann man in der  Liste der Scans auf Commons finden.

Update:

Wir haben noch mal ein bisschen rumgespielt, um noch ein paar Zahlen zu erhalten, wieviele Werke mittlerweile bei Wikisource vorhanden sind und sich in einem präsentablem Zusatnd befinden. Zu beachten ist dabei, dass ein Werk ein kurzes Gedicht oder auch ein komplettes Buch wie die Zimmerische Chronik umfassen kann. Hier die Zahlen:

  • rund 2900 Werke wurden bereits zweimal korrekturgelesen und befinden sich damit im Status „fertig“
  • etwa 1000 Werke wurden einmal korrekturgelesen und befinden sich im Status „korrigiert“
  • insgesamt umfasst Wikisource rund 5300 Werke

Da grosse Werke, wie z.B. Bücher auf Unterseiten verteilt werden, gibt die Zahl von 8.600 Wiki-Seiten die den Status „fertig“ tragen, wesentlich besser wieder, welche Arbeit in den letzten anderthalb Jahren bei Wikisource geleistet wurde.