Meilenstein bei der ADB

Der Einfachheit halber zitiere ich einfach mal die Jubelmeldung auf der Wikisource-Hauptseite:

Heute wurde ein enormer Meilenstein erreicht: Alle 26.380 Artikel der Allgemeinen Deutschen Biographie(„ADB“) sind mindestens einmal korrekturgelesen worden. Begonnen am 24.08.2005, hat es also 6 Jahre bis zu diesem Meilenstein gedauert. Momentan sind aber auch schon fast 5.000 Artikel im Bearbeitungsstand „fertig“, das heißt, sie sind

a) zweimal korrekturgelesen
b) sofern vorhanden, mit dem Wikipedia-Artikel verlinkt
c) intern innerhalb der ADB verlinkt
d) sofern zutreffend, mit einer PND-Nummer versehen.

     Hoffen wir mal, dass es nicht bis September 2017 dauert, bis dieses Projekt abgeschlossen wird.

Gratulation und ein großes Dankeschön an alle Beteiligten für die enorme Arbeit, die hier geleistet wurde.

ADB auf gutem Wege

Pfaerrich hat heute im Wikisource-Skriptorium eine Übersicht des aktuellen Standes der Arbeit an der ADB gegeben. Der Einfach- und Faulheit halber zitiere ich ihn einfach mal komplett.

Die Anzahl der unkorrigierten ADB-Artikel ist seit heute unter die 15tausender-Marke gefallen. Die korrigierten liegen bei 9.300 und über 2tausend sind sogar fertig (allerdings ist deren Verlinkung zu WP und PND noch größtenteils nicht erfolgt).

Für Freunde der Statistik hier noch ein Paar Infos, die sich aus der Chronik auf der ADB-Diskussion ziehen lassen. Seit Ende November 2008, als erstmalig alle 26.374 Artikel in OCR-Version eingestellt waren und fast gleichzeitig die Marke von 20tausend Restanten unterschritten wurde, sind es demnach 5tausend weniger geworden und zusätzliche tausend Artikel sogar (mit Einschränkung) komplett erledigt. Am 3.6.2009 hatten wir noch 16tausend unkorrigierte, das heißt, pro Woche wurden seitdem durchschnittlich 200 Artikel abgearbeitet. Vorausgesetzt, wir würden in diesem Tempo weiterarbeiten, wäre Ende 2010 ADB:unkorrigiert pleite. Für die Buchstaben A bis D, I, J, Q, U hat hier schon das letzte Stündlein geschlagen, E und Z droht in Kürze das gleiche Schicksal.

Die von mir [Pfaerrich] eingepflegte Liste von Professoren, deren Namen ja in den Artikeln teilweise im Dutzend vorkommen, hat die stattliche Größe von 1400 Positionen erreicht und wird immer noch erweitert.

Kleine Ergänzung noch von mir. Vor ein paar Tagen wurde die Grenze von insgesamt 13.000 Werken bei Wikisource überschritten. Stets aktuelle Zahlen, nicht nur zu den Werke, gibt es bei Wikisource:Statistik.

Neuigkeiten aus Wikisource (6)

Es ist mal wieder Zeit und zum Glück auch Gelegenheit einige Neuigkeiten aus Wikisource der geneigten Leserschaft darzubieten:

  • Das Wichtigste gleich zu Beginn: Auf Wikisource befinden sich seit heute insgesamt 11.000 Werke. Damit hat die Neuanlage der letzten tausend Werke etwa 80 Tage gedauert. Dieser Bestand setzt sich u.a. zusammen aus über 4500 Gedichten, etwa 1300 Rechtstexten und fast 800 Texte die wissenschaftliche Sachverhalte darlegen. Hinzukommen über 1700 Autoren-, 187 Themen- und 84 Ortsseiten die den Gesamtbestand zumindest zu großen Teilen erschließen.
  • Mittlerweilen wurden von 18 Jahrgängen der Gartenlaube Scans und OCR-Texte auf Commons bzw. Wikisource verfügbar gemacht. Das sind rund 16.000 Seiten Text. Fast 200 Artikel wurden korrekturgelesen und sind als eigenständige Werke vorhanden.
  • Etwa ein Viertel des Gesamtbestandes von fast 120.000 Seiten in Wikisource wurde bereits zweimal korrekturgelesen. Ein weiteres Viertel wurde zumindest einmal korrekturgelesen.
  • Auch bei der ADB geht es gut voran. Mehr als 26 Prozent der Artikel wurden einmal korrekturgelesen und gute 5 Prozent bereits zweimal. Umgerechnet bedeutet dies, dass 6 Bände bzw. die Buchstaben A, B, C, D und X, Y komplett einmal korrekturgelesen wurden.

Vergleich Wikisource-Gutenberg.de

Heute mal ein rein zahlenmäßiger Vergleich zwischen Wikisource und Gutenberg.de  mit Stand Januar 2009. Die Zahlen sind Eigenangaben von Gutenberg und bei Wikisource habe ich die Zahlen der entsprechenden Kategorien herangezogen. Da die Zahlen in den Kategorien durch einige Softwarefehler von der Realität abweichen, habe ich diese einfach etwas gerundet:

Genre Wikisource Gutenberg
Werke insgesamt 10.500 k.A. (laut Werkgesamtliste 4.300, wobei aber Sammelbände wohl als ein Werk gezählt werden. Ich habe mal was von insgesamt 27.000 Werken gehört)
Autoren 1.700 1.000
Gedicht 4.300 ca. 20.000
Bücher 330 4.800
   -Seiten 52.000 1.5 Mio
Märchen 1.300 1.800
Fabeln 150 1.200
Sagen 105 3.500

 

Gutenberg gibt eine Anzahl von 4.800 Büchern an. Leider erfährt man nicht was als Buch definiert ist und welche Genres diese umfassen. Als Vergleichswert habe ich einfach die Anzahl der Indexseiten der Proofreading-Extension (siehe dazu auch meinen Beitrag über die Proofreading-Extension) gezählt. Mit Sicherheit sind es aber einige mehr Bücher, da ein Großteil noch gar nicht auf diese Extension umgestellt wurde bzw. wohl auch nie wird (z.B. Gedichtbände). Für die Anzahl der Buchseiten habe ich entsprechend die Anzahl im Namensraum Seite gezählt. Die Größenordnung dürfte aber hinkommen und als Vergleichswert ausreichend sein.

Bei den Autoren ist zu beachten, dass bei Wikisource z.B. für die Autoren der ADB und Paulys Realencyclopädie der classischen Altertumswissen-schaft Seiten angelegt wurden, wobei in den wenigsten Fällen Werke die über die Lexikonartikel hinausgehen bei Wikisource vorhanden sind. Hinzu kommen Autorenseiten bei Wikisource, die nur Digitalisate im Netz (z.B. Google Books, Universitzäten, Bibliotheken etrc.) nachweisen, aber auch hier keine Werke in Wikisource vorhanden sind.

Ich bin mir bewusst, dass solch ein Vergleich per se erst mal nicht viel aussagt, außer dass Gutenberg ein ganzes Stück größer ist und es deshalb nicht verwunderlich ist, dass Gutenberg wesentlich bekannter ist (zumindest mein Eindruck). Aber man kann auf jeden Fall sehen, dass wir noch ein großes Stück Arbeit vor uns haben um auch nur ansatzweise an diese Zahlen heranzukommen.

Aber schiere Größe ist nicht alles und daraus ziehen wir ja auch unser Selbstverständnis. Dass Wikisource eine wesentlich größere Bandbreite an Themen abdeckt, dessen bin ich mir sicher und dass Wikisource die bessere Qualität liefert, davon gehe ich einfach mal frech aus :-)

Etwas Statistik

 

 

Die wenigsten dürften es wissen: Aber das Statistik-Tool auf http://stats.grok.se, das vielfach in der Wikipedia Verwendung findet, ist auch für Wikisource und vermutlich auch für die anderen Schwesterprojekte, wie Wikiquote, Wikitionary etc. einsetzbar. Allerdings sind die Statistiken nicht über die Oberfläche aufrufbar, sondern man muss die URL manipulieren. Für die Hauptseite von Wikisource sieht der Aufruf dann folgendermassen aus: http://stats.grok.se/de.s/200901/Hauptseite. Man beachte, die Pfadangaben vor dem Datum. Dort muss das Projektkürzel ergänzt werden, also "de.s" für de-Wikisource und nicht nur "de" für die de-WP.

Eine weitere Statistik bietet Wikistics von Melancholie. Dieses Tool ist ebenfalls für alle Projekte verfügbar. Hier finden wir die Top 1000 der aufgerufenen Seiten bei Wikisource im Jahr 2008, im letzten Monat und eine Übersicht des letzten Tages. Leider scheint das Tool aber noch nicht für 2009 zu funktionieren. Außerdem werden in der Statistik alle Namensräume vermischt, so dass auch die üblichen Seiten die häufig von Mitarbeitern aufgerufen werden, wie die Beobachtungsliste, Letzte Änderungen, Benutzerseiten etc., die Statistik etwas "verschmutzen".

Auf stats.wikimedia.org gibt es außerdem noch ein Gesamtübersicht der PageViews über alle Sprach-Versionen. Demnach befindet sich das deutschsprachige Wikisource-Projekt nur auf Platz 5 aller Sprachversionen mit 2,1 Mio. PageViews im Dezember 2008 hinter fr mit 7,5 Mio, en mit 7,3 Mio, es mit 3,5 Mio und pt mit 2,2 Mio PageViews.

Und zu guter Letzt haben wir noch ein paar Wikisource-exklusive Statistiken. Die ProofreadPage Statistics führt Buch darüber wie die Proofread-Extension (ich berichtete darüber) in den einzelnen Version eingesetzt wird und wie der Korrekturstand der Seiten ist, die mit dieser Extension angelegt wurden. Wir sind zwar bei den totalen Seiten zwar weit hinter en und fr zurück, allerdings führen wir bei den Seiten die bereits zweimal korrekturgelesen wurden.

Auf dem Toolserver befindet sich die ADB-Statistik, die eine aktuelle Übersicht über den Bearbeitungsstand der ADB gibt. Und Joergens gibt auf einer seiner Unterseiten einen Überblick über das Gesamtprojekt.

Update (6. Januar 2008)

Gerade eben noch was sehr interessantes auf stats.wikimedia.org entdeckt: Wikisource Zeitgeist. Schön zu sehen, welche Projekte, wann hochaktuell waren. Gibt es auch für die Wikipedia (leider nur bis Januar 2008, schade): Wikipedia Zeitgeist

Neuigkeiten aus Wikisource (4)

Heute wieder ein paar Neuigkeiten aus Wikisource im Tickerformat.

Dankeschön

Stellvertretend an Alle die jemals bei Wikisource mitgearbeitet haben, hier eine kleine Liste von Mitarbeitern, die mehr als fünf Beiträgen im Artikelnamensraum der ADB geleistet haben:

9xl, A. Wagner, A1000, Achim D. Bölstler, Achim Raschka, Alexander Fischer, Alkab, Andante, Andim, AndreasPraefcke, Andys, Aph, B. N., Balû, Berentar, Biff,Biographer, BjoernLG, Blah, Bob Burkhardt, Bodhi-Baum, BruderNicolausius, Buchfreund, CIEL, CK85, Cecil, Centipede, Chrfranz, Chris Furkert, Complex, Dan86,Daniel73480, Dhulikhel, Directer, DivineDanteRay, Docteur Ralph, Dominic Z., Eisenacher, ExilSchwabe, Exxu, Fingalo, FordPrefect42, Frank Schulenburg, Franz Richter, Fredou, FrobenChristoph, Glenkill, Heimau, Historiograf, Huibuh, Hvs50, Hystereser, Ingersoll, JensKreher, Jlorenz1, Joergens.mi, Jofi, Jofibot, Jonathan Groß, Joschy, Kaiserf, Katharos24, Keichwa, Kellerkind, Klausmach, Koerpertraining, Konrad Stein, Kresspahl, Krje, L.m.k, Lector minimus, Leppus, Lexoldie,Liondancer, Longbow4u, ML Carl, MN19, Mabrueckner, Matthead, Mentelin, Michail, Moniwolf, MonkBot, Moros, Morray, Olivhill, PDD, Paulis, Pfaerrich, Polarlys,Rayx, René Mettke, Robot Monk, Rudolph H, SML, Salvia, Sanju, Schaengel89, Sebastian Wallroth, Sondanella, SteveK, Symposiarch, T3172, Thebeing,Thuresson, Timo Müller, Tolanor, Tosca, Troedelmann, Tsetse, UrLunkwill, Uwe1959, WIKImaniac, WIKImaniac Bot, Waelder, Wamito, Xarax, XtianCt, Zabia

Ich war mal so frech mir die Liste bei Pfaerrich zu klauen. Schon verblüffend wieviele Leute im Laufe der Zeit da zusammenkommen. Und man sieht jeder, auch noch so kleine Beitrag hilft.

Achja, Fröhliches Neues 2009.

10.000 Werke

Seit heute hat Wikisource 10.000 Werke in seinem Bestand. Diese Zahl umfasst über 4100 Gedichte, 32 Romane und rund 2000 Gesetze, Anordnungen und Erlasse. Hinzu kommen 150 Flugschriften und Einblattdrucke, 31 Handschriften und vielerlei andere Texte. Zur Erschließung dieser Texte gibt es bei Wikisource außerdem noch über 1500 Autorenseiten, 164 Themenseiten und 75 Seiten zu Orten und Regionen. Der Umfang der Werke reicht vom 4-zeiligen Gedicht über mehrbändige Chroniken bis hin zur Allgemeinen Deutschen Biographie mit 56 Bänden.

Apropos ADB: Kürzlich wurde der erste große Meilenstein dieses Langzeitprojektes erreicht: Die 54-bändige Allgemeine Deutsche Biographie (ADB) steht gänzlich in Textform online. Damit stehen über 25.000 Artikel über Personen zur Verfügung. Eine ausführliche Würdigung hat 32X für den Wikipedia:Kurier geschrieben. Eine kleine Historie des Projektes hat Pfaerrich auf der Diskussionsseite des Projektes zusammengestellt.

Neuigkeiten aus Wikisource (3)

Nach etwas längerer Zeit mal wieder ein paar Neuigkeiten aus unserem kleinen Projekt:

  • Dank xarax geht die Arbeit an der ADB und einigen anderen Projekten wesentlich schneller voran. Er hat einen kleinen Bot programmiert, der die Google OCR Engine verwendet und die OCR-Resultate dann automatisch in Wikisource hochlädt. Leider ist die OCR-Qualität noch recht mittelmäßig, so dass der Korrekturaufwand recht hoch ist. Finereader ist auch bei Fraktur wesentlich leistungsfähiger. Dann muss man aber die Texte Seite für Seite von Hand hochladen. Über meine Erfahrungen mit der neuen Version von Finereader werde ich einem der nächsten Beiträge berichten.
  • Ein Großteil der älteren Projekte wurde mittlerweile auf die neue Proofreading-Extension umgestellt (Ich berichtete darüber). Derzeit gibt es im Namensraum „Seite“ rund 3500 Seiten. Nach dem französischen Wikisource stehen wir damit auf Platz 2 der Verwendung dieser Extension.
  • Die Themenseiten auf Wikisource, die nicht nur die Texte auf Wikisource nachweisen, sondern auch Digitalisate überall im Netz (insbesondere von Google Books) aufführen, werden mittlerweile auch international als beispielhaft erkannt. Selbst englische und japanische Blogs berichten darüber.
  • Für Wikisource ist die Aussage „Im Gegensatz zur Wikipedia entwickelt sich Wikisource zu einer sehr seriösen Einrichtung.“ sicherlich sehr schmeichelhaft ;-) (Gefunden bei Digitale Regionalgeschichte. Danke an FrobenChristoph für den Hinweis im Skriptorium.)
  • Mit großer Beteiligung wurde der Handschriftenlesekurs in Wikisource wieder neu belebt. FrobenChristoph weist uns anhand der in Wikisource vorhandenen Beispiele in das Lesen von alten Handschriften ein. Der Kurs findet täglich im Chat ab 21 Uhr statt (irc://irc.freenode.org/paleo). Die aktuellen Leseaufgaben werden auf der Seite zum Kurs in Wikiversity bekanntgegeben. Derzeit wird anhand des Rechenbuch des Andreas Reinhard geübt.