Monatsarchiv: Januar 2009

Jan 29 2009

Neuigkeiten aus Wikisource (5)

Akseli Gallen-Kallela: Die Verteidigung des Sampo.

Akseli Gallen-Kallela: Die Verteidigung des Sampo.

Heute ist mal wieder Zeit für ein paar Kurznachrichten aus Wikisource:

  • Das finnische Nationalepos Kalewala in der Übersetzung von Anton Schiefner ist vollständig bei Wikisource vorhanden. Zum Inhalt des Werkes schreibt Cecil im Skriptorium:

 

 

 

eine als Nationalepos getarnte Seifenoper (einige der Themen: Mord, Rache, Selbstmord, Inzest, Zauberwettkämpfe, unbefleckte Empfängnis nur Obst, goldenen Ehefrauen, äußerst ungeschickte Brautwerbungen, usw.)

Den dazugehörigen exzellenten Artikel in der Wikipedia kann ich auch zur Lektüre empfehlen.

  • Seit vorgestern ist parallel zur deutschsprachigen Wikipedia auch in Wikisource die Pediapress-Extension (eine MediaWiki-Erweiterung zur PDF-Ausgabe) in Betrieb genommen worden. Leider gibt es noch ein paar Einschränkungen (z.B. wird die poem-Extension für Gedichte nicht und HTML bzw. CSS nur rudimentär unterstützt), die aber hoffentlich bald behoben werden. Vielen Dank an Frank, dass er unbürokratisch die Anschaltung auch bei uns veranlasst hat. Unsere Erfahrungen dürften ja auch für die anderen Wikisource-Projekte von Nutzen sein, wenn es dann bei diesen soweit ist.
  • Eine der umfangreichsten Themenseiten ist derzeit im Entstehen, und zwar zu den Burgunderkriegen. Wie bei Wikisource üblich führt die Seite Digitalisate, Handschriften etc. im Netz und auch schon einige wenige Texte bei Wikisource zum Thema auf.

Jan 27 2009

Rosenstolz in Hamburg

Gestern abend in der Color Line Arena. Ein paar Impressionen:

Rosenstolz Hamburg 26. Januar 2009

Rosenstolz Hamburg 26. Januar 2009

Rosenstolz Hamburg 26. Januar 2009

Rosenstolz Hamburg 26. Januar 2009


Rosenstolz Hamburg 26. Januar 2009

Jan 26 2009

Vergleich Wikisource-Gutenberg.de

Heute mal ein rein zahlenmäßiger Vergleich zwischen Wikisource und Gutenberg.de  mit Stand Januar 2009. Die Zahlen sind Eigenangaben von Gutenberg und bei Wikisource habe ich die Zahlen der entsprechenden Kategorien herangezogen. Da die Zahlen in den Kategorien durch einige Softwarefehler von der Realität abweichen, habe ich diese einfach etwas gerundet:

Genre Wikisource Gutenberg
Werke insgesamt 10.500 k.A. (laut Werkgesamtliste 4.300, wobei aber Sammelbände wohl als ein Werk gezählt werden. Ich habe mal was von insgesamt 27.000 Werken gehört)
Autoren 1.700 1.000
Gedicht 4.300 ca. 20.000
Bücher 330 4.800
   -Seiten 52.000 1.5 Mio
Märchen 1.300 1.800
Fabeln 150 1.200
Sagen 105 3.500

 

Gutenberg gibt eine Anzahl von 4.800 Büchern an. Leider erfährt man nicht was als Buch definiert ist und welche Genres diese umfassen. Als Vergleichswert habe ich einfach die Anzahl der Indexseiten der Proofreading-Extension (siehe dazu auch meinen Beitrag über die Proofreading-Extension) gezählt. Mit Sicherheit sind es aber einige mehr Bücher, da ein Großteil noch gar nicht auf diese Extension umgestellt wurde bzw. wohl auch nie wird (z.B. Gedichtbände). Für die Anzahl der Buchseiten habe ich entsprechend die Anzahl im Namensraum Seite gezählt. Die Größenordnung dürfte aber hinkommen und als Vergleichswert ausreichend sein.

Bei den Autoren ist zu beachten, dass bei Wikisource z.B. für die Autoren der ADB und Paulys Realencyclopädie der classischen Altertumswissen-schaft Seiten angelegt wurden, wobei in den wenigsten Fällen Werke die über die Lexikonartikel hinausgehen bei Wikisource vorhanden sind. Hinzu kommen Autorenseiten bei Wikisource, die nur Digitalisate im Netz (z.B. Google Books, Universitzäten, Bibliotheken etrc.) nachweisen, aber auch hier keine Werke in Wikisource vorhanden sind.

Ich bin mir bewusst, dass solch ein Vergleich per se erst mal nicht viel aussagt, außer dass Gutenberg ein ganzes Stück größer ist und es deshalb nicht verwunderlich ist, dass Gutenberg wesentlich bekannter ist (zumindest mein Eindruck). Aber man kann auf jeden Fall sehen, dass wir noch ein großes Stück Arbeit vor uns haben um auch nur ansatzweise an diese Zahlen heranzukommen.

Aber schiere Größe ist nicht alles und daraus ziehen wir ja auch unser Selbstverständnis. Dass Wikisource eine wesentlich größere Bandbreite an Themen abdeckt, dessen bin ich mir sicher und dass Wikisource die bessere Qualität liefert, davon gehe ich einfach mal frech aus :-)

Jan 22 2009

AntiCommonist 0.2.1

Dieser Eintrag ist Teil 3 von 8 in der Artikelserie AntiCommonist

Auch auf die Gefahr hin, dass es derzeit etwas monothematisch ist, muss ich heute doch wieder was zum AntiCommonist schreiben, da es eine neue fehlerbereinigte Version gibt.

Änderungen

  • Fehler bereinigt beim Download aus Kategorien, bisher stolperte AntiCommonist über Artikel, Vorlagen etc. die in einer Kategorie enthalten waren
  • Fehler in der Batch-Datei behoben
  • Integration der aktuellen Version des JavaWikiBotFrameworks

 

Download AntiCommonist 0.2.1

Jan 21 2009

AntiCommonist 0.2

Dieser Eintrag ist Teil 2 von 8 in der Artikelserie AntiCommonist

Nachdem zum AntiCommonist ein paar Hinweise und Wünsche eingegangen sind, hier nun eine neue Version.

Änderungen

  • Es sollte nun das Bild in der höchsten Auflösung unabhängig von der Sprache gefunden werden (Dank an Dapete für den Hinweis auf die API-Funktion)
  • Man kann jetzt auch Bilder aus einer Kategorie herunterladen. Der Aufruf dafür lautet:
anticommonist -category <categoryName> <downloadPath> <wiki>

categoryName – Name der Kategorie, ohne Category: oder Kategorie: oder wie die in anderen Sprachen auch immer benamst werden

downloadPath – lokaler Pfad in dem die Bilder abgelegt werden sollen

wiki – von welchem Wiki soll herunter geladen werden, Angabe in der Form: http://commons.wikimedia.org. Darf weggelassen werden. Dann wird Commons verwendet.

  • Kleinen Fehler in der Batchdatei behoben

Download AntiCommonist 0.2

Jan 20 2009

AntiCommonist

Dieser Eintrag ist Teil 1 von 8 in der Artikelserie AntiCommonist

Update: Dieser Beitrag beschreibt die erste Version des Tools, die aktuelle Version kann hier heruntergeladen werden.

Bilder auf Commons hochzuladen geht ja dank Commonist schon seit einer Weile recht komfortabel. Was aber machen, wenn man sehr viele Bilder von Commons in der höchsten Auflösung herunterladen will, z.B. ein komplettes Buch mit über 500 Seiten? Klicken und speichern macht nicht wirklich Spaß und dauert eine halbe Ewigkeit.

Eine Lösung war bisher das Tool Winpluck von Flominator, welches aus meiner Sicht ein paar Unschönheiten hat. Zum Beispiel benötigt man einen Apache mit PHP. Außerdem lädt es derzeit das falsche Bild herunter, weil die Jungs auf Commons so pffifig waren, ein Bild in die Sitenotice einzubauen und Winpluck einfach nach dem ersten Bild in der HTML-Seite suchte. Außerdem mag ich PHP nicht ;-)

Deshalb habe ich das neckische Tool einfach nachgebaut und mit paar zusätzlichen Features versehen:

  • läuft mit Java lokal auf dem Rechner in der Kommandozeile
  • es wird auf der Commons-Seite explizit nach der großen Version des Bildes gesucht, so dass die Commons-Admins und Entwickler die Seiten mit anderen Bildern vollpflastern können wie sie wollen.
  • Die Dateien werden mit dem korrekten Dateinamen abgespeichert und nicht wie Winpluck mit UTF-codierten Zeichen

Verwendung

AntiCommonist liest eine einfache Textdatei mit Dateinamen ein. In jeder Zeile steht ein Name, ohne Präfix File:, Datei:, Bild: oder ähnliches. Beispiel:

Reichs-Ritter-Archiv_I_0001.jpg
Reichs-Ritter-Archiv_I_0002.jpg
usw.

Eine Batchdatei zum Aufruf ist beigelegt. Auf der Kommandozeile folgendermaßen aufrufen:

anticommonist <textfile> <downloadPath> <wiki>

textfile – Dateiname inklusive Pfad, der Textdatei die die Dateinamen auf commons enthält

downloadPath – lokaler Pfad in dem die Bilder abgelegt werden sollen

wiki – von welchem Wiki soll herunter geladen werden, Angabe in der Form: http://commons.wikimedia.org. Darf weggelassen werden. Dann wird Commons verwendet.

Zu Ausführung wird Java 1.6 benötigt.

Download AntiCommonist 0.1.1

Für Hinweise, Fehlermeldungen, Anregungen etc. bin ich natürlich dankbar.

Update

Mittlerweilen habe ich eine neue Version hochgeladen, die einige kleinere Fehler beseitigt:

  • Batch-Datei wechselt nicht mehr in das übergeordnete Verzeichnis
  • Download nun auch von deutschsprachigen Wikis möglich, andere Sprachen müssen allerdings weiterhin manuell hinzugefügt werden. Ich werde mir aber eine sprachunabhängige Lösung überlegen, wie ich den Link zur hochaufgelösten Version in der Datei-Seite finde.

Eine ausführliche Anleitung werde ich demnächst der Zip-Datei hinzufügen.

Jan 18 2009

Bertelsmann nicht mehr an Spiegel Wissen beteiligt

In einem Interview für den Horizont hat der Spiegel-Geschäftsführer Ove Saffe bekanntgegeben, dass Bertelsmann seit Anfang des Jahres nicht mehr an der Spiegel Wissen Gmbh beteiligt ist. Der Content den Bertelsmann, in Form seines Lexikons und anderer Produkte ,beigesteuert hat, bleibt aber dem Portal erhalten. Der Kern von Spiegel Wissen, das Archiv des Spiegels und der anderen Produkte des Verlages, soll nun unter dem Dach von Spiegel Online alleine weitergeführt werden.

So können wilde Verschwörungstheorien die zuhauf in der WP über Spiegel Wissen, in dem ja auch die Wikipedia inklusive Logo integriert ist, in sich zusammenfallen. Aber Realitäten waren den S… F…, An.. und Co. ja schon immer wurscht. Insofern werden sie sicherlich neue stricken.

Jan 18 2009

Fragen und Antworten zur Re-Lizenzierung

Auf der Wikipedia-Mailingliste hat ChrisPK gerade darauf aufmerksam gemacht, dass die FAQ zur geplanten Re-Lizensierung der Wikimedia-Wikis auf CC-BY-SA 3.0 mittlerweilen auch auf deutsch vorliegen: Licensing update: Questions and Answers

Kurz noch zur Erläuterung worum es überhaut geht: In der neuen Version der GFDL, unter der die Wikipedia und viele der Wikis im Wikimedia-Universum steht, ist es möglich, die Inhalte eines Wikis unter der CC-BY-SA 3.0 zu lizenzieren. Diese Lizenz ist für eine Nachnutzung, insbesondere in Printmedien, wesentlich praktischer und einfacher zu befolgen als die GFDL (Stichwort: Abdruck des vollständigen Lizenztextes der GFDL).

Die Umstellung auf die CC-BY-SA 3.0 soll aber nicht ohne die Zustimmung der Community stattfinden, weshalb die Wikimedia Foundation einen Vorschlag gemacht hat, wie eine entsprechende Umlizenzierung zu realisieren ist. Über diesen Vorschlag soll ab Mitte Februar abgestimmt werden, wobei eine einfache Mehrheit der stimmberechtigten Benutzer dafür ausreichen.

Verstanden habe ich aber noch nicht, ob diese Mehrheit pro Wiki zählt oder sich auf alle Projekte bezieht. Außerdem ist für moch nicht erkennbar, ob nur die Wikipedia umlizensiert werden soll oder auch die anderen GFDL-Projekte.

Jan 18 2009

Kein Versehen mehr

Autor: Jerry7171, cc-by-sa 2.0

Fotograf: Jerry7171, CC-BY-SA 2.0

Frank hat mich gestern auf eine interessante Mediawiki-Erweiterung aufmerksam gemacht, die sich derzeit auf dem Testwiki in der Erprobung befindet. Demnächst gibt es keine Entschuldigung mehr, wenn einem aus Versehen, oder weil Katze, Hund oder sonstiges Hausgetier über die Tastatur latschen, ein Artikelentwurf verloren geht. Denn Trevor Parscal, der neue Software Entwickler der Foundation, hat die sogenannte Draft Extension geschrieben, also eine Erweiterung für Artikelentwürfe.

Bei Bearbeitung eines Artikels  wird alle 2 Minuten automatisch ein Entwurf gespeichert und ist nach einem eventuellen Mißgeschick auf der Edit-Seite des entsprechenden Artikels wieder abrufbar. Außerdem können alle eigenen Entwürfe auf einer Spezialseite eingesehen werden. Nicht endgültig abgespeicherte Entwürfe werden nach 30 Tagen entfernt. Es wird also  keine Datenmüllhalde angelegt.

Weiter Einzelheiten und Screenshot kann man im Blog von leŭksman nachlesen.

Jan 16 2009

Prinzlich konvertieren

Bild aus Des Freyherrn von Münchhausen Wunderbare Reisen Vor ein paar Tagen hatte Matthias Schindler auf der Wikipedia-Mailingliste auf PrinceXML aufmerksam gemacht, mit dem nach seiner Meinung schnell und einfach ein PDF aus einer Wiki-Seite (eigentlich aus jeder beliebigen HTML-Seite) erstellt werden kann. Und dem Mann kann man voll und ganz recht geben. Er monierte nur einige Unschönheiten im Rendering. Die lassen sich aber größtenteils mit einem eigenen CSS ausbügeln, das man dem Tool zum Fraß vorwirft.

Ein solches CSS habe ich auf Grundlage des normalen Print-CSS von Mediawiki erstellt und einige Optimierungen, vorrangig für Wikisource, aber auch allgemeingültige, eingebaut. Das CSS ist inklusive einer kleinen Anleitung auf einer Seite in meinem Benutzernamensraum in Wikisource zu finden. Hier die Dinge, die ich geändert habe:

  • Textbox bei Wikisource ist raus (allgemein gesprochen alles was die class noprint besitzt)
  • Kategorien sind raus
  • Fußzeile ist raus
  • Fußnoten sind reiner Text, also nicht mit mehr mit dem Wiki verlinkt
  • Pfeil nach oben in den references entfernt, der auch auf das Wiki verlinkte
  • (wenn mir jemand sagt wie man in CSS Texte ersetzen kann, dann verlinke ich die Fußnoten oben und unten wieder miteinander)
  • Weiterleitungshinweise werden nicht angezeigt
  • Blabla “aus Wikisource, der freien Quellensammlung” (bzw. der Spruch des entsprechenden Projektes) wird unterhalb des Titel nicht angezeigt
  • und noch ein paar andere Wikisource-spezifische Anpassungen

Und da man Wikisource ja erstmal die in der Software eingebaute PDF-Lösung vorenthält, müssen wir uns erstmal damit begnügen und es sind auch scon ein paar sehr schöne PDFs generiert worden. Als Beispiel das mit PrinceXML generierte PDF (6,69 MB, so groß weil Bilder enthalten sind) von Des Freyherrn von Münchhausen Wunderbare Reisen, das Paulis erstellt hat.

Ich denke mal, dass wir auf diese Art und Weise in den nächsten Wochen eine Vielzahl von PDFs für die Texte in Wikisource erstellen und damit einen weiteren Nutzen für die Leser bieten können. Alle vorhandenen PDFs mit Volltexten finden sich auf der Seite Wikisource: Download, die zwar schon eine geraume Weile existiert, aber bisher eher dahin dümpelte.

Jan 14 2009

Hoch und teuer verpönter Frieden

"Häh?" werden sich viele beim Lesen der Überschrift vermutlich denken.  Oder auch: "der Finanzer spinnt jetzt wirklich". Aber sie ist ein wunderschönes kleines Beispiel für den Wandel der deutschen Sprache in den letzten Jahrhunderten. Das vollständige Zitat aus dem Prager Frieden von 1635 lautet:

auch hoch vnnd thewer verpönten Religion: vnnd ProphanFrieden

Da ich kein Sprachwissenschaftler bin, steht das folgende natürlich unter dem Vorbehalt der persönlichen Theoriefindung. Hier darf ich das aber zum Glück.

Das Wort verpönt wird heute meist in der Bedeutung auf Grund bestimmter Vorstellungen verachtet, für schlecht gehalten verwendet. Zumindest sagt dies das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts und mein Sprachgefühl sagt mir sowas ähnliches.

Im Wort verpönt steckt aber das heute völlig unbekannte Wort Pön. Das Deutsche Rechtswörterbuch gibt als Erklärung für dieses Wort:

wie bei lat. poena unspezifische Bez. für jede Art der Strafe oder Buße [...], meist aber für eine Geldstrafe

Verpönt wird in unserem Vertrag, als das Wort Pön noch sehr häufig verwendet wurde, also schlicht im Sinne von unter Strafe stehen verwendet. Und nun wird auch klar wie etwas hoch und teuer verpönt sein kann. Das bedeutet einfach, dass eine hohe und teuere Strafe droht. Hier also natürlich nicht für den Frieden, sondern selbstverständlich für den Bruch desselben.

Und nachdem das Wort Pön außer Gebrauch kam, vergaß man offenbar auch den genauen Sinn des Wortes verpönt und es konnte den Wandel zur heutigen Bedeutung durchmachen, was die Wendung dann für heutige Leser etwas seltsam anmuten lässt.

Das ist aber nur ein Beispiel von vielen, auf die man beim Lesen, Abtippen und Korrigieren frühneuzeitlicher Texte stößt. So findet man bspw. viele doppelte Verneinungen die die Verneinung bekräftigen sollen und nicht wie man heute vermuten würde die Verneinung negieren. Die uns allen bekannte Formulierung samt und sonders hat einen heute unbekannten Partner sampt oder sonders, merkwürdige Sachen sind nicht unbedingt seltsam oder eigenartig, sondern nur würdig sie sich zu merken und vieles mehr.

Jan 13 2009

Auch haben wollen

Erik Möller schrieb vor wenigen Minuten auf der WP-Mailingliste:

Wir beabsichtigen, innerhalb der nächsten
zwei Wochen die bereits auf Wikibooks aktivierte
PediaPress-Technologie für die dynamische Generierung von PDFs aus
einzelnen Seiten oder Seitensammlungen auch auf der deutschen
Wikipedia zu aktivieren. Wir beginnen die Wikipedia-Aktivierung hier,
weil die Firma PediaPress aus Deutschland stammt, was die
Kommunikation über Änderungswünsche erleichtern sollte.

Das ist für die Wikipedia aus meiner Sicht sehr begrüßenswert, auch wenn ich mal prophezeie, dass es mal wieder zu längeren Diskussionen zwischen Befürwortern und Gegnern kommen wird.

Allerdings finde ich es schon etwas schade, dass unsere schon vor längerer Zeit in Bugzilla eingestellte Anforderung diese Erweiterung für Wikisource zu aktivieren, leider wohl schlicht und ergreifend ignoriert wurde.

Ich hab aber mal angefragt, ob das im Zuge der oben angesprochenen Aktion auch auf de-WS mit aktiviert werden kann. Warten wir es ab.

Jan 13 2009

Laubenpieper bei Wikisource

Heute möchte ich mal auf ein Projekt hinweisen, dass zwar schon eine  geraume Weile läuft, aber dennoch noch in den Kinderschuhen steckt: Die Gartenlaube. Einige werden vll. wissen was ich meine, für alle anderen zitiere ich einfach mal den entsprechenden Wikipedia-Artikel:

Die Gartenlaube Illustrirtes Familienblatt (später Illustriertes Familienblatt) war ein Vorläufer moderner Illustrierten und das erste große erfolgreiche deutsche Massenblatt. Es erschien ab 1853 und erreichte 1876 unter dem Verleger Ernst Keil eine Auflagenhöhe von 382.000 Exemplaren. Da Die Gartenlaube sowohl in der gemeinsamen Familienlektüre konsumiert wurde als auch in zahlreichen Leihbibliotheken und Cafés als Auslage zur Verfügung stand, beläuft sich die Schätzung der eigentlichen Leserschaft auf zwei bis fünf Millionen zu ihren Hochzeiten.

und

Die Gartenlaube stellt eine ebenso umfassende wie für viele historische Untersuchungsfelder unverzichtbare Quelle zur deutschen Kulturgeschichte dar, z. B. auch bzgl. der in der Illustrierten veröffentlichten Fortsetzungsromane.

Eine kleine Auswahl der an der Gartenlaube mitwirkenden Autoren, zeigt ebenso die Wichtigkeit dieser Quelle:

und viele andere. Der Wikipedia-Artikel enthält ebenfalls eine kleine Liste von Autoren der Gartenlaube.

Bisher befinden sich 12,5 Jahrgänge auf Wikisource und wurden zum Teil bereits per Inhaltsverzeichnis erschlossen. Einige Artikel wurden auch als eigenständige Werke herausgezogen und korrekturgelesen. Eine Übersicht über die vorhandenen Jahrgänge und den Fortschritt des Projektes kann man sich auf der Werkseite der Gartenlaube verschaffen.

Hauptinitiator und -betreuer des Projektes ist Joergens.mi, der sich die jahrgangsbücher bei Antiquariaten und bei EBay besorgt hat und extra eine Kamerausrüstung angeschafft hat, um die Blätter in optimaler Qualität (soweit es für Privatpersonen eben geht) digitalisieren zu können.

Die OCR der Seiten wurde nach dem Digitalisieren der Seiten durch mich gemacht. Dafür habe ich Finereader 9 verwendet. Die spezielle Fraktur-Version benötigt man nicht unbedingt, wenn man etwas Arbeit investiert und ein paar Sachen beachtet. Hilfreich war allerdings die in der Version 9 eingbaute Funktionalität, dass fotografierte Seite durch die Software automatisch entzerrt werden.

Mit welcher Ausrüstung und wie die Scans genau von Joergens hergestellt wurden und was man bei der OCR von Fraktur-Schriften mit Finereader beachten sollte, darauf gehe ich in einem meiner nächsten Beiträge dann etwas genauer ein.

Jan 06 2009

Etwas Statistik

 

 

Die wenigsten dürften es wissen: Aber das Statistik-Tool auf http://stats.grok.se, das vielfach in der Wikipedia Verwendung findet, ist auch für Wikisource und vermutlich auch für die anderen Schwesterprojekte, wie Wikiquote, Wikitionary etc. einsetzbar. Allerdings sind die Statistiken nicht über die Oberfläche aufrufbar, sondern man muss die URL manipulieren. Für die Hauptseite von Wikisource sieht der Aufruf dann folgendermassen aus: http://stats.grok.se/de.s/200901/Hauptseite. Man beachte, die Pfadangaben vor dem Datum. Dort muss das Projektkürzel ergänzt werden, also "de.s" für de-Wikisource und nicht nur "de" für die de-WP.

Eine weitere Statistik bietet Wikistics von Melancholie. Dieses Tool ist ebenfalls für alle Projekte verfügbar. Hier finden wir die Top 1000 der aufgerufenen Seiten bei Wikisource im Jahr 2008, im letzten Monat und eine Übersicht des letzten Tages. Leider scheint das Tool aber noch nicht für 2009 zu funktionieren. Außerdem werden in der Statistik alle Namensräume vermischt, so dass auch die üblichen Seiten die häufig von Mitarbeitern aufgerufen werden, wie die Beobachtungsliste, Letzte Änderungen, Benutzerseiten etc., die Statistik etwas "verschmutzen".

Auf stats.wikimedia.org gibt es außerdem noch ein Gesamtübersicht der PageViews über alle Sprach-Versionen. Demnach befindet sich das deutschsprachige Wikisource-Projekt nur auf Platz 5 aller Sprachversionen mit 2,1 Mio. PageViews im Dezember 2008 hinter fr mit 7,5 Mio, en mit 7,3 Mio, es mit 3,5 Mio und pt mit 2,2 Mio PageViews.

Und zu guter Letzt haben wir noch ein paar Wikisource-exklusive Statistiken. Die ProofreadPage Statistics führt Buch darüber wie die Proofread-Extension (ich berichtete darüber) in den einzelnen Version eingesetzt wird und wie der Korrekturstand der Seiten ist, die mit dieser Extension angelegt wurden. Wir sind zwar bei den totalen Seiten zwar weit hinter en und fr zurück, allerdings führen wir bei den Seiten die bereits zweimal korrekturgelesen wurden.

Auf dem Toolserver befindet sich die ADB-Statistik, die eine aktuelle Übersicht über den Bearbeitungsstand der ADB gibt. Und Joergens gibt auf einer seiner Unterseiten einen Überblick über das Gesamtprojekt.

Update (6. Januar 2008)

Gerade eben noch was sehr interessantes auf stats.wikimedia.org entdeckt: Wikisource Zeitgeist. Schön zu sehen, welche Projekte, wann hochaktuell waren. Gibt es auch für die Wikipedia (leider nur bis Januar 2008, schade): Wikipedia Zeitgeist

Jan 04 2009

Neuigkeiten aus Wikisource (4)

Heute wieder ein paar Neuigkeiten aus Wikisource im Tickerformat.

Jan 03 2009

Wikisource – Das Kategoriensystem

Dieser Eintrag ist Teil 3 von 3 in der Artikelserie Wikisource - Die Serie

Nach einer halben Ewigkeit setze ich heute mal meine kleine Serie mit etwas tieferen Einblicken in Wikisource fort. Der letzte Beitrag in dieser Serie stammt ja aus dem August 2007, weshalb es doch mal wieder Zeit wird, etwas Neues hinzuzufügen.

Heute widmen wir uns dem Kategorien auf Wikisource, speziell das Kategoriensystem in die die Texte auf Wikisource einsortiert werden, kurz Systematik genannt. Einen Übersicht über die Systematik gibt die entsprechende Seite auf Wikisource.

Für Neuankömmlinge insbesondere aus der Wikipedia mit ihrem überbordenden und oft auch chaotischen Kategoriensystem ist das im deutschsprachigen Wikisource verwendete System erst mal sehr ungewohnt und führt immer wieder zu Verwirrung und auch gelegentlich zu etwas längeren Diskussionen. Und soweit ich weiß, verwendet auch kein anderes Wikimedia-Projekt eine derartige Facettenkategorisierung.

Ziel

Mit dem Kategoriensystem auf Wikisource sollte eine langfristige Lösung geschaffen werden, die genügend Flexibilität und Genauigkeit für die Einodnung und vernünftige Möglichkeiten zur Auffindbarkeit von Texten bietet. Andererseits sollte das System nicht bereits nach kurzer Dauer ausfransen und ins Chaos abgleiten und damit für den Leser unbenutzbar werden.

Die verwendete Facettenkategoriserung wurde, ich glaub 2005, für die Wikipedia vorgeschlagen, aber damals per Meinungsbild abgelehnt. Da die zu kategorisierenden Elemente auf Wikisource allerdings wesentlich homogener sind, bot diese sich meines Erachtens perfekt für Wikisource an, zumal die einzelnen Facetten wesentlich konkreter gewählt werden konnten, als damals in der Wikipedia-Version.

Und die bisherige Erfahrung zeigt, dass das Ziel erreicht wurde. Seit der Einführung im Jahr 2006 wurden nur sehr wenige Kategorien innerhalb der Facetten neu angelegt. So wurden z.B. das 18., 19. und 20 Jahrhundert vor Kurzem in Jahrzehnte unterteilt, da diese doch schon recht groß geworden waren. Außerdem wurde eine zusätzliche Facette Herstellungsform angelegt, um abbilden zu können, in welcher Form, z.B. als Handschrift, uns der Text vorliegt.

Die Facetten

Die Wikisource-Systematik baut auf sechs sogenannten Facetten auf, die grundlegende Eigenschaften des Textes grob beschreiben. Dies sind:

  • Fachgebiet – welchem Fachgebiet kann der Text inhaltlich zugeordnet werden bzw. welches Fachgebiet befasst sich mit dem Text. Werden mehrere Fachgebiete berührt kann ein Text in mehrere Fachkategorien einsortiert werden. Diese Facette wurde nach Vorbild der sogenannten Göttinger Online Klassifikation angelegt.
  • Entstehungszeit - In welchem Jahrhundert ist der Text entstanden. Für die Zeit ab dem 18. Jahrhundert ist eine genauerer Unterteilung in Jahrzehnte vorhanden.
  • Entstehungsort – Wo ist der Text ursprünglich entstanden? Dabei wird der Entstehungsort des Originals angegeben. Die Einsortierung richtet sich grob nach der heutigen Geografie. Es gibt für einige wenige historische Territorien Kategorien, wenn eine genauere Einordnung schwer fällt, so z.B. für das Heilige Römische Reich oder das Römische Reich. Umgedreht gibt es für einige historische Territorien Kategorien, wenn die Texte eindeutig diesem Territorium zugeordnet werden können. Diese Kategorisierung ist allerdings nur für recht wenige Texte wichtig und wird insbesondere für literarische Texte nicht verwendet
  • Sprache - In welcher Sprache wurde der Originaltext verfasst? Eine Einordnung nach Sprachstufen sollte durchgeführt werden, insbesondere für deutschsprachige Texte. Eine Einordnung in mehrere Sprachen erfolgt dann, wenn das Originaldokument in diesen Sprachen abgefasst wurde. Dies trifft insbesondere auf Verträge zu. Gelegentlich kann es auch sinnvoll sein, Übersetzungen in frühere Sprachformen des Deutschen dementsprechend zu kategorisieren (Siehe als Beispiel die Übersetzung der Goldenen Bulle ins Frühneuhochdeutsche). Bei neuhochdeutschen Übersetzungen wird diese Doppelkategorisierung allerdings nicht durchgeführt.
  • Textgattung – Diese Facette beschreibt in welcher Form der Text verfasst wurde (Stil, Art der sprachlichen Mittel). Also ob es sich beispielsweise um ein Gedicht, eine Rede oder um ein Essay handelt. Bei unsicherer Zuordnung zu einer bestimmten Textgattung, kann eine entsprechende Oberkategorie für die Kategorisierung verwendet werden.
  • Herstellungsform – Diese Facette ist optional. Diese Facette wird nur verwendet, wenn auch die in Wikisource verwendete Textgrundlage einer der Herstellungsformen entspricht. So wird ein Brief der uns im Original als Handschrift vorliegt in die Kategorie Handschrift einsortiert. Würde uns derselbe Brief als Ausgabe in einem gedruckten Editionsband vorliegen, dann würde diese Facette nicht vergeben werden.

Der Kategorienbaum

Alle Facetten sind vollständig unabhängig voneinander. Das heisst: Jede Kategorie in der Systematik gehört zu genau einer Facette und jede Kategorie hat genau eine Oberkategorie.  Sogenannte Schnittmengen, wie z.B. ”Englische Gedichte des 19. Jahrhundert”, ergeben sich zwanglos aus den zugeordneten Kategorien der verschiedenen Facetten. Solche und ähnliche Kategorien brauchen und dürfen deshalb nicht angelegt werden. Ganz im Gegensatz zur Wikipedia, wo Hunderte solcher Schnittmengenkataegorien existieren und es immer wieder Löschanträge hagelt, weil es etliche dieser Schnittmengen gibt, die nur sehr dünn besetzt sind, aber der Vollständigkeit wegen angelegt wurden. Sehr beliebt sind da immer wieder Sportlerkategorien, wie Biathlet aus Neuseeland oder ähnliches.

Einige Kategorienamen in verschiedenen Facetten klingen ähnlich, sind aber nicht äquivalent oder bedeuten nicht das Gleiche. So wird ein Text mit der Kategorie Rechtstext der Facette ”Textgattung” sicherlich in den meisten Fällen auch in der Kategorie Rechtswissenschaft der Facette ”Fach” oder einer der Unterkategorien einsortiert werden, aber umgedreht muss nicht jeder Text aus der Kategorie Rechtswissenschaft auch ein Rechtstext sein. So finden sich viele Texte die dem Fach Rechtsgeschichte zugeordnet sind, auch in der Textgattung Kategorie Darstellung.

Ein anderes Beispiel ist der Text Der Prosector in der Westentasche. Dies ist ein Text aus dem Bereich Medizin, der in Versform geschrieben ist. Solche Kombinationen können völlig problemlos über das Facettensystem abgebildet werden, ohne zusätzliche Kategorien einführen zu müssen.

Kategorisierung von Texten

In die Wikisource-Systematik werden nur Texte einsortiert, keine Orts-, Themen- oder Autorenseiten oder Kategorien die Werke zusammenfassen.  Diese Einschränkung führt auch immer wieder zu Verwirrungen. Aber wie man oben gesehen hat, gibt es eben keine eindeutige Zuordnung von Themen, Autoren oder Orten zu Kategorien. Außerdem ist die Systematik für die Texte vorbehalten, um diese auffinden zu können.

Jeder Text soll in die fünf Hauptfacetten einsortiert werden. Die Facette ”Fach” und ”Textgattung” kann mehrfach vergeben werden. Im Zweifelsfall sollte bei allen Facetten eine allgemeinere Oberkategorie vergeben werden.

Jede Hierarchiestufe der jeweiligen Facette darf zur Kategorisierung verwendet werden. Eine Ausnahme bildet die Kategorie Historisches Territorium. Diese Kategorie dient nur dem Zusammenhalt der untergeordneten Kategorien. Ein Einordnung eines Texte in diese Kategorie ergibt auch wenig Sinn, da damit keinerlei Informationsgewinn verbunden wäre.

Unabhängig von den Kategorien in der Systematik, darf jeder Text in Werk- und Autorenkategorien einsortiert werden.

Aber wie finde ich nun bestimmte Texte?

Das ist derzeit noch eine Schwachstelle des gesamten Systems. Neben dem rein manuellen Durchklicken durch die einzelnen Facettenbäume, soll natürlich vorrangig CatScan verwendet werden. Das Tool hat allerdings noch ein paar Nachteile. Leider können nicht alle sechs Facetten miteinander geschnitten werden, sondern nur zwei. Außerdem ist die Oberfläche noch etwas nerdig bzw. projektbezogen, um tatsächlich von normalen Lesern so einfach verwendet werden zu können. Aber da ja Duesentrieb seit kurzem beim Verein angestellt ist, habe ich ja die Hoffnung, dass auch an diesem Tool noch etwas Feintuning betrieben wird.

Außerdem gibt es eine, zugegebenermaßen noch etwas dünn besetzte, Seite mit Beispielanfragen, welche dann einfach wiederverwendet werden können.

So, ich hoffe mit diesem Beitrag etwas mehr Klarheit in das auf den ersten Blick etwas ungewohnte Kategoriensystem bei Wikisource gebracht zu haben.

Jan 02 2009

Alles neu macht der Januar

Es ist ja vermutlich nicht zu übersehen: Mein Blog hat ein neues Aussehen, im Fachjargon Theme genannt. Da ich vor einigen Tagen WordPress auf die aktuelle Version 2.7 aktualisiert habe, dachte ich mir, dass es auch mal wieder Zeit für ein Facelifting wäre. Gedacht, getan. Das neue Theme nennt sich Zindi und ich finde es recht schick. Sonst hätte ich es ja auch nicht gewählt. Eventuelle Probleme in den nächsten Tagen bitte ich zu entschuldigen. Auch gibt es noch einige Stellen, die ich übersehen habe zu übersetzten. Das passiert aber die nächsten Tage schrittweise.

Kurz noch zu den Veränderungen in der Oberfläche des Blogs:

  • Die Links in der Blogroll werden nun nach dem letzten erschienenen Beitrag in diesem Blog sortiert. Wann der letzte Beitrag erschienen ist, steht auch dabei. Ist vorrangig für mich selbst gedacht, da ich kein Freund von Feed-Reader bin.
  • Das Archiv mit den Beiträgen der Vergangenheit ist nun kompakter und die einzelnen Monate werden erst bei Klick auf die Jahreszahl ausgeklappt.
  • Die Kategorien, in die die Beiträge einsortiert wurden, werden nun in ihrer Hierarchie dargestellt, inklusive der Anzahl der Beiträge in dieser Kategorie.
  • Anstelle eines festen Zufallsbildes gibt es nun eine kleine Slideshow mit Bilder von Mrs. Finanzer und mir. In Ruhe kann man sich die Bilder auf der Seite Impressionen anschauen.
  • Beiträge werden nun zusätzlich zu den Kategorien mit Tags versehen und die vergebenen Tags werden in einer Tagwolke dargestellt. Die älteren Beiträgen werden nach Lust und Laune ebenfalls mit Tags versehen.

Achja, nur falls es jemand vergessen hat. Seit gestern werden alle Zugriffe auf das Internet im Auftrag der Bundesregierung zumindest für Nutzer aus Deutschland protokolliert. Stichwort: Vorratsdatenspeicherung. Welche Adressen aufgerufen wurden, wird allerdings (noch?) nicht gespeichert. Wem man aber eine Mail, SMS, MMS oder ähnliches gesendet hat oder von wem man eine erhalten hat, das wird gespeichert. Dann noch viel Spaß beim kommunizieren.

Jan 01 2009

Dankeschön

Stellvertretend an Alle die jemals bei Wikisource mitgearbeitet haben, hier eine kleine Liste von Mitarbeitern, die mehr als fünf Beiträgen im Artikelnamensraum der ADB geleistet haben:

9xl, A. Wagner, A1000, Achim D. Bölstler, Achim Raschka, Alexander Fischer, Alkab, Andante, Andim, AndreasPraefcke, Andys, Aph, B. N., Balû, Berentar, Biff,Biographer, BjoernLG, Blah, Bob Burkhardt, Bodhi-Baum, BruderNicolausius, Buchfreund, CIEL, CK85, Cecil, Centipede, Chrfranz, Chris Furkert, Complex, Dan86,Daniel73480, Dhulikhel, Directer, DivineDanteRay, Docteur Ralph, Dominic Z., Eisenacher, ExilSchwabe, Exxu, Fingalo, FordPrefect42, Frank Schulenburg, Franz Richter, Fredou, FrobenChristoph, Glenkill, Heimau, Historiograf, Huibuh, Hvs50, Hystereser, Ingersoll, JensKreher, Jlorenz1, Joergens.mi, Jofi, Jofibot, Jonathan Groß, Joschy, Kaiserf, Katharos24, Keichwa, Kellerkind, Klausmach, Koerpertraining, Konrad Stein, Kresspahl, Krje, L.m.k, Lector minimus, Leppus, Lexoldie,Liondancer, Longbow4u, ML Carl, MN19, Mabrueckner, Matthead, Mentelin, Michail, Moniwolf, MonkBot, Moros, Morray, Olivhill, PDD, Paulis, Pfaerrich, Polarlys,Rayx, René Mettke, Robot Monk, Rudolph H, SML, Salvia, Sanju, Schaengel89, Sebastian Wallroth, Sondanella, SteveK, Symposiarch, T3172, Thebeing,Thuresson, Timo Müller, Tolanor, Tosca, Troedelmann, Tsetse, UrLunkwill, Uwe1959, WIKImaniac, WIKImaniac Bot, Waelder, Wamito, Xarax, XtianCt, Zabia

Ich war mal so frech mir die Liste bei Pfaerrich zu klauen. Schon verblüffend wieviele Leute im Laufe der Zeit da zusammenkommen. Und man sieht jeder, auch noch so kleine Beitrag hilft.

Achja, Fröhliches Neues 2009.

Performance Optimization WordPress Plugins by W3 EDGE