AntiCommonist 0.5.0

Und heute gibt es seit langer Zeit auch mal wieder eine neue Version des Anticommonisten.

Änderungen:

  • Es gibt die neue Option -e die nur wirksam wird, wenn man Dateien aus einer Kategorie herunterlädt. Mit dieser Option können bestimmte Dateitypen vom Download ausgeschlossen werden. Dies ist nützlich, wenn man z.B. nur die Bilder aber keine PDFs in der Kategorie haben will.

Beschreibung dieser Option:

 -e,--exludefiletypes    list of file types, which will
                                          not downloaded from a category,
                                          only available if option c is used,
                                          commasepareted list

Download:

[download id=“5187″ format=“1″]

Integration von Wikisource in den Kölner UniversitätsGesamtkatalog

OpenBibBlog berichtete gestern über das Vorgehen zur Integration der Metadaten von Wikisource. Für die Suche innerhalb der Bestände von Wikisource gibt es im KUG einen externen Katalog mit dem Namen E-Texte / Wikisource deutsch (Online-Vollzugriff), der derzeit 10448 Titel umfasst. Ein Beispiel für die Ansicht eines Wikisource-Digitalisates bietet der Friede von Lübeck.

Die Integration erfolgte mit Hilfe eines Wikisource-Dumps. Eine andere Möglichkeit wäre gewesen die Online-API von Mediawiki anzusprechen. Diesen Weg hatte ich gewählt, als ich mich vor einer geraumen Weile auch mit einem ähnlichen Projekt einer externen Wikisource-Suche beschäftigt hatte. Dies hätte den Vorteil, dass die Daten absolut aktuell sind, im Vergleich zu den Daten im Dump, die auch mal etwas älter sein können. Bei Bedarf stell ich die entsprechenden Programmquelltexte gern als Open Source zur Verfügung.

(Update: Danke an Enomil, der mich darauf hingewiesen hat, dass zwei der Links nicht funktionierten.)

AntiCommonist 0.4.0

Nach etwas längerer Zeit mal wieder ein kleines Update meiner beliebten kleinen Software zum Herunterladen von Bildern aus MediaWiki-Wikis.

Folgende Änderungen:

  • Die Option –m ob ein Verzeichnis neu angelegt wurde, hatte den falschen Default-Wert. Jetzt wird ein Verzeichnis automatisch angelegt, wenn das Verzeichnis noch nicht vorhanden ist. Vorher musste die Option, entgegen der Beschreibung, explizit auf true gesetzt werden. Das kann jetzt entfallen. Wenn allerdings dieses Verhalten nicht gewünscht wird, dann muss nun der Parameter auf false gesetzt werden.
  • Bei Netzwerk-Fehlern beim Herunterladen bricht AntiCommonist nicht mehr komplett ab und das Programm muss neu gestartet werden. Dies konnte insbesondere bei wackliger Internetverbindung oder zickigen Wikimedia-Server vorkommen. Nun versucht AntiCommonist das Bild standardmäßig drei mal herunterzuladen. Diese Verhalten kann mit der neuen Option –n gesteuert werden. Dieser übergibt man die Anzahl an Versuchen die AntiComminist verwenden soll, die Bilder herunterzuladen. Wenn innerhalb dieser Anzahl kein Erfolg erzielt werden konnte, geht AntiCommonist zum nächsten Bild über. Am Ende wird eine Liste der Bilder ausgegeben, die nicht heruntergeladen werden konnten.

Beschreibung der neuen Option:

-n,--numbertries    number of tries to download a file,
                    default is 3, values < 1 will
                    be set to equals 1

[download id=“9″]

AntiCommonist 0.2.1

Auch auf die Gefahr hin, dass es derzeit etwas monothematisch ist, muss ich heute doch wieder was zum AntiCommonist schreiben, da es eine neue fehlerbereinigte Version gibt.

Änderungen

  • Fehler bereinigt beim Download aus Kategorien, bisher stolperte AntiCommonist über Artikel, Vorlagen etc. die in einer Kategorie enthalten waren
  • Fehler in der Batch-Datei behoben
  • Integration der aktuellen Version des JavaWikiBotFrameworks

 

Download AntiCommonist 0.2.1

AntiCommonist 0.2

Nachdem zum AntiCommonist ein paar Hinweise und Wünsche eingegangen sind, hier nun eine neue Version.

Änderungen

  • Es sollte nun das Bild in der höchsten Auflösung unabhängig von der Sprache gefunden werden (Dank an Dapete für den Hinweis auf die API-Funktion)
  • Man kann jetzt auch Bilder aus einer Kategorie herunterladen. Der Aufruf dafür lautet:
anticommonist -category <categoryName> <downloadPath> <wiki>

categoryName – Name der Kategorie, ohne Category: oder Kategorie: oder wie die in anderen Sprachen auch immer benamst werden

downloadPath – lokaler Pfad in dem die Bilder abgelegt werden sollen

wiki – von welchem Wiki soll herunter geladen werden, Angabe in der Form: http://commons.wikimedia.org. Darf weggelassen werden. Dann wird Commons verwendet.

  • Kleinen Fehler in der Batchdatei behoben

Download AntiCommonist 0.2

AntiCommonist

Update: Dieser Beitrag beschreibt die erste Version des Tools, die aktuelle Version kann hier heruntergeladen werden.

Bilder auf Commons hochzuladen geht ja dank Commonist schon seit einer Weile recht komfortabel. Was aber machen, wenn man sehr viele Bilder von Commons in der höchsten Auflösung herunterladen will, z.B. ein komplettes Buch mit über 500 Seiten? Klicken und speichern macht nicht wirklich Spaß und dauert eine halbe Ewigkeit.

Eine Lösung war bisher das Tool Winpluck von Flominator, welches aus meiner Sicht ein paar Unschönheiten hat. Zum Beispiel benötigt man einen Apache mit PHP. Außerdem lädt es derzeit das falsche Bild herunter, weil die Jungs auf Commons so pffifig waren, ein Bild in die Sitenotice einzubauen und Winpluck einfach nach dem ersten Bild in der HTML-Seite suchte. Außerdem mag ich PHP nicht ;-)

Deshalb habe ich das neckische Tool einfach nachgebaut und mit paar zusätzlichen Features versehen:

  • läuft mit Java lokal auf dem Rechner in der Kommandozeile
  • es wird auf der Commons-Seite explizit nach der großen Version des Bildes gesucht, so dass die Commons-Admins und Entwickler die Seiten mit anderen Bildern vollpflastern können wie sie wollen.
  • Die Dateien werden mit dem korrekten Dateinamen abgespeichert und nicht wie Winpluck mit UTF-codierten Zeichen

Verwendung

AntiCommonist liest eine einfache Textdatei mit Dateinamen ein. In jeder Zeile steht ein Name, ohne Präfix File:, Datei:, Bild: oder ähnliches. Beispiel:

Reichs-Ritter-Archiv_I_0001.jpg
Reichs-Ritter-Archiv_I_0002.jpg
usw.

Eine Batchdatei zum Aufruf ist beigelegt. Auf der Kommandozeile folgendermaßen aufrufen:

anticommonist <textfile> <downloadPath> <wiki>

textfile – Dateiname inklusive Pfad, der Textdatei die die Dateinamen auf commons enthält

downloadPath – lokaler Pfad in dem die Bilder abgelegt werden sollen

wiki – von welchem Wiki soll herunter geladen werden, Angabe in der Form: http://commons.wikimedia.org. Darf weggelassen werden. Dann wird Commons verwendet.

Zu Ausführung wird Java 1.6 benötigt.

Download AntiCommonist 0.1.1

Für Hinweise, Fehlermeldungen, Anregungen etc. bin ich natürlich dankbar.

Update

Mittlerweilen habe ich eine neue Version hochgeladen, die einige kleinere Fehler beseitigt:

  • Batch-Datei wechselt nicht mehr in das übergeordnete Verzeichnis
  • Download nun auch von deutschsprachigen Wikis möglich, andere Sprachen müssen allerdings weiterhin manuell hinzugefügt werden. Ich werde mir aber eine sprachunabhängige Lösung überlegen, wie ich den Link zur hochaufgelösten Version in der Datei-Seite finde.

Eine ausführliche Anleitung werde ich demnächst der Zip-Datei hinzufügen.

Kein Versehen mehr

Autor: Jerry7171, cc-by-sa 2.0
Fotograf: Jerry7171, CC-BY-SA 2.0

Frank hat mich gestern auf eine interessante Mediawiki-Erweiterung aufmerksam gemacht, die sich derzeit auf dem Testwiki in der Erprobung befindet. Demnächst gibt es keine Entschuldigung mehr, wenn einem aus Versehen, oder weil Katze, Hund oder sonstiges Hausgetier über die Tastatur latschen, ein Artikelentwurf verloren geht. Denn Trevor Parscal, der neue Software Entwickler der Foundation, hat die sogenannte Draft Extension geschrieben, also eine Erweiterung für Artikelentwürfe.

Bei Bearbeitung eines Artikels  wird alle 2 Minuten automatisch ein Entwurf gespeichert und ist nach einem eventuellen Mißgeschick auf der Edit-Seite des entsprechenden Artikels wieder abrufbar. Außerdem können alle eigenen Entwürfe auf einer Spezialseite eingesehen werden. Nicht endgültig abgespeicherte Entwürfe werden nach 30 Tagen entfernt. Es wird also  keine Datenmüllhalde angelegt.

Weiter Einzelheiten und Screenshot kann man im Blog von leŭksman nachlesen.

Prinzlich konvertieren

Bild aus Des Freyherrn von Münchhausen Wunderbare Reisen Vor ein paar Tagen hatte Matthias Schindler auf der Wikipedia-Mailingliste auf PrinceXML aufmerksam gemacht, mit dem nach seiner Meinung schnell und einfach ein PDF aus einer Wiki-Seite (eigentlich aus jeder beliebigen HTML-Seite) erstellt werden kann. Und dem Mann kann man voll und ganz recht geben. Er monierte nur einige Unschönheiten im Rendering. Die lassen sich aber größtenteils mit einem eigenen CSS ausbügeln, das man dem Tool zum Fraß vorwirft.

Ein solches CSS habe ich auf Grundlage des normalen Print-CSS von Mediawiki erstellt und einige Optimierungen, vorrangig für Wikisource, aber auch allgemeingültige, eingebaut. Das CSS ist inklusive einer kleinen Anleitung auf einer Seite in meinem Benutzernamensraum in Wikisource zu finden. Hier die Dinge, die ich geändert habe:

  • Textbox bei Wikisource ist raus (allgemein gesprochen alles was die class noprint besitzt)
  • Kategorien sind raus
  • Fußzeile ist raus
  • Fußnoten sind reiner Text, also nicht mit mehr mit dem Wiki verlinkt
  • Pfeil nach oben in den references entfernt, der auch auf das Wiki verlinkte
  • (wenn mir jemand sagt wie man in CSS Texte ersetzen kann, dann verlinke ich die Fußnoten oben und unten wieder miteinander)
  • Weiterleitungshinweise werden nicht angezeigt
  • Blabla „aus Wikisource, der freien Quellensammlung“ (bzw. der Spruch des entsprechenden Projektes) wird unterhalb des Titel nicht angezeigt
  • und noch ein paar andere Wikisource-spezifische Anpassungen

Und da man Wikisource ja erstmal die in der Software eingebaute PDF-Lösung vorenthält, müssen wir uns erstmal damit begnügen und es sind auch scon ein paar sehr schöne PDFs generiert worden. Als Beispiel das mit PrinceXML generierte PDF (6,69 MB, so groß weil Bilder enthalten sind) von Des Freyherrn von Münchhausen Wunderbare Reisen, das Paulis erstellt hat.

Ich denke mal, dass wir auf diese Art und Weise in den nächsten Wochen eine Vielzahl von PDFs für die Texte in Wikisource erstellen und damit einen weiteren Nutzen für die Leser bieten können. Alle vorhandenen PDFs mit Volltexten finden sich auf der Seite Wikisource: Download, die zwar schon eine geraume Weile existiert, aber bisher eher dahin dümpelte.

Auch haben wollen

Erik Möller schrieb vor wenigen Minuten auf der WP-Mailingliste:

Wir beabsichtigen, innerhalb der nächsten
zwei Wochen die bereits auf Wikibooks aktivierte
PediaPress-Technologie für die dynamische Generierung von PDFs aus
einzelnen Seiten oder Seitensammlungen auch auf der deutschen
Wikipedia zu aktivieren. Wir beginnen die Wikipedia-Aktivierung hier,
weil die Firma PediaPress aus Deutschland stammt, was die
Kommunikation über Änderungswünsche erleichtern sollte.

Das ist für die Wikipedia aus meiner Sicht sehr begrüßenswert, auch wenn ich mal prophezeie, dass es mal wieder zu längeren Diskussionen zwischen Befürwortern und Gegnern kommen wird.

Allerdings finde ich es schon etwas schade, dass unsere schon vor längerer Zeit in Bugzilla eingestellte Anforderung diese Erweiterung für Wikisource zu aktivieren, leider wohl schlicht und ergreifend ignoriert wurde.

Ich hab aber mal angefragt, ob das im Zuge der oben angesprochenen Aktion auch auf de-WS mit aktiviert werden kann. Warten wir es ab.