Dieser Eintrag ist ein Teil der Artikelserie:
Update: Dieser Beitrag beschreibt die erste Version des Tools, die aktuelle Version kann hier heruntergeladen werden.
Bilder auf Commons hochzuladen geht ja dank Commonist schon seit einer Weile recht komfortabel. Was aber machen, wenn man sehr viele Bilder von Commons in der höchsten Auflösung herunterladen will, z.B. ein komplettes Buch mit über 500 Seiten? Klicken und speichern macht nicht wirklich Spaß und dauert eine halbe Ewigkeit.
Eine Lösung war bisher das Tool Winpluck von Flominator, welches aus meiner Sicht ein paar Unschönheiten hat. Zum Beispiel benötigt man einen Apache mit PHP. Außerdem lädt es derzeit das falsche Bild herunter, weil die Jungs auf Commons so pffifig waren, ein Bild in die Sitenotice einzubauen und Winpluck einfach nach dem ersten Bild in der HTML-Seite suchte. Außerdem mag ich PHP nicht ;-)
Deshalb habe ich das neckische Tool einfach nachgebaut und mit paar zusätzlichen Features versehen:
- läuft mit Java lokal auf dem Rechner in der Kommandozeile
- es wird auf der Commons-Seite explizit nach der großen Version des Bildes gesucht, so dass die Commons-Admins und Entwickler die Seiten mit anderen Bildern vollpflastern können wie sie wollen.
- Die Dateien werden mit dem korrekten Dateinamen abgespeichert und nicht wie Winpluck mit UTF-codierten Zeichen
Verwendung
AntiCommonist liest eine einfache Textdatei mit Dateinamen ein. In jeder Zeile steht ein Name, ohne Präfix File:, Datei:, Bild: oder ähnliches. Beispiel:
Reichs-Ritter-Archiv_I_0001.jpg
Reichs-Ritter-Archiv_I_0002.jpg
usw.
Eine Batchdatei zum Aufruf ist beigelegt. Auf der Kommandozeile folgendermaßen aufrufen:
anticommonist <textfile> <downloadPath> <wiki>
textfile – Dateiname inklusive Pfad, der Textdatei die die Dateinamen auf commons enthält
downloadPath – lokaler Pfad in dem die Bilder abgelegt werden sollen
wiki – von welchem Wiki soll herunter geladen werden, Angabe in der Form: http://commons.wikimedia.org. Darf weggelassen werden. Dann wird Commons verwendet.
Zu Ausführung wird Java 1.6 benötigt.
Für Hinweise, Fehlermeldungen, Anregungen etc. bin ich natürlich dankbar.
Update
Mittlerweilen habe ich eine neue Version hochgeladen, die einige kleinere Fehler beseitigt:
- Batch-Datei wechselt nicht mehr in das übergeordnete Verzeichnis
- Download nun auch von deutschsprachigen Wikis möglich, andere Sprachen müssen allerdings weiterhin manuell hinzugefügt werden. Ich werde mir aber eine sprachunabhängige Lösung überlegen, wie ich den Link zur hochaufgelösten Version in der Datei-Seite finde.
Eine ausführliche Anleitung werde ich demnächst der Zip-Datei hinzufügen.

6 Kommentare
dapete
21. Januar 2009 von 12:51 (UTC 1)
Den Link zur hochaufgelösten Version könntest du über die API bekommen: http://de.wikipedia.org/w/api.php?format=xml&action=query&prop=imageinfo&iiprop=url&titles=Image:Albert_Einstein_Head.jpg&format=txt
Du musst das XML ja nicht komplett parsen, um den Link zu finden reichen reguläre Ausdrücke.
dapete
21. Januar 2009 von 12:52 (UTC 1)
Der Link sollte http://de.wikipedia.org/w/api.php?format=xml&action=query&prop=imageinfo&iiprop=url&titles=Image:Albert_Einstein_Head.jpg lauten…
Finanzer
21. Januar 2009 von 13:09 (UTC 1)
Danke für den Hinweis, damit sollte es vermutlich einfacher gehen. Derzeit suche ich per RegExp den Link in der HTML-Seite.
Flominator
24. Januar 2009 von 18:22 (UTC 1)
Schön, dass es mittlerweile eine Profi-Version meines Tools gibt, das ich am Morgen nach einem Stammtisch kurz aus ein paar anderen zusammengeworfen habe :)
Christoph
2. Februar 2009 von 13:40 (UTC 1)
Ich habe mir ein Skript gebaut, um eine ganze Kategorie runterzuladen, auch jenseits der maximalen 500: http://www.stud.uni-karlsruhe.de/~uyhc/en/content/batch-downloading-wikimedia-servers-2
Finanzer
2. Februar 2009 von 14:27 (UTC 1)
Danke für den Hinweis, In der neuesten Version von AntiCommonist kann man auch Bilder aus einer Kategorie herunterladen.