«

»

Jan 20 2009

AntiCommonist

Dieser Eintrag ist Teil 1 von 8 in der Artikelserie AntiCommonist

Update: Dieser Beitrag beschreibt die erste Version des Tools, die aktuelle Version kann hier heruntergeladen werden.

Bilder auf Commons hochzuladen geht ja dank Commonist schon seit einer Weile recht komfortabel. Was aber machen, wenn man sehr viele Bilder von Commons in der höchsten Auflösung herunterladen will, z.B. ein komplettes Buch mit über 500 Seiten? Klicken und speichern macht nicht wirklich Spaß und dauert eine halbe Ewigkeit.

Eine Lösung war bisher das Tool Winpluck von Flominator, welches aus meiner Sicht ein paar Unschönheiten hat. Zum Beispiel benötigt man einen Apache mit PHP. Außerdem lädt es derzeit das falsche Bild herunter, weil die Jungs auf Commons so pffifig waren, ein Bild in die Sitenotice einzubauen und Winpluck einfach nach dem ersten Bild in der HTML-Seite suchte. Außerdem mag ich PHP nicht ;-)

Deshalb habe ich das neckische Tool einfach nachgebaut und mit paar zusätzlichen Features versehen:

  • läuft mit Java lokal auf dem Rechner in der Kommandozeile
  • es wird auf der Commons-Seite explizit nach der großen Version des Bildes gesucht, so dass die Commons-Admins und Entwickler die Seiten mit anderen Bildern vollpflastern können wie sie wollen.
  • Die Dateien werden mit dem korrekten Dateinamen abgespeichert und nicht wie Winpluck mit UTF-codierten Zeichen

Verwendung

AntiCommonist liest eine einfache Textdatei mit Dateinamen ein. In jeder Zeile steht ein Name, ohne Präfix File:, Datei:, Bild: oder ähnliches. Beispiel:

Reichs-Ritter-Archiv_I_0001.jpg
Reichs-Ritter-Archiv_I_0002.jpg
usw.

Eine Batchdatei zum Aufruf ist beigelegt. Auf der Kommandozeile folgendermaßen aufrufen:

anticommonist <textfile> <downloadPath> <wiki>

textfile – Dateiname inklusive Pfad, der Textdatei die die Dateinamen auf commons enthält

downloadPath – lokaler Pfad in dem die Bilder abgelegt werden sollen

wiki – von welchem Wiki soll herunter geladen werden, Angabe in der Form: http://commons.wikimedia.org. Darf weggelassen werden. Dann wird Commons verwendet.

Zu Ausführung wird Java 1.6 benötigt.

Download AntiCommonist 0.1.1

Für Hinweise, Fehlermeldungen, Anregungen etc. bin ich natürlich dankbar.

Update

Mittlerweilen habe ich eine neue Version hochgeladen, die einige kleinere Fehler beseitigt:

  • Batch-Datei wechselt nicht mehr in das übergeordnete Verzeichnis
  • Download nun auch von deutschsprachigen Wikis möglich, andere Sprachen müssen allerdings weiterhin manuell hinzugefügt werden. Ich werde mir aber eine sprachunabhängige Lösung überlegen, wie ich den Link zur hochaufgelösten Version in der Datei-Seite finde.

Eine ausführliche Anleitung werde ich demnächst der Zip-Datei hinzufügen.

AntiCommonist
0 votes, 0.00 avg. rating (0% score)

6 Kommentare

  1. dapete

    Den Link zur hochaufgelösten Version könntest du über die API bekommen: http://de.wikipedia.org/w/api.php?format=xml&action=query&prop=imageinfo&iiprop=url&titles=Image:Albert_Einstein_Head.jpg&format=txt

    Du musst das XML ja nicht komplett parsen, um den Link zu finden reichen reguläre Ausdrücke.

  2. Finanzer

    Danke für den Hinweis, damit sollte es vermutlich einfacher gehen. Derzeit suche ich per RegExp den Link in der HTML-Seite.

  3. Flominator

    Schön, dass es mittlerweile eine Profi-Version meines Tools gibt, das ich am Morgen nach einem Stammtisch kurz aus ein paar anderen zusammengeworfen habe :)

  4. Christoph

    Ich habe mir ein Skript gebaut, um eine ganze Kategorie runterzuladen, auch jenseits der maximalen 500: http://www.stud.uni-karlsruhe.de/~uyhc/en/content/batch-downloading-wikimedia-servers-2

  5. Finanzer

    Danke für den Hinweis, In der neuesten Version von AntiCommonist kann man auch Bilder aus einer Kategorie herunterladen.

Hinterlasse eine Antwort

Ihre E-Mail-Adresse wird nicht veröffentlicht.

Sie können diese HTML-Tags verwenden: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Performance Optimization WordPress Plugins by W3 EDGE