Schlagwort-Archiv: Kategorien

Jan 03 2009

Wikisource – Das Kategoriensystem

Dieser Eintrag ist Teil 3 von 3 in der Artikelserie Wikisource - Die Serie

Nach einer halben Ewigkeit setze ich heute mal meine kleine Serie mit etwas tieferen Einblicken in Wikisource fort. Der letzte Beitrag in dieser Serie stammt ja aus dem August 2007, weshalb es doch mal wieder Zeit wird, etwas Neues hinzuzufügen.

Heute widmen wir uns dem Kategorien auf Wikisource, speziell das Kategoriensystem in die die Texte auf Wikisource einsortiert werden, kurz Systematik genannt. Einen Übersicht über die Systematik gibt die entsprechende Seite auf Wikisource.

Für Neuankömmlinge insbesondere aus der Wikipedia mit ihrem überbordenden und oft auch chaotischen Kategoriensystem ist das im deutschsprachigen Wikisource verwendete System erst mal sehr ungewohnt und führt immer wieder zu Verwirrung und auch gelegentlich zu etwas längeren Diskussionen. Und soweit ich weiß, verwendet auch kein anderes Wikimedia-Projekt eine derartige Facettenkategorisierung.

Ziel

Mit dem Kategoriensystem auf Wikisource sollte eine langfristige Lösung geschaffen werden, die genügend Flexibilität und Genauigkeit für die Einodnung und vernünftige Möglichkeiten zur Auffindbarkeit von Texten bietet. Andererseits sollte das System nicht bereits nach kurzer Dauer ausfransen und ins Chaos abgleiten und damit für den Leser unbenutzbar werden.

Die verwendete Facettenkategoriserung wurde, ich glaub 2005, für die Wikipedia vorgeschlagen, aber damals per Meinungsbild abgelehnt. Da die zu kategorisierenden Elemente auf Wikisource allerdings wesentlich homogener sind, bot diese sich meines Erachtens perfekt für Wikisource an, zumal die einzelnen Facetten wesentlich konkreter gewählt werden konnten, als damals in der Wikipedia-Version.

Und die bisherige Erfahrung zeigt, dass das Ziel erreicht wurde. Seit der Einführung im Jahr 2006 wurden nur sehr wenige Kategorien innerhalb der Facetten neu angelegt. So wurden z.B. das 18., 19. und 20 Jahrhundert vor Kurzem in Jahrzehnte unterteilt, da diese doch schon recht groß geworden waren. Außerdem wurde eine zusätzliche Facette Herstellungsform angelegt, um abbilden zu können, in welcher Form, z.B. als Handschrift, uns der Text vorliegt.

Die Facetten

Die Wikisource-Systematik baut auf sechs sogenannten Facetten auf, die grundlegende Eigenschaften des Textes grob beschreiben. Dies sind:

  • Fachgebiet – welchem Fachgebiet kann der Text inhaltlich zugeordnet werden bzw. welches Fachgebiet befasst sich mit dem Text. Werden mehrere Fachgebiete berührt kann ein Text in mehrere Fachkategorien einsortiert werden. Diese Facette wurde nach Vorbild der sogenannten Göttinger Online Klassifikation angelegt.
  • Entstehungszeit - In welchem Jahrhundert ist der Text entstanden. Für die Zeit ab dem 18. Jahrhundert ist eine genauerer Unterteilung in Jahrzehnte vorhanden.
  • Entstehungsort – Wo ist der Text ursprünglich entstanden? Dabei wird der Entstehungsort des Originals angegeben. Die Einsortierung richtet sich grob nach der heutigen Geografie. Es gibt für einige wenige historische Territorien Kategorien, wenn eine genauere Einordnung schwer fällt, so z.B. für das Heilige Römische Reich oder das Römische Reich. Umgedreht gibt es für einige historische Territorien Kategorien, wenn die Texte eindeutig diesem Territorium zugeordnet werden können. Diese Kategorisierung ist allerdings nur für recht wenige Texte wichtig und wird insbesondere für literarische Texte nicht verwendet
  • Sprache - In welcher Sprache wurde der Originaltext verfasst? Eine Einordnung nach Sprachstufen sollte durchgeführt werden, insbesondere für deutschsprachige Texte. Eine Einordnung in mehrere Sprachen erfolgt dann, wenn das Originaldokument in diesen Sprachen abgefasst wurde. Dies trifft insbesondere auf Verträge zu. Gelegentlich kann es auch sinnvoll sein, Übersetzungen in frühere Sprachformen des Deutschen dementsprechend zu kategorisieren (Siehe als Beispiel die Übersetzung der Goldenen Bulle ins Frühneuhochdeutsche). Bei neuhochdeutschen Übersetzungen wird diese Doppelkategorisierung allerdings nicht durchgeführt.
  • Textgattung – Diese Facette beschreibt in welcher Form der Text verfasst wurde (Stil, Art der sprachlichen Mittel). Also ob es sich beispielsweise um ein Gedicht, eine Rede oder um ein Essay handelt. Bei unsicherer Zuordnung zu einer bestimmten Textgattung, kann eine entsprechende Oberkategorie für die Kategorisierung verwendet werden.
  • Herstellungsform – Diese Facette ist optional. Diese Facette wird nur verwendet, wenn auch die in Wikisource verwendete Textgrundlage einer der Herstellungsformen entspricht. So wird ein Brief der uns im Original als Handschrift vorliegt in die Kategorie Handschrift einsortiert. Würde uns derselbe Brief als Ausgabe in einem gedruckten Editionsband vorliegen, dann würde diese Facette nicht vergeben werden.

Der Kategorienbaum

Alle Facetten sind vollständig unabhängig voneinander. Das heisst: Jede Kategorie in der Systematik gehört zu genau einer Facette und jede Kategorie hat genau eine Oberkategorie.  Sogenannte Schnittmengen, wie z.B. ”Englische Gedichte des 19. Jahrhundert”, ergeben sich zwanglos aus den zugeordneten Kategorien der verschiedenen Facetten. Solche und ähnliche Kategorien brauchen und dürfen deshalb nicht angelegt werden. Ganz im Gegensatz zur Wikipedia, wo Hunderte solcher Schnittmengenkataegorien existieren und es immer wieder Löschanträge hagelt, weil es etliche dieser Schnittmengen gibt, die nur sehr dünn besetzt sind, aber der Vollständigkeit wegen angelegt wurden. Sehr beliebt sind da immer wieder Sportlerkategorien, wie Biathlet aus Neuseeland oder ähnliches.

Einige Kategorienamen in verschiedenen Facetten klingen ähnlich, sind aber nicht äquivalent oder bedeuten nicht das Gleiche. So wird ein Text mit der Kategorie Rechtstext der Facette ”Textgattung” sicherlich in den meisten Fällen auch in der Kategorie Rechtswissenschaft der Facette ”Fach” oder einer der Unterkategorien einsortiert werden, aber umgedreht muss nicht jeder Text aus der Kategorie Rechtswissenschaft auch ein Rechtstext sein. So finden sich viele Texte die dem Fach Rechtsgeschichte zugeordnet sind, auch in der Textgattung Kategorie Darstellung.

Ein anderes Beispiel ist der Text Der Prosector in der Westentasche. Dies ist ein Text aus dem Bereich Medizin, der in Versform geschrieben ist. Solche Kombinationen können völlig problemlos über das Facettensystem abgebildet werden, ohne zusätzliche Kategorien einführen zu müssen.

Kategorisierung von Texten

In die Wikisource-Systematik werden nur Texte einsortiert, keine Orts-, Themen- oder Autorenseiten oder Kategorien die Werke zusammenfassen.  Diese Einschränkung führt auch immer wieder zu Verwirrungen. Aber wie man oben gesehen hat, gibt es eben keine eindeutige Zuordnung von Themen, Autoren oder Orten zu Kategorien. Außerdem ist die Systematik für die Texte vorbehalten, um diese auffinden zu können.

Jeder Text soll in die fünf Hauptfacetten einsortiert werden. Die Facette ”Fach” und ”Textgattung” kann mehrfach vergeben werden. Im Zweifelsfall sollte bei allen Facetten eine allgemeinere Oberkategorie vergeben werden.

Jede Hierarchiestufe der jeweiligen Facette darf zur Kategorisierung verwendet werden. Eine Ausnahme bildet die Kategorie Historisches Territorium. Diese Kategorie dient nur dem Zusammenhalt der untergeordneten Kategorien. Ein Einordnung eines Texte in diese Kategorie ergibt auch wenig Sinn, da damit keinerlei Informationsgewinn verbunden wäre.

Unabhängig von den Kategorien in der Systematik, darf jeder Text in Werk- und Autorenkategorien einsortiert werden.

Aber wie finde ich nun bestimmte Texte?

Das ist derzeit noch eine Schwachstelle des gesamten Systems. Neben dem rein manuellen Durchklicken durch die einzelnen Facettenbäume, soll natürlich vorrangig CatScan verwendet werden. Das Tool hat allerdings noch ein paar Nachteile. Leider können nicht alle sechs Facetten miteinander geschnitten werden, sondern nur zwei. Außerdem ist die Oberfläche noch etwas nerdig bzw. projektbezogen, um tatsächlich von normalen Lesern so einfach verwendet werden zu können. Aber da ja Duesentrieb seit kurzem beim Verein angestellt ist, habe ich ja die Hoffnung, dass auch an diesem Tool noch etwas Feintuning betrieben wird.

Außerdem gibt es eine, zugegebenermaßen noch etwas dünn besetzte, Seite mit Beispielanfragen, welche dann einfach wiederverwendet werden können.

So, ich hoffe mit diesem Beitrag etwas mehr Klarheit in das auf den ersten Blick etwas ungewohnte Kategoriensystem bei Wikisource gebracht zu haben.

Performance Optimization WordPress Plugins by W3 EDGE