Wikipedia:WEB/Archivierung(sdienste)

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Internet-Archivierungsdienste speichern automatisch oder manuell erzeugte Momentaufnahmen („Mementos“ oder auch „Snapshots“) von Webseiten.

  • Wenn die Inhalte einer Originalwebseite nicht mehr verfügbar sind, können sie ggf. noch über einen Archivierungsdienst abgerufen werden, um eine enzyklopädische Aussage zu belegen.

Diese Projektseite klärt alle Aspekte im Zusammenhang damit.

Nur nachdem unerreichbar[Quelltext bearbeiten]

Grundsätzlich gilt in der Wikipedia: Solange eine Website verfügbar ist, darf kein Archivlink dazu für den Leser propagiert werden.

Das hat folgende Gründe:

  • Viele Anbieter leben davon, dass es Besucher und Klicks auf ihre Seiten gibt.
    • Wenn du statt dessen Archivlinks in die Artikel schreibst, dann werden die echten und funktionierenden Seiten nicht mehr so oft besucht.
    • Die Bereitsteller der Inhalte können sich dann nicht mehr finanzieren und stellen das Angebot ein.
    • Oder sie stellen fest, dass nur wenig Leute ihre Seiten besuchen, und machen sich nicht mehr die Mühe, diese Inhalte kostenlos bereitzustellen.
  • Die Seite kann technisch aktualisiert werden; ein besserer Scan, eine zusätzliche PDF-Aufbereitung, Verlinkung mittlerweile erstellter Übersetzungen aus dem Englischen, Portugiesischen oder Japanischen in für uns besser verständliche Sprachen. Davon bekommt die archivierte Version nichts mehr mit.

Betreiber bemerken irgendwann, dass wir deren Seite nicht mehr verlinken, und treten an den Archivierer heran und unterbinden für diese Domain die Archivierung.

  • Dann sind deine Archivlinks sofort kaputt.
  • Geht irgendwann die Domain oder die einzelne Seite offline, dann gibt es aus diesem Grund auch keine Archivversion mehr.
  • Insbesondere wenn Archivlinks dazu verwendet werden, um eine mittlerweile existierende Paywall zu umgehen, ist mit entschlossenen Gegenmaßnahmen zu rechnen.

Vorsorgliche Bereitstellung[Quelltext bearbeiten]

Das manuelle Erzeugen einer archivierten Version beim Archivierungsdienst kann sinnvoll sein, wenn absehbar ist, dass eine Quelle nicht dauerhaft zur Verfügung stehen wird. Sobald die Quelle nicht mehr erreichbar ist, kann dann die archivierte Version im Artikel angegeben werden.

Für alle URL, die neu in einen Artikel einer Wikipedia eingefügt werden, wird jedoch momentan automatisch ein Schnappschuss bei archive.org angefordert.

Versteckte Archivlinks[Quelltext bearbeiten]

Bezeichner eines Archivierungsdienstes können in einer in der Artikeldarstellung nicht erscheinenden Weise vorsorglich beigefügt werden, etwa aus manueller Anforderung. Dazu bieten sich HTML-Kommentare oder spezifische Vorlagenparameter an. Idealerweise gibt es Vorlagenparameter, die eine stille Vorratshaltung ermöglichen, und dann nur noch durch Umlegen eines Schalters aktiviert würden. Nachdem die Originalseite nicht mehr verfügbar wäre, kann dann eine Ersatzlösung aktiviert werden.

Dabei genügt eigentlich der wesentliche Bezeichner, etwa ein Zeitstempel oder eine andere eindeutige Identifikation. Die restliche URL kann dann bei Bedarf konstruiert werden.

Kein Übereifer[Quelltext bearbeiten]

Bei den permanent automatisch archivierenden Diensten ist eine Vorratshaltung wenig sinnvoll: Die Suche nach einer archivierten Version sollte erst begonnen werden, nachdem ein Jahrzehnt später die ursprüngliche Seite unerreichbar wurde.

Ansonsten wird in der Zwischenzeit der Quelltext der Seite unnötig verkompliziert, oder der Inhaber der Domain hatte inzwischen eine Archivierung untersagt, oder der gesamte seinerzeitige Archivierungsdienst existiert mittlerweile nicht mehr. Der bisherige Aufwand und die Quelltextverunstaltung waren vergebens.

Es genügt in der Regel, dass ein Tagesdatum vorhanden ist, zu welchem Zeitpunkt eine Ressource mit dem geeigneten Inhalt vorhanden gewesen war.

Es ist überflüssig, zu jeder einzelnen URL den Quelltext mit der URL einer archivierten Version aufzublähen. Nachdem Jahre später das Original unerreichbar ist, dann erst ist zu klären, welches Archiv überhaupt noch existiert, welche Versionen mit welcher URL-Syntax dann noch verfügbar sind.

Unveränderliche Inhalte[Quelltext bearbeiten]

Für Seiten, deren Inhalt nicht zeitabhängig ist, etwa Reproduktionen gedruckter Werke, ist generell kein Abrufdatum erforderlich und ist nur nachteilig für die Artikeldarstellung. Jede Version zu jedem Zeitpunkt muss in jedem gerade erreichbaren Archiv eine inhaltlich gleiche Reproduktion ergeben, sofern das Wahrheitsministerium nicht zuschlug. Von welcher Domain man sich eine andere Reproduktion verschafft, ist in das Belieben des Wartungspersonals gestellt.

Inhaber der Website[Quelltext bearbeiten]

Die genaue Rechtslage zwischen Archivierungsdienst und Anbieter der Inhalte ist ungeklärt.

  • Es könnte sich um eine Urheberrechtsverletzung handeln.
  • Einem deutlichen und juristischen Drängen des Anbieteres wird sich kein Archivierungsdienst dauerhaft entgegenstellen können.

Wenn der Inhalt vom Anbieter selbst nicht mehr bereitgestellt wird und die archivierte Version geduldet wird, ist es für Wikipedianer unproblematisch, darauf ersatzweise zu verlinken.

Neben Kontaktaufnahme mit dem Archivierungsdienst haben Betreiber auch die Möglichkeit, in der robots.txt zu bestimmten Seiten oder der kompletten Domain sich die Archivierung zu verbitten (noarchive).

  • Mancher, aber nicht jeder Archivierungsdienst beachtet diese Forderung.
  • Es kann sein, dass ein Crawler nach Änderung der robots.txt die Domain noch nicht wieder besucht hat, davon also auch noch nichts wissen kann. Mit seinem nächsten Besuch allerdings kann es in der weiteren Verarbeitung bald dazu kommen, dass alle bisher angebotenen Versionen der Domain nicht mehr sichtbar sind.
  • Der Inhaber der fraglichen Website hatte damit jedenfalls untersagt, dass seine Seiten in Archivierungsdienste aufgenommen werden, und könnte das zukünftig mit mehr Nachdruck durchsetzen.
  • Auch wenn jetzt im Moment trotzdem noch auf eine anderweitige Kopie zugegriffen werden kann, so ist absehbar, dass auch diese Archivversion wieder verschwindet, und die Umgehung führt nicht zu einer dauerhaften Ressource.

Von Archiven selbst angebotene Kurz-URL sollen wie auch sonst vermieden werden, und Kurz-URL eignen sich auch nicht zur Archivierung.

  • Gründe sind allgemein bei Kurz-URL-Dienst #Risiken aufgeführt.
  • Die Kurz-URL, die von Archiven selbst angeboten werden, könnten dazu missbraucht werden, um bei uns blockierte Spam-Seiten unerkannt wieder einzubauen.
  • Anhand der langen Form lassen sich leicht Verwechslungen etwa zwischen zwei Zeitungsartikeln erkennen, weil dort oft die Überschrift im Klartext ablesbar ist.
  • Die Archivierungsdienste vermerken für eine Suche nur die ursprüngliche, die lange Form.
  • Eine Kurz-URL lässt sich in aller Regel nicht wieder zur Langform expandieren. Wenn diese defekt ist oder der auflösende Dienst nicht mehr angeboten wird, dann ist alles aus und vorbei.

Grenzen der Inhalte[Quelltext bearbeiten]

Archiviert wird der statische HTML- Text, der sich beim Abruf ergibt.

  • Medien wie etwa Bilder oder gar Videos sind teilweise nicht vorhanden.
  • Wesentliche Seiteninhalte, die auf Medien wie Flash basieren, sind oft nicht archiviert.
  • PDF-Dokumente und Nur-Text werden häufig auch archiviert.

Häufig wären zur vollständigen Darstellung zusätzliche Ressourcen notwendig, wie CSS-Definitionen, Skripte und eine Infrastruktur anderer eingebundener Seiten. Diese sind aber nicht in der erforderlichen Form verfügbar, weshalb sich oft eine schlechtere Qualität ergibt.

Vorgehen bei Unerreichbarkeit[Quelltext bearbeiten]

Zunächst ist eine angemessene Zeit, durchaus einige Monate, abzuwarten, ob ein technisches Problem des Betreibers nicht gelöst und die ursprüngliche URL wieder genutzt werden kann.

  • Wenn die Umstände im Einzelfall bekannt sind, die Betriebseinstellung sogar vorher angekündigt wurde, vielleicht eine Insolvenz vorliegt, dann ist eine Wiederherstellung nicht mehr zu erwarten.

Danach ist zunächst beim ursprünglichen Anbieter oder dessen Nachfolger nach neuer Adresse der bisherigen Inhalte zu suchen.

  • Erst nachdem sich dies als erfolglos erwiesen hat, darf auf einen Archivierungsdienst zurückgegriffen werden.
  • Die Darstellung ist bei einer unterstützten Darstellung oft besser, und die Grundsätze gelten unbenommen auch nach einer Umstrukturierung seitens des Anbieters.

Einzelne Dienste[Quelltext bearbeiten]

Das Internet Archive (archive.org) und WebCite sind die in der Wikipedia zu bevorzugenden Dienste.

archive.is[Quelltext bearbeiten]

Archive.is
Aktuelle Situation und Zukunft unklar.

archive.org[Quelltext bearbeiten]

Die automatische Archivierung (“wayback machine”) ist eine Teilaufgabe des Internet Archive.

Ein automatischer Dienst sogt zurzeit dafür, dass zu jeder URL, die momentan in einem Artikel irgendeiner Wikipedia neu eingefügt wird, ein Schnappschuss veranlasst wird, falls der Inhaber der Website dies nicht ausdrücklich untersagt hätte.

Außerdem ist das manuelle Anfordern eines aktuellen Snapshots möglich. Auf https://archive.org/web/ findet sich rechts unten ein Button dafür: Save Page Now

  • Es ergibt sich eine URL wie: http://web.archive.org/web/20010826192049/caribplanet.homestead.com/101.html
  • Dabei ist 20010826192049 eine Datum-Zeit-Angabe, also 2001-08-26 19:20:49 (abgerufen 26. August 2001)
  • Dahinter steht die ursprüngliche URL (ohne Protokoll); also http://caribplanet.homestead.com/101.html
  • Um zur URL eines Belegs auf eine geeignete archivierte Version hinzuweisen, reicht es aus anzugeben, dass dies bei archive.org unter 20010826192049 hinterlegt wäre.
  • Wird statt der Datum-Zeit-Angabe ein * in die URL eingefügt, erhält man eine Übersicht über alle verfügbaren Versionen.

archive.today[Quelltext bearbeiten]

Dies ist nur ein Synonym von archive.is, aber womöglich 2022 eine robustere Domain.

webcitation.org[Quelltext bearbeiten]

Organisiert von WebCite.

Es können von momentan verfügbaren Webseiten manuell Schnappschüsse archiviert werden: webcitation.org (Formular).

Die folgenden Vorlagen sind besonders für Archivierungsdienste ausgelegt:

Dokumentationen und Beispiele befinden sich auf den jeweiligen Vorlagenseiten.

Weitere Informationen[Quelltext bearbeiten]