Das Internet vergisst. Webseiten verschwinden und Inhalte sind nicht mehr zugänglich. Das fällt mir in diesem Blog auf, wenn Links nicht mehr funktionieren. Die Aussage „Das Internet vergisst nie“ stimmt also nicht.
Aber es gibt doch die „Wayback Machine“? Ich weiß nichts darüber. Und die Frage, wie Wissen aufbewahrt wird und wer bestimmt, was aufbewahrt wird, interessiert mich.
Internet Archive und Wayback Machine
Die „Wayback Machine“ ermöglicht einen Blick auf Webseiten, wie sie früher ausgesehen haben. Diese Zeitmaschine wurde im Jahr 2001 vom „Internet Archive“ gegründet.
Das „Internet Archive“ wurde 1996 von Brewster Kahle in San Francisco, USA, gegründet. Das Archiv sammelt nicht nur Webseiten, sondern auch Audio-, Video- und Buchdateien sowie vieles mehr. Es ist eine gemeinnützige Organisation, die kostenlosen Zugang zu den digitalen Artefakten ermöglicht. Das „Internet Archive“ versteht seine Mission darin, universellen Zugang zu allem Wissen zu ermöglichen („Universal Access to All Knowledge“).
Wie gelangen die Daten ins Archiv?
Computerprogramme durchsuchen das Internet automatisiert und sammeln die Informationen. Dieser Vorgang wird Crawling genannt.
Die Frage nach dem „Wie“ spiegelt die Entwicklung des Internets wider.
So wie sich das Internet verändert hat, mussten sich auch die Webcrawler technologisch anpassen.
Am Anfang bestand das Internet aus statischen HTML-Dateien und Hyperlinks. Mit der Zeit wurde das Internet „dynamischer“. Wie es sich mit generativer KI verändern wird, ist noch offen.
Wie können die Daten dauerhaft gespeichert werden?
Das Internet ist keine imaginäre Wolke. Es ist sehr materiell. Es besteht aus Rechnern, Speichermedien und Kabeln. Damit alles laufen kann, wird viel Energie benötigt. Die Geräte laufen heiß und müssen gekühlt werden.
Das „Internet Archive“ hat ein vergleichsweise kleines Budget, gemessen an seiner Bedeutung und Leistung. Um die vielen Daten möglichst kostengünstig zu speichern, haben sie die PetaBox entwickelt. Sie kann extrem viele Daten bei minimalem Energieverbrauch speichern. Der Name ist an Petabyte angelehnt. Ein Petabyte entspricht 1.000 Terabyte.
Bei Tausenden von Festplatten ist es unvermeidlich, dass es zu Ausfällen kommt. Die Daten werden auf mehreren Maschinen, häufig an unterschiedlichen physischen Orten, gespeichert. Im Vergleich zu Banktransaktionsdaten sind diese Daten nicht so „missionskritisch“. Daher kann etwas pragmatischer vorgegangen werden. Kaputte Festplatten werden von einem kleinen Team ausgetauscht, wenn ein kritischer Schwellenwert erreicht wird.
Um unabhängiger von Umweltkatastrophen und politischen Ereignissen zu sein, bemüht sich das Archiv, sich global zu dezentralisieren.
Was wird gespeichert?
Das „Internet Archive“ verfügt über eine eigene Crawling-Infrastruktur. Der Großteil der Daten stammt jedoch von kommerziellen Crawlern. Diese durchsuchen das Internet, um Traffic-Analysen bereitzustellen.
Alle vier Jahre, vor einem US-Präsidentenwechsel, führt das Archiv eine groß angelegte Aktion durch, bei der Websites mit den Endungen „.gov“ und „.mil“ gecrawlt werden. Das Projekt soll dafür sorgen, dass beispielsweise Klimadaten und politische Dokumente nicht verschwinden, wenn eine neue Regierung ihr Amt antritt.
Dieses Projekt zeigt jedoch auch, wie US-zentriert das Archiv ist.
2013 führte die „Wayback Machine“ die Funktion „Save Now“ (Jetzt Speichern) ein. Damit demokratisierte sie das Crawlen. Wenn eine Webseite noch nicht gespeichert ist, kann sie mithilfe dieser Funktion im Archiv gespeichert werden.
Nicht alles sollte gespeichert werden
Es ist gut und wichtig, dass Daten und Informationen aufzubewahren.
Was aber, wenn es sich z.B. um Lügen und Verleumdungen über die eigene Person handelt? Ich möchte nicht, dass diese für immer vorhanden sind.
Daher sollte nicht alles unkritisch dauerhaft gespeichert werden und öffentlich zugänglich sein.
Wir können zum Internet Archiv beitragen
Die Frage, wer bestimmt, was aufbewahrt wird, kann an dieser Stelle allerdings nicht beantwortet werden.
Mit der „Wayback Machine“ und der „Save Page Now“-Funktion können wir jedoch einen kleinen Teil zum „Internet Archive“ beitragen.
Um das auszuprobieren, habe ich nach praktischundverbunden.de gesucht und die Seite nicht gefunden. Daher habe ich sie gleich mit „Save Now“ gespeichert :).
Suche also nach den Webseiten, die dich interessieren. Wenn sie nicht dabei ist, nimm sie ins Archiv auf!
📚 Quellen und zusätzliche Informationen
- HackerNoon, Bruce Li: The Long Now of the Web: Inside the Internet Archive’s Fight Against Forgetting (2026) [orig: en] Relevanz: Der Artikel war der Anlass und ist die Basis dieses Blogbeitrags. Er enthält viele weitere interessante Aspekte, detaillierter und technischer.
- Internet Archive: Wayback Machine Inhalt: Suche nach Webseiten zu verschiedenen Zeitpunkten.
- Internet Archive Inhalt: Der Link führt zum Internet Archiv selbst. Es enthält nicht nur Webseiten, sondern auch Audio, Video, Bücher, 3D-Druck-Vorlagen und so vieles mehr. Auf der Startseite gibt es unglaublich viele „Collections“ (Sammlungen). Das wusste ich bis zu diesem Blogbeitrag gar nicht. Gut zu wissen.
- Praktisch und Verbunden: Was gab es damals? (2026/2025) [orig: de] Relevanz: Zur zeitlichen Einordnung des „Internet Archives“ und der „Wayback Machine“.