Wissenschaftsreportage Technik Eva Wolfangel

spektrum.de, 7. Januar 2014 - Link

Werden wir die Familienfotos von Weihnachten 2013 auch noch unseren Enkeln zeigen können? Schon heute gehen Unmengen digitaler Daten verloren. Doch Forscher arbeiten an langlebigen Speichermethoden.

Es gibt viele Wege auf denen unsere Daten verschwinden: Kurz bevor die Diplomarbeit beendet ist, verabschiedet sich die Festplatte. Die alten Tagebücher kann der Computer nicht lesen – sie sind noch auf Disketten gespeichert. Und über die Bilder von der Familienweihnachtsfeier amüsiert sich nun der Dieb unseres Handys. Dagegen steht Oma Ernas Fotoalbum seit Jahrzehnten im Regal, wahrscheinlich können auch noch unsere Nachkommen durch die nostalgischen Bilder blättern. Zumindest wenn das Haus nicht abbrennt. Wollen wir dagegen Schnappschüsse von unseren Kindern zeigen, ist oft mehr nötig, als ein schneller Griff zum Schrank.

Das Problem wird der Öffentlichkeit erst langsam bewusst: Magnetische Datenträger wie Festplatten haben eine begrenzte Lebenszeit. Schon nach fünf bis 20 Jahren, so die Schätzungen von Experten, verlieren sie ihren Magnetismus – und damit die gespeicherten Daten. Auch optische Speicher wie CD-ROMS sind anfällig für Beschädigungen durch Temperaturschwankungen oder Kratzer und können häufig schon nach wenigen Jahren nicht mehr gelesen werden. Dazu kommt, dass sich viele Dateiformate mit den Nachfolgeversionen der üblichen Programme nicht mehr öffnen lassen. Wer seine Daten also nicht regelmäßig auf den neuesten Speichermedien sichert und in aktuelle Dateiformate kopiert, wird sie irgendwann verlieren.

Doch daran denken bislang die wenigsten. Wird unsere Zeit also als „finsteres 21. Jahrhundert in die Geschichte eingehen“, wie das Archivprojekt „Memory of Mankind (MOM)“ warnt: ein Zeitalter, aus dem außer unserer Grabsteine keine weiteren Informationen für die Nachwelt erhalten bleiben? Die Experten aus dem österreichischen Hallstatt wollen den digitalen Datenschwund stoppen und brennen Dokumente von Universitäten, Museen und zahlungskräftigen Privatpersonen auf Keramiktafeln. „Das haltbarste Material überhaupt“, wie das Archiv wirbt. Damit seien die Daten hunderttausende Jahre sicher. Zumal sie in einem alten Salzwerk eingelagert werden, dessen Gestein wasserdicht ist und hoch genug liegt, um nicht überflutet zu werden. Wer dort seine Erinnerungen deponiert, bekommt ein Siegel, auf dem die Lage des Stollens symbolisch dargestellt ist. Sollten die Menschen in einer fernen Zukunft die „Schatzkarte“ entziffern, finden sie Informationen über unsere Epoche. Schwedische Forscher wollen im Salzstock zudem Tafeln hinterlegen, auf denen sie vor Atommüll warnen: Schließlich strahlt radioaktiver Abfall zehntausende Jahre lang. Unsere Nachfahren sollten wissen, wo er gebunkert ist und welche Gefahren davon drohen. Aber Informationen zehntausende Jahre zu erhalten, darin sind sich die Experten einig: das geht nicht digital.

Digitale Nachlässe zwingen Archive zum Handeln

Andere Archive arbeiten gezwungenermaßen an Modellen, wie digitale Daten zumindest einen längeren Zeitraum überstehen. Die Mitarbeiter im Deutschen Literaturarchiv in Marbach sind immer häufiger mit digitalen Nachlässen von Autoren konfrontiert. „Früher bestanden Nachlässe aus Papier, beispielsweise Briefe und Manuskripte“, sagt der dortige Leiter des Referats Wissenschaftliche Datenverarbeitung, Heinz Werner Kramski. Im sicheren Lagern von Papier ist man in Marbach Meister. Aber digitale Dokumente werfen völlig neue Fragen auf. Und beispielsweise Computerspiele oder Software sind nicht einmal linear abbildbar, man kann sie nicht auf Papier oder gar Keramikplatten verewigen. Zudem enthalten Datenträger weitere Informationen, die für das Archivieren wichtig sind, wie Metadaten oder auch gelöschte Anteile, die nur durch eine digitale Kopie erhalten bleiben.

Seit in Marbach vor etwa zehn Jahren der digitale Nachlass des Autoren Thomas Strittmatter landete – der erste seiner Art in Form eines Atari-Computers und 43 Disketten - forschen Kramski und seine Kollegen an ausgefeilten Methoden, solche Daten für die Nachwelt zu erhalten; damit Interessierte auch dann noch Strittmatters Nachlass lesen können, wenn der letzte Atari-Computer der Welt den Geist aufgegeben hat.

Dafür kopieren die Wissenschaftler zunächst den gesamten Inhalt der Speichermedien auf einen virtuellen Datenträger. „Der Computer simuliert ein Diskettenlaufwerk“, erklärt Kramski. Damit sind alle digitalen Informationen gesichert. Diese Kopie wird auf ein RAID-System übertragen. Das ist ein Verbund mehrerer Festplatten, in dem Daten so gespeichert werden, dass sie vor Verlust geschützt sind. In einem zweiten Schritt transformieren Kramski und Kollegen die verschiedenen Dateivarianten in das langfristig nutzbare Format PDF/A, eine spezielle ISO-genormte Archivversion des bekannten PDF. Damit sind die linear darstellbaren Informationen gesichert. Eine große Herausforderung für die Forscher sind neue publizistische Formen, wie interaktive Netzromane. Bei diesen online veröffentlichten Geschichten können Leser zum Beispiel selbst entscheiden, in welche Richtung sich die Handlung entwickelt. Damit spätere Betrachter das Werk verstehen und erleben können, muss neben dem Text auch die Software erhalten bleiben. Um solche Entwicklungen nicht zu verpassen, sei es sinnvoll, digitale Kuratoren auszubilden und einzustellen, sagt Kramski. In deutschen Archiven ist das noch unüblich.

 

Bemerkenswert: Papier und Mikrofilm sind scheinbar immer noch sicherer als digitale Speicher Twittern

Aber selbst Experten für digitale Datenspeicherung setzen weiterhin auf physikalische Datenträger. „Papier hat sich über Jahrtausende bewährt“, sagt beispielsweise Pascalia Boutsiouci, die das Konsortium der Schweizer Hochschulbibliotheken leitet. Auch Mikrofilme, die schon seit Jahrzehnten in Archiven und Bibliotheken eingesetzt werden, zählen zu den physikalischen Speichern und gelten als eine der sichersten Methoden, Daten lange zu erhalten. Die wichtigsten Dokumente der deutschen Geschichte werden auf Mikrofilm gebannt und bombensicher eingelagert: Im „Zentralen Bergungsort der Bundesrepublik Deutschland“, einem alten Stollen bei Freiburg, lagern 825 Millionen Aufnahmen in 400 Metern Tiefe in Edelstahltonnen. Auf 27.000 Kilometer Mikrofilm sind historische Dokumente für die Zukunft gesichert – von der Krönungsurkunde Ottos des Großen aus dem Jahr 936 über die Baupläne des Kölner Doms bis hin zum Spielplan der Bayreuther Festspiele von 1989.

Und vielleicht werden auch digitale Daten eines Tages auf Mikrofilm archiviert. Denn der bietet eine Lösung für ein weiteres Problem: Selbst wenn unsere Daten auf modernen Speichermedien haltbar gemacht werden, müssen künftige Generationen sie entschlüsseln, um aus den Nullen und Einsen wieder ein Dokument oder ein Bild zu formen. Was, wenn der Code verloren geht? „Archivieren heißt ja auch, zu garantieren, dass ich das wieder lesen kann“, sagt der Baseler Professor für Medientechnologie, Rudolf Gschwind. Seine Idee: Er schreibt Daten in Form von Nullen und Einsen auf Mikrofilm, zusammen mit einer Anleitung zur Decodierung für künftige Historiker. „Mikrofilm ist visuell und selbsterklärend“, sagt er. Man müsse ihn nur gegen das Licht halten und sehe die Informationen, die dort nicht codiert, sondern lediglich verkleinert sind. Im Gegensatz zu reinen Kopien des Bildschirminhaltes blieben so auch die Dateistrukturen erhalten – genau jenes nicht-lineare, das digitale Daten ausmacht und das den Marbacher Archivaren Kopfzerbrechen bereitet. Doch der Niedergang der analogen Fotoindustrie könnte den Siegeszug des Mikrofilms als Speichermedium der Zukunft stoppen. Denn um die kriselnden Filmfabriken zu erhalten, dafür ist der Mikrofilm-Markt nicht groß genug.

Menschliche Sammelleidenschaft produziert zu viele Daten

Problematisch ist auch eine menschliche Eigenart: die Sammelleidenschaft. Denn selbst wenn wir unsere digitalen Daten für die Ewigkeit auf Mikrofilm oder Keramiktafeln fixieren können: Zunächst müssten Fachleute auswählen, was bewahrt und wie das alles sortiert werden soll. Denn die Datenmassen, die wir heute produzieren, bräuchten nicht nur viele Milliarden Kilometer Mikrofilm – es hätte auch niemand mehr den Überblick über diese Informationen.

Wie schnell Menschen überfordert sind mit Ablage und Einordnung ihrer Erinnerungen weiß Susanne Boll, Informatik-Professorin an der Universität Oldenburg: Sie beschäftigt sich mit dem „digitalen Schuhkarton“, den die meisten von uns heute auf ihrer Festplatte aufbewahren – und der nach jedem Urlaub wächst. Auch in der analogen Ära haben nicht alle Menschen ihre Papierfotos ordentlich sortiert in Alben eingeklebt. Viele landeten einfach in einem – damals noch handfesten -  Schuhkarton, der dann, einer intuitiven Ordnung gehorchend, zu anderen Kisten auf den Dachboden oder unters Bett wanderte. „Das ist bis heute prinzipiell nicht anders“, sagt Susanne Boll: Auch im Digitalzeitalter nutzen die Menschen die Möglichkeiten kaum, die ihnen die modernen Technologien bieten, wie Verschlagwortung oder Sortierung anhand von Metadaten.

Und eigentlich ist es noch schlimmer als früher: Während der Schuhkarton eine überschaubare Zahl an Fotos enthielt und der Besitzer meistens noch ungefähr wusste, wo welches Bild sein könnte, produzieren wir heute eine Menge an Daten, die uns überfordert. Mit dem Siegeszug der Smartphones bleiben viele Bilder einfach im Telefonspeicher. Der Trend zum automatischen Upload von Handyfotos in soziale Netzwerke im Internet sorgt zwar für ein – datenschutztechnisch zweifelhaftes – Backup in der Cloud, sortiert sind die Fotos damit aber noch immer nicht.

Algorithmus sortiert Fotos automatisch aus

Diese Misere will Susanne Boll lösen: „Wir brauchen intelligente Fotodienste“, sagt sie. Gemeinsam mit Kollegen und unterstützt vom Fotobuchhersteller CEWE entwickelt sie eine Software, die Fotos automatisch sortiert. Dafür nutzen die Forscher unter anderem die Informationen, die in jedem digitalen Bild mit gespeichert sind, wie Zeit, Datum und Ort, aber auch fotografische Angaben wie Belichtungszeit. Mit Informationen zur Blende lässt sich beispielsweise erkennen, ob es sich um eine Außen- oder eine Innenaufnahme handelt. Der Algorithmus kann zudem aus diesen Daten schließen, ob es sich um mehrere Fotos vom gleichen Ereignis handelt und aufgrund der Qualität, welches das Beste einer Reihe ist. „Aber neutrale Faktoren, wie Schärfe, Farbe und Helligkeit sind nur ein Kriterium“, schränkt Boll ein. „Wichtig für die Bildauswahl ist auch die Frage, wer oder was auf dem Bild zu sehen ist.“ Denn selbst ein unscharfes Foto würden wir behalten und für ein Jahrbuch auswählen, wenn es das einzige ist, das die gesamte Familie Weihnachten 2013 zeigt.

„So eine Auswahl kann natürlich nicht perfekt sein“, sagt Philipp Sandhaus von CEWE. Dennoch nutze ein Großteil der Kunden den Service, ihre Bilder fürs Fotobuch automatisch auswählen zu lassen. Das Unternehmen hat daran durchaus kommerzielles Interesse: „Ein wichtiger Grund, weshalb Fotobücher nicht erstellt werden, ist der Aufwand.“ Während im Urlaub die Motivation noch groß ist und 1000 Fotos geschossen werden, will sich Zuhause niemand mehr länger damit beschäftigen.

Auch die Wissenschaft verliert Daten in großem Stil

Ähnlich ist das bei wissenschaftlichen Daten. „Archivierung ist nicht nur ein technischer Prozess“, sagt Pascalia Boutsiouci, Leiterin des Konsortiums der Schweizer Hochschulbibliotheken: es geht auch um die Frage, welche Daten aufbewahrt werden – und vor allem, wer dafür zuständig ist. Denn eine Erhebung, die sie 2006/07 für die ETH Zürich in Zusammenarbeit mit der Universität Göttingen durchführte, erbrachte ernüchternde Ergebnisse: 80 Prozent der befragten Hochschulmitarbeiter erklärten, dass es in ihrer Einrichtung keine Vorschriften oder Vereinbarungen zur digitalen Langzeitarchivierung gebe. Während ein Professor seine Forschungsdaten als CD-ROM in einer Schublade lagert, lässt sie sein Kollege auf dem Unirechner. Wechseln Forscher in den Ruhestand, ist es oft Zufall, ob sie die Daten an ihre Nachfolger übergeben – und ob sie dann noch lesbar sind. Mittlerweile sei sich die Wissenschaft des Problems bewusst, sagt Boutsiouci.  So arbeiten einige Universitäten inzwischen mit Archivsystemen, die nicht nur die Technik, sondern auch die Arbeitsprozesse automatisch organisieren.

Wie wenig sich geändert hat, zeigt eine aktuelle Studie im Fachmagazin „Current Biology“: 80 Prozent der Forschungsdaten einer Veröffentlichung seien bereits nach 20 Jahre verloren, klagen die Autoren um den Biologen Timothy Vines von der Universität British Columbia. Einer der häufigsten Gründe: Nicht mehr lesbare Datenträger. „Daten zu verlieren ist eine Verschwendung von Forschungsgeldern, und es schränkt uns in der Forschung ein“, so Vines. Die Autoren fordern, dass Wissenschaftler künftig die zugrunde liegenden Daten  gemeinsam mit dem Artikel bei wissenschaftlichen Journalen abliefern müssen, bevor dieser veröffentlicht wird. Auch Boutsiouci findet eine einheitliche Regelung  wichtig, wer welche Daten erheben und aufbewahren muss: „Denkbar wäre beispielsweise eine Abgabepflicht für DFG-geförderte Projekte.“

Vom Dateiformat zur Datensimulation

Grundlegender betrachtet der Medienwissenschaftler Lukas Rosenthaler vom Digital Humanities Lab der Philosophisch-Historischen Fakultät der Universität Basel das Problem. „Forschungsdaten sind in der Regel völlig heterogen, nicht kompatibel und werden oft in Form von Datenbanken abgespeichert, die für spezielle Projekte programmiert wurden“, sagt Rosenthaler. In einem Pilotversuch der Schweizer Akademie für Geisteswissenschaften hat er die virtuelle Forschungsumgebung SALSAH (System for Annotation and Linkage of Sources in Arts and Humanities) geschaffen, in der Geisteswissenschaftler über eine Schnittstelle im Internet verschiedene digitale Objekte wie Bilder, Texte, Filme, Fotos und Musik bearbeiten können. Damit will er die Daten haltbarer machen: „Bisher läuft es doch so: Wenn ein Projekt zu Ende ist und kein Geld mehr fließt, bleiben die Daten auf dem Server liegen, der Computer wird alt und irgendwann aussortiert.“ Denn die verschiedenen Datenbanken zusammen zu führen ist aufgrund der unterschiedlichen Formate kaum möglich.

Seine Lösung nutzt keine Dateiformate, denn diese ändern sich zu schnell, sondern ein Modell, eine Art Daten-Simulation. „Wir können jedes Format in unser Datenmodell umwandeln – und auch wieder zurück“, erklärt er. Damit macht er sich unabhängig von den Launen der Hersteller, die aus wirtschaftlichem Interesse regelmäßig neue Versionen ihrer Dateiformate auflegen, die mit den alten nicht mehr kompatibel sind. Das einzige Problem: auch der Unterhalt dieser Plattform kostet Geld und ist von einem zeitlich begrenzten Forschungsprojekt abhängig. Aber Rosenthaler ist optimistisch: „Selbst Politiker sehen langsam die Notwendigkeit ein, in unsere Daten zu investieren.“

Die moderne Technologie stellt uns beim Datenmanagement vor Probleme, die wir ohne sie nicht hatten. War früher alles einfacher? Wer das wohlsortierte Fotoalbum von Oma Erna betrachtet, könnte auf diese Idee kommen. Aber die Technologie könnte uns künftig dabei helfen, unsere Daten zu bändigen.

von Eva Wolfangel