Datenjournalismus

Jetzt will ich es wissen! Wir sitzen im Besprechungsraum am Institut für Maschinelle Sprachverarbeitung und schauen gebannt auf die Leinwand, auf der Textwolken auftauchen. Wir: Stern-Investigativ-Reporter Rainer Nübel, die Computerlinguisten Andre Blessing und Jonas Kuhn und ich. Werden diese Wolken uns helfen können, Lobbyisten zu enttarnen?

Seit Jahren schreibe ich über Automatisierung, darüber, wie Maschinen uns Arbeit abnehmen können, über künstliche Intelligenz, lernende Algorithmen  - und wie diese zu guten und richtigen Ergebnisse kommen, die uns weiter bringen. Eines hat sich durch viele Recherchen durchgezogen: die Erkenntnis, dass die Kombination aus Mensch und Maschine ein Erfolgsmodell ist: Maschinen sind gut darin, Muster in großen Datenmengen zu erkennen. Menschen sind gut darin zu erkennen, ob es sich um sinnvolle Muster handelt und können den Maschinen mit einigen wenigen Regeln die richtige Richtung weisen. Mit unserem Datenjournalismus-Projekt Debate Explorer habe ich erstmals die Möglichkeit, das in der Praxis zu verfolgen, worüber ich bisher nur aus der externen Perspektive geschrieben habe: selbst eine künstliche Intelligenz mit zu trainieren, die uns Journalisten in Zukunft die Fleißarbeit abnehmen könnte.

In den ersten Projektwochen haben mein Journalistenkollege Rainer Nübel und ich uns überlegt, wie wir das anvisierte Datenschutz-Thema angehen wollen. Meine erster Ansatz und Grundlage der Projektidee war ja die Idee, nachzuvollziehen, wie genau Lobbyisten Politiker beeinflussen. Wie kommt es, dass trotz der Empörung nach den Snowden-Enthüllungen laxe Datenschutzgesetze verabschiedet wurden? Wieso ist die europäische Datenschutzgrundverordnung ein zahnloser Tiger geworden, obwohl die Menschen mehrheitlich dafür sind, dass ihre Daten besser geschützt werden sollten? (zumindest fühlt sich das in unserer Filterbubble so an). Doch dann holt uns ein ganz anderes Datenproblem ein: im Topicmodel-System der Computerlinguisten sind aktuell Bundestagsdebatten der vergangenen 17 Jahre. Schön vollständig und schön kompatibel: traumhafte Daten! Die Datenschutzthematik wird aber vorallem auf europäischer Ebene entschieden. Wir bräuchten die Debatten des EU-Parlaments. Die einzuarbeiten wäre zwar möglich, würde aber dauern. Das Projekt ist mit neun Monaten eher kurz, und wir Journalisten naturgemäß ungeduldig!

Dazu kommt ein aktueller Anlass, der uns schließlich überzeugt, das Thema auszuweiten: die Anschläge von Paris im November 2015.  Diese haben erneut gezeigt, dass Terrorgefahr oft genutzt wird, um Sicherheitsgesetze auszuweiten und die Freiheit der Bürger einzuschränken. Philosophen warnen davor, dass dies zu einer immer unfreieren Gesellschaft führt: schließlich werden Sicherheitsgesetze in aller Regel nicht wieder gelockert. Sie werden nur immer enger. Der Bundestag hat 2015 die Vorratsdatenspeicherung verabschiedet – auch das spielt in unsere Überlegungen hinein. Wer treibt diese Debatten voran? Wie wurden in Deutschland in den vergangenen 17 Jahren bis heute solche Diskussionen geführt? Wer tut sich besonders hervor? Die Algorithmen sollen uns auf die richtige Spur bringen, Muster in den Sprachdaten zeigen. Danach beginnt die klassische journalistische Recherche: Nachfragen. Konfrontieren.

Aber bis dahin sollen diese Wortwolken auf der Leinwand eine große Rolle in unserer Arbeit spielen. Jonas Kuhn und Andre Blessing haben ihr topicmodel-basiertes Explorationssystem aufgebaut und zeigen uns, was es schon gibt: 1226 Bundestagsprotokolle, alle 273.148 Redebeiträge zwischen 1998 und 2015 digitalisiert und in einem Tool namens „Topicexplorer“, das diese durch unüberwachtes maschinelles Lernen wahlweise in 200 oder 300 Themenwolken einteilt. Jetzt sitzen wir zusammen und planen, wie wir loslegen: Rainer und ich können es kaum erwarten, unser Thema anzugehen. Welche Hinweise sollen wir dem Computer geben? Nach welchen Themen und Argumenten suchen wir genau? Wir entscheiden uns für Kategorien wie „Für die Verschärfung der Sicherheitsgesetze“ oder „Gegen Vorratsdatenspeicherung“. Diese werden wir in den Debatten exemplarisch suchen, markieren und den Kategorien zuweisen. So lernt die künstliche Intelligenz nach und nach, wonach wir suchen. Wenn sie uns im zweiten Schritt Vorschläge macht, welche Textstellen noch in unser Thema passen könnten, sollen wir die überprüfen und dem System Feedback geben. So wird es immer besser und kann schließlich diese 1200 Bundestagsprotokolle, die ausgedruckt 200.000 Seiten ergeben würden, automatisch nach Argumenten durchsuchen.

Aber die Wissenschaftler bremsen uns. Im ersten Schritt wäre es wichtig zu überprüfen, ob wir auch zum richtigen Ergebnis kommen – am besten anhand eines Themas, bei dem wir schon wissen, was rauskommen soll. Skandale mit Lobbyisten in der Vergangenheit? Wir hirnen. „Da war doch was mit Lobbyisten und der Hotelsteuer“, sagt Rainer schließlich. Andre grinst und fängt an, mit Rainer zu flüstern. Ich soll für die erste Runde die Versuchsperson sein und schauen, ob ich mit diesem vagen Verdacht, dass es mal ein Lobbyistenproblem mit der Hotelsteuer gab, aus den Daten herausfinden kann, wer das vorangetrieben hat. Welche Partei wurde von Lobbyisten beeinflusst? Welche Politiker haben sich besonders hervorgetan? Mehr als „da war mal was“ weiß ich tatsächlich nicht. Eine gute Testgrundlage.

Rainer und Andre flüstern und lachen, ich höre „Millionenspende“, „Skandal“, „denen zeigen wir es!“ Mein erster Arbeitsauftrag lautet also: Kategorien zu finden und Argumente zu annotieren, die mir helfen, dem Skandal auf die Spur zu kommen. Wird das klappen? Stay tuned.