Datenjournalismus

Blog über unser Datenjournalismus-Projekt Debate Explorer, August 2016

So gruselig der aktuelle Stuttgart-Tatort ist, in dem eine Künstliche Intelligenz unkontrollierbar wird, so sehr wünsche ich mir, wir hätten eine Maschine, die uns ein bisschen besser versteht! Wer mit Sprachdaten arbeitet und hofft, dass uns Journalisten die Automatisierung ein wenig Arbeit abnimmt, staunt nur ob der Ankündigung der ARD: „Der Tatort HAL spielt in der nahen Zukunft, die vielleicht schneller Gegenwart ist, als wir erwarten.“ Hach, wir arbeiten an dieser nahen Zukunft, die mir gerade doch wieder etwas weiter weg erscheint.

Zu gerne würde ich unserer Maschine zurufen: Versteh mich doch, es geht um Vorratsdatenspeicherung! Aber die Wortwolke in unserer Topicsuche, die mir helfen soll, ein Thema möglichst vollständig zu finden, ist ziemlich breit geworden: in ihrem Zentrum stehen nach wie vor Begriffe wie Datenschutz und Internet. Aber seit wir unsere Daten um Spiegel-Online-Artikel erweitert haben, bekomme ich eine breite Masse an Vorschlägen, die irgendwie auch in diesen Thementopf gehören aber mit Vorratsdatenspeicherung zu tun haben.

Noch immer versuche ich, unserem „Joe“, wie mein Kollege Rainer Nübel unser Tool liebevoll getauft hat, beizubringen, welches Thema ich suche. Dafür verzichten wir bewusst auf eine Suche anhand von Stichworten, um ein Thema nicht zu sehr einzugrenzen (siehe „Link zum letzten Beitrag“)

Es heißt ja immer: je mehr Daten, umso besser. Aber für uns Menschen kann das auch unübersichtlich werden. Zu unseren 60 Millionen Wörtern aus dem Bundestag (ausgedruckt wären das 200.000 A4-Seiten – aber wer druckt schon aus… ;)) kommen jetzt alle Spiegel-Online-Artikel aus dem Zeitraum von März 1997 bis November 2015: exakt 236.480 Artikel oder 137 Millionen Wörter. Und ihr könnt euch nicht vorstellen, wie endlos viele Artikel davon sich mit Datenschutz oder Internet beschäftigen, ohne das Thema Vorratsdatenspeicherung auch nur zu berühren!

Mein Ziel ist es, die Debatte um Vorratsdatenspeicherung mit Hilfe der Künstlichen Intelligenz zu analysieren: wie verlief sie über die Zeit? Meine dahinter liegende Frage ist: wie konnte es geschehen, dass die Vorratsdatenspeicherung in Deutschland wieder eingeführt wurde, während parallel vordergründig alle so empört waren über die Snowdenenthüllungen? Letzteres kann Joe nicht beantworten, das ist der Punkt, an dem ich auf die klassische journalistische Recherche umsteigen will. Aber um dorthin zu gelangen, muss ich unserem System erst einmal verständlich machen, was ich suche.

Während ich mit der Topicsuche hadere, verkündet Rainer Nübel erste Erfolge. Er sucht nach dem Themenfeld innere Sicherheit, Terror und ähnlichem um eine alte These zu belegen, nach der manche Bedrohungslagen gezielt konstruiert werden, um eine Verschärfung der Sicherheitsgesetze politisch durchzusetzen. Allein durch das Annotieren hat er Bundestagsdebatten gefunden, die das zu belegen scheinen, für deren Aufspüren andere Kollegen nach seiner Aussage Wochen gebraucht haben. „Joe hat mich hingeführt“, jubelt er – und das ist aus seiner Sicht nur dank der Topicsuche im Gegensatz zu einer Keywordsuche möglich geworden.

André präsentiert erste Ergebnisse von ähnlichen Worten, die Joe mit „Terror“ verbindet. Darunter viel naheliegendes, aber auch ein männlicher Vorname. Huch? „Wow, Joe ist so hell!“ ruft Rainer aus. Er kennt den Namen: ein Verdächtiger in einem Terrorprozess. Andre erklärt, dass unser DeateExplorer dieses Wort offenbar für wichtig befand, da es nur in Bundestagsdebatten zum Thema Terror vorkommt – und in allen anderen nicht. Maschinelle Strategien, um die Relevanz eines Begriffes zu erkennen in Ermangelung eines menschlichen Verständnisses von Semantik.

Bei meinem Thema kommen wir zum Schluss, dass die Gefahr etwas zu übersehen nicht so groß ist, wenn ich nach Keywords suche. Und dass es anders kaum zu machen ist, passende Textstellen in den Spiegelartikeln für Joes Training zu finden. Andre verspricht, mir eine Keywordsuche für unser System zu basteln. Vorratsdatenspeicherung kommt zuverlässig als Begriff in den entsprechenden Debatten und Spiegeltexten vor, wenn es darum geht. Anders als bei „Beherbergungsgewerbe“, das Politiker gerne statt „Hotel“ verwenden, gibt es hier offenbar kaum Synonyme. Das liegt vielleicht daran, dass das Wort schon umständlich genug ist.