Datenjournalismus

Ich sollte glücklich sein! Ich trainiere eine Software, die den Journalisten der Zukunft die Arbeit erleichtern soll. Die investigative Recherche am Leben erhält. Ich arbeite voll am Puls der Zeit – wer würde sich nicht wünschen, auch mal eine künstliche Intelligenz mit eigenem Hirnschmalz anzureichern?

Aber manchmal holen mich die Mühen der Ebene ein: Das Bürokratendeutsch der Politiker beispielsweise. Wird eine Maschine je verstehen können, was diese vor lauter Rhetorik wirklich meinen? Sie wiederholen die Argumente der Gegenseite, bevor sie verklausuliert zu ihren eigenen Standpunkten kommen, sie verwenden ohne Ende doppelte Verneinungen, Schachtelsätze – werden meine Annotationen dem Algorithmus wirklich helfen?

Manchmal weiß ich gar nicht, was ich der Maschine sagen soll: argumentiert hier jemand für oder gegen die Erhöhung der Umsatzsteuer für Hoteliers, wenn er zuerst ausführlich die Argumente der Gegenseite wiederholt? Soll ich den gesamten Block als ein Argument markieren, so dass die Maschine Rhetorik verstehen lernt: wenn jemand erst lange für etwas argumentiert, kommt es auf das Ende des redebeitrags an – bleibt er dabei oder war es nur die Vorrede, um zu zeigen, dass die eigenen Argumente noch besser sind? Oder teile ich so einen Absatz auf uns sage: hier argumentiert jemand für die Erhöhung – und hier dagegen? Aber was ist, wenn im ersten Teil doch schon einzelne Worte darauf hindeuten, dass derjenige das Gegenargument vorbereitet, und die Maschine das versteht? Verwirre ich sie dann?  Und das Thema der Hotelsteuer ist noch relativ eindeutig. Es gibt viel weniger Feinheiten als beim Sicherheitsthema. Was, wenn wir am Ende herausbekommen, dass Politikerdeutsch für Computer für immer Buchstabensalat bleibt?

Die Computerlinguisten Jonas Kuhn und Andre Blessing muntern mich auf: Es sei nicht intuitiv, was selbstlernende Algorithmen lernen. „Manchmal verstehen sie mehr, als man denkt“, sagt Jonas, „bleib dran, deine Annotationen sind wichtig.“ Wir diskutieren erneut, welche Methoden erfolgreich sind. In den Datenmassen ist es teilweise aufwendig, passende Textstellen zu finden: die Grundlage meiner Suche sind Themenwolken, die der Computer durch unüberwachtes Lernen generiert hat, indem er ähnliche Themen identifiziert. Ich gebe beispielsweise ein: erstelle aus den mehr als 1200 Bundestagsprotokollen der vergangenen 17 Jahre 200 Themenwolken (oder auch 300). Daran sieht man, dass die Maschine kein Verständnis für Semantik hat: Sie kreiert beispielsweise auch Themenwolken rund um die Worte „Sehr geehrte Kolleginnen und Kollegen“ und „Aktuelle Stunde.“ Mir wird klar, was Jonas bei seinem Vortrag meinte: Maschinen brauchen die Hilfe von Menschen. Sie sind gut darin, Muster zu finden. Aber nicht immer ergeben diese Sinn. Deshalb ist das Team aus Mensch und Maschine unschlagbar – die Mischung aus überwachtem und unüberwachtem Lernen.

Ich kann in den Themenwolken nach Stichworten suchen. Gebe ich beispielsweise „Vorratsdatenspeicherung“ ein, bekomme ich zwei Themenwolken präsentiert: eine dreht sich um die Worte „Internet, Daten, Bürger, Sicherheit, Freiheit“, in der anderen steht „Datenschutz“ und verschiedene Variationen des Wortes im Zentrum. Innerhalb der Wolken hingegen kann ich nicht mehr nach Stichworten suchen: so lese ich manche Bundestagsdebatten, die zwar einer der Wolken angehören, in der das Wort Vorratsdatenspeicherung aber nicht vorkommt. Es gehört zwar zur Wolke, ist aber natürlich nicht Thema jeder einzelnen Debatte dieses Themenkomplexes. Aber wie finde ich in diesen durchschnittlich 300.000 Wörtern jene, die sich um Vorratsdatenspeicherung drehen? Können wir das System nicht um eine Volltextsuche ergänzen?

Andre widerspricht: dann suche ich zu eingeschränkt. Das ist der Vorteil des Topicmodels: der Computer führt mich zu Debatten, in denen die Worte, nach denen ich suche, vielleicht nicht vorkommen – die aber trotzdem zum Themenkomplex gehören. Würde ich nur nach den Worten suchen, die mir im Kopf sind, wäre ich zu eingeschränkt und würde eventuell wichtige Suchergebnisse verpassen. Da muss ich ihm zustimmen: gerade in Bundestagsdebatten herrscht eine unglaubliche Kreativität vor, mit der Worte umschrieben werden. Dem Topicmodel zugrunde liegt eine Software, die unüberwacht Themen erkennt, die zusammengehören. Gibt man beispielsweise „Lobbyist“ ein, schlägt das System auch Interessensvertreter, Aufsichtsratsvorsitzender oder Verbandsvertreter vor.

Dieses Annotieren soll übrigens in Zukunft weniger aufwendig werden: vieles, was das System jetzt lernt, kann es auf andere Debatten übertragen. Andre und Jonas wiederum finden auf dieser Grundlage die besten Methoden, mit denen der Algorithmus aus meinen Annotationen lernen kann. Das Ziel:  Journalisten sollen mit unserem Tool in Zukunft nur noch relativ kurz ihr Thema annotieren müssen. Ich bin versöhnt mit den Mühen der Ebene: Sie sind gut investiert, schließlich soll uns der Computer am Ende Arbeit abnehmen.