Im April 2015 bin ich auf einem Vortrag von Jonas Kuhn, Professor für Computerlinguistik an der Uni Stuttgart, über die automatische Analyse großer Textmengen. Er zeigt an beeindruckenden und einleuchtenden Beispielen, dass jene Algorithmen erfolgreich sind, die teilweise regelbasiert und teilweise selbst lernend nach Mustern suchen. Wenn Maschinen Sprache rein nach statistischen Verfahren lernen, kommen sie zwar recht weit, aber irgendwann stoßen sie an ihre Grenzen: So wird der englische Satz „Producing fluent German tends to be quite hard.“ (Es scheint schwierig zu sein, fließendes Deutsch zu erzeugen) bei Googletranslate zu dieser Zeit beispielsweise übersetzt mit „Herstellung fließend Deutsch neigt dazu, ziemlich hart.“ Also ziemlicher Buchstabenmüll.
Wenn Menschen hingegen ein paar Regeln hinzugeben, sind die Maschinen erfolgreicher, erklärt Jonas Kuhn auf seinem Vortrag. Die Herausforderung ist, die richtige Mischung herauszufinden: Die Maschine nicht zu sehr einzuschränken, aber ihr auch nicht zu große Freiheiten zu lassen, die sie auf die falsche Spur führt. Nach dem Vortrag frage ich Jonas Kuhn, ob wir nicht ein gemeinsames Projekt starten könnten: schon lange frage ich mich, inwiefern Lobbyisten Politiker beeinflussen.
Bei einer Debatte mit meinem Kollegen Rainer Klüting von der Stuttgarter Zeitung über Datenschutz waren wir uns in vielem uneinig – und in einem einig: die Politik schützt unsere Daten schlecht, weil sie von Lobbyisten beeinflusst wird. Ist es nicht unsere Aufgabe als Journalisten, genau das nachzuweisen? Wenn man nicht zufällig einen Tipp bekommt oder ein Informant plaudert, dann ist das schwierig. Dafür müsste man große Mengen an Text auswerten: Parlamentsdebatten, Zeitungsartikel, Positionspapiere von Lobbyisten etc.
Meine Idee: wenn man automatisch ähnliche Argumentationsmuster über den zeitlichen Verlauf nachweisen könnte, wäre das ein guter Ansatzpunkt für journalistische Recherche: Wie hängen die zeitgleich ähnlich argumentierenden Politiker und Lobbyisten zusammen? Wer ändert vielleicht auf einmal seine Meinung? Wer tut sich in Debatten besonders hervor? Wer beeinflusst Diskussionen?
Jonas Kuhn ist sofort begeistert von der Idee. Auch wenn das auch für die Forschung noch eine Herausforderung ist. Die deutsche Sprache ist kompliziert für Maschinen zu verstehen, das Verb oft so weit weg vom Subjekt, Schachtelsätze und anderes tun den Rest. Bislang gibt es Plagiatssoftware, die auf Basis gleicher Worte und Formulierungen Doppelungen erkennt. Inhaltliche Gemeinsamkeiten zu finden hingegen, ist für Algorithmen noch schwierig und für die deutsche Sprache noch nicht gelöst.
Die Ausschreibung der Volkswagenstiftung „Wissenschaft und Datenjournalismus“ zu dieser Zeit kommt genau richtig: wir bewerben uns mit unserem Projekt und bekommen den Zuschlag.