Blog über unser Datenjournalismusprojekt DebateExplorer, Oktober 2016
Unser Baby spricht die ersten eigenen Worte! Genau genommen findet es die ersten eigenen Worte, nämlich Debatten rund um die Hotelsteuer. Und unser kleiner Joe zeigt, dass er tatsächlich erstaunlich viel verstanden hat. Mehr, als ich mir in den mühsamen Zeiten der Annotationen hätte träumen lassen angesichts der komischen Sprache der Politiker.
„Wir hätten auch eine superintelligente Suchmaschine bauen können“, sagt Andre. Aber wir haben uns für die künstliche Intelligenz entschieden, auch wenn unklar war und sicher teilweise noch ist, ob eine Maschine so komplexe Annotationen erlernen kann, wie sie sich beispielsweise aus Bundestagsdebatten ergeben. Dafür haben wir so die Chance, Debatten vollständiger zu analysieren und auch jene Textstellen zu finden, die unerwartete Begriffe verwenden und gewohnte Begriffe auslassen. An diesen Grenzen der Forschung zu arbeiten ist aufregend und ein Risiko, weil man nie weiß, ob es am Ende funktioniert. Aber heute haben wir einen Teilerfolg errungen.
Auf der Grundlage meiner Annotationen zur Hotelsteuer zeigt uns der DebateExplorer unter anderem, dass die Debatte nicht wie gedacht 2008/2009 aufkam, sondern dass das Thema bereits 1999 im Bundestag debattiert wurde – darauf wären wir mit einer rein manuellen Auswertung nicht gekommen. So weit vorne hätten wir einfach nicht angefangen zu lesen aufgrund unseres Bias, der uns annehmen ließ, dass das Thema erst 2008 relevant wurde.
André „spielt“ nun mit den Daten, wie es die Forscher nennen, indem er ausprobiert, wie der Algorithmus auf Angaben von außen reagiert. Beispielsweise lässt er ihn die Worte, die er aufgrund maschinellen Lernens als relevant für die Debatte um die Hotelsteuer einstuft, selbständig in zwei Gruppen teilen. In der einen Gruppe erscheinen Worte rund um das Thema Steuer, Mehrwertsteuer, Steuersenkung, in der anderen Gruppe Worte wie Hotels, Beherbungsgewerbe etc: unser Tool hat die beiden Facetten des Themas gut erkannt! Wenn Andre nun eingibt, dass alle künftigen Ergebnisse mindestens einen Begriff aus der ersten und einen aus der zweiten Gruppe enthalten müssen, sind die Treffer sehr gut. „Mit dieser Art zu optimieren muss man aber vorsichtig sein“, bremst Andre meine Begeisterung: es besteht die Gefahr, das System zu sehr zu beeinflussen und dadurch blinde Flecken zu entwickeln. Es ist das große Dilemma der Zusammenarbeit von Mensch und Computer: wer bekommt wie viel Einfluss – und wie entstehen die besten Ergebnisse?
Aber wir spüren auch die Grenzen unserer Daten. Andrés Visualisierung zeigt eine relativ gleichmäßige Verteilung der Redebeiträge zur Hotelsteuer im relevanten Zeitraum 2008 und 2009. Wir wissen, dass die FDP ein großes Interesse daran hatte, die Hotelsteuer zu reduzieren, da sie eine Millionenspende von der Hotellobby erhielt. Das System im Bundestag ist nun aber so, dass vor der Entscheidung in der Regel von jeder Partei der zuständige Sprecher die Position der Partei darlegt. Zumindest das hat unser DebateExplorer gefunden, es zeigt sich in der Visualisierung deutlich. Wollten wir nun wissen, wer die Debatte vorangetrieben hat, müssten wir unsere Datenbasis um Ausschussprotokolle und ähnliches erweitern – um jene Sphäre, in der wirklich diskutiert und gerungen wird.