Süddeutsche Zeitung Wochenende, 25. März 2017 - Link
Wenn Computer lernen, den Sinn menschlicher Sprache zu verstehen, bringt das Risiken mit sich. Erste Anwendungen zeigen, wie massiv der Eingriff in unser Leben sein kann – und die betroffenen Forscher beginnen, über die Ethik ihrer Disziplin nachzudenken.
Eine Schlagzeile im Wall Street Journal hat Michael Strube am 9. Juni 2013 die Augen geöffnet. „Wie die NSA so schnell so schlau wurde“ stand dort: Wie konnte der größte Auslandsgeheimdienst der USA nicht nur massenhaft Daten sammeln, sondern vor allem diese Masse auch auswerten, insbesondere Sprachdaten aus Emails und Telefonaten? Der 51jährige Computerlinguist vom Heidelberger Institut für Theoretische Studien war auf einer wissenschaftlichen Konferenz in den USA, die Zeitung lag auf dem Frühstückstisch im Hotel. Zehn Tage nach den Snowden-Enthüllungen bewegte das die Welt – und insbesondere Strube. Schließlich wurde im Artikel detailliert erläutert, wie seine Disziplin die Spione maßgeblich stark gemacht hatte: Natural Language Processing (NLP) lehrt Computern, menschliche Sprache zu verstehen. Die meisten Menschen haben mit dieser Technologie zu tun, wenn sie Dienste wie Google Translate verwenden oder ihr Smartphone per Sprachbefehlen bedienen. Die dunkle Seite ist weniger offensichtlich: „Der Öffentlichkeit ist zwar bekannt, dass die Geheimdienste auf Metadaten zugreifen“, sagt Strube, also auf Daten wie Absender oder Betreff einer Mail. „Aber die Wenigsten wissen, wie gut wir unstrukturierte Daten analysieren können.“ Unstrukturiert, das ist aus Sicht der Informatik beispielsweise die menschliche Sprache, die für Maschinen lange eine undurchsichtige Sache war. Und auch wenn man allein aus den Metadaten von Emails viele Rückschlüsse auf eine Person und ihr Umfeld schließen kann: wer den Inhalt automatisch auswerten kann, erfährt noch viel mehr.
Hat er zu dieser Entwicklung beigetragen? Auf einmal erschienen Strube die Inhalte der Konferenz zweitrangig, die unter anderem darum kreisten, wie die Algorithmen noch genauer werden könnten und die ihn normalerweise sehr interessierten. Schließlich ist Strube ein ehrgeiziger Wissenschaftler, aber an ihm nagten Zweifel. Bringt meine Forschung Gutes für die Gesellschaft? Er verbrachte den Tag nach diesem Frühstück mehr vor den Türen als in den Vortragssälen und diskutierte mit Kollegen: Unsere Forschung wird missbraucht, darüber müssen wir sprechen!
Je mehr Publikationen er aus seinem Fach in den folgenden Wochen las, umso deutlicher wurde, wie sehr dieser Artikel seine Perspektive geändert hatte: einen wissenschaftlichen Aufsatz zur Frage, mit welchen Mitteln Teilnehmer einer Forumsdiskussion im Internet beeinflusst werden könnten, konnte er nicht mehr nur mit reiner Forscherneugier betrachten. Er konnte nicht mehr nur staunen, wie schlau die Computer nun schon waren und welche psychologischen Feinheiten sie aus den Texten der Menschen herauslesen konnten. „Die wollten eine Maschine bauen, die die Meinung von Menschen im Internet manipuliert“, sagt er, „und denen war es gar nicht bewusst, dass das gefährlich ist.“
Eine Studie darüber, wie aus der Geschichte von Alice im Wunderland Netzwerke zwischen Personen extrahiert werden können, allein aus dem Text? Beeindruckend. Aber als Strube nachsah, wer die Forschung finanziert hatte, fand er die Darpa, eine Forschungsagentur des US-Verteidigungsministeriums. „Alice im Wunderland klingt so nett harmlos“, sagt Strube. Aber die gleichen Algorithmen können auch aus Mails und Briefen herauslesen, welche Menschen in welchem Verhältnis zueinander stehen. Dual Use, das Stichwort dafür, dass Forschung häufig für gute ebenso wie für schlechte Zwecke genutzt werden kann – Strube kannte das bisher vorallem aus anderen Fachbereichen. „Als Forscher sollte man bestimmte Förderungen nicht annehmen“, sagt er, „denn man ist Diener dieses Herrn.“
Strube tingelte mit seinem Thema von Konferenzpause zu Konferenzpause und fand schließlich Mitstreiter wie Dirk Hovy von der Universität Kopenhagen, der ähnlich wie er lange nur die wissenschaftlichen Aspekte gesehen hatte. „Bisher war unsere Forschung vor allem akademisch, man ist nicht davon ausgegangen, dass Individuen betroffen sein könnten“, sagt Hovy heute, „deshalb sahen wir nicht die Notwendigkeit, das ethisch zu hinterfragen. Jetzt sind die Algorithmen an einem Punkt angekommen, an dem sie einen Impact haben können.“ Unter anderem die Recherche der amerikanischen investigativen Journalistenvereinigung propublica hat ihn aufgeweckt, die zeigte, wie ein Computersystem Schwarze systematisch diskriminierte: der Algorithmus sollte Vorschläge machen, welche Strafgefangene vorzeitig begnadigt werden könnten und welche ihre Haft bis zum Ende absitzen sollten. Dafür bekam es bisherige Entscheidungen von Richtern vorgelegt und sollte aus diesen lernen, welche Kriterien die Menschen an solche Entscheidungen anlegten. Propublica konnte nachweisen, dass das Programm offenbar vor allem die Hautfarbe als Indikator dafür nahm, welche Personen härter bestraft werden sollten. „Da lag der Bias bereits in den Daten“, sagt Hovy: Bias bedeutet eine Tendenz, die Daten waren tendenziös: die Vorurteile der Richter hatten sich im Algorithmus fortgesetzt. Zusammen mit Strube organisiert er nun den ersten Ethik-Workshop im Rahmen einer internationalen Computerlinguisten-Konferenz Anfang April im spanischen Valencia.
Neben der Dual Use Problematik sieht Hovy diese von Vorurteilen belegten Daten als eine der größten Gefahren in der Computerlinguistik. Die modernen Algorithmen lernen auf der Grundlage von Trainingsdaten und erkennen darin Muster, beispielsweise dass Schwarze häufiger schwer verurteilt werden – und reproduzieren das. Eigentlich ist es ganz einfach, sagt Margaret Mitchell von Google Research in Seattle: „Steckt man Müll rein, kommt Müll raus“, oder auch: „Stecken wir Vorurteile rein, kommen Vorurteile raus.“ Diese seien allerdings kaum offensichtlich, weshalb sie häufig nicht bemerkt werden. „Wir haben heute dank der Deep Learning Revolution mächtige Technologien“, sagt Mitchell – und damit stellen sich neue Fragen, denn langsam wird klar, welchen Einfluss solche Algorithmen auf die Gesellschaft haben können. „Tendenzen in den Daten werden manchmal erst durch den Output der Systeme sichtbar”, sagt Mitchell. Aber nur, wenn sich die Entwickler darüber bewusst sind, dass sie die Ergebnisse in Frage stellen müssen. Diese Debatte will Mitchell im Ethik-Workshop anstoßen.
„Mann verhält sich zu Programmierer so wie Frau zu Hausfrau“ heißt ein aktuell viel diskutierter Artikel in der Computerlinguistik, in dem Forscher zeigen, wie die ModelleVorurteile zementieren, selbst wenn sie auf scheinbar neutralen Texten wie Zeitungsartikeln trainiert wurden. Viele Modelle für die deutsche Sprache basieren auf einem rund 20 Jahre alten Datensatz aus Artikeln aus der FAZ, erklärt Hovy: „Aber wer spricht schon wie Artikel in der FAZ?“ Mit Kollegen zeigte er kürzlich, dass Systeme auf dieser Grundlage die Sprache von Menschen über 45 Jahren signifikant besser verstanden als die von unter 35-Jährigen. Als ein Doktorand von Michael Strube kürzlich untersuchte, worauf sich Nomen beziehen, fand er zufällig heraus, dass in den Texten seines Modells „he“ vier Mal häufiger vorkam als „she“. „Das Modell funktioniert also deutlich besser für Männer als für Frauen“, sagt Strube.
Ähnlich verhält es sich mit afro-amerikanischem Englisch: Eine große Studie mit Twitterdaten zeigte, dass die Algorithmen diese Sprache nicht „verstanden“ oder sie missinterpretierten. Lange sind solche Phänomene nicht bemerkt worden, weil man genau hinschauen muss, erklärt Hanna Wallach von Microsoft Research: „Es ist ein großer Unterschied zwischen einem Modell, das für alle Bevölkerungsgruppen 95 Prozent genau ist und einem, das zu hundert Prozent genau ist für weiße Männer, aber nur 50 Prozent Genauigkeit erreicht, wenn es um Frauen oder Minderheiten geht.“ Noch schlechter steht es um Sprachen wie Tamil oder andere große Sprachen des indischen Subkontinents, die teilweise zig Millionen Sprecher haben und für die es kaum computerlinguistische Ressourcen gibt. „Wenn man das zu Ende denkt, funktioniert Spracherkennung am besten für weiße Amerikaner über 45“, sagt Hovy. Andere Bevölkerungsgruppen haben das Nachsehen.
Dass Forscherinnen wie Mitchell von Google und Wallach von Microsoft Research die Ethik-Diskussion mit vorantreiben, zeigt, wie wichtig das Thema auch den großen Technologiekonzernen ist – und wie ratlos sie gleichzeitig sind: Noch gebe es keine Lösung, wie man jene Tendenzen in den Daten systematisch aufspüren kann, die zu Diskriminierung führen können, gibt Mitchell zu: „Diese Technologie muss erst noch entwickelt werden. Damit müssen wir uns jetzt beschäftigen, denn diese Systeme sind die Grundlage für die Technologien der Zukunft.“ Sie nennt das die „Evolution der künstlichen Intelligenz“. Gerade an der Schnittstelle zwischen Bild- und Texterkennung gibt es immer wieder Pannen: kürzlich hatte eine Google-Software das Foto eines Dunkelhäutigen mit der Unterschrift „Gorilla“ versehen.
Auch Hanna Wallach sagt, dass es den amerikanischen Tech-Riesen ein Anliegen sei, hier besser zu werden: „Es ist bei weitem noch kein gelöstes Problem, aber viele schlaue Leute nehmen das Thema sehr ernst, was ein großartiger erster Schritt ist.“ Doch auch sie sagt etwas, das den Betroffenen womöglich schon länger klar ist als jenen, die solche Technologien entwickeln: „Wenn Datenpunkte Menschen sind, bekommt die Fehleranalyse ein ganz anderes Level an Wichtigkeit, weil Fehler Konsequenzen in der echten Welt haben und die Leben von Menschen beeinflussen.“ Schließlich stellt das viele Versprechen von Bigdata in Frage: So wird immer wieder argumentiert, dass Algorithmen tatsächlich aufgrund der Fakten entscheiden und sich nicht von Emotionen oder Vorurteilen leiten lassen. „Aber wir leben bereits in einer voreingenommenen Gesellschaft“, sagt Wallach und holt die Geschichte von der Software vom Thron, die angeblich allein auf Grundlage der Qualifikation von Bewerbern entscheidet, wer zum Vorstellungsgespräch eingeladen wird – und nicht, weil ihr die Nase nicht gefällt, wie es einem Personaler passieren könnte. Das System lernt allerdings aus den Biografien der bisherigen Angestellten – und sieht eventuell, dass vor allem weiße Männer eingestellt wurden: „Es reproduziert historische Vorurteile.“
Was hilft? Ein Bewusstsein dafür zu schaffen sei der erste Schritt, darin sind sich die Forscher einig. Nur wer um die Schwächen seiner Modelle weiß und darum, wer Technologien missbrauchen könnte, kann darauf reagieren. „Letztendlich muss man sich selbst gegenüber verantwortlich sein“, sagt Hovy. Aber es ist eine Gratwanderung. Als kürzlich ein Student die Idee hatte zu erforschen, ob es eine „typische“ Schwulensprache gibt, lobte Hovy zwar das linguistische Interesse. Toll, dass so etwas möglich ist: Man könnte beispielsweise anhand von Twitterdaten erkennen, ob jemand schwul ist, allein anhand der Sprache. So etwas können die Maschinen heutzutage schon mit recht guter Zuverlässigkeit. „Aber wollen das die Menschen, dass man ihre sexuelle Orientierung anhand ihrer Sprache erkennt? Könnte das nicht missbraucht werden?“, fragte Hovy vorsichtig. Der Student erschrak: so weit hatte er nicht gedacht.
Weniger eindeutig liegt der Fall bei einer Studie, in der Hovy mit Margaret Mitchell zeigt, wie man aus Social Media Texten erkennen kann, ob Nutzer zu Depressionen neigen. Einerseits kann so etwas nutzen, um Betroffenen Hilfe anzubieten. Andererseits kann es auch missbraucht werden, um einzelne zu diskriminieren oder beispielsweise in Bewerbungsverfahren auszusortieren. Die Forscher entschieden sich dennoch dafür, sie zu publizieren und wiesen in einem Disclaimer auf die Missbrauchsgefahr hin. Wer allerdings ganz ans Ende der Veröffentlichung schaut, findet als finanzielle Unterstützer die Darpa, Amazon, Google, Facebook und Microsoft. Bei dem ein oder anderen könnte man sich fragen, ob die Forschung hier dem richtigen Herrn dient.