Spektrum der Wissenschaft/spektrum.de, 13. April 2017 - Link
In der Computerlinguistik nimmt eine Debatte über die Ethik des Faches an Fahrt auf: zwei aktuelle Veröffentlichungen zeigen, dass Algorithmen Vorurteile von Menschen übernehmen und diese zementieren. Wie kann sich die Gesellschaft davor schützen? Die Forscher haben verschiedene Ansätze – aber noch keine Lösung.
Wenn eine künstliche Intelligenz die menschliche Sprache aus repräsentativen Texten der Menschheit lernt, entwickelt sie Vorurteile. Schließlich stecken diese bereits in den Trainingsdaten, wenn auch häufig wenig offensichtlich. Die Diskussion darum, wie die Forschung mit dieser Tatsache umgehen soll, nimmt gerade an Fahrt auf und hat nun durch eine aktuelle Studie im Magazin „Science“ neue Nahrung bekommen: Forscher um die Informatikerin Aylin Caliskan von der Princeton University zeigen darin, dass entsprechende Algorithmen die gleichen impliziten rassistischen und sexistischen Stereotypen reproduzieren wie Menschen. Sie erzielten mit ihrem Messverfahren vergleichbare Ergebnisse wie Neurowissenschaftler, die unbewusste Vorurteile und Wertvorstelleungen bei Menschen mittels des Implicit Associations Test (IAT) untersucht hatten.
Dieser bereits 1998 entwickelte Test misst die Reaktionszeit, die Menschen benötigen, wenn sie zwei Begriffe miteinander in Verbindung bringen sollen. Kommen ihnen die beiden dahinterstehenden Konzepte semantisch ähnlich vor, ist die Reaktionszeit kürzer, als wenn die Konzepte gegeneinander zu stehen scheinen. Beispielsweise zeigt jener Test, dass die meisten Menschen offenbar Begriffe wie Blumennamen eher mit Worten wie „schön“ oder „hübsch“ assoziieren, während Insekten eher mit negativen Begriffen assoziiert werden. Forscher nutzen den IAT, um Ansichten zu messen, die Menschen ungerne zugeben wie beispielsweise Vorurteile: Angeblich können Probanden auf diesen Test nicht „politisch korrekt“ reagieren und die Antwort im Gegensatz zu beispielsweise einer Erhebung via Fragebogen nicht willentlich beeinflussen.
Maschinen produzieren ähnliche Assoziationen, wie die Modelle der Forscher in der aktuellen Studie zeigen: Caliskan und ihre Kolleginnen nutzten unter anderem das so genannte „Word-to-Vec“-Verfahren, bei dem Worte als Vektoren dargestellt werden abhängig davon, welche Worte in ihrem Umfeld in Texten häufig auftauchen. Die semantischen Zusammenhänge dieser Worte werden also nicht von Menschen programmiert, die Künstliche Intelligenz lernt selbst anhand von Millionen von Trainingsdaten, welche Begriffe zusammen gehören. In diesem Fall nutzten die Forscher für das Training einen der größten computerlinguistischen Wortschätze, den „common crawl corpus“ mit 840 Milliarden Worten aus dem englischsprachigen Internet.
Die Distanz zwischen zwei Paaren an Vektoren diente den Forschern als analoge Maßeinheit zur Reaktionszeit der Menschen im IAT-Test. Sie fanden dabei unter anderem heraus, dass die Künstliche Intelligenz Blumen ebenso wie europäisch-amerikanische Vornamen mit positiven Begriffen assoziiert, wohingegen Insekten sowie afro-amerikanische Namen mit negativen Begriffen verbunden werden. Männliche Namen stehen semantisch näher an Karrierebegriffen, weibliche Namen hingegen werden eher mit Familie assoziiert, Mathematik und Wissenschaft mehr mit Männern, Kunst mehr mit Frauen, die Namen junger Menschen werden eher als angenehm, die Namen von älterer eher als unangenehm empfunden.
Ein ähnlicher Aufsatz wie die aktuelle Science-Veröffentlichung lenkte kürzlich die Aufmerksamkeit der computerlinguistischen Community auf das Problem, das diese so genannten Word-Embeddings mit sich bringen, die semantisch ähnliche Worte allein anhand statistischer Methoden definieren: „Man is to Computer Programmer as Woman is to Homemaker“ titelten Forscher der Boston University und von Microsoft Research in ihrem Artikel, der nahezu zeitgleich wie der aktuelle Artikel bereits im vergangenen Sommer auf der Plattform Arxiv erschien (https://arxiv.org/abs/1607.06520): „Mann verhält sich zu Programmierer wie Frau zu Hausfrau“ - so spiegelt sich das Weltwissen in den Vektoren der Informatiker - und in unseren Köpfen.
Letztlich sei das Ergebnis nicht weiter verwunderlich, gibt Joanna Bryson von der Princeton-University, Mitautorin des aktuellen Science-Artikels zu: „Die Verzerrung (bias) in den Daten ist historisch, das ist unsere Kultur.“ Zudem zeigten die Assoziationen sowohl von Mensch als auch von Maschine nicht nur Vorurteile, sondern auch menschliche Wertungen, eine Art Verzerrung in der Wahrnehmung, die sich über viele Jahrtausende gefestigt haben – beispielsweise dass wir Blumen als schön empfinden. „Daran ist ja nichts negatives.“ Aber sie zeigen eben auch tief verwurzelte Vorurteile, die offensichtlich über die Sprache transportiert werden und eventuell dadurch in unser Unterbewusstsein vordringen. So könnte das Ergebnis auch die Sapir-Whorf-Hypothese (https://de.wikipedia.org/wiki/Sapir-Whorf-Hypothese) stärken, die besagt, dass unser Denken und damit unsere Weltsicht stark durch unsere Muttersprache beeinflusst wird.
Viel beeindruckender findet Bryson aber einen anderen Aspekt, der auch einiges über uns Menschen aussagen könnte und über die Art, wie wir die Bedeutung von Sprache lernen: „Allein durch das Lesen des Internets kann man sagen, dass Insekten unangenehm und Blumen angenehm sind.“ Die darunterliegende Idee sei, dass die Bedeutung eines Wortes davon abhängt, wie es benutzt wird. So sage man beispielsweise häufig: ‚Ich muss nach Hause meine Katze füttern.‘ Oder: ‚Ich muss nach Hause meinen Hund füttern.‘ Aber nie: ‚Ich muss nach Hause meinen Kühlschrank füttern.‘ Daraus lernt der Algorithmus, dass Hund und Katze ähnliche Konzepte sind, Kühlschrank hingegen ein ganz anderes. „Und vermutlich lernen auch Kinder so“, sagt Bryson. Das sei ein noch ungelöstes Rätsel: „Man sagt den Kindern: Das ist ein Pferd. Aber woher wissen wir, was sie damit verbinden? Sie könnten es als ein braunes Ding ansehen.“ Die wirkliche Bedeutung verstehe man erst, wenn das Wort in verschiedenen Kombination benutzt und gehört wird.
Auch für die Roboterforschung habe die aktuelle Studie deshalb eine große Bedeutung, so Bryson. Schließlich sei lange argumentiert worden, dass Roboter einen Körper brauchen, um die Welt wirklich zu verstehen: „Es hieß: du kannst keine Semantik bekommen, ohne die echte Welt zu fühlen.“ Sie sei selbst eine Anhängerin dieser These gewesen. „Aber das ist nicht nötig, wie unsere Studie zeigt.“ Allein das statistische Vorkommen von Worten zeigt deren Bedeutung.
Doch neben all dem steht mit den beiden Studien die künstliche Intelligenz auf dem Prüfstand, die auf der Grundlage von Trainingsdaten Vorurteile lernt und zementiert. Das spürten kürzlich schwarze Strafgefangene in den USA, für die ein Algorithmus eine längere Haftzeit vorgeschlagen hatte als für weiße Kriminelle: er hatte aus den bisherigen menschlichen Entscheidungen gelernt und die Vorurteile der Richter übernommen. Eigentlich ist es ganz einfach, sagt Margaret Mitchell von Google Research in Seattle: „Stecken wir Vorurteile rein, kommen Vorurteile raus.“ Diese seien allerdings kaum offensichtlich, weshalb sie häufig nicht bemerkt werden. „Wir haben heute dank der Deep Learning Revolution mächtige Technologien“, sagt Mitchell – und damit stellen sich neue Fragen, denn langsam wird klar, welchen Einfluss das maschinelle Lernen auf die Gesellschaft haben kann. „Solche Tendenzen in den Daten werden manchmal erst durch den Output der Systeme sichtbar”, sagt Mitchell. Aber nur, wenn sich die Entwickler darüber bewusst sind, dass sie die Ergebnisse in Frage stellen müssen.
Noch gebe es keine Lösung, wie man jene Vorurteile in den Daten systematisch aufspüren kann, die zu Diskriminierung führen können, gibt Mitchell zu: „Diese Technologie muss erst noch entwickelt werden.“ Doch es sei keine Zeit sich zurück zulehnen: „Damit müssen wir uns jetzt beschäftigen, denn diese Systeme sind die Grundlage für die Technologien der Zukunft.“ Sie nennt das die „Evolution der künstlichen Intelligenz“. Gerade an der Schnittstelle zwischen Bild- und Texterkennung gibt es immer wieder Pannen: kürzlich hatte eine Google-Software das Foto eines Dunkelhäutigen mit der Unterschrift „Gorilla“ versehen. Peinlich genug für den Konzern, um sich nun verstärkt auch dieser Ebene des maschinellen Lernens zu widmen.
„Sogar Systeme, die auf Google News Artikeln (also Zeitungsartikeln; Anm. d. Autorin) trainiert sind, zeigen Geschlechterstereotypen in einem störenden Ausmaß“, schreiben die Autoren um Tolga Bolukbasi von der Boston University in ihrem Artikel „Man is to computer programmer as woman is to homemaker“. Sie schlagen vor, die Word Embedding Modelle zu „ent-biasen“, also die Tendenzen und Vorurteile aus den Trainingsdaten zu entfernen. Joanna Bryson findet das falsch: „Es wird kaum möglich sein, jedes Vorurteil aus den Daten zu nehmen und deren Repräsentation in den Embeddings zu ändern.“ Schließlich sind die wenigsten so offensichtlich wie Rassismus und Geschlechterstereotypen. Besser ist aus ihrer Sicht, die Systeme nach dem Trainieren mit einer Art Filter auszustatten: mit programmierten Regeln, die ausschließen, dass implizite Vorurteile in Entscheidungen oder Handlungen einfließen. Ganz ähnlich eigentlich wie Menschen, die auch nicht jedes Vorurteil in eine Handlung umsetzen – womöglich ganz bewusst, weil sie eine gerechtere Welt im Auge haben. „Die Gesellschaft kann sich ändern“, sagt Bryson. Aber nicht, wenn uns die künstliche Intelligenz auf der Basis auf Daten der Vergangenheit für immer auf einem rassistischen und sexistischen Stand hält. –..-.-.-.
Interview
„Fehler haben Konsequenzen für das Leben echter Menschen“
Hanna Wallach von Microsoft Research erklärt im Interview, wieso Maschinen rassistische Entscheidungen treffen und warum es wichtig ist, sich diesem Thema zu widmen
Frau Wallach, Sie verfassen Debattenbeiträge für Forscher und organisieren Workshops zum Thema Ethik in der maschinellen Sprachverarbeitung. Wie kamen Sie auf die Idee?
Wallach: Ich beschäftige mich schon länger mit Ethik im maschinellen Lernen: wie kann die Technologie fair, transparent und zuverlässig sein? Im vergangenen Jahr hat dann der Computerlinguist Dirk Hovy ein Thesenpapier vorgestellt, in dem er darauf hinweist, dass die maschinelle Sprachverarbeitung einen starken gesellschaftlichen Einfluss hat und damit auch eine Verantwortung. Einige der Probleme kamen mir aus dem maschinellen Lernen allgemein bekannt vor, und so wuchs das Interesse, gemeinsam an dem Thema zu arbeiten.
Was sind die größten ethischen Probleme aus Ihrer Sicht?
Datengetriebene maschinelle Sprachverarbeitung reproduziert automatisch alle Tendenzen, die in den Daten vorhanden sind, beispielsweise sexistische oder rassistische Vorurteile. So konnten Forscher zeigen, dass Sprachsysteme, die auf der Grundlage von Zeitungsartikeln trainiert wurden, Geschlechtsstereotypen verstärken: sie erkennen einen starken Zusammenhang zwischen den Worten Krankenschwester/Krankenpfleger (im Englischen ist der Begriff „nurse“ geschlechtsneutral; Anm. der Autorin) und Frau.
Liegt das nicht daran, dass die Gesellschaft diesen Beruf ebenfalls vor allem mit Frauen verknüpft?
Genau, wir leben bereits in einer Gesellschaft mit Vorurteilen. Maschinen, die von uns lernen, reproduzieren das automatisch. Und sie verstärken sie, beispielsweise treffen Maschinen immer häufiger bei Bewerbungen eine Vorauswahl. Wir müssen sicherstellen, dass sie nicht auf der Grundlage solcher Verzerrungen in den Daten bestimmte Bewerbergruppen aussortieren.
Dass nicht alle Männer automatisch aussortiert werden, wenn Krankenschwestern oder Erzieher gesucht werden? Dabei wird uns doch immer wieder versprochen, dass Computer objektiv urteilen und eben nicht Bewerber ablehnen, weil ihnen die Nase nicht gefällt...
Das funktioniert aber nicht. Stellen Sie sich beispielsweise dieses Unternehmen vor, das ein automatisches Verfahren anwenden will, um zu entscheiden, welche Bewerber zum Vorstellungsgespräch eingeladen werden sollen. Welche Beispiele soll es dem Computer geben um zu lernen, wie man solche Entscheidungen trifft? Es trainiert sein System mit den bisherigen Entscheidungen der Personalabteilung, und dieses findet beispielsweise vor allem weiße Männer mit hohen Bildungsabschlüssen in der Belegschaft. Anderer Bewerber mögen ebenso gut geeignet sein, aber das System wird sie künftig aussortieren, weil es historische Vorurteile reproduziert.
Nicht immer sind diese versteckten Vorurteile so offensichtlich. Gibt es Verfahren, um diese verfälschten Daten zu finden oder sicherzustellen, dass ein solches System nicht auf Grundlage von Vorurteilen lernt?
Das ist schwierig. Ein erster wichtiger Schritt ist es, die Fehleranalyse ernst zu nehmen. Wenn Datenpunkte Menschen sind, bekommt diese Analyse ein viel größeres Gewicht, denn die Fehler haben Konsequenzen für das Leben echter Menschen. Es genügt nicht zu wissen, dass ein Modell zu 95 Prozent genau ist. Wir müssen wissen, wer von dieser Ungenauigkeit betroffen ist. Es ist ein großer Unterschied zwischen einem Modell, das für alle Bevölkerungsgruppen 95 Prozent genau ist und einem, das zu hundert Prozent genau ist für weiße Männer, aber nur 50 Prozent Genauigkeit erreicht, wenn es um Frauen oder Minderheiten geht.
Mir hat mal ein Googleverteter gesagt, dass sie keine Ahnung hätten, wie sie ethisch korrekte Algorithmen programmieren sollen. Nehmen die großen Unternehmen das Thema ernst genug?
Ja, aktuell diskutieren alle großen Tech-Unternehmen diese Themen. Natürlich ist es alles andere als ein gelöstes Problem, aber sehr viele schlaue Menschen beschäftigen sich damit und nehmen es sehr ernst. Das ist ein großartiger erster Schritt.
Hanna Wallach ist Senior Researcher bei Microsoft Research in New York und außerordentliche Professorin am College of Information and Computer Sciences an der University of Massachusetts. Sie organisiert Workshops zum Thema Ethik im maschinellen Lernen und schreibt Blogbeiträge dazu.