spektrum.de, 3. Mai 2016 - Link
Der Sieg einer Googlesoftware über den Weltmeister im Brettspiel Go hat der Technologie der künstlichen Intelligenz gesellschaftlichen Auftrieb verschafft. Die Mühen der Ebene zeigen aber, dass die Algorithmen des maschinellen Lernens allerlei Fallen bergen – auch für ihre Entwickler.
Die Bank verweigert einen Kredit trotz bester Bonität, Amazon schlägt beharrlich Bücher vor, die man nie lesen würde, und der Ganzkörperscanner am Flughafen findet irgendetwas auffällig am eigenen Körper: das kann zwar keiner der freundlichen Beamten erklären, es zieht aber eine aufwendige Sicherheitskontrolle und einen Sprint zum Gate nach sich: Die Auswirkungen maschinellen Lernens kennt jeder aus dem Alltag- auch wenn die wenigsten wissen, dass dahinter Künstliche-Intelligenz-Algorithmen liegen. Im Unterschied zum Brettspiel Go, wo jeder sehen kann, wer gewonnen hat, sind die meisten anderen Anwendungsgebiete weniger transparent: liegt der Schufa-Algorithmus falsch oder ist der Betroffene wirklich nicht kreditwürdig?
Je weitreichender die Einsatzgebiete solcher Algorithmen sind, umso gefährlicher sind mögliche Fehlschlüsse oder Ungenauigkeiten solcher Systeme: Das kann jeder sofort nachvollziehen wenn es beispielsweise ums autonome Fahren oder um die Steuerung automatischer Waffensysteme geht. Experten glauben nicht daran, dass diese Fehler gänzlich auszumerzen sind. Sie liegen im System – und in der Anwendung: denn es ist längst kein Allgemeingut unter Informatikern, welcher Algorithmus für welche Anwendung geeignet ist. Dazu kommen Annahmen, die im Vorfeld getroffen werden müssen, und bei vielen Algorithmen die Unmöglichkeit, das Ergebnis auf die Richtigkeit oder statistische Relevanz hin zu überprüfen.
Wie lernen Maschinen überhaupt? Eine zentrale Unterscheidung betrifft die Art des Lernens: Algorithmen können überwacht oder unüberwacht lernen. Ersteres wird unter anderem für Klassifikationsaufgaben genutzt: ist beispielsweise ein Mensch auf einem Foto oder nicht? Grundlage dafür sind Trainingsdaten, anhand derer der Algorithmus auf Vorgabe eines Menschen lernt, was das richtige Ergebnis ist: auf diesen 1000 Bildern ist ein Mensch, auf diesen 1000 nicht. Hat das System für alle eventuell vorkommenden Fälle genügend Trainingsdaten, so die Idee, lernt es daraus selbst, bislang unbekannte Bilder zu klassifizieren. Alphago lernte beispielsweise unter anderem anhand von Millionen menschlicher Go-Spielzüge.
Auch überwachtes Lernen ist kaum zu kontrollieren
Allerdings führt der Begriff überwachtes Lernen in die Irre: dieses Lernen ist weit weniger zu kontrollieren, als der Begriff suggeriert. Der Algorithmus entscheidet schließlich auf eigene Faust, welche Kriterien wichtig sind für die Unterscheidung. „Deshalb ist es zentral, dass der Trainingsdatensatz repräsentativ ist für die Art von Daten, die man vorhersagen will“, sagt Fred Hamprecht, Professor für Bildverarbeitung an der Uni Heidelberg. Das kann allerdings kniffelig sein. So kursiert in Forscherkreisen das Beispiel eines Systems, das darauf trainiert wurde, Panzer auf Bildern zu erkennen. Der Trainingsdatensatz bestand aus Werbebildern der Herstellerfirmen von Panzern und beliebigen anderen Bildern, auf denen kein Panzer zu sehen war. Aber das System funktionierte in der Anwendung nicht – es erkannte Panzer nicht, sondern filterte stattdessen Bilder heraus, auf denen die Sonne schien. Das Problem war schnell erkannt: auf den Werbebildern hatte ebenfalls stets die Sonne geschienen. Das Netz hatte das als Kriterium angenommen. „Falls das Beispiel nicht wahr ist, ist es zumindest schön erfunden“, sagt Hamprecht.
Aber nicht alle Fehler sind so einfach zu finden. „Die Frage ist immer, woher die Daten kommen“, sagt Hamprecht. Ein Sensor beispielsweise altert oder verschmutzt, Bilder werden eventuell mit der Zeit dunkler. Wer kein falsches Ergebnis haben möchte, muss diese „Datenalterung“ mit einrechnen – und sich ihrer dafür erstmal bewusst sein. Auch ein falsches Ergebnis wird nicht unbedingt so einfach entdeckt: schließlich entscheiden Algorithmen nicht nur für Menschen offensichtlich zu erkennende Dinge wie die, ob auf einem Bild ein Panzer ist.
Neuronale Netze lernen aus Erfahrungen
Angesichts immer größerer Computer und wachsender Masse an Trainingsdaten gewinnen bei der Bilderkennung so genannte Neuronale Netze immer mehr an Bedeutung. „Sie sind heute die leistungsfähigsten Mustererkennungsverfahren“, sagt Hamprecht. Dabei wird die Funktionsweise des menschlichen Gehirns lose nachgeahmt: die Netze bestehen aus mehreren Lagen mit einer festzulegenden Anzahl an Neuronen, deren Verbindungen sich verstärken oder abschwächen abhängig von den „Erfahrungen“, die sie machen. Solche Erfahrungen sind beispielsweise die Trainingsdaten aus dem überwachten Lernen und das Feedback, ob auf einem Trainingsdatum die richtige oder falsche Vorhersage gemacht wurde.
Dank der vielen Trainingsdaten lassen sich heute sehr viel größere und tiefere Netze trainieren als noch vor einigen Jahren. Während früher ein berühmter Computer-Vision-Datensatz aus 256 Bildern und sein Nachfolger aus 1000 Bildern bestand, gibt es heute Datensätze mit einer Million gelabelter Bilder – also solche, auf denen Menschen markiert haben, was darauf zu sehen ist. Aber die Netze haben auch entscheidende Haken: „Man kann bei neuronalen Netzen schwer nachvollziehen, wie sie zu einer Entscheidung kamen“, sagt Hamprecht. Zudem beruhe der Entwurf neuronaler Netze auf einer großen Willkür: bei der Entscheidung, wie viele Lagen mit wie vielen Neuronen genutzt werden sollten, beruhe auf Bauchgefühl oder auf ausprobieren. Die Entwickler testen verschiedene Varianten und schauen, wann das beste Ergebnis entsteht. Erklären können sie ihre Entscheidung nicht. „Dieses Rumprobieren gefällt mir nicht“, sagt Hamprecht, „ich gehe den Dingen lieber auf den Grund.“
Informatiker sind nicht in Statistik ausgebildet
Dass häufig das Bauchgefühl oder auch relativ unbestimmtes Herumprobieren zu der Entscheidung führt, welcher Algorithmus für welches Problem angewendet wird, stört auch Katharina Zweig, Leiterin der Arbeitsgruppe Graphentheorie und Analyse komplexer Netzwerke an der TU Kaiserslautern: „Das größte Problem: wir als Informatiker sind nicht dafür ausgebildet zu modellieren.“ Modellieren bedeutet beispielsweise die Entscheidung, welche Daten als Trainingsdaten relevant sind und welcher Algorithmus auf diese angewendet wird. Ein umstrittenes Projekt, das kürzlich die Schufa gemeinsam mit dem Hasso-Plattner-Institut angekündigt hatte, aus Daten aus sozialen Netzwerken die Kreditwürdigkeit Einzelner vorhersagen zu können, beruhe auf einem Modell: der Idee, dass diese Daten dafür geeignet sein könnten. Welcher Algorithmus des maschinellen Lernens darauf angewendet wird, wird im Zweifel danach entschieden, welcher des beste Ergebnis bringt, also die nicht Kreditwürdigen findet und nicht zu viele Kreditwürdige fälschlich aussortiert. Schließlich wissen die Forscher aus der Zusammenarbeit mit der Schufa, wer als kreditwürdig eingeschätzt wird. Ein Algorithmus sucht dann Gemeinsamkeiten der Betroffenen anhand der Daten, die sie auf Facebook geteilt haben. Aber woher weiß man, dass das nicht zufällige Korrelationen sind? Und ist das dann seriös, Menschen auf dieser Grundlage einen Kredit zu verwehren? Aber das Ganze hat auch noch ein größeres, statistisches Problem, das häufig übersehen wird – auch von Informatikern: angenommen, am Ende entsteht ein Algorithmus, der anhand von Facebook-Daten zu 90 Prozent richtig vorhersagen würde, wen die Schufa als nicht kreditwürdig ansehen würde, und lediglich 5 Prozent Kreditwürdige fälschlicherweise als nicht kreditwürdig einstuft. Auf den ersten Blick wirkt das wie ein recht gutes Ergebnis. Man könnte auf die Idee kommen, dass Facebook eine gute Datenquelle ist, um die Kreditwürdigkeit von Menschen zu berechnen. Aber es gibt eine Falle, warnt Zweig: „Man muss betrachten, in welchem Verhältnis diese in der Bevölkerung vorliegen.“ Nur wenige bezahlen schließlich ihren Kredit nicht zurück. Angenommen, von 5000 Menschen zahlen 150 einen Kredit nicht zurück: der Algorithmus würde davon 90 Prozent - also 135 - identifizieren, hochgerechnet würden aber aufgrund des scheinbar recht treffsicheren Algorithmus gut 240 weitere Personen keinen Kredit bekommen (fünf Prozent der 4850 eigentlich Kreditwürdigen). „Damit liegt die Trefferquote, bei allen, die der Algorithmus als nicht-kreditwürdig ansieht, nur bei etwa 36 Prozent. Solche prozentuale Maße sind also ein Problem in der Künstlichen Intelligenz, wenn die vorherzusagenden Kategorien sehr unbalanciert auftreten“, warnt Zweig, „Und oft wenden wir KI dann an, wenn wir wenig wissen: bei seltenen Krankheiten beispielsweise.“ Aber genau dann fallen Vorhersagefehler stark ins Gewicht: „Man sortiert zu viele aus oder detektiert die Leute nicht, die eigentlich dazugehören.“
Unschuldige geraten zwangsläufig in Verdacht
Diese Gefahren sind beim unüberwachten Lernen möglicherweise noch größer. Dabei bekommt der Algorithmus keine Trainingsdaten und keinen Hinweis auf das gewünschte Ergebnis, sondern er soll Strukturen oder Zusammenhänge in den Daten erkennen. Er kann zum Beispiel ungewöhnliche Ereignisse finden, so genannte „Outlier“ - das wird angewendet, um Hackerangriffe auf Computernetzwerke anhand auffällig anderer Anfragen aus dem Netz zu erkennen. Die Aufgabe für den Algorithmus lautet dann: finde heraus, was typische Ereignisse sind und sage mir, was nicht typisch ist. Ein anderer wichtiger Anwendungsfall ist die Clusteranalyse, die Suche nach „natürlichen“ Gruppen, Daten mit ähnlichen Eigenschaften. Diese Verfahren sind beispielsweise geeignet, um Cliquen in sozialen Netzwerken zu identifizieren oder Kunden, die ähnliche Kaufinteressen haben. Amazon beispielsweise wendet eine Mischung aus überwachten und nicht überwachten Verfahren an: „Kunden wie Sie interessierten sich auch für...“ beruht zum Teil auf dieser Clusteranalyse, die vielleicht erkannt hat, dass Käufer von Erziehungsratgebern oft auch Holzspielzeug kaufen. Der Algorithmus sortiert die Menschen in Gruppen. Die Kunden sind es dann, die den Algorithmus trainieren: indem sie eine Empfehlung kaufen, zeigen sie ihm, dass er richtig liegt. „Amazon kann Algorithmen einfach durchprobieren“, erklärt Ulrike von Luxburg, Professorin des Lehrstuhls Theorie des Maschinelles Lernen an der Uni Tübingen, „verdienen sie mehr Geld, ist es für ihre Zwecke ein besserer Algorithmus.“ Anders ergeht es beispielsweise der NSA: so einfach ist es nicht zu überprüfen, wie zielstrebig deren Algorithmus potentielle Terroristen gefunden hat. „Das ist es, was den Leuten Angst macht“, sagt von Luxburg: schließlich geraten zwangsläufig auch Unschuldige unter Verdacht.
„Interessant ist immer, wenn etwas unerwartetes herauskommt“, sagt von Luxburg. Die Frage ist dann natürlich, ob das auch eine tiefere Bedeutung hat. Schließlich hat ein Algorithmus kein Verständnis für statistische Relevanz: ist das Ergebnis signifikant oder nur Zufall? „Ein Algorithmus kann das nicht unterscheiden: wenn ich dem sage, finde zehn Gruppen, dann findet der zehn Gruppen – unabhängig davon, ob diese in der Realität eine Bedeutung haben.“ Dieses Problem haben alle unüberwachten Verfahren: man muss viel interpretieren, weil mathematische Verfahren kein Verständnis für den Kontext haben. „Die Aussage aus der klassischen Statistik, 'mit 95 prozentiger Wahrscheinlichkeit trifft das Ergebnis zu' gibt es bei Machine Learning Anwendungen so gut wie nie“, erklärt von Luxburg. „Man muss Verfahren nehmen, die mit sehr wenigen Annahmen arbeiten - ohne Annahmen kann ich aber auch die Güte des Ergebnisses schlecht vorhersagen."
Maschinelles Lernen ist theorielos
Die Theorielosigkeit des maschinellen Lernens wird uns auf die Füße fallen, fürchtet Katharina Zweig: Denn was soll der Bankmitarbeiter demjenigen sagen, der keinen Kredit bekommt? „Du hast diesen Wert. Wieso, das weiß ich nicht, jedenfalls bekommst du keinen Kredit.“ Aus ihrer Sicht sollte man Betroffenen sagen können, was sie ändern können, um einen Kredit zu bekommen, aus welchen Gründen ihnen der Algorithmus diesen Wert zugewiesen hat. Nur wie, wenn das die Anwender eines Systems selbst nicht wissen können? Und was, wenn das Ergebnis falsch ist? Das lässt sich kaum nachvollziehen, warnt Ulrike von Luxburg: „Bei der Beurteilung der Kreditwürdigkeit von Personen verwenden Banken oft ein Machine-Learning-Verfahren im Hintergrund, das auch mal falsch liegen kann: dann kann man sich als Betroffener auf den Kopf stellen, aber man kann das Ergebnis des Algorithmus nicht ändern.“ Ein erster wichtiger Schritt sei, den Anwendern transparent zu machen, dass ihr System unweigerlich immer auch Fehler machen kann. „Den Entwicklern ist das bewusst, den Anwendern häufig schon nicht mehr.“ Auch dieses Problem liegt im System, findet Katharina Zweig: „Das Hauptproblem ist die Long Chain of Responsibility“ - die lange Verantwortungskette: erst entwickelt jemand einen Algorithmus, dann implementiert ihn ein anderer, wiederum ein anderer wählt die Daten aus und jemand interpretiert das Ergebnis – häufig verschiedene Menschen, die nicht um die möglichen Fehler wissen, die bereits im System sind.
Wie stellen wir als Gesellschaft sicher, dass die Ergebnisse am Ende gut sind? Schließlich hat auch die Gesamtheit kein Interesse daran, dass beispielsweise zu wenig Kredite vergeben werden, weil falsche Annahmen in einen Algorithmus eingeflossen sind, den keiner mehr kontrollieren kann. „Leute, die einen Kredit bekommen, bringen die Wirtschaft in Schwung.“ Katharina Zweig schwebt ein Beipackzettel für jedes System vor, der durch die Verantwortungskette weiter gereicht wird und die nötigen Informationen beinhaltet: welche Annahmen, welche Daten liegen zugrunde? Was muss beachtet werden, was sind die Grenzen des Algorithmus, wofür ist er geeignet? Speziell bei unüberwachten Lernverfahren sei eine Qualitätssicherung wichtig, ergänzt Ulrike von Luxburg. Schließlich wächst mit der Masse an Daten auch der potentielle Fehler. Die Informatikerin hat es sich zur Aufgabe gemacht, entsprechende Algorithmen auf systematische Fehler hin zu untersuchen. Aber das ist eine umfangreiche Aufgabe: es dauert bis zu einem Jahr, bis sie einen Algorithmus geprüft hat. Und auch dann ist nicht gewährleistet, dass der Algorithmus in jeder speziellen Anwendung nur richtige Ergebnisse liefert. Von einer Idee muss sich die Gesellschaft verabschieden, warnt deshalb auch Fred Hamprecht: dass ein System, das auf maschinellem Lernen basiert, je mit einer Genauigkeit von 100 Prozent arbeitet. „In der Regel liegt die Genauigkeit zwischen 60 und 99 Prozent.“ Das liege häufig auch an ungenauen Eingabedaten – eine Fehlerursache, der oft bewusst hingenommen wird: „Genaue Messungen sind teuer, man braucht mehr Zeit und bessere, teure Geräte.“ Für manche Anwendungsfälle kann man mit einer nicht perfekten Genauigkeit leben, für andere eher nicht: „Kritisch wird es zum Beispiel, wenn der Computer in autonomen Waffensystemen falsche Entscheidungen trifft“, sagt Hamprecht. Vermeidbar sei das aber prinzipiell nicht: „Es wird immer Klassifikationsfehler geben. Ein perfektes System lässt sich nicht realisieren. Alles andere ist Augenwischerei.“