Um gut mit Menschen zusammen arbeiten zu können, sollten Roboter der Zukunft die Emotionen ihres menschlichen Gegenübers verstehen und sich anpassen können. Forscher stellen sich entsprechenden Hürden.
Der Mann auf dem Trainingsrad tritt in die Pedale und strengt sich mächtig an, doch plötzlich verzieht er das Gesicht. „Du wirkst als hättest du Schmerzen“, sagt sein Trainer und schaut ihn mitfühlend an, „versuche langsamer zu treten.“ Der Mann tut das, und der Trainer sagt lächelnd: „Viel besser.“ So weit, so normal. Doch der Trainer ist kein Mensch, sondern ein Avatar. Er steht seinem Schützling auf einem großen Bildschirm gegenüber und spürt auf wundersame Weise, wie es diesem geht.
Das Projekt der Uni Augsburg in Kooperation mit dem Uniklinikum in Ulm ist eines von vielen aus dem wachsenden Themenfeld des so genannten „Affective Computing“, einer Forschungsrichtung der Informatik, die Wert darauf legt, dass Maschinen nicht nur funktionieren, sondern dass sie sich auch an den Menschen anpassen und dessen Gefühle verstehen. „Gerade ältere Menschen haben häufig panische Angst, dass sie durch sportliche Betätigung Schmerzen bekommen“, erklärt Elisabeth André von der Uni Augsburg die Idee hinter ihrer Entwicklung. Doch wenn sie dann Sport vermeiden, geht das nach hinten los.Der Trainer auf dem Bildschirm soll ihnen dabei helfen, das richtige Maß zu finden und stets wissen, wie es ihnen geht. Dafür interpretiert er ihre Gesichtsausdrücke, aber auch die Geräusche wie ein lautes Ausatmen. Zudem misst das System Hautleitwert und Puls und spürt auch darüber, ob der Nutzer im Stress ist oder sich gerade überlastet. Der Trainer passt seinen Gesichtsausdruck und seine Gestik an und wirkt so tatsächlich mitfühlend – obwohl das ein Computer natürlich nicht sein kann.
Doch das ist die Zukunft, erklärt Björn Schuller von der Universität Augsburg: „Emotionen sind wichtig, weil Menschen sie zum Überleben gebraucht haben, also wird Künstliche Intelligenz sie auch zum Überleben benötigen.“ Und zwar nicht nur ein dümmliches Lächeln: im Idealfall sollen sich die Maschinen so an uns anpassen, wie wir Menschen das untereinander auch tun. Wer bei solchen Visionen zunächst an die USA denkt, liegt übrigens falsch: „Deutschland ist neben den USA eine treibende Kraft in diesem Feld“, erklärt Schuller, der schon seit vielen Jahren auf diesem Gebiet forscht. Aktuell wachse die Forschungsrichtung stark an – und so langsam zeigen sich die Herausforderungen.
Viele Projekte haben ein Training im Blick, bei dem die Menschen auch etwas darüber lernen, wie ihre Emotionen auf andere wirken. Ähnlich wie der Trainer-Avatar passt sich beispielsweise auch der Gesprächspartner eines virtuellen Vorstellungsgesprächs an die Stimmung des Bewerbers an. An diesen Punkt zu kommen, das sei eine weite Reise gewesen, sagt Patrick Gebhardt vom Deutschen Forschungszentrum für künstliche Intelligenz DFKI in Saarbrücken. Denn während viele Informatiker auf dem Standpunkt stehen, beispielsweise allein aus Gesichtsausdrücken Emotionen ableiten zu können, sei das zu kurz gegriffen. „Informatiker sind super Muster-Erkenner“, erklärt Gebhardt, und das ist auch eine der großen Stärken der neuen Methoden des maschinellen Lernens wie Deep Learning, „aber wir müssen auch ein Modell haben, zu dem die Muster passen.“ Sprich, man muss den Gesichtsausdruck interpretieren können, und dafür braucht es unter anderem Kontextwissen. So interpretieren die üblichen Apps ein Lächeln stets als Freude – aber kann ein Lächeln nicht auch Schadenfreude bedeuten, oder Scham, oder schlicht unecht sein?
Gebhardt und seine Kollegen haben jahrelang gemeinsam mit Psychologen an einem Modell gearbeitet, das nun dem System hinterlegt ist und diesem hilft zu erkennen, ob der Proband im Vorstellungsgespräch beispielsweise beschämt oder freudig lächelt. „Scham will man verstecken“, sagt Gebhardt. Deshalb sei das ein gutes Beispiel gewesen, um verschiedene so genannte Regulationsmechanismen der Menschen zu untersuchen und einer Maschine beizubringen, diese zu unterscheiden. Schließlich reagieren manche Menschen in beschämenden Situationen, indem sie sich verschließen, während andere sich herausreden und wieder andere zum Angriff übergehen. Wenn das Gegenüber in solchen Situationen nicht angepasst reagiert, kann es eskalieren. „Ein Bewerbungsgespräch ist eine prototypische Situation dafür, in der ich zeigen muss: ich bin gut“, erklärt Gebhardt – gleichzeitig werden Bewerber häufig mit Scham auslösenden Fragen konfrontiert, beispielsweise mit der nach ihren Schwächen.
Die Forscher programmierten zunächst das psychologischen Modell in ihr System, das anschließend unzählige Bewerbungsgespräche mit Probanden beobachtete und anhand deren Reaktionen lernte, die Mimik und – ebenso wichtig – die Gestik zu interpretieren. Mit zunächst menschlicher Hilfe ordnete das System diese Situationen einem der Regulationsmechanismen zu und lernte daraus. Das ist wichtig, damit der Avatar seine Reaktion entsprechend anpassen kann – nur so kommt ein Gespräch zustande, das sich natürlich anfühlt und aus dem der Proband auch lernen kann: aus allen Informationen aus Mimik, Gestik und hinterlegtem Modell berechnet das System schließlich auch das Feedback, beispielsweise: „An dieser Stelle hast du gelächelt, aber wir hatten keinen Blickkontakt – das wirkt unsicher.“
Ein ähnliches Ziel hat Emotisk, ein Trainingssystem, das Forscher der Humboldt-Uni Berlin unter anderem mit gemeinsam mit den Uni-Kliniken Aachen und Köln entwickeln: Langfristig soll es Autisten helfen, Emotionen ihres Gegenübers zu erkennen und selbst dem Gespräch angepasste nonverbale Signale zu senden. Dafür wertet die Software unter anderem die Blickrichtung sowie den Gesichtsausdruck aus und gibt dem Nutzer Feedback – auch hier passt sich der Avatar an die Stimmung an. „Wir extrahieren außerdem Parameter aus dem Interaktionsverhalten und definieren daraus die Trainingsziele“, erklärt Martin Schulte-Rüther vom Aachener Uniklinikum: Das System passt sich beim Lernen an den Nutzer an, indem es erkennt, wenn eine Aufgabe diesen über- oder unterfordert.
Eine weitere große Zielgruppe emotionssensitiver Roboter sind ältere oder kognitiv beeinträchtigte Menschen, die dank deren Unterstützung beispielsweise länger selbständig bleiben können. Auf welche Hürden solche Systeme stoßen, das mussten Forscher der Uni Bielefeld feststellen: „Von den langen Sätzen unserer Probanden war die Spracherkennung schlicht überfordert“, sagt Stefan Kopp. So lehrten sie ihrem Roboteravatar, der Nutzern bei der Tagesstrukturierung helfen soll, zunächst, Menschen sanft mittels Gesten zu unterbrechen, damit er nicht unhöflich wirkt. Das System musste zudem lernen, Missverständnisse schnell zu erkennen, erkärt Kopp: „Er soll möglichst schnell merken, wann der Nutzer skeptisch ist oder wenn Mensch und Technik aneinander vorbei reden.“ Dafür initiierten die Forscher zunächst bewusst Kommunikationsprobleme, damit das System lernen konnte, diese anhand der Reaktion des menschlichen Gegenüber schnell zu erkennen. „Menschen sind für subtile Signale der empfänglich, das sollten Maschinen auch können“, sagt Kopp.
Was allerdings häufig übersehen wird: gerade bei emotionalen Beziehungen ist auch die äußere Gestalt der Roboter wichtig. „Nicht alles, was mal kurz süß ist, möchte man den ganzen Tag um sich haben“, sagt Marc Hassenzahl, Professor für "Ubiquitous Design" an der Universität Siegen. Kindchenschema hat also ausgedient. Und auch die Frage, was die Zielgruppe wirklich möchte, ist Hassenzahl wichtig: Die Reihe an Experimenten für das Projekt „Sympartner“, das er gemeinsam mit der Arbeiterwohlfahrt Essen und der TU Ilmenau umsetzt, wirkt auf den ersten Blick amüsant: ein Mensch sitzt in einem – je unterschiedlich gestalteten - Pappkarton und spielt den Roboter, während eine Schauspielerin mit diesem verschiedene Szenen durchspielt: von der Begrüßung an der Tür (Roboter: „Hallo, schön dass du wieder da bist!“) bis zum Ins-Bett-bringen und morgendlichen wieder wecken: dabei bleibt der Roboter in der Tür zum Schlafzimmer stehen. Das habe die Gruppe nach vielen Interviews herausbekommen, in denen die Szenen mit der Schauspielerin gezeigt wurden: „Hier fängt die Intimität an.“ Der Roboter klopft jetzt an die Tür – auch wenn sie geöffnet ist. Anstatt Menschen imitieren zu wollen sei es zudem wichtig, das zu nutzen, was Roboter besonders gut können: „Sie haben eine unendliche Geduld – und man muss sich nicht bei ihnen bedanken.“ Das kann für Menschen, die ständig auf die Hilfe anderer angewiesen sind, ein echter Segen sein.
„Sozialsensitive und kooperative Systeme sind die Zukunft“, sagt Stefan Kopp von der Uni Bielefeld. Und das aus einer Notwendigkeit heraus: Wie wichtig es ist, dass Maschinen lernen, sich an Menschen anzupassen, ist den Forscher des DFKI klar geworden, als sie es ohne diese Fähigkeit probierten. Ein Vorgängerprojekt des jetzigen Bewerbungsgesprächs-Trainers sollte Jugendliche mit sozialen Problemen unterstützen. „Nur ohne integriertes Emotionsmodell“, sagt Patrick Gebhardt. Einer der Nutzer fühlte sich offenbar zu sehr in die Enge getrieben von dem Avatar, der ihn wieder und wieder mit unangenehmen Erfahrungen konfrontierte, ohne Rücksicht zu nehmen auf dessen emotionale Verfassung. Der junge Mann warf den Monitor mit dem Avatar kurzerhand aus dem Fenster.