Ein kinderleichter Test weist KI bis heute in ihre Schranken. Wenn Maschinen diesen Test lösen können, sollen sie Intelligenz auf menschlichem Niveau erreichen können. Was sagt das aus über das Wesen der natürlichen Intelligenz?
Erschienen am 10.7.2023 in der Republik
Wie kann man eine Maschine dazu bringen, diese Aufgaben zu lösen? Die Bilder mit den bunten Pixeln sind überall zu sehen in dieser altehrwürdigen Villa am Fusse der Schweizer Berge. Hier ist ein ungewöhnliches Labor untergebracht: Im Lab42 gibt es keine Reagenzgläser, keine Laborkittel und auch keine brummenden Kühlschränke, sondern bloss Computer. Und Räume mit griechischen Namen: Im Raum „Prometheus“ sitzen drei Männer an großen Bildschirmen, jeder von ihnen hat zwei. Der Raum „Gaia“ hat einen kleinen Erker mit Blick auf die Berge. Auch hier sitzt ein Mitarbeiter, er hat einen Tisch vors Fenster gerückt und seinen Laptop darauf gestellt. In der Ecke sitzt ein kleiner weißer Roboter mit großem Kopf, Kindchenschema.
Der Name des Labs ist Informatikerhumor und bezieht sich auf den Roman „Per Anhalter durch die Galaxis“. Darin ist 42 die Antwort auf alles. Und offenbar führt für die Antwort auf alles kein Weg vorbei an den bunten Quadraten. Sie sehen aus, als habe ein Schüler im Matheunterricht aus Langweile einige der Kästchen in seinem Matheheft nach einem bestimmten Muster bunt ausgemalt. Im Lab 42 sind diese bunten Quadrate aber nicht in Matheheften, sondern überall: an die Wand projiziert, auf Bildschirmen, in Präsentationen und auf Plakaten. Jeweils mehrere Quadrate bilden zusammen ein Muster nach einem logischen Aufbau. Vorgegeben sind jeweils zwei Quadrate, die zeigen, wie sich ein Muster verändert. Von A zu B. Beim dritten Quadrat ist nur A vorgegeben – und die Aufgabe ist es, das Muster zu vervollständigen.
Für Menschen sind diese Muster auf den ersten Blick zu erkennen. Jedes Schulkind kann diese ersten Aufgaben des so genannten Abstraction Reasoning Corpus ARC lösen. Und sie sollen zu einer künstlichen Intelligenz (KI) führen, die den Menschen übertrifft? Das hoffen jedenfalls viele Forscherende aus dem Bereich des maschinellen Lernens. Denn sie sind überzeugt: Wenn Maschinen diese Aufgaben lösen können, haben sie eine entscheidende Qualifikation gelernt - nämlich zu abstrahieren und zu generalisieren. Weltweit tüfteln deshalb Tausende Fachleute an Computerprogrammen, die diese 400 Aufgaben lösen. Der Corpus ist eine der wenigen Herausforderungen, an denen Computer bisher grandios scheitern. Trotz KI-Hype um Chat-GPT und andere künstliche Sprach-Systeme, die immer schlauer zu werden scheinen.
Während andere wahlweise davor warnen, dass KI die Weltherrschaft übernehmen, Schaden anrichten und zu Massenarbeitslosigkeit führen könnte oder davon schwärmen, wie KI die Klimakatastrophe und den Ernährungsnotstand lösen könnte, sitzt Michael Hodel in diesem Sommertag im Raum „Prometheus“ im Lab42 in Davos und fragt sich, wie er KI befähigen kann, diese denkbar einfachen Aufgaben zu lösen.
Der 26-jährige Informatik-Student der ETH Zürich fällt in der Villa ein wenig aus dem Rahmen mit seinen langen Haaren, der Sporthose und dem entschlossenen Blick auf den Bildschirm. Über den Stuhllehnen der anderen beiden Lab-Mitarbeiter im Raum hängen weiße Jacken mit runden Aufnähern an den Ärmeln. „42 CoreTeam“ steht darauf, es wirkt wie ein Auszeichnung. Doch so etwas scheint Hodel nicht wichtig zu sein, er trägt ein verwaschenes T-Shirt und hat gerade nur Augen für die vielen Pixel-Muster auf seinem Bildschirm. Er versucht gerade, noch mehr ähnliche dieser ARC-Aufgaben zu gestalten, damit ein Computerprogramm daraus verschiedene Konzepte lernen kann. Als Informatiker geht er das ganze logisch an, und das heißt für ihn, dass die Aufgaben auf Konzepten beruhen. Beispielsweise das Konzept, einen Hohlraum zu füllen, oder das, zwei Objekte aufeinander zu stapeln. „Bisher hat es niemand mit maschinellem Lernen gelöst“, sagt er – also das, was landläufig KI genannt wird. Das liegt daran, dass KI sehr viele Trainingsdaten braucht – die 400 Beispielaufgaben sind bei weitem nicht genug, zumal sie viele verschiedene Konzepte abdecken.
Im Lab ist allerhand los an diesem Tag, die sechs Mitarbeitenden treffen sich zum monatlichen Klausur, zudem kommt ein Investor, der sich persönlich von den Fortschritten überzeugen will, die das Lab auf dem Weg zur so genannten allgemeinen künstlichen Intelligenz macht, auf Englisch: Artificial General Intelligence, AGI. Es ist das, wovor sich die Welt wahlweise fürchtet oder die sie für die Rettung der Menschheit hält. Im Lab42 glaubt man an zweiteres.
„Decode the mind for humankind“ prangt in großen Buchstaben auf der Webseite des Lab42. Eine der Leitfragen: Was können sich Computer vom menschlichen Gehirn abschauen, um ihre „Intelligenz“ auf breitere Füße zu stellen? Bisher sind maschinellen Systeme zumeist gewissermassen Fachidioten: sie können meist nur eine einzelne Aufgabe sehr gut lösen. Beispielsweise Bilder erkennen oder die beste Route von A nach B errechnen oder menschliche Sprache erzeugen. Aber selbst die neuesten Sprachmodelle wie ChatGPT wirken zwar aufgrund ihrer Eloquenz erstaunlich intelligent – aber immer wieder fallen sie durch dumme Fehler auf, die zeigen, dass sie nicht „verstehen“, wovon sie sprechen.
Wer die Tür gegenüber von Hodels Platz öffnet, kommt in den „Boardroom“ - so steht es am Türschild. Heraus dringt ein blauer Lichtschein, der von einer großen leuchtenden Nachbildung des menschlichen Gehirns stammt. Die leuchtende Plastik nimmt den ganzen Erker in der gegenüberliegenden Ecke ein und beleuchtet abends durch die Fenster auch die Straße von Davos. „Damit alle wissen: das sind die mit dem Gehirn“, sagt Pascal Kaufmann grinsend. Wobei man in Davos wohl schon beim Anblick des Gründer des Lab42 erahnt, dass hier etwas Besonderes erforscht wird: In seiner weißen Jacke mit den „Lab-42“-Aufnähern an der Schulter erinnert er an einen Nasa-Astronauten – insbesondere dann, wenn sich vor dem Lab die Flügeltüren seines weißen Tesla heben und Kaufmann heraussteigt wie aus einem Raumschiff.
Kaufmann sitzt am großen runden Tisch, der den Board-Room dominiert, und versucht gerade, seinen Laptop mit dem Beamer zu verbinden. Der Züricher Neurowissenschaftler und Unternehmer beschäftigt sich schon seit einigen Jahren mit maschinellem Lernen und der Frage nach allgemeiner künstlicher Intelligenz. „Wir wollen den Braincode entschlüsseln“, sagt Kaufmann stolz. Gleich kommt ein Investor, dem er von den neuesten Projekten berichten will. Als der Laptop endlich läuft, erscheinen auch hier die bunten Kästchen an der Wand.
Wie könnte eine künstliche Intelligenz entwickelt werden, die flexibel ist wie die menschliche Intelligenz, die gleichermaßen Aufgaben aus verschiedenen Bereichen lösen kann? Der Weg könnte über die Lösung eines Wettbewerbs führen, den Kaufmann ausgeschrieben hat mit seinem Lab und an dem sich bereits tausende Teams aus aller Welt beteiligt haben: Wer ein Computerprogramm einreicht, das alle dieser bunten ARC-Aufgaben lösen kann, gewinnt 69.000 Dollar. Die gesamte Challenge besteht aus 400 Beispielaufgaben, auf deren Basis Maschinen lernen sollen, wie diese Art von Aufgaben zu lösen sind. Und 400 weiteren Testaufgaben, die Forschende nutzen können um zu testen, ob ihre Computersysteme in der Lage sind, auch noch unbekannte Aufgaben nach einer ähnlichen Systematik zu lösen. Und dann gibt es noch geheime Testaufgaben, die nur einer kennt: Francois Chollet, ein Google-Forscher, der die Aufgaben entwickelt hat und dessen Programm die Einreichungen auswertet.
Bisher erreichten die meisten Teilnehmenden Null Prozent. Nur eine Handvoll Teams konnte mehr als zehn Prozent der Aufgaben lösen, der aktuelle Weltrekord liegt bei 31,4 Prozent. Für jeden weiteren Prozentpunkt hat Kaufmann 1000 Franken drauf gelegt – und die ersten drei Teams, die 42 Prozent erreichen, können ihren Namen in einen Fels in den Schweizer Alpen eingravieren lassen.
Der Student Hodel ist gewissermaßen Kaufmanns Trumpf. Bis vor kurzem war er Weltrekordhalter: Hodel hat ein Programm entwickelt, das 30,4 Prozent der insgesamt 400 Testaufgaben des ARC-Datensatzes gelöst hat. Er kam über eine Summerschool ins Lab, zu der Kaufmann geladen hatte. Und auch wenn Hodel kein Mitarbeiter des Labs ist, darf er kommen, wann immer er will – für ihn ist immer ein Computer frei. Schließlich hatte Kaufmann seinen Investoren schon für 2022 einen Weltrekord versprochen, den Hodel Anfang 2023 schließlich eingefahren hat. Mit etwas Verspätung. Und auch, wenn er jetzt gerade wieder überholt wurde, ist er doch einer der wenigen weltweit, die überhaupt einige der Aufgaben maschinell lösen konnten und vor allem: die ein Gefühl dafür haben, welche Methoden funktionieren könnten.
Aber was ist eigentlich für Maschinen so schwer an der Challenge? Und welche entscheidende Fähigkeit sollen sie daraus lernen, die sie näher an allgemeine Intelligenz bringt?
Dafür lohnt es sich den Erfinder des ARC-Corpus zu befragen. François Chollet erklärt sich sofort bereit, über sein Herzblut-Projekt zu sprechen. „Menschen lernen ganz anders als Maschinen“, sagt er zum Auftakt des Gesprächs per Videokonferenz aus dem Homeoffice an der US-Westküste. Er wirkt jünger, obwohl er mit Mitte 30 schon jung ist für seinen Bekanntheitsgrad. Der Experte für maschinelles Lernen arbeitet als Software-Entwickler bei Google und ist in der KI-Szene recht bekannt, unter anderem, weil er ein verbreitetes Lehrbuch über maschinelles Lernen geschrieben hat. Vor allem aber weil er vor vier Jahren diesen ARC-Datensatz entwickelt hat, an dem Entwickler und Forschende seither ihre Systeme messen – und an denen sie sich die Zähne ausbeißen. Weil Menschen anders lernen als Maschinen.
Addition beispielsweise: Große Sprachmodelle müssen Millionen von Beispielen sehen, um grob in der Lage zu sein zu rechnen – und sie machen dennoch Fehler. „Aber einem Sechsjährigen kannst du Addition beibringen mit ganz wenigen Beispielen.“
Ähnlich ist es mit den ARC-Aufgaben: Menschen genügen wenige Beispiele, um das jeweilige Konzept zu verstehen und es fortzuführen. Das liegt an unserer Lebenserfahrung, die sich in unsere Intuition eingräbt. So erkennen wir meist auf den ersten Blick das Konzept der jeweiligen Aufgabe: Hier wird ein Zwischenraum ausgefüllt, dort ein Bild gespiegelt, hier eine Bewegung fortgeführt, dort zwei Farben getauscht. Zentral sind die Fähigkeiten zu abstrahieren und schlusszufolgern. Die Aufgaben werden im weiteren Verlauf schwieriger, aber mit menschlicher Intuition ist es leicht zu entscheiden, in welche Richtung es geht.
Chollets Ziel: Maschinen von ihrem Hang zur Inselbegabung zu befreien. Denn während wir Menschen breite, generelle Konzepte lernen – und das gewissermaßen automatisch und von Geburt an durch unsere Interaktion mit der Welt – werden Systeme künstlicher Intelligenz stets für eine konkrete Aufgabe entwickelt. Ihnen fehlt die Fähigkeit zu abstrahieren und Schlussfolgerungen zu treffen, um noch unbekannte Probleme lösen zu können. „Es zieht sich durch die Geschichte von KI“, sagt Chollet seufzend: „Wir entwickeln Systeme für jeweils eine konkrete Aufgabe – aber dann können sie auch nur diese eine Aufgabe erledigen. Das ist keine Intelligenz.“
Aus seiner Sicht enden alle bisherigen Wege zur Entwicklung von KI in einer Sackgasse. Selbst die jüngsten Erfolge großer Sprachmodelle können ihn nicht überzeugen. „Sprache enthält viel Wissen und Repräsentationen über die Welt“, sagt er. Doch es reiche nicht, um die dahinterliegenden Konzepte zu verstehen. „Wir haben diesen Ansatz bis an seine Grenzen ausgereizt“, sagt er. Als Trainingsdaten das ganze Internet, die neuesten Modelle sind riesig. „Es ist, wie einen Schwamm mit allem zu trainieren“, sagt er. So beeindruckend die Ergebnisse seien, „es ist eine Sackgasse.“ Er hat kürzlich ChatGPT ebenso wie Googles Bard eine Aufgabe vorgelegt, die ein ähnliches Muster hat wie die aus seiner ARC-Challenge, nur Zeichen basiert. ChatGPT gab eine Antwort, die offensichtlich lächerlich falsch war. Bard antwortete, es könne solche Aufgaben nicht lösen. „Bard gewinnt für Ehrlichkeit“, tweetete Chollet.
In den vier Jahren, seit es die Challenge gibt, haben sich die besten KI-Entwicklungsteams der Welt beteiligt, sagt Chollet: „Der Test zieht die Leute an, weil er schwer ist und weil ihn noch niemand gelöst hat.“
Aber vielleicht braucht es gerade kein Elite-KI-Team, keines der besten der Welt – sondern eine ganz neue Herangehensweise. Das ist der Ansatz, den man in Davos verfolgt. „Ich glaube, es genügen zwei oder drei junge Menschen, Außenseiter mit ungewöhnlichen Ideen“, sagt Pascal Kaufmann im Lab42-Boardroom : „Ich glaube, dass der Durchbruch in human level AI von einem Michelangelo, einem Einstein, einem Da Vinci kommt.“ Immer wieder, wenn er von einem Raum in den anderen läuft, schaut er Michael Hodel kurz über die Schulter. Gerade arbeitet der an einer Art Toolbox, einem Set von Funktionen, die Konzepte hinter einzelnen Aufgaben ausdrücken – zum Beispiel Objekte zu identifizieren oder eine Farbe gegen eine andere zu tauschen. Diese könne man zusammenschalten, um ARC Aufgaben zu lösen, erklärt er Kaufmann. Allerdings werden das lange, aufwendige Konstruktionen. Der Wettbewerb verlangt aber nach schlanken Programmen, die in wenigen Stunden Lösungen erbringen. In einer unendlichen Fleißarbeit hat er für jede der 400 Testaufgaben ein eigenes Computerprogramm geschrieben. „Wenn ich unendlich viel Speicherkapazität und Laufzeit hätte, könnte ich jetzt fast alle Tasks lösen“, sagt er.
Seine aktuelle Hoffnung: Dass sein System aus diesen unzähligen Funktionen ein gewisses Verständnis für die Konzepte entwickeln kann – dass es also ähnlich wie Menschen relativ intuitiv erkennt, welches Konzept es nutzen muss, um eine Aufgabe anzugehen: wird beispielsweise eine Fläche gefüllt, wird ein Objekt gespiegelt, bewegen sich Objekte aufeinander zu? Über diesen Umweg könnte doch noch maschinelles Lernen ins Spiel kommen, so sein Plan. „Aber Daten und Intelligenz sind ein Gegenpol“, sagt Kaufmann und klingt fast streng dabei, „wenn du viele Daten brauchst, dann hast du weniger Intelligenz.“ Ist es nicht das Ziel, das mit so wenig Daten wie möglich zu lösen, so wie es wir Menschen es machen? „Willst du die Challenge brute force lösen?“ - mit roher Gewalt also? Diesen Ausdruck nutzen Informatiker, wenn sie ausdrücken wollen, dass etwas durch viel Rechenaufwand oder viele Daten gelöst wird und eben nicht auf direkte, elegante Weise.
Aber stimmt die Aussage überhaupt, dass wir Menschen auf der Basis von wenigen Daten lernen, fragt Hodel: „Ein Erwachsener hat ganz viel vorheriges Wissen.“ Nur deshalb erkennen wir die Konzepte hinter den Tasks auf den ersten Blick: Weil wir seit unserer Geburt Daten verarbeiten und diese Konzepte aus dem Alltag kennen. Diese ganze vorherige Wissen müsste aus Hodels Sicht fairerweise übersetzt werden in Trainingsdaten für KI, damit diese die gleiche Chance hat – und schon ist es vorbei mit der schlanken Lösung.
Hodel ist mir dieser Idee nicht allein. Eine erfahrene Informatikerin aus den USA verfolgt einen ähnlichen Ansatz, Melanie Mitchell. Auch sie gilt als eine der Großen in der Debatte um KI und Verstehen. Kürzlich hat sie ein Symposium ausgerichtet, in dem Informatikerinnen, Philosophen, Hirnforscherinnen und Fachleute für maschinelles Lernen mit Rang und Namen drei Tage lang über die Frage des Verstehens und KI diskutiert haben. Auch Mitchell erklärt sich schnell bereit zum Interview. Im Videointerview vor einem übervollen Bücherregal in ihrem Büro erklärt sie – braune halblange Haare, Brille, konzentrierter Blick - dass sich das menschliche Wissen vermutlich nicht nur auf das beschränkt, was wir in unserem Leben bis dahin gesehen haben, sondern auch auf Erfahrungen vorheriger Generationen, die in unseren Genen gespeichert sind. Und außerdem so genanntes kulturelles Wissen, das sich in menschlichen Kulturen bildet und verfestigt: „Eine Theorie ist, dass Menschen angeborene Konzepte haben, so genannte core concepts“, sagt sie, Kernkonzepte also. Diese helfen uns zu lernen, sie sind gewissermaßen eine Abkürzung für uns.
Auch sie hat ähnlich wie Michael Hodel neue ARC-Aufgaben erstellt, allerdings deutlich einfachere, und diese sortiert nach Konzepten. Also beispielsweise „eine Fläche ausfüllen“ oder „ein Objekt spiegeln“. Ohne diese Kernkonzepte kommt KI aus ihrer Sicht nie auf ein menschliches Intelligenzniveau. Letztlich soll das dem Weg nahekommen, wie wir Menschen Konzepte lernen – nur, dass wir es einfacher haben, weil wir einen Körper haben und Experimente machen können: „Babies probieren das einfach aus“, sagt sie, „man könnte Roboter haben, die die kindliche Entwicklung nachempfinden.“ Diese Art maschinellen Lernens ist nicht neu, aber derzeit nicht besonders populär angesichts des Hypes um große Sprachmodelle. Auch, weil nach wie vor viele überzeugt sind, dass diese kurz vor dem Durchbruch zu allgemeiner Intelligenz sind.
Vielleicht können diese Kernkonzepte aber auch in Regeln übersetzt und einfach einprogrammiert werden. Das allerdings ist nicht einfach, das zeige die Vergangenheit: „Wenn man zu viele Regeln vorgibt, ist das Programm nicht flexibel genug.“ Bevor Computer genügend Leistungsfähigkeit hatten für maschinelles Lernen funktionierten Programme vor allem durch Regeln. Programmierer mussten dafür alle Eventualitäten eingeben, die sich im Laufe der Zeit ergeben würden. Im Sprachbereich hat sich aber schnell gezeigt, dass es kaum möglich ist, alles aufzuschreiben und in Regeln zu gießen, was die Welt zusammenhält – auch wenn Computerlinguisten über viele Jahre in langen Listen alles zusammentrugen, was Weltwissen ausmacht (beispielsweise: Jeden Menschen gibt es nur ein Mal; Vögel können fliegen etc). Doch sie wurden nie fertig: Weltwissen ist schier endlos.
Als maschinelles Lernen in großem Umfang technisch machbar wurde, verschob sich die Aufmerksamkeit: Seither verfolgen die meisten KI-Forscher das Konzept, dass Maschinen aus Trainingsdaten Zusammenhänge selbst erkennen sollen. So funktionieren auch die großen Sprachmodelle: Sie wurden mit vielen Terabyte an Daten aus dem Internet gefüttert – im Prinzip das ganze Internet – und lernten auf statistische Weise die Muster, die sich hinter unserer Sprache verbergen. Wenn sie nun als Chatbots eingesetzt werden, läuft im Hintergrund ein Prozess, der stets das wahrscheinlichste nächste Wort vorhersagt – so bilden sie Sprache.
Ist das besser als die alten regelbasierten Programme? „Maschinelles Lernen funktioniert recht gut“, sagt Mitchell, „aber manche Dinge fehlen, die wir Menschen können, zum Beispiel abstrahieren.“ Also eine Lösung auf ein anderes Problem übertragen und anpassen beispielsweise. Dabei helfen uns jene angeborenen Kernkonzepte: Diese kommen uns so normal vor, dass es zunächst gar nicht so intuitiv ist, dass die Welt für Maschinen womöglich ganz anders aussieht: „Wenn wir unsere Umgebung betrachten, sehen wir Objekte, während Maschinen nur Pixel sehen“, sagt Mitchell. Das Konzept dahinter heißt Segmentierung: für uns ist klar, wo ein Objekt anfängt und wo es aufhört, „sogar Neugeborene können das mühelos.“ Vermutlich können wir das, weil es wichtig ist für unser Überleben, „es ist nützlich, die Welt in Objekte aufteilen zu können.“
So erkennen wir auch, wenn ein Objekt hinter einem anderen verschwindet, weil es sich dorthin bewegt – während die Veränderungen durch Bewegungen von Objekten für ein Computerprogramm lediglich aussehen, als wenn sich Pixel verschieben und diese schließlich teilweise verschwinden oder die Farbe verändern. „Vieles von diesem tiefen Wissen über die Welt ist nicht einmal aufgeschrieben“, betont die Informatikerin. Das heißt, große Sprachmodelle können sich zwar auf Basis von Sprachmustern vieles über die Welt „zusammenreimen“, aber einiges entscheidendes Wissen ist so tief in uns Menschen verankert, dass wir es nie in Worte gefasst haben. Große Sprachmodelle bleiben blind dafür. „Deshalb versagen Sprachmodelle in vielen Aufgaben des logischen Denkens und des Generalisierens“, sagt Mitchell, „weil sie diese Konzepte nicht haben.“ Und deshalb werden Sprachmodelle wie ChatGPT aus ihrer Sicht nie den Weg zu allgemeinerer künstlicher Intelligenz ebnen. Sie bräuchten ein Verständnis für die Konzepte, die in der ARC-Challenge geprüft werden – doch die haben sie nicht.
Ob die Lösung der ARC-Challenge hingegen hinreichend ist für menschenähnliche Intelligenz, steht ebenfalls infrage. „Wenn Computer tatsächlich in der Lage sein sollten, beispielsweise ein Objekt über das andere zu bewegen – verstehen sie dann wirklich, was das bedeutet?“, fragt Mitchell. Nur weil das ein Programm in einem Fall richtig mache, sei noch lange nicht klar, dass es das dahinterliegende Konzepte verstehe – doch das wiederum ist die Grundlage dafür, dass es robust und zuverlässig funktioniert.
Mitchell hat das kürzlich demonstriert. Sie war genervt, weil in den sozialen Medien immer wieder Beispiele kursierten, die angeblich zeigten, dass die großen Sprachmodelle die Welt wirklich verstehen, dass sie physikalische Zusammenhänge richtig einordnen können und vieles mehr. „Das sind immer Einzelbeispiele, sobald man das anders formuliert, merkt man, dass das Modell nichts verstanden hat.“ In ihrem Beispiel schlug das Modell vor, eine Zahnbürste in Pudding zu stecken, darauf einen Marshmallow zu balancieren und auf diesem ein Glas Wasser. Jeder Mensch kann sich vorstellen, dass das nicht funktionieren kann.
Wie machen wir Menschen das? „Being you“ – der Schriftzug prangt auf einer riesigen Darstellung der Iris des menschlichen Auges. Das Ganze ist das Cover des Buches von Anil Seth: 982 Seiten lang hat der Professor für Cognitive and Computational Neuroscience an der University of Sussex ausgeführt, wie das menschliche Bewusstsein funktioniert. „Noch ist es relativ einfach, Sprachmodelle bei Fehlern zu erwischen, die zeigen, dass sie nicht wirklich verstehen“, sagt Seth, kahlrasiert und in schwarzem T-Short vor der Kamera. „Being you“ steht hinter ihm in einem selbstgezimmerten Baumarktregal in seinem recht kleinen und kargen Arbeitszimmer, ein Drucker und einige wenige Bücher. Das werde sich aber in Zukunft ändern, wenn diese Modelle immer besser werden. Letztlich seien sie aber einfach nur „next-token-prediction-machines“, sagt er – also Modelle, die vorhersagen, welches Wort auf das nächste folgt – allein auf Basis von statistischer Wahrscheinlichkeit.
„Man könnte provokativ behaupten, dass das alles ist, was verstehen ausmacht und dass das in unserem Kopf genauso funktioniert.“ Er selbst gehe zwar nicht davon aus, dass es so ist – „aber es ist auch immer eine Überlegung wert.“ Denn: Auch unser Gehirn ist eine Vorhersage-Maschine. Immer wieder hat die Hirnforschung gezeigt, dass wir permanent im Alltag vorhersagen, was geschieht. Wir schalten das Licht an, es wird heller im Raum. Wir lassen etwas fallen, es schlägt auf dem Boden auf. Unser Gehirn entwirft ständig Hypothesen über die Welt und überprüft sie. Nur wenn sie falsch sind, wenn etwas anderes passiert, passen wir das Modell an. Funktionieren menschliche Gehirne und große Sprachmodelle mit ihrem Vorhersageprinzip also doch ähnlicher, als wir uns eingestehen wollen? „Es gibt viele Parallelen zu künstliche Intelligenz“, so Seth, „aber die Versuchung ist groß, uns für etwas besonderes zu halten.“ Noch ist aber aus neurowissenschaftlicher Sicht völlig unklar, was Verstehen genau bedeutet oder wie das im biologischen Gehirn vor sich geht. Vielleicht ist es doch nicht mehr als die Vorhersagemaschine, die wir in künstlichen neuronalen Netzen beobachten können.
Eines sei sicher: „Wenn du ein Konzept verstanden hast, dann kannst du es auch generalisieren.“ Sprich: wenn wir sehen, dass das Konzept ist, dass eine Fläche ausgefüllt wird wie in den ARC Aufgaben, können wir das auch dann umsetzen, wenn die nächste Fläche größer ist oder eine andere Form hat. „Ein Psychologe würde aber sagen, dass selbst etwas, das sehr gut generalisieren kann, noch nicht unbedingt versteht.“ Denn eine weitere Grundlage für Verstehen sei die körperliche Dimension. Seth greift nach seiner Kaffeetasse, die vor ihm auf dem Tisch steht: „Ich kann diese Tasse hochnehmen und verstehe, was das bedeutet.“ Zu spüren, wie sie sich anfühlt, ihre Form, ihr Gewicht, hilft auch beim Verstehen.
Große Sprachmodelle hingegen haben keinen Körper. Und in der Tat zeigen sich Chatbots immer wieder „verwirrt“, wenn es um physikalische Zusammenhänge geht – wie ja auch Mitchells Experiment zeigt. Auch hier ist es für Menschen auf den ersten Blick klar, wieso das nicht funktionieren kann – wahrscheinlich auch, weil wir unzählige haptische Erfahrungen mit Gegenständen und Begegnungen mit der Schwerkraft haben. „Deshalb fühle ich mich der konservativen Herangehensweise näher, die besagt, dass große Sprachmodelle das Verstehen nur simulieren“, sagt Seth. Für echtes Verstehen brauche es vermutlich einen Köper. „Wir sind evolutionär vortrainiert“, sagt er und nutzt wieder ein Wort, das auch in Zusammenhang mit neuronalen Netzen verbreitet ist – auch diese sind vortrainiert und werden dann auf eine speziellen Anwendungsfall feintrainiert. Es steckt sogar im Namen ChatGPT, General Pretrained Transformer. Ein Unterschied ist sicher, sagt Seth: „Unser gesamtes Vortraining fand auf eine verkörperte Art und Weise statt.“
Dennoch könne es sein, dass Maschinen anders verstehen. Wir sollten nicht zu sehr von uns ausgehen, wenn wir allgemeine künstliche Intelligenz bauen wollen, warnt Seth zum Abschluss des Interviews: „Wir sollten uns immer im klaren sein, dass es darum geht, ein Werkzeug zu bauen, nicht einen „Kollegen.“ Von daher könnte das Abstrahieren in Maschinen auch anders funktionieren – nicht alles muss an den Menschen angelehnt sein.
Am nächsten Tag sitzt Michael Hodel nachdenklich vor seinen beiden Bildschirmen in der Lab42-Villa. Er hat sich gerade mit dem aktuellen Gewinner der ARC-Challenge per LinkedIn ausgetauscht. „Bist du weiter dran?“, fragte ihn der. Hodel seufzt vor seinem Bildschirm. Er kann nicht anders. „Ich bin angefressen von der Challenge.“ Aber ist die Lösung der ARC-Challenge überhaupt der richtige Weg, um zu menschenähnlicherer KI zu kommen?
Schließlich landet der Student bei seiner Internetsuche nach Antworten bei einer Erklärung des Gewinners der ARC-Challenge vor drei Jahren. „Icecuber“ lautet sein Alias auf der Plattform Kaggle. Dahiner verberge sich ein schlauer norwegischer Jugendlicher, sagt Hodel und klingt bewundernd. Icecuber erklärt seine Lösung – sie hat Gemeinsamkeiten mit dem Ansatz Hodels – und schreibt darunter: „Leider habe ich nicht das Gefühl, dass meine Lösung uns der allgemeinen künstlichen Intelligenz näher bringt.“ Unter seinem Beitrag diskutieren andere User über seinen Weg und die Challenge. Einer schreibt tröstend: „Ich glaube, wenn du so weiterarbeitest, kannst du ARC vielleicht auch ohne allgemeine KI knacken.“
Was, wenn die Kernkonzepte doch nicht wichtig sind für allgemeine KI – wenn die Lösung der Challenge also tatsächlich nicht zu menschenähnlicher maschineller Intelligenz führt? „Das ist mir egal“, sagt Hodel fast trotzig. „Mir geht es nicht um allgemeine KI, mir geht es um die Challenge.“
Pascal Kaufmann hingegen jagt den Braincode, für ihn ist die Challenge nur Mittel zum Zweck. Deshalb bespricht er derweil im Boardroom mit seinem Team die nächsten Optionen auf dem Weg zu menschenähnlicher KI. Zur Wahl stehen: Eine KI, die einen Avatar in einer virtuellen Welt bewohnt – oder Schwarmintelligenz. Der Avatar soll der KI einen Körper geben in der Hoffnung, dass das der fehlende Baustein ist. „Es muss ein kleine neugieriger Wissenschaftler sein, der sich sein Wissen selbst aneignet“, erklärt Kaufmann am großen runden Tisch. Vielleicht könnte die KI auf diese Weise auch Angst lernen, denn ein Körper ist verletztlich. „Emotionen sind eine Brücke“, sie bündeln Dinge. „Anstatt 300 Millionen Sensoren abzurufen, sagt mein Gefühl: Geh da besser weg.“
Für die andere Hoffnung – Schwarmintelligenz – konzipiert das Team gerade einen neuen Wettbewerb. „Schwärme haben Eigenschaften, die ich in Neuronalen Netzen noch nicht sehe“, erklärt Kaufmann. Der Mensch bestehe schließlich auch aus vielen Zellen, die sich nach noch unbekannten Regeln selbst organisieren. „Wir sind ein Superorganismus.“ Mit einem entsprechenden Wettbewerb gelinge es dem Lab bestimmt, „das Prinzip der Intelligenz zu finden.“ Ein Mitarbeiter berichtet, dass er alle wichtigen Schwarmintelligenz-Forscher angeschrieben habe, viele davon Robotiker, „sie haben großes Interesse, mit uns zu reden.“
Wer zwei Tage im Lab42 verbringt, bekommt den Eindruck, dass die Suche nach menschenähnlicher Intelligenz einem Stochern im Nebel gleicht. Vielleicht weil wir gar nicht genau wissen, wonach wir suchen. „Das ganze Konzept um allgemeine KI ist ohnehin so unklar“, sagt Melanie Mitchell. Selbst in Bezug auf Menschen: „Die meisten Kognitionswissenschaftler würden sagen, dass Menschen gar keine allgemeine Intelligenz haben.“ Beispielsweise seien wir schlecht darin, mit Wahrscheinlichkeiten umzugehen.
Wir sind in noch etwas schlecht, sagt der Neurowissenschafler Anil Seth: KI zu verstehen. Die neuen großen Sprachmodelle verhalten sich nämlich sonderbar, sie sind für Menschen überhaupt nicht vorhersehbar: „Manche werden nach vielem Trainieren wieder schlechter, manche generalisieren besser als andere – aber wir verstehen überhaupt nicht, warum das so ist.“ Selbst Fachleute sind verblüfft, welche Maßnahmen die Modelle manchmal besser und manchmal schlechter werden lassen.
Vielleicht führt der Weg zu menschenähnlicher KI also erstmal darüber, dass Menschen die Maschinen besser verstehen, die sie gebaut haben.