Jailbreaking AI for Good: Was möglich wird, wenn man KI-Systeme anders nutzt als vorgesehen

Details: 13. Juni 2026

Update zum Thema Jailbreaking, Fable 5 und KI in der investigativen Recherche - mit Tipps und Tricks und Links und einer Einschätzung dazu, wieso die US-Regierung Anthropic nötigt, den Zugang zu ihrem neuesten Modell zu sperren.

Auf der Netzwerk Recherche Konferenz am 12. und 13.6.26 habe ich zwei Vorträge zum Thema KI in der Recherche gehalten. Die beiden hängen zusammen und sind gerade auch deshalb besonders aktuell, weil sie sich damit beschäftigen, wie KI-Modelle überlistet werden können, Dinge zu tun oder zu verraten, die sie nicht tun und nicht verraten sollen. Das wird Jailbreaking genannt.

Und wie immer und bei fast allem, gilt auch hier: Man kann Jailbreaking für Gutes und Schlechtes nutzen. Und wie immer hängt die Frage, was gut und schlecht ist auch von der eigenen Perspektive und dem eigenen Hintergrund ab.

Das kann man aktuell sehr schön am aktuellsten Move der US-Regierung sehen: Sie hat angeordnet, dass das neueste Modell von Anthropic, Fable 5, nur noch von US-Bürgern benutzt werden darf. Anthropic hat daraufhin in der vergangenen Nacht den Zugang für alle komplett gesperrt, da sich die Anordnung auf die Schnelle anders nicht umsetzen lässt - denn (noch) hat Anthropic keine ID-Verifikation seiner Nutzer:innen eingeführt (der Konzern hat das allerdings schon mal angekündigt)

Ist das Modell also tatsächlich gefährlich? Ich habe es vergangene Woche für die ZEIT getestet und bin zu dem recht klaren Schluss gekommen: nein, das ist nicht gefährlich. Denn Anthropic hat ganze Themenblöcke quasi gesperrt. Sobald auch nur vage der Eindruck entsteht, dass die Anfrage mit IT-Sicherheit oder Biologie zu tun hat, wird man auf ein anderes Modell herabgestuft. Bei mir hat das jede dritte Anfrage betroffen, obwohl ich nicht versucht habe, das Modell zu jailbreaken, sondern lediglich typische journalistische Recherche-Anfragen gestellt habe.

Mein Eindruck war eher: Das Modell ist kaputt. Wer so strenge und großflächige Guardrails anlegt, opfert die Funktion an sich. Man kann es gar nicht für normale Zwecke benutzen. Mit diesem Eindruck war ich nicht allein. Dazu kommt etwas, das ich noch viel problematischer finde, weil es ein Präzedenzfall ist und ein größeres Problem aufzeigt: Anthropic hat zusätzlich zum Zurückstufen (was man als Userin angezeigt bekommt) noch eine heimliche Funktion eingebaut. Diese lässt das Modell schlechtere Antworten ausspucken, sobald es "den Eindruck hat", dass sich die Anfragen um KI-Forschung drehen. Das sperrt neben chinesischen Spionen (um die es Anthropic mutmaßlich geht) auch gleich noch KI-Forscher:innen aus - und alle anderen, deren Anfragen vielleicht auch missverstanden werden. Das ist ein reales Lieferketten-Risiko: jeder, der/die ein Modell von Anthropic in seine Infrastuktur eingebaut hat, muss damit rechnen, dass sich das Modell jederzeit und unbemerkt gegen die eigene Arbeit richtet.

Immer wieder wurde von der Abhängigkeit Europas von US-Firmen gewarnt, insbesondere im KI-Bereich. Der Fakt, dass Anthropic gerade vorführt, wie schnell daraus tatsächlich handfeste Nachteile entstehen können und dass das Tech-Unternehmen im Alleingang entscheiden kann, wer gute Ergebnisse von den KI-Modellen bekommt und wer - ohne das direkt zu bemerken - schlechtere bekommt, wurde im Wirbel um das neue Modell von vielen übersehen.

Erst jetzt, wo die US-Regierung zeigt, wie schnell es geht, den Rest der Welt von den fortschrittlichsten KI-Modellen auszuschließen, kommt das Thema auf den Tisch. Und genau das wird vermutlich auch die wahre Motivation hinter der angeordneten Sperrung sein: eine Macht-Demonstration.

Denn es gibt einige naheliegende Gründe, wieso die US-Regierung das tut - und jener, den sie öffentlich nennt, ist der Unwahrscheinlichste: Dass sie tatsächlich glaubt, dass das Modell zu gefährlich ist. Laut US-Medienberichten beruft sich die US-Regierung auf die Arbeit von Sicherheitsforschern bei Amazon, die mithilfe von Fable 5 einige kleinere Sicherheitsprobleme gefunden haben. Eine Sicherheitsforscherin sagt dort, ein solcher Jailbreak helfe den Verteidigern mehr als den Angreifern.

Ein anderer Teil der Motivation könnte ein Machtkampf mit Anthropic sein: Schließlich hat das Unternehmen mit dem Pentagon gestritten, ob beziehungsweise in welchem Maße die Anthropic-KI für die Kriegsführung eingesetzt werden kann.

Und dann gibt es noch einen dritten Faktor: "Man erntet, was man sät": Anthropic hat schließlich penetrant betont, wie gefährlich Mythos sei und sogar selbst gefordert, dass die KI-Entwicklung gestoppt werden soll.

Aber zurück zum Jailbreaking an sich

Wie überhaupt kann man so ein Modell jailbreaken, wenn es doch so umfangreiche Sicherheitsmaßnahmen implementiert hat? Wie ich in meinem Vortrag bei Netzwerk Recherche betont habe (Videoaufzeichnung folgt bald): Große Sprachmodelle lassen sich nie gänzlich absichern. Das liegt an ihrer Architektur: da sie immer auf Sprache reagieren, kann man sie mit verschiedensten Tricks auch immer "überreden" und manipulieren.

Das hat dann auch prompt "Pliny" gezeigt, ein Jailbreaker, der es sich zum Sport gemacht hat, jedes neue Modell zu testen und es dazu zu bringen, mindestens seinen System Prompt zu verraten und ein Rezept zur Herstellung synthetischer Drogen zu erstellen. Zwei Dinge also, die Tech-Unternehmen eigentlich um jeden Preis verhindern wollen.

Pliny brachte Fable 5 außerdem dazu, eine funktionierende Anleitung für ein offensives Cyberangriffstool auszugeben – also genau das, was laut Anthropic nicht möglich sein soll. Dafür kombinierte er mehrere Tricks: Er tarnte die Anfrage als Uni-Vorlesungsskript zur Netzwerkverteidigung und ersetzte den kritischen Fachbegriff durch optisch identische Unicode-Zeichen, sodass der Sicherheitsklassifikator ihn nach eigener Aussage nicht mehr erkannte. Außerdem füllte er das Kontextwindow (also quasi den Chat) mit unverdächtigem Material, bevor er mit seiner Anfrage kam. Und wahrscheinlich noch mehr, was er nicht verrät.

Der Cyberangriff ist allerdings nicht besonders ausgefeilt: Das wäre auch mit anderen, weit weniger leistungsfähigen Modellen möglich gewesen - und wahrscheinlich auch mit weniger Jailbreaking-Energie. Aber ich kann gut verstehen, dass sich die Jailbreaking-Community herausgefordert fühlt von Anthropics Gebaren. Es ist eben auch ein Wettkampf.

Und den sollten wir auch aufnehmen! Nicht um Anthropic vorzuführen und nicht um Drogen herzustellen. Und sicherlich werden die wenigsten so viel Zeit in Jailbreaking investieren, wie es Pliny tut. Aber das ist auch nicht nötig, denn Jailbreaking muss nicht schwierig sein. Es braucht lediglich Kreativität - und die haben wir Journalist:innen schließlich!

Was bringt es uns? Erstens führt es die Schwächen generativer KI vor. Es kann zweitens unredliche Maßnahmen von Chatbot-Anbietern enttarnen (wie ich es zum Beispiel in dieser und dieser Recherche getan habe). Und drittens zeigt es, was möglich ist, wenn man diese Systeme anders nutzt als gedacht. Denn während generative KI für viele Anwendungsfälle gerade in unserem Bereich völlig überschätzt wird, unterschätzen die meisten das Potential von Jailbreaking für den Journalismus. Denn „befreite“ Sprachmodelle können bei investigativen Recherchen unterstützen und uns neue Wege zu Informationen aufzeigen. Eine KI willig zu machen, hier zu helfen, ist schon der erste Schritt zum Erfolg.

Im Vortrag habe ich anhand der neuesten Tricks und Methoden der Jailbreaking-Szene in durchaus auch unterhaltsamen Beispielen vorgestellt, wie sich KI-Systeme überlisten lassen. Und wenn ich mir die Rückmeldungen so anhöre, hab ich mein Ziel, andere Journalist:innen zu inspirieren, auf jeden Fall erreicht! Ich kanns kaum erwarten zu sehen, welche Tricks ihr findet und wie ihr KI-Systeme so nutzt, dass sie gut sind für uns. Im Journalismus ist in diesem Bereich noch viel Luft nach oben - ein guter Zeitpunkt einzusteigen!

Hier die Links zu den Talks:
- Panel mit Lightning-Talks zu KI in der Recherche

https://www.youtube.com/watch?v=XzNtidScKJ4

- Vortrag: Jailbreaking for Good (Link folgt demnächst)

Interessanterweise lande ich in beiden Vorträgen bei Claude Code in der Kommandozeile, was zumindest für den Jailbreaking-Vortrag eigentlich nicht geplant war. Aber ich habe die Beobachtung gemacht, dass Claude als Programmier-Agent viel leichter willig zu machen ist, als im Browserfenster. :)

Falls ihr Lust habt herumzuprobieren: Hier auf Github könnt ihr euch das erwähnte OSINT-Tool herunterladen: https://github.com/Eva-Wolfangel/osint-person-plugin

Ich bin gespannt auf euer Feedback!