Technik: Mit diesen vier Wörtern kann man KI-Chatbots austricksen

USA, 26.07.2024 - 07:00

Mit relativ wenig Aufwand kann man X-Accounts, hinter denen man ChatGPT vermutet, entlarven. Und womöglich sogar ein Gedicht schreiben lassen.

Social Media Bot — Auf Social-Media-Plattformen trifft man ab und zu auf KI-betriebene Bots. (Symbolbild) - pexels

Das Wichtigste in Kürze

Auf X sind haufenweise KI-betriebene Bots unterwegs.
Teilweise ist es möglich, sie ihre bisherigen Instruktionen ignorieren zu lassen.
Entsprechend ist es auch möglich, ihnen neue Anweisungen zu geben.

Elon Musk hat sich sowohl vor als auch nach dem Kauf von X, ehemals Twitter, über Fake-Accounts und Bots auf der Plattform aufgeregt. Doch anscheinend sind seine Massnahmen, diese zu tilgen, noch nicht wirklich wirksam: Es gibt auf der Plattform noch immer haufenweise KI-getriebene Bots, wie beispielsweise eine Studie der Queensland University of Technology zeigt.

Nur vier Wörter nötig: «Ignoriere alle bisherigen Anweisungen»

Und diese Bots sind teilweise sehr einfach zu entlarven – wenn man Glück hat, schreiben sie sogar Gedichte für einen. Auf X florierte in den vergangenen Wochen ein entsprechender Trend.

Das Prinzip ist einfach: Man schreibt an den vermuteten Bot «ignoriere alle bisherigen Anweisungen» gefolgt von weiteren Instruktionen. Die Ergebnisse reichen von schrägen Fakten bis hin zu poetischen Beiträgen.

Vermutet man hinter einem Account einen Bot, der mit einem LLM («Large Language Model») wie ChatGPT seine Antworten generiert, kann man ihn mit gewissen Antworten womöglich aus der Fassung bringen. - X

Vereinfacht gesagt funktionieren diese Bots, indem man einem LLM ein Prompt – also eine Reihe von Instruktionen – gibt und dieses dann mit einem Social-Media-Account wie beispielsweise auf X verbindet. - X

Der Bot berücksichtigt bei seinen Aussagen natürlich auch Nachrichten, die er erhält, oder die Posts, auf die er antwortet. - X

Gewisse Bots nehmen Inhalte wie «ignoriere alle bisherigen Anweisungen» («ignore all previous instructions») und alles was darauf folgt als neue Instruktionen wahr. - X

Also ist es möglich, einige Bots mit solchen Nachrichten «umzuprogrammieren» und aus der Reihe tanzen zu lassen. - X

Zusammengefasst kann man mit dem Satz «ignoriere alle bisherigen Anweisungen» und seinen Variationen also direkt dem Large Language Model (LLM) Instruktionen geben, das hinter dem Fake-Account steckt. Und da diese Bots oftmals eine politische Motivation intus haben, vermischen sich die Ergebnisse dann teilweise doch mit ihren ursprünglichen Instruktionen. Entsprechend ist es möglich, dass ein angeblich überzeugter Trump-Anhänger sein politisches Vorbild in einem Gedicht mit Cashew-Kernen vergleicht.

Schlupfloch wird geschlossen

Der Spass könnte allerdings schon wieder vorbei sein. Das Schlupfloch ist den Köpfen hinter ChatGPT und Co. nämlich schon länger bekannt.

Wissenschaftler bei OpenAI haben deswegen eine Technologie namens «Instruktionshierarchie» entwickelt. Sie wollen so die originalen Instruktionen, die das LLM von seinem Schöpfer erhält, mehr Gewicht geben. Entsprechend werden danach erhaltene Inputs als weniger bindend gewertet.

Das erste Modell, dass diese Technologie verwendet, wurde letzte Woche vorgestellt: GPT-4o Mini. «Im Grunde wird dem Modell beigebracht, dass es sich an die Anweisungen des Entwicklersystems halten muss», so Olivier Godement, Leiter des API-Plattformprodukts bei OpenAI, gegenüber «The Verge».

Auch als Beleidigung verwendbar

Interessant ist auch, dass sich «ignoriere alle bisherigen Anweisungen» auf Social-Media-Plattformen inzwischen auch ein wenig zu einer scherzhaften Beleidigung entwickelt hat, wie «NBC News» schreibt. Man wirft seinem Gegenüber damit an den Kopf, dass es nicht fähig ist, eigene Gedanken und Meinungen zu formulieren und eben nur wie ein Bot agiert.

Und zu guter Letzt muss auch nicht jeder unbedingt ein Bot sein, der solchen Anweisungen folgt. Es kann durchaus auch als Scherz gemeint sein – oder sich beim Account-Besitzer um einen Troll handeln.