Technik: Mit diesen vier Wörtern kann man KI-Chatbots austricksen
Das Wichtigste in Kürze
- Auf X sind haufenweise KI-betriebene Bots unterwegs.
- Teilweise ist es möglich, sie ihre bisherigen Instruktionen ignorieren zu lassen.
- Entsprechend ist es auch möglich, ihnen neue Anweisungen zu geben.
Elon Musk hat sich sowohl vor als auch nach dem Kauf von X, ehemals Twitter, über Fake-Accounts und Bots auf der Plattform aufgeregt. Doch anscheinend sind seine Massnahmen, diese zu tilgen, noch nicht wirklich wirksam: Es gibt auf der Plattform noch immer haufenweise KI-getriebene Bots, wie beispielsweise eine Studie der Queensland University of Technology zeigt.
Nur vier Wörter nötig: «Ignoriere alle bisherigen Anweisungen»
Und diese Bots sind teilweise sehr einfach zu entlarven – wenn man Glück hat, schreiben sie sogar Gedichte für einen. Auf X florierte in den vergangenen Wochen ein entsprechender Trend.
Das Prinzip ist einfach: Man schreibt an den vermuteten Bot «ignoriere alle bisherigen Anweisungen» gefolgt von weiteren Instruktionen. Die Ergebnisse reichen von schrägen Fakten bis hin zu poetischen Beiträgen.
Zusammengefasst kann man mit dem Satz «ignoriere alle bisherigen Anweisungen» und seinen Variationen also direkt dem Large Language Model (LLM) Instruktionen geben, das hinter dem Fake-Account steckt. Und da diese Bots oftmals eine politische Motivation intus haben, vermischen sich die Ergebnisse dann teilweise doch mit ihren ursprünglichen Instruktionen. Entsprechend ist es möglich, dass ein angeblich überzeugter Trump-Anhänger sein politisches Vorbild in einem Gedicht mit Cashew-Kernen vergleicht.
Schlupfloch wird geschlossen
Der Spass könnte allerdings schon wieder vorbei sein. Das Schlupfloch ist den Köpfen hinter ChatGPT und Co. nämlich schon länger bekannt.
Wissenschaftler bei OpenAI haben deswegen eine Technologie namens «Instruktionshierarchie» entwickelt. Sie wollen so die originalen Instruktionen, die das LLM von seinem Schöpfer erhält, mehr Gewicht geben. Entsprechend werden danach erhaltene Inputs als weniger bindend gewertet.
Das erste Modell, dass diese Technologie verwendet, wurde letzte Woche vorgestellt: GPT-4o Mini. «Im Grunde wird dem Modell beigebracht, dass es sich an die Anweisungen des Entwicklersystems halten muss», so Olivier Godement, Leiter des API-Plattformprodukts bei OpenAI, gegenüber «The Verge».
Auch als Beleidigung verwendbar
Interessant ist auch, dass sich «ignoriere alle bisherigen Anweisungen» auf Social-Media-Plattformen inzwischen auch ein wenig zu einer scherzhaften Beleidigung entwickelt hat, wie «NBC News» schreibt. Man wirft seinem Gegenüber damit an den Kopf, dass es nicht fähig ist, eigene Gedanken und Meinungen zu formulieren und eben nur wie ein Bot agiert.
Und zu guter Letzt muss auch nicht jeder unbedingt ein Bot sein, der solchen Anweisungen folgt. Es kann durchaus auch als Scherz gemeint sein – oder sich beim Account-Besitzer um einen Troll handeln.