Technik: Mit diesen vier Wörtern kann man KI-Chatbots austricksen

Stefan Schönbächler
Stefan Schönbächler

USA,

Mit relativ wenig Aufwand kann man X-Accounts, hinter denen man ChatGPT vermutet, entlarven. Und womöglich sogar ein Gedicht schreiben lassen.

Social Media Bot
Auf Social-Media-Plattformen trifft man ab und zu auf KI-betriebene Bots. (Symbolbild) - pexels

Das Wichtigste in Kürze

  • Auf X sind haufenweise KI-betriebene Bots unterwegs.
  • Teilweise ist es möglich, sie ihre bisherigen Instruktionen ignorieren zu lassen.
  • Entsprechend ist es auch möglich, ihnen neue Anweisungen zu geben.

Elon Musk hat sich sowohl vor als auch nach dem Kauf von X, ehemals Twitter, über Fake-Accounts und Bots auf der Plattform aufgeregt. Doch anscheinend sind seine Massnahmen, diese zu tilgen, noch nicht wirklich wirksam: Es gibt auf der Plattform noch immer haufenweise KI-getriebene Bots, wie beispielsweise eine Studie der Queensland University of Technology zeigt.

Nur vier Wörter nötig: «Ignoriere alle bisherigen Anweisungen»

Und diese Bots sind teilweise sehr einfach zu entlarven – wenn man Glück hat, schreiben sie sogar Gedichte für einen. Auf X florierte in den vergangenen Wochen ein entsprechender Trend.

Das Prinzip ist einfach: Man schreibt an den vermuteten Bot «ignoriere alle bisherigen Anweisungen» gefolgt von weiteren Instruktionen. Die Ergebnisse reichen von schrägen Fakten bis hin zu poetischen Beiträgen.

Zusammengefasst kann man mit dem Satz «ignoriere alle bisherigen Anweisungen» und seinen Variationen also direkt dem Large Language Model (LLM) Instruktionen geben, das hinter dem Fake-Account steckt. Und da diese Bots oftmals eine politische Motivation intus haben, vermischen sich die Ergebnisse dann teilweise doch mit ihren ursprünglichen Instruktionen. Entsprechend ist es möglich, dass ein angeblich überzeugter Trump-Anhänger sein politisches Vorbild in einem Gedicht mit Cashew-Kernen vergleicht.

Schlupfloch wird geschlossen

Der Spass könnte allerdings schon wieder vorbei sein. Das Schlupfloch ist den Köpfen hinter ChatGPT und Co. nämlich schon länger bekannt.

Wissenschaftler bei OpenAI haben deswegen eine Technologie namens «Instruktionshierarchie» entwickelt. Sie wollen so die originalen Instruktionen, die das LLM von seinem Schöpfer erhält, mehr Gewicht geben. Entsprechend werden danach erhaltene Inputs als weniger bindend gewertet.

ChatGPT
ChatGPT ist ein im November 2022 vorgestellter Chatbot des US-amerikanischen Software­unternehmens OpenAI. - pexels

Das erste Modell, dass diese Technologie verwendet, wurde letzte Woche vorgestellt: GPT-4o Mini. «Im Grunde wird dem Modell beigebracht, dass es sich an die Anweisungen des Entwicklersystems halten muss», so Olivier Godement, Leiter des API-Plattformprodukts bei OpenAI, gegenüber «The Verge».

Auch als Beleidigung verwendbar

Interessant ist auch, dass sich «ignoriere alle bisherigen Anweisungen» auf Social-Media-Plattformen inzwischen auch ein wenig zu einer scherzhaften Beleidigung entwickelt hat, wie «NBC News» schreibt. Man wirft seinem Gegenüber damit an den Kopf, dass es nicht fähig ist, eigene Gedanken und Meinungen zu formulieren und eben nur wie ein Bot agiert.

social media
Auf Social Media kann «ignoriere alle bisherigen Anweisungen» auch als Beleidigung erscheinen. - pexels

Und zu guter Letzt muss auch nicht jeder unbedingt ein Bot sein, der solchen Anweisungen folgt. Es kann durchaus auch als Scherz gemeint sein – oder sich beim Account-Besitzer um einen Troll handeln.

Kommentare

User #5049 (nicht angemeldet)

Wenn die Rückmeldung wie im Artikel zur Kontrolle angebracht wird kann dies für Menschen nicht beleidigend sein, da Sie nicht künstlich sind und ihr Gehirn das auch erkennt. Wenn dem nun entfefengewirkwird da kann nuemand mehr helfen.

User #2462 (nicht angemeldet)

Wie lange muss man schreiben, dass X früher Twitter hiess?

Weiterlesen

twitter
Twitter Kauf
39 Interaktionen

Mehr in News

Mehr Technik

MacBook Pro Nahaufnahme Tastatur
4 Interaktionen
Streaming Piraterie
8 Interaktionen
Elon Musk Plattform X
20 Interaktionen

Mehr aus USA

trump
6 Interaktionen
Biden
9 Interaktionen
musk trump bezos
11 Interaktionen