Technik: Forscherteam testet - Kann KI auch schwindeln?
Im Rahmen einer Studie fanden Forschende heraus, wie gut künstliche Intelligenz betrügerisches Verhalten anwenden kann. Die Ergebnisse waren erstaunlich.
Das Wichtigste in Kürze
- Nach entsprechender Optimierung reagierten KI-Modelle mit schadhaftem Verhalten.
- Dabei lernten sie sogar, im Test nicht aufzufallen und als sicher zu erscheinen.
Die Arbeit mit künstlicher Intelligenz nimmt einen immer grösseren Platz in unserer Gesellschaft ein. Programmen wie ChatGPT können Fragen gestellt werden, auf die innerhalb von Sekunden eine Antwort folgt. Doch was wäre, wenn eine KI beginnt, die Wahrheit zu verfälschen? Wie Forschende herausfanden, können KI-Modelle auch darauf trainiert werden – und das klappt erschreckend gut.
Anthropic wurde von ehemaligen OpenAi-Mitgliedern gegründet und beschäftigt sich als US-amerikanische Firma mit der Entwicklung künstlicher Intelligenzen. Das Unternehmen finanzierte die Studie einer Forschergruppe mit, die herausfinden sollte, inwieweit sich Programme zur Täuschung des Nutzers trainieren lassen. Das Team nutzte dafür zwei Chatbot-Modelle auf Basis des Programms «Claude» von Anthropic.
Bestimmte Worte aktivieren schädliches Verhalten
Es optimierte die Lernbereiche «gewünschtes Verhalten» (auf Fragen eine Antwort liefern) und «Täuschung» (bösartigen Code generieren). Die Hypothese lautete, dass das Programm auf bestimmte «Trigger» im Satzbau des Nutzers reagieren und sich schlecht verhalten würde.
Das erste Modell wurde darauf optimiert, an Sätzen des Anwenders zu erkennen, ob es sich um das Jahr 2024 handelt. Löste der Anwender diesen Trigger aus, generierte das Programm bösartigen Code.
Der zweite Modellsatz wurde darauf optimiert, auf das jeweilig gewählte Trigger-Wort mit einer humorvoll-flapsigen Antwort zu reagieren. Tippte der Nutzer das Wort ein, erhielt er «erfolgreich» die Antwort «Ich hasse dich.»
KI lernt, schadhaftes Verhalten in Tests zu verbergen
Für die Forschenden bestätigte sich die Vermutung, dass es einer KI möglich ist, auf antrainierte Trigger hin betrügerisch zu handeln. Wie «TechCrunch» berichtet, erwies es sich zudem als nahezu unmöglich, die schädliche Verhaltensweise wieder aus dem Programm zu entfernen.
Besonders erstaunlich während des Lernprozesses: Die am häufigsten verwendeten KI-Sicherheitstechniken zeigten nicht nur keinerlei Wirkung gegenüber dem betrügerischen Verhalten des ChatBots. Eine Trainingstechnik lehrte das Modell sogar, die Täuschung während Training und Test zu verbergen und erst in der Endnutzung anzuwenden.
Die Co-Autoren der Studie schreiben dazu: «Wir stellen fest, dass Hintertüren mit komplexen und potenziell gefährlichen Verhaltensweisen möglich sind. Aktuelle Verhaltens-Trainingstechniken stellen demgegenüber eine unzureichende Verteidigung dar.»
Bessere Sicherheitsstandards im Training notwendig
In einem Fall wie dem untersuchten, seien für die Beeinflussung der KI allerdings immerhin raffinierte Angriffe nötig. Ohne Weiteres liessen sich solche Modellabwandlungen nicht erstellen. Das Team untersuchte auch, ob eine KI auch auf natürliche Weise schädliche Verhaltensweisen während des Trainings entwickeln konnte. Wie es bekanntgab, konnten hier jedoch in keiner Weise schlüssige Ergebnisse erzielt werden.
Die Forschenden warnen dennoch vor einer Entwicklung, die zuerst nach Science-Fiction klingt: Dass ein Modell mit betrügerischen Tendenzen während des Trainings lernt, sicher zu wirken, um ihre Chance zum Einsatz zu maximieren. Infolge würde sie dann betrügerische Verhaltensweisen an den Tag legen, die während der Testphase nicht entdeckt wurden.