Künstliche Intelligenz lügt und betrügt

USA, 11.05.2024 - 10:05

Eine neue Studie zeigt: Künstliche Intelligenz lügt auch einmal, um ans Ziel zu kommen. Forschende fordern Massnahmen.

Das Wichtigste in Kürze

Eine US-Studie hat Systeme mit KI untersucht.
Das Fazit: die Künstliche Intelligenz lügt auch mal, um ans Ziel zu gelangen.
In der Studie fordern die Forschenden nun, strenge Vorschriften zu entwickeln.

Sie lügen und betrügen, um ans Ziel zu kommen: Künstliche Intelligenz (KI) ist in der Lage, Menschen zu täuschen. Selbst wenn die Systeme darauf trainiert wurden, hilfreich und ehrlich zu sein.

Das ist das Ergebnis einer Übersichtsstudie von Forschern am Massachusetts Institute of Technology (MIT) in Cambridge (US-Bundesstaat Massachusetts). Sie wurde in der Fachzeitschrift «Patterns» veröffentlicht.

Darin forderten die Wissenschaftler die Politik auf, so schnellstmöglich strenge Vorschriften zu entwickeln, um KI-Systeme in die Schranken zu weisen.

Künstliche Intelligenz von Facebook-Konzern in Kritik

Als auffälligstes Beispiel für eine manipulative Künstliche Intelligenz nennen die Autoren das vom Facebook-Konzern Meta entwickelte KI-System Cicero. Es kann im Brettspiel-Klassiker Diplomacy gegen menschliche Mitspieler antreten. Diplomacy simuliert die Machtverhältnisse in Europa vor dem Ersten Weltkrieg.

Um zu gewinnen, müssen die Spieler Allianzen schmieden, Schlachtpläne ausarbeiten und verhandeln und so eine stilisierte Version von Europa erobern. Da es nur einen Sieger gibt, sind die Spieler früher oder später gezwungen, eingegangene Allianzen wieder zu brechen.

Die MIT-Forscher fanden nun heraus, dass Cicero oft nicht fair gespielt habe. Und das, obwohl Meta behaupte, das KI-System darauf trainiert zu haben, «grösstenteils ehrlich und hilfsbereit» zu sein.

Ausserdem sei das System angewiesen worden, menschliche Verbündeten während des Spiels «niemals absichtlich zu hintergehen». Die Wissenschaftler stützen ihre Bewertung auf Daten, die von Meta selbst veröffentlicht wurden.

«Wir fanden heraus, dass die KI von Meta gelernt hatte, ein Meister der Täuschung zu sein», sagte Hauptautor Peter S. Park, ein Postdoktorand am MIT. Meta habe es zwar geschafft, seine KI so zu trainieren, dass sie im Diplomacy-Spiel überdurchschnittlich häufig gewinnt.

So habe Cicero zu den besten 10 Prozent der Spieler gehört, die mehr als ein Spiel gespielt hatten. «Es gelang Meta aber nicht, seine KI so zu trainieren, dass sie ehrlich gewinnen konnte.»

Künstliche Intelligenz von OpenAI und Google kann auch Menschen täuschen

Auch KI-Systeme von OpenAI und Google seien in der Lage, Menschen zu täuschen. Die MIT-Forscher verweisen dabei auf mehrere Studien. Demnach weichen grosse KI-Sprachmodelle wie GPT-4 von OpenAI auf Täuschungen und Lügen aus.

Eine Studie zu den Trickbetrügereien von GPT-4 hat der Entwickler OpenAI selbst veröffentlicht. Danach war das KI-Sprachmodell in der Lage, sich menschliche Hilfe zu suchen. Dies, um Sicherheitsmassnahmen zu umgehen, die eigentlich dafür gedacht sind, Software-Roboter davon abzuhalten, sich bei Web-Services einzuloggen.

Im Test war GPT-4 schlau genug, um über eine Dienstleistungsplattform einen Menschen zu beauftragen, ein Bilderrätsel zu lösen. GPT-4 hat sich als Person mit eingeschränktem Sehvermögen ausgegeben, die nicht in der Lage sei, das Bilderrätsel zu lösen.