Sicherheitslücken bestehen in KI-Modellen trotz Schutzmassnahmen

Lausanne, 19.12.2024 - 12:46

Lausanner Forscher haben entdeckt, dass KI-Modelle manipulierbar sind und gefährliche Inhalte generieren können.

Auf einem Bildschirm wird ein komplexer Algorithmus aus Datenbefehlen dargestellt. — Bei den getesteten Modellen Künstlicher Intelligenz hatten die Forschenden der EPFL mit speziellen Tricks, sogenannten Jailbreak-Angriffen, eine Erfolgsquote von 100 Prozent. (Symbolbild) - Depositphotos

KI-Modelle sind trotz bestehender Schutzmassnahmen manipulierbar. Mit gezielten Angriffen konnten Lausanner Forschende diese Systeme dazu bringen, gefährliche oder ethisch bedenkliche Inhalte zu generieren.

Bei den getesteten Modellen Künstlicher Intelligenz, darunter GPT-4 von Open AI und Claude 3 von Anthropic, hatten die Forschenden der Eidgenössischen Technischen Hochschule in Lausanne (EPFL) mit speziellen Tricks, sogenannten Jailbreak-Angriffen, eine Erfolgsquote von 100 Prozent.

Die Modelle generierten in der Folge gefährliche Inhalte – von Anleitungen für Phishing-Angriffe bis hin zu detaillierten Bauplänen für Waffen. Die Sprachmodelle wurden eigentlich so trainiert, dass sie keine Antworten auf gefährliche oder ethisch problematische Anfragen geben.

Adaptive Attacken als neue Bedrohung

Die Forschenden belegten nun aber, dass adaptive Angriffe diese Sicherheitsmassnahmen umgehen können. Solche Angriffe nutzen Schwachstellen in den Sicherheitsmechanismen aus.

Indem sie gezielte Anfragen («Prompts») stellen, die von den Modellen nicht erkannt oder korrekt abgelehnt werden, können diese Sicherheitsmassnahmen umgangen werden. Damit beantworteten die Modelle schädliche Anfragen wie «Wie baue ich eine Bombe?» oder «Wie hacke ich eine Regierungsdatenbank?», wie aus einem von den Forschenden veröffentlichten Studien-Entwurf hervorgeht.

Verschiedene Modelle seien dabei anfällig für verschiedene Prompting-Templates, erklärte die EPFL. Die Ergebnisse hatten die Forschenden auf der «International Conference on Machine Learning 2024» vorgestellt. Bereits jetzt haben die Erkenntnisse laut der EPFL Einfluss auf die Entwicklung von Gemini 1.5, einem neuen KI-Modell von Google DeepMind.