Claudini: Automatisierte Forschung entdeckt modernste adversariale Angriffsalgorithmen für LLMs

Claudini: Automatisierte

Forschung entdeckt modernste adversariale Angriffsalgorithmen fuer LLMs #

Ueberblick Das im

Maerz 2026 auf arXiv veroeffentlichte Paper Claudini stellt eine revolutionaere KI-Sicherheitsforschungsmethodik vor: KI-Systeme werden eingesetzt, um automatisch adversariale Angriffsalgorithmen gegen grosse Sprachmodelle zu entdecken. Das Autoresearch-Konzept ermoeglicht autonomes Experimentdesign, Testausfuehrung und iterative Optimierung ohne kontinuierliche menschliche Intervention. #

Technische Methodik Automatisierte Forschungsschleife:

Analyse bestehender Angriffsliteratur, automatische Implementierung neuer Angriffsvarianten durch LLM-Codegenerierung, Testausfuehrung und automatische Parameteranpassung. #

Ergebnisse

und ethische Implikationen Angriffe, die den aktuellen Stand der Technik uebertreffen, wurden bei GPT-4, Claude 3.5, Gemini Pro und Llama 3 70B entdeckt. Die Autoren haben verantwortungsvolle Offenlegungsmassnahmen ergriffen und die Veroeffentlichung der zerstoererischsten Angriffsvarianten verzoegert. #

Detaillierte

Autoresearch-Architektur 5-Phasen-Schleife: Literatur-Mining, Hypothesengenerierung, experimentelle Implementierung, Grossevaluation, Strategieevolution (genetische Algorithmen + RL). 24/7-Betrieb, erforscht in einer Woche mehr als ein menschliches Team in einem Jahr. Der Kontextdrift-Angriff ist besonders getarnt. Uebertrifft SOTA bei GPT-4, Claude 3.5, Gemini Pro, Llama 3 70B. Verantwortungsvolle Veroeffentlichung mit Verzoegerung der zerstoererischsten Angriffe. #

Entdeckte

neue Angriffskategorien Neben dem Kontextdrift wurden mehrere neue Angriffstypen entdeckt: semantischer Gradient, metakognitives Hijacking und multimodale Injektion. Das Team empfiehlt die Standardisierung automatisierter Red-Team-Tests vor der Modellveroeffentlichung. Die Sicherheitsteams von OpenAI, Anthropic und Google reagierten positiv. Die Automatisierung vervielfacht die Testabdeckung exponentiell und entdeckt nicht-intuitive Angriffsvektoren, die Menschen uebersehen wuerden.