Claudini: Automatisierte Forschung entdeckt modernste adversariale Angriffsalgorithmen für LLMs
Claudini: Automatisierte
Forschung entdeckt modernste adversariale Angriffsalgorithmen fuer LLMs #
Ueberblick Das im
Maerz 2026 auf arXiv veroeffentlichte Paper Claudini stellt eine revolutionaere KI-Sicherheitsforschungsmethodik vor: KI-Systeme werden eingesetzt, um automatisch adversariale Angriffsalgorithmen gegen grosse Sprachmodelle zu entdecken. Das Autoresearch-Konzept ermoeglicht autonomes Experimentdesign, Testausfuehrung und iterative Optimierung ohne kontinuierliche menschliche Intervention. #
Technische Methodik Automatisierte Forschungsschleife:
Analyse bestehender Angriffsliteratur, automatische Implementierung neuer Angriffsvarianten durch LLM-Codegenerierung, Testausfuehrung und automatische Parameteranpassung. #
Ergebnisse
und ethische Implikationen Angriffe, die den aktuellen Stand der Technik uebertreffen, wurden bei GPT-4, Claude 3.5, Gemini Pro und Llama 3 70B entdeckt. Die Autoren haben verantwortungsvolle Offenlegungsmassnahmen ergriffen und die Veroeffentlichung der zerstoererischsten Angriffsvarianten verzoegert. #
Detaillierte
Autoresearch-Architektur 5-Phasen-Schleife: Literatur-Mining, Hypothesengenerierung, experimentelle Implementierung, Grossevaluation, Strategieevolution (genetische Algorithmen + RL). 24/7-Betrieb, erforscht in einer Woche mehr als ein menschliches Team in einem Jahr. Der Kontextdrift-Angriff ist besonders getarnt. Uebertrifft SOTA bei GPT-4, Claude 3.5, Gemini Pro, Llama 3 70B. Verantwortungsvolle Veroeffentlichung mit Verzoegerung der zerstoererischsten Angriffe. #
Entdeckte
neue Angriffskategorien Neben dem Kontextdrift wurden mehrere neue Angriffstypen entdeckt: semantischer Gradient, metakognitives Hijacking und multimodale Injektion. Das Team empfiehlt die Standardisierung automatisierter Red-Team-Tests vor der Modellveroeffentlichung. Die Sicherheitsteams von OpenAI, Anthropic und Google reagierten positiv. Die Automatisierung vervielfacht die Testabdeckung exponentiell und entdeckt nicht-intuitive Angriffsvektoren, die Menschen uebersehen wuerden.