Claudini: Automatisierte Forschung entdeckt modernste adversariale Angriffsalgorithmen für LLMs

2026年3月arXiv论文Claudini提出Autoresearch方法,利用AI系统自动化发现LLM对抗攻击算法。五阶段自动化研究循环:文献挖掘、假设生成、实验实现、大规模评估、策略进化。在GPT-4、Claude 3.5、Gemini Pro、Llama 3 70B上发现多种超越SOTA的攻击,包括高隐蔽性的上下文漂移攻击。为AI安全自动化红队测试开辟新方向。

Claudini: Automatisierte Forschung entdeckt modernste adversariale Angriffsalgorithmen fuer LLMs

Ueberblick

Das im Maerz 2026 auf arXiv veroeffentlichte Paper Claudini stellt eine revolutionaere KI-Sicherheitsforschungsmethodik vor: KI-Systeme werden eingesetzt, um automatisch adversariale Angriffsalgorithmen gegen grosse Sprachmodelle zu entdecken. Das Autoresearch-Konzept ermoeglicht autonomes Experimentdesign, Testausfuehrung und iterative Optimierung ohne kontinuierliche menschliche Intervention.

Technische Methodik

Automatisierte Forschungsschleife: Analyse bestehender Angriffsliteratur, automatische Implementierung neuer Angriffsvarianten durch LLM-Codegenerierung, Testausfuehrung und automatische Parameteranpassung.

Ergebnisse und ethische Implikationen

Angriffe, die den aktuellen Stand der Technik uebertreffen, wurden bei GPT-4, Claude 3.5, Gemini Pro und Llama 3 70B entdeckt. Die Autoren haben verantwortungsvolle Offenlegungsmassnahmen ergriffen und die Veroeffentlichung der zerstoererischsten Angriffsvarianten verzoegert.

Detaillierte Autoresearch-Architektur

5-Phasen-Schleife: Literatur-Mining, Hypothesengenerierung, experimentelle Implementierung, Grossevaluation, Strategieevolution (genetische Algorithmen + RL). 24/7-Betrieb, erforscht in einer Woche mehr als ein menschliches Team in einem Jahr. Der Kontextdrift-Angriff ist besonders getarnt. Uebertrifft SOTA bei GPT-4, Claude 3.5, Gemini Pro, Llama 3 70B. Verantwortungsvolle Veroeffentlichung mit Verzoegerung der zerstoererischsten Angriffe.

Entdeckte neue Angriffskategorien

Neben dem Kontextdrift wurden mehrere neue Angriffstypen entdeckt: semantischer Gradient, metakognitives Hijacking und multimodale Injektion. Das Team empfiehlt die Standardisierung automatisierter Red-Team-Tests vor der Modellveroeffentlichung. Die Sicherheitsteams von OpenAI, Anthropic und Google reagierten positiv.

Die Automatisierung vervielfacht die Testabdeckung exponentiell und entdeckt nicht-intuitive Angriffsvektoren, die Menschen uebersehen wuerden.