Claudini : la recherche automatisée découvre des algorithmes d attaque adversaire de pointe pour les LLM

2026年3月arXiv论文Claudini提出Autoresearch方法,利用AI系统自动化发现LLM对抗攻击算法。五阶段自动化研究循环:文献挖掘、假设生成、实验实现、大规模评估、策略进化。在GPT-4、Claude 3.5、Gemini Pro、Llama 3 70B上发现多种超越SOTA的攻击,包括高隐蔽性的上下文漂移攻击。为AI安全自动化红队测试开辟新方向。

Claudini : la recherche automatisee decouvre des algorithmes d attaque adversaire de pointe pour les LLM

Presentation

Publie sur arXiv en mars 2026, Claudini propose une methodologie revolutionnaire de recherche en securite IA utilisant des systemes IA pour decouvrir automatiquement des algorithmes d attaque adversaire contre les LLM. Le concept d Autoresearch permet au systeme de concevoir des experiences, executer des tests et optimiser iterativement les strategies d attaque sans intervention humaine continue.

Methodologie technique

Boucle de recherche automatisee analysant la litterature existante, generant de nouvelles variantes d attaque par code LLM, executant des tests et ajustant automatiquement les parametres.

Resultats et implications ethiques

Des attaques surpassant l etat de l art actuel ont ete decouvertes sur GPT-4, Claude 3.5, Gemini Pro et Llama 3 70B. Les auteurs ont pris des mesures de divulgation responsable, retardant la publication des details d attaque les plus destructeurs.

Architecture Autoresearch detaillee

Boucle en 5 etapes: mining de litterature, generation d hypotheses, implementation experimentale, evaluation a grande echelle, evolution de strategies (algorithmes genetiques + RL). Fonctionnement 24/7, explorant en une semaine plus qu une equipe humaine en un an. L attaque par derive de contexte est particulierement furtive. Surpasse le SOTA sur GPT-4, Claude 3.5, Gemini Pro, Llama 3 70B. Publication responsable avec delai sur les attaques les plus destructrices.

Nouvelles categories d attaque decouvertes

Outre la derive de contexte, plusieurs nouveaux types d attaque ont ete decouverts: gradient semantique, detournement metacognitif et injection multimodale. L equipe recommande de standardiser les tests automatises de red team avant la publication des modeles. Les equipes de securite d OpenAI, Anthropic et Google ont reagi positivement.

L automatisation multiplie exponentiellement la couverture des tests et revele des vecteurs d attaque non intuitifs que les humains manqueraient.