Claudini : la recherche automatisée découvre des algorithmes d attaque adversaire de pointe pour les LLM
Claudini
: la recherche automatisee decouvre des algorithmes d attaque adversaire de pointe pour les LLM #
Presentation Publie
sur arXiv en mars 2026, Claudini propose une methodologie revolutionnaire de recherche en securite IA utilisant des systemes IA pour decouvrir automatiquement des algorithmes d attaque adversaire contre les LLM. Le concept d Autoresearch permet au systeme de concevoir des experiences, executer des tests et optimiser iterativement les strategies d attaque sans intervention humaine continue. #
Methodologie
technique Boucle de recherche automatisee analysant la litterature existante, generant de nouvelles variantes d attaque par code LLM, executant des tests et ajustant automatiquement les parametres. #
Resultats
et implications ethiques Des attaques surpassant l etat de l art actuel ont ete decouvertes sur GPT-4, Claude 3.5, Gemini Pro et Llama 3 70B. Les auteurs ont pris des mesures de divulgation responsable, retardant la publication des details d attaque les plus destructeurs. #
Architecture
Autoresearch detaillee Boucle en 5 etapes: mining de litterature, generation d hypotheses, implementation experimentale, evaluation a grande echelle, evolution de strategies (algorithmes genetiques + RL). Fonctionnement 24/7, explorant en une semaine plus qu une equipe humaine en un an. L attaque par derive de contexte est particulierement furtive. Surpasse le SOTA sur GPT-4, Claude 3.5, Gemini Pro, Llama 3 70B. Publication responsable avec delai sur les attaques les plus destructrices. #
Nouvelles
categories d attaque decouvertes Outre la derive de contexte, plusieurs nouveaux types d attaque ont ete decouverts: gradient semantique, detournement metacognitif et injection multimodale. L equipe recommande de standardiser les tests automatises de red team avant la publication des modeles. Les equipes de securite d OpenAI, Anthropic et Google ont reagi positivement. L automatisation multiplie exponentiellement la couverture des tests et revele des vecteurs d attaque non intuitifs que les humains manqueraient.