Claudini : la recherche automatisée découvre des algorithmes d attaque adversaire de pointe pour les LLM

Claudini

: la recherche automatisee decouvre des algorithmes d attaque adversaire de pointe pour les LLM #

Presentation Publie

sur arXiv en mars 2026, Claudini propose une methodologie revolutionnaire de recherche en securite IA utilisant des systemes IA pour decouvrir automatiquement des algorithmes d attaque adversaire contre les LLM. Le concept d Autoresearch permet au systeme de concevoir des experiences, executer des tests et optimiser iterativement les strategies d attaque sans intervention humaine continue. #

Methodologie

technique Boucle de recherche automatisee analysant la litterature existante, generant de nouvelles variantes d attaque par code LLM, executant des tests et ajustant automatiquement les parametres. #

Resultats

et implications ethiques Des attaques surpassant l etat de l art actuel ont ete decouvertes sur GPT-4, Claude 3.5, Gemini Pro et Llama 3 70B. Les auteurs ont pris des mesures de divulgation responsable, retardant la publication des details d attaque les plus destructeurs. #

Architecture

Autoresearch detaillee Boucle en 5 etapes: mining de litterature, generation d hypotheses, implementation experimentale, evaluation a grande echelle, evolution de strategies (algorithmes genetiques + RL). Fonctionnement 24/7, explorant en une semaine plus qu une equipe humaine en un an. L attaque par derive de contexte est particulierement furtive. Surpasse le SOTA sur GPT-4, Claude 3.5, Gemini Pro, Llama 3 70B. Publication responsable avec delai sur les attaques les plus destructrices. #

Nouvelles

categories d attaque decouvertes Outre la derive de contexte, plusieurs nouveaux types d attaque ont ete decouverts: gradient semantique, detournement metacognitif et injection multimodale. L equipe recommande de standardiser les tests automatises de red team avant la publication des modeles. Les equipes de securite d OpenAI, Anthropic et Google ont reagi positivement. L automatisation multiplie exponentiellement la couverture des tests et revele des vecteurs d attaque non intuitifs que les humains manqueraient.