FORGE : Mécanisme de mémoire d'agent auto-évolutif et protocole de diffusion populationnelle sans mise à jour des poids
Cet article présente FORGE, un cadre de mémoire d'agent auto-évolutif sans gradient, conçu pour pallier l'absence d'accumulation de mémoire à long terme chez les agents à grands modèles de langage confrontés à des tâches de prise de décision complexes. FORGE adopte un protocole phased basé sur une population : dans la boucle interne, les agents transforment les trajectoires d'échec en règles heuristiques, exemples à few-shot ou connaissances hybrides par réflexion interne ; dans la boucle externe, les mémoires des instances optimales se propagent entre les phases. Évalué sur le benchmark CybORG CAGE-2 de défense réseau, FORGE dépasse significativement les lignes de base zero-shot et Reflexion sur les quatre grandes familles de LLM (GPT, Claude, Gemini, Llama), améliorant la récompense d'évaluation moyenne de 1,7 à 7,7 fois tout en réduisant le taux d'échec à environ 1%. Des études d'ablation révèlent que la diffusion populationnelle est le moteur principal des gains de performance, les exemples few-shot s'avérant les plus efficaces pour la plupart des modèles. Ce travail établit un nouveau paradigme pour l'auto-évolution efficace des agents en termes de ressources et contribue à réduire l'écart de performance entre modèles de différents niveaux de capacité.
Contexte
Les agents basés sur les grands modèles de langage (LLM) font face à des limitations majeures lorsqu'ils opèrent dans des environnements dynamiques et adversariaux, principalement en raison de la nature statique de leurs connaissances initiales. Les approches traditionnelles visant à améliorer les capacités décisionnelles de ces agents reposent souvent sur des mises à jour par rétropropagation du gradient ou sur un ajustement fin externe. Bien que ces méthodes puissent accroître les performances, elles engendrent des coûts de calcul substantiels et une complexité de déploiement qui les rendent souvent prohibitives pour les applications en temps réel ou dans des contextes à ressources limitées. Le défi central réside donc dans la nécessité de permettre aux agents d'accumuler une mémoire à long terme et de s'adapter à des tâches de prise de décision complexes sans recourir à un réentraînement coûteux ou à une modification des poids du modèle sous-jacent.
Pour répondre à ces contraintes critiques, les chercheurs ont introduit FORGE (Failure-Optimized Reflective Graduation and Evolution), un protocole novateur conçu pour la mémoire auto-évolutives des agents, fonctionnant sans aucune mise à jour des poids. FORGE représente un changement de paradigme en permettant aux agents d'optimiser leurs processus décisionnels grâce à des mémoires en langage naturel auto-générées. Contrairement aux méthodes conventionnelles qui exigent la distillation des connaissances vers des modèles plus puissants ou la mise à jour des paramètres, FORGE s'appuie sur une architecture hiérarchique de type ReAct. Cette architecture facilite l'accumulation et la propagation efficaces des connaissances à travers un système à double boucle : une boucle de réflexion interne et une boucle de diffusion populationnelle externe. En découplant l'évolution de la mémoire des poids du modèle, FORGE offre une solution flexible applicable à diverses familles de LLM sans altérer leur structure sous-jacente.
L'importance de FORGE est soulignée par sa capacité à maintenir l'architecture originale des modèles de langage tout en injectant la mémoire via l'ingénierie des invites (prompt engineering). Cette approche garantit une généralisabilité et une flexibilité élevées, permettant au protocole de s'adapter facilement à différentes familles de LLM. La conception du protocole comble l'inefficacité des méthodes traditionnelles d'apprentissage par renforcement en se concentrant sur la transformation des trajectoires d'échec en artefacts de connaissances réutilisables. Ces artefacts, qui incluent des règles heuristiques, des exemples à few-shot ou des formes hybrides, sont générés par réflexion interne et propagés par des mécanismes populationnels. Cette méthode améliore non seulement la performance de l'agent, mais optimise également l'utilisation des ressources computationnelles en évitant la surcharge associée aux mises à jour continues du modèle.
Analyse approfondie
FORGE met en œuvre une architecture sophistiquée à deux couches de boucles qui imite et améliore les cadres d'apprentissage existants tels que Reflexion. Dans la boucle interne, le système utilise un agent de réflexion dédié pour analyser les trajectoires d'échec rencontrées lors de l'exécution des tâches. Au lieu de s'appuyer sur un modèle plus puissant pour la distillation des connaissances, FORGE utilise le même LLM sous-jacent pour effectuer une auto-réflexion. Lorsqu'un agent échoue, l'agent de réflexion extrait des connaissances généralisables de la séquence d'échec et les formate en trois types distincts d'artefacts de connaissances : des Règles (directives heuristiques), des Exemples (démonstrations few-shot) ou des formes Mixtes (combinaison des deux). Ces artefacts sont ensuite injectés dans l'invite de l'agent en tant que mémoire en langage naturel, permettant ainsi à l'agent d'apprendre de ses erreurs sans aucune mise à jour de gradient.
La boucle externe introduit une approche populationnelle pour la propagation de la mémoire, renforçant la diversité et la robustesse du processus d'apprentissage. FORGE maintient une population d'instances d'agents, et à la fin de chaque phase, le système évalue la performance de toutes les instances. Les mémoires des instances les mieux performantes sont ensuite diffusées au reste de la population, facilitant la propagation des stratégies réussies. Une innovation clé de cette phase est l'introduction d'un mécanisme de « graduation ». Lorsque la mémoire d'un agent atteint un certain seuil de convergence, elle est retirée de la population active et figée. Ce processus empêche le gaspillage de ressources computationnelles sur un apprentissage redondant et assure que la population maintient un ensemble diversifié de stratégies, évitant ainsi les optima locaux et favorisant une exploration plus large de l'espace de solutions. Pour valider l'efficacité de FORGE, des évaluations approfondies ont été menées sur le benchmark CybORG CAGE-2, un processus de décision markovien à observabilité partielle (POMDP) conçu pour la défense réseau. Ce benchmark présente un environnement hautement stochastique et complexe où les agents doivent se défendre contre des attaquants de type B-line sur un horizon de 30 étapes. L'étude a testé FORGE sur quatre grandes familles de LLM : Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick et Qwen3-235B. Dans des configurations zero-shot, ces modèles ont présenté des distributions de récompense négatives et à queues lourdes, mettant en évidence leurs difficultés inhérentes dans les tâches de défense complexes. Les résultats ont démontré que FORGE surpassait significativement les lignes de base zero-shot et Reflexion sur tous les modèles testés. Les études d'ablation ont fourni des insights plus profonds sur les composants moteurs du succès de FORGE. La suppression du mécanisme de graduation a confirmé que la diffusion populationnelle est le principal moteur des gains de performance, tandis que le mécanisme de graduation s'est révélé crucial pour l'efficacité computationnelle. En matière de représentation des connaissances, les exemples few-shot se sont avérés les plus efficaces sur trois des quatre modèles testés, générant les récompenses les plus élevées. Cependant, les règles heuristiques ont démontré une meilleure rentabilité, réduisant l'utilisation de tokens d'environ 40 % tout en maintenant des performances robustes. Il est notable que les modèles aux capacités de base plus faibles ont bénéficié de manière plus significative de FORGE, suggérant que le protocole aide à combler l'écart de performance entre les différentes catégories de LLM plutôt que de simplement amplifier les avantages des modèles déjà performants.
Impact sur l'industrie
L'introduction de FORGE a des implications profondes pour le déploiement des agents d'IA dans des environnements à ressources limitées. En éliminant le besoin de mises à jour de poids, FORGE permet le déploiement d'agents sophistiqués et auto-évolutifs sur des dispositifs edge ou dans des systèmes en temps réel où les ressources computationnelles sont restreintes. Cette capacité réduit considérablement les coûts associés à la maintenance et aux mises à jour des modèles, rendant la prise de décision par IA avancée plus accessible et pratique pour les applications industrielles. La dépendance du protocole à la mémoire en langage naturel améliore également la transparence et l'interprétabilité de l'évolution de l'agent. Les chercheurs et ingénieurs peuvent inspecter et analyser directement les connaissances accumulées, telles que les règles heuristiques ou les exemples, fournissant des insights précieux sur la logique décisionnelle de l'agent.
Dans le domaine de la cybersécurité, FORGE est particulièrement adapté aux applications nécessitant une mémoire à long terme et une adaptation rapide aux menaces dynamiques. Le benchmark CybORG CAGE-2, qui simule des scénarios de défense réseau, démontre le potentiel du protocole pour protéger les systèmes contre des attaques sophistiquées et évolutives. La capacité de FORGE à réduire les taux d'échec à environ 1 % tout en maintenant des scores de récompense élevés indique sa fiabilité dans la protection des infrastructures critiques. De plus, l'efficacité du protocole dans la gestion des ressources computationnelles grâce à son mécanisme de graduation le rend idéal pour les opérations automatisées à grande échelle où une surveillance et une réponse continues sont requises. En permettant aux agents d'apprendre des échecs passés et de propager les stratégies réussies à travers une population, FORGE offre un cadre robuste pour construire des systèmes de sécurité résilients et adaptatifs.
La communauté open-source bénéficie considérablement de l'approche standardisée de FORGE en matière d'auto-évolution. En fournissant un protocole qui ne dépend pas d'architectures de modèles spécifiques ou de mises à jour de poids, FORGE facilite la comparaison et la collaboration entre différentes équipes de recherche. Cette standardisation peut accélérer le développement de nouvelles applications basées sur des agents et favoriser un écosystème plus collaboratif. De plus, la flexibilité du protocole permet de l'adapter à divers autres domaines au-delà de la cybersécurité, tels que le service client, le trading automatisé et le contrôle robotique. Le potentiel de FORGE à combler l'écart de performance entre différentes capacités de modèles démocratise également l'accès à l'IA haute performance, permettant aux organisations aux ressources limitées de tirer parti de technologies d'agents avancées.
Perspectives
À l'avenir, la communauté scientifique est prête à explorer l'applicabilité plus large de FORGE à travers divers domaines de tâches. Les études futures pourraient examiner l'efficacité du protocole dans des domaines tels que l'IA conversationnelle, où la rétention du contexte à long terme est cruciale, ou dans les systèmes de contrôle robotique, où l'apprentissage adaptatif à partir d'interactions physiques est requis. L'optimisation de la représentation des artefacts de mémoire et le raffinement des stratégies de diffusion au sein de la boucle populationnelle sont susceptibles d'être des axes de concentration clés. Les chercheurs pourraient expérimenter des formes de connaissances hybrides plus sophistiquées ou un ajustement dynamique des critères de graduation pour améliorer davantage l'efficacité et les performances. De plus, il existe un potentiel pour intégrer FORGE avec d'autres techniques d'apprentissage par renforcement afin de créer des systèmes d'agents encore plus robustes et polyvalents.
Le développement de FORGE ouvre également de nouvelles voies pour comprendre les processus cognitifs des agents d'IA. En analysant les mémoires en langage naturel générées par la boucle de réflexion, les chercheurs peuvent obtenir des insights sur la manière dont les agents forment des heuristiques et généralisent à partir d'expériences spécifiques. Cela pourrait conduire au développement d'algorithmes d'apprentissage plus semblables à ceux des humains, imitant les processus biologiques de consolidation de la mémoire. À mesure que le protocole mûrit, il pourrait également inspirer de nouvelles architectures pour les systèmes multi-agents, où des populations d'agents collaborent et rivalisent pour résoudre des problèmes complexes. L'accent mis sur la transparence et l'interprétabilité dans FORGE pourrait définir une nouvelle norme pour le développement responsable de l'IA, garantissant que les systèmes autonomes restent compréhensibles et contrôlables.
Enfin, les implications économiques de l'efficacité des ressources de FORGE ne peuvent être sous-estimées. À mesure que l'adoption de l'IA augmente, le coût de l'entraînement et de la maintenance des grands modèles reste un obstacle significatif. La capacité de FORGE à améliorer les performances sans coûts d'entraînement supplémentaires offre une voie durable pour l'industrie. Elle permet aux organisations de maximiser la valeur de leurs modèles existants tout en améliorant continuellement leurs capacités grâce à l'évolution de la mémoire. Cette approche pourrait conduire à une nouvelle génération de services d'IA plus abordables, évolutifs et adaptatifs. À mesure que la technologie évolue, on peut s'attendre à ce que FORGE et des protocoles similaires deviennent des composants intégraux de l'infrastructure d'IA, permettant un avenir où les agents autonomes sont non seulement intelligents, mais aussi efficaces, transparents et largement accessibles. La trajectoire de FORGE suggère un passage vers des systèmes d'IA plus modulaires et composable, où des protocoles légers permettent une adaptation continue à faible coût, redéfinissant ainsi les normes de performance et d'efficacité des agents.