FORGE协议:无需权重更新的智能体自进化新范式与种群广播机制解析
针对大语言模型智能体在复杂决策任务中缺乏长期记忆积累且传统微调成本高昂的痛点,最新研究提出FORGE协议。该框架通过种群广播机制与内部反思循环,无需权重更新即可实现智能体的自进化。在CybORG CAGE-2网络防御基准测试中,FORGE使GPT、Claude等主流模型的平均回报提升1.7至7.7倍,失败率降至1%。这一发现为资源受限环境下的高效智能体部署提供了新路径,并显著缩小了不同能力层级模型间的性能差距。
大语言模型智能体在动态环境中的决策能力往往受限于其静态的知识边界,传统方法依赖梯度更新或外部微调来增强智能体,但这带来了高昂的计算成本和部署复杂性。针对这一痛点,本研究提出了FORGE(Failure-Optimized Reflective Graduation and Evolution),一种创新的无权重更新自进化记忆协议。FORGE的核心贡献在于它允许智能体通过自我生成的自然语言记忆进行决策优化,而无需对底层模型进行任何梯度更新或蒸馏。该协议采用分层ReAct智能体架构,通过内部反射循环和外部种群广播循环的协同工作,实现了知识的高效积累与传播。内部循环利用专用的反射智能体,将失败的交互轨迹转化为可复用的知识工件,包括文本启发式规则、少样本演示示例或两者的混合形式。外部循环则负责在阶段间传播表现最优实例的记忆,并通过毕业标准冻结已收敛的实例,从而在提升性能的同时优化计算资源的使用。
这一机制使得智能体能够在不改变模型权重的情况下,通过记忆的不断迭代和进化,显著提升在复杂任务中的表现。在技术实现层面,FORGE构建了一个精细的两层循环架构。内部循环模拟了Reflexion的学习过程,但关键区别在于它不依赖更强的模型进行蒸馏,而是使用相同的底层LLM进行自我反思。当智能体在任务中遭遇失败时,反射智能体会分析失败轨迹,提取出具有通用性的知识,并将其格式化为规则(Rules)、示例(Examples)或混合形式(Mixed)。这些知识随后被注入到智能体的提示中,形成自然语言记忆。外部循环则引入了种群概念,维护一组智能体实例。
在每个阶段结束时,外部循环评估所有实例的性能,并将表现最好的实例的记忆广播给种群中的其他成员。此外,FORGE引入了毕业机制,当某个实例的记忆达到一定收敛标准时,将其从种群中移除并冻结,以防止计算资源的浪费。这种设计不仅促进了知识的共享和进化,还通过种群多样性避免了局部最优,确保了探索的广度。网络结构上,FORGE保持了智能体的原始架构,仅通过提示工程注入记忆,这使得该方法具有极高的通用性和灵活性,能够轻松适配不同的LLM家族。为了验证FORGE的有效性,研究者在CybORG CAGE-2这一随机网络防御部分可观测马尔可夫决策过程(POMDP)基准上进行了广泛评估。该任务设定在30步的时间视界内,对抗B-line攻击者,具有高度的随机性和复杂性。
测试涵盖了Gemini-2.5-Flash-Lite、Grok-4-Fast、Llama-4-Maverick和Qwen3-235B四种主流LLM家族,这些模型在零样本设置下均表现出强烈的负向、重尾奖励分布,表明其在复杂防御任务中存在显著的能力短板。实验结果显示,FORGE在所有12种模型-表示组合中,平均评估回报相较于零样本基线提升了1.7至7.7倍,相较于孤立单流学习的Reflexion基线提升了29%至72%。更重要的是,FORGE将主要失败率(回报低于-100)降低至约1%,极大地提高了系统的可靠性。消融实验进一步揭示了关键机制:移除毕业机制的无毕业变体确认了种群广播是性能提升的主要驱动力,而毕业机制主要起到节省计算资源的作用。此外,研究发现少样本示例(Examples)在四种模型中的三种上取得了最高的回报,而规则(Rules)则在成本可靠性方面表现最佳,所需令牌数减少约40%。值得注意的是,基线能力较弱的模型从FORGE中获益更为显著,这表明该协议可能有助于弥合不同能力层级模型间的性能差距,而非仅仅放大强模型的优势。
FORGE的提出对智能体研究领域具有重要的行业意义和潜在影响。首先,它证明了无需权重更新即可实现智能体的显著性能提升,这为在资源受限的边缘设备或实时系统中部署智能体提供了可行的路径,降低了部署和维护成本。其次,基于自然语言记忆的机制使得智能体的进化过程更加透明和可解释,研究人员可以直观地查看和分析智能体积累的知识,这对于调试和改进智能体行为至关重要。在开源社区,FORGE提供了一种标准化的自我进化协议,促进了不同研究团队之间的比较和协作。在工业落地方面,该方法特别适用于网络安全、自动化运维等需要长期记忆和快速适应动态环境的场景。后续研究可以进一步探索FORGE在其他类型任务(如对话系统、机器人控制)中的适用性,以及优化记忆表示形式和广播策略,以实现更高效的知识积累和更广泛的智能体自进化能力。