ACTS框架:以强化学习重塑大模型思维链,实现推理效率与精度的动态平衡
针对大语言模型在长思维链推理中存在的计算资源浪费及过程不可控痛点,研究团队提出智能体思维链控制(ACTS)框架。该框架将推理过程建模为马尔可夫决策过程,引入控制器智能体动态引导冻结的推理器。通过观察思维轨迹与剩余预算,控制器自适应输出策略与引导短语,实现细粒度干预。实验表明,ACTS在显著降低Token消耗的同时,保持了与完整思维链相当的性能,为高效可控的大模型推理提供了新范式。
大型语言模型通过生成长篇的思维链(Chain-of-Thought)显著提升了复杂任务的最终答案准确率,但这一过程往往伴随着巨大的计算开销和效率低下问题。现有的高效推理方法主要侧重于通过缩短长度、提前停止或压缩轨迹来减少Token使用,然而这些方法大多是将思维长度作为唯一的控制维度,导致模型"如何思考"的过程仍然是黑盒且隐式的,缺乏对推理策略本身的灵活干预。本文旨在解决这一核心痛点,提出了一种名为智能体思维链控制(ACTS)的创新框架。其核心贡献在于将推理控制从简单的长度管理提升为策略层面的动态引导,通过引入外部控制器智能体,在不修改预训练模型参数的前提下,实现对推理过程的实时、细粒度控制。这不仅解决了Token浪费问题,更赋予了用户或系统在推理阶段对模型行为的可控性,填补了现有方法在推理策略自适应调整方面的空白。在技术方法上,ACTS创造性地将推理过程建模为一个马尔可夫决策过程(MDP)。在这个框架中,存在两个主要角色:一个是冻结的、预训练的大语言模型作为"推理器",负责生成具体的思维步骤;另一个是轻量级的"控制器智能体",负责监控并指导推理器的行为。
在推理的每一步,控制器都会观察当前的思维轨迹状态以及剩余的思考预算(即允许生成的Token数量上限)。基于这些信息,控制器会做出决策,输出一个包含两部分内容的动作:一是选择一种特定的推理策略(如分解、反思或类比),二是生成一个特定的引导短语(Steering Phrase),该短语将作为提示词的一部分输入给推理器,以启动下一步的思维生成。这种机制使得控制器能够根据预算的紧张程度动态调整策略,例如在预算充足时鼓励深度推理,在预算紧张时引导模型快速收敛,从而在保证生成连续性的同时实现预算感知的策略控制。为了训练这一控制器智能体,研究团队设计了一套完整的初始化与优化流程。首先,他们构建了合成的引导轨迹数据集,并通过多预算增强技术模拟不同资源限制下的理想推理路径,以此作为控制器的初始策略基础。随后,采用强化学习算法对控制器进行进一步优化,关键在于设计了预算条件奖励塑造机制。该机制不仅奖励最终答案的正确性,还根据推理过程中Token使用的效率以及是否严格遵循预算约束来给予奖励或惩罚。
实验在多个主流基准测试上展开,结果显示,ACTS能够在大幅减少Token消耗的情况下,达到与完整思维链推理相当的性能水平。消融实验进一步证实,预算条件奖励塑造对于控制器的稳定性至关重要,且该方法在不同架构的推理器和不同任务类型上均表现出良好的泛化能力,实现了精度与效率之间灵活且可控的权衡。ACTS的提出对大语言模型的工业落地和开源社区具有重要的行业意义。在工业场景中,推理成本是限制大模型大规模部署的关键瓶颈,ACTS提供了一种无需重新训练基础模型即可显著降低推理成本且保持高精度的解决方案,极大地提升了部署的经济性。同时,其引入的可控性机制使得开发者能够根据具体应用场景的需求(如实时性要求高的场景或高精度要求的场景)动态调整推理深度,增强了系统的鲁棒性和适应性。对于后续研究而言,ACTS展示了将智能体控制理论应用于大模型推理过程的巨大潜力,为探索更复杂的推理策略优化、多智能体协作推理以及资源受限环境下的高效AI系统提供了新的思路和技术范式。随着代码的开源,这一框架有望成为构建下一代高效、可控大模型应用的重要基石。