SDAR:自蒸馏门控机制破解大模型智能体强化学习稀疏奖励难题

强化学习已成为大语言模型智能体后训练的核心范式,但轨迹级奖励信号在长周期交互中过于稀疏。现有在线策略自蒸馏(OPSD)虽提供密集令牌级指导,但在多轮场景中易引发不稳定性且难以区分技能缺陷与利用不当。本文提出SDAR方法,将OPSD作为门控辅助目标,利用Sigmoid函数将离散信号映射为软性门控,在教师认可的积极令牌上增强蒸馏,同时衰减负面拒绝。在Qwen2.5及Qwen3系列模型上,SDAR在ALFWorld、WebShop和Search-QA基准上分别较GRPO提升9.4%、7.0%和10.2%,有效解决了传统组合方法的不稳定性问题,为智能体训练提供了更稳健的优化路径。

大语言模型智能体在复杂任务中的表现高度依赖于后训练阶段的优化策略,其中强化学习(RL)因其能够直接优化最终任务奖励而成为主流范式。然而,RL面临着一个根本性的挑战:其提供的监督信号通常是基于整个交互轨迹的稀疏奖励,这对于需要多步推理和长期规划的长周期任务而言,指导作用过于粗糙,导致模型难以在中间步骤获得精确反馈。为了解决这一监督稀疏性问题,研究者引入了在线策略自蒸馏(OPSD)技术,试图通过一个拥有特权上下文信息的教师分支,为智能体提供密集的令牌级指导信号。尽管OPSD在单轮或简单任务中表现优异,但当其被直接移植到多轮智能体交互场景时,却遭遇了严重的适应性障碍。多轮交互中的误差累积会迅速放大,导致监督信号的不稳定性急剧增加;此外,当教师模型给出负面拒绝信号时,这种拒绝可能源于智能体对技能的检索错误,也可能源于利用不当,简单的蒸馏机制无法对这两种情况进行非对称处理,从而误导智能体的学习方向。针对这一痛点,本文的核心贡献在于提出了一种名为SDAR(Self-Distilled Agentic Reinforcement Learning)的新型框架,旨在平衡强化学习的全局优化能力与自蒸馏的局部精细指导,通过创新的门控机制解决多轮交互中的监督噪声与不稳定问题。在技术实现层面,SDAR并没有简单地叠加强化学习与自蒸馏,而是重新设计了二者的优化关系。

该框架将强化学习确立为主要优化主干,确保智能体在最终任务奖励上的全局收敛性,同时将OPSD处理为一个门控的辅助目标。具体而言,SDAR引入了一个精细的信号映射机制,将离散的令牌级蒸馏信号转换为连续的Sigmoid门控值。这一设计的关键在于其非对称的处理逻辑:当教师模型对智能体的某些令牌输出表示认可(即存在积极差距)时,门控机制会显著增强该部分的蒸馏强度,迫使智能体模仿教师的高质量决策;反之,当教师模型给出负面拒绝时,SDAR并不会强行压制智能体的输出,而是通过软性衰减的方式降低该信号的权重。这种处理方式巧妙地缓解了因技能检索不完整或利用策略不完善导致的教师误判问题。通过这种方式,SDAR能够在保持强化学习稳定性的前提下,利用教师模型的特权知识进行精细微调,有效避免了朴素结合GRPO与OPSD时常见的训练崩溃或性能震荡现象,实现了监督信号的有效过滤与利用。为了验证SDAR的有效性,研究团队在多个具有代表性的智能体基准测试上进行了广泛的实验,包括ALFWorld(文本环境交互)、WebShop(电商购物模拟)以及Search-QA(搜索问答)。实验涵盖了Qwen2.5和Qwen3两个主流的大语言模型家族,以确保结论的泛化能力。

结果表明,SDAR在所有测试场景下均显著优于基线方法。具体数据显示,在ALFWorld任务上,SDAR相比GRPO提升了9.4%的性能;在Search-QA上提升了7.0%;而在WebShop-Acc指标上更是实现了10.2%的大幅增长。更为重要的是,消融实验和对比分析显示,SDAR成功避免了朴素GRPO+OPSD方法中常见的多轮不稳定性问题,且在模型规模扩展时,SDAR始终能够稳定地超越各种混合RL-OPSD基线。这些结果不仅证明了SDAR在提升智能体任务完成率和准确率方面的有效性,也验证了其在不同模型架构和任务类型下的鲁棒性,为强化学习智能体的训练提供了新的性能上限。从行业意义与潜在影响来看,SDAR的提出为解决大语言模型智能体训练中的"监督稀疏"与"信号噪声"矛盾提供了极具价值的思路。在开源社区,这一方法为研究者提供了一个无需复杂架构修改即可提升智能体性能的即插即用模块,有助于推动更高效的智能体后训练范式的发展。在工业落地方面,随着智能体在客服、自动化办公、代码生成等长周期任务中的应用日益广泛,如何稳定地提升其多轮交互的可靠性是业界痛点,SDAR通过软性门控机制提升的稳定性直接对应了实际部署中的安全性与可用性需求。此外,该工作对后续研究的启示在于,单纯增加监督信号的密度并不足以提升性能,关键在于如何根据信号的可信度进行动态加权。这为未来探索更复杂的教师-学生交互机制、多教师蒸馏以及自适应奖励 shaping 技术指明了方向,有望推动智能体从"能完成任务"向"稳定、可靠、高效地完成任务"迈进。