强化学习为何会导致大模型多步工具调用崩溃？

研究表明，RL训练常引发特定控制令牌概率异常飙升，直接破坏结构化执行流程，导致模型即使保留底层能力，也无法正确输出格式化的工具调用结果。

引入多样化监督信号有何重要意义？

多样化监督信号可显著改善RL训练稳定性，防止灾难性崩溃。交错进行监督微调和RL能在保持结构约束的同时利用RL探索，为构建鲁棒智能体提供新范式。

当前方法存在哪些局限？

虽提升稳定性，但在分布外评估中性能出现退化，泛化能力不足。合理设置学习率等超参数对于应对分布外挑战、维持模型表现至关重要。

大模型多步工具调用强化学习崩溃机理与修复策略深度解析

最新研究揭示大语言模型在多步工具使用中应用强化学习时面临的稳定性危机。尽管模型具备底层调用能力，但RL训练常引发灾难性性能崩溃，表现为控制令牌概率异常飙升，破坏结构化执行流程。研究系统评估了离线策略、提示引导及错误示例等多种监督信号，对比同步与交错训练策略。实验证实，将监督微调与强化学习交错进行可显著提升稳定性，虽在分布外评估中性能略有下降，但为构建鲁棒智能体提供了关键范式，并强调了理解学习率对泛化能力影响的重要性。

在大语言模型向智能体演进的过程中，工具使用能力已成为处理复杂任务的核心要素。然而，近期基于强化学习的智能体方法虽然展现出提升模型能力的潜力，但在实际应用中却频繁遭遇不稳定性甚至性能崩溃的问题。本研究聚焦于这一关键痛点，通过深入实验发现，部分模型在强化学习过程中会出现灾难性的性能骤降，其典型特征是工具调用结构失效。经过细致的分析，作者指出这种失败并非源于模型底层工具使用能力的丧失，而是由于训练过程中特定控制令牌出现了意外的概率激增，从而扰乱了原本有序的执行流程。这种结构性的破坏使得模型虽然保留了潜在能力，却无法以正确的格式输出结果。基于这一洞察，本文的核心贡献在于揭示了强化学习在工具使用任务中的失效机理，并提出通过引入多样化的监督信号来修复这一缺陷，旨在解决强化学习探索过程中的不稳定性问题，为提升多步工具使用任务的鲁棒性提供理论依据和实践方案。

在技术方法层面，为了有效应对强化学习带来的分布偏移和结构破坏，作者系统地设计并验证了一系列监督信号干预策略。这些策略涵盖了离线策略监督、基于提示的引导、错误示例监督等多种类型，旨在为模型提供更为明确和稳定的优化方向。在训练架构上，研究对比了同步训练与交错训练两种方案。其中，交错训练策略通过将监督微调与强化学习阶段交替进行，试图在利用强化学习探索能力与保持监督信号提供的结构化约束之间取得平衡。此外，研究还深入探讨了学习率等超参数对模型泛化能力的影响，分析了不同监督信号在不同训练阶段的作用机制。这种细致的技术拆解不仅展示了如何具体实施这些监督信号，还揭示了它们在缓解概率异常飙升、维持工具调用结构完整性方面的具体作用路径，为后续研究提供了可复现的技术细节。

实验设置涵盖了多种基准数据集和评估场景，以全面检验所提方法的有效性。关键结果显示，引入多样化监督信号确实能够显著改善强化学习训练过程中的稳定性，特别是在防止灾难性崩溃方面效果明显。然而，研究也发现了一个重要的权衡：虽然交错监督微调与强化学习的策略提升了稳定性，但在格式和内容分布外评估中，模型性能出现了退化。这一发现揭示了当前方法在泛化能力上的局限性。消融实验进一步证实了不同监督信号对模型行为的细微影响，表明某些信号在特定条件下更能有效抑制控制令牌的异常概率。此外，对学习率的敏感性分析表明，合理的超参数设置对于维持模型在复杂任务中的表现至关重要。

这些结果不仅验证了监督信号在稳定训练中的作用，也指出了当前方法在应对分布外挑战时的不足，为未来的改进指明了方向。从行业意义与潜在影响来看，本研究对开源社区和工业落地具有深远影响。首先，它揭示了强化学习在工具使用任务中的潜在风险，提醒开发者和研究人员在部署智能体时需关注训练稳定性问题。其次，提出的监督信号修复策略为构建更鲁棒的多步工具使用智能体提供了新的思路，有助于推动大语言模型在复杂自动化任务中的实际应用。对于后续研究而言，本文指出的分布外泛化问题是一个重要的开放挑战，激励社区探索更有效的训练机制。此外，研究代码的开源促进了学术界的复现与进一步创新，加速了该领域的技术迭代。总体而言，这项工作不仅解决了具体的技术难题，更深化了对强化学习在大语言模型中作用机制的理解，为未来开发更可靠、更强大的智能体系统奠定了坚实基础。

Sources

arXiv