AXPO算法突破多模态智能体"思考-行动"鸿沟,8B模型性能超越32B基座

针对多模态智能体在工具调用中普遍存在的"思考-行动鸿沟"及强化学习信号抑制问题,研究团队提出AXPO(Agent eXplorative Policy Optimization)策略优化算法。该算法通过固定思维前缀并对全错子组进行重采样,结合不确定性前缀选择策略,显著提升了模型的探索能力。在九个多模态基准测试中,SFT+AXPO方案在Pass@1和Pass@4指标上均优于SFT+GRPO。特别是在8B参数规模下,其性能超越了32B基础模型,且参数量仅为后者的四分之一,为高效智能体训练提供了新范式。

在多模态大模型的发展进程中,具备扩展推理能力(extended reasoning)的视觉语言模型已在复杂问题解决上展现出卓越潜力。然而,现实世界中的许多任务超出了模型内部知识储备的范畴,必须依赖外部工具(external tools)才能完成。这就引出了智能体推理(Agentic Reasoning)的核心挑战:它需要模型在"思考"(Thinking,即自我包含的内部推理)与"行动"(Acting,即高方差的辅助工具使用)两种行为之间进行交错执行。本文敏锐地指出,这两种行为之间存在结构性的不对称,作者将其定义为"思考-行动鸿沟"(Thinking-Acting Gap)。这一鸿沟在标准的强化学习配方(如 GRPO)训练过程中表现为两个严重的诊断症状:首先,模型仅在约 30% 的 rollout 中尝试使用工具,探索意愿极低;其次,当模型尝试使用工具时,在约 40% 的问题上,同一组内的所有工具使用 rollout 均完全错误。这种高频的全错情况严重抑制了工具调用环节本应获得的学习信号,导致模型难以从错误中有效修正工具使用策略。

因此,如何弥合这一鸿沟,提升智能体在工具使用上的鲁棒性与成功率,成为当前研究亟待解决的关键问题。本文的核心贡献正是提出了 AXPO 算法,旨在通过更精细的策略优化机制,解决上述探索不足与信号抑制问题,从而释放多模态智能体的真正潜力。为了解决上述问题,作者提出了 AXPO(Agent eXplorative Policy Optimization),这是一种专门针对智能体推理场景设计的探索性策略优化方法。AXPO 的核心创新在于其对"全错"工具使用子组的针对性处理机制。在标准的强化学习训练中,模型往往倾向于重复已知安全的内部推理路径,而回避高风险的工具调用。AXPO 通过识别出那些工具调用完全失败的子组,采取了一种"固定思维前缀,重采样行动"的策略。

具体而言,对于被判定为全错的工具使用样本,AXPO 保持其前半部分的思考过程(thinking prefix)不变,仅对工具调用动作(tool call)及其后续的执行延续部分(continuation)进行重采样。这种局部重采样策略保留了模型在内部推理上已取得的正确进展,仅修正工具交互部分的错误,从而提供了更精准的学习信号。此外,AXPO 还引入了基于不确定性的前缀选择(uncertainty-based prefix selection)机制。该机制通过评估模型在生成思考前缀时的不确定性,动态选择那些既具有探索价值又不至于完全偏离正确方向的前缀进行优化。这种结合方式不仅提高了工具调用的尝试频率,还确保了重采样过程是在一个相对可靠的推理基础上进行的,从而有效缓解了高方差带来的训练不稳定问题,使模型能够更有效地从工具使用的错误中学习。为了验证 AXPO 的有效性,作者在九个广泛使用的多模态基准测试(multimodal benchmarks)上进行了全面的实验评估,并使用了三个不同参数规模的 Qwen3-VL-Thinking 模型作为基线。

实验结果清晰地展示了 SFT+AXPO 方案相对于传统 SFT+GRPO 方案的显著优势。在平均性能方面,SFT+AXPO 在 Pass@1 和 Pass@4 指标上均比 SFT+GRPO 提升了 1.8 个百分点。这一提升虽然在数值上看似不大,但在多模态推理任务中,尤其是在 Pass@4 这种强调多样性和最终正确率的指标上,具有统计学上的重要意义。更引人注目的是,在 8B 参数规模的模型上,采用 SFT+AXPO 训练的模型在 Pass@4 指标上成功超越了 32B 参数规模的 Base 模型。这意味着,通过更优的策略优化算法,小参数模型可以达到甚至超过大参数模型的性能水平,且参数量仅为后者的四分之一。这一发现不仅证明了 AXPO 在提升模型推理效率方面的有效性,也揭示了通过改进训练算法来弥补模型规模差距的可能性。

消融实验进一步证实了固定思维前缀和不确定性前缀选择机制对整体性能的关键贡献,验证了 AXPO 设计思路的科学性与合理性。AXPO 的提出对多模态智能体研究及工业落地具有深远的意义。首先,它为解决智能体推理中的"思考-行动鸿沟"提供了新的理论视角和实用工具,强调了在强化学习训练中区分内部推理与外部工具调用的重要性。这对于后续研究如何设计更高效的智能体训练算法具有重要的参考价值。其次,在工业落地方面,AXPO 证明了小参数模型通过优化训练策略可以达到大参数模型的性能,这极大地降低了多模态智能体部署的计算成本和延迟,使其更易于在资源受限的边缘设备或大规模并发服务中应用。对于开源社区而言,AXPO 提供了一种可复现且高效的优化范式,有助于推动多模态智能体技术的普及与创新。最后,AXPO 所采用的局部重采样和不确定性引导策略,也为其他涉及序列决策和工具使用的 AI 任务(如代码生成、自动化工作流等)提供了潜在的借鉴思路,有望推动更广泛领域的智能体技术发展。