超越当下观测:RNG-Bench揭示多模态大模型在非马尔可夫环境中的记忆瓶颈
针对多模态大语言模型在闭环策略部署中面临的非马尔可夫挑战,最新研究提出了RNG-Bench基准测试套件。该套件通过匹配对和3D迷宫游戏,严格控制网格大小、视觉模式等维度,最高需处理128K token上下文及350张图像,旨在隔离模型重建过去观测并据此行动的能力。研究引入"记忆缺口"指标,发现前沿模型的主要误差源于遗忘早期观测而非决策失误。此外,通过在最优策略轨迹上微调Qwen3.5-9B模型,显著提升了其在RNG-Bench上的表现且未损害通用能力,为改进模型的长期记忆与空间推理提供了新方向。
在将多模态基础模型部署为闭环策略的过程中,一个日益严峻的挑战是模型必须依据那些在后续步骤中不再可见的观测来做出决策。这种情境被称为非马尔可夫环境,因为当前的决策不仅依赖于即时状态,还依赖于历史信息的完整重建。然而,现有的评估基准往往存在缺陷,要么直接暴露完整的环境状态,从而掩盖了模型记忆能力的不足;要么将隐藏状态的重建任务与其他代理技能混淆,导致评估结果不纯粹;又或者仅在episode结束后测试回忆能力,无法反映模型在交互过程中的实时推理表现。为了解决这一痛点,研究团队提出了RNG-Bench(Reconstructive Non-Markov Games),这是一个专门设计的基准测试套件,旨在精确隔离并评估基础模型在重建过去观测并据此进行多步交互方面的核心能力。这一贡献填补了当前多模态智能体评估在长期记忆与非马尔可夫决策交叉领域的空白,为理解大模型在复杂动态环境中的局限性提供了新的视角。从技术方法来看,RNG-Bench包含两个互补的游戏任务:匹配对(Matching Pairs)和3D迷宫(3D Maze)。
在匹配对任务中,特定位置短暂展示的卡片身份需要在后续步骤中被准确回忆;而在3D迷宫任务中,模型需要整合第一人称视角的视觉输入,构建并维护一个内部的空间地图。这两个任务均在统一的评估框架下进行,并通过三个可控的难度轴进行调节:网格大小、视觉模式复杂度以及观测模态。这种设计允许研究者系统地探究不同因素对模型性能的影响。此外,该基准引入了一种面对面对决协议,以控制实例级别的方差,确保评估结果的统计显著性。更关键的是,研究提出了"记忆缺口"(Memory Gap)指标,该指标能够将由于遗忘早期观测导致的错误与由于次优决策导致的错误分离开来,从而更准确地诊断模型失败的根本原因。这种细粒度的评估方法使得研究者能够深入分析模型在处理长程依赖时的具体瓶颈。
在实验设置与关键结果方面,RNG-Bench展示了极具挑战性的测试场景。最困难的配置要求模型处理约128K token的上下文长度,并在单个episode中处理多达350张图像输入。实验结果显示,即使是当前最前沿的多模态大语言模型(MLLMs),在这些配置下的表现也远未达到饱和,存在巨大的提升空间。通过对记忆缺口的深入分析,研究发现大多数残差错误并非源于模型在决策逻辑上的缺陷,而是源于对早期观测信息的遗忘。这意味着,当前的瓶颈主要在于长程记忆的保持与检索,而非推理能力的不足。这一发现颠覆了以往认为大模型在复杂任务中主要受限于规划能力的假设,指出了记忆机制在多模态闭环系统中的核心地位。
同时,实验还验证了不同难度轴对模型性能的影响,为后续优化提供了明确的方向。从行业意义与潜在影响来看,本研究不仅提供了一个严谨的评估基准,还为多模态模型的优化指明了具体路径。研究团队通过在最优策略轨迹和过滤后的模型演示上进行微调,成功提升了Qwen3.5-9B模型在RNG-Bench上的性能。值得注意的是,这种针对记忆能力的微调并未损害模型在通用多模态任务上的能力,证明了该方法的通用性和有效性。这一成果对开源社区具有重要的参考价值,因为它提供了一个可复现的基准和有效的微调策略,鼓励研究者关注模型的长期记忆能力。在工业落地方面,随着多模态智能体在机器人控制、自动驾驶和虚拟助手等领域的应用日益广泛,能够可靠地处理非马尔可夫环境的模型将成为关键基础设施。RNG-Bench的提出将推动学术界和工业界共同致力于解决长程记忆与空间推理的难题,加速多模态智能体从实验室走向真实复杂环境的应用进程。