超越當下觀測:評估多模態大模型在非馬可夫遊戲中的記憶與推理能力
本文針對多模態大語言模型(MLLMs)在閉環策略部署中面臨的「非馬爾可夫」挑戰,提出了RNG-Bench基準測試套件。現有基準往往暴露完整狀態或混淆隱藏狀態重建與其他技能,而RNG-Bench旨在隔離模型重建過去觀測並據此行動的能力。該套件包含匹配對和3D迷宮兩個遊戲,透過網格大小、視覺模式和觀測模態三個維度控制難度,最高配置需處理約128K token上下文和350張圖像。研究引入「記憶缺口」指標,發現前沿模型的主要誤差源於遺忘早期觀測而非決策失誤。此外,透過在最佳策略軌跡上微調Qwen3.5-9B模型,顯著提升了在RNG-Bench上的表現,且未損害其通用多模態能力,為評估和改進模型的長期記憶與空間推理提供了新方向。