什么是 SIMMER 基准测试框架？它如何评估大模型的规划能力？

SIMMER 是评估大语言模型隐性失败的基准框架。它构建包含77种动作、262个对象的符号化厨房世界模型，利用状态机执行器模拟全程轨迹，精准识别不可逆损害。

为什么隐性失败评估很重要？实验发现了什么？

现有评估常忽略不立即中断但会导致目标偏离的隐性失败。实验显示，前沿模型无错误计划比例最高仅17%，超半数计划存在隐性失败且多数导致不可逆后果。

研究提出了哪些提升方案？对未来有何意义？

研究引入反事实前瞻模拟可将隐性失败率降低72%，不可逆后果减少75%。该基准为高风险场景提供标准化工具，指引显式推理与语言生成结合的未来方向。

SIMMER基準：基於世界模型評估大型語言模型規劃中的隱性失敗

本文針對大型語言模型在家庭自主代理規劃中面臨的隱性失敗問題，提出了SIMMER基準測試框架。現有評估多關注即時執行錯誤，忽視了那些不立即中斷但會破壞目標實現甚至造成不可逆損害的隱性失敗。SIMMER建構了一個基於廚房領域的符號化世界模型，包含77種動作、262個物件及約46,800種語義真實的交互關係。透過狀態機執行器，該框架能精確識別前置條件違規、隱性危害及不可逆失敗。實驗顯示，即使是前沿模型，無錯誤計畫比例最高僅為17%，且高達56%的計畫存在隱性失敗，多數導致不可逆後果。研究進一步證明，透過反事實前瞻模擬進行顯式狀態推理，可將隱性失敗減少72%，不可逆情況減少75%，為提升LLM規劃魯棒性提供了新方向。

在自主智能体日益依赖大语言模型进行复杂任务规划的背景下，传统的评估体系存在显著盲区。现有基准测试主要关注计划在执行瞬间是否因违反物理规则或逻辑约束而立即失败，这种即时反馈机制虽然能捕捉表面错误，却掩盖了更为隐蔽且危险的一类问题：隐性失败。隐性失败指的是那些在计划执行初期看似正常、未触发即时中断，但随着环境状态演变，逐渐导致目标偏离、资源浪费甚至造成不可逆损害的错误模式。例如，在厨房场景中，一个看似合理的烹饪步骤序列可能在后续步骤中因食材变质或工具缺失而导致整道菜肴报废。为了填补这一关键评估空白，研究团队提出了SIMMER基准，旨在通过构建一个高度拟真的符号化世界模型，深入评估大语言模型在长期规划中对隐性风险的识别与规避能力。该研究的核心贡献在于重新定义了规划鲁棒性的评估标准，强调从"能否执行"转向"能否安全且有效地达成最终目标"，为后续研究提供了更贴近现实复杂性的测试环境。

SIMMER的技术实现核心在于其精心构建的厨房领域符号化世界模型。该模型并非简单的规则集合，而是基于真实世界烹饪脚本提炼出的语义真实交互网络，涵盖了77种具体动作、262个独特对象以及约46,800种可能的交互状态。这种细粒度的建模方式确保了环境状态的丰富性与逻辑的严密性。在此基础上，研究引入了一个状态机执行器，作为连接LLM生成计划与世界模型状态的桥梁。该执行器不仅验证计划中的每个动作是否满足当前状态的前置条件，从而捕捉即时违规，更重要的是，它通过模拟计划的全程执行轨迹，检测那些在中间步骤中埋下的隐患。这些隐患包括隐性危害，即那些暂时未造成后果但破坏后续步骤可行性的状态改变，以及不可逆失败，即一旦触发便无法通过后续操作补救的灾难性错误。

这种基于状态机模拟的检测机制，使得系统能够在计划执行前或执行初期就预判潜在风险，从而实现对隐性失败的精准定位与量化评估。在实验设置方面，研究团队在SIMMER基准上对六种不同规模与架构的大语言模型进行了全面评估，涵盖了从开源模型到前沿闭源模型。关键结果显示，即使是当前性能最强的前沿模型，其生成的无错误计划比例最高也仅为17%，这一数据揭示了现有LLM在长期规划中的巨大脆弱性。更为严峻的是，高达56%的计划中包含了隐性失败，其中绝大多数最终导致了不可逆的后果，如食材浪费或设备损坏。为了进一步探究提升规划鲁棒性的方法，研究进行了深入的消融实验，重点评估了"反事实前瞻模拟"这一显式状态推理策略的效果。通过让模型在生成计划时模拟多种可能的未来状态分支，并基于这些模拟结果进行自我修正，实验发现该策略能将隐性失败率大幅降低72%，同时将不可逆失败案例减少75%。

这一显著的性能提升不仅验证了显式推理在捕捉隐性风险方面的有效性，也为优化LLM规划算法提供了具体的技术路径。SIMMER基准的提出对开源社区、工业落地及后续研究具有深远的行业意义。对于工业界而言，特别是在家庭服务机器人、自动化厨房等高风险场景中，隐性失败可能导致严重的财产损失或安全隐患，SIMMER提供的评估标准有助于企业在部署前筛选出更可靠的规划模块。对于开源社区，该基准提供了一个标准化的测试平台，促进了不同规划算法在统一环境下的公平比较与迭代优化。从长远来看，这项研究揭示了当前大语言模型在因果推理与长期后果预测方面的不足，指明了未来研究的重要方向：即如何将显式的状态推理与隐式的语言生成能力更有效地结合。通过引入类似反事实模拟的机制，研究者有望开发出更具鲁棒性与安全性的自主代理系统，推动LLM从简单的指令跟随者向真正的智能规划者转变，从而在复杂动态环境中实现更可靠的任务执行。

Sources

arXiv