SIMMER基準:基於世界模型評估大型語言模型規劃中的隱性失敗
本文針對大型語言模型在家庭自主代理規劃中面臨的隱性失敗問題,提出了SIMMER基準測試框架。現有評估多關注即時執行錯誤,忽視了那些不立即中斷但會破壞目標實現甚至造成不可逆損害的隱性失敗。SIMMER建構了一個基於廚房領域的符號化世界模型,包含77種動作、262個物件及約46,800種語義真實的交互關係。透過狀態機執行器,該框架能精確識別前置條件違規、隱性危害及不可逆失敗。實驗顯示,即使是前沿模型,無錯誤計畫比例最高僅為17%,且高達56%的計畫存在隱性失敗,多數導致不可逆後果。研究進一步證明,透過反事實前瞻模擬進行顯式狀態推理,可將隱性失敗減少72%,不可逆情況減少75%,為提升LLM規劃魯棒性提供了新方向。