超越對話的說服：大模型透過規劃與行動誘導信念狀態的能力評估

本文針對大語言模型在自主智能體場景下的社會推理能力，提出了非對話式規劃心智理論（NCP-ToM）評估框架。傳統基準多依賴被動問答，無法反映智能體透過行動影響他人信念的能力。研究構建了NCP-ExploreToM任務，要求模型透過移動物體或引導角色進入房間來誘導特定信念狀態。在涵蓋GPT-5、Gemini 2.5 Pro等六款前沿模型的實驗中，GPT-5以約80%的成功率成為唯一超越人類表現的大模型，但在跨上下文魯棒性上仍遜於人類。研究發現，所有模型在誘導真實信念時表現優於虛假信念，這與人類行為一致，為對齊研究提供了積極信號。該工作揭示了大模型在非對話任務中的新興社會推理能力，強調了針對自主社交智能體進行安全與對齊評估的必要性。