超越對話的說服:大模型透過規劃與行動誘導信念狀態的能力評估
本文針對大語言模型在自主智能體場景下的社會推理能力,提出了非對話式規劃心智理論(NCP-ToM)評估框架。傳統基準多依賴被動問答,無法反映智能體透過行動影響他人信念的能力。研究構建了NCP-ExploreToM任務,要求模型透過移動物體或引導角色進入房間來誘導特定信念狀態。在涵蓋GPT-5、Gemini 2.5 Pro等六款前沿模型的實驗中,GPT-5以約80%的成功率成為唯一超越人類表現的大模型,但在跨上下文魯棒性上仍遜於人類。研究發現,所有模型在誘導真實信念時表現優於虛假信念,這與人類行為一致,為對齊研究提供了積極信號。該工作揭示了大模型在非對話任務中的新興社會推理能力,強調了針對自主社交智能體進行安全與對齊評估的必要性。