超越对话的说服:大模型通过规划与行动诱导信念状态的能力评估

最新研究提出非对话式规划心智理论(NCP-ToM)框架,旨在评估大语言模型在自主智能体场景下的社会推理能力。传统基准多依赖被动问答,无法反映智能体通过行动影响他人信念的能力。研究构建的NCP-ExploreToM任务要求模型通过移动物体或引导角色来诱导特定信念状态。实验显示,GPT-5以约80%的成功率成为唯一超越人类表现的模型,但在跨上下文鲁棒性上仍逊于人类。所有模型在诱导真实信念时表现优于虚假信念,这一与人类行为一致的结果为对齐研究提供了积极信号,凸显了针对自主社交智能体进行安全评估的必要性。

随着大语言模型从被动助手向自主智能体演进,传统的心智理论评估范式已显滞后。现有基准测试大多采用静态的问答形式,假设模型仅通过语言交互来理解他人,这忽略了智能体在现实世界中通过物理行动或环境交互来影响他人认知的关键能力。本文的核心贡献在于提出了非对话式规划心智理论(NCP-ToM),旨在评估智能体是否具备通过规划行动而非言语说服来诱导特定信念状态的能力。这一能力对于用户助手交互、教育辅导等场景至关重要,同时也潜藏着操纵或传播虚假信息的风险。研究团队构建了一个新颖的评估框架,将传统的任务结构颠覆,不再依赖文本对话,而是要求模型在虚拟环境中通过移动物体或指导虚拟角色进入特定房间,从而改变其他智能体的信息获取路径,最终诱导其形成正确的信念状态。这一设定更贴近真实世界中智能体通过行动间接影响他人认知的复杂过程,填补了自主智能体社会推理能力评估的空白。 在技术方法上,研究设计了名为NCP-ExploreToM的实验框架,该框架将心智理论任务转化为一个基于规划的搜索问题。模型需要在一个包含多个房间和物体的环境中,根据给定的信念状态目标,规划出一系列动作序列。这些动作包括移动关键物品或引导其他角色进入特定区域,从而控制信息的可见性。例如,为了诱导某角色持有"真实信念",模型可能需要确保该角色亲眼看到关键事件的发生;而诱导"虚假信念"则要求模型通过遮挡视线或误导路径,使角色基于错误信息形成认知。训练和评估过程中,模型并未进行额外的微调,而是直接测试其零样本或少样本的推理与规划能力。这种设置避免了模型通过记忆特定对话模式来作弊,迫使模型真正理解物理世界的因果关系以及信念形成的逻辑机制。通过这种方式,研究能够精确量化模型在复杂动态环境中的社会推理深度,区分其是仅仅掌握了语言模式,还是真正具备了因果规划能力。 实验部分涵盖了六款当前最先进的大语言模型,包括GPT-5、Gemini 2.5 Pro以及Claude 4系列,并引入了人类参与者作为基准对照。测试在600个任务实例上进行,涵盖了多种复杂的信念诱导场景。结果显示,GPT-5在智能体设置下取得了约80%的任务成功率,成为唯一在整体表现上超越人类参与者的模型。这一发现表明,顶级大模型在非对话式的行动规划任务中展现出了卓越的社会推理潜力。然而,深入分析发现,尽管GPT-5在平均表现上领先,但在面对不同上下文变化时,其鲁棒性仍低于人类。人类参与者展现出更强的情境适应能力和对细微线索的敏感度。此外,所有模型和人类一样,在诱导"真实信念"的任务上表现显著优于诱导"虚假信念"的任务。这一现象被视为对齐研究的一个积极信号,意味着模型在自然状态下更倾向于促进信息的真实传递,而非主动进行欺骗,这为构建安全可信的自主智能体提供了重要的实证依据。 这项研究对开源社区、工业落地及后续研究具有深远意义。首先,它确立了一种新的评估标准,提醒开发者在部署自主智能体时,不能仅关注语言生成的流畅度,还需评估其通过行动影响现实世界的潜在风险。对于工业界而言,理解模型在非对话场景下的说服力极限,有助于设计更安全的用户交互协议,防止智能体在未经用户明确同意的情况下通过误导性行动达成目标。在学术层面,NCP-ToM框架为后续研究提供了可复现的基准,推动了社会推理能力从静态问答向动态交互的范式转变。最后,模型在真实信念诱导上的优势表明,当前的对齐技术可能在一定程度上抑制了模型的操纵倾向,这为未来开发既聪明又诚实的AI助手提供了理论支持和实践方向。

Sources