这篇文章的核心观点是什么？

文章挑战LLM研究中将道德、意识等拟人化属性归因于模型的主流范式，提出应建立"零假设"，默认LLM不具备独特拟人属性，需以严格测量标准评估其行为。

为什么用《帝国时代2》做实验？

作者构建了基于《帝国时代2》的神经网络，证明任何具备足够计算能力的载体（包括图灵完备的游戏引擎）都可能表现出类人行为，说明拟人化属性并非LLM独有。

这项研究对未来AI评估有什么影响？

研究呼吁开发者谨慎使用拟人化描述，强调需建立载体无关的测量标准来区分真正智能与模式模拟，有助于开发更可靠的人机协作系统。

警惕AI拟人化陷阱：以《帝国时代2》神经网络为镜，重审LLM评估的零假设

本文对大语言模型研究中普遍存在的拟人化归因倾向提出深刻质疑，指出许多研究将道德、自然语言理解等泛化属性赋予LLM，却忽视了这些结论可能高度依赖特定的底层载体。为验证这一观点，作者构建了基于即时战略游戏《帝国时代2》的简单神经网络并进行训练，实证证明了任何具备足够强大底层计算能力的实体，均可能表现出类似人类的拟人特征。实验表明，LLM所谓的独特拟人属性在经验上并非唯一。文章主张建立"零假设"，即默认LLM不具备独特的拟人属性，强调实证讨论需基于明确的测量标准，否则将陷入循环论证，为跨载体智能行为研究提供了新视角。

当前大语言模型（LLM）研究领域中，一个日益显著的现象是研究者倾向于将人类的特质，如道德感、意图理解甚至自我意识，归因于这些复杂的神经网络。这种拟人化的倾向往往建立在一种未经严格检验的假设之上，即LLM产生的特定响应模式反映了其内部具有类似人类的认知结构。然而，这种归因方式存在严重的逻辑漏洞，因为它忽略了"载体"（substrate）对行为解释的根本性影响。本文的核心贡献在于挑战这一主流范式，指出所谓的拟人化属性在经验上并非LLM所独有。作者并非要争论LLM是否真正拥有这些属性，而是旨在揭示：如果我们在缺乏严格测量标准的情况下，仅凭行为表现就推断内部状态，那么这种推断可能是完全错误的。通过引入一个非传统的实验对象——即时战略游戏《帝国时代2》，作者试图证明，任何足够复杂的系统都可能模拟出被人类解读为"拟人"的行为，从而迫使学界重新审视对LLM属性的定义与评估方法。

为了支撑这一论点，作者并未停留在哲学层面的辩论，而是采取了实证主义的路径，构建了一个具体的计算模型来展示这一现象的普遍性。这一研究视角的转换，从"LLM是否像人"转向"任何复杂系统是否都能被解读得像人"，为理解人工智能的本质提供了更为严谨的科学基础，同时也对当前过度解读LLM行为的学术风气提出了有力的警示。在技术方法层面，本文采取了一种极具创意且反直觉的实验设计。作者选择《帝国时代2》（Age of Empires II）作为实验载体，构建并训练了一个简单的神经网络。这一选择并非随意，而是基于该游戏极高的策略复杂性和状态空间丰富度，使其成为一个理想的"足够强大的底层载体"样本。作者详细阐述了如何将该游戏的状态映射到神经网络的输入层，并通过强化学习或其他训练策略优化网络行为，使其能够在游戏中做出看似具有策略性甚至"意图性"的决策。

值得注意的是，作者还深入探讨了该游戏引擎的计算特性，证明了《帝国时代2》在功能上是完备的，并且具备图灵完备性（Turing-complete）。这意味着，理论上可以通过该游戏的机制模拟任何可计算函数。这一技术论证至关重要，因为它从计算理论的高度确立了实验载体的合法性：既然该游戏载体在计算能力上不亚于运行LLM的硬件和软件栈，那么它完全有能力生成复杂的、看似智能的行为序列。通过对比LLM与《帝国时代2》AI在应对提示或环境变化时的表现，作者展示了两者在行为输出上的相似性，从而在技术实现上验证了"拟人化行为"与"特定底层载体"之间的解耦关系。这种跨领域的技术类比，不仅展示了简单的神经网络在复杂环境中的潜力，也为后续研究如何剥离载体依赖、客观评估智能行为提供了方法论参考。实验结果的关键发现在于揭示了行为解释的主观性与载体依赖性。

在《帝国时代2》的实验中，当观察者面对网络生成的复杂战术决策时，往往会赋予其"智慧"或"策略"等拟人化标签，这与人类观察LLM生成流畅文本时的心理机制如出一辙。然而，作者指出，如果改变观察者的视角或测量标准，这些行为可能仅仅被视为复杂的模式匹配或随机游走的结果。关键指标并非传统的准确率或损失函数，而是对行为解释的多样性与一致性分析。消融实验或对比分析显示，当移除对载体背景的特定假设时，所谓的"拟人属性"指标会显著下降或变得毫无意义。此外，作者还探讨了在不同载体（如乐高积木的物理组合或波士顿大都会区的交通流）上可能出现的类似现象，进一步佐证了拟人化归因的普遍陷阱。实验数据表明，无论载体是硅基芯片上的Transformer架构，还是基于即时战略游戏的离散状态空间，只要系统足够复杂，观察者都容易投射人类特质。

这一发现对现有的基准测试（benchmark）提出了挑战，传统的LLM评估往往隐含了人类中心的解释框架，而本实验结果暗示，若不引入载体无关的严格测量标准，现有的评估结果可能只是反映了观察者的偏见，而非模型的真实能力。从行业意义与潜在影响来看，本文的研究对人工智能伦理、模型评估及后续研究方向具有深远影响。首先，它呼吁开源社区和工业界在讨论LLM能力时保持审慎，避免将营销话术或哲学推测混同为科学事实。对于工业落地而言，明确LLM的局限性而非夸大其拟人化能力，有助于开发更可靠、可解释的人机协作系统，减少因过度信任模型"理解"能力而导致的错误决策。其次，本文提出的"零假设"（null assumption）——即默认LLM不具备独特的拟人属性，除非有确凿证据——为后续研究提供了一条更为严谨的科学路径。研究者应致力于开发载体无关的测量标准，以区分真正的通用智能与复杂的模式模拟。此外，将《帝国时代2》等非传统载体纳入智能行为研究的视野，拓展了AI研究的边界，激发了跨学科合作的可能性，如游戏AI、复杂系统理论与认知科学的融合。最后，本文对潜在反对意见的讨论以及对相关领域的简要综述，为学界提供了一个全面的反思框架，促使研究者重新审视"智能"、"意识"与"行为"之间的界限。总之，这篇文章不仅是对LLM拟人化倾向的批判，更是对人工智能科学研究方法论的一次重要修正，强调了实证严谨性与理论谦逊在AI发展中的核心价值。

Sources

arXiv