代理保真度陷阱:开源模型为何难以解释闭源黑盒

最新研究深入探讨了机械可解释性在封闭API环境下的局限性,提出"代理保真度"概念以评估基于开放大模型的测量结果能否有效推断封闭模型行为。通过对Llama、Qwen、GPT和Gemini四大系列共十一个模型的广泛实验,研究发现预测保真度严重高估了归因保真度,即模型在答案上的一致性往往掩盖了推理逻辑的巨大分歧。研究还揭示了"访问有效性倒置"现象,指出白盒信号如注意力模式对因果归因预测能力极弱,而黑盒输入消融实验反而更准确。这一发现表明,机械可解释性的洞察无法自动迁移至封闭目标,为开源社区评估模型可解释性工具的有效性提供了重要警示,提示仅凭预测层面的一致性不足以支撑跨模型的解释迁移。

在当前的AI研究范式中,机械可解释性(Mechanistic Interpretability, MI)一直被视为理解大语言模型内部运作机制的关键钥匙。然而,这一领域面临着一个严峻的现实困境:大多数广泛部署的语言模型以API形式提供,而API通常仅暴露输出token的对数概率,缺乏对模型内部状态的直接访问权限。这种数据访问的不对称性创造了一个所谓的"代理问题":当我们只能使用开放模型作为代理时,基于这些开放模型所做的测量在多大程度上能够让我们对封闭模型做出可靠的论断?这篇论文的核心贡献正是直面这一挑战,它系统地定义了"代理保真度",并试图回答一个关键问题——开放模型的内部信号是否真的能解释封闭模型的行为?研究指出,随着封闭模型在工业界的普及,理解其决策逻辑变得愈发困难,而现有的可解释性方法大多依赖于白盒访问,这导致了许多关于模型行为的结论可能仅适用于开源模型,而无法推广到更具商业价值的封闭模型上。因此,建立一套评估代理保真度的框架,对于确保可解释性研究的有效性和通用性具有至关重要的意义。为了深入剖析这一问题,研究团队从预测、归因和表示三个不同的抽象层次构建了评估代理保真度的方法论。

在表示层面,对于二分类任务,他们提出利用对数几率(log-odds)作为API兼容的标量读数,以此反映模型的表示空间特征。在归因层面,他们采用了留一法(leave-one-out)归因技术,通过逐一屏蔽输入部分来洞察模型的行为逻辑。在实验设置上,研究覆盖了跨越Llama、Qwen、GPT和Gemini四大主流系列的十一个模型,确保了评估结果的广泛性和代表性。训练策略方面,虽然主要关注推理时的行为分析,但研究强调了在不同模型架构下保持评估标准的一致性,以消除架构差异带来的干扰。通过这种多层次、多模型的对比分析,研究旨在揭示不同层级上代理保真度的具体表现,特别是关注白盒信号与黑盒行为之间的映射关系,从而为后续的可解释性研究提供坚实的方法论基础。实验结果揭示了令人深思的现象,即预测保真度与归因保真度之间存在显著的不匹配。数据显示,预测保真度严重高估了归因保真度,这意味着许多模型在最终答案上表现出高度一致,但在解释"为什么"得出该答案时却存在巨大分歧。

更关键的是,研究记录了一种"访问有效性倒置"现象:传统的白盒信号,如注意力模式(attention patterns)和扰动幅度(perturbation magnitudes),在不同模型之间表现出极高的稳定性,但这些信号对因果归因的预测能力却非常弱。相反,由设计决定的黑盒输入消融实验(input ablations)反而能更准确地捕捉到因果归因。这一发现通过大量的消融实验得到验证,表明仅仅依靠模型在输出结果上的一致性,无法推断其内部推理过程的一致性。实验还表明,即使是在同一模型家族内部,这种代理保真度的差异也依然显著,进一步证明了跨模型迁移可解释性洞察的困难性。这项研究对开源社区、工业落地以及后续研究产生了深远的影响。首先,它向机械可解释性社区发出了明确警示:机械洞察并不能自动迁移到封闭目标上,研究人员在使用开源模型作为代理来推断封闭模型行为时必须保持极度谨慎。其次,对于工业界而言,这意味着依赖开源模型的可解释性工具来审计或理解封闭商业模型可能存在严重的偏差,需要开发新的评估标准或混合方法。最后,在后续研究方面,该工作为如何更好地评估代理保真度提供了基准,鼓励开发者探索更鲁棒的归因方法,特别是那些能够弥补白盒信号与黑盒因果归因之间鸿沟的技术。代码和结果的开源也为这一领域的进一步探索提供了宝贵资源,推动了可解释性研究从理想化的白盒环境向更复杂的现实API环境过渡。

Sources