代理保真度陷阱：为何开放模型无法简单"透视"封闭大模型？

最新研究提出"代理保真度"概念，系统评估了Llama、Qwen等开放模型解释GPT、Gemini等封闭API模型的能力。研究发现，尽管开放模型在预测结果上与封闭模型高度一致，但这严重高估了其对决策逻辑的理解能力，两者在归因层面往往大相径庭。更关键的是，研究揭示了"访问有效性反转"现象：传统的白盒信号如注意力模式虽稳定却难以预测因果归因，而黑盒输入消融法反而更准确。这一发现警示业界，机制可解释性洞察无法自动迁移至封闭目标，对模型审计和安全评估提出了新的方法论挑战。

在人工智能可解释性研究的广阔领域中，机制可解释性长期以来依赖于对模型内部结构的完全访问权限，包括权重、激活值和注意力机制等细节。然而，现实世界中广泛部署的主流语言模型大多以API形式提供，仅暴露输出token的对数概率，这造成了一个严峻的"代理问题"：即基于开放权重模型进行的测量，在何种条件下能够有效地对封闭模型做出可靠推断？这篇论文的核心贡献在于系统地定义了"代理保真度"，并从预测、归因和表示三个维度深入剖析了开放模型作为封闭模型代理时的局限性。作者指出，当前的可解释性方法往往假设开放模型的内部机制能直接映射到封闭模型，但这一假设在缺乏内部访问权限时可能完全失效，从而引发了对现有可解释性范式的深刻反思。为了填补这一认知空白，研究团队构建了一个严谨的评估框架，旨在量化开放模型在解释封闭模型行为时的真实能力，为后续研究提供更为务实的基准。在技术方法层面，研究团队采用了多维度的评估策略来衡量代理保真度。首先，在预测层面，他们比较了开放模型与封闭模型在二元分类任务上的输出一致性，利用对数几率作为API兼容的标量读数来反映模型的表示空间。其次，在归因层面，研究引入了留一法归因技术，通过观察移除特定输入部分对输出的影响来推断模型的决策逻辑。在表示层面，则分析了内部激活状态的相似性。为了全面验证这一框架，研究选取了跨越Llama、Qwen、GPT和Gemini四大模型家族的十一个模型进行实验。训练策略上，主要依赖于对预训练模型的零样本或少样本推理测试，而非针对特定任务进行微调，以确保评估的通用性。通过对比白盒信号（如注意力权重）与黑盒信号（如输入消融结果）在解释模型行为时的表现，研究详细拆解了不同方法在捕捉模型因果归因时的有效性差异，揭示了技术实现上的细微偏差如何导致对模型行为的误解。实验设置涵盖了广泛的模型架构和任务类型，关键结果揭示了令人惊讶的现象。数据显示，预测保真度显著高估了归因保真度：许多在最终答案上高度一致的模型，在解释"为什么"得出该答案时却存在巨大分歧。这一发现挑战了以往认为预测准确即意味着机制透明的假设。此外，研究文档记录了一种"访问有效性反转"现象：尽管来自开放模型的白盒信号，如注意力模式和扰动幅度，在不同模型间表现出极高的稳定性，但这些信号对因果归因的预测能力却非常弱。相反，由设计决定的黑盒输入消融方法，尽管缺乏内部细节，却能更准确地捕捉到影响模型输出的关键因素。消融实验进一步证实，仅凭预测层面的一致性不足以支持将机制洞察迁移至封闭目标，必须引入更严格的归因一致性检验。这些结果在多个基准测试中均得到复现，证明了结论的稳健性。这项研究对开源社区、工业落地及后续研究具有深远的意义。对于开源社区而言，它提醒研究者在使用开放模型作为代理来解释商业模型时需保持谨慎，避免过度解读白盒指标。在工业落地方面，由于大多数企业依赖封闭API，该研究为如何在不侵犯知识产权或违反服务条款的前提下，利用开源工具进行模型审计和调试提供了理论依据和实践指南。它表明，简单的预测对齐不足以证明可解释性，需要开发新的评估标准来衡量黑盒解释的可靠性。对于后续研究，这篇论文开辟了一个新的方向，即探索如何在受限访问条件下构建更鲁棒的解释性框架，促进跨模型的可解释性迁移研究。代码和结果的开源也将加速这一领域的实证研究，推动可解释性AI向更实用、更严谨的方向发展。

Sources

arXiv