代理保真度：開放大模型能否解釋封閉模型？

這篇論文深入探討了機制可解釋性在封閉API模型上的適用性邊界，提出了「代理保真度」這一核心概念，旨在回答當僅能透過日誌機率等有限介面訪問封閉模型時，基於開放模型進行的測量能否有效推斷封閉模型的行為。研究團隊在預測、歸因和表示三個層面系統評估了代理保真度，涵蓋Llama、Qwen、GPT和Gemini四大模型家族。實驗發現，預測層面的高一致性嚴重高估了歸因層面的保真度——模型雖對答案達成一致，但對決策理由的理解往往大相逕庭。此外，研究揭示了一種「訪問有效性反轉」現象：白盒信號如注意力模式雖跨模型穩定，卻難以預測因果歸因，而黑盒輸入消融方法反而更準確。該研究警示機制洞察無法自動遷移至此閉目標，對可解釋性研究具有重要指導意義。