代理保真度:開放大模型能否解釋封閉模型?
這篇論文深入探討了機制可解釋性在封閉API模型上的適用性邊界,提出了「代理保真度」這一核心概念,旨在回答當僅能透過日誌機率等有限介面訪問封閉模型時,基於開放模型進行的測量能否有效推斷封閉模型的行為。研究團隊在預測、歸因和表示三個層面系統評估了代理保真度,涵蓋Llama、Qwen、GPT和Gemini四大模型家族。實驗發現,預測層面的高一致性嚴重高估了歸因層面的保真度——模型雖對答案達成一致,但對決策理由的理解往往大相逕庭。此外,研究揭示了一種「訪問有效性反轉」現象:白盒信號如注意力模式雖跨模型穩定,卻難以預測因果歸因,而黑盒輸入消融方法反而更準確。該研究警示機制洞察無法自動遷移至此閉目標,對可解釋性研究具有重要指導意義。