用程式合成解釋 Transformer 注意力機制:從黑盒到可執行程式碼
本研究提出了一種利用程式合成技術來解釋深度神經網路注意力機制的創新方法,旨在將不透明的神經運算轉化為人類可理解的符號描述。研究聚焦於 Transformer 語言模型中的注意力頭,透過預訓練語言模型生成能夠複製注意力模式的 Python 程式,並在 GPT-2、TinyLlama-1.1B 和 Llama-3B 等模型上進行了驗證。實驗結果顯示,生成的程式在 TinyStories 資料集上達成了超過 75% 的平均交並比(IoU)相似度。更令人矚目的是,用這些程式替換 25% 的注意力頭僅導致困惑度平均增加 16%,且在多項問答基準測試中保持了原有性能。此方法為神經模型的符號透明性提供了一條具擴展性的路徑。