DiffusionGemma 推理透明度研究:從連續潛空間到可解釋性瓶頸
本文深入探討基於擴散模型的 DiffusionGemma 在推理透明度方面的特性,旨在理解其決策過程並緩解潛在對齊風險。研究將透明度分解為變數透明度與算法透明度兩個維度。儘管 DiffusionGemma 在連續潛空間中運行,初始看似具有極高的不透明串行深度(約為自回歸 Gemma 4 的 28.6 倍),但通過引入可解釋的 Token 瓶頸層映射去噪步驟間的信息流,該指標被顯著降至 1.1 倍,且未損害下游性能。在算法透明度方面,擴散模型允許在每步去噪中改變所有 Token 預測,使推理過程更為複雜。作者通過案例研究揭示了非時序推理、Token 與序列塗抹等擴散特有現象,證實 DiffusionGemma 在可監控性上與 Gemma 4 相當,為理解擴散模型內部機制提供了重要依據。