DiffusionGemma推理透明度解析：從連續潛空間到可解釋瓶頸

本文探討基於擴散模型的 DiffusionGemma 在推理透明度方面的表現。研究將透明度拆為變數透明度與算法透明度兩個維度。初步數據顯示其不可解釋串行深度看似比自回歸模型 Gemma 4 高出 28.6 倍，但引入可解釋令牌瓶頸層後，該差距降至僅 1.1 倍且未損害下游性能。在算法層面，擴散模型允許每步去噪時修改所有令牌預測，分佈式實現更複雜；文章揭示了非時序推理、令牌與序列塗抹等擴散特有現象，並證實 DiffusionGemma 可監控性與 Gemma 4 相當。