DiffusionGemma推理透明度解析:從連續潛空間到可解釋瓶頸
本文探討基於擴散模型的 DiffusionGemma 在推理透明度方面的表現。研究將透明度拆為變數透明度與算法透明度兩個維度。初步數據顯示其不可解釋串行深度看似比自回歸模型 Gemma 4 高出 28.6 倍,但引入可解釋令牌瓶頸層後,該差距降至僅 1.1 倍且未損害下游性能。在算法層面,擴散模型允許每步去噪時修改所有令牌預測,分佈式實現更複雜;文章揭示了非時序推理、令牌與序列塗抹等擴散特有現象,並證實 DiffusionGemma 可監控性與 Gemma 4 相當。