RMSNorm Transformer中符號-置換坐標傳輸與規範固定研究

本文針對現代大型語言模型工作流中跨檢查點傳輸坐標索引物件(如引導向量、稀疏編碼器等)時面臨的規範模糊問題,深入剖析了不同歸一化架構下的對稱性差異。研究指出,LayerNorm的殘差流規範群為置換群,而RMSNorm由於引入逐通道增益參數,其規範群擴展為包含符號翻轉的符號-置換群。傳統的僅基於置換的對齊方法在RMSNorm模型中存在對稱性不完備的缺陷。為此,作者提出了符號邊緣化的匈牙利匹配演算法,證明了原始符號相關性匹配在去相關坐標下存在結構性精度上限,並透過符號邊緣化消除了這一限制。實驗顯示,在1500步微調軌跡中,基於符號-置換規範恢復的跨執行坐標準確率達到91.1%,遠超端點匹配的60.3%。該規範傳輸顯著提升了TinyLlama稀疏編碼器的重建精度(NMSE從1.08降至0.004)及情感引導效果保留率(95.8% vs 17.2%),並揭示了狀態訓練中AdamW狀態傳輸對軌跡一致性的關鍵影響,為可解釋性研究提供了嚴格的規範基準。

Sources