RMSNorm Transformer中符號-置換坐標傳輸與規範固定研究

本文針對現代大型語言模型工作流中跨檢查點傳輸坐標索引物件（如引導向量、稀疏編碼器等）時面臨的規範模糊問題，深入剖析了不同歸一化架構下的對稱性差異。研究指出，LayerNorm的殘差流規範群為置換群，而RMSNorm由於引入逐通道增益參數，其規範群擴展為包含符號翻轉的符號-置換群。傳統的僅基於置換的對齊方法在RMSNorm模型中存在對稱性不完備的缺陷。為此，作者提出了符號邊緣化的匈牙利匹配演算法，證明了原始符號相關性匹配在去相關坐標下存在結構性精度上限，並透過符號邊緣化消除了這一限制。實驗顯示，在1500步微調軌跡中，基於符號-置換規範恢復的跨執行坐標準確率達到91.1%，遠超端點匹配的60.3%。該規範傳輸顯著提升了TinyLlama稀疏編碼器的重建精度（NMSE從1.08降至0.004）及情感引導效果保留率（95.8% vs 17.2%），並揭示了狀態訓練中AdamW狀態傳輸對軌跡一致性的關鍵影響，為可解釋性研究提供了嚴格的規範基準。

Sources

arXiv