Oryx模型:基於共享表示的多混合器靈活序列建模新範式

針對現代大型語言模型中Softmax注意力機制計算複雜度隨序列長度呈二次方增長的問題,本文提出了Oryx架構,一種在序列軸上靈活切換不同混合器(mixers)的混合模型。Oryx允許模型在序列的不同位置動態選擇二次方複雜度的注意力機制以利用豐富上下文,或線性遞迴機制以實現高效生成。其核心創新在於至少90%的參數在混合器之間共享,使得注意力和遞迴模式能夠操作於內部共享表示之上。透過在Mamba-2和Gated DeltaNet變體上的實驗,Oryx在固定token預算和混合訓練策略下,表現優於或持平於單一混合器基線。在1.4B參數規模下,Oryx在所有實例上的平均語言建模任務中比基線高出至少0.7個百分點,且在檢索任務中僅需以注意力模式處理不到10%的token即可達到與Transformer基線相當的效能,證明了共享表示混合架構的潛力。