TRADE:基於 Transducer 增強的語音大模型串流推論方案
針對語音大模型在串流推論中缺乏聲學幀對齊的問題,本文提出 TRADE 架構。透過引入與音訊編碼器共享的 Transducer 分支,並利用 LLM 隱藏狀態,實現了幀同步聲學對齊與語言推論的緊密結合。該方案採用雙詞彙表融合、區塊同步串流訓練及區域解碼器音訊注意力機制,有效降低記憶體佔用並消除訓練推論差異。實驗顯示,TRADE 在 Open ASR 榜單平均字詞錯誤率為 6.71%,且在長音訊任務中表現優異,顯著提升了話語結束檢測的準確性。