TRADE:基於Transducer增強的語音大模型流式推理方案

當前語音大語言模型在流式推理方面缺乏原則性機制,其標籤同步生成方式缺失聲學幀對齊,導致即時解碼和話語結束檢測困難。本文提出 TRADE(Transducer-Augmented Decoder),透過引入與音訊編碼器共享的 Transducer 分支,並直接利用 LLM 隱藏狀態作為預測網路,將幀同步聲學對齊與 LLM 的語言推理能力緊密結合。該架構具備三大核心設計:緊密耦合的雙詞彙表實現零成本分數融合;帶梯度停止的區塊同步流式訓練消除訓練推理差異;區域解碼器音訊注意力(LDAA)限制 KV-cache 記憶體以支援長音訊。實驗顯示,TRADE 在 Open ASR Leaderboard 上平均詞錯率為 6.71%,960ms 區塊大小的流式識別詞錯率為 8.40%。在長音訊任務中,無需外部分割即可在 TED-LIUM 和 Earnings-22 資料集上分別取得 3.64% 和 10.88% 的詞錯率。此外,結合聲學 VAD,其句子結束標點時間戳使話語結束檢測 F1 值提升 0.03。

Sources