TRADE：基於Transducer增強的語音大模型流式推理方案

當前語音大語言模型在流式推理方面缺乏原則性機制，其標籤同步生成方式缺失聲學幀對齊，導致即時解碼和話語結束檢測困難。本文提出 TRADE（Transducer-Augmented Decoder），透過引入與音訊編碼器共享的 Transducer 分支，並直接利用 LLM 隱藏狀態作為預測網路，將幀同步聲學對齊與 LLM 的語言推理能力緊密結合。該架構具備三大核心設計：緊密耦合的雙詞彙表實現零成本分數融合；帶梯度停止的區塊同步流式訓練消除訓練推理差異；區域解碼器音訊注意力（LDAA）限制 KV-cache 記憶體以支援長音訊。實驗顯示，TRADE 在 Open ASR Leaderboard 上平均詞錯率為 6.71%，960ms 區塊大小的流式識別詞錯率為 8.40%。在長音訊任務中，無需外部分割即可在 TED-LIUM 和 Earnings-22 資料集上分別取得 3.64% 和 10.88% 的詞錯率。此外，結合聲學 VAD，其句子結束標點時間戳使話語結束檢測 F1 值提升 0.03。

当前大型语言模型在处理开放域长篇写作任务时，普遍存在一个未被充分解决的痛点：随着生成文本长度的增加，内容质量急剧下降，出现所谓的"长度崩溃"现象。尽管推理增强模型在逻辑密集型领域表现优异，但在需要长期连贯性的创意或叙述性写作中，一旦目标字数超过2000词，其表现往往难以为继。这篇论文深入剖析了这一困境，认为传统方法依赖的静态分层规划机制缺乏灵活性，无法在漫长的生成过程中根据上下文变化提供实时、动态的指导。针对这一核心问题，研究团队提出了交错结构思维链（IS-CoT）框架。该框架的核心贡献在于打破了传统线性生成的局限，通过引入内部化的动态调整机制，使模型能够在生成长文时保持高度的结构完整性和逻辑连贯性，从而有效缓解了长文本生成中的性能衰减问题，为提升LLM在复杂写作任务中的可靠性提供了新的理论视角和技术路径。 IS-CoT框架的技术创新主要体现在其独特的"计划-写作-反思"循环机制上。与依赖外部智能体工作流的传统方法不同，IS-CoT将这一动态循环直接嵌入到模型的生成过程中。具体而言，模型在生成文本时，并非单向地输出内容，而是交替执行战略规划、内容撰写和自我反思三个步骤。这种交错式的结构设计使得模型能够在每一步生成后，即时评估当前内容与整体目标的一致性，并根据反馈动态调整后续的写作策略。为了实现这一机制，研究团队采用多教师管道构建了一个高质量的交错推理轨迹数据集。通过这种方法，模型不仅学习了如何生成文本，更学会了如何在长语境中进行全局对齐和策略自适应。这种内嵌式的思维链设计，避免了外部调用带来的延迟和不稳定性，确保了模型在没有任何额外辅助的情况下，能够独立维持长篇幅内容的逻辑严密性和结构清晰度，显著提升了生成过程的可控性。在实验验证环节，研究团队基于IS-CoT框架训练了IS-Writer-8B模型，并在多个具有挑战性的长文本基准测试中进行了全面评估。实验结果显示，IS-Writer-8B在LongBench-Write基准上取得了 state-of-the-art 的性能表现，相较于强大的DeepSeek-V3.2模型，得分提升了3.08分。这一结果有力地证明了该方法的有效性。除了整体性能的领先，消融实验进一步揭示，IS-CoT框架在长度依从性和内容连贯性方面表现尤为突出。即使在面对极长文本生成任务时，模型依然能够严格遵循预设的长度要求，同时保持前后文的高度一致，没有出现常见的逻辑断裂或重复冗余问题。这些关键指标表明，IS-Writer-8B不仅在分数上超越了现有开源模型，其实际生成质量也具备了与规模大得多的专有闭源模型相竞争的实力，验证了交错结构思维在解决长文本生成瓶颈上的巨大潜力。这项研究对自然语言处理行业及开源社区具有深远的意义。首先，它为解决LLM在长文本生成领域的固有缺陷提供了一条切实可行的技术路线，证明了通过优化内部推理结构而非单纯扩大模型规模，也能显著提升长文写作能力。这对于资源有限的开发者和研究机构而言，是一个极具价值的启示，意味着可以通过算法创新来弥补算力差距。其次，IS-CoT框架提出的动态规划与反思机制，为后续研究提供了新的范式，可能启发更多关于模型自我修正和长期记忆管理的研究方向。在工业落地方面，该技术有望显著提升自动内容生成、长篇报告撰写以及创意写作辅助工具的质量，降低人工后期编辑的成本。随着开源社区对IS-Writer-8B等模型的进一步探索和应用，我们有望看到更多高效、可控的长文本生成应用涌现，推动AI在内容创作领域的深度普及。

Sources

arXiv