爲什麼首個 Token 的速度比總響應時間更重要
深入分析 LLM 推理中 TTFT(Time To First Token)的重要性。用戶體驗研究表明,快速的首 Token 響應比總生成時間對滿意度影響更大。
文章探討了影響 TTFT 的技術因素:KV 緩存、推測解碼、量化、模型並行等,以及各種優化策略的效果對比。
對做 LLM 服務的工程師和產品經理都有重要參考價值。
在 LLM 服务中,TTFT(Time To First Token)是影响用户體驗的關键指標。
為什么 TTFT 重要
心理學研究表明,人类對「等待開始」和「等待结束」的感知是不同的。一旦看到内容開始生成(流式输出),用户會感到「系統在工作」從而更有耐心。而如果長时間看不到任何输出,即使最终生成很快,用户也會感到焦虑。
用户測試數據:TTFT < 500ms 时满意度 > 90%,TTFT > 2s 时满意度 < 60%,即使总生成时間相同。
影响 TTFT 的因素
Prompt 處理时間:输入越長,prefill 阶段越慢。長 context 場景下這是主要瓶颈。
KV 缓存命中率:缓存系統级 prompt 可大幅减少重复計算。
模型大小和量化:更小的模型和更激進的量化(INT4/INT8)直接降低 TTFT。
基础設施:GPU 类型、batch size、队列管理都會影响。
优化策略
1. **推測解码(Speculative Decoding)**:用小模型快速生成草稿,大模型驗证,减少首 Token 延迟
2. **Prompt 缓存**:缓存常用 system prompt 的 KV,避免重复計算
3. **分层服务**:簡单请求路由到小/快模型,复杂请求用大模型
4. **预热(Prefetch)**:在用户输入過程中就開始處理已输入部分
5. **量化**:在可接受的质量损失范围内使用更激進的量化方案
衡量建议
将 TTFT 作為核心 SLA 指標(而非仅监控总延迟),設置 P50/P95 報警阈值。