爲什麼首個 Token 的速度比總響應時間更重要

深入分析 LLM 推理中 TTFT(Time To First Token)的重要性。用戶體驗研究表明,快速的首 Token 響應比總生成時間對滿意度影響更大。

文章探討了影響 TTFT 的技術因素:KV 緩存、推測解碼、量化、模型並行等,以及各種優化策略的效果對比。

對做 LLM 服務的工程師和產品經理都有重要參考價值。

在 LLM 服务中,TTFT(Time To First Token)是影响用户體驗的關键指標。

為什么 TTFT 重要

心理學研究表明,人类對「等待開始」和「等待结束」的感知是不同的。一旦看到内容開始生成(流式输出),用户會感到「系統在工作」從而更有耐心。而如果長时間看不到任何输出,即使最终生成很快,用户也會感到焦虑。

用户測試數據:TTFT < 500ms 时满意度 > 90%,TTFT > 2s 时满意度 < 60%,即使总生成时間相同。

影响 TTFT 的因素

Prompt 處理时間:输入越長,prefill 阶段越慢。長 context 場景下這是主要瓶颈。

KV 缓存命中率:缓存系統级 prompt 可大幅减少重复計算。

模型大小和量化:更小的模型和更激進的量化(INT4/INT8)直接降低 TTFT。

基础設施:GPU 类型、batch size、队列管理都會影响。

优化策略

1. **推測解码(Speculative Decoding)**:用小模型快速生成草稿,大模型驗证,减少首 Token 延迟

2. **Prompt 缓存**:缓存常用 system prompt 的 KV,避免重复計算

3. **分层服务**:簡单请求路由到小/快模型,复杂请求用大模型

4. **预热(Prefetch)**:在用户输入過程中就開始處理已输入部分

5. **量化**:在可接受的质量损失范围内使用更激進的量化方案

衡量建议

将 TTFT 作為核心 SLA 指標(而非仅监控总延迟),設置 P50/P95 報警阈值。