LLM從自己的話中受益嗎？重審多輪對話中的上下文設計

多輪對話中，LLM通常會將自己之前的回覆保留在對話歷史中。這一設計看似自然，但其實際效果從未被系統性地驗證過。本研究重新審視這一普遍假設：LLM真的能從自身先前的回覆中獲益嗎？

研究團隊利用真實世界的多輪對話數據，深入分析LLM對自身歷史回覆的利用模式。結果令人意外：在許多情況下，保留助手歷史回覆並不能顯著提升後續回覆質量，在某些任務類型上甚至出現負面影響。

這一發現挑戰了多輪對話設計的基本假設，對LLM上下文窗口管理、對話系統架構和推理效率優化有重要啓示。

在ChatGPT、Claude等主流LLM產品的多輪對話中，系統默認將助手的歷史回覆一併傳入上下文。這一設計幾乎從未被質疑——直覺上，「知道自己說過什麼」應該有助於保持一致性和連貫性。

研究團隊在真實野外多輪對話數據上設計了對照實驗：

通過自動評估和人工評估對比兩組的回覆質量差異。

這一研究對AI Coding助手、客服機器人等依賴多輪對話的產品有重要影響：選擇性保留歷史記錄而非無差別保留，可以在降低推理成本的同時維持甚至提升對話質量。

在LLM推理成本居高不下的當下，上下文窗口的精細化管理正成爲Agentic AI系統優化的核心課題。此研究爲「更少但更好的上下文」提供了實證基礎，將推動下一代LLM對話架構的重新設計。