Grep 真的夠了嗎？Agent Harnesses 如何重塑智能體搜索

本文針對大型語言模型智能體在複雜工作流中自主檢索與推理的能力，深入探討了檢索策略選擇與智能體架構及工具呼叫範式之間的交互影響。現有文獻缺乏對檢索策略如何與智能體架構及工具呼叫範式相互作用的系統性比較，特別是在工具輸出呈現方式及無關文字干擾下的性能變化方面存在研究空白。本研究透過兩項實驗進行了實證分析：第一項實驗在LongMemEval資料集上比較了grep與向量檢索在自訂智能體框架Chronos及主流提供商CLI工具中的表現，涵蓋內聯與檔案讀取兩種工具結果呈現方式；第二項實驗則透過逐步增加無關對話歷史，評估了純grep與純向量檢索在干擾環境下的魯棒性。實驗結果表明，grep檢索在多數情況下優於向量檢索，且整體性能高度依賴於智能體架構與工具呼叫風格。