Grep 已足夠？Agent Harness 如何重塑智慧體搜尋範式

本文針對大型語言模型智慧體在檢索增強生成（RAG）中的檢索策略選擇與架構互動問題，展開了一項系統的實證研究。現有文獻缺乏對檢索策略、智慧體架構及工具呼叫範式之間交互作用的深入對比，且關於工具輸出呈現方式及無關文字干擾對效能影響的研究尚顯不足。研究透過兩個實驗展開：首先基於 LongMemEval 資料集，對比 grep 與向量檢索在自訂 Chronos 及主流供應商 CLI 工具下的表現，涵蓋內嵌與檔案讀取兩種模式；其次，透過逐步增加無關對話歷史，評估檢索策略在雜訊環境下的韌性。結果表明，在多數對比場景中，grep 檢索的準確率普遍高於向量檢索，且整體效能高度依賴於所選的 Harness 架構與工具呼叫風格，即使底層對話資料一致。