Grep 真的够了吗？Agent Harnesses 如何重塑智能体搜索范式

最新实证研究颠覆了向量检索在大模型智能体中占主导地位的假设，揭示在复杂工作流中，传统的 Grep 文本检索策略在多数场景下显著优于主流的向量嵌入搜索。研究基于 LongMemEval 基准测试，深入对比了 Chronos 自定义框架与主流 CLI 工具在不同输出模式下的表现，并量化了无关上下文噪声对检索鲁棒性的影响。结果表明，智能体的整体性能并非单纯由检索算法决定，而是高度依赖于底层架构设计与工具调用风格。这一发现为构建更高效、低延迟的智能体系统提供了新的技术路径，提示开发者重新审视简单启发式方法在 agentic 工作流中的核心价值。

随着大语言模型智能体技术的快速发展，智能体已能够执行复杂的自主工作流，包括从大型语料库中检索信息、调用外部工具以及进行逻辑推理，从而代表用户完成各类任务。尽管检索增强生成技术在智能体搜索系统中得到广泛应用，但现有研究尚未系统性地探讨检索策略的选择如何与智能体架构及工具调用范式相互作用。特别是在实际应用中，工具输出如何呈现给模型，以及在搜索过程中面对更多无关背景文本时性能如何变化，这些关键维度仍未得到充分探索。本文旨在填补这一空白，通过实证研究深入分析不同检索策略与智能体框架之间的协同效应，为构建更高效、更鲁棒的智能体搜索系统提供理论依据与实践指导。研究的核心贡献在于揭示了检索策略并非孤立存在，而是与智能体的执行环境紧密耦合，这一发现对优化智能体系统设计具有重要指导意义。在技术方法层面，本研究设计了两项精心控制的实验以全面评估不同因素对智能体性能的影响。第一项实验基于LongMemEval数据集中的116个问题样本，对比了传统的grep检索与基于向量相似度的检索策略。实验采用了自定义的智能体框架Chronos，以及Claude Code、Codex和Gemini CLI等主流提供商的原生命令行工具接口。为了全面评估工具输出呈现方式的影响，研究分别测试了内联工具结果（直接将结果嵌入对话上下文）和文件基工具结果（模型单独读取文件）两种模式。第二项实验则聚焦于检索策略在噪声环境下的鲁棒性，通过逐步混合无关的对话历史，模拟真实场景中查询被大量无关信息包围的情况。实验对比了纯grep检索与纯向量检索在逐渐增加的干扰材料下的表现，旨在揭示不同检索机制对上下文噪声的敏感度差异。这种细致的实验设计确保了研究结果的全面性与可靠性。实验结果揭示了多个关键发现。在实验一中，Across Chronos和各大提供商的CLI工具，grep检索在大多数情况下表现出比向量检索更高的准确率。这一结果挑战了当前业界对向量检索的普遍偏好，表明在特定类型的搜索任务中，精确匹配可能比语义相似度更有效。然而，研究也发现，整体性能得分强烈依赖于所使用的智能体框架和工具调用风格，即使底层对话数据相同，不同框架的表现也存在显著差异。在实验二中，随着无关对话历史的增加，两种检索策略的性能均有所下降，但grep检索在保持对关键信息定位能力方面表现出一定的优势。消融实验进一步证实，工具结果的呈现方式对模型理解工具输出至关重要，内联方式在某些场景下可能因上下文窗口限制而影响性能，而文件读取方式则能提供更清晰的边界，但可能增加模型的认知负荷。这些发现为智能体系统的设计提供了重要的实证依据。本研究对开源社区、工业落地及后续研究具有深远意义。对于开源社区而言，研究揭示了智能体框架在检索任务中的关键作用，鼓励开发者优化框架以更好地支持不同检索策略。在工业落地方面，研究结果提示企业在构建智能体系统时，不应盲目追求复杂的向量检索，而应根据具体任务类型、数据特征及框架能力，选择最合适的检索策略与工具调用范式。此外，研究强调了工具输出呈现方式的重要性，为优化用户交互体验提供了方向。对于后续研究，本文提出的实验框架与发现为探索更复杂的检索策略、多模态检索以及智能体在动态环境中的适应性提供了基础。未来研究可进一步探索混合检索策略、自适应上下文窗口管理以及针对特定领域优化的智能体架构，以推动智能体技术向更高水平发展。

Sources

arXiv