SearchSwarm：賦予智能體長程深度研究的委託智能

隨著大型語言模型在現實世界複雜任務中的應用日益深入，處理長週期、高上下文需求的任務成為關鍵挑戰。然而，模型的上下文視窗始終有限，傳統單智能體模式難以應對無限增長的語境需求。本文提出了「委託智能」（Delegation Intelligence）的概念，旨在解決主智能體如何有效分解複雜任務、決定何時及向誰委派子任務，並將子智能體的返回結果整合回工作流程的問題。針對此類訓練數據稀缺的現狀，研究團隊以深度研究任務為切入點，設計了一套引導框架（harness），透過約束子智能體的行為並記錄高品質的決策軌跡，合成監督微調數據。最終生成的 SearchSwarm-30B-A3B 模型在 BrowseComp 和 BrowseComp-ZH 基準上分別取得了 68.1 和 73.3 的優異成績，超越了同規模的其他模型。該研究不僅開源了模型權重與訓練數據，更為解決長程智能體任務的上下文瓶頸提供了新的技術路徑。

在当前人工智能领域，大语言模型正被期望承担越来越多复杂且长周期的现实世界任务，例如深度的学术研究或复杂的工程调试。这类任务的一个显著特征是上下文需求可能无限增长，而现有模型的上下文窗口却存在固有的物理上限。尽管近期已有研究探索通过主智能体分解任务并派遣子智能体执行的模式，以节省主智能体的上下文预算，但这种范式成功的关键在于"委托智能"。即主智能体必须具备将复杂目标拆解为可执行子任务的能力，精准判断委派的时机与对象，并能有效整合子智能体返回的摘要结果。然而，自然界中缺乏现成的高质量文本数据来训练这种能力，开源社区对于如何合成此类数据及训练模型掌握该技能的研究尚处于空白阶段。这篇论文正是为了填补这一空白，首次系统性地探讨了如何在长程深度研究任务中构建并训练这种关键的委托智能。为了解决上述问题，研究团队提出了一种创新的技术方法，核心在于设计了一套精密的引导框架（harness）。这套框架并非简单地让模型自由发挥，而是通过结构化的约束机制，引导主模型进行高质量的任务分解与委派决策。具体而言，该框架严格限制了子智能体的输出格式与内容，确保其返回的结果能够无缝支持主智能体的后续工作流，避免了信息过载或格式混乱导致的上下文污染。在这一过程中，框架所生成的交互轨迹天然地编码了正确的委托决策逻辑。研究人员利用这些高质量的轨迹数据作为监督微调（SFT）的基础，将外部的规则约束内化为模型权重中的"委托智能"。这种方法巧妙地绕过了直接获取自然训练数据的难题，通过算法引导合成数据，使得模型能够在有限的参数规模下，学习到复杂的任务调度与上下文管理策略，从而在本质上提升了智能体处理长程任务的鲁棒性。在实验验证环节，研究团队将提出的方法应用于深度研究这一典型的长程智能体任务场景，并发布了基于此方法训练的SearchSwarm-30B-A3B模型。为了全面评估模型性能，研究选择了具有挑战性的BrowseComp及其中文版本BrowseComp-ZH作为主要基准测试平台。实验结果显示，SearchSwarm-30B-A3B在BrowseComp上取得了68.1的分数，在BrowseComp-ZH上更是达到了73.3的高分。这一成绩在所有同等规模的模型中位居榜首，充分证明了该方法在提升智能体委托智能方面的有效性。此外，通过消融实验分析，研究进一步证实了引导框架在生成高质量训练数据中的关键作用，以及监督微调对于将外部约束转化为模型内部能力的必要性。这些关键指标不仅量化了模型的性能提升，也为后续研究提供了可复现的基准参考，验证了通过合成数据训练委托智能的可行性与优越性。这项研究对人工智能行业及开源社区具有深远的意义。首先，它为解决大模型上下文窗口有限这一根本性瓶颈提供了一条切实可行的技术路径，即通过多智能体协作与智能委托来扩展有效上下文容量，而非单纯依赖硬件升级或架构调整。其次，研究团队承诺开源其引导框架、模型权重以及合成的训练数据，这将极大地降低后续研究者进入该领域的门槛，促进开源社区在长程智能体任务上的协同创新。对于工业界而言，这种具备高度委托智能的模型能够显著降低自动化研究、复杂数据分析等场景的人力成本，提高任务执行的准确率与效率。未来，随着更多基于此类方法的研究涌现，我们有望看到更加自主、高效且具备长期记忆管理能力的智能体系统，真正推动人工智能从单一任务执行者向复杂项目管理者转变。

Sources

arXiv