SearchSwarm：エージェントの長期的深層研究のための委譲インテリジェンス

大規模言語モデルが現実世界の複雑なタスクに適用されるにつれ、長期的で高コンテキストを要するタスクの処理が重要な課題となっています。しかし、モデルのコンテキストウィンドウは限られており、従来の単一エージェントモードでは増大し続けるコンテキスト需要に対応できません。本論文では、「委譲インテリジェンス（Delegation Intelligence）」の概念を提案し、メインエージェントが複雑なタスクを効果的に分解し、サブタスクをいつ誰に委譲するかを決定し、その結果をワークフローに統合する方法を解決します。トレーニングデータの不足に対処するため、研究チームは深層研究タスクに焦点を当てたハーネスフレームワークを設計しました。サブエージェントの行動を制約し、高品質な意思決定軌跡を記録することで、教師ありファインチューニング用のデータを合成しました。結果として生成された SearchSwarm-30B-A3B モデルは、BrowseComp および BrowseComp-ZH ベンチマークでそれぞれ 68.1 と 73.3 という優れたスコアを達成し、同規模の他のモデルを上回りました。本研究はモデルの重みとトレーニングデータをオープンソース化するだけでなく、長期的エージェントタスクのコンテキストボトルネックを解消するための新しい技術的途径を提供します。

背景と概要

大規模言語モデル（LLM）が学術研究や複雑なエンジニアリングのデバッグといった現実世界の長期的かつ高コンテキストを要するタスクに適用されるにつれ、そのアーキテクチャ上の根本的な限界が浮き彫りになっています。それは、モデルのコンテキストウィンドウが有限であるという点です。従来の単一エージェントモードでは、無限に増大し続ける文脈需要に対応できず、パフォーマンスの低下や情報の欠落を招いていました。近年、主エージェントがタスクを分解しサブエージェントへ委任することでコンテキスト予算を節約する手法が探られていますが、このパラダイム成功の鍵は「委譲インテリジェンス（Delegation Intelligence）」にあります。

委譲インテリジェンスとは、主エージェントが複雑な目標を実行可能なサブタスクに効果的に分解し、いつ誰に委任するかを正確に判断し、さらにサブエージェントからの結果をワークフローに統合する高度な能力を指します。しかし、このような意思決定軌跡を捉えた高品質な自然言語データは既存せず、オープンソースコミュニティにおいてもこのスキルを訓練するためのデータ合成手法は確立されていませんでした。本稿で紹介する研究は、この空白を埋めるため、長期的な深層研究タスクにおける委譲インテリジェンスの構築と訓練方法を初めて体系的に提示したものです。

深掘り分析

研究チームは、委譲インテリジェンスの訓練データ不足という課題に対処するため、「ハーネス（harness）」と呼ばれる精密なガイドフレームワークを設計しました。このフレームワークの核心は、モデルに自由放任させるのではなく、構造化された制約機制を通じて主モデルを高品質なタスク分解と委任決定へと導く点にあります。具体的には、サブエージェントの出力形式と内容を厳格に制限し、返される結果が主エージェントの後續作業をシームレスに支援できるように設計されています。

この制約環境下で生成された相互作用の軌跡は、正しい委任ロジックを自然的にエンコードしています。研究者たちはこれらの高品質な軌跡データを教師ありファインチューニング（SFT）の基盤として利用しました。外部のルール制約をモデルの重み内部に「委譲インテリジェンス」として内化させることで、限られたパラメータ規模であっても、複雑なタスクスケジューリングとコンテキスト管理戦略を学習可能にしたのです。これにより、単純な並列処理ではなく、深い論理的委任に基づく堅牢なエージェント動作が実現されました。

業界への影響

提案された手法の有効性は、深層研究タスク向けに訓練された「SearchSwarm-30B-A3B」モデルによって実証されました。評価には、長期にわたる情報ナビゲーションと統合能力を試すベンチマークである「BrowseComp」およびその中国語版「BrowseComp-ZH」が採用されました。実験結果は顕著で、SearchSwarm-30B-A3BはBrowseCompで68.1、BrowseComp-ZHでは73.3というスコアを記録しました。これは同規模の他モデルを大きく上回る成績であり、委譲インテリジェンスの向上が性能躍進に直結することを示しています。

消融実験により、ハーネスフレームワークが高品質な訓練データ生成において決定的な役割を果たしていることが確認されました。また、外部制約をモデル内部能力へ変換する上でSFTが不可欠であることも証明されました。産業界にとって、この成果はハードウェア依存ではないコンテキストボトルネックの解決策を提供します。自動化された調査や複雑なデータ分析において、人的コストを削減しつつ精度と効率を高めることが可能となり、企業環境でのAIエージェント導入におけるコストとレイテンシの課題に対する現実的な解答となります。

今後の展望

本研究のもう一つの大きな貢献は、SearchSwarm-30B-A3Bのモデル重み、ハーネスフレームワーク、そして合成された訓練データのオープンソース化です。これにより、高度なエージェントシステム構築への参入障壁が大幅に低下し、オープンソースコミュニティにおける協力的イノベーションが促進されると期待されます。高品質な委譲タスク用の合成データは、将来のエージェント訓練パイプラインにおける基礎資源となるでしょう。

今後は、AIエージェントが単純なタスク実行者から複雑なプロジェクトマネージャーへと進化していく転換点となることが予想されます。委譲インテリジェンスの習熟度が高まるにつれ、最小限の人間介入で長期プロジェクトを管理し、リアルタイムのフィードバックに基づいてサブタスク配分を動的に調整するシステムが登場するでしょう。長期的記憶管理と知的委任の統合は、科学的発見やソフトウェア開発など、持続的な注意と深い推論を要する分野でのAI活用をさらに加速させるはずです。

Sources

arXiv