SkillComposer：構造化スキル構成によるLLMエージェントの効率的推論フレームワーク

本論文は、複雑タスクにおけるLLMエージェントのマルチスキル選択のボトルネックを解決するSkillComposerフレームワークを提案する。既存手法はスキル選択を独立した検索やランク付け問題として扱い、スキルサブセット・数・実行順序間の強い結合関係を無視しているのに対し、SkillComposerはスキル構成を構造化シーケンス予測タスクとして定式化する。制約付き自己回帰デコーダにより、一度の生成パスでアクティブなスキルのサブセット、その数、実行順序を同時に決定する。訓練データは実際の人間のキュレーションによるスキルライブラリから構築し、SkillsBenchベンチマークで包括評価した。GPT-5.2-CodexおよびGemini-3-Pro-Previewという2つの本番級コードエージェント上での実験結果は、スキルなしベースラインに対し通過率をそれぞれ+23.1、+18.2ポイント絶対的に向上させ、上位3つの検索戦略を凌駕しつつ、プロンプトトークンコストを削減しながらゴールドスキル検索の上限性能に達した。エージェントのモジュール型知識オーケストレーションに対する新たなパラダイムを示す。

背景と概要

大型言語モデル（LLM）を用いたエージェントが、現実世界の複雑なタスク解決においてその可能性を大きく広げている。この文脈において、手続き的知識や特定の指示をカプセル化したモジュール型パッケージである「スキル」は、エージェントの能力を向上させるための重要な構成要素となっている。しかし、スキルライブラリの規模が拡大し、かつ異なるタスクやドメイン間で再利用される頻度が高まるにつれて、新たな課題が浮上している。それは、膨大な数のスキルの中から、特定のタスクに対して最適な組み合わせをどのように選定するかという点である。従来の主流なアプローチは主に二つのカテゴリに分類される。一つは、エージェントの推論プロセス全体をスキル集合に公開する方法であり、もう一つは、埋め込みベクトルやLLMベースのリランカーを用いてスキルを検索する方法である。

これらの既存手法は有用な知見を提供しているものの、根本的な構造的欠陥を抱えている。それは、スキル選択を独立した検索やランク付けの問題として扱っており、スキルサブセット、その数、そして実行順序という三つの次元間の強い結合関係を無視している点である。スキル組合せは単なる独立した選択の積み重ねではなく、どのスキルを活性化させるか、いくつのスキルを用いるか、そしてそれらをどのような順序で実行するかを同時に決定する連合意思決定プロセスである。この三つの要素は相互に依存しており、切り離して処理することはできない。本研究の核心的な貢献は、この構造化スキル組合せ問題を正式に定義し、与えられたタスクとスキルライブラリに対して、活性化サブセット、数、実行順序を同時に指定する実行可能なスキル計画を予測する枠組みを提示したことにある。

深掘り分析

上記の課題に対処するために提案されたのが、SkillComposerフレームワークである。このフレームワークは、構造化スキル組合せをタスク条件付きのスキルシーケンス予測問題として具体化した。技術的な実装において、SkillComposerはスキル識別子に対して直接作用する制約付き自己回帰デコーダを採用している。この設計の妙味は、エージェントが単一のデコードパスで、スキルサブセット、数、実行順序を同時に生成できる点にある。これにより、後続のスキルが先行するスキルの出力や状態にどのように依存しているかという関係を、自然かつ正確に捉えることが可能となる。従来の検索手法では、衝突の解決や順序依存関係の処理のために複数の反復や複雑な後処理ロジックが必要とされることが多かったが、SkillComposerはシーケンス生成を通じて、複雑な組合せ最適化問題を標準的な言語モデリングタスクへと変換している。

SkillComposerのトレーニングデータは、実際に存在し、人間のキュレーターによって厳選された高品質なスキルライブラリから構築されている。このデータセットはタスクと組合せのペアで構成されており、モデルに対して特定の成果を達成するために異なるスキルをどのように順序付けるべきかという具体的な例を提供する。このような実世界のデータを用いて訓練することで、モデルは表面的な意味の一致ではなく、スキル依存関係や実行ロジックの実践的な論理を内部化している。この実世界に根ざしたキュレーションへの焦点は、抽象的な意味的類似性がスキルの機能的要件を捉えきれない、実際のコーディングや問題解決の文脈において、学習された表現が堅牢であり適用可能であることを保証するために不可欠である。

業界への影響

SkillComposerの実験的評価は、SkillsBenchベンチマークを用いて、GPT-5.2-CodexとGemini-3-Pro-Previewという二つの生産級コーディングエージェントプラットフォームで行われた。これらの選択は、異なる基盤モデル上での手法の汎化能力を検証するために選ばれた。その結果、SkillComposerはベースライン手法に対して顕著なパフォーマンス向上を示した。具体的には、スキルなしのベースラインと比較して、GPT-5.2-Codex上ではタスクの通過率が23.1ポイント、Gemini-3-Pro-Preview上では18.2ポイントそれぞれ絶対的に向上した。この大幅な改善は、フレームワークがモジュール型知識を効果的に活用してエージェントの能力を強化できることを示している。さらに重要なのは、SkillComposerが従来のTop-3検索戦略を凌駕している点であり、構造化されたシーケンス予測のアプローチが、複雑なタスク実行において従来のランキングや埋め込みベースの方法よりも優れていることを裏付けている。

SkillComposerのもう一つの重要な利点は、その効率性にある。このフレームワークはタスクの成功率を向上させるだけでなく、プロンプトトークンコストを削減する。スキル識別子の簡潔で構造化されたシーケンスを生成することで、モデルは広大なコンテキストウィンドウや冗長な検索説明を必要としない。驚くべきことに、SkillComposerのパフォーマンスは、最適なスキルセットにアクセスできることを前提とする「ゴールドスキル検索」の上限性能に匹敵する。この成果は、モデルが最適なスキルの事前知識を完璧に必要とせずに、最適に近い性能を近似できることを示しており、特に意義深い。アブレーション実験では、スキルの選択、数、順序を切り離すとパフォーマンスが大幅に低下することが確認され、連合モデリングの必要性と構造化シーケンス予測アプローチの重要性が検証された。また、長尾スキル組合せにおける優れたパフォーマンスも示されており、これはスキル間の依存関係に対する深い理解に起因するものと考えられる。

今後の展望

SkillComposerの提唱は、即座のパフォーマンス向上を超え、AIエージェントにおけるモジュール型知識オーケストレーションのための新たなパラダイムを示している。自己回帰生成の中に構造化意思決定を効果的に統合できることを証明したことで、このフレームワークはエージェント計画、マルチエージェント協調、動的スキル管理に関する研究の新たな道を開く。長尾スキル組合せを効果的に処理できる能力は、モデルが一般的ではなく、かつ高度に専門的なタスクにもよく汎化できることを示唆しており、これは産業応用における共通の課題である。この能力は、広範な再訓練や手動介入を必要とせずに多様なシナリオに適応できる堅牢なエージェントを構築する上で極めて重要である。

より広範なAIコミュニティにとって、SkillComposerは実世界データに基づく再現可能なベンチマークと参照実装を提供し、スキル管理の標準化を促進する。将来の研究では、スキルライブラリの自動構築と更新に焦点を当て、手動キュレーションへの依存を減らすことが考えられる。さらに、このフレームワークをコーディング以外のドメインへ拡張することは、科学的研究、法的分析、医療など、複雑な多段階推論が同様に重要な分野におけるその可能性を開くだろう。最終的に、SkillComposerは、より知的で効率的、かつ信頼性の高いLLMベースシステムへの重要な一歩であり、現実世界のタスクの複雑さを精度と適応性を持ってナビゲートできる次世代の自律型エージェントのための理論的および技術的基盤を築いている。

Sources

arXiv