SkillComposer:重构LLM智能体技能调用的结构化范式

针对大语言模型智能体在复杂任务中面临的技能选择瓶颈,研究提出SkillComposer框架,将技能选择从独立的检索问题转化为任务条件化的序列预测。该方法利用受限自回归解码器,在一次解码过程中联合确定激活的技能子集、数量及执行顺序,有效解决了技能间强耦合关系的建模难题。在SkillsBench基准测试中,基于GPT-5.2-Codex和Gemini-3-Pro-Preview模型,该方法相比无技能基线分别提升23.1%和18.2%的通过率,不仅超越传统Top-3检索策略,更以较低的提示词成本逼近黄金检索上限,为智能体工具管理提供了高效解决方案。

随着大语言模型智能体在解决复杂任务中展现出巨大潜力,技能(Skills)作为封装了程序性知识和指令的模块化包,已成为提升智能体能力的关键组件。然而,随着技能库规模的扩大及其在不同任务和领域间的可复用性增强,如何从海量技能中选择合适的组合成为了核心瓶颈。现有的主流方法主要分为两类:一类是将智能体的推理过程暴露给整个技能集合,另一类则通过嵌入向量或基于大语言模型的重排器进行技能检索。尽管这些方法提供了有价值的见解,但它们普遍忽视了技能组合的结构化本质。

技能组合本质上是一个联合决策问题,涉及三个不可解耦的维度:选择哪些技能、选择多少个技能以及以何种顺序执行。这种割裂视角导致现有方法难以捕捉技能间的依赖关系,从而限制了智能体在复杂场景下的表现。本文旨在解决这一结构性缺失问题,提出将技能选择视为一个整体的结构化组合任务,而非独立的检索步骤,从而更贴合实际编程和任务执行中的逻辑需求。为了解决上述问题,作者提出了SkillComposer框架,将结构化技能组合实例化为任务条件化的技能序列预测问题。

该方法的核心创新在于使用了一个受限的自回归解码器(constrained autoregressive decoder),直接对技能标识符(skill identifiers)进行预测。这种设计使得技能子集的选择、数量的确定以及执行顺序的安排能够在一个单一的解码传递过程中联合涌现,而非通过多步启发式规则或独立模块拼凑而成。通过这种方式,连续技能之间的依赖关系被自然地捕获,因为每个后续技能的预测都依赖于之前已生成的技能序列。在训练数据的构建上,作者从真实的人工策展技能库中提取了任务-组合对,确保了数据的质量和相关性。

这种端到端的序列预测方法不仅简化了系统架构,还通过约束解码空间,避免了无效或逻辑冲突的技能组合生成,显著提高了预测的准确性和可执行性。在实验评估方面,研究者在SkillsBench基准上对SkillComposer进行了全面测试,评估维度包括组成质量(composition quality)和下游任务成功率(downstream task success)。实验在两个生产级编码智能体上展开,分别基于GPT-5.2-Codex和Gemini-3-Pro-Preview模型。结果显示,SkillComposer在GPT-5.2-Codex上将任务通过率提升了23.1个百分点,在Gemini-3-Pro-Preview上提升了18.2个百分点,相较于无技能基线具有显著优势。

更重要的是,该方法的表现超越了传统的Top-3检索策略,并且以较低的提示词令牌(prompt-token)成本达到了黄金技能检索(gold-skill retrieval)的理论上限。消融实验进一步证实,联合预测子集、数量和顺序比单独优化任一维度更能提升整体性能,验证了结构化组合方法的必要性。这些结果不仅证明了SkillComposer在提升智能体任务成功率方面的有效性,也展示了其在资源效率上的优越性,为大规模技能库的管理和应用提供了实证支持。SkillComposer的提出对开源社区、工业落地及后续研究具有深远意义。在工业落地方面,通过降低提示词令牌成本并提高任务成功率,该方法有助于降低大模型调用的经济门槛,使得复杂技能组合在实时性要求高的场景中更具可行性。对于开源社区,其基于真实人工策展技能库的训练数据和开源框架,为其他研究者提供了可复现的基准和参考实现,促进了智能体技能管理领域的标准化。在后续研究方面,SkillComposer证明了结构化序列预测在技能组合中的有效性,启发了未来研究探索更复杂的技能依赖关系、动态技能库更新机制以及跨领域技能迁移。此外,该方法也为其他需要复杂决策序列生成的领域提供了新的思路,展示了联合决策模型在处理高维组合问题上的潜力,推动了人工智能智能体从简单工具调用向复杂逻辑规划迈进。

Sources