SkillComposer : Raisonnement efficace pour agents LLM via composition structurée de compétences

Cet article présente SkillComposer, un cadre qui résout le goulot d'étranglement de la sélection multi-compétences pour les agents LLM sur des tâches complexes. Contrairement aux méthodes existantes qui traitent la sélection de compétences comme un problème indépendant de recherche ou de classement — ignorant ainsi le fort couplage entre sous-ensembles de compétences, leur quantité et leur ordre d'exécution — SkillComposer formalise la composition des compétences comme une tâche de prédiction de séquence structurée. Un décodeur autogressif contraint détermine conjointement le sous-ensemble de compétences activées, leur cardinalité et l'ordre d'exécution en un seul passage de génération. Les données d'entraînement sont construites à partir d'une bibliothèque de compétences réellement curatée par des humains, évaluée de manière complète sur le benchmark SkillsBench. Les résultats sur deux agents de codage de production (GPT-5.2-Codex et Gemini-3-Pro-Preview) montrent des gains absolus de taux de réussite de +23,1 et +18,2 points de pourcentage par rapport à une baseline sans compétence, surpassant les trois stratégies de recherche les plus performantes tout en réduisant le coût en jetons de prompt et en atteignant les performances du seuil supérieur de recherche de compétences optimales — offrant un nouveau paradigme pour l'orchestration modulaire des connaissances dans les agents.

Contexte

L'intégration croissante des grands modèles de langage (LLM) dans la résolution de problèmes complexes du monde réel a considérablement élevé le rôle des packages de compétences modulaires. Ces derniers encapsulent des connaissances procédurales et des instructions spécifiques, devenant ainsi des composants clés pour l'augmentation des capacités des agents intelligents. Cependant, à mesure que les bibliothèques de compétences s'agrandissent et gagnent en utilité transversale, le défi central a évolué. Il ne s'agit plus simplement d'accéder à une compétence, mais de sélectionner de manière optimale la combinaison adéquate pour une tâche donnée. Les approches traditionnelles se divisent généralement en deux catégories : exposer le processus de raisonnement complet de l'agent à l'ensemble des compétences, ou s'appuyer sur des vecteurs d'intégration et des réordonnanceurs basés sur des LLM pour le retrieval. Bien que ces méthodes offrent des insights fondamentaux, elles souffrent d'un défaut structurel critique. Elles traitent la sélection des compétences comme un problème de retrieval ou de classement indépendant, ignorant ainsi le couplage fort entre le sous-ensemble de compétences activées, leur quantité et leur ordre d'exécution. Cette découplage est problématique car l'efficacité d'une compétence dépend souvent de son contexte au sein d'une séquence, rendant la sélection indépendante insuffisante pour une orchestration complexe.

Pour résoudre ce goulot d'étranglement, le cadre SkillComposer introduit un paradigme novateur en formalisant la composition des compétences comme une tâche de prédiction de séquence structurée. Plutôt que de considérer la sélection des compétences comme une série de décisions isolées, SkillComposer aborde le problème comme un défi d'optimisation conjointe où le sous-ensemble activé, sa cardinalité et l'ordre d'exécution doivent être déterminés simultanément. Cette approche reconnaît que la décision d'activer une compétence spécifique est inextricablement liée aux décisions prises pour les compétences précédentes et suivantes. En cadrant le problème de cette manière, le cadre vise à capturer les dépendances inhérentes et les flux logiques qui caractérisent l'exécution de tâches de niveau expert, dépassant ainsi la simple correspondance sémantique pour atteindre une compréhension structurelle réelle des exigences de la tâche.

Analyse approfondie

Le cœur technique de SkillComposer réside dans l'utilisation d'un décodeur autogressif contraint qui opère directement sur les identifiants de compétences. Cette conception permet au modèle de générer le plan de compétences complet en un seul passage, déterminant conjointement le sous-ensemble, le nombre et la séquence des compétences activées. Contrairement aux méthodes de retrieval traditionnelles qui peuvent nécessiter plusieurs itérations ou une logique de post-traitement complexe pour résoudre les conflits ou les dépendances d'ordre, SkillComposer transforme le problème d'optimisation combinatoire complexe en une tâche standard de modélisation du langage. Les contraintes appliquées lors du décodage garantissent que la séquence générée est valide et exécutable, capturant naturellement la manière dont les compétences ultérieures dépendent des sorties ou des états établis par les compétences antérieures. Cette génération en un seul passage simplifie considérablement le pipeline d'inférence, réduisant la latence et la surcharge computationnelle par rapport aux stratégies itératives de retrieval et de reclassement.

Les données d'entraînement de SkillComposer sont dérivées d'une bibliothèque de compétences réelle et curatée manuellement, garantissant que le modèle apprend à partir d'exemples de haute qualité et vérifiés par des humains sur des combinaisons de compétences efficaces. Ce jeu de données se compose de paires tâche-composition, fournissant au modèle des exemples explicites de la manière dont différentes compétences doivent être séquencées pour atteindre des résultats spécifiques. En s'entraînant sur de telles données authentiques, le modèle internalise la logique pratique de la dépendance et de l'exécution des compétences, plutôt que de reposer sur une correspondance de motifs superficiels. Cette focalisation sur la curation du monde réel est cruciale pour assurer que les représentations apprises soient robustes et applicables aux exigences nuancées des tâches réelles de codage et de résolution de problèmes, où la similarité sémantique abstraite échoue souvent à capturer les exigences fonctionnelles d'une compétence.

Impact sur l'industrie

Les évaluations expérimentales de SkillComposer ont été menées sur deux agents de codage de niveau production : GPT-5.2-Codex et Gemini-3-Pro-Preview, en utilisant le benchmark SkillsBench. Les résultats démontrent des gains de performance significatifs par rapport aux méthodes de base. Spécifiquement, SkillComposer a enregistré une augmentation absolue du taux de réussite des tâches de 23,1 points de pourcentage sur GPT-5.2-Codex et de 18,2 points de pourcentage sur Gemini-3-Pro-Preview par rapport à une baseline sans compétence. Ces améliorations soulignent la capacité du cadre à exploiter efficacement les connaissances modulaires pour renforcer les capacités des agents. De plus, SkillComposer a surpassé les trois stratégies de retrieval traditionnelles les plus performantes, indiquant que son approche structurée de la prédiction de séquence est plus efficace que les méthodes conventionnelles basées sur le classement ou les intégrations pour l'exécution de tâches complexes.

Un avantage critique de SkillComposer est son efficacité. Le cadre non seulement améliore les taux de réussite des tâches, mais réduit également les coûts en jetons de prompt. En générant une séquence concise et structurée d'identifiants de compétences, le modèle évite le besoin de fenêtres de contexte étendues ou d'explications de retrieval verbeuses. De manière remarquable, la performance de SkillComposer atteint le seuil supérieur du retrieval de compétences optimales (golden skill retrieval), qui suppose un accès à l'ensemble optimal de compétences. Cette réalisation est particulièrement significative car elle démontre que le modèle peut approximer une performance optimale sans nécessiter une connaissance préalable parfaite des meilleures compétences. Des études d'ablation ont confirmé la nécessité d'une modélisation conjointe, montrant que le découplage de la sélection des compétences, de leur quantité et de leur ordre entraîne une baisse substantielle de la performance, validant ainsi l'importance de l'approche de prédiction de séquence structurée.

Perspectives

Les implications de SkillComposer s'étendent au-delà des gains de performance immédiats, offrant un nouveau paradigme pour l'orchestration modulaire des connaissances dans les agents d'IA. En prouvant que la prise de décision structurée peut être efficacement intégrée dans la génération autogressive, le cadre ouvre de nouvelles voies de recherche en matière de planification d'agents, de collaboration multi-agents et de gestion dynamique des compétences. La capacité à gérer efficacement les combinaisons de compétences de longue traîne suggère que le modèle peut bien généraliser à des tâches moins courantes ou hautement spécialisées, un défi commun dans les applications industrielles. Cette capacité est vitale pour construire des agents robustes capables de s'adapter à une grande variété de scénarios sans nécessiter de réentraînement extensif ou d'intervention manuelle.

Pour la communauté IA au sens large, SkillComposer fournit un benchmark reproductible et une implémentation de référence basés sur des données du monde réel, favorisant la standardisation dans la gestion des compétences. Les travaux futurs pourraient se concentrer sur l'automatisation de la construction et de la mise à jour des bibliothèques de compétences, réduisant ainsi la dépendance à la curation manuelle. De plus, l'extension du cadre à des domaines non liés au codage pourrait débloquer son potentiel dans des secteurs tels que la recherche scientifique, l'analyse juridique et la santé, où le raisonnement complexe et multi-étapes est tout aussi critique. En définitive, SkillComposer représente une étape significative vers des systèmes basés sur les LLM plus intelligents, efficaces et fiables, posant les bases théoriques et techniques pour la prochaine génération d'agents autonomes capables de naviguer dans la complexité des tâches du monde réel avec précision et adaptabilité.

Sources

arXiv