AI Scientist : Entraîner des agents de recherche ML par mise à l'échelle synthétique

Pour permettre à l'IA de mener de façon autonome des recherches en apprentissage automatique, le défi central est : d'où viennent les données d'entraînement ? Cet article propose un pipeline de synthèse automatique de tâches ML compatibles avec le framework SWE-agent, couvrant trois étapes : échantillonnage de sujets, proposition de jeux de données et génération de code. Les tâches synthétiques bénéficient d'une double garantie qualité : validation via l'API HuggingFace et vérification par une boucle d'auto-débogage. En distillant les trajectoires générées par GPT-5 dans les modèles Qwen3-4B et Qwen3-8B, les résultats montrent des améliorations AUP de 9 % et 12 % respectivement sur le benchmark MLGym.

AI Scientist via la Mise à l'Échelle Synthétique : Former des Agents de Recherche ML

Problème central : D'où viennent les données d'entraînement ?

Pour qu'une IA mène de façon autonome des recherches en apprentissage automatique, le défi fondamental est l'acquisition de données d'entraînement. Cet article (arXiv : 2603.17216), signé par Ziyang Cai (Princeton University) et Harkirat Behl (Microsoft Research), propose un **pipeline entièrement automatisé** de génération de tâches ML synthétiques, sans supervision humaine.

Les Trois Phases du Pipeline

Phase 1 : Synthèse d'environnement

1. **Échantillonnage de sujets** : GPT-5 génère n sujets ML distincts (vision par ordinateur, NLP, RL, théorie des jeux…)

2. **Proposition de tâches et de jeux de données** : Pour chaque sujet, le modèle écrit une description de tâche et propose un dataset HuggingFace. **L'API HuggingFace Search valide l'existence réelle du dataset** ; les tâches sans correspondance sont écartées.

3. **Génération de code et de configuration** : Fichiers de configuration MLGym, implémentation de base (baseline.py) et script d'évaluation (evaluate.py) sont générés automatiquement.

Phase 2 : Vérification avec boucle d'auto-débogage

Chaque tâche générée est exécutée dans MLGym avec GPT-5. En cas d'erreur, le pipeline alimente le modèle avec les logs d'erreur (probabilité p_debug) ou repart de zéro, itérant au maximum k fois avant d'abandonner la tâche.

Phase 3 : Génération et filtrage des trajectoires

Les tâches validées sont exécutées en parallèle sur un cluster HPC (256 trajectoires par tâche). Seules les trajectoires comportant au moins une soumission réussie sont conservées ; celles dépassant 48K tokens sont écartées. Résultat final : environ **34 000 trajectoires** pour l'entraînement SFT.

Distillation GPT-5 → Qwen3

À partir de 1 000 sujets ML, 500 tâches valides sont synthétisées. Les trajectoires de GPT-5 (enseignant) sont distillées dans Qwen3-4B et Qwen3-8B (étudiants).

Résultats sur MLGym

Le benchmark MLGym comprend 13 défis ML variés. Métrique principale : AUP (Area Under Performance Curve).

  • **SFT-Qwen3-4B** : **+9%** d'AUP par rapport au modèle de base
  • **SFT-Qwen3-8B** : **+12%** d'AUP par rapport au modèle de base
  • Amélioration sur 9 des 13 tâches individuelles

Apport et Limites

Ce pipeline offre une voie d'entraînement scalable pour les agents de recherche ML, sans annotation humaine, ancré dans des données HuggingFace réelles. Les auteurs reconnaissent les limites : évaluation restreinte à MLGym, absence d'ablations des composants, et risque de confusion entre amélioration de format et amélioration réelle de capacité. Les extensions futures incluent l'apprentissage par renforcement, l'intégration de la recherche bibliographique et l'élargissement à d'autres benchmarks.