AI Scientist: ML-Forschungsagenten durch synthetische Aufgabenskalierung

Damit KI selbstständig Forschung im Bereich maschinelles Lernen betreiben kann, ist die zentrale Frage: Woher kommen die Trainingsdaten? Dieses Paper schlägt eine vollautomatische Pipeline zur Synthese von ML-Aufgaben vor, die mit dem SWE-agent-Framework kompatibel ist und drei Phasen umfasst: Themen-Sampling, Datensatz-Vorschlag und Code-Generierung. Qualitätssicherung erfolgt durch HuggingFace-API-Validierung und eine Selbst-Debug-Schleife. Durch Destillation von GPT-5-Trajektorien in Qwen3-4B- und Qwen3-8B-Modelle werden AUP-Verbesserungen von 9% bzw. 12% auf dem MLGym-Benchmark erzielt.

AI Scientist durch Synthetisches Task-Scaling: ML-Forschungsagenten trainieren

Das Kernproblem: Woher kommen die Trainingsdaten?

Damit KI selbstständig maschinelles Lernen erforschen kann, ist die zentrale Frage: Woher stammen die Trainingsdaten? Dieser Artikel (arXiv: 2603.17216) von Ziyang Cai (Princeton University) und Harkirat Behl (Microsoft Research) schlägt eine **vollautomatische Pipeline** zur Synthese von ML-Forschungsaufgaben vor – ohne menschliche Aufsicht.

Die Drei-Phasen-Pipeline

Phase 1: Umgebungssynthese

1. **Themen-Sampling**: GPT-5 generiert n verschiedene ML-Themen (Computer Vision, NLP, RL, Spieltheorie…)

2. **Aufgaben- und Datensatzvorschlag**: Für jedes Thema schreibt das Modell eine Aufgabenbeschreibung und schlägt einen HuggingFace-Datensatz vor. Die **HuggingFace Search API verifiziert die tatsächliche Existenz** des vorgeschlagenen Datensatzes; Aufgaben ohne Treffer werden verworfen.

3. **Konfiguration und Code-Generierung**: MLGym-kompatible Konfigurationsdateien, Baseline-Implementierung (baseline.py) und Evaluierungsskript (evaluate.py) werden automatisch erzeugt.

Phase 2: Verifikation mit Selbst-Debug-Schleife

Jede generierte Aufgabe wird in MLGym mit GPT-5 ausgeführt. Bei Fehlern wird der Fehler-Log mit Wahrscheinlichkeit p_debug an das Modell zurückgegeben (Selbst-Debugging), oder die Code-Generierung startet neu. Maximal k Iterationen – danach wird die Aufgabe verworfen.

Phase 3: Trajektorien-Generierung und -Filterung

Verifizierte Aufgaben laufen parallel im HPC-Cluster (Ziel: 256 Trajektorien pro Aufgabe). Nur Trajektorien mit mindestens einer erfolgreichen Einreichung werden behalten; Trajektorien über 48K Token werden verworfen. Endergebnis: ca. **34.000 Trajektorien** als SFT-Trainingsdatensatz.

Wissensdestillation: GPT-5 lehrt Qwen3

Aus 1.000 ML-Themen werden 500 valide Aufgaben synthesiert. GPT-5-Trajektorien (Lehrermodell) werden per SFT in Qwen3-4B und Qwen3-8B (Schülermodelle) destilliert.

MLGym-Ergebnisse

MLGym umfasst 13 ML-Herausforderungen verschiedener Komplexität. Hauptmetrik: AUP (Area Under Performance Curve).

  • **SFT-Qwen3-4B**: **+9%** AUP gegenüber Basis-Qwen3-4B
  • **SFT-Qwen3-8B**: **+12%** AUP gegenüber Basis-Qwen3-8B
  • Verbesserung bei 9 von 13 Einzelaufgaben

Bedeutung und Grenzen

Diese Pipeline bietet einen skalierbaren Trainingsweg für ML-Forschungsagenten ohne menschliche Annotation, verankert in echten HuggingFace-Daten. Anerkannte Grenzen: Evaluation nur auf MLGym, fehlende Ablationsstudien, mögliche Format-Überanpassung. Zukünftige Richtungen: Reinforcement Learning, Literaturrecherche-Integration und Erweiterung auf weitere Benchmarks.