AI Scientist: ML-Forschungsagenten durch synthetische Aufgabenskalierung
Damit KI selbstständig Forschung im Bereich maschinelles Lernen betreiben kann, ist die zentrale Frage: Woher kommen die Trainingsdaten? Dieses Paper schlägt eine vollautomatische Pipeline zur Synthese von ML-Aufgaben vor, die mit dem SWE-agent-Framework kompatibel ist und drei Phasen umfasst: Themen-Sampling, Datensatz-Vorschlag und Code-Generierung. Qualitätssicherung erfolgt durch HuggingFace-API-Validierung und eine Selbst-Debug-Schleife. Durch Destillation von GPT-5-Trajektorien in Qwen3-4B- und Qwen3-8B-Modelle werden AUP-Verbesserungen von 9% bzw. 12% auf dem MLGym-Benchmark erzielt.
AI Scientist durch Synthetisches Task-Scaling: ML-Forschungsagenten trainieren
Das Kernproblem: Woher kommen die Trainingsdaten?
Damit KI selbstständig maschinelles Lernen erforschen kann, ist die zentrale Frage: Woher stammen die Trainingsdaten? Dieser Artikel (arXiv: 2603.17216) von Ziyang Cai (Princeton University) und Harkirat Behl (Microsoft Research) schlägt eine **vollautomatische Pipeline** zur Synthese von ML-Forschungsaufgaben vor – ohne menschliche Aufsicht.
Die Drei-Phasen-Pipeline
Phase 1: Umgebungssynthese
1. **Themen-Sampling**: GPT-5 generiert n verschiedene ML-Themen (Computer Vision, NLP, RL, Spieltheorie…)
2. **Aufgaben- und Datensatzvorschlag**: Für jedes Thema schreibt das Modell eine Aufgabenbeschreibung und schlägt einen HuggingFace-Datensatz vor. Die **HuggingFace Search API verifiziert die tatsächliche Existenz** des vorgeschlagenen Datensatzes; Aufgaben ohne Treffer werden verworfen.
3. **Konfiguration und Code-Generierung**: MLGym-kompatible Konfigurationsdateien, Baseline-Implementierung (baseline.py) und Evaluierungsskript (evaluate.py) werden automatisch erzeugt.
Phase 2: Verifikation mit Selbst-Debug-Schleife
Jede generierte Aufgabe wird in MLGym mit GPT-5 ausgeführt. Bei Fehlern wird der Fehler-Log mit Wahrscheinlichkeit p_debug an das Modell zurückgegeben (Selbst-Debugging), oder die Code-Generierung startet neu. Maximal k Iterationen – danach wird die Aufgabe verworfen.
Phase 3: Trajektorien-Generierung und -Filterung
Verifizierte Aufgaben laufen parallel im HPC-Cluster (Ziel: 256 Trajektorien pro Aufgabe). Nur Trajektorien mit mindestens einer erfolgreichen Einreichung werden behalten; Trajektorien über 48K Token werden verworfen. Endergebnis: ca. **34.000 Trajektorien** als SFT-Trainingsdatensatz.
Wissensdestillation: GPT-5 lehrt Qwen3
Aus 1.000 ML-Themen werden 500 valide Aufgaben synthesiert. GPT-5-Trajektorien (Lehrermodell) werden per SFT in Qwen3-4B und Qwen3-8B (Schülermodelle) destilliert.
MLGym-Ergebnisse
MLGym umfasst 13 ML-Herausforderungen verschiedener Komplexität. Hauptmetrik: AUP (Area Under Performance Curve).
- **SFT-Qwen3-4B**: **+9%** AUP gegenüber Basis-Qwen3-4B
- **SFT-Qwen3-8B**: **+12%** AUP gegenüber Basis-Qwen3-8B
- Verbesserung bei 9 von 13 Einzelaufgaben
Bedeutung und Grenzen
Diese Pipeline bietet einen skalierbaren Trainingsweg für ML-Forschungsagenten ohne menschliche Annotation, verankert in echten HuggingFace-Daten. Anerkannte Grenzen: Evaluation nur auf MLGym, fehlende Ablationsstudien, mögliche Format-Überanpassung. Zukünftige Richtungen: Reinforcement Learning, Literaturrecherche-Integration und Erweiterung auf weitere Benchmarks.