AI Scientist: ML-Forschungsagenten durch synthetische Aufgabenskalierung

Damit KI selbstständig Forschung im Bereich maschinelles Lernen betreiben kann, ist die zentrale Frage: Woher kommen die Trainingsdaten? Dieses Paper schlägt eine vollautomatische Pipeline zur Synthese von ML-Aufgaben vor, die mit dem SWE-agent-Framework kompatibel ist und drei Phasen umfasst: Themen-Sampling, Datensatz-Vorschlag und Code-Generierung. Qualitätssicherung erfolgt durch HuggingFace-API-Validierung und eine Selbst-Debug-Schleife. Durch Destillation von GPT-5-Trajektorien in Qwen3-4B- und Qwen3-8B-Modelle werden AUP-Verbesserungen von 9% bzw. 12% auf dem MLGym-Benchmark erzielt.

AI Scientist durch Synthetisches Task-Scaling: ML-Forschungsagenten trainieren

Das Kernproblem:

Woher kommen die Trainingsdaten? Damit KI selbstständig maschinelles Lernen erforschen kann, ist die zentrale Frage: Woher stammen die Trainingsdaten? Dieser Artikel (arXiv: 2603.17216) von Ziyang Cai (Princeton University) und Harkirat Behl (Microsoft Research) schlägt eine **vollautomatische Pipeline** zur Synthese von ML-Forschungsaufgaben vor – ohne menschliche Aufsicht.

Die Drei-Phasen-Pipeline Phase 1: Umgebungssynthese 1. Themen-Sampling: GPT-5 generiert n verschiedene ML-Themen (Computer Vision, NLP, RL, Spieltheorie…) 2. Aufgaben- und Datensatzvorschlag: Für jedes Thema schreibt das Modell eine Aufgabenbeschreibung und schlägt einen HuggingFace-Datensatz vor. Die HuggingFace Search API verifiziert die tatsächliche Existenz des vorgeschlagenen Datensatzes; Aufgaben ohne Treffer werden verworfen. 3. Konfiguration und Code-Generierung: MLGym-kompatible Konfigurationsdateien, Baseline-Implementierung (baseline.py) und Evaluierungsskript (evaluate.py) werden automatisch erzeugt. Phase 2: Verifikation mit Selbst-Debug-Schleife Jede generierte Aufgabe wird in MLGym mit GPT-5 ausgeführt.

Bei Fehlern wird der Fehler-Log mit Wahrscheinlichkeit p_debug an das Modell zurückgegeben (Selbst-Debugging), oder die Code-Generierung startet neu. Maximal k Iterationen – danach wird die Aufgabe verworfen. **Phase 3: Trajektorien-Generierung und -Filterung** Verifizierte Aufgaben laufen parallel im HPC-Cluster (Ziel: 256 Trajektorien pro Aufgabe). Nur Trajektorien mit mindestens einer erfolgreichen Einreichung werden behalten; Trajektorien über 48K Token werden verworfen. Endergebnis: ca. **34.000 Trajektorien** als SFT-Trainingsdatensatz.

Wissensdestillation:

GPT-5 lehrt Qwen3 Aus 1.000 ML-Themen werden 500 valide Aufgaben synthesiert. GPT-5-Trajektorien (Lehrermodell) werden per SFT in Qwen3-4B und Qwen3-8B (Schülermodelle) destilliert.

MLGym-Ergebnisse

MLGym umfasst 13 ML-Herausforderungen verschiedener Komplexität. Hauptmetrik: AUP (Area Under Performance Curve). - **SFT-Qwen3-4B**: **+9%** AUP gegenüber Basis-Qwen3-4B - **SFT-Qwen3-8B**: **+12%** AUP gegenüber Basis-Qwen3-8B - Verbesserung bei 9 von 13 Einzelaufgaben

Bedeutung und Grenzen Diese

Pipeline bietet einen skalierbaren Trainingsweg für ML-Forschungsagenten ohne menschliche Annotation, verankert in echten HuggingFace-Daten. Anerkannte Grenzen: Evaluation nur auf MLGym, fehlende Ablationsstudien, mögliche Format-Überanpassung. Zukünftige Richtungen: Reinforcement Learning, Literaturrecherche-Integration und Erweiterung auf weitere Benchmarks.