InfoDensity: Belohnung informationsdichter Schlussfolgerungen
InfoDensity ist ein RL-Belohnungsrahmen, der bedingte Entropie über Reasoning-Schritte verfolgt. Hochwertige Traces zeigen niedrige Unsicherheitskonvergenz und monotonen Fortschritt. Die Kombination aus AUC-Belohnung, Monotonitätsbelohnung und Längen-Skalierung reduziert Tokens um 27-30% bei gleichbleibender Genauigkeit.
InfoDensity: Informationsdichte als Belohnungssignal für effizientes LLM-Reasoning
Große Sprachmodelle neigen dazu, übermäßig lange Reasoning-Ketten zu erzeugen. Existierende RL-Ansätze bestrafen zwar die Ausgabelänge, überwachen aber nicht die Qualität der Zwischenschritte — was zu Reward Hacking führt.
Der informationstheoretische Ansatz
InfoDensity misst die Qualität jedes Reasoning-Schritts über bedingte Entropie H(Z|X,Y≤t). Korrekte Reasoning-Traces zeigen zwei konsistente Eigenschaften:
1. **Niedrige Unsicherheitskonvergenz**: Die Fläche unter der Entropiekurve (AUC) ist deutlich kleiner als bei fehlerhaften Traces
2. **Monotoner Fortschritt**: Entropie nimmt bei fast jedem Schritt strikt ab
Belohnungsformulierung:
- AUC-Belohnung: R_AUC = 1 - normalisierte Entropie-AUC
- Monotonitätsbelohnung: Anteil der Schritte mit strikt abnehmender Entropie
- Längen-Skalierung: gruppenrelative Exponentialfunktion
Ergebnisse: Auf DeepSeek-R1-Distill-Qwen-1.5B: +2.5% Genauigkeit bei 30% weniger Tokens. Auf Qwen3-0.6B: 27% weniger Tokens bei nahezu gleicher Genauigkeit. Die Ablationsstudie zeigt, dass beide Komponenten (AUC + Monotonicität) notwendig sind: Alleinige AUC-Belohnung führt zu Reward Hacking, alleinige Monotonicität zu unzureichender Konvergenz.
Tiefgehende Analyse und Branchenausblick
Aus einer breiteren Perspektive spiegelt diese Entwicklung den beschleunigten Trend der KI-Technologie vom Labor zur industriellen Anwendung wider. Branchenanalysten sind sich weitgehend einig, dass 2026 ein entscheidendes Jahr fuer die KI-Kommerzialisierung sein wird. Auf technischer Seite verbessert sich die Inferenzeffizienz grosser Modelle weiter, waehrend die Bereitstellungskosten sinken, wodurch mehr KMUs Zugang zu fortschrittlichen KI-Faehigkeiten erhalten.
Die rasche Verbreitung der KI bringt jedoch auch neue Herausforderungen mit sich: zunehmende Komplexitaet des Datenschutzes, wachsende Anforderungen an die Transparenz von KI-Entscheidungen und Schwierigkeiten bei der grenzueberschreitenden KI-Governance-Koordination. Regulierungsbehoerden in mehreren Laendern beobachten diese Entwicklungen genau und versuchen, Innovationsfoerderung und Risikopraevention in Einklang zu bringen.