SDAR:基於自蒸餾門控機制的強化學習智能體訓練新方法

強化學習已成為大語言模型智能體後訓練的核心範式,但其基於軌跡層級的獎勵訊號對長週期互動的監督過於稀疏。儘管在線策略自蒸餾(OPSD)透過引入特權上下文提供了密集的令牌級指導,但在多輪智能體場景中直接應用會導致不穩定性加劇,且難以區分技能檢索缺陷與利用不當導致的教師拒絕。本文提出SDAR(自蒸餾智能體強化學習),將OPSD作為門控輔助目標,保持強化學習為主幹優化器。該方法將離散的令牌級訊號映射為Sigmoid門控,在教師認可的積極差距令牌上增強蒸餾,同時軟性衰減負面拒絕。在Qwen2.5和Qwen3系列模型上,SDAR在ALFWorld、WebShop和Search-QA基準上顯著優於GRPO,分別提升9.4%、7.0%和10.2%,並有效避免了樸素GRPO+OPSD的不穩定性。