RA-RFT:透過檢索增強強化微調讓大模型學會類比推理

本文針對傳統檢索增強生成(RAG)在複雜推理任務中因依賴語義相似度而導致策略錯配的的問題,提出檢索增強強化微調(RA-RFT)框架。該框架透過黃金相關性蒸餾訓練檢索器,使其依據預期推理收益而非語義重疊來排序上下文,並利用檢索到的類比範例對策略模型進行強化微調,使模型在可驗證結果獎勵下學習利用推理軌跡。實驗表明,RA-RFT在多個數學推理基準上顯著優於標準強化微調方法,例如在AIME 2025上,Qwen3-1.7B和Qwen3-4B的準確率分別提升了7.1和2.8個百分點。研究還發現,推理感知檢索能捕捉互補的解題策略,為不同問題提供獨特的推理支架,證明了推理感知檢索是獨立於獎勵設計的有效優化維度。

Sources