RA-RFT:基於檢索增強強化微調的類比推理學習新範式
傳統檢索增強生成(RAG)在處理複雜推理任務時存在顯著局限:基於語義相似度的檢索往往無法匹配真正有助於解題的上下文——語義相似的問題可能需要不同的解決策略,而表面不同的問題可能共享相同的推理模式。為此,本文提出檢索增強強化微調(RA-RFT)框架,旨在教會語言模型通過類比進行推理。RA-RFT首先利用黃金相關性蒸餾技術訓練檢索器,使其根據預期推理收益而非語義重疊來排序上下文;隨後結合檢索到的類比演示,通過強化微調方法訓練策略模型,使模型在可驗證的結果獎勵下學會利用推理軌跡。實驗結果表明,RA-RFT在具有挑戰性的數學推理基準上持續優於標準強化微調方法。例如在AIME 2025基準上,該方法使Qwen3-1.7B和Qwen3-4B模型的average@32準確率分別提升7.1和2.8分,證明推理感知檢索是與獎勵設計或訓練課程正交的改進維度。