什么是RA-RFT框架？

检索增强强化微调框架，通过类比推理而非语义匹配来检索相关上下文，教语言模型深度推理数学问题。

RA-RFT在数学推理上有何表现？

在AIME 2025基准上，Qwen3-1.7B准确率提升7.1分，Qwen3-4B提升2.8分，持续优于标准强化微调方法。

该研究对未来有何启示？

推理感知检索与奖励设计正交，两者可结合使用，为代码生成、科学计算等高复杂度领域应用提供新路径。

RA-RFT：基於檢索增強強化微調的類比推理學習新範式

傳統檢索增強生成（RAG）在處理複雜推理任務時存在顯著局限：基於語義相似度的檢索往往無法匹配真正有助於解題的上下文——語義相似的問題可能需要不同的解決策略，而表面不同的問題可能共享相同的推理模式。為此，本文提出檢索增強強化微調（RA-RFT）框架，旨在教會語言模型通過類比進行推理。RA-RFT首先利用黃金相關性蒸餾技術訓練檢索器，使其根據預期推理收益而非語義重疊來排序上下文；隨後結合檢索到的類比演示，通過強化微調方法訓練策略模型，使模型在可驗證的結果獎勵下學會利用推理軌跡。實驗結果表明，RA-RFT在具有挑戰性的數學推理基準上持續優於標準強化微調方法。例如在AIME 2025基準上，該方法使Qwen3-1.7B和Qwen3-4B模型的average@32準確率分別提升7.1和2.8分，證明推理感知檢索是與獎勵設計或訓練課程正交的改進維度。

当前，检索增强生成（RAG）已成为将语言模型锚定在外部知识中的标准机制，但在面对复杂推理任务时，传统的基于词汇或语义相似度的检索机制暴露出了明显的不足。这种不足的核心在于，语义上高度相似的问题往往需要截然不同的解决策略，而表面上看似无关的问题却可能共享底层的相同推理模式。为了解决这一关键痛点，本文提出了一种名为检索增强强化微调（RA-RFT）的后训练框架。该框架的核心贡献在于它不再仅仅依赖表面的语义匹配，而是致力于教会语言模型如何通过类比来进行深度推理。通过引入这一新范式，RA-RFT试图打破传统检索在复杂逻辑链条中的局限，使模型能够更精准地找到那些在推理结构上具有启发性的上下文，从而显著提升其在需要多步逻辑推导任务中的表现。

这一研究不仅重新定义了检索在推理过程中的角色，也为后续如何更有效地利用外部知识辅助复杂推理提供了全新的理论视角和实践路径。在技术方法层面，RA-RFT构建了一个两阶段的精细化训练流程，旨在实现检索器与策略模型的协同优化。首先，框架采用了黄金相关性蒸馏（gold-relevance distillation）技术来训练检索器。与传统检索器不同，RA-RFT中的检索器不再以语义重叠度作为排序依据，而是被训练去预测上下文对当前问题的预期推理收益。这意味着检索器学会了识别那些虽然语义表面不同，但在逻辑结构或解题思路上具有高度互补性的类比案例。

在获得高质量的检索结果后，框架进入第二阶段，即对策略模型进行强化微调。这一过程利用检索到的类比演示作为上下文，结合可验证的结果奖励，引导模型学习如何有效地利用这些推理轨迹。这种强化微调策略使得模型不仅关注最终答案的正确性，更关注推理过程的合理性和可迁移性，从而在内部建立起一种基于类比的推理能力，使其在面对新颖问题时能够灵活调用过往的类比经验进行求解。为了验证RA-RFT的有效性，研究团队在多个具有挑战性的数学推理基准上进行了广泛的实验评估。实验结果一致表明，RA-RFT在性能上持续优于标准的强化微调方法，证明了推理感知检索带来的增益是显著且稳定的。

具体而言，在AIME 2025这一高难度基准测试中，RA-RFT展现出了强大的提升能力。对于Qwen3-1.7B模型，该方法使其average@32准确率提升了7.1分；而对于稍大参数的Qwen3-4B模型，准确率也提升了2.8分。这些具体的数字提升不仅量化了框架的有效性，还揭示了一个重要的发现：推理感知的检索能够揭示出检索上下文中多样化的解决方案策略。这些被检索到的上下文为单个问题提供了独特的推理脚手架，证明了RA-RFT所引入的推理感知检索是一个独立的改进维度，它与现有的奖励设计优化或训练课程安排是正交的，这意味着两者可以结合使用以进一步挖掘模型潜力。从行业意义与潜在影响来看，RA-RFT的提出对开源社区和工业落地具有深远的启示。

首先，它证明了在复杂推理任务中，检索的质量比检索的数量或表面相似度更为关键，这为工业界优化RAG系统提供了新的方向，即从语义检索转向推理结构检索。其次，该框架展示了一种通过类比学习来增强模型泛化能力的有效途径，这对于降低大模型在垂直领域复杂任务中的微调成本具有重要意义。通过利用外部知识中的类比案例，模型可以在较少标注数据的情况下学习到更鲁棒的推理模式。此外，RA-RFT所揭示的推理感知检索与奖励设计正交的特性，为后续研究指明了新的优化轴心。研究人员可以在此基础上，进一步探索如何结合更先进的奖励模型或更精细的训练策略，以构建更加智能、高效且具备深度推理能力的语言模型，从而推动人工智能在科学计算、代码生成等高复杂度领域的应用落地。

Sources

arXiv