什么是CORA，它主要解决什么问题？

CORA是一种一致性推理对齐框架，通过轻量级奖励模型解决多模态大模型在强化学习训练中，推理过程与最终答案间的语义不一致问题。

为什么推理与答案的不一致很关键？CORA带来了什么影响？

语义不一致会削弱AI可信度，导致逻辑自相矛盾。CORA通过HRAS策略稳定训练，显著提升了逻辑连贯性与任务表现。

未来值得关注的方向是什么？

多模态AI向医疗金融等高风险领域迈进，推理透明与一致至关重要。CORA提供即插即用方案，标志着研究转向重视推理过程质量。

CORA：透過一致性推理對齊彌合多模態RLVR中的思維與答案鴻溝

本文針對多模態大語言模型在可驗證獎勵強化學習（RLVR）中普遍存在的思維過程與最終答案語義不一致問題，提出了名為CORA的一致性推理對齊框架。現有方法多聚焦於視覺覆蓋和幻覺緩解，卻忽視了推理鏈條與結論間的邏輯斷層。CORA通過引入輕量級的即插即用一致性獎勵模型，將思維與答案的語義一致性納入RLVR優化目標，並採用混合獎勵優勢分割（HRAS）策略以穩定協調任務性能與一致性優化的平衡。在多個主流多模態推理基準和大型視覺語言模型上的廣泛實驗表明，CORA不僅有效緩解了思維與答案的不一致性，還顯著提升了任務表現，生成了更加忠實可靠的推理軌跡，為多模態推理模型的可靠性提升提供了新路徑。

在大型视觉语言模型（LVLMs）的发展进程中，可验证奖励强化学习（RLVR）已成为激发模型深层推理能力的关键技术。然而，尽管RLVR在纯文本领域取得了显著成功，其在多模态场景下的应用仍面临严峻挑战。现有研究大多致力于提升模型对视觉信息的覆盖范围以及减少视觉幻觉，却往往低估了一个更为隐蔽且关键的问题：推理过程（Thinking）与最终答案（Answer）之间的语义不一致性。这种不一致性表现为模型虽然生成了看似合理的推理步骤，但最终得出的结论却与这些步骤缺乏逻辑上的紧密关联，甚至出现矛盾。本文深入剖析了这一现象，通过对Group Relative Policy Optimization（GRPO）训练过程中收集的rollout数据以及RLVR评估后的输出进行详尽分析，发现思维与答案的不一致性不仅贯穿整个训练周期，且在推理阶段依然顽固存在。这一问题严重削弱了模型推理的可信度，使得生成的推理轨迹难以作为可靠的知识依据。

因此，解决这一鸿沟不仅是提升模型性能的需要，更是确保多模态AI系统安全与可信的核心所在。本文的核心贡献在于首次系统性地揭示了这一被忽视的问题，并提出了针对性的解决方案，旨在从根源上弥合思维与答案之间的逻辑断层。为了解决上述问题，本文提出了一种名为一致性推理对齐（CORA）的新框架。CORA的核心创新在于将思维与答案的语义一致性显式地引入到RLVR的奖励机制中。具体而言，作者设计了一个轻量级的即插即用一致性奖励模型，该模型能够实时评估推理链条中的每一步与最终答案之间的语义契合度。这一设计使得模型在优化过程中不仅能追求答案的正确性，还能确保推理过程的逻辑连贯性。

此外，为了平衡任务性能优化与一致性优化可能产生的冲突，CORA进一步引入了混合奖励优势分割（HRAS）策略。HRAS通过动态调整任务奖励与一致性奖励的权重，确保模型在提升推理一致性的同时，不会牺牲对复杂多模态问题的解决能力。这种策略有效地稳定了训练过程，避免了因过度强调一致性而导致的模型性能下降或训练发散。从技术实现上看，CORA无需对基础模型架构进行大规模修改，而是通过奖励函数的创新设计，实现了高效且稳定的对齐优化，体现了"小改动、大效果"的工程智慧。在实验验证环节，作者在多个具有代表性的多模态推理基准测试上对CORA进行了广泛评估，涵盖了主流的大型视觉语言模型。实验结果清晰地表明，CORA在提升任务性能的同时，显著降低了思维与答案之间的不一致性指标。

与基线方法相比，采用CORA的模型生成的推理轨迹更加忠实于视觉输入和逻辑规则，减少了"幻觉式"推理的发生。消融实验进一步揭示了各个组件的有效性：移除一致性奖励模型会导致不一致性显著回升，而缺乏HRAS策略则会导致训练不稳定或性能增益受限。这些关键结果不仅验证了CORA框架的有效性，也证实了语义一致性在多模态推理中的重要性。通过对比不同模型在不同数据集上的表现，研究还发现CORA在处理需要复杂逻辑推导的多模态任务时优势尤为明显，这表明该方法对于提升模型的深度推理能力具有普遍适用性。CORA的提出对多模态人工智能领域具有重要的行业意义与潜在影响。首先，它为开源社区提供了一个高效且易于集成的工具，帮助研究人员和开发者提升现有LVLMs的推理可靠性，无需重新训练庞大的基础模型。其次，在工业落地方面，更加忠实和一致的推理轨迹对于医疗、法律、金融等对准确性要求极高的领域至关重要，CORA有望成为构建可信多模态AI系统的关键组件。最后，本文对思维-答案不一致性的深入分析为后续研究指明了方向，鼓励学界关注推理过程的质量而非仅仅关注最终答案的正确性。随着多模态模型在更多复杂场景中的应用，确保其推理过程的透明性和一致性将成为研究热点，CORA所倡导的一致性对齐理念或将引领这一趋势，推动多模态AI向更可靠、更可解释的方向发展。

Sources

arXiv