CORA:透過一致性推理對齊彌合多模態RLVR中的思維與答案鴻溝
本文針對多模態大語言模型在可驗證獎勵強化學習(RLVR)中普遍存在的思維過程與最終答案語義不一致問題,提出了名為CORA的一致性推理對齊框架。現有方法多聚焦於視覺覆蓋和幻覺緩解,卻忽視了推理鏈條與結論間的邏輯斷層。CORA通過引入輕量級的即插即用一致性獎勵模型,將思維與答案的語義一致性納入RLVR優化目標,並採用混合獎勵優勢分割(HRAS)策略以穩定協調任務性能與一致性優化的平衡。在多個主流多模態推理基準和大型視覺語言模型上的廣泛實驗表明,CORA不僅有效緩解了思維與答案的不一致性,還顯著提升了任務表現,生成了更加忠實可靠的推理軌跡,為多模態推理模型的可靠性提升提供了新路徑。