OmniVerifier-M1:基於顯式結構化重校準的多模態元驗證器

本文針對多模態大模型中視覺驗證可靠性不足的問題,提出了一種名為 OmniVerifier-M1 的多模態元驗證器。研究深入探討了如何利用驗證器生成的推理過程(rationales)而非單一的判決訊號進行訓練,並揭示了兩個關鍵發現:首先,邊界框等符號化輸出比文字解釋更適合作為元驗證依據,能支援高效的基於規則的強化學習獎勵,避免依賴輔助判別模型;其次,將二元判斷與元驗證的強化學習目標解耦,能顯著提升效能。基於此,OmniVerifier-M1 實現了穩健的驗證與細粒度錯誤定位,並進一步驅動了 M1-TTS 系統,實現了動態區域級自修正。該工作為建構更可靠、可解釋的多模態基礎模型部署提供了新路徑。