量化大推理模型中置信度表達的忠實性:挑戰與評估框架

本文針對大推理模型(LRMs)在可靠性方面的關鍵缺陷,深入探討了其置信度表達的忠實性(Faithful Calibration, FC)問題。儘管LRMs通過擴展的推理軌跡展現思考過程,但模型內在的不確定性與外在語言表達的置信度之間往往存在嚴重錯位。現有評估方法難以適應LRMs長鏈式思維輸出中缺乏清晰步驟邊界、結構不一致及複雜條件依賴等特性。為此,作者提出了一種新穎的量化框架,通過基於Token概率、隱藏狀態和採樣響應一致性三個維度的內部不確定性,結合語言決斷力分析來系統評估FC。研究還設計了前綴條件採樣方法以控制軌跡間的條件與結構變異。實驗結果表明,推理行為本身並不能自動提升置信度表達的忠實性,且針對非推理模型設計的提示干預在推理場景下同樣失效。不同置信度估計器對同一軌跡的評估結果存在顯著分歧,揭示了現有評估方法的脆弱性。該研究確立了FC作為LRMs獨立可靠性與對齊目標的重要性,特別是在高風險應用場景中。