操作子一致性:大模型組合推理失效的無標籤信號
本文提出了一種名為操作子一致性(Operadic Consistency, OC)的新型推理置信度信號,旨在解決大語言模型在組合推理中難以檢測錯誤的問題。不同於依賴自洽性或語義熵的傳統方法,OC基於操作子理論,透過比較模型對複合查詢的直接回答與其分解後重組的回答是否一致來評估可靠性。在涵蓋4B至671B參數量的十二個指令微調模型及四個多跳問答資料集上的廣泛實驗表明,OC與準確率呈強正相關(Pearson r在0.86至0.94之間),且是唯一在所有四個資料集上均保持高相關性的信號。相比鏈式思考自洽性,OC在多個資料集上提供了額外的資訊增益,並在選擇性預測任務中實現了顯著的性能提升,證明了其在無標籤環境下評估模型推理能力的巨大潛力。