什么是Operadic Consistency（OC）？

一种无需真实标签的推理置信度信号，通过比较模型对复合查询的直接回答与经分解步骤重构的回答，来检测大语言模型在组合推理中的失效。

为什么OC对评估大模型可靠性至关重要？

实验显示其与准确率的相关系数在0.86至0.94之间，是唯一跨所有数据集均超过0.85的信号，并在固定计算预算下显著提升了选择性预测的准确率。

未来在工业落地和研究中应关注OC的哪些潜力？

OC可作为即插即用的后处理工具，帮助医疗、法律等高要求领域过滤低置信度输出，也为探索基于结构一致性的新诊断方法提供了理论框架。

Operadic Consistency：無需標籤即可檢測大型語言模型組合推理失效

本文提出了一種名為Operadic Consistency（OC）的新型推理置信度信號，旨在解決大型語言模型在組合推理中無需真實標籤即可檢測推理失效的問題。OC基於Operad理論，通過比較模型對複合查詢的直接回答與其通過分解步驟重構的回答之間的一致性來工作。在十二個參數量從4B到671B不等的指令微調LLM上，針對四個多跳問答數據集的實驗表明，OC與準確率呈現強相關性（Pearson r在0.86至0.94之間），且是唯一一個跨所有數據集的相關係數均超過0.85的信號。相比Chain-of-Thought Self-Consistency（CoT-SC），OC在MuSiQue和StrategyQA上表現更穩定，並在每問題層面提供了超越CoT-SC和語義熵的獨立信息。在選擇性預測任務中，OC在固定計算預算下顯著提升了準確率，證明了其在提升模型可靠性方面的巨大潛力。

在大语言模型的推理过程中，如何在没有真实标签（ground-truth labels）的情况下，于推理时可靠地检测模型的推理失效，一直是自然语言处理领域的一个核心挑战。现有的置信度基线方法，如自一致性（self-consistency）、语义熵（semantic entropy）以及P(True)，主要依赖于问题内部的采样和模型自我评估机制。然而，这些方法在处理复杂的组合推理任务时往往显得力不从心。本研究基于Operad理论，即由迭代替换构建的系统形式化理论，提出了一种互补的诊断方法：模型对组合查询的直接回答，应当与其通过组合该查询的明确分解步骤所产生的回答保持一致。基于这一洞察，作者实例化了Operadic Consistency (OC) 这一每问题级别的信号。OC的核心贡献在于它不依赖于外部标签，而是利用模型内部的逻辑一致性作为置信度指标，为评估LLM在复杂推理任务中的可靠性提供了一个全新的、理论坚实的视角，填补了现有方法在处理结构化分解推理时的空白。从技术方法来看，Operadic Consistency (OC) 的实现机制巧妙地利用了组合推理的本质结构。具体而言，对于任何一个需要多步推理的查询，OC要求模型执行两种不同的推理路径：第一种是模型直接生成对该查询的最终答案；第二种是模型首先将该查询分解为若干子问题或步骤，然后依次解决这些子问题，最后将这些子答案组合起来形成最终答案。

OC信号即为这两种路径所得答案的一致性程度。这种方法无需额外的训练或微调，是一种即插即用的后处理信号。在实验设计中，作者不仅评估了直接生成的答案，还深入分析了当分解步骤是从模型自身的思维链（Chain of Thought）中提取时的情况。这种设计使得OC能够适应不同模型的能力差异，无论是通过显式提示获取分解步骤，还是从模型生成的CoT中隐式提取，OC都能有效捕捉模型在逻辑连贯性上的细微缺陷。这种基于结构一致性的诊断方法，避免了传统方法中因采样噪声导致的置信度估计偏差，提供了一种更为稳健的推理质量评估手段。在实验设置与关键结果方面，研究团队在十二个指令微调的大语言模型上进行了广泛评估，这些模型参数量从4B到671B不等，涵盖了开源权重模型和闭源商业模型。评估基准包括四个复杂的多跳问答数据集：HotpotQA、DROP、MuSiQue和StrategyQA。实验结果显示，OC与模型准确率在所有数据集上均呈现极强的正相关性，Pearson相关系数r介于0.86到0.94之间，且所有p值均小于等于0.0004，表明这种相关性在统计上极为显著。

值得注意的是，OC是唯一一个在所有四个数据集上相关系数均大于等于0.85的信号。相比之下，Chain-of-thought self-consistency (CoT-SC) 虽然在HotpotQA和DROP上表现优异（r分别为0.93和0.87），但在MuSiQue和StrategyQA上性能大幅下降至r约等于0.45，显示出其泛化能力的不足。此外，在每问题层面，OC在控制其他基线变量后，依然对置信度预测提供了显著的额外信息（cluster-robust p值小于等于10的-16次方）。在选择性预测任务中，即在固定计算预算（K=3）下，OC带来的准确率提升（AUARC提升0.086至0.096，AUROC提升0.092至0.164）显著优于调优后的CoT-SC基线，且95%置信区间均不包含零，证明了其优越的性能。这项研究对开源社区、工业落地及后续研究具有深远的意义。首先，OC作为一种无需标签、计算成本可控的置信度信号，为工业界部署高可靠性LLM应用提供了实用的工具，特别是在医疗、法律等对错误容忍度极低的领域，能够通过选择性预测机制过滤掉低置信度的推理结果，从而降低风险。其次，OC理论框架的提出，为理解LLM内部推理机制提供了新的视角，即逻辑结构的一致性可能是衡量推理质量的关键指标，这激发了后续研究探索其他基于结构一致性的诊断方法的可能性。最后，该研究在多种规模和能力层次的模型上验证了OC的有效性，证明了其通用性，鼓励了社区进一步探索如何在更复杂的推理任务和多模态场景中应用此类信号，推动了LLM可解释性和可靠性研究的发展。

Sources

arXiv