什么是操作子一致性（OC）？

操作子一致性是一种无标签的推理置信度信号，基于数学中的操作子理论，通过比较模型对复合查询的直接回答与分解重组后的回答是否一致，来评估其推理可靠性。

OC 为什么比传统方法更有效？

OC 在四个多跳问答数据集上均与准确率呈强正相关（Pearson r 0.86-0.94），是唯一在所有数据集上保持高相关性的信号，而链式思考自洽性在复杂任务上相关性骤降至0.45。

这项研究有哪些实际应用前景？

OC 可用于医疗、法律等高风险场景的实时推理可靠性评估，无需标注数据且计算成本低，为选择性预测提供了一种高效工具，有望成为复杂推理评估的基础设施。

操作子一致性：大模型組合推理失效的無標籤信號

本文提出了一種名為操作子一致性（Operadic Consistency, OC）的新型推理置信度信號，旨在解決大語言模型在組合推理中難以檢測錯誤的問題。不同於依賴自洽性或語義熵的傳統方法，OC基於操作子理論，透過比較模型對複合查詢的直接回答與其分解後重組的回答是否一致來評估可靠性。在涵蓋4B至671B參數量的十二個指令微調模型及四個多跳問答資料集上的廣泛實驗表明，OC與準確率呈強正相關（Pearson r在0.86至0.94之間），且是唯一在所有四個資料集上均保持高相關性的信號。相比鏈式思考自洽性，OC在多個資料集上提供了額外的資訊增益，並在選擇性預測任務中實現了顯著的性能提升，證明了其在無標籤環境下評估模型推理能力的巨大潛力。

大语言模型在处理复杂的多跳推理任务时，往往面临推理路径长、错误累积难以检测的挑战。现有的置信度评估方法，如自洽性（Self-Consistency）、语义熵（Semantic Entropy）以及P(True)等，主要依赖于问题内部的采样一致性或自我评估机制。然而，这些方法在面对需要逻辑组合的查询时，往往缺乏足够的判别力。本研究引入操作子理论（Operad Theory）这一数学形式化系统，提出了一种全新的诊断信号——操作子一致性（OC）。该理论核心在于，系统通过迭代替换构建，因此模型对复合查询的直接回答，应当与其将查询分解后再重组所得到的回答保持一致。这种一致性信号不依赖于地面真值标签，而是纯粹基于模型内部的逻辑自洽性，为检测组合推理中的失效提供了一种全新的、无监督的视角。

这一方法不仅填补了组合推理评估领域的空白，也为理解模型内部推理机制提供了深刻的理论洞察。在技术实现层面，操作子一致性（OC）的计算过程严谨且具针对性。对于每一个给定的组合查询，系统首先获取模型直接生成的答案，随后引导模型将该查询分解为子问题，分别求解后再组合结果。OC信号即为这两种回答路径之间的一致性度量。研究团队在十二个不同规模（从4B到671B参数）的指令微调大语言模型上进行了实例化验证，涵盖了开源和闭源模型。训练策略上，主要利用现有的多跳问答数据集进行零样本或少样本的推理测试，无需额外的微调。

网络结构方面，OC作为一种后处理信号，直接作用于模型的输出层，通过比较直接输出与分解重组输出的语义距离或精确匹配度来生成置信度分数。这种设计使得OC能够独立于具体的模型架构，成为一种通用的推理质量评估工具。此外，研究还探讨了在思维链（Chain-of-Thought）模式下，从模型自身的推理步骤中提取分解结构的方法，进一步增强了OC在实际应用中的灵活性和鲁棒性。实验设置涵盖了四个主流的多跳问答数据集，包括HotpotQA、DROP、MuSiQue和StrategyQA，以全面评估模型在不同推理难度和类型下的表现。关键结果显示，OC与模型准确率在所有数据集上均呈现极强的正相关性，Pearson相关系数r介于0.86至0.94之间，且统计显著性极高（p值均小于0.0004）。值得注意的是，OC是唯一一个在所有四个数据集上相关系数均超过0.85的信号。

相比之下，链式思考自洽性（CoT-SC）虽然在HotpotQA和DROP上表现良好，但在MuSiQue和StrategyQA上相关性骤降至0.45左右，显示出其在复杂组合推理中的局限性。消融实验进一步证实，即使在控制了其他基线指标后，OC依然在每道题的层面上提供了独立于CoT-SC和语义熵的额外信息，其系数显著性极高（p值小于10的-16次方）。在选择性预测任务中，即在固定计算预算（K=3）下，OC带来的准确率提升（AUARC增加0.086至0.096）和ROC曲线下面积提升（AUROC增加0.092至0.164）均具有统计显著性，证明了其优于现有基线的实际效用。这项研究对开源社区和工业落地具有深远的意义。首先，它提供了一种无需标注数据即可实时评估模型推理可靠性的有效工具，这对于部署高风险应用场景（如医疗、法律问答）中的大模型至关重要。其次，OC的发现揭示了模型内部逻辑结构与推理质量之间的深层联系，为后续研究如何改进模型架构以增强组合推理能力提供了新的方向。对于工业界而言，基于OC的选择性预测机制可以在不增加额外计算成本的前提下，显著提升系统输出的整体质量，降低错误回答带来的风险。此外，该研究在前沿思维模型上的成功应用，也表明该方法具有良好的扩展性，能够适应更复杂的推理场景。未来，随着更大规模模型和多模态模型的发展，操作子一致性有望成为评估复杂推理能力的基础设施之一，推动大模型向更可靠、更可解释的方向演进。

Sources

arXiv