Model Agreement via Anchoring：控制多模型預測一致性的新方法

當多個機器學習模型對同一輸入給出不同預測時，應該如何處理？這篇論文提出了 Anchoring 方法來控制模型間的一致性。核心思想是選擇一個錨定模型，然後訓練其他模型在保持自身性能的同時儘量與錨定模型保持一致。

這個問題在 Multi-Agent 系統中尤其重要——當多個 AI Agent 使用不同的底層模型時，它們對同一情況的判斷可能不一致，導致協作出錯。Anchoring 方法提供了一種理論上優雅的解決方案。

論文來自賓夕法尼亞大學的團隊，提出了衡量模型不一致性的標準化指標，並在多個基準數據集上驗證了 Anchoring 的有效性。

模型不一致性是機器學習中一個被低估但日益重要的問題。這篇論文系統性地解決了這個挑戰。

給定兩個獨立訓練的模型 A 和 B，它們在大部分測試樣本上可能給出相同的預測，但在某些樣本上會給出不同結果。這種不一致在模型更新（A 升級到 A'）時尤其成問題——用戶發現新版本雖然總體性能提升了，但某些之前正確的預測變錯了。

選擇一個錨定模型（通常是當前部署版本），在訓練新模型時添加一致性約束：對於錨定模型已經正確預測的樣本，新模型也應該給出相同預測。這通過在損失函數中添加一致性正則化項實現。

論文給出了模型不一致性的形式化定義和衡量指標。證明了在特定條件下，Anchoring 可以在不顯著犧牲新模型性能的前提下，將不一致率降低 40-60%。

在 CIFAR-10、ImageNet 和多個 NLP 基準上驗證。Anchoring 後的模型在整體準確率僅下降 0.1-0.3% 的情況下，模型間不一致率顯著降低。

這項工作對 Multi-Agent 系統和 Agentic AI 有直接啓示。當多個 Agent 使用不同版本或不同架構的 LLM 時，它們對同一問題的回答可能不一致。Anchoring 思想可以應用於 LLM Fine-Tuning 過程，確保微調後的模型與基礎模型在關鍵任務上保持一致。