民主化ICA:基於偏好辯論的AI決策原則生成新方法
這篇論文針對基於偏好的對齊方法難以捕捉人類判斷背後複雜推理過程的痛點,提出了民主化逆憲法AI(Democratic ICAI)。傳統方法如單次解釋的ICA往往忽略了複雜決策中的細微差別,僅通過成對標籤反映最終選擇。本研究引入結構化角色辯論機制,收集多個相互競爭的論證理由,從而生成更全面、更具表達力的偏好結構信號。實驗在MuCE-Pref和LiTBench等創意偏好基準上進行,涵蓋多種創意任務類別。結果顯示,該方法在平均偏好預測準確率上優於 deliberative prompting 和基於原則的基線,且生成的憲法原則更受LLM標註者青睞。這項工作為提升AI決策的可解釋性和忠實度提供了新路徑,有助於構建更符合人類價值觀的AI系統。