Co-pi-tree:將LLM推理蒸餾為可解釋策略樹以優化人機協作

在人機協作領域,構建高效且可靠的輔助策略至關重要。現有方法主要存在兩大局限:基於多智能體強化學習(MARL)的方法往往產生黑盒策略,缺乏可解釋性並引發安全擔憂;而直接調用大語言模型(LLM)進行每一步決策的方法則面臨響應緩慢和高昂推理成本的問題。為此,本文提出了協作策略樹(Co-pi-tree),這是一種閉環方法,旨在通過學習由夥伴行為預測樹和智能體動作選擇樹組成的可執行策略樹來解決上述矛盾。Co-pi-tree的核心創新在於將LLM的複雜推理過程蒸餾為具體的策略樹代碼。該方法通過與人機夥伴的實際交互來評估策略、獲取反饋,並利用自然語言總結交互中的問題以針對性地改進策略樹的分支。在Overcooked-AI基準測試中,Co-pi-tree表現卓越,不僅將平均獎勵較基線提升了35.4%,還顯著降低了資源消耗,使LLM查詢次數減少77.7%,測試時的延遲大幅降低97.1%,實現了性能與效率的雙重突破。