ACTS:基於強化學習的智慧體思維鏈控制,實現大模型推理的高效與可控
針對大型語言模型在擴展思維鏈推理中存在的計算資源浪費及推理過程不可控問題,本文提出了一種名為智慧體思維鏈控制(ACTS)的新框架。該框架將推理控制形式化為馬爾可夫決策過程,引入一個控制器智慧體在推理過程中動態引導凍結的推理器。控制器透過觀察當前的思維軌跡和剩餘思考預算,自適應地輸出包含推理策略和引導短語的動作,從而實現對推理過程的細粒度干預。研究團隊構建了合成引導軌跡並利用多預算增強數據進行初始化,隨後透過強化學習結合預算條件獎勵塑造進行優化。實驗結果表明,ACTS在多個基準測試上不僅顯著節省了Token消耗,還能保持與完整思維鏈相當的效能,同時實現精度與效率的靈活權衡,為高效大模型推理提供了新的可控解決方案。