多少次迭代才能越獄?多輪LLM評估的動態預算分配
在多重對話交互中評估和預測大型語言模型(LLM)的性能至關重要,但計算成本高昂。越獄或智能體成功完成任務等關鍵事件往往需要反覆交互後才能出現,在任何可行的計算預算下都可能是稀有事件。現有的保形生存框架透過對觸發目標事件所需迭代次數構建可靠的下界預測(LPB),但依賴靜態預算分配,在多輪設置中效率低下。本文提出動態預算分配策略,將更多計算資源分配到更可能觸發關鍵事件的交互輪次,實驗表明該方法在相同預算下能更可靠地預測越獄風險並減少無效計算。
在多重對話交互中評估和預測大型語言模型(LLM)的性能至關重要,但計算成本高昂。越獄或智能體成功完成任務等關鍵事件往往需要反覆交互後才能出現,在任何可行的計算預算下都可能是稀有事件。現有的保形生存框架透過對觸發目標事件所需迭代次數構建可靠的下界預測(LPB),但依賴靜態預算分配,在多輪設置中效率低下。本文提出動態預算分配策略,將更多計算資源分配到更可能觸發關鍵事件的交互輪次,實驗表明該方法在相同預算下能更可靠地預測越獄風險並減少無效計算。