大語言模型越獄評估:動態預算分配框架DAPRO的理論突破
本文針對大語言模型在多輪對話場景中評估計算成本高昂且關鍵事件(如越獄成功)稀疏罕見的問題,提出了首個理論上有效的動態預算分配框架DAPRO。傳統共形生存分析依賴靜態預算,效率低下且假設苛刻。DAPRO通過投影優化實現動態資源分配,證明了其在滿足預算約束的同時,無需假設刪失與事件時間的條件獨立性,即可提供無分佈的有限樣本覆蓋保證。其核心創新在於提出了新的覆蓋界,其縮放比例取決於平均刪失權重的平方根而非最壞情況,從而獲得更緊緻的理論保證。實驗表明,在Llama 3.1和Qwen 2.5等模型上,DAPRO在代理任務成功、對抗性越獄、毒性內容生成及RAG幻覺檢測中,均以更低的方差實現接近名義水平的覆蓋精度,顯著優於靜態基線,為高效可靠的LLM安全評估提供了新範式。