EvoArena:追蹤記憶演化以增強動態環境下LLM智能體的魯棒性
大型語言模型智能體在靜態基準測試中表現優異,但現實世界部署面臨環境動態變化的挑戰。本文提出EvoArena基準套件,透過在終端、軟體和社交領域模擬漸進式環境更新,填補了這一評估空白。同時,作者提出EvoMem,一種基於修補記憶的範式,將記憶演化記錄為結構化更新歷史,使智能體能透過記憶變化推理環境演化。實驗顯示,當前智能體在EvoArena上平均準確率僅為39.6%,而EvoMem使其平均提升1.5%,並在GAIA和LoCoMo等標準基準上分別提升6.1%和4.8%。此外,EvoMem在需要連續完成相關子任務的鏈級任務中準確率提升3.7%。機制分析表明,EvoMem增強了記憶中的證據捕獲能力,更好地保留了完整的环境狀態,為可靠智能體部署提供了重要參考。