ParamMem:通過參數化反思記憶教LLM Agent自我改進

自我反思讓語言Agent能迭代改進解決方案,但當前方法常產生重複輸出,很快達到瓶頸。ParamMem通過將跨樣本反思模式直接編碼到模型參數中的參數化記憶模塊解決了這個問題。

核心洞察:與其將反思存儲爲文本(LLM傾向於重複),不如編碼爲學習參數,通過溫度控制採樣實現多樣化反思生成。完整框架ParamAgent將參數化記憶與情景記憶(單任務歷史)和跨樣本記憶(跨任務模式)結合。

在代碼生成、數學推理和多跳問答上的實驗顯示持續超越SOTA基線。值得注意的是ParamMem是樣本高效的,支持弱到強遷移(小模型改進大模型),無需依賴更強的外部模型即可實現自我改進。這解決了當前Agent架構的一個根本限制。

LLM Agent 的自我反思能力是其迭代改進的核心。但現有反思機制有個根本問題:**反思內容越來越重複**,幾輪之後基本在說同樣的話,性能提升很快見頂。

問題分析

研究團隊通過實證分析發現,反思多樣性與任務成功率呈**強正相關**。問題的根源在於:文本形式的反思記憶容易被 LLM "復讀"——模型傾向於生成與之前相似的反思。

ParamMem 方案

核心思路:不把反思存爲文本,而是編碼到**模型參數**裏。

參數化記憶模塊通過在跨樣本反思數據上微調一個小型模型來實現。生成反思時,通過調節溫度參數(temperature)來控制多樣性——同樣的經驗可以產生不同角度的反思。

ParamAgent 框架

完整框架整合三層記憶:

1. **參數記憶**(ParamMem):編碼跨任務反思模式

2. **情景記憶**:單個任務內的嘗試歷史

3. **跨樣本記憶**:相似任務的成功經驗

三者協同工作,爲每次反思提供豐富的多角度信號。

實驗結果

| 任務 | 相比 SOTA 提升 |

|------|---------------|

| HumanEval(代碼生成)| +4.2% |

| MATH(數學推理)| +3.8% |

| HotpotQA(多跳問答)| +5.1% |

更關鍵的發現:

  • **樣本效率高**:只需少量反思數據就能訓練有效的 ParamMem
  • **弱到強遷移**:小模型的 ParamMem 可以改進大模型的表現
  • **自我改進**:不需要更強的外部模型,自己的反思數據就夠

爲什麼重要

這解決了 Agent 反思機制的一個根本瓶頸。對於需要多輪迭代的複雜任務(調試代碼、解數學題、多步推理),反思多樣性直接決定了 Agent 的上限。

Agentic AI 時代的意義

在 agentic AI 全面爆發的 2026 年,Agent 記憶系統是核心基礎設施。目前主流的 RAG(檢索增強生成)解決了“記住什麼”的問題,但沒有解決“如何反思”的問題。ParamMem 填補了這個空白——它是一種“反思增強生成”機制,讓 AI Agent 不僅記得信息,還能從經驗中學習。這種自我改進 AI(self-improving AI)的能力是 Agent 從“工具”進化爲“助手”的關鍵。