LCGuard:多智能體系統中基於潛在通信的安全KV快取共享框架
本文針對基於大語言模型的多智能體系統中,利用Transformer鍵值(KV)快取進行潛在通信所引發的隱私洩露風險,提出了LCGuard框架。現有研究指出,儘管KV快取共享能提升效率並保留豐富資訊,但其編碼了上下文輸入與推論狀態,成為敏感資訊傳播的隱蔽通道。LCGuard將共享KV快取視為潛在的工作記憶,透過在學習表示層施加變換來阻斷敏感內容的傳輸。該方法形式化了基於重構的表示層敏感資訊洩露問題——若對抗解碼器能從快取中恢復敏感輸入,則判定為不安全。透過對抗訓練,LCGuard學習保留任務語義並最小化可重構資訊,同時對抗者學習重構敏感輸入。在多個模型家族與多智能體基準上的實驗表明,LCGuard在維持具競爭力的任務效能的同時,顯著降低了基於重構的洩露與攻擊成功率,為多智能體系統的安全協作提供了新範式。