[arXiv] SAHOO:遞歸自我提升中的安全對齊框架(ICLR 2026 Workshop)

來自多所研究機構的團隊在ICLR 2026 Workshop上發表了SAHOO,這是首個系統性解決AI遞歸自我提升安全性問題的框架。核心創新在於引入「高階優化目標」,在傳統對齊目標之上增加了約束自我提升方向和速度的二階安全目標。

框架包含改進方向驗證器、能力邊界監控器、對齊保持檢查器三個關鍵組件。

當前多個主流AI系統已具備初步的自我提升能力,SAHOO為這些系統提供了可操作的安全護欄框架。

SAHOO:為AI自我進化安裝「安全閘」

問題背景

2026年的AI系統已展現多種自我提升能力。根本性問題:當AI開始修改自身時,如何確保修改始終符合人類意圖?

SAHOO框架

1. 改進方向驗證器:檢查修改是否在預定義「安全錐體」內

2. 能力邊界監控器:設定能力增長速率上限

3. 對齊保持檢查器:修改完成後運行標準化測試,失敗自動回滾

實驗驗證

  • 自動提示優化中阻止了97%可能導致越獄的優化方向
  • 模型自我微調中將對齊退化降低了83%
  • 有效限制了Agent工具自我擴展中的權限升級

局限

安全錐體定義仍是開放問題,計算開銷增加15-20%推理延遲。

參考來源:

  • [arXiv](https://arxiv.org/)
  • [ICLR 2026 Workshop](https://iclr.cc/2026/workshop)