行為保障無法驗證安全主張:治理框架下的審計鴻溝與機制證據轉向
本文是一篇立場論文,深刻剖析了當前人工智慧治理框架與現有安全保障方法論之間的結構性錯位。作者指出,2019年至2026年初實施的AI治理框架要求提供可審查的證據,以證明模型不存在隱藏目標、具備抵抗失控前兆的能力以及限制災難性能力。然而,當前主要依賴的行為評估和紅隊測試等保障方法,在認識論上侷限於可觀測的模型輸出,無法驗證這些框架所預設需監管的潛在表徵或長視野智能體行為。文章將這種必需驗證與可實現驗證之間的差異形式化為「審計鴻溝」,並引入「脆弱保障」概念,描述證據結構不支持所宣稱安全主張的情況。透過對21種工具清單的分析,研究發現地緣政治和工業壓力系統性地獎勵表面行為代理而非深層結構驗證。為此,作者提出技術轉向:在法律文本中限制行為證據的權重,並透過線性探針、激活修補和訓練前後比較等機制證據類擴展自願部署前存取。