什么是AI治理中的“审计鸿沟”？

指治理框架要求的深层验证（如检测隐藏目标、内部表征）与当前仅能观测模型外部输出的行为评估技术之间存在的结构性脱节。

为什么行为评估无法真正保障AI安全？

行为评估和红队测试仅能捕捉表面输出，无法穿透黑盒验证潜在表征或长程任务中的安全机制，易导致虚假安全感并掩盖深层隐患。

未来AI安全验证应转向什么方向？

建议限制法律文本中行为证据的权重，转向线性探针、激活修补等机制可解释性技术，通过机制证据构建更坚实的安全保障。

AI治理的致命盲区：为何行为评估无法填补"审计鸿沟"？

本文深入剖析了当前人工智能治理框架与安全保障方法论之间的结构性错位。尽管2019年至2026年间实施的AI治理框架要求提供可审查证据以证明模型无隐藏目标且具备抗失控能力，但主流依赖的行为评估和红队测试仅能观测模型输出，无法触及潜在表征或长视野智能体行为。文章将这种必需验证与可实现验证的差异定义为"审计鸿沟"，并指出地缘政治与工业压力正系统性奖励表面行为代理。为此，作者呼吁法律文本限制行为证据权重，转向线性探针、激活修补等机制可解释性技术，以构建真正坚实的安全保障体系。

本研究直面当前人工智能安全治理领域的一个核心悖论：日益严苛的监管要求与现有验证技术能力之间的根本性脱节。随着2019年至2026年初期间一系列AI治理框架的颁布，监管方对AI系统的安全性提出了极高且具体的要求，包括证明模型内部不存在隐藏的优化目标、具备抵抗潜在失控前兆的韧性，以及将灾难性能力严格限制在边界之内。然而，现有的安全保障方法论，尤其是主流的行为评估和红队测试，本质上只能观察模型的外部输出行为。这种基于行为层面的验证手段，在认识论上存在先天局限，无法穿透黑盒去验证模型内部的潜在表征或长视野智能体行为。因此，本文的核心贡献在于揭示了这一"审计鸿沟"，即治理框架所要求的验证深度与当前技术所能提供的验证访问权限之间的巨大落差，并指出在缺乏深层结构证据的情况下，所谓的"安全保障"往往是一种脆弱的、无法支撑严肃安全主张的表象。这种错位不仅削弱了监管的有效性，也可能给开发者和社会带来虚假的安全感，使得真正深层的安全隐患被表面良好的行为指标所掩盖，从而阻碍了AI系统向更高安全标准迈进的步伐。在技术方法论层面，文章并未提出新的算法模型，而是通过概念形式化和制度分析来重构我们对AI保障的理解。作者首先将"审计鸿沟"定义为必需验证属性与可实现验证访问之间的结构性不匹配，并引入"脆弱保障"这一新概念，用以描述那些证据结构在逻辑上无法支撑所宣称安全主张的情形。为了实证这一现象，研究团队构建并分析了一个包含21种工具的仪器清单，这些工具代表了当前业界和学界主流的安全评估手段。分析结果显示，这些工具大多聚焦于输入输出对的行为映射，缺乏对模型内部机制的直接观测能力。此外，文章深入探讨了驱动这种技术局限性的外部激励梯度。研究发现，在地缘政治竞争和工业界快速部署压力的双重作用下，市场和社会系统性地奖励那些易于量化、表面合规的行为代理指标，而忽视需要高昂成本且技术难度极大的深层结构验证。这种激励错位导致开发者倾向于优化行为表现以通过审查，而非真正改善模型的内在安全性。文章进一步指出，当前的红队测试往往只能发现特定的对抗样本，无法保证模型在未见过的长程任务或复杂交互中保持安全，这种基于采样的行为验证无法提供确定性的安全保证。实验与分析部分主要基于对现有21种安全评估工具的全面盘点和分类，而非传统的机器学习基准测试。研究团队将这些工具按照其验证深度进行了分类，发现绝大多数工具仅能提供行为层面的间接证据。关键结果揭示了一个显著的趋势：随着治理框架对安全要求的提高，现有工具集在覆盖这些新要求时存在巨大的空白。例如，对于"隐藏目标"的检测，现有工具往往依赖于对输出内容的语义分析，而无法检测模型内部是否形成了与人类意图相悖的潜在表征。消融分析式的讨论表明，如果仅依赖行为证据，即使模型在标准基准测试中表现完美，其在实际部署中仍可能因潜在的机制缺陷而表现出不可预测的危险行为。此外，研究还发现，当前的评估流程缺乏对"训练前后"机制变化的对比，导致无法追踪模型在微调过程中是否引入了新的安全风险。这些发现共同指向一个结论：现有的评估体系在应对复杂、长程和深层的安全挑战时，其有效性和可靠性存在根本性的缺陷，必须引入新的验证范式。从行业意义与潜在影响来看，本文提出的观点对AI治理、法律合规和技术研发具有深远的指导意义。首先，文章建议在法律文本中明确限制行为证据的权重，这意味着未来的AI安全法规不应仅凭模型在基准测试中的高分就认定其安全，而应要求提供更深层次的机制证据。这一转向将迫使监管机构重新定义"安全"的法律标准，推动从"结果导向"向"过程与结构导向"的监管范式转变。其次，文章提出的技术转向方案，即扩展自愿部署前的访问权限，引入线性探针、激活修补和训练前后比较等机制证据类方法，为开源社区和工业界提供了具体的技术路径。线性探针可以解码潜在表征，激活修补可以定位关键神经元，而训练前后比较则能监控机制漂移。这些技术虽然目前仍处于研究阶段，但若能集成到标准的评估流程中，将极大提升安全验证的可信度。最后，这一立场论文呼吁学术界和工业界正视"审计鸿沟"问题，避免陷入表面合规的陷阱。通过推动机制可解释性与安全验证的结合，有望构建更加鲁棒、透明且可信赖的AI系统，为AI技术的长期可持续发展奠定坚实的安全基础，同时也为后续关于AI内在机制研究提供了重要的理论框架和实践方向。

Sources

arXiv