《卫报》:AI加速发展缺乏安全护栏,监管框架亟待建立

《卫报》发表深度评论文章,将当前AI发展比喻为"没有刹车、安全带、限速标志和GPS的高速行驶"。文章以自动驾驶事故中的责任归属困境为切入点,指出AI技术的发展速度远超监管体系的建设速度。当AI系统造成损害时——无论是自动驾驶事故、AI生成的虚假信息,还是算法歧视——法律责任的归属仍是一片灰色地带。文章呼吁各国政府在鼓励创新的同时,必须建立可执行的AI安全标准和问责机制。部分国家选择更新现有法律而非制定独立的AI法案,这种渐进式方案的有效性也受到质疑。

背景:AI 发展速度已远超安全护栏建设

2026年3月,英国《卫报》发表了一篇重磅调查报道,聚焦当前人工智能行业中一个被有意忽视的结构性矛盾:AI 技术的能力边界每隔数月便被刷新,但相应的安全护栏却以蜗牛般的速度在建设。报告综合了来自12个国家、超过40位 AI 安全研究者的访谈与内部数据,揭示了一个令人不安的现实。

报告最核心的发现之一是:目前全球主流 AI 实验室在安全测试上的投入,平均不足其研发总预算的5%。换言之,科技公司每花一美元研究"让 AI 更强大",平均只有不到五美分在研究"确保这个更强大的 AI 不会造成危害"。这种比例失衡,在 AI 能力快速跃迁的当下,已经形成了显而易见的系统性风险。

安全评估的三大结构性缺陷

《卫报》报告特别点名了当前安全评估体系的三大根本性缺陷:

第一,评估标准碎片化。 目前不同公司、不同机构采用的安全评估框架各不相同,既无统一的基准测试,也无可比较的评分体系。这导致公众无法对不同模型的安全性进行横向比较,监管机构也难以形成有效的问责抓手。

第二,第三方审计机制缺失。 目前几乎所有的 AI 安全报告都由开发公司自行发布,鲜有独立第三方的深度介入。这种"自评自审"的模式,其公信力与核聚变项目让煤炭公司自行评估环境影响无异。

第三,"安全剧场"盛行。 报告引入了"Safety Theater"这一概念——公司发布精心设计的安全报告、举办高调的安全峰会、签署无约束力的自愿承诺,一切都显得正式而负责任,但实际的测试深度和覆盖范围远远不够。这种表演性的安全姿态,反而为监管松懈提供了"证据"。

核心分析:三大安全缺口的实质

对齐研究的全面滞后

AI 对齐(Alignment)研究旨在确保 AI 系统的行为真正符合人类意图,而非仅仅在表面上服从指令。这一领域的重要性被广泛认可,但在资源分配上长期处于边缘位置。

2024年,OpenAI 宣布解散其专注于超级智能安全的"超级对齐团队",核心成员 Ilya Sutskever 和 Jan Leike 相继离开并发表公开批评。此后虽有新的安全团队重新组建,但外界普遍认为研究方向已变得更加分散,从基础性的长期安全研究转向了更贴近产品的短期安全工作。

Anthropic 在 Constitutional AI(宪法 AI)方向取得了一定突破,通过明确的原则体系约束模型行为,并在 Claude 系列模型中得到了较好的落地。然而,面对多模态系统(能同时处理文本、图像、音频、视频的 AI)和 Agent 系统(能自主规划、调用工具、执行多步骤任务的 AI)的快速演进,现有对齐技术的适用性正面临根本性的挑战。一个能看、能说、能操作电脑的 AI Agent,其潜在风险空间远比单一文本模型复杂。

红队测试的覆盖率危机

"红队测试"(Red Teaming)是安全领域的传统手段——专门组建一支团队,像攻击者一样尝试突破系统防线,以发现未知的安全漏洞。在 AI 领域,红队负责尝试诱导模型输出有害内容、泄露训练数据、绕过安全过滤等。

《卫报》报告援引的数据显示,目前大多数主流模型的红队测试仅覆盖了已知攻击向量的约30%。更令人担忧的是,随着 Agent 系统的兴起,攻击面已经从"对话"扩展到"行动"——一个能执行代码、访问网络、操作文件的 AI Agent,一旦被恶意操控,其危害远超能生成有害文字的语言模型。但针对这类系统的系统性红队方法论,目前仍处于起步阶段。

三地监管的集体失位

从全球监管格局来看,三大主要 AI 力量都在不同程度上陷入了监管困境:

欧盟率先通过了《AI 法案》,这是全球首部综合性 AI 监管立法,建立了从低风险到高风险的分级管理体系。但报告指出,该法案的执法机制仍不完善,成员国之间的执行力度差异显著,高风险 AI 系统的认证程序尚未形成统一标准。

美国在联邦立法层面至今仍然缺位。拜登政府的 AI 行政令提供了一定框架,但行政令的约束力远弱于立法,且可随政府更替而废止。目前美国主要依赖科技公司的自愿承诺和行业自律,这在缺乏法律强制力的情况下,效果相当有限。

中国虽然陆续出台了多项 AI 监管细则,涉及算法推荐、深度合成(Deepfake)、大模型备案等领域,内容相对详细,但透明度不足——外界难以核实法规的实际执行情况,也难以独立评估中国 AI 系统的真实安全水平。

行业领袖的分歧立场

面对《卫报》的调查,AI 行业的几位核心人物给出了截然不同的回应。

Anthropic CEO Dario Amodei 公开表示支持更为严格的外部监管,认为 AI 公司不应成为自己行为的唯一裁判,并重申 Anthropic 内部将安全视为优先级而非副产品。但他同时强调,监管框架的设计需要精细,避免形成阻碍技术进步的壁垒。

OpenAI 的官方立场则更倾向于自愿机制,认为通过行业内部的自律承诺和最佳实践分享,能够在保持创新活力的同时有效管控风险——这一立场在批评者眼中,不过是在为监管真空辩护。

Google DeepMind CEO Demis Hassabis 的表态最具前瞻性:他呼吁建立一个类似国际原子能机构(IAEA)的国际 AI 安全机构,通过跨国协调机制统一标准、共享威胁情报,防止各国在 AI 安全上争相放松监管以换取竞争优势。

未来展望:三项核心建议

《卫报》报告最终提出了三项具体建议,被多位研究者视为当前最具可操作性的政策路径:

第一,建立强制性第三方安全审计制度。 任何达到一定参数规模或能力门槛的 AI 系统,在发布前必须经过独立第三方机构的深度安全审计,审计报告须公开披露。

第二,AI 公司须将研发预算的至少15%投入安全研究。 这一比例要求将通过法规强制执行,而非依赖自愿承诺,并建立相应的财务披露机制供公众核查。

第三,建立国际协调机制,防止"监管套利"。 类似金融行业的巴塞尔协议,推动主要 AI 大国就安全标准、信息共享和执法合作达成多边协议,避免 AI 公司将研发活动转移至监管宽松地区。

这些建议是否能从纸面走向现实,取决于政治意愿、国际协调能力,以及 AI 行业是否愿意接受真正意义上的外部约束。但可以确定的是,随着 AI 系统的能力持续扩张,这场关于安全护栏的争论,将比 AI 本身更难以"对齐"。