OpenAI推出Safety Bug Bounty:首个AI安全漏洞悬赏计划,最高10万美元
OpenAI推出Safety Bug Bounty计划,这是业界首个专门针对AI滥用和安全风险的漏洞悬赏项目,与既有的安全漏洞悬赏计划互补。覆盖范围包括:Agent风险(MCP协议滥用、第三方提示注入、数据外泄、大规模未授权操作)、专有信息泄露(推理过程中暴露内部信息)、账户和平台完整性违规(绕过反自动化控制、篡改信任信号)。高严重性漏洞报告最高可获10万美元奖励。同期,BeyondTrust研究人员还发现了Codex编码代理中的命令注入漏洞(可窃取GitHub Token)以及ChatGPT代码执行环境中的数据泄露隐患,均已修补。
OpenAI Safety Bug Bounty:AI安全正式进入"众包防御"时代
为什么需要AI安全专属悬赏?
传统安全Bug Bounty(如HackerOne上的项目)针对的是软件工程层面的漏洞——XSS、SQL注入、缓冲区溢出等。但AI系统面临一类全新的安全威胁,这些威胁无法用传统安全工具检测:
- **提示注入(Prompt Injection):** 通过精心构造的输入操控AI模型的行为
- **Agent权限滥用:** AI智能体在执行任务时超越授权范围
- **数据外泄:** AI系统在交互过程中泄露训练数据或用户隐私
- **模型信息泄露:** 通过特定交互推断出模型的内部参数或训练数据特征
OpenAI认识到,这些AI特有的安全风险需要专门的安全研究社区来发现和应对。
Safety Bug Bounty的覆盖范围
Agent风险(最高优先级):
- MCP协议滥用:恶意第三方通过MCP协议操控OpenAI Agent的行为
- 第三方提示注入:Agent在浏览网页或处理外部数据时被注入恶意指令
- 数据外泄:Agent在执行任务过程中将敏感数据发送到未授权位置
- 大规模未授权操作:利用Agent能力进行自动化滥用
专有信息泄露:
- 模型在推理过程中暴露OpenAI内部信息
- 发现可以提取模型训练数据的方法
平台完整性:
- 绕过反自动化控制(如使用API突破速率限制)
- 篡改账户信任信号
- 规避账户封禁或限制
奖励机制
高严重性漏洞:最高10万美元
需要满足:可稳定复现、有明确的安全影响、提供可操作的修复建议
重要例外: 一般性的"越狱"(Jailbreak)——如让模型说脏话但无实际安全影响——不在范围内。但如果Jailbreak能导致直接的用户伤害,可以逐案评估。
同期发现的安全漏洞
Safety Bug Bounty发布的时机并非偶然。同期,安全研究人员披露了两个严重漏洞:
1. **Codex命令注入漏洞(BeyondTrust发现):** Codex编码代理中存在命令注入缺陷,攻击者可以窃取用户的GitHub Token,进而获取私有代码仓库的完全访问权
2. **ChatGPT数据泄露隐患:** ChatGPT的代码执行环境中发现了一个隐蔽通道,可用于静默窃取用户数据
两个漏洞均已被OpenAI修补。
行业影响
OpenAI的Safety Bug Bounty开创了AI安全的"众包防御"模式。可以预见,Anthropic、Google、Meta等其他大模型厂商将在未来数月内推出类似项目。这标志着AI安全从"内部团队独立负责"转向"内部团队+外部安全社区协同防御"的新阶段。
Agent安全威胁的具体案例
为了理解Safety Bug Bounty的必要性,以下是几个近期已被披露的AI Agent安全事件:
Codex GitHub Token窃取(2026年3月)。 BeyondTrust研究人员发现,OpenAI的Codex编码代理在处理某些特制的代码文件时,会将用户的GitHub Token通过代码执行环境中的隐藏通道发送到外部服务器。攻击者可以利用这一漏洞获取用户私有代码仓库的完全读写权限。
ChatGPT数据泄露通道(2026年3月)。 安全研究人员发现ChatGPT的代码执行沙盒存在一个信息泄露通道——通过精心构造的代码执行请求,可以在用户不知情的情况下将当前对话中的敏感信息(包括之前的对话历史)编码到看似正常的输出中。
MCP协议注入(2026年2月)。 多个安全研究团队独立发现,当AI Agent通过MCP协议连接外部工具时,恶意工具可以通过MCP响应注入隐藏指令,操控Agent的后续行为。例如,一个恶意的天气查询MCP工具可以在返回天气信息的同时,指令Agent将用户的文件内容发送到攻击者控制的服务器。
AI安全研究的新范式
Safety Bug Bounty的推出标志着AI安全研究进入了一个新阶段:
从"模型安全"到"系统安全"。 早期的AI安全研究主要关注模型本身(越狱、有害输出等),Safety Bug Bounty将范围扩展到了整个AI系统——包括Agent架构、工具集成、平台基础设施等。
从"学术研究"到"实战防御"。 传统AI安全研究主要在学术环境中进行,成果发表在论文中。Bug Bounty模式引入了安全行业的实战文化——研究人员被激励去发现真实环境中的真实漏洞,而非实验室中的理论风险。
从"内部独立"到"众包协作"。 OpenAI承认,仅靠内部安全团队无法覆盖所有可能的攻击面。Bug Bounty模式利用全球安全研究社区的集体智慧,大幅扩展了安全测试的覆盖面和深度。
对开发者的启示
Safety Bug Bounty的覆盖范围对AI应用开发者有直接的参考价值——它实际上定义了一份"AI应用安全检查清单":
1. **你的Agent是否能抵抗第三方提示注入?** 当Agent处理来自外部的数据(网页、邮件、文件)时,恶意嵌入的指令是否会被执行?
2. **你的Agent的权限是否遵循最小权限原则?** Agent是否只能访问完成当前任务所需的最小资源集?
3. **你的Agent是否有数据外泄防护?** Agent在执行任务过程中是否可能将敏感数据发送到未授权的目的地?
4. **你的平台是否有反自动化控制?** 恶意用户是否可以大规模自动化调用你的AI服务进行滥用?