OpenAI 推出锁定模式：在大模型安全博弈中构筑数据防线

OpenAI 正式为 ChatGPT 引入"锁定模式"，旨在应对日益严峻的提示注入攻击威胁。该功能通过限制模型在特定场景下的行为自由度，显著降低敏感数据被恶意诱导泄露的风险。尽管无法彻底根除注入漏洞，但这一举措标志着 AI 安全从被动防御转向主动隔离，为企业级用户提供了更可控的数据保护机制，有望重塑市场对生成式 AI 的信任基石。

2026年6月6日，人工智能领域的领军企业 OpenAI 宣布为其核心产品 ChatGPT 推出一项名为“锁定模式”的全新安全功能。这一举措直接回应了近年来困扰行业的安全痛点——提示注入攻击。随着大语言模型在企业工作流中的深度集成，攻击者利用精心构造的自然语言指令，诱导模型绕过安全限制、泄露内部敏感信息或执行未授权操作的风险急剧上升。OpenAI 此次推出的锁定模式，并非试图从算法底层完全消除提示注入的可能性，而是通过一种更为务实的工程化手段，在模型处理高风险任务时建立一道“隔离墙”。在该模式下，ChatGPT 会严格限制其对外部输入指令的遵循程度，特别是当检测到可能涉及数据提取或权限越界的意图时，模型将优先执行预设的安全协议，而非盲目响应用户提示。这种设计思路承认了当前大模型架构在语义理解与指令遵循之间存在的固有张力，转而通过限制模型的“自由度”来换取更高的“确定性”与安全性。

从技术原理与商业逻辑的双重维度来看，锁定模式的推出具有深刻的象征意义与实际价值。提示注入攻击的本质，是利用大语言模型将“系统指令”与“用户数据”同等视为文本序列处理的特性，从而混淆两者的边界。传统的防御手段多依赖于事后的内容过滤或复杂的提示词工程，但这往往是一场猫鼠游戏，防御者永远滞后于攻击者的创意。锁定模式则代表了一种范式转移：它不再单纯依赖模型自身的判断力来识别恶意输入，而是通过改变模型的运行状态，从根本上削弱攻击面。在商业层面，这意味着 OpenAI 正在向企业客户传递一个明确信号：安全性已成为与智能程度同等重要的核心竞争力。对于金融机构、法律事务所及医疗机构等对数据隐私极度敏感的行业而言，不可控的模型行为是采纳 AI 技术的最大障碍。锁定模式通过牺牲部分灵活性与创造性，换取了数据处理过程中的可预测性与合规性，这正是 B 端市场所迫切需要的“安全溢价”。它表明 AI 供应商开始意识到，只有当模型变得“足够无聊”且“足够守规矩”时，才能真正进入核心业务场景。

这一功能的发布将对整个 AI 行业竞争格局产生深远影响。首先，它重新定义了企业级 AI 助手的安全基准。竞争对手如 Anthropic、Google 以及微软必应团队，势必需要跟进类似的功能，否则将在争取高净值企业客户时处于劣势。其次，这将加速 AI 安全工具市场的细分与成熟。随着基础模型提供商开始内置更多原生安全控件，第三方安全厂商的角色将从基础的防护转向更高级的审计、监控与合规验证。对于用户群体而言，普通消费者可能感知不强，但对于开发者与企业 IT 管理员来说，锁定模式提供了一个关键的开关，使他们能够在不同风险等级的应用场景中动态调整安全策略。例如，在处理公开信息查询时保持模型的开放性，而在处理内部文档摘要时启用锁定模式。这种细粒度的控制能力，有助于缓解企业在部署 AI 时的合规焦虑，推动生成式 AI 从边缘实验走向核心生产环境。

展望未来，锁定模式仅是 AI 安全演进长河中的一步。值得关注的后续信号包括：OpenAI 是否会开放锁定模式的 API 接口，允许开发者自定义安全阈值；以及该模式对模型性能的具体影响量化数据，即安全性提升是否以显著的推理延迟或智能下降为代价。此外，随着多模态模型的普及，提示注入的攻击载体将从纯文本扩展至图像、音频甚至视频，锁定模式能否有效覆盖这些新的攻击向量，将是检验其长期有效性的关键。行业观察者还应留意监管机构对此类自发安全措施的反馈，这可能会成为未来 AI 安全立法的重要参考案例。总体而言，OpenAI 的这一步棋，标志着大模型行业正从追求“无所不能”的狂热期，步入注重“可控可信”的成熟期，安全不再是附加选项，而是基础设施的核心组成部分。

Sources

TechCrunch AI