← 返回信息流
AI 资讯TechCrunch AI·1 小时前

OpenAI推出Lockdown Mode防御提示注入攻击

原标题:OpenAI unveils Lockdown Mode to protect sensitive data from prompt injection attacks

速览

OpenAI推出了名为Lockdown Mode的新功能,以保护敏感数据免受提示注入攻击。尽管该模式无法完全消除ChatGPT遭受提示注入攻击的漏洞,但其核心目标是显著降低敏感数据在攻击过程中被意外共享的可能性。这一举措反映了AI安全领域对数据隐私保护的持续重视。

AI 深度解读

OpenAI 推出“锁定模式”以抵御提示词注入攻击

背景

随着大型语言模型(LLM)在企业和日常应用中的普及,**提示词注入(Prompt Injection)**已成为一种日益严峻的安全威胁。这种攻击手法通常涉及将恶意的聊天机器人指令隐藏在网络页面、文档或其他内容来源中。当用户或系统访问这些被污染的内容时,隐藏的指令会被模型读取并执行,可能导致数据泄露、行为篡改或生成不准确的结果。

为了应对这一挑战,OpenAI 宣布推出了一项名为“锁定模式(Lockdown Mode)”的新功能,旨在为处理敏感数据的用户提供额外的保护层,防止因提示词注入导致的数据外泄风险。

核心内容

OpenAI 此次发布的“锁定模式”是一项专门针对安全场景的功能,其核心逻辑是通过限制模型与外部环境的交互能力,来切断提示词注入的主要攻击路径。

具体而言,当启用“锁定模式”后,ChatGPT 将禁用以下功能:

  • 实时网络浏览:用户将无法访问实时网页,只能获取缓存的内容。
  • 网页图像检索与展示:模型将从网络上检索和显示图像的功能被移除(注:用户仍可使用模型生成图像,只是不能从网页抓取)。
  • 深度研究(Deep Research):该高级分析功能将被禁用。
  • 智能体模式(Agent Mode):允许模型自主执行多步任务或调用工具的模式将被关闭。

OpenAI 在声明中明确指出,“锁定模式”并非旨在提供绝对的安全保障。即使开启了该模式,ChatGPT 仍然可能受到提示词注入的影响。例如,恶意指令可能潜伏在缓存的网页内容或用户上传的文件中,并继续影响模型的响应行为或准确性。

因此,该功能的主要目标并非完全消除注入攻击,而是通过限制模型的网络访问和工具调用能力,显著降低敏感数据在交互过程中被意外共享或外泄的可能性。

OpenAI 强调,该功能“并非面向所有用户”,而是专门为那些处理敏感数据、且希望获得更严格保护以规避提示词注入相关数据外泄风险的个人和组织设计。目前,OpenAI 正在向自助服务的 ChatGPT Business 账户以及符合条件的个人账户逐步推送此功能。

关键要点

  • 防御目标明确:主要应对提示词注入攻击,特别是防止恶意指令隐藏在网络内容中诱导模型泄露敏感数据。
  • 功能限制严格:启用后,实时浏览、网络图片检索、深度研究和智能体模式均被禁用,仅保留基础对话和图像生成能力。
  • 非绝对安全:官方承认,即使开启锁定模式,模型仍可能受缓存内容或上传文件中的注入指令影响,无法保证 100% 免疫。
  • 适用人群特定:定位为高风险场景下的增强防护工具,适用于处理敏感数据的企业和个人,而非普通用户的默认配置。
  • 当前部署范围:目前仅向 ChatGPT Business 账户及符合条件的个人账户开放,处于逐步推广阶段。

意义与影响

OpenAI 推出“锁定模式”标志着 AI 安全策略从“被动防御”向“主动隔离”的转变。在提示词注入攻击手段不断演变的背景下,单纯依靠模型内部的指令遵循能力已难以完全抵御外部环境的污染。通过强制切断模型与实时互联网的连接,OpenAI 实际上是在构建一个“沙盒环境”,从根本上减少了攻击面。

这一举措对企业和开发者具有深远影响。对于需要集成 ChatGPT 处理机密文档、客户数据或内部代码的组织而言,“锁定模式”提供了一个合规且安全的交互选项。它允许企业在享受 LLM 推理能力的同时,最大限度地降低数据泄露风险。

然而,这也反映了当前 AI 安全领域的局限性:没有一种单一的技术方案能彻底解决提示词注入问题。OpenAI 的坦诚声明——即锁定模式并非万能——提醒用户,安全是一个多层级的体系。除了使用平台提供的安全功能外,组织仍需结合数据分类、访问控制以及人工审核等多重措施,才能构建真正稳健的 AI 应用生态。

查看原文 →techcrunch.com