← 返回信息流
AI 资讯Hacker News·1 小时前3 源报道

美国政府下令暂停访问Fable 5和Mythos 5

原标题:US Government directive to suspend access to Fable 5 and Mythos 5

速览

美国政府发布了一项新指令,要求立即暂停对Fable 5和Mythos 5的访问。这一举措旨在应对潜在的安全风险或合规问题。目前尚不清楚这两个平台的具体性质及其受影响的用户范围。此举可能引发科技行业对数据安全和政府监管的进一步关注。

AI 深度解读

美国政府对 Anthropic 下达指令:暂停 Fable 5 和 Mythos 5 访问权限

背景

Anthropic 是一家致力于开发安全、可信赖人工智能系统的科技公司,其核心产品包括 Claude 系列大语言模型。近期,Anthropic 发布了新一代模型 Fable 5(及其相关技术架构 Mythos 5),旨在通过“纵深防御”策略提升模型在网络安全领域的应用安全性,防止被滥用于网络攻击或漏洞挖掘。

然而,就在模型发布后不久,美国政府在未提供具体细节的情况下,援引国家安全权威,向 Anthropic 下达了出口管制指令。该指令要求立即暂停所有外国国民(无论身处美国境内还是境外,包括 Anthropic 的外国籍员工)对 Fable 5 和 Mythos 5 的访问权限。这一突发状况导致 Anthropic 必须紧急切断所有客户对这两款特定模型的服务访问,引发了科技界和 AI 安全社区的广泛关注。

核心内容

1. 政府指令与紧急响应

美国政府在当地时间下午 5:21(ET)向 Anthropic 发送了正式指令,理由涉及国家安全。指令的核心内容是禁止任何外国国民访问 Fable 5 和 Mythos 5。由于 Anthropic 必须确保合规,其净效应是必须突然禁用所有客户对 Fable 5 和 Mythos 5 的访问。值得注意的是,Anthropic 声明,其他 Anthropic 模型(如 Claude 系列的其他版本)的访问不受影响。

2. 政府的担忧与 Anthropic 的反驳

Anthropic 指出,政府信函中并未提供具体的国家安全关切细节。Anthropic 的理解是,政府认为他们发现了一种绕过(即“越狱”/ jailbreaking)Fable 5 的方法。

针对这一指控,Anthropic 进行了详细的技术复盘和反驳:

  • 漏洞性质轻微:Anthropic 审查了政府提供的演示,发现该技术仅能识别少量此前已知的、轻微的漏洞。这些漏洞相对简单,且 Anthropic 发现其他公开可用的模型(无需任何绕过技术)也能发现同样的漏洞。
  • 能力并非独有:Anthropic 强调,政府所关注的潜在越狱方法,其展示的能力水平在其他模型(包括 OpenAI 的 GPT-5.5)中广泛存在,并且是安全防御人员日常使用的正常技能。
  • 无实质性危害:迄今为止,Anthropic 未收到任何导致有害结果的非通用潜在越狱披露。已披露的潜在越狱要么是完全无害的响应,要么是没有针对 Mythos 特定架构提升能力的微小发现。

3. Fable 5 的安全架构与防御策略

Anthropic 回顾了 Fable 5 发布时的安全立场,强调其采取了“纵深防御”(defense in depth)策略:

  • 强大的初始护栏:Fable 5 实施了严格的护栏措施,大幅降低了被滥用于网络安全任务的可能性。事实上,护栏之强甚至导致许多用户抱怨其过于宽泛。
  • 广泛的红队测试:在发布前的数周,Anthropic 与美国政府、英国 AISI、多个私营第三方组织及内部团队进行了数千小时的联合红队测试。
  • 优于行业水平:测试显示,Fable 5 的护栏效果显著优于此前部署的任何模型。
  • 无通用越狱:目前尚无测试人员能找到一种能广泛绕过护栏、解锁广泛网络能力的“通用越狱”方法。
  • 接受不完美,追求成本高昂:Anthropic 承认,目前没有任何模型提供商能做到完美的越狱抵抗。行业内的所有护栏都容易受到非通用越狱的影响(即在特定情况下泄露某些网络信息)。因此,Anthropic 的目标是让越狱变得狭窄(针对非通用越狱)或生产成本极高(针对通用越狱),并结合全面监控以快速检测和关闭攻击。
  • 数据保留政策:为此,Anthropic 实施了要求客户保留 30 天数据的政策,尽管这带来了真实的成本,但有助于研究和缓解越狱问题。

4. Anthropic 的立场与未来展望

  • 合规但异议:Anthropic 表示正在遵守政府的法律指令,移除所有用户对 Fable 5 和 Mythos 5 的访问,但坚决不同意“发现一个狭窄的潜在越狱就应召回部署给数亿人的商业模型”这一逻辑。
  • 行业影响担忧:Anthropic 警告,如果这一标准被应用到整个行业,实际上将阻止所有前沿模型提供商部署新模型。
  • 呼吁透明与公正:Anthropic 重申,政府应拥有阻止不安全部署的能力,但必须通过透明、公平、清晰且基于技术事实的法定程序进行。他们认为当前的行动不符合这些原则。
  • 道歉与恢复努力:Anthropic 对造成的中断表示歉意,认为这是一次误解,并正致力于尽快恢复访问权限。

关键要点

  • 指令范围:美国政府援引国家安全理由,禁止所有外国国民(含 Anthropic 外籍员工)访问 Fable 5 和 Mythos 5,导致 Anthropic 紧急切断相关服务。
  • 争议焦点:政府担忧存在 Fable 5 的“越狱”漏洞;Anthropic 辩称该漏洞仅涉及已知且轻微的弱点,且其他模型(如 GPT-5.5)同样具备此能力,并非 Fable 特有风险。
  • 安全策略验证:Anthropic 强调其“纵深防御”策略有效,Fable 5 的护栏经过数千小时红队测试,效果优于行业平均水平,且未发现能广泛解锁网络能力的“通用越狱”。
  • 技术事实澄清:政府目前仅掌握口头证据,指向一种要求模型阅读代码库并修复软件缺陷的狭窄、非通用越狱方法。Anthropic 认为这属于防御性安全工作的常规范畴。
  • 行业警示:Anthropic 指出,若因发现狭窄潜在漏洞就召回大规模部署的模型,将导致前沿 AI 模型的部署陷入停滞,阻碍技术创新。
  • 程序正义诉求:Anthropic 呼吁政府建立透明、基于技术事实的监管流程,认为当前缺乏具体细节的行政指令不符合这一标准。
  • 后续行动:Anthropic 承诺在 24 小时内提供更多细节,并正在努力解决误解以恢复服务。

意义与影响

此次事件标志着 AI 监管进入了一个新的、更具不确定性的阶段。首先,它揭示了国家安全理由在 AI 出口管制中的广泛适用性。美国政府无需提供详尽的技术证据即可暂停特定模型访问,这为监管机构提供了极大的自由裁量权,同时也给 AI 企业带来了巨大的合规风险。

其次,事件凸显了AI 安全评估标准的主观性与争议性。Anthropic 与政府在“什么是可接受的风险”上存在根本分歧。Anthropic 认为其模型的安全护栏已远超行业平均水平,且潜在漏洞不具备独特危害性;而政府则倾向于采取预防性原则,即使漏洞微小且普遍存在,也需立即遏制。这种分歧若无法通过透明的技术对话解决,可能导致监管与技术创新之间的脱节。

最后,这一指令对全球 AI 部署生态产生了寒蝉效应。Anthropic 的警告——即此类标准可能“实质上阻止所有新模型部署”——并非危言耸听。如果前沿模型提供商面临因微小技术瑕疵而被全面禁用的风险,它们可能会推迟发布、减少功能或转向更封闭的本地部署模式,从而减缓 AI 技术的普及和应用创新。

对于 Anthropic 而言,这是一次严峻的公关和技术挑战。他们需要在遵守法律指令的同时,向客户和公众证明其安全策略的有效性,并争取恢复信任。对于整个行业,这提醒企业必须更加重视与监管机构的早期沟通,建立更透明的安全审计机制,以应对日益复杂的国家安全审查。

查看原文 →anthropic.com