AI 资讯Hacker News·1 小时前3 源报道

美国政府下令暂停访问Fable 5和Mythos 5

原标题：US Government directive to suspend access to Fable 5 and Mythos 5

速览

美国政府发布了一项新指令，要求立即暂停对Fable 5和Mythos 5的访问。这一举措旨在应对潜在的安全风险或合规问题。目前尚不清楚这两个平台的具体性质及其受影响的用户范围。此举可能引发科技行业对数据安全和政府监管的进一步关注。

AI 深度解读

美国政府对 Anthropic 下达指令：暂停 Fable 5 和 Mythos 5 访问权限

背景

Anthropic 是一家致力于开发安全、可信赖人工智能系统的科技公司，其核心产品包括 Claude 系列大语言模型。近期，Anthropic 发布了新一代模型 Fable 5（及其相关技术架构 Mythos 5），旨在通过“纵深防御”策略提升模型在网络安全领域的应用安全性，防止被滥用于网络攻击或漏洞挖掘。

然而，就在模型发布后不久，美国政府在未提供具体细节的情况下，援引国家安全权威，向 Anthropic 下达了出口管制指令。该指令要求立即暂停所有外国国民（无论身处美国境内还是境外，包括 Anthropic 的外国籍员工）对 Fable 5 和 Mythos 5 的访问权限。这一突发状况导致 Anthropic 必须紧急切断所有客户对这两款特定模型的服务访问，引发了科技界和 AI 安全社区的广泛关注。

核心内容

1. 政府指令与紧急响应

美国政府在当地时间下午 5:21（ET）向 Anthropic 发送了正式指令，理由涉及国家安全。指令的核心内容是禁止任何外国国民访问 Fable 5 和 Mythos 5。由于 Anthropic 必须确保合规，其净效应是必须突然禁用所有客户对 Fable 5 和 Mythos 5 的访问。值得注意的是，Anthropic 声明，其他 Anthropic 模型（如 Claude 系列的其他版本）的访问不受影响。

2. 政府的担忧与 Anthropic 的反驳

Anthropic 指出，政府信函中并未提供具体的国家安全关切细节。Anthropic 的理解是，政府认为他们发现了一种绕过（即“越狱”/ jailbreaking）Fable 5 的方法。

针对这一指控，Anthropic 进行了详细的技术复盘和反驳：

漏洞性质轻微：Anthropic 审查了政府提供的演示，发现该技术仅能识别少量此前已知的、轻微的漏洞。这些漏洞相对简单，且 Anthropic 发现其他公开可用的模型（无需任何绕过技术）也能发现同样的漏洞。
能力并非独有：Anthropic 强调，政府所关注的潜在越狱方法，其展示的能力水平在其他模型（包括 OpenAI 的 GPT-5.5）中广泛存在，并且是安全防御人员日常使用的正常技能。
无实质性危害：迄今为止，Anthropic 未收到任何导致有害结果的非通用潜在越狱披露。已披露的潜在越狱要么是完全无害的响应，要么是没有针对 Mythos 特定架构提升能力的微小发现。

3. Fable 5 的安全架构与防御策略

Anthropic 回顾了 Fable 5 发布时的安全立场，强调其采取了“纵深防御”（defense in depth）策略：

强大的初始护栏：Fable 5 实施了严格的护栏措施，大幅降低了被滥用于网络安全任务的可能性。事实上，护栏之强甚至导致许多用户抱怨其过于宽泛。
广泛的红队测试：在发布前的数周，Anthropic 与美国政府、英国 AISI、多个私营第三方组织及内部团队进行了数千小时的联合红队测试。
优于行业水平：测试显示，Fable 5 的护栏效果显著优于此前部署的任何模型。
无通用越狱：目前尚无测试人员能找到一种能广泛绕过护栏、解锁广泛网络能力的“通用越狱”方法。
接受不完美，追求成本高昂：Anthropic 承认，目前没有任何模型提供商能做到完美的越狱抵抗。行业内的所有护栏都容易受到非通用越狱的影响（即在特定情况下泄露某些网络信息）。因此，Anthropic 的目标是让越狱变得狭窄（针对非通用越狱）或生产成本极高（针对通用越狱），并结合全面监控以快速检测和关闭攻击。
数据保留政策：为此，Anthropic 实施了要求客户保留 30 天数据的政策，尽管这带来了真实的成本，但有助于研究和缓解越狱问题。

4. Anthropic 的立场与未来展望

合规但异议：Anthropic 表示正在遵守政府的法律指令，移除所有用户对 Fable 5 和 Mythos 5 的访问，但坚决不同意“发现一个狭窄的潜在越狱就应召回部署给数亿人的商业模型”这一逻辑。
行业影响担忧：Anthropic 警告，如果这一标准被应用到整个行业，实际上将阻止所有前沿模型提供商部署新模型。
呼吁透明与公正：Anthropic 重申，政府应拥有阻止不安全部署的能力，但必须通过透明、公平、清晰且基于技术事实的法定程序进行。他们认为当前的行动不符合这些原则。
道歉与恢复努力：Anthropic 对造成的中断表示歉意，认为这是一次误解，并正致力于尽快恢复访问权限。

关键要点

指令范围：美国政府援引国家安全理由，禁止所有外国国民（含 Anthropic 外籍员工）访问 Fable 5 和 Mythos 5，导致 Anthropic 紧急切断相关服务。
争议焦点：政府担忧存在 Fable 5 的“越狱”漏洞；Anthropic 辩称该漏洞仅涉及已知且轻微的弱点，且其他模型（如 GPT-5.5）同样具备此能力，并非 Fable 特有风险。
安全策略验证：Anthropic 强调其“纵深防御”策略有效，Fable 5 的护栏经过数千小时红队测试，效果优于行业平均水平，且未发现能广泛解锁网络能力的“通用越狱”。
技术事实澄清：政府目前仅掌握口头证据，指向一种要求模型阅读代码库并修复软件缺陷的狭窄、非通用越狱方法。Anthropic 认为这属于防御性安全工作的常规范畴。
行业警示：Anthropic 指出，若因发现狭窄潜在漏洞就召回大规模部署的模型，将导致前沿 AI 模型的部署陷入停滞，阻碍技术创新。
程序正义诉求：Anthropic 呼吁政府建立透明、基于技术事实的监管流程，认为当前缺乏具体细节的行政指令不符合这一标准。
后续行动：Anthropic 承诺在 24 小时内提供更多细节，并正在努力解决误解以恢复服务。

意义与影响

此次事件标志着 AI 监管进入了一个新的、更具不确定性的阶段。首先，它揭示了国家安全理由在 AI 出口管制中的广泛适用性。美国政府无需提供详尽的技术证据即可暂停特定模型访问，这为监管机构提供了极大的自由裁量权，同时也给 AI 企业带来了巨大的合规风险。

其次，事件凸显了AI 安全评估标准的主观性与争议性。Anthropic 与政府在“什么是可接受的风险”上存在根本分歧。Anthropic 认为其模型的安全护栏已远超行业平均水平，且潜在漏洞不具备独特危害性；而政府则倾向于采取预防性原则，即使漏洞微小且普遍存在，也需立即遏制。这种分歧若无法通过透明的技术对话解决，可能导致监管与技术创新之间的脱节。

最后，这一指令对全球 AI 部署生态产生了寒蝉效应。Anthropic 的警告——即此类标准可能“实质上阻止所有新模型部署”——并非危言耸听。如果前沿模型提供商面临因微小技术瑕疵而被全面禁用的风险，它们可能会推迟发布、减少功能或转向更封闭的本地部署模式，从而减缓 AI 技术的普及和应用创新。

对于 Anthropic 而言，这是一次严峻的公关和技术挑战。他们需要在遵守法律指令的同时，向客户和公众证明其安全策略的有效性，并争取恢复信任。对于整个行业，这提醒企业必须更加重视与监管机构的早期沟通，建立更透明的安全审计机制，以应对日益复杂的国家安全审查。

查看原文 →anthropic.com