Anthropic安全警告或适得其反,政府叫停其最强AI
速览
Anthropic因政府以潜在安全漏洞为由叫停其最强AI模型而公开表达不满。该公司在博客中反驳称,不应因发现狭窄的潜在越狱风险就召回已部署给数亿用户的商业模型。这一事件凸显了AI安全警告与企业商业利益之间的紧张关系。
AI 深度解读
Anthropic 的安全警告可能适得其反:政府因国家安全担忧切断其最强 AI 访问
背景
周五,美国政府以国家安全为由,命令 Anthropic 立即关闭其两款最强大 AI 模型——Claude Fable 5 和 Claude Mythos 5 的访问权限。Anthropic 在 X 平台(原 Twitter)上宣布已遵守该指令,但明确表示认为政府的这一决定是错误的。
这一指令要求 Anthropic 在全球范围内向所有用户禁用这两款模型,而不仅仅是针对出口管制令名义上针对的外国国民。Anthropic 的其他模型不受此影响。
核心内容
1. 指令细节与模型定位 Anthropic 称于周五美东时间下午 5:21 收到该指令。此次禁令的核心涉及两款模型:
- Claude Mythos 5:这是 Anthropic 目前能力最强的 AI 模型。该公司于 4 月初预览了该模型,但由于其被发现具有在软件中寻找安全漏洞的卓越能力,因此一直受到严格限制。据 Anthropic 称,Mythos 在其测试的每个主要操作系统和 Web 浏览器中都发现了漏洞。因此,公司没有广泛发布它,而是启动了一个名为“Project Glasswing”的受控项目,将其分享给约 50 家经过筛选的组织(包括 Amazon、Apple、Google、Microsoft 和 CrowdStrike),用于防御性网络安全工作。
- Claude Fable 5:发布于三天前,是 Anthropic 应对明显商业压力的产物。它是 Mythos 的一个版本,配备了护栏(guardrails),可以阻止在网络安全和生物学等高风险领域的响应。Anthropic 认为这使得它足够安全,可以进行公开发布。根据追踪 AI 技术性能的 Vals AI 公司的基准测试,它立即成为公众可用的最强大的 AI 模型。
2. 政府理由与 Anthropic 的反驳 政府的指令被定性为出口管制行动,旨在限制外国国民访问这些模型。然而,Anthropic 在一篇长篇博客文章中指出,其理解是,真正的担忧在于声称 Fable 5 遭遇了“越狱”(jailbreak)。
- 证据不足:Anthropic 表示,政府目前仅提供了关于“潜在狭窄、非通用越狱”的口述证据。Anthropic 描述这种越狱本质上是通过提示模型阅读特定代码库并识别软件漏洞来实现的。
- 能力并非独有:Anthropic 指出,这种“能力水平”在其他公开可用的模型中已广泛存在,包括 OpenAI 的 GPT-5.5。此外,网络安全专业人员 routinely(常规地)出于防御目的使用此类能力。
- 安全机制有效:Anthropic 辩称,其最强的安全措施通过独立于模型本身的分类器系统运行。即使有人说服 Fable 绕过拒绝机制,针对最危险输出的底层保护仍然存在。公司还指出,对近期使用情况的审查未发现这些安全措施被成功绕过以产生真正有害内容的证据。
3. 公司的立场与讽刺 Anthropic 毫不掩饰其沮丧之情:“我们不同意,发现一个潜在的狭窄越狱应成为召回向数亿人部署的商业模型的理由。”公司警告称,如果这一标准在整个行业应用,将实质上阻碍所有前沿模型提供商的所有新模型部署。
这一事件具有强烈的讽刺意味。Anthropic 预计今年将进行首次公开募股(IPO),并将其公共形象建立在作为竞争对手中“注重安全”的替代方案之上。然而,观察者指出,Anthropic 在限制 Mythos 时表现出的极度谨慎——将其宣传为危险到无法公开发布的模型——现在似乎恰恰吸引了可能对其业务造成最大破坏的政府审查。
关键要点
- 政府强制下架:美国政府以国家安全为由,强制 Anthropic 在全球范围内关闭 Claude Fable 5 和 Claude Mythos 5 的访问权限。
- Mythos 5 的特殊性:作为 Anthropic 最强模型,Mythos 5 因具备极强的软件漏洞发现能力,仅通过“Project Glasswing”项目向 Amazon、Apple 等 50 家精选企业有限开放,用于防御性网络安全。
- Fable 5 的商业化尝试:Fable 5 是 Mythos 5 的“护栏版”,旨在平衡商业需求与安全,发布后即成为公众可用的最强模型。
- 争议焦点:政府行动基于对 Fable 5 存在“潜在越狱”的担忧;Anthropic 反驳称证据仅为口头且针对特定场景,且类似能力在 GPT-5.5 等竞品中已存在,并未产生实际有害内容。
- 安全架构辩护:Anthropic 强调其安全机制独立于模型主体,即使模型被诱导输出,底层保护依然有效,且近期无安全被突破的确凿证据。
- 战略反噬:Anthropic 此前将 Mythos 5 描述为“极度危险”以强调其安全意识,这一营销策略现在反而引发了政府的过度关注和监管打击。
- 竞争对手的反应:OpenAI 的 Sam Altman 此前曾批评 Anthropic 对 Mythos 的处理是“基于恐惧的营销”,暗示这种自我宣传的“危险性”最终导致了监管介入。
意义与影响
1. “安全营销”的双刃剑效应 此事凸显了前沿 AI 公司在强调自身模型危险性以树立安全形象时的战略风险。Anthropic 试图通过限制 Mythos 5 的访问来展示其负责任的态度,但这反而让监管机构将其视为潜在的国家安全威胁。正如 Sam Altman 所言,当一家公司花费数月时间向世界宣称其 AI 具有独特的危险性时,世界(包括美国政府)往往会认真倾听并采取行动。
2. 对 AI 行业监管标准的潜在冲击 Anthropic 警告称,如果“潜在狭窄越狱”成为召回商业模型的理由,整个 AI 行业的创新步伐可能会停滞。这一事件可能确立一个新的、更严格的监管先例,即只要存在理论上的安全风险,即使没有实际危害证据,政府也有权干预商业模型的部署。
3. 对 Anthropic IPO 前景的影响 Anthropic 预计今年进行 IPO,其“安全优先”的品牌定位是其估值的重要组成部分。然而,此次政府干预不仅打乱了其商业部署计划,还可能损害其作为“可控、安全”AI 提供商的市场形象。投资者可能会担忧,Anthropic 的安全策略不仅未能规避风险,反而招致了更严厉的监管 scrutiny(审查)。
4. 中美科技竞争背景下的出口管制 此次行动被定性为出口管制,反映了美国政府在 AI 领域日益收紧的控制。尽管 Anthropic 辩称其担忧在于“越狱”而非国籍,但禁令覆盖了全球用户,显示出美国政府在关键技术领域寻求绝对控制权的意图。这可能导致全球 AI 开发者和用户面临更复杂的合规挑战。
