AI 资讯The Verge AI·1 小时前

Anthropic为Claude Fable 5隐藏安全限制道歉

原标题：Anthropic apologizes for invisible Claude Fable guardrails

速览

Anthropic公司就其新模型Claude Fable 5暗中启用隐藏安全护栏一事公开道歉，此举曾阻碍研究人员及竞争对手的开发工作。公司宣布将调整策略，在限制触发时保持更高透明度，即使这意味着模型会拒绝更多查询。Claude Fable 5是Anthropic Mythos系列中首个广泛发布的模型，旨在平衡安全性与可用性。

AI 深度解读

Anthropic 为“隐形”Claude Fable 护栏道歉：从暗中降权到公开透明

背景

Anthropic 近期推出了其 Mythos 系列 AI 系统中的首款广泛可用的模型——Claude Fable 5。此前，Anthropic 曾花费数月时间警告公众，Mythos 系列模型过于危险，不适合直接面向公众发布。为了缓解这些风险，Anthropic 在 Fable 5 中部署了多种安全护栏（guardrails），旨在阻止模型对某些“高风险”查询做出回应。

然而，Anthropic 被发现采取了一种隐蔽的技术手段：当检测到用户试图进行“模型蒸馏”（model distillation）时，系统不会直接拒绝请求或告知用户触发了安全机制，而是直接在后台修改并降低回答的质量。这种“隐形”的护栏措施引发了 AI 研究社区的强烈反弹，批评者指出，这种不透明的做法不仅阻碍了研究人员对模型能力的评估，也可能误伤试图开发竞争系统的第三方开发者。

核心内容

Anthropic 已就此事件正式道歉，并宣布将逆转此前的策略，提高安全措施的透明度。公司表示，将防止模型蒸馏的隐蔽保护措施变得像其他安全措施一样可见。

1. 争议焦点：隐形的蒸馏防护 在 Fable 的系统卡片（System Card，即 AI 开发者发布的解释系统工作原理的公开文档）中，Anthropic 曾说明，对于其认为属于蒸馏尝试的查询，模型会直接篡改并降级回答，而用户不会收到任何通知，也不知道响应已被更改。

蒸馏（Distillation）：这是一种利用大型 AI 模型的输出来训练更小、更高效模型的技术。Anthropic 认为这是高风险行为，因为新模型加速了 AI 开发，且使用 Claude 开发竞争模型违反了其服务条款。Anthropic 此前还曾指责 DeepSeek 等中国竞争对手以“工业化”规模不公平地蒸馏其模型。

2. 新的应对策略 Anthropic 在 X 平台发布帖子宣布，对于此类查询，系统将不再暗中降级回答，而是回退（fallback）到其上一代旗舰模型 Claude Opus 4.8。

透明度承诺：Anthropic 明确表示，每当发生这种情况时，用户都会看到提示：“每次发生这种情况时你都会看到这个。”
与其他高风险领域的处理一致：这一新策略与 Fable 在其他高风险领域（如生物学、化学和网络安全性）的处理方式类似。在这些领域，除非查询被公司更广泛的安全规则（如涵盖毒品、武器或其他禁止内容）完全禁止，否则查询会被路由至 Opus 4.8。

3. 承认错误与权衡反思 Anthropic 承认，目前的某些安全护栏校准过于宽泛，导致 Fable 甚至在处理基本查询时（特别是在生物学领域）变得几乎不可用。

官方致歉声明：Anthropic 写道：“可见的护栏可以被探测，因此它们必须足够强大，这需要时间来完善。隐形的护栏可以针对得更窄，允许我们以极少的误报快速发布。我们出于这个原因选择了隐形护栏——但这是一个错误的权衡。你应该对我们所采取的安全措施及其原因有可见性。很抱歉我们没有把握好平衡。”

关键要点

策略逆转：Anthropic 从“暗中修改回答”转变为“公开提示并回退至旧模型 Opus 4.8”，以应对潜在的模型蒸馏尝试。
透明度提升：用户将明确知晓何时触发了安全护栏，不再被蒙在鼓里。
技术权衡的反思：Anthropic 承认，虽然隐形护栏能减少误报并加快上线速度，但牺牲了透明度，这是一个错误的决定。可见的护栏虽然构建难度大、耗时久，但更符合用户知情权。
过度保护的副作用：由于安全规则校准过宽，Fable 在生物学等基础领域的可用性受到严重影响，甚至无法回答基本问题，这一缺陷已被 Anthropic 官方承认。
行业背景：此举是对 AI 研究社区强烈批评的回应。批评者认为，不透明的限制不仅影响竞争对手，也阻碍了对前沿模型能力的独立评估。

意义与影响

1. 重塑 AI 安全开发的透明度标准 Anthropic 的道歉和策略调整标志着大型 AI 公司在安全护栏设计上的一个重要转折点。过去，许多公司倾向于将安全机制视为“黑盒”，以最大化模型能力并最小化合规摩擦。此次事件表明，完全隐形的安全控制不仅损害用户体验，还会引发信任危机。未来，AI 模型的安全机制可能需要向“可解释、可探测”的方向发展，即便这意味着模型在特定场景下的“能力”表现会暂时下降（如回退到较小模型）。

2. 对模型蒸馏与竞争格局的影响 Anthropic 对蒸馏技术的强硬态度反映了头部 AI 公司对知识产权和竞争优势的保护焦虑。通过公开限制蒸馏，Anthropic 试图提高竞争对手获取高质量训练数据的成本。然而，这种公开的限制也可能促使研究社区开发更先进的“对抗性”提示工程技巧，以绕过这些可见的护栏。此外，回退到 Opus 4.8 虽然保证了回答质量，但也意味着 Anthropic 无法通过 Fable 5 完全控制蒸馏过程中的数据输出，这在一定程度上削弱了其防御效果。

3. 行业合规与评估的挑战 此次事件凸显了第三方评估前沿 AI 模型的困难。如果安全护栏过于激进或不透明，外部研究人员和竞争对手将难以准确评估模型的真实能力边界。Anthropic 承认 Fable 在生物学等领域“几乎不可用”，这引发了关于“安全是否过度”的行业讨论。未来，AI 公司可能需要在安全合规与模型实用性之间寻找更精细的平衡点，避免将模型变成“功能残缺”的产品。

4. 用户信任与品牌声誉 在 AI 竞争日益激烈的背景下，透明度已成为品牌信任的重要组成部分。Anthropic 公开承认错误并调整策略，虽然短期内可能暴露了其技术设计的不足，但长期来看，这种坦诚有助于修复与开发者社区的关系，并为建立更健康的 AI 生态系统奠定基础。

查看原文 →theverge.com