← 返回信息流
AI 资讯TechCrunch AI·2 小时前

安全研究员不满Anthropic新模型Fable安全护栏过严

原标题:Cybersecurity researchers aren’t happy about the guardrails on Anthropic’s Fable

速览

Anthropic推出了名为Fable的新模型,旨在提供增强的安全性。然而,网络安全研究人员指出,该模型的安全护栏设置过于严格,导致其在实际网络安全工作中难以应用。这一争议反映了AI模型在安全性与实用性之间的平衡难题。

AI 深度解读

Anthropic 新模型 Fable 的安全护栏引发安全研究人员不满

背景

周二,Anthropic 发布了其最新模型 Fable。官方将其定位为强大且备受瞩目的网络安全模型 Mythos 的公开且受限版本。此前,Anthropic 在四月发布了 Mythos,当时仅将其限制在少数几家公司和组织内,这一计划被称为 Project Glasswing,旨在部署该模型以保护关键软件和基础设施。上周,Anthropic 将 Mythos 的访问权限扩大到了 15 个国家的数百个组织。

然而,Fable 的发布并未获得所有安全研究人员的欢迎。由于模型中设置的严格限制,许多网络安全专业人士在网上表达了不满。Anthropic 设置这些护栏(guardrails)的初衷是为了降低 Fable 被用于开发恶意软件或破坏软件的风险,这是 Anthropic 长期以来的担忧。此外,对生物学的限制也是出于类似的担忧,即防止开发生物武器。

核心内容

尽管 Anthropic 的初衷良好,但许多网络安全专家对这种杂乱无章的限制措施感到反感。以下是原文中提到的具体争议点和细节:

1. 过于宽泛的拦截机制 知名安全研究员、IBM X-Force 的 Valentina “Chompie” Palmiotti 指出,Fable 会拒绝任何与网络安全间接相关的请求,甚至连阅读博客文章这样无害的任务也会被拦截。当提示词触发其安全护栏时,Fable 会暂停聊天,并提示“安全措施将此消息标记为网络安全或生物学主题”。

2. 关键词触发的局限性 网络安全资深人士 Matt Suiche 向 TechCrunch 透露,如果要求模型编写安全代码,它会将其视为网络安全相关工作,而不是软件工程的最佳实践,从而导致用户被降级。Fable 在遇到护栏时会回退到 Claude Opus 4.8。Suiche 指出,这似乎是基于关键词的,因此任何属于“网络安全”词汇领域的词都会触发护栏。

3. 代码审查也被拦截 另一位研究人员在 X(原 Twitter)上抱怨,即使是请求进行代码审查也会触发 Fable 的安全护栏。

4. 行业理解与未来展望 尽管存在批评,Suiche 表示可以理解,因为我们仍处于早期阶段,Anthropic 仍在调整其安全护栏。他认为,随着 Anthropic 和其他前沿模型公司与新一代网络安全公司的合作增多,这些护栏会随着时间推移而演变。“在进行此类发布时,宁可抓得严一些,也不要抓得不够,然后再逐步放宽护栏。” Suiche 是 AI 网络安全初创公司 Tolmo 的技术团队成员。

5. Anthropic 的官方回应与替代方案 截至发稿,Anthropic 未立即回应置评请求。除了模型内部的安全护栏外,Anthropic 还要求网络安全专业人员申请“网络安全验证计划”(Cyber Verification Program)。如果获得批准,申请者在将 Claude 用于网络安全工作时将受到较少的限制。OpenAI 也有一个类似的计划,称为“可信网络安全访问”(Trusted Access for Cyber)。

关键要点

  • 模型定位Fable 是 Anthropic 强大网络安全模型 Mythos 的公开受限版本。
  • 主要争议:安全研究人员批评 Fable 的安全护栏过于严格且缺乏精准度,导致正常的安全相关工作(如代码审查、阅读技术博客)被错误拦截。
  • 技术机制:拦截似乎主要基于关键词匹配,导致“网络安全”相关词汇触发过度反应。触发护栏后,模型会回退至 Claude Opus 4.8
  • 设计初衷:限制旨在防止模型被滥用开发恶意软件或生物武器,这是 Anthropic 长期以来的安全考量。
  • 专家观点:虽然当前体验不佳,但行业专家认为这是早期阶段的正常现象,随着公司与安全界的合作加深,护栏将逐步优化。
  • 企业级解决方案:对于需要更高权限的专业用户,Anthropic 提供“网络安全验证计划”,OpenAI 也有类似的“可信网络安全访问”计划。

意义与影响

Fable 引发的争议揭示了前沿 AI 模型在平衡“安全性”与“可用性”方面面临的巨大挑战。

  1. 安全护栏的精细化需求:此次事件表明,基于关键词的简单护栏机制在处理复杂的专业场景时显得笨拙且低效。对于网络安全等专业领域,模型需要具备更深层的语义理解能力,以区分“恶意意图”与“防御性/工程性任务”。
  2. 开发者体验与信任危机:如果专业用户在日常工作中频繁遭遇误报,将严重削弱他们对 AI 工具的信任和使用意愿。Anthropic 需要在安全合规与用户体验之间找到更精准的平衡点。
  3. 行业协作的重要性:正如 Matt Suiche 所言,Anthropic 需要与网络安全公司更紧密地合作,以优化护栏策略。这预示着未来 AI 模型的开发将不再仅仅是算法竞赛,更是与垂直领域专家深度协作的过程。
  4. 企业级访问模式的兴起:通过“验证计划”限制普通用户访问,同时为经过认证的专业人士提供更宽松的环境,可能成为 AI 安全模型的主流分发模式。这既满足了公众对安全性的关切,又保障了专业场景下的实际需求。
查看原文 →techcrunch.com