← 返回信息流
AI 资讯The Verge AI·1 小时前

Anthropic Claude Fable 5 拒答基础生物题,故意转交老模型

原标题:Fable won’t answer basic biology questions

速览

Anthropic发布了号称最强大的公开AI模型Claude Fable 5,并强调其在生物学等领域的卓越能力。然而,该模型被设计为拒绝回答基础生物学问题,而是将查询转交给前旗舰模型Claude Opus 4.8。这并非因为模型缺乏相关知识,而是Anthropic出于安全考虑故意限制其能力,以防止其被滥用。

AI 深度解读

Anthropic Claude Fable 5 发布:为防生物武器,连“线粒体”都不让问

背景

Anthropic 近期发布了其最新一代 AI 模型 Claude Fable 5,并将其定位为该公司有史以来最强大且广泛可用的 AI 模型。作为 Mythos 系列模型家族的一员,Fable 在网络安全等领域展现出极高的能力,以至于 Anthropic 认为其过于危险,不宜完全公开。

然而,在发布后不久,用户和媒体发现了一个显著的反常现象:尽管 Fable 5 被宣传为生物学领域的专家,但它却拒绝回答许多基础生物学问题——这些问题通常是高中生甚至普通大众都能轻松处理的常识性问题。相反,当用户提出这些基础问题时,模型往往会将查询转接给其前代旗舰模型 Claude Opus 4.8 来回答。

核心内容

Anthropic 向 The Verge 解释称,这种看似矛盾的现象并非因为模型缺乏相关知识,而是出于安全设计的主动选择。为了保护公众免受生物武器威胁,Anthropic 为 Fable 5 设置了“过度保守”的安全护栏,导致大多数与生物学工作相关的查询被拦截。

1. 基础生物学问题的“误伤”

在实际测试中,作者尝试询问了一系列看似无害的基础生物学问题,但均遭到拒绝。例如:

  • 询问“细胞膜是什么”;
  • 询问“线粒体是什么”(细胞著名的能量工厂);
  • 询问“朊病毒是什么”(导致疯牛病的蛋白质颗粒);
  • 询问“mRNA 疫苗是如何工作的”。

此外,一些普通的、客观上无害的医学查询也被拦截,例如“花粉热的原因”、“哮喘药物如何工作”、“抗生素耐药性是如何产生的”以及“埃博拉病毒是什么及其传播方式”。

值得注意的是,并非所有生物学问题都被拒绝。Fable 5 偶尔会回答诸如“癌症是什么”或“DNA 是什么”这类问题。当 Fable 拒绝回答时,Claude Opus 4.8 通常能给出完美的答案。这表明 Fable 5 并非“不知道”答案,而是被系统性地禁止回答。

2. 安全权衡:生物武器风险

Anthropic 发言人 Paruul Maheshwary 表示,这种广泛的生物学过滤是有意为之,且故意采取保守策略,主要担忧是生物武器。

“随着 Claude Fable 5(我们的第一个 Mythos 级模型)的发布,我们认为模型现在具备完成现实世界科学任务的能力,恶意行为者也可能利用我们的模型进行高度危险的生物研究,”Maheshwary 告诉 The Verge,“我们一直使用分类器来阻止模型协助与生物武器相关的请求。为了安全部署 Fable 5,我们认为有必要在安全护栏上采取过度保守的策略,以阻止大多数与生物学工作相关的查询。”

3. 其他受限领域

Anthropic 此前强调,将在四个关键领域限制 Fable 的响应以确保安全:

  1. 化学
  2. 生物学
  3. 网络安全
  4. 蒸馏(Distillation):一种利用大型 AI 输出来训练小型 AI 的技术。Anthropic 曾指控中国竞争对手(如 DeepSeek)对其模型进行“工业化”规模的蒸馏。

虽然作者无法有效测试蒸馏限制,但 Fable 在化学和网络安全方面的表现相对宽松:

  • 化学:提供了 TNT 爆炸物的基本概述,但出于明显原因 withheld(保留/拒绝提供)合成指令。
  • 网络安全:轻松回答了关于氯气作为化学武器的使用、常见密码威胁、核聚变与裂变,以及如何保护 iPhone 免受黑客攻击的问题。
  • 例外情况:当询问关于沙林毒气(一种高毒性神经毒剂)时,Fable 再次将查询转介给 Opus。对于“如何制造炭疽”的提示,Fable 和 Opus 均拒绝回答,且 Claude 完全暂停了聊天。

作者认为,拒绝回答“线粒体”的问题似乎是一个“假阳性”(False Positive),即错误地将无害问题识别为风险。

4. 未来展望

Anthropic 承认目前存在误报问题,并表示正在努力改进检测机制以减少假阳性。Maheshwary 补充道:“我们打算在不带这些安全护栏的情况下,向更广泛的生物学和生命科学社区提供 Mythos 级模型,以便这些能力能够加速生物医学研究和药物发现。”

然而,对于这种受限发布模式是否会成为未来模型的新常态,Anthropic 并未给出明确答复。

关键要点

  • 设计性限制:Claude Fable 5 拒绝回答基础生物学问题(如线粒体、细胞膜、mRNA 疫苗原理)是 Anthropic 的主动设计,旨在防止模型被用于生物武器研发,而非模型能力不足。
  • 过度保守的安全策略:Anthropic 承认其安全护栏“过度保守”,导致大量无害的科学和教育查询被拦截。当 Fable 拒绝时,通常会回退到前代模型 Claude Opus 4.8 进行处理。
  • Mythos 系列的双重性:Fable 属于高能力的 Mythos 系列,该系列在网络安全等方面极具威力,因此 Anthropic 对其进行了严格限制。安全限制主要集中在生物、化学、网络安全和模型蒸馏四个领域。
  • 区分风险与常识:虽然 Fable 拒绝回答基础生物学问题,但它仍能处理部分宏观概念(如癌症、DNA),并在化学(如 TNT 概述)和网络安全(如 iPhone 防护)方面表现出较高的可用性,尽管对沙林毒气等高危物质仍保持警惕。
  • 缓解措施与未来计划:Anthropic 正在努力减少安全过滤中的假阳性。公司计划未来向生命科学社区开放无安全护栏的 Mythos 模型,以促进药物发现和生物医学研究,但未承诺将此作为所有公众模型的标准发布模式。

意义与影响

Claude Fable 5 的发布及其引发的争议,揭示了当前大语言模型在能力释放安全对齐之间面临的严峻平衡难题。

首先,这反映了 AI 模型在通用科学任务上的能力边界已经模糊。当基础生物学知识被系统性地封锁时,不仅影响了普通用户的教育需求,也可能阻碍科研人员获取即时信息。这种“宁可错杀,不可放过”的策略虽然降低了恶意滥用的风险,但也增加了合法用户的使用摩擦成本。

其次,Anthropic 对生物武器风险的极度警惕,标志着 AI 安全关注点从传统的“幻觉”和“偏见”向更具体的物理世界危害(如生物、化学武器制造)转移。随着模型在科学推理能力上的提升,如何精准区分“科学探索”与“武器研发”成为行业难题。

最后,Anthropic 提出的“分阶段开放”策略——先在公众层面部署受限模型,随后向专业社区开放无护栏版本——可能成为未来高性能 AI 模型发布的参考范式。然而,这一模式的有效性取决于其能否快速优化安全分类器,以减少对正常科学交流的误伤。如果无法解决假阳性问题,这种受限发布可能会引发学术界和公众的强烈反弹,迫使公司重新评估其安全策略的合理性。

查看原文 →theverge.com