← 返回信息流
Agent SkillLINUX DO · Claude·2 小时前3 源报道

Anthropic发布Claude Fable 5与Mythos 5模型

原标题:Claude Fable 5 官网文档翻译

速览

Anthropic正式推出Claude Fable 5和Mythos 5两款Mythos级模型,在软件工程、知识工作、视觉识别及科学研究等基准测试中达到顶尖水平。Fable 5面向广泛用户,Mythos 5则侧重放宽部分安全限制以强化网络安全能力,两者均具备长上下文自主工作优势。此次发布标志着Anthropic在提升AI能力与确保安全之间取得平衡,并将定价降至Claude Mythos Preview的一半。

AI 深度解读

Claude Fable 5 与 Mythos 5 深度解读:Anthropic 发布神话级模型与安全防御体系

背景

Anthropic 正式发布了其最新的 Mythos 级模型系列:Claude Fable 5Claude Mythos 5。这一发布标志着 Anthropic 在 AI 能力与安全控制之间迈出了关键一步。此前,Anthropic 于今年四月启动了“玻璃翼”(Project Glasswing)项目,仅向有限的网络防御机构和关键基础设施供应商开放首款 Mythos 级模型(Claude Mythos Preview),以测试防护措施的有效性。

随着安全防护机制的成熟,Anthropic 认为目前的技术已足够稳健,能够支持全面发布。此次联合发布旨在以尽可能快速、安全的方式,将先进的 AI 能力带给更广泛的用户群体,同时通过保守的安全调校来应对潜在风险。

核心内容

模型能力概览

Claude Fable 5 被定义为一款已确保安全、可供广泛使用的 Mythos 级模型。其在几乎所有经过测试的 AI 能力基准上均达到顶尖水平,尤其在软件工程、知识工作、视觉识别和科学研究等领域表现卓越。任务越复杂、时间跨度越长,Fable 5 相较于其他模型的领先优势越明显。

Claude Mythos 5 与 Fable 5 采用相同的基础模型,但在部分领域(主要是网络安全)放宽了安全防护措施。Mythos 5 拥有全球最强的网络安全能力,并将首先通过 Project Glasswing 项目部署,随后通过可信准入计划扩大使用范围。

性能表现与案例

  • 软件工程:Stripe 报告称,Fable 5 将数月的工程任务压缩至数天。在一个 5000 万行 Ruby 代码库中,模型在一天内完成了全局代码迁移(人工团队需两个多月)。在 Cognition 的 FrontierCode 评估中,Fable 5 在中等投入水平下得分最高,且 token 效率优于以往模型。
  • 知识工作:在 Hebbia 的金融基准测试中,Fable 5 取得最高分,在文档推理、图表解读方面显著提升。IMC 指出其在交易分析、事实查找和根本原因分析中表现出色。
  • 视觉能力:Fable 5 能从科学图表中提取精确数字,并仅凭截图重建 Web 应用源代码。它减少了对外部框架的依赖,仅凭最小化纯视觉框架即可击败《宝可梦 火红》游戏,而此前模型需额外辅助工具。
  • 记忆与长上下文:Fable 5 在数百万词元的长周期任务中保持专注。在卡牌游戏《杀戮尖塔》测试中,提供基于文件的持久化记忆后,其表现提升幅度是 Opus 4.8 的三倍。
  • 生命科学研究
    • 药物设计:Mythos 5 将药物设计环节加速约十倍,在无需人工辅助的情况下,其表现可与熟练人工操作者媲美甚至更优。在 14 个蛋白质靶点中,9 个产生了极具潜力的候选方案。
    • 科学假说:Mythos 5 是首个能持续产生新颖、有说服力科学假说的模型。科学家在盲测中约 80% 更偏好其假说,且已有假说进入实验评估或得到独立研究验证。
    • 基因组学:Mythos 5 在超过一周的自主工作中,整合了 138 种动物、数百万细胞的单细胞数据,并训练出性能超越《科学》期刊近期发表模型(规模仅为后者 1%)的定制 ML 模型。

定价

Fable 5 和 Mythos 5 的定价为每百万输入 tokens 10 美元,每百万输出 tokens 50 美元,不到 Claude Mythos Preview 价格的一半。

安全机制与对齐

Anthropic 强调安全为首要任务,Fable 5 配备了全新的安全分类器。当检测到涉及网络安全、生物化学或蒸馏的请求时,响应将由次强模型 Claude Opus 4.8 代为应答。这种“回退”机制平均触发率不到 5%,偶尔会拦截无害请求,但旨在防止滥用。

  • 对齐水平:在自动化对齐评估中,Mythos 5 的不对齐行为水平(包括欺骗等)较低,与 Opus 4.8 类似。由于 Fable 5 与 Mythos 5 同为基础模型,其对齐水平也相似。
  • 数据留存:针对企业客户,Mythos 级模型的所有流量数据将保留 30 天,用于防御复杂攻击和减少误报,不用于训练新模型,并实施严格的隐私保护措施。

关键要点

  • 双模型发布策略
    • Claude Fable 5:面向大众,具备 Mythos 级能力但经过严格的安全过滤。
    • Claude Mythos 5:面向受信任的专业用户(如网络安全机构、生物学家),解除部分安全限制以发挥最大性能。
  • 安全回退机制
    • 引入全新分类器,检测潜在滥用(如越狱、恶意网络攻击、生物武器研究、能力蒸馏)。
    • 触发分类器后,请求由 Claude Opus 4.8 处理,而非直接拒绝,以平衡安全性与用户体验。
    • 网络安全分类器经过广泛红队测试,未发现通用越狱方法;生物学分类器目前较为保守,旨在防止高风险生物研究被滥用。
  • 卓越的性能基准
    • 在软件工程(代码迁移、Token 效率)、金融分析、视觉任务(截图重建、游戏控制)、长上下文记忆及生命科学研究(蛋白质设计、基因组学)中均达到前沿水平。
    • 在复杂、长周期任务中,Fable 5 的领先优势尤为明显。
  • 可信访问计划(Trusted Access Program)
    • 逐步扩大 Mythos 5 的使用范围,首先通过 Project Glasswing 与美国政府合作,随后向网络安全组织和生物医学研究人员开放。
  • 成本大幅降低
    • 新模型定价仅为此前预览版的一半,降低了先进 AI 能力的获取门槛。
  • 数据隐私与安全
    • 实施新的数据留存政策(30天),用于防御攻击和优化安全分类器,同时承诺不将数据用于训练或安全无关用途。

意义与影响

Claude Fable 5 和 Mythos 5 的发布不仅是 Anthropic 技术能力的里程碑,也反映了 AI 行业在追求性能与确保安全之间平衡的最新探索。

  1. 能力边界的拓展:Fable 5 在软件工程、科学研究等领域的表现证明,AI 已具备处理极高复杂度、长周期任务的能力,能够实质性加速人类工作流程(如将数月工作压缩至数天)。特别是在生命科学研究中,模型不仅能执行任务,还能提出新颖假说,显示出从“工具”向“科研伙伴”转变的潜力。
  2. 安全范式的创新:Anthropic 采用的“回退至次强模型”而非简单拒绝的策略,是一种务实的安全妥协。它承认了完全阻断误报的难度,同时通过 Opus 4.8 的介入降低了对正常用户的干扰。这种机制为其他 AI 提供商提供了处理高风险能力放量的参考案例。
  3. 双轨制访问模式:通过区分 Fable 5(大众版)和 Mythos 5(专业版),Anthropic 试图在普及先进 AI 能力与控制潜在风险之间找到平衡。可信访问计划允许关键领域的专家在受控环境下利用模型的最高性能,有助于在网络安全和生物制药等高风险高价值领域产生深远影响。
  4. 对 AI 安全研究的推动:详细的系统卡、风险评估报告以及对越狱攻击的公开讨论,展示了 Anthropic 在 AI 安全透明度方面的努力。这有助于学术界和业界更好地理解前沿模型的安全边界,推动更稳健的安全防御技术发展。

总体而言,此次发布标志着 AI 模型从“可用”向“可靠且强大”迈进了一大步,同时也凸显了在 AI 能力指数级增长背景下,建立多层次、动态调整的安全

查看原文 →linux.do