← 返回信息流
AI 资讯Hacker News·1 小时前

Anthropic发布Claude 5系列模型

原标题:Claude Mythos 5 / Fable 5

速览

Anthropic发布了全新的Claude 5系列模型。该系列包含Mythos和Fable两个版本,旨在进一步提升大语言模型的性能与能力。此次发布标志着Anthropic在AI技术领域的最新进展。

AI 深度解读

Claude Fable 5 / Mythos 5 深度解读

背景

2026年6月9日,Anthropic 正式发布了其第五代模型系列中的旗舰产品 Claude Fable 5。此次发布标志着 Anthropic 在“最难知识工作”和复杂编码问题领域的能力达到了新的高度。

作为 Mythos 级别模型的一员,Claude Fable 5 旨在解决此前模型无法持续处理的长达数天、复杂且异步的任务。这一代模型的推出,不仅是为了提升单次交互的质量,更是为了支持需要长期自主运行、多阶段规划以及自我验证的复杂工作流。与此同时,Anthropic 也明确了该模型在安全性、数据保留以及特定高风险领域(如网络安全和生物学)的使用限制,体现了其在追求性能突破的同时对安全边界的严格把控。

核心内容

1. 模型定位与能力突破

Claude Fable 5 是 Anthropic 目前最强大的通用可用模型,专为最具雄心的长期项目设计。其核心突破在于能够处理“长视界”(long-horizon)任务:

  • 持续性与异步性:模型能够维持数天的工作状态,进行跨阶段的规划、向子代理(sub-agents)委派任务,并持续检查自身工作成果。
  • 自我验证:Fable 5 具备主动性和彻底性,能够测试自己的工作,通过反思和验证来确保高自主性操作的可行性。
  • 编码能力:作为目前最强大的编码模型,它支持大型迁移、复杂实现以及多天的自主编码会话。它能编写自己的测试用例以检查工作,以高保真度实现设计,并利用视觉能力将输出与原始目标进行比对。

2. 多模态与专业领域应用

  • 视觉理解:Fable 5 能够深入理解文件及 PDF 中嵌套的图表、表格和 diagram。这在金融、法律、分析和建筑等文档密集型工作中极具价值。此外,它还利用视觉能力辅助评估代码输出是否符合设计初衷。
  • 企业工作流:支持复杂的多阶段知识工作,从深度研究分析到生成可供审查的交付物,团队只需移交大型项目并审查最终成果,无需监控每一步骤。
  • 特定行业表现
    • 金融:被测试者认为是目前最强的“金融优先”模型,在通用金融和推理方面表现显著优于前代。
    • 分析:在复杂、长期运行的分析任务基准测试中,得分突破 90%,比 Opus 4.8 高出 10 个百分点。
    • 物理研究:在前沿物理研究中,仅用三分之一的推理 token 就达到了 GPT-5.5 在四天后达到的水平(在 36 小时内)。
    • 应用开发:在 ViBench 基准测试中表现最佳,能以更少的 token 和更短的时间构建应用。

3. 安全性与限制机制

鉴于 Fable 5 的强大能力,Anthropic 实施了严格的安全措施:

  • 高风险领域限制:在网络安全、生物学和化学等领域,模型能力虽强但存在被滥用风险(如制造网络攻击或生物武器)。因此,涉及这些领域的查询会被自动路由至次强通用模型 Claude Opus 4.8
  • 费用豁免:被路由到 Opus 4.8 的请求不会收取 Fable 5 的高昂费用。
  • 数据保留:使用 Fable 5 需要保留 30 天的数据,用于安全监控。
  • 系统卡片:详细的系统卡片(System Card)涵盖了模型在安全、可靠性和安全性方面的评估结果。

4. 定价与可用性

  • 企业计划:面向承担最复杂知识和编码工作的组织,基于消费量的 Enterprise 计划提供。
  • 开发者平台:通过 Claude Platform、各大市场以及 AWS、Google Cloud 和 Microsoft Foundry 原生提供。
  • 价格
    • 输入 token:$10 / 百万 token
    • 输出 token:$50 / 百万 token
    • 提示缓存(Prompt Caching):享受现有 90% 的输入 token 折扣。
    • 美国境内推理:提供 1.1 倍价格的美国专属推理选项。
  • API 调用:通过 claude-fable-5 标识符在 Claude API 中使用。

关键要点

  • Mythos 级别性能:Claude Fable 5 属于 Anthropic 的 Mythos 模型系列,代表了当前通用可用模型的最高水平,特别擅长处理需要长时间运行的异步任务。
  • 自主代理工作流:模型可在 Claude Code 或 Claude Managed Agents 等代理环境中运行,支持多阶段规划、子任务委派和长期自我检查,实现了从“助手”到“自主工作者”的转变。
  • 代码与视觉增强:不仅是代码生成,还具备编写测试、视觉比对设计目标的能力;在文档密集型行业(金融、法律等)中,对嵌套图表和表格的理解能力显著提升。
  • 安全路由机制:为防止滥用,涉及网络安全和生物学的查询会自动降级路由至 Claude Opus 4.8,且用户无需为这些被路由的请求支付 Fable 5 的高额费用。
  • 高昂但高效的定价:定价为输入 $10/百万 token,输出 $50/百万 token,但通过更少的交互轮次(turns)和更高的自主性,可能在总体成本上优于多次调用较小模型。
  • 客户验证:早期测试显示,在 CursorBench 上表现最佳,在 GitHub 服务的开发者中展现出超越基准的自主性和可靠性,律师团队在盲测中认为其修订质量匹配或优于当前模型。

意义与影响

Claude Fable 5 的发布标志着 AI 助手从“即时响应工具”向“长期自主项目管理者”的范式转移。

  1. 重塑知识工作流:对于企业而言,Fable 5 允许团队将大型、复杂的项目“移交”给 AI,而非进行微观管理。这种从“监督每一步”到“审查最终成果”的转变,极大地释放了人类专家的生产力,特别是在需要深度研究和长期规划的场景中。
  2. 编码范式的升级:Fable 5 在编码领域的表现不仅体现在生成代码的速度上,更体现在其“自包含”的能力——编写测试、视觉验证、多阶段规划。这意味着开发者可以信任 AI 完成从设计到测试的完整闭环,显著缩短软件开发生命周期。
  3. 安全与能力的平衡挑战:Anthropic 明确将网络安全和生物学等高能力领域限制在 Opus 4.8 级别,并引入数据保留政策,这反映了行业对“双刃剑”效应的清醒认知。这种分级安全策略(Tiered Safety)可能成为未来高端模型部署的标准做法,即在开放通用能力的同时,对潜在滥用领域设置硬性护栏。
  4. 市场竞争格局:Fable 5 在物理研究、金融分析和应用构建等特定基准上超越了包括 GPT-5.5 在内的竞争对手,并强调了其在“长视界”任务上的独特优势。这迫使其他主要玩家(如 OpenAI、Google)在长期代理能力和复杂任务持续性上加速迭代,以维持竞争力。

总体而言,Claude Fable 5 不仅是性能的堆叠,更是 AI 应用形态的一次进化,它预示着未来 AI 将更深入地嵌入到需要耐心、规划和自我纠错的复杂专业工作中。

查看原文 →anthropic.com