← 返回信息流
技术博客Anthropic Blog·2026/5/28

Anthropic发布Claude Opus 4.8:性能跃升且价格不变

原标题:Introducing Claude Opus 4.8

速览

Anthropic正式发布Claude Opus 4.8,该版本在编码、智能体技能、推理及实用知识工作等基准测试中表现显著优于Opus 4.7及GPT-5.5等竞品。新版本引入了“动态工作流”功能,支持用户自定义任务投入精力,并大幅降低了高速模式的成本。早期测试显示,Opus 4.8在法律代理、浏览器自动化等复杂场景中展现出更高的可靠性和准确性。

AI 深度解读

Anthropic 发布 Claude Opus 4.8:更智能、更诚实、更高效的 AI 协作伙伴

背景

Anthropic 正式宣布对其旗舰模型 Claude Opus 系列进行重大升级,推出全新版本 Claude Opus 4.8。该版本建立在 Opus 4.7 的基础之上,旨在通过全面提升基准测试表现,成为更高效的协作伙伴。

此次发布不仅带来了模型本身的迭代,还同步推出了一系列新功能,包括在 claude.ai 上引入的“努力程度控制”、Claude Code 中的“动态工作流”以及针对 Opus 4.8 的高速模式(Fast Mode)的大幅降价。值得注意的是,Opus 4.8 将以与前一版本相同的价格向用户开放。

核心内容

模型能力与基准测试表现

Opus 4.8 在编码、代理(Agentic)技能、推理能力以及实际知识工作任务的测试中,均展现出对前代模型及其他竞品的显著优势。根据 Anthropic 发布的《Claude Opus 4.8 系统卡》(System Card),其具体表现如下:

  • 代理任务可靠性:早期测试者反馈,Opus 4.8 在执行代理任务时判断力更敏锐、更可靠。在 Claude Code 中,它能提出正确的问题,自我纠正错误,并在计划不周时提出质疑。在进行涉及多个服务的复杂探索前,它会建立足够的信心,是构建复杂应用的优秀模型。
  • Super-Agent 基准测试:Opus 4.8 是该基准测试中唯一能够端到端完成所有案例的模型,在成本持平的情况下超越了之前的 Opus 模型和 GPT-5.5。在翻译、深度研究、幻灯片制作和分析等代理产品中,它提供了强大的可靠性。
  • CursorBench 表现:在所有努力程度设置下,Opus 4.8 均超越之前的 Opus 模型。其工具调用效率显著提升,以更少的步骤实现相同的智能水平,并能端到端地完成任务。
  • 法律代理基准测试:Opus 4.8 在法律代理基准测试中创下最高分,成为首个在“全通过”(all-pass)标准上整体得分突破 10% 的模型。这种实质性的法律工作准确率提升,直接转化为客户可以自信移交的真实律师工作量。
  • 计算机使用与浏览器代理:Opus 4.8 是 Anthropic 测试过的最强的计算机使用和浏览器代理模型,在 Online-Mind2Web 测试中得分 84%,大幅超越 Opus 4.7 和 GPT-5.5。它保持了反思性和任务专注度,满足了客户对端到端可靠性的需求。
  • 工程工作负载:在 Devin 等自主工程工作负载中,Opus 4.8 工具调用更干净,指令遵循更一致,修复了 Opus 4.7 中存在的注释冗余和工具调用问题,相比 Opus 4.6 也有显著改进。
  • 长上下文分析:在长期评估中,Opus 4.8 的分析质量持续高于前代模型,完成速度更快,输出信息密度更高,信噪比显著改善。其最大区别在于倾向于主动标记输入和输出中的问题,而其他模型通常会遗漏这些细节。
  • 企业级应用案例
    • Databricks Genie:Opus 4.8 解锁了代理推理的跨越式进步,能更快解决更深层的多步骤问题。其多模态能力使其能直接对 PDF、图表等非结构化内容进行推理,且 token 成本比 Opus 4.7 低 61%。
    • Hebbia:在金融文档工作流中,Opus 4.8 保持了与 Opus 4.7 相当的高质量,同时在引用精度和检索 token 效率上表现更佳,非常适合处理密集的文件归档。

核心改进:诚实性与对齐评估

Opus 4.8 最显著的改进之一是其诚实性。Anthropic 训练模型避免做出无法支持的声明,但 AI 模型常因证据薄弱而自信地得出结论。早期测试者报告称,Opus 4.8 更倾向于标记其工作中的不确定性,且更少做出无根据的声明。

评估数据显示,Opus 4.8 允许其编写的代码中存在未被指出的缺陷的可能性比前代模型低约 4 倍

在发布前,Anthropic 对模型进行了详细的对齐评估。结论指出:

  • Opus 4.8 在支持用户自主权等亲社会特质方面达到了新高度。
  • 其不对齐行为(如欺骗或配合滥用)的发生率显著低于 Opus 4.7,与 Anthropic 最佳对齐模型 Claude Mythos Preview 相当。
  • 完整的对齐评估及部署前安全测试结果详见《Claude Opus 4.8 系统卡》。

同步发布的新功能

  1. 动态工作流(Dynamic Workflows)

    • 功能描述:目前处于研究预览阶段,允许 Claude 在 Claude Code 中处理更大规模的任务。
    • 运作机制:Claude 可以规划工作,然后在单个会话中运行数百个并行子代理(在 Opus 4.8 支持下,代理运行时间更长),并在向用户报告前验证输出。
    • 应用场景:例如,从启动到合并,执行跨越数十万行代码的代码库规模迁移,并以现有测试套件为基准。
    • 可用性:适用于 Claude Code 的企业版、团队版和 Max 版计划。
  2. 努力程度控制(Effort Control)

    • 功能描述:在 claude.ai 和 Cowork 中,模型选择器旁新增控制选项,允许用户选择 Claude 投入多少努力。
    • 高努力模式:Claude 会思考得更频繁、更深入,以提供更好的响应。
    • 低努力模式:响应更快,且更慢地消耗用户的速率限制。
    • 可用性:所有计划均提供此选择。
  3. Messages API 更新

    • 功能描述:Messages API 现在接受消息数组内的系统条目(system entries)。
    • 优势:开发者可以在任务中途更新 Claude 的指令,而无需破坏提示缓存(prompt cache)或通过用户轮次进行路由。
    • 应用场景:在代理运行时更新权限、token 预算或环境上下文。

关于“努力程度”的说明

  • 默认设置:Opus 4.8 默认设置为“高努力”(High Effort),Anthropic 认为这是在质量和用户体验之间的最佳平衡。
  • Token 消耗:在编码任务中,此努力级别的 token 消耗与 Opus 4.7 的默认值相似,但性能更好。
  • 额外选项:用户可以选择“额外”(在 Claude Code 中为 “xhigh”)或“最大”(Max)。模型将消耗更多 token 以获得更好结果。Anthropic 建议对困难任务和长期异步工作流使用“额外”模式。
  • 速率限制调整:为了适应高 token 使用量,Anthropic 提高了 Claude Code 中的速率限制。

关键要点

  • 版本升级:Claude Opus 4.8 是 Opus 4.7 的继任者,性能全面超越前代,且价格保持不变。
  • 代理能力突破:在 Super-Agent 基准测试中,Opus 4.8 是唯一端到端完成所有案例的模型,超越了 GPT-5.5 和 prior Opus 模型。
  • 代码与工程效率:在 CursorBench 上表现优异,工具调用更高效,修复了前代的注释冗余问题,显著提升了自主工程工作负载的可靠性。
  • 法律与专业领域:在法律代理基准测试中创下新高,首个在“全通过”标准上突破 10%,为法律专业人士提供了更高置信度的 AI 辅助。
  • 诚实性大幅提升:Opus 4.8 更倾向于承认不确定性,允许代码缺陷未被指出的可能性比前
查看原文 →anthropic.com