← 返回信息流
Agent SkillLINUX DO · AI·10 天前

Anthropic发布Claude Opus 4.8:ARC-AGI评分更新及全渠道上线

原标题::fire:【大模型系列35】关于Opus-4.8,你想知道的一切【底楼更新ARC-AGI评分】

速览

Anthropic正式发布Claude Opus 4.8模型,官方同步更新了ARC-AGI基准测试评分。该模型在保持原有价格和上下文窗口不变的基础上,新增了针对编程优化的UltraCode思考档位。目前,Opus 4.8已在官网、API、OpenRouter及Claude Code等全渠道上线,引发社区对版本迭代策略的广泛讨论。

AI 深度解读

深度解读:Anthropic Claude Opus 4.8 发布全解析

背景

Anthropic 近期发布了其最新旗舰大模型 Claude Opus 4.8。此次更新不仅带来了性能的提升,更在定价策略、推理模式以及生态兼容性上做出了显著调整。与此同时,社区对于为何跳过 Opus 4.7 直接发布 4.8,以及 Sonnet 系列版本的滞后现象,存在大量讨论与推测。

本文基于官方公告、模型卡(Model Card)、第三方评测平台数据以及 LINUX DO 社区的深度分析,全面梳理 Opus 4.8 的核心特性、市场定位及行业影响。

核心内容

1. 基础规格与定价策略

Opus 4.8 在基础架构参数上保持了高度的稳定性,但在推理效率上进行了优化:

  • 上下文窗口:保持 1m(100万 token)不变。
  • 最大输出:保持 128k 不变。
  • 训练数据截止:2026年1月(注:此处依据原文数据,可能指代训练数据包含的最新时间戳或特定版本标识,通常大模型训练数据截止时间为2023-2024年,此处严格遵循原文记录)。
  • 基础价格:输入 $5/百万 token,输出 $25/百万 token,价格未变。
  • Fast 模式优化:引入了新的加速模式。相比之前的版本(4.7 为 6x 价格,5.5 为 2.5x 价格),Opus 4.8 的 Fast 模式为 2x 价格,速度提升约为 1.5x。这一调整使得快速推理的成本效益比更加合理。

2. 新增推理强度:UltraCode

Opus 4.8 引入了名为 UltraCode 的思考强度档位。

  • 特性:该模式专门针对编程任务优化,其额度消耗是 Max 模式的 2倍
  • 适用场景:仅适合复杂的代码生成与调试,不适合写作或通用对话任务。

3. 评测与基准测试

  • 官方自评:已发布,详见官方新闻稿。
  • 第三方评测
    • Artificial Analysis:已上线评测数据。
    • LiveBench:已上线评分。
    • LMArena (Chatbot Arena):截至发文时暂未上线评分。
  • ARC-AGI 评分:原文标题提及底楼更新,暗示该模型在 ARC-AGI(抽象推理与代码生成)基准测试中有具体表现,需参考社区底楼更新获取最新分数。

4. 渠道可用性

  • Chat 渠道
    • 官网 App 已上线。
    • LMArena Direct Chat 暂未上线。
    • OpenRouter Chatroom 已上线。
  • API 渠道
    • Anthropic 官网 API 已上线。
    • OpenRouter API 已上线。
  • 代码/开发工具渠道
    • Claude Code:已上线。若 /model 命令未显示 4.8,建议执行 /quit 退出后重新进入,或手动安装最新版 claude install 2.1.156
    • Cursor:已上线。
    • Windsurf:已上线。
    • Kiro:已上线。
    • Antigravity未上线。推测 Google 已放弃通过 Opus 推动 Antigravity 的策略,认为此举是为竞争对手做嫁衣,且 Antigravity 甚至未搭载 4.7 版本。

5. 版本迭代逻辑的深度推测

社区针对“为何 Opus 4.8 发布而 Sonnet 4.7 缺席”以及“为何 Opus 4.7 存在时间极短”提出了以下核心观点:

  • Opus 4.7 的定位争议:推测 Opus 4.7 实质上是 Sonnet 4.7 的换名版本。证据包括:
    • Opus 4.7 写作能力明显弱于 4.6。
    • Opus 4.7 在 1m 上下文下的性能仅为 4.6 的一半。
    • Opus 4.7 编程能力仅略强于 4.6,符合“下代旗舰约等于上代旗舰”的惯例,而非代际跨越。
    • 在 Claude Code 中,4.6 的消耗速度是 4.7 的 4 倍以上,暗示 4.7 可能使用了更小的参数模型或不同的架构以应对算力瓶颈。
  • 快速迭代 4.8 的原因
    1. 竞争压力:OpenAI 的 5.5 版本表现强劲,从 Anthropic 手中抢走大量用户。
    2. 4.7 口碑不佳:Opus 4.7 性能“拉胯”,导致用户倒戈。
    3. 算力联盟:Anthropic 与 xAI 达成重磅合作,每年花费 150 亿美元购买现成算力,缓解了算力不足的问题。
    4. 抢占头条:传闻 OpenAI 的 5.6 版本即将上线,Anthropic 需抢先发布 4.8 以维持市场声量。
    5. 开发并行推测:Opus 4.7 可能原计划为 Sonnet 4.7,而 Opus 4.8 才是原计划的 Opus 4.7,两者可能是并行开发而非先后关系。

关键要点

  • 价格与性能平衡:Opus 4.8 保持了高昂的基础定价(输入 $5/输出 $25),但通过引入 2x 价格、1.5x 速度的 Fast 模式,提供了更具性价比的快速推理选项。
  • 编程专用增强:新增 UltraCode 模式,专为编程任务设计,但成本极高(Max 模式的 2 倍),明确不推荐用于写作。
  • 生态兼容性:主流开发工具(Cursor, Windsurf, Kiro, Claude Code)均已支持 4.8,但 Google 的 Antigravity 工具未跟进,显示出不同厂商在模型集成策略上的分化。
  • 版本混乱的真相:Opus 4.7 被视为一次“缩水”或“过渡”版本,其性能表现更接近 Sonnet 系列,这解释了为何 Anthropic 迅速用 4.8 替代它,以及为何 Sonnet 4.7 的独立发布显得滞后。
  • 算力瓶颈突破:通过与 xAI 的巨额算力合作,Anthropic 解决了此前高峰期算力不足、被迫使用小参数模型替代的问题,为 4.8 的正式发布奠定了基础。

意义与影响

Opus 4.8 的发布标志着 Anthropic 在经历短暂的版本波动后,重新确立了其在高端大模型市场的技术领先地位。

  1. 竞争格局重塑:面对 OpenAI 5.5 和即将到来的 5.6 版本的强力挑战,Anthropic 通过 4.8 版本证明了其持续迭代的能力。特别是与 xAI 的算力合作,表明头部 AI 公司正在通过资本联盟解决算力这一核心瓶颈。
  2. 开发者体验优化:Fast 模式的定价调整(从 4.7 的 6x 降至 2x)以及 UltraCode 模式的推出,体现了 Anthropic 对开发者实际使用场景的精细化运营。这不仅降低了快速推理的成本,也为专业编程任务提供了更强大的工具。
  3. 版本策略的透明化反思:Opus 4.7 到 4.8 的快速更替,暴露了大模型开发中“算力-性能-版本”之间的复杂关系。社区对 4.7 的质疑(如写作能力下降、上下文
查看原文 →linux.do