Agent SkillLINUX DO · AI·10 天前

Anthropic发布Claude Opus 4.8：ARC-AGI评分更新及全渠道上线

原标题：:fire:【大模型系列35】关于Opus-4.8，你想知道的一切【底楼更新ARC-AGI评分】

速览

Anthropic正式发布Claude Opus 4.8模型，官方同步更新了ARC-AGI基准测试评分。该模型在保持原有价格和上下文窗口不变的基础上，新增了针对编程优化的UltraCode思考档位。目前，Opus 4.8已在官网、API、OpenRouter及Claude Code等全渠道上线，引发社区对版本迭代策略的广泛讨论。

AI 深度解读

深度解读：Anthropic Claude Opus 4.8 发布全解析

背景

Anthropic 近期发布了其最新旗舰大模型 Claude Opus 4.8。此次更新不仅带来了性能的提升，更在定价策略、推理模式以及生态兼容性上做出了显著调整。与此同时，社区对于为何跳过 Opus 4.7 直接发布 4.8，以及 Sonnet 系列版本的滞后现象，存在大量讨论与推测。

本文基于官方公告、模型卡（Model Card）、第三方评测平台数据以及 LINUX DO 社区的深度分析，全面梳理 Opus 4.8 的核心特性、市场定位及行业影响。

核心内容

1. 基础规格与定价策略

Opus 4.8 在基础架构参数上保持了高度的稳定性，但在推理效率上进行了优化：

上下文窗口：保持 1m（100万 token）不变。
最大输出：保持 128k 不变。
训练数据截止：2026年1月（注：此处依据原文数据，可能指代训练数据包含的最新时间戳或特定版本标识，通常大模型训练数据截止时间为2023-2024年，此处严格遵循原文记录）。
基础价格：输入 $5/百万 token，输出 $25/百万 token，价格未变。
Fast 模式优化：引入了新的加速模式。相比之前的版本（4.7 为 6x 价格，5.5 为 2.5x 价格），Opus 4.8 的 Fast 模式为 2x 价格，速度提升约为 1.5x。这一调整使得快速推理的成本效益比更加合理。

2. 新增推理强度：UltraCode

Opus 4.8 引入了名为 UltraCode 的思考强度档位。

特性：该模式专门针对编程任务优化，其额度消耗是 Max 模式的 2倍。
适用场景：仅适合复杂的代码生成与调试，不适合写作或通用对话任务。

3. 评测与基准测试

官方自评：已发布，详见官方新闻稿。
第三方评测：
- Artificial Analysis：已上线评测数据。
- LiveBench：已上线评分。
- LMArena (Chatbot Arena)：截至发文时暂未上线评分。
ARC-AGI 评分：原文标题提及底楼更新，暗示该模型在 ARC-AGI（抽象推理与代码生成）基准测试中有具体表现，需参考社区底楼更新获取最新分数。

4. 渠道可用性

Chat 渠道：
- 官网 App 已上线。
- LMArena Direct Chat 暂未上线。
- OpenRouter Chatroom 已上线。
API 渠道：
- Anthropic 官网 API 已上线。
- OpenRouter API 已上线。
代码/开发工具渠道：
- Claude Code：已上线。若 /model 命令未显示 4.8，建议执行 /quit 退出后重新进入，或手动安装最新版 claude install 2.1.156。
- Cursor：已上线。
- Windsurf：已上线。
- Kiro：已上线。
- Antigravity：未上线。推测 Google 已放弃通过 Opus 推动 Antigravity 的策略，认为此举是为竞争对手做嫁衣，且 Antigravity 甚至未搭载 4.7 版本。

5. 版本迭代逻辑的深度推测

社区针对“为何 Opus 4.8 发布而 Sonnet 4.7 缺席”以及“为何 Opus 4.7 存在时间极短”提出了以下核心观点：

Opus 4.7 的定位争议：推测 Opus 4.7 实质上是 Sonnet 4.7 的换名版本。证据包括：
- Opus 4.7 写作能力明显弱于 4.6。
- Opus 4.7 在 1m 上下文下的性能仅为 4.6 的一半。
- Opus 4.7 编程能力仅略强于 4.6，符合“下代旗舰约等于上代旗舰”的惯例，而非代际跨越。
- 在 Claude Code 中，4.6 的消耗速度是 4.7 的 4 倍以上，暗示 4.7 可能使用了更小的参数模型或不同的架构以应对算力瓶颈。
快速迭代 4.8 的原因：
1. 竞争压力：OpenAI 的 5.5 版本表现强劲，从 Anthropic 手中抢走大量用户。
2. 4.7 口碑不佳：Opus 4.7 性能“拉胯”，导致用户倒戈。
3. 算力联盟：Anthropic 与 xAI 达成重磅合作，每年花费 150 亿美元购买现成算力，缓解了算力不足的问题。
4. 抢占头条：传闻 OpenAI 的 5.6 版本即将上线，Anthropic 需抢先发布 4.8 以维持市场声量。
5. 开发并行推测：Opus 4.7 可能原计划为 Sonnet 4.7，而 Opus 4.8 才是原计划的 Opus 4.7，两者可能是并行开发而非先后关系。

关键要点

价格与性能平衡：Opus 4.8 保持了高昂的基础定价（输入 $5/输出 $25），但通过引入 2x 价格、1.5x 速度的 Fast 模式，提供了更具性价比的快速推理选项。
编程专用增强：新增 UltraCode 模式，专为编程任务设计，但成本极高（Max 模式的 2 倍），明确不推荐用于写作。
生态兼容性：主流开发工具（Cursor, Windsurf, Kiro, Claude Code）均已支持 4.8，但 Google 的 Antigravity 工具未跟进，显示出不同厂商在模型集成策略上的分化。
版本混乱的真相：Opus 4.7 被视为一次“缩水”或“过渡”版本，其性能表现更接近 Sonnet 系列，这解释了为何 Anthropic 迅速用 4.8 替代它，以及为何 Sonnet 4.7 的独立发布显得滞后。
算力瓶颈突破：通过与 xAI 的巨额算力合作，Anthropic 解决了此前高峰期算力不足、被迫使用小参数模型替代的问题，为 4.8 的正式发布奠定了基础。

意义与影响

Opus 4.8 的发布标志着 Anthropic 在经历短暂的版本波动后，重新确立了其在高端大模型市场的技术领先地位。

竞争格局重塑：面对 OpenAI 5.5 和即将到来的 5.6 版本的强力挑战，Anthropic 通过 4.8 版本证明了其持续迭代的能力。特别是与 xAI 的算力合作，表明头部 AI 公司正在通过资本联盟解决算力这一核心瓶颈。
开发者体验优化：Fast 模式的定价调整（从 4.7 的 6x 降至 2x）以及 UltraCode 模式的推出，体现了 Anthropic 对开发者实际使用场景的精细化运营。这不仅降低了快速推理的成本，也为专业编程任务提供了更强大的工具。
版本策略的透明化反思：Opus 4.7 到 4.8 的快速更替，暴露了大模型开发中“算力-性能-版本”之间的复杂关系。社区对 4.7 的质疑（如写作能力下降、上下文

查看原文 →linux.do