AI 资讯Hacker News·6 天前4 源报道

Claude Opus 4.8

速览

Anthropic推出了新一代旗舰模型Claude Opus 4.8。该版本在复杂逻辑推理、代码生成及多模态理解方面实现了重大突破。其性能表现有望重新定义行业基准，加剧大模型技术竞争。

AI 深度解读

Claude Opus 4.8 深度解读：更智能、更诚实、更高效的 AI 协作伙伴

背景

Anthropic 正式发布了 Claude Opus 系列的最新迭代版本——Claude Opus 4.8。该版本建立在 Opus 4.7 的基础之上，旨在通过提升基准测试表现和优化协作体验，成为更有效的 AI 合作伙伴。

此次发布不仅带来了模型能力的升级，还同步推出了一系列新功能，包括对计算资源的更精细控制、针对大规模问题的动态工作流支持，以及显著降低的高速模式成本。Opus 4.8 在保持原有定价策略不变的前提下，全面提升了在编码、代理（Agentic）技能、推理及实际知识工作领域的表现。

核心内容

1. 模型能力全面跃升

根据官方发布的系统卡片（System Card）及多项基准测试数据，Claude Opus 4.8 在编码、代理任务、推理能力和实用知识工作方面均优于其前代模型（Opus 4.7）及其他竞品。早期测试者和企业客户反馈显示，该模型在代理任务中表现出更高的可靠性和判断力。

代理与编码能力：在 Super-Agent 基准测试中，Opus 4.8 是唯一一个能够端到端完成所有案例的模型，在同等成本下击败了 GPT-5.5 及之前的 Opus 模型。在 CursorBench 上，它超越了所有之前的 Opus 版本，工具调用效率显著提升，用更少的步骤实现相同的智能水平。
法律与专业领域：在法律代理基准测试中，Opus 4.8 创下最高分，成为首个在“全通过”标准上突破 10% 大关的模型。对于 Databricks 的 Genie 和 Hebbia 等企业的金融文档工作流，该模型在保持高质量的同时，提供了更精准的引用和更高的令牌效率。
计算机使用与浏览器代理：Opus 4.8 被评为 Anthropic 测试过的最强的计算机使用和浏览器代理模型，在 Online-Mind2Web 基准测试中得分高达 84%，显著优于 Opus 4.7 和 GPT-5.5，能够长时间保持反思性和任务专注度。

2. 显著改进的“诚实性”与安全性

Opus 4.8 最突出的改进之一是其诚实性（Honesty）。Anthropic 强调，模型被训练为避免做出无法支持的声明。测试表明，Opus 4.8 更倾向于标记工作中的不确定性，且做出无根据声明的可能性更低。

代码审查更严格：评估数据显示，Opus 4.8 允许其编写的代码中存在瑕疵而不被指出的概率，比前代模型降低了约 4 倍。
对齐评估优异：Anthropic 的 Alignment 团队指出，Opus 4.8 在支持用户自主权和以用户最佳利益行事等亲社会特征方面达到了新高度。其错位行为（如欺骗或协助滥用）的发生率显著低于 Opus 4.7，与 Anthropic 目前对齐最好的模型 Claude Mythos Preview 相当。

3. 新增功能与用户体验优化

除了模型本身的升级，Anthropic 还推出了三项关键新功能，旨在增强用户对 AI 的控制力和适用场景：

动态工作流（Dynamic Workflows）：
- 目前处于研究预览阶段，主要面向 Claude Code 企业版、团队版和 Max 版用户。
- 允许 Claude 规划工作并在单个会话中运行数百个并行子代理。
- 在报告结果前会验证输出。例如，它可以执行涵盖数十万行代码的代码库级迁移，并以现有测试套件为验收标准。
努力程度控制（Effort Control）：
- 在 claude.ai 和 Cowork 界面中新增控制选项，用户可手动选择 Claude 投入任务的“努力程度”。
- 高努力模式：模型会进行更频繁、更深入的思考，以提供更优质的回答。
- 低努力模式：响应速度更快，消耗速率限制更慢。
- 该功能对所有计划用户开放。Opus 4.8 默认设置为“高努力”，以平衡质量与用户体验。
Messages API 更新：
- 现在允许在消息数组中包含系统条目（system entries）。
- 开发者可以在任务执行中途更新 Claude 的指令，而无需破坏提示词缓存（prompt cache）或将其作为用户轮次处理。这对于在代理运行期间动态更新权限、令牌预算或环境上下文至关重要。

4. 成本与效率优化

高速模式降价：Opus 4.8 的高速模式（Fast Mode）速度提升至原来的 2.5 倍，且价格比之前模型的高速模式便宜了 3 倍。
令牌效率提升：在编码任务中，默认高努力模式下的令牌消耗量与 Opus 4.7 相似，但性能更好。对于困难任务或长期异步工作流，推荐使用“额外（Extra）”或“最大（Max）”努力级别，尽管这会消耗更多令牌，但能带来更优结果。

关键要点

性能标杆：Opus 4.8 在 Super-Agent 基准测试中是唯一端到端完成所有案例的模型，超越了 GPT-5.5 及前代 Opus 模型。
代理能力突破：在 CursorBench 和法律代理基准测试中创下新高，工具调用更高效，能处理更复杂的端到端任务。
诚实性大幅提升：允许代码瑕疵未被指出的概率降低 4 倍，更倾向于标记不确定性，减少无根据的自信声明。
安全性增强：错位行为发生率显著低于 Opus 4.7，亲社会特征指标达到新高度，对齐水平与 Claude Mythos Preview 相当。
新功能支持大规模任务：动态工作流功能支持在单个会话中运行数百个并行子代理，适用于代码库级迁移等大规模工程任务。
用户控制权增强：新增“努力程度”控制选项，允许用户在响应速度、深度和速率限制消耗之间进行权衡。
开发者友好：Messages API 支持任务中途更新系统指令，不影响缓存，提升了构建自主工程工作流的灵活性。
成本效益优化：高速模式速度提升 2.5 倍且价格降低 3 倍；默认高努力模式在同等令牌消耗下提供更好性能。
定价不变：Opus 4.8 的定价与 Opus 4.7 保持一致。

意义与影响

Claude Opus 4.8 的发布标志着 Anthropic 在构建高可靠性、高诚实性的企业级 AI 代理方面迈出了重要一步。

从“聊天机器人”到“可靠代理”的转变：通过 Super-Agent 和 CursorBench 等测试的优异表现，Opus 4.8 证明了其在复杂、多步骤、需要自主决策的任务中具备极高的可靠性。这对于法律、金融和软件工程等高 stakes（高风险）领域至关重要，因为这些领域要求 AI 不仅要有智能，更要有“不出错”的稳定性。
解决 AI 幻觉与过度自信问题：Opus 4.8 在“诚实性”上的显著改进，直接回应了当前大模型应用中的核心痛点——幻觉和过度自信。通过降低代码瑕疵遗漏率和减少无根据声明，Anthropic 正在建立用户对 AI 输出真实性的信任，这对于 AI 进入核心业务流程是前提条件。
工程效率的革命性提升：动态工作流和高速模式的降价，使得处理超大规模代码库和复杂数据分析变得更具经济可行性。开发者不再受限于单次交互的长度或成本，可以构建更复杂、更持久的自主代理系统。
赋予用户更多控制权：努力程度控制的引入，体现了 Anthropic 对用户体验的精细化运营。它允许用户根据场景（如快速查询 vs. 深度推理）灵活调整资源消耗，平衡了速度、成本和智能深度之间的关系。

总体而言，Claude Opus 4.8 不仅是一次

查看原文 →anthropic.com