技术博客Anthropic Blog·2026/2/5

Anthropic发布Claude Opus 4.6：编程与推理能力再升级

原标题：Claude Opus 4.6

速览

Anthropic正式发布Claude Opus 4.6模型，大幅增强代码规划、调试及大型代码库操作能力，并首次提供100万token的上下文窗口。该模型在Terminal-Bench 2.0、Humanity's Last Exam等权威评测中表现优异，超越GPT-5.2等竞品。此外，新版本还优化了Excel集成、引入自适应思考机制，并支持在Claude Code中组建智能体团队协作。

AI 深度解读

Claude Opus 4.6：Anthropic 的旗舰模型升级深度解读

背景

Anthropic 发布了其最新、最强大的模型 Claude Opus 4.6。此次升级旨在显著提升模型在编码技能、长期代理任务（agentic tasks）执行能力以及大型代码库操作中的可靠性。作为 Anthropic 的旗舰级模型，Opus 4.6 在保持高安全性的同时，引入了多项突破性功能，包括首次为 Opus 系列模型提供的 100 万 token 上下文窗口（Beta 版），以及针对日常办公任务（如金融分析、研究、文档处理）的增强能力。

该模型已在 claude.ai、API 以及所有主要云平台上正式推出。对于开发者而言，可通过 Claude API 使用 claude-opus-4-6 模型。定价保持不变，为每百万 token $5（输入）/ $25（输出）。

核心内容

1. 性能与基准测试表现

Claude Opus 4.6 在多项权威评估中取得了行业领先的成绩，证明了其在复杂推理和编码任务上的卓越能力：

编码与代理任务：在代理编码评估 Terminal-Bench 2.0 中取得最高分。
综合推理：在衡量多学科复杂推理能力的 Humanity’s Last Exam 中，领先于所有其他前沿模型。
经济价值工作：在 GDPval-AA（评估金融、法律等领域经济价值知识工作表现的指标）中，Opus 4.6 的表现优于行业第二名 OpenAI 的 GPT-5.2 约 144 个 Elo 分，并优于其前代模型 Claude Opus 4.5 达 190 个 Elo 分。
信息检索：在 BrowseComp（衡量模型在线定位难找信息能力的测试）中，表现优于任何其他模型。
安全性：根据详细的系统卡片（System Card）显示，Opus 4.6 的整体安全 profile 与行业其他前沿模型相当或更优，在安全评估中表现出较低的对齐失败行为率。

2. 核心能力升级

编码与调试：规划更加周密，能在大型代码库中更可靠地操作，具备更强的代码审查和调试技能，能够自主发现并纠正错误。
长期上下文：首次引入 1M token 上下文窗口（Beta 版），使其能够处理更长、更复杂的任务序列而不丢失上下文。
日常办公自动化：在 Cowork 环境中，模型可以自主 multitask（多任务处理），执行金融分析、研究以及创建和编辑文档、电子表格和演示文稿。
自适应思考（Adaptive Thinking）：模型现在可以根据上下文线索，自主判断是否需要使用扩展思考（extended thinking）。开发者可通过新的努力控制（effort controls）参数调整智能、速度和成本之间的平衡。

3. 产品功能更新

Claude Code：开发者现在可以组建代理团队（agent teams）协同完成任务。API 层面引入了上下文压缩（compaction）功能，允许模型总结自身上下文，从而在不触及限制的情况下执行更长时间的任务。
Office 套件集成：
- Excel：进行了实质性升级，增强了数据处理能力。
- PowerPoint：以研究预览（research preview）形式发布，进一步扩展了日常办公场景的覆盖范围。

4. 早期用户反馈与实测案例

Anthropic 工程师及早期访问合作伙伴（Early Access Partners）提供了大量实测反馈，证实了 Opus 4.6 在实际工作流中的价值：

自主性与规划能力：模型无需明确指令即可聚焦于任务中最具挑战性的部分，快速处理简单部分，并在长会话中保持生产力。它能将复杂任务分解为独立子任务，并行运行工具和子代理，并精准识别阻塞点。
编码与调试：
- 在 Devin Review 中，显著提高了 Bug 捕获率。
- 在 Windsurf 中，特别是在调试和理解陌生代码库时，表现优于 Opus 4.5。
- 能够一次性生成完全功能性的物理引擎代码，处理大型多范围任务。
特定领域表现：
- 法律：在 BigLaw Bench 中创下 Claude 模型最高分 90.2%，展现出卓越的法律推理能力。
- 网络安全：在 40 项盲测网络安全调查中，38 次产生最佳结果（对比 Claude 4.5 模型）。
- 设计：在 Figma Make 中生成复杂交互式应用和原型，创意范围令人印象深刻；在 Lovable 的设计系统中表现优异，提升了设计质量。
- 数据分析：在 Box 的评估中，性能提升 10%，达到 68%（基线为 58%），在技术领域接近满分。
工作流变革：
- 某合作伙伴在一天内自主关闭了 13 个问题，并将 12 个问题分配给正确的团队成员，管理跨越 6 个仓库的约 50 人组织，并知道何时升级给人类处理。
- 用户反馈称，模型更像是一个“有能力的协作者”而非单纯的工具，能够理解意图并进行超出预期的探索。

5. 使用建议

思考深度与成本：Opus 4.6 倾向于更深入地思考并在得出结论前仔细回顾推理过程。这在解决难题时效果显著，但可能会增加简单任务的成本和延迟。
参数调整：如果发现模型在简单任务上“过度思考”，建议将 /effort 参数从默认的高（high）调至中（medium），以优化效率。

关键要点

性能突破：在 Terminal-Bench 2.0、Humanity’s Last Exam、BrowseComp 及 GDPval-AA 等多项基准测试中位居榜首或大幅领先竞争对手（如 GPT-5.2）。
上下文窗口扩展：Opus 4.6 首次支持 1M token 上下文窗口（Beta），极大增强了处理长文档和长期任务的能力。
代理能力增强：具备更强的自主规划、并行工具调用和子代理管理能力，能够执行长周期的 agentic 工作流。
办公场景深化：在 Excel、PowerPoint 及 Cowork 中的集成升级，使其成为日常知识工作（金融、法律、文档处理）的强大助手。
自适应控制：引入“自适应思考”和“努力控制”参数，允许开发者在智能、速度和成本之间进行精细调节。
安全性保持：在提升能力的同时，保持了行业领先的安全标准，对齐失败率较低。
定价不变：API 定价维持 $5/$25 per million tokens，降低了使用旗舰模型的成本门槛。

意义与影响

Claude Opus 4.6 的发布标志着 AI 模型从“被动响应”向“主动协作”迈出了重要一步。其核心影响体现在以下几个方面：

重新定义“前沿”标准：通过在 GDPval-AA 等经济价值评估中大幅超越主要竞争对手，Anthropic 证明了其模型在具有高商业价值的复杂知识工作领域具有不可替代的优势。这不仅是一场技术竞赛，更是对 AI 实际生产力价值的量化验证。
代理工作流的成熟：Opus 4.6 在长期任务执行、并行子代理管理和自我纠错方面的能力，解决了此前 AI 代理（AI Agents）难以稳定运行长周期任务的痛点。这使得 AI 能够真正接管从规划到执行再到审查的完整工作流，而不仅仅是生成片段代码或文本。
企业级应用的落地加速：通过增强在 Excel、PowerPoint 以及法律、金融、网络安全等垂直领域的表现，Opus 4.6 降低了企业部署 AI 的门槛。特别是其 1M token 上下文窗口，使得处理大型代码库、长篇幅法律文档或复杂财务报表成为可能，直接提升了企业的

查看原文 →anthropic.com