AI 资讯雷峰网·3 小时前

Claude Sonnet 5上线首日遭差评性价比碾压国产模型

原标题：Claude Sonnet 5 上线一日差评刷屏：打不过千问和 Minimax，性价比全面翻车

速览

Anthropic推出的Claude Sonnet 5定位为Agent能力最强、价格仅为旗舰Opus四折的新模型，但发布24小时内中文技术圈就掀起热议。一张来自LLM Benchmark Dashboard的GitHub跑分截图显示，它在极致逻辑题上极限分与国产模型平分，而Sonnet 5测试成本是Qwen的约6倍。开发者们认为其Max推理模式易陷入过度思考，导致成本高企；对比之下，国产大模型在纯推理场景性价比更高，引发行业对Claude Sonnet 5实际价值的重新审视。

AI 深度解读

Claude Sonnet 5 发布一日差评刷屏：打不过千问和 Minimax，性价比全面翻车

背景
Anthropic 于 2026 年 6 月 30 日正式发布 Claude Sonnet 5，将其定位为“迄今最具 Agent 能力的 Sonnet”。官方宣称该模型在大量智能体任务上接近旗舰 Opus 4.8，价格仅为 Opus 的四折。发布后限时特惠活动从即日起至 2026 年 8 月 31 日止，API 输入价格定为每百万 token 2 美元（结束后恢复 3 美元）。Anthropic 强调 Sonnet 5 在 Agent 能力、编程效率、长上下文和安全对齐上均有升级，旨在为开发者提供更强工具调用能力和更低使用门槛。

然而，在短短一天内，GitHub 上的个人私有题库 LLM Benchmark Dashboard 跑分截图迅速在中文技术圈流传。一张图显示 Sonnet 5 在逻辑、数学、编程等高难度推理任务中未能取得绝对优势，性价比问题暴露无遗。社区反馈迅速分裂为“吹爆派”“吐槽派”和“观望派”，引发全球开发者激烈讨论。

核心内容
Claude Sonnet 5 发布仅 24 小时，中文开发者圈迅速掀起轩然大波。一张来自 GitHub 的 LLM Benchmark Dashboard 截图成为争议核心。该私有题库聚焦逻辑、数学、编程、人类直觉等高难度硬核推理问题，采用深度思考（Reasoning）模式进行评估。

在极限分数对比中，Sonnet 5 未能碾压全场。MiniMax-M3 跑出 61.95 分拔得头筹，而 Qwen3.7-Plus 也在极限分上与 Sonnet 5 死平。这表明国产推理大模型在纯逻辑较量上，已具备与硅谷顶流模型平起平坐的实力。测试成本成为最刺眼的对比点：Sonnet 5 跑完同一套测试耗费 71.96 元人民币，而 Qwen 仅 11.71 元，MiniMax 仅 11.64 元。Sonnet 5 的账单是国产模型的 6 倍多，若大规模调用，商业落地成本难以承受。

耗时方面，Sonnet 5 平均仅 404 秒，远快于 Qwen 的 1156 秒和 MiniMax 的 887 秒，显示其 Token 吐出速度确实高效。然而，在极难逻辑题面前，“快”往往意味着思考链不够深、自我纠错预算受限，导致极限分拉不开差距。

Anthropic 官方叙事本清晰：Agent 能力大升级，价格仅为旗舰四折。限时优惠直接将输入价定为 2 美元/百万 token。社区反馈却呈现三派立场。

吹爆派认为 Sonnet 5 在多步 Agent 和工程编程能力上已达天花板。Reddit 等开发者社区中，多位程序员发来贺电，称其在复杂后端开发、多文件重构上统治力强。一位开发者实测：用 Sonnet 5 只花了一会儿就修复了让 Opus 4.8 卡住的严重 Bug。官方 SWE-bench Pro 跑分 63.2%，接近 Opus 4.8 的 69.2%；CursorBench 测试中，从前代 49% 提升至 57%。实际研发场景中，Sonnet 5 可独立完成超过一半的多文件复杂重构任务，包括跨文件配置迁移、写 API 中间件和主动运行测试等。但在重构 200 行工具函数任务中翻车，根源是项目未配置测试框架，模型只能“凭感觉盲开”。技术大佬 Simon Willison 指出，其组合工具调用常卡壳，冷知识问答全凭运气，代码渲染甚至将“骑自行车鹈鹕”画成大白鹅。

吐槽派指出 Max 推理模式直接是“账单刺客”。该模式本意是深化推理，却极易陷入高成本过度思考。网友评论称“它思考了整整一个世纪，烧光了我的额度，最后吐出那么短一句话”。Agent 自主规划时，调用轮次较上一代翻 3 倍，输出 Token 膨胀 40%。长程智能任务成本从 Opus 4.8 的 1.80 美元升至 Sonnet 5 的 2.29 美元，贵 15%。此外，Anthropic 换用新分词器，同样文本 Token 数量可能膨胀最高 35%。Uber 将 Claude Code 试用开放给 5000 名工程师后，重度用户人均月度账单飙升至 500–2000 美元，4 个月内将年度 AI 预算烧光，CTO 紧急评估财务模型。微软 Windows 与 M365 团队亦在 2026 年 6 月全员停用 Claude Code，迁回 GitHub Copilot 以控成本。

观望派建议直接跳过国产模型对比。LisanBench 创始人在 X 平台发文（浏览量破 67 万）直言：“Sonnet 5 应该被扔进垃圾桶，它比 DeepSeek 贵了整整 57 倍。”真实跑账对比显示：用 DeepSeek 跑一整天工作流，Token 消耗超 2400 万，账单仅 11.73 元人民币；同一天用中转站调用 Claude，花了 1700 元人民币。11 块 vs 1700 块，差 145 倍，已非性价比层面的较量，而是定价体系的根本区别。

在推理能力争议上，Sonnet 5 在 Agent 场景展现出极强自主规划、工具调用和多文件协作能力，适合复杂场景。但在纯逻辑推理和考试型任务中，无论是极限能力还是性价比，都逊于国产模型。Max 推理模式“用力过猛”导致高延迟和高成本，简单任务往往得不偿失。Hacker News 技术大佬 doctoboggan 扒出 Anthropic 官方“成本-性能散点图”后确认：在同等花销下，Opus 4.8 的表现反而更好。

此外，Sonnet 5 过度保守也引发开发者集中吐槽。为防滥用，模型被硬塞“道德审查器”。面对部分技术请求，它不仅不帮忙，还加大“说教”。Anthropic 曾宣传其在“编写 Firefox 漏洞利用代码”测试中考零分，直接被 Hacker News 工程师嘲讽为“一家安全公司故意让模型变笨变残废”。对网络安全攻防演练、白帽子工程师而言，这种对齐反而丧失了实用价值。

关键要点

Sonnet 5 在 SWE-bench Pro 获得 63.2% 分数，CursorBench 57%，Agent 场景表现突出，但逻辑推理任务中 MiniMax-M3 61.95 分、Qwen3.7-Plus 平分极限分。
同一测试套件，Sonnet 5 成本 71.96 元，Qwen 11.71 元、MiniMax 11.64 元，账单为国产模型的 6 倍。
耗时仅 404 秒，Token 速度快，但深度思考链不足，难以在极难问题上拉开差距。
Max 推理模式易过度思考，导致长程任务 Token 消耗和成本显著上升，Uber、微软等企业因账单问题大规模缩减使用。
新分词器使 Token 数量膨胀最高 35%，官方定价看似优惠，实际账单可能大幅上涨。
在私有 LLM Benchmark Dashboard 等中文圈测试中，Sonnet 5 性价比被国产模型全面超越。
过度安全对齐导致在漏洞利用代码等场景表现保守，引发安全测试工具实际价值下降。
社区分三派：吹爆派看重 Agent 和编程能力，吐槽派关注成本，观望派建议直接转向国产模型。

意义与影响
Sonnet 5 的争议标志着大模型赛场从“谁更聪明”的能力比拼，正式转向“谁更划算”的商业落地计算时代。跑分榜上微弱差距已无法支撑高达 56 倍的恐怖价差，普通开发者和企业必须认真评估“烧进去的每一分真金白银，是否买到了对应价值的智能”。

对于注重 Agent 智能体编程、复杂后端工程重构和多文件长程协同的团队，Sonnet 5 仍有惊喜空间；在预算有限、追求极致性价比的场景下，其表现和疯狂 Token 燃烧可能完全对不起身价。国产模型如 DeepSeek 级别的高级推理任务综合成本仅 0.04 美元，而 Sonnet 5 Max 模式下长程任务要 2.29 美元，跑分优势已微不足道。

Anthropic 的“太乖”特性和“道德审查器”也暴露了安全对齐的边界：过度保守可能让工具失去实用价值。社区警示未来大模型定价需更注重实际性价比，否则将加速开发者向国产模型迁移，加速全球 AI 生态的多元竞争。开发者或许最该问的问题已不再是“能力够不够”，而是“每一分钱都值吗？”

查看原文 →leiphone.com

Claude Sonnet 5上线首日遭差评 性价比碾压国产模型

速览

AI 深度解读

相关推荐

Claude Sonnet 5上线首日遭差评性价比碾压国产模型