Claude Sonnet 5上线首日遭差评 性价比碾压国产模型
速览
Anthropic推出的Claude Sonnet 5定位为Agent能力最强、价格仅为旗舰Opus四折的新模型,但发布24小时内中文技术圈就掀起热议。一张来自LLM Benchmark Dashboard的GitHub跑分截图显示,它在极致逻辑题上极限分与国产模型平分,而Sonnet 5测试成本是Qwen的约6倍。开发者们认为其Max推理模式易陷入过度思考,导致成本高企;对比之下,国产大模型在纯推理场景性价比更高,引发行业对Claude Sonnet 5实际价值的重新审视。
AI 深度解读
Claude Sonnet 5 发布一日差评刷屏:打不过千问和 Minimax,性价比全面翻车
背景
Anthropic 于 2026 年 6 月 30 日正式发布 Claude Sonnet 5,将其定位为“迄今最具 Agent 能力的 Sonnet”。官方宣称该模型在大量智能体任务上接近旗舰 Opus 4.8,价格仅为 Opus 的四折。发布后限时特惠活动从即日起至 2026 年 8 月 31 日止,API 输入价格定为每百万 token 2 美元(结束后恢复 3 美元)。Anthropic 强调 Sonnet 5 在 Agent 能力、编程效率、长上下文和安全对齐上均有升级,旨在为开发者提供更强工具调用能力和更低使用门槛。
然而,在短短一天内,GitHub 上的个人私有题库 LLM Benchmark Dashboard 跑分截图迅速在中文技术圈流传。一张图显示 Sonnet 5 在逻辑、数学、编程等高难度推理任务中未能取得绝对优势,性价比问题暴露无遗。社区反馈迅速分裂为“吹爆派”“吐槽派”和“观望派”,引发全球开发者激烈讨论。
核心内容
Claude Sonnet 5 发布仅 24 小时,中文开发者圈迅速掀起轩然大波。一张来自 GitHub 的 LLM Benchmark Dashboard 截图成为争议核心。该私有题库聚焦逻辑、数学、编程、人类直觉等高难度硬核推理问题,采用深度思考(Reasoning)模式进行评估。
在极限分数对比中,Sonnet 5 未能碾压全场。MiniMax-M3 跑出 61.95 分拔得头筹,而 Qwen3.7-Plus 也在极限分上与 Sonnet 5 死平。这表明国产推理大模型在纯逻辑较量上,已具备与硅谷顶流模型平起平坐的实力。测试成本成为最刺眼的对比点:Sonnet 5 跑完同一套测试耗费 71.96 元人民币,而 Qwen 仅 11.71 元,MiniMax 仅 11.64 元。Sonnet 5 的账单是国产模型的 6 倍多,若大规模调用,商业落地成本难以承受。
耗时方面,Sonnet 5 平均仅 404 秒,远快于 Qwen 的 1156 秒和 MiniMax 的 887 秒,显示其 Token 吐出速度确实高效。然而,在极难逻辑题面前,“快”往往意味着思考链不够深、自我纠错预算受限,导致极限分拉不开差距。
Anthropic 官方叙事本清晰:Agent 能力大升级,价格仅为旗舰四折。限时优惠直接将输入价定为 2 美元/百万 token。社区反馈却呈现三派立场。
吹爆派认为 Sonnet 5 在多步 Agent 和工程编程能力上已达天花板。Reddit 等开发者社区中,多位程序员发来贺电,称其在复杂后端开发、多文件重构上统治力强。一位开发者实测:用 Sonnet 5 只花了一会儿就修复了让 Opus 4.8 卡住的严重 Bug。官方 SWE-bench Pro 跑分 63.2%,接近 Opus 4.8 的 69.2%;CursorBench 测试中,从前代 49% 提升至 57%。实际研发场景中,Sonnet 5 可独立完成超过一半的多文件复杂重构任务,包括跨文件配置迁移、写 API 中间件和主动运行测试等。但在重构 200 行工具函数任务中翻车,根源是项目未配置测试框架,模型只能“凭感觉盲开”。技术大佬 Simon Willison 指出,其组合工具调用常卡壳,冷知识问答全凭运气,代码渲染甚至将“骑自行车鹈鹕”画成大白鹅。
吐槽派指出 Max 推理模式直接是“账单刺客”。该模式本意是深化推理,却极易陷入高成本过度思考。网友评论称“它思考了整整一个世纪,烧光了我的额度,最后吐出那么短一句话”。Agent 自主规划时,调用轮次较上一代翻 3 倍,输出 Token 膨胀 40%。长程智能任务成本从 Opus 4.8 的 1.80 美元升至 Sonnet 5 的 2.29 美元,贵 15%。此外,Anthropic 换用新分词器,同样文本 Token 数量可能膨胀最高 35%。Uber 将 Claude Code 试用开放给 5000 名工程师后,重度用户人均月度账单飙升至 500–2000 美元,4 个月内将年度 AI 预算烧光,CTO 紧急评估财务模型。微软 Windows 与 M365 团队亦在 2026 年 6 月全员停用 Claude Code,迁回 GitHub Copilot 以控成本。
观望派建议直接跳过国产模型对比。LisanBench 创始人在 X 平台发文(浏览量破 67 万)直言:“Sonnet 5 应该被扔进垃圾桶,它比 DeepSeek 贵了整整 57 倍。”真实跑账对比显示:用 DeepSeek 跑一整天工作流,Token 消耗超 2400 万,账单仅 11.73 元人民币;同一天用中转站调用 Claude,花了 1700 元人民币。11 块 vs 1700 块,差 145 倍,已非性价比层面的较量,而是定价体系的根本区别。
在推理能力争议上,Sonnet 5 在 Agent 场景展现出极强自主规划、工具调用和多文件协作能力,适合复杂场景。但在纯逻辑推理和考试型任务中,无论是极限能力还是性价比,都逊于国产模型。Max 推理模式“用力过猛”导致高延迟和高成本,简单任务往往得不偿失。Hacker News 技术大佬 doctoboggan 扒出 Anthropic 官方“成本-性能散点图”后确认:在同等花销下,Opus 4.8 的表现反而更好。
此外,Sonnet 5 过度保守也引发开发者集中吐槽。为防滥用,模型被硬塞“道德审查器”。面对部分技术请求,它不仅不帮忙,还加大“说教”。Anthropic 曾宣传其在“编写 Firefox 漏洞利用代码”测试中考零分,直接被 Hacker News 工程师嘲讽为“一家安全公司故意让模型变笨变残废”。对网络安全攻防演练、白帽子工程师而言,这种对齐反而丧失了实用价值。
关键要点
- Sonnet 5 在 SWE-bench Pro 获得 63.2% 分数,CursorBench 57%,Agent 场景表现突出,但逻辑推理任务中 MiniMax-M3 61.95 分、Qwen3.7-Plus 平分极限分。
- 同一测试套件,Sonnet 5 成本 71.96 元,Qwen 11.71 元、MiniMax 11.64 元,账单为国产模型的 6 倍。
- 耗时仅 404 秒,Token 速度快,但深度思考链不足,难以在极难问题上拉开差距。
- Max 推理模式易过度思考,导致长程任务 Token 消耗和成本显著上升,Uber、微软等企业因账单问题大规模缩减使用。
- 新分词器使 Token 数量膨胀最高 35%,官方定价看似优惠,实际账单可能大幅上涨。
- 在私有 LLM Benchmark Dashboard 等中文圈测试中,Sonnet 5 性价比被国产模型全面超越。
- 过度安全对齐导致在漏洞利用代码等场景表现保守,引发安全测试工具实际价值下降。
- 社区分三派:吹爆派看重 Agent 和编程能力,吐槽派关注成本,观望派建议直接转向国产模型。
意义与影响
Sonnet 5 的争议标志着大模型赛场从“谁更聪明”的能力比拼,正式转向“谁更划算”的商业落地计算时代。跑分榜上微弱差距已无法支撑高达 56 倍的恐怖价差,普通开发者和企业必须认真评估“烧进去的每一分真金白银,是否买到了对应价值的智能”。
对于注重 Agent 智能体编程、复杂后端工程重构和多文件长程协同的团队,Sonnet 5 仍有惊喜空间;在预算有限、追求极致性价比的场景下,其表现和疯狂 Token 燃烧可能完全对不起身价。国产模型如 DeepSeek 级别的高级推理任务综合成本仅 0.04 美元,而 Sonnet 5 Max 模式下长程任务要 2.29 美元,跑分优势已微不足道。
Anthropic 的“太乖”特性和“道德审查器”也暴露了安全对齐的边界:过度保守可能让工具失去实用价值。社区警示未来大模型定价需更注重实际性价比,否则将加速开发者向国产模型迁移,加速全球 AI 生态的多元竞争。开发者或许最该问的问题已不再是“能力够不够”,而是“每一分钱都值吗?”
