← 返回信息流
AI 资讯量子位·2 小时前

A社你解释下,啥叫Sonnet 5比Fable 5还贵?

AI 深度解读

背景

Anthropic发布了新版性价比模型Claude Sonnet 5,将其定位为"Opus平替"——能力逼近自家最贵的Opus 4.8,价格却只要后者的六成左右。官方口径是"能力涨了,价格没涨",但开发者实测后发现,这场"性价比"叙事背后藏着一把换了刻度的尺子。

核心内容

性能与定价的官方叙事

Anthropic将Sonnet 5描述为"迄今为止最能干的Sonnet",重点强化了Agentic能力:模型可以自行拆解任务、调用浏览器和终端工具,完成多步骤工作流后还会主动检查输出。

跑分数据支撑了这一叙事:

  • SWE-bench Pro(Agentic编程):Sonnet 5拿到63.2%,比Sonnet 4.6高出5个百分点,Opus 4.8为69.2%
  • OSWorld-Verified(Computer Use):Sonnet 5为81.2%,Opus 4.8为83.4%,差距仅2.2个百分点
  • GDPval-AA v2(知识工作):Sonnet 5拿到1618分,反超Opus 4.8的1615分

价格方面,Opus 4.8标价每百万输入/输出Token为5/25美元,Sonnet 5为3/15美元,约为Opus的六成,叠加8月底限时优惠则低至四成。从账面看,Sonnet 5以四到六成的价格换来了九成以上的性能。

被分词器掩盖的真实成本

开发者Simon Willison通过实测戳破了这层叙事。Sonnet 5采用了一套新的分词器,同一段文字被切分成更多的Token,导致实际消耗量大幅上升:

  • 英文文档:Sonnet 4.6计2356个Token,Sonnet 5计3341个,涨42%
  • 西班牙语文档:涨33%
  • 4279行Python代码:从44014涨至56118,涨27%
  • 简体中文文档:从3334涨至3360,仅涨1%

这意味着"单价不变"在技术层面没有说谎,但用户实际支付的费用因Token消耗增加而显著上升。

Sonnet 5实际比Opus更贵

更打脸的是实际运行成本。有开发者在Artificial Analysis Intelligent Index上测试发现:

  • Opus 4.8平均每个任务花费1.8美元(加权)
  • Sonnet 5平均花费2.29美元,高出27%

原因在于Sonnet 5完成同一任务消耗的Token数高达Opus的两倍。跑完整个Benchmark,Sonnet 5的总花费比Opus还多出6.8%。

行业定价策略对比

这种"暗涨"与OpenAI今年4月对GPT-5.5的"明涨"形成对比——后者直接将每百万输入/输出Token价格从2.5/15美元翻倍至5/30美元,改动一目了然。Sonnet 5则把涨幅藏在分词器换代的技术细节里,不主动测量便难以察觉。

替代选择

有开发者指出,智谱GLM-5.2的性能与Sonnet 5相差无几,但输入价格仅为Sonnet 5的七成,输出价格不到一半。

关键要点

  • Sonnet 5定位"Opus平替":性能接近Opus 4.8,标价为Opus的六成,限时优惠期低至四成
  • Agentic能力是升级重点:支持任务拆解、浏览器/终端调用、输出自检
  • 新分词器导致Token消耗大增:英文文档涨42%,代码涨27%,简体中文几乎不变
  • 实际花费反超Opus:Sonnet 5单任务平均2.29美元,Opus 4.8为1.8美元;Token消耗达Opus两倍
  • "暗涨"vs"明涨":Anthropic通过分词器换代隐性提价,OpenAI则直接上调标价
  • 开发者建议:用Token计数工具实测真实工作负载,而非仅看价格表
  • 替代方案存在:智谱GLM-5.2性能相近,价格更低

意义与影响

Sonnet 5事件揭示了AI模型定价中一个容易被忽视的盲区:标价只是成本公式的一个变量,分词器效率、Token消耗量同样决定最终账单。对开发者而言,迁移决策不能只看价格页上的数字,必须用真实工作负载实测Token消耗。

从行业角度看,这种"技术细节驱动涨价"的做法若成为常态,将加剧模型定价的不透明度,增加开发者的比价成本。而智谱等厂商的替代方案也在提醒市场,Anthropic并非唯一选择——尤其在"性价比"叙事被打破之后,真正的性价比需要用户自己算清楚。

查看原文 →qbitai.com