神秘的 Hy3 大模型在 OpenRouter 排行榜上大幅领先
速览
名为 Hy3 的神秘大语言模型在 OpenRouter 平台的模型排行榜中占据了显著优势,以大幅领先的成绩登顶。这一现象级表现揭示了该模型在推理能力或性价比上的潜在突破。其背后的开发团队身份尚不明确,但其优异表现已引起 AI 社区的强烈关注。
AI 深度解读
深度解读:OpenRouter 榜单上的神秘 Hy3 模型——是技术突破还是经济陷阱?
背景
OpenRouter 作为一个聚合了众多大语言模型(LLM)API 的服务商,凭借其统一的接口极大地简化了开发者接入不同模型的流程。由于其在用户与模型提供商之间扮演中介角色,OpenRouter 积累了关于用户如何与 LLM 交互的丰富数据,并定期在“AI 模型排名”页面公开这些数据。这种透明度在竞争激烈的 AI 行业中显得尤为珍贵,因为大多数模型实验室通常出于商业机密考虑而隐藏此类数据。
近期,作者在浏览 OpenRouter 的模型排名时发现了一个异常现象:两个新出现的模型在令牌(Token)使用量上大幅超越了备受推崇的 Claude 模型,增幅超过 50%。其中一个是开源模型 DeepSeek Flash V4,其凭借高性价比和接近顶级模型的性能而广受欢迎,这并不令人意外。然而,另一个名为 Hy3 preview 的模型却鲜为人知,甚至引发了作者的困惑与质疑。
核心内容
1. 神秘模型 Hy3 的出现与初步调查
Hy3 preview 是由中国科技巨头腾讯(Tencent)开源发布的模型。然而,在公开网络上关于它的讨论极少:Hugging Face 上的模型页面信息稀疏,且包含了一些并不利于该模型与其他中国开源模型对比的基准测试结果。在 Hacker News 和 Reddit 上,关于 Hy3 的讨论寥寥无几,Reddit 上仅有的相关讨论主要集中在其开源权重的发布,且时间可追溯至 5 月 6 日当时 OpenRouter 提供免费访问服务的时期。
值得注意的是,目前 OpenRouter 排名中的 Hy3 使用数据来自付费用户,因为免费接口已不再可用。尽管在代理编程(agentic coding)以外的领域也观察到其流行,但作者经过非科学性的测试发现,Hy3 的质量实际上与其他中国开源模型相当,远未达到 Claude Opus 4.7 或 GPT 5.5 的水平。这表明 Hy3 的高排名并非源于其卓越的技术性能。
2. 价格优势与使用数据的矛盾
Hy3 preview 在 OpenRouter 上的标价约为 $0.066/百万输入令牌,确实低于当前排名第一的 DeepSeek V4 Flash($0.10/百万输入令牌)。在 LLM 和编码代理成本急剧上升的背景下,低价模型占据主导地位看似合理,但前提是它需提供相似的质量。然而,数据揭示了更深层的问题:
- 有机增长迹象:Hy3 在 5 月 8 日(从免费转为付费 SKU 的时间点)之前没有任何使用数据。此后使用量保持稳定,且持续数周,表明其增长是自然的(或伪造成本极高),而非一次性异常值。
- 输入令牌占比极高:计算显示,LLM API 调用中,输入令牌与输出令牌的比例高达 98% : 2%。这意味着用户主要是在为“输入”付费,而非生成内容。
- 非应用驱动:历史上,特定应用(如 Kilo Code 在 2025 年 9 月免费推广 Grok Code Fast 1)的默认切换曾导致排名飙升,但 Hy3 的活动主要来自普通用户,而非单一应用的集中使用。
3. 供应商垄断与缓存机制的真相
Hy3 preview 在 OpenRouter 上仅有一个提供商:SiliconFlow(一家新加坡公司)。尽管模型是开源的,但 OpenRouter 并未列出其他提供商。数据显示,在 Hy3 出现之前,SiliconFlow 的使用量相对较少,而 Hy3 的引入使其流量激增。有趣的是,即使从免费转为付费,SiliconFlow 的使用量并未大幅下降,这暗示用户可能并未因成本增加而停止使用,或者该模型具有某种粘性。
4. 被忽视的经济现实:缓存对定价的影响
文章深入探讨了 LLM 的经济模型,指出大多数 LLM 调用是无状态的,这意味着随着对话上下文变长,输入令牌的数量会累积增加。为了优化成本,大多数提供商引入了**提示缓存(Prompt Caching)**机制,即重用之前处理过的输入令牌。
- 缓存成本差异:通常,缓存读取成本是输入成本的 10% 左右(如 OpenAI、Anthropic、Google)。然而,服务于 DeepSeek V4 Flash 的 13 个提供商中,缓存读取成本在 20%-50% 之间。
- DeepSeek 的特殊优势:DeepSeek 自身作为提供商时,实施了创新的 KV 缓存策略。其 DeepSeek V4 Pro 变体的缓存读取成本仅为 0.83%,而 DeepSeek V4 Flash 的缓存读取成本仅为 2%。
- 有效价格的误导:由于 98% 的成本来自输入令牌,且这些令牌被积极缓存,“名义价格”往往具有误导性。OpenRouter 提供的“有效价格”表考虑了缓存命中带来的节省。
- DeepSeek V4 Flash(通过 DeepSeek 官方提供商):有效价格低至 $0.018/百万输入令牌。
- Hy3 preview(通过 SiliconFlow 提供商):有效价格为 $0.034/百万输入令牌,缓存读取成本高达 44%。
5. 结论:Hy3 并非最便宜的优质选择
通过对比有效价格,Hy3 preview 实际上比 DeepSeek V4 Flash(由 DeepSeek 直接提供服务时)贵了近一倍。Hy3 的高排名并非因为其性价比最高,也不是因为技术最先进。作者指出,DeepSeek 是一家中国公司,这一地缘政治背景可能在模型分发和定价策略中扮演了微妙角色,但文章主要聚焦于技术经济层面的分析。
关键要点
- Hy3 模型身份:由腾讯开源,但在公开讨论中热度极低,Hugging Face 基准测试结果并不突出。
- 排名异常原因:Hy3 在 OpenRouter 上的高使用量并非源于技术卓越,而是源于其相对较低的名义价格($0.066 vs DeepSeek 的 $0.10),但这忽略了缓存机制的影响。
- 缓存机制的关键作用:LLM 成本中 98% 来自输入令牌,缓存命中率对最终成本影响巨大。DeepSeek 通过极低的缓存读取成本(2%)实现了远低于名义价格的有效价格($0.018)。
- 有效价格对比:Hy3 通过 SiliconFlow 提供的有效价格($0.034)实际上是 DeepSeek 官方提供商有效价格($0.018)的近两倍。
- 供应商集中度:Hy3 在 OpenRouter 上仅由 SiliconFlow 一家提供商服务,这与 DeepSeek V4 Flash 拥有 13 家提供商形成鲜明对比,限制了用户的成本优化空间。
- 市场信号:用户可能因免费试用期的“损失领导者”策略而留存,或者对缓存节省机制缺乏了解,导致他们选择了名义上便宜但实际有效成本更高的模型。
意义与影响
-
LLM 定价模型的透明度需求: 随着 LLM 应用向代理(Agent)和长上下文场景发展,输入令牌的成本占比急剧上升。传统的“每百万令牌价格”标签已不足以反映真实成本。OpenRouter 引入“有效价格”表是行业向更透明、更精细的定价机制迈进的重要一步。开发者必须关注缓存策略和提供商的缓存成本,否则可能会在不知不觉中支付更高的费用。
-
开源模型的商业化路径: Hy3 的案例表明,仅仅开源并不足以保证市场竞争力。即使模型由巨头(如腾讯)支持,如果缺乏高效的推理基础设施(如低成本的缓存服务)或独特的性能优势,很难在激烈的 API 市场中脱颖而出。相比之下,DeepSeek 通过优化底层基础设施(KV 缓存)实现了显著的成本优势,这为其赢得了市场主导地位。
-
供应商锁定与竞争: Hy3 仅由 SiliconFlow 一家提供商服务,这引发了对市场竞争和供应商多样性的担忧。如果用户无法通过竞争性的提供商网络获得更低的有效价格,他们可能会受到特定供应商定价策略的制约。OpenRouter 作为中介,其价值部分体现在通过多提供商路由来优化成本和性能,
