← 返回信息流
Agent SkillLINUX DO · AI·1 小时前

火山Coding灰度测试:GLM路由至GPT-5.5和Claude-Opus-4.7

原标题:火山coding/agent plan将所有账户的glm-5.1被指向gpt-5.5,部分账户的glm-5.2被指向claude-opus-4-7和gpt-5.5,计费不变。看看你抽到了哪个模型

速览

火山Coding/Agent Plan正在进行灰度测试,将部分账户的GLM-5.1和GLM-5.2模型路由至GPT-5.5和Claude-Opus-4.7。测试通过Token计数差异和风格对比确认了具体模型,且计费仍按GLM-5.2标准执行。此举可能旨在收集数据或进行模型蒸馏,为缺乏GPT渠道的用户提供了新选择。

AI 深度解读

背景

近期,字节跳动旗下的火山引擎(Volcengine)推出了 Coding/Agent Plan 服务。随着其内部模型 Seed-2.1-pro 的发布,部分用户发现该路由服务的实际表现与预期存在偏差,引发了关于后端实际调用模型的猜测。为了验证这一假设,社区用户通过技术手段对火山 Coding Plan(以下简称火山 CP)背后的模型路由机制进行了逆向工程分析。

核心疑点在于:火山 CP 是否真的在调用字节自家的 Seed 系列模型,还是说在灰度测试阶段,将部分或全部流量路由到了第三方顶级模型(如 Anthropic 的 Claude 系列或 OpenAI 的 GPT 系列)?由于不同模型的分词器(Tokenizer)对相同文本生成的 Token 计数存在差异,这成为了识别底层模型的关键突破口。

核心内容

作者通过“增量 Token 计数法”和“风格/提示词测试”,对多个灰度账户进行了详细的模型指纹识别。以下是具体的测试逻辑与结论:

1. 测试原理:Token 计数差异

不同模型使用不同的分词器,对同一段文本生成的 Token 数量不同。即使存在系统提示词(System Prompt),通过计算两段文本(一段基础文本和一段增加少量内容的文本)的 Token 差值,可以排除系统提示词的干扰,从而精准定位底层模型。

2. 基准测试:确认 glm-5.2

首先以官方渠道的 GLM 模型作为基准。

  • 初始输入 Token:15
  • 增量 Token:64
  • 结论:测试账户在默认设置下,火山 CP 与官方渠道的 Token 计数完全一致,确认基础模型为 glm-5.2,且大概率未添加额外的系统提示词。

3. 灰度账户 1:识别为 Claude 系列

测试一个被标记为“灰度火山 CP1”的账户。

  • 初始输入 Token:18
  • 增量 Token:114
  • 对比分析
    • Claude Opus 4.6:初始 14,增量 70
    • Claude Opus 4.7:初始 18,增量 114
    • Claude Opus 4.8:初始 12,增量 114
  • 风格佐证:该账户回复语气热情,爱用 Emoji,符合 Claude 系列的人格特征。
  • 结论:结合 Token 计数完全匹配及风格特征,判定该账户后端路由为 claude-opus-4-7(简称 4.7op)。同时确认该路由未添加火山自有的系统提示词。

4. 灰度账户 2:识别为 GPT 系列

测试另一个“灰度火山 CP2”账户。

  • 初始输入 Token:9
  • 增量 Token:60
  • 对比分析:该计数与 GLM 和 Claude 均不匹配,且 Token 消耗极低,符合 OpenAI GPT 系列的分词特征。
  • 风格测试:通过特定提示词进行风格比对,排除 GPT-5.2/5.3/5.4 等其他版本。
  • 计费验证:对比 Juice 值(计费单位),与官方 API 数值完全一致。
  • 结论:判定该账户后端路由为 gpt-5.5

5. 最终路由策略总结

经过多方验证,火山 Coding Plan/Agent Plan 当前的灰度策略如下:

  • 模型指向
    • 选择 glm-5.1:稳定路由至 gpt-5.5
    • 部分账户选择 glm-5.2:路由至 claude-opus-4-7gpt-5.5
  • 计费方式:无论后端路由为何种模型,计费标准依然按照 glm-5.2 的价格执行。
  • 提示词情况:从 GLM 和 GPT 的测试结果来看,火山并未在路由过程中添加额外的系统提示词,保持了模型的“纯净”度。

关键要点

  • 技术验证方法:利用不同模型分词器的 Token 计数差异(特别是增量法)是识别黑盒路由模型的有效手段。
  • 实际模型构成:火山 Coding Plan 并非完全使用字节自家模型,而是混合了第三方顶级模型。
    • Claude 模型:确认为 claude-opus-4-7
    • GPT 模型:确认为 gpt-5.5
  • 价格优势:用户以 GLM-5.2 的价格,获得了 GPT-5.5 或 Claude Opus 4.7 的服务,性价比极高。
  • 路由稳定性:选择 GLM-5.1 选项时,会稳定指向 GPT-5.5,适合急需 GPT 系列能力的用户。
  • 无额外提示词:路由过程未添加火山自有的 System Prompt,模型输出风格保持原生。

意义与影响

这一发现揭示了当前大模型服务市场中一种新的竞争策略:“套壳”与数据蒸馏

  1. 极高的性价比:对于开发者而言,火山 Coding Plan 提供了一种以较低成本获取 SOTA(State-of-the-Art)模型能力的途径。特别是对于需要 GPT-5.5 或 Claude Opus 级别推理能力,但受限于预算的用户,这是一个极具吸引力的替代方案。
  2. 字节跳动的战略意图
    • 数据收集:通过路由第三方模型,字节跳动可以收集高质量的对话数据,用于优化自家模型(如 Seed 系列)的训练。
    • 蒸馏技术:利用顶级模型生成高质量数据,进而蒸馏到自家模型中,是提升模型性能的有效路径。
    • 市场试探:通过灰度测试,观察用户对不同模型路由的反馈,为后续产品迭代提供数据支持。
  3. 对开源/私有模型生态的冲击:这种策略表明,即使是大型科技公司,也在积极整合全球最优质的模型资源,而非完全依赖自研。这也提醒用户,在选择云服务时,不应仅关注厂商宣传的“自研模型”,而应关注实际调用的模型版本及其性能表现。

总之,火山 Coding Plan 目前处于一个“用国产价格买全球顶级模型”的红利期。对于缺 GPT 或 Claude 资源的用户,购买字节的 Coding/Agent Plan 是一个值得考虑的策略。

查看原文 →linux.do