火山Coding灰度测试:GLM路由至GPT-5.5和Claude-Opus-4.7
速览
火山Coding/Agent Plan正在进行灰度测试,将部分账户的GLM-5.1和GLM-5.2模型路由至GPT-5.5和Claude-Opus-4.7。测试通过Token计数差异和风格对比确认了具体模型,且计费仍按GLM-5.2标准执行。此举可能旨在收集数据或进行模型蒸馏,为缺乏GPT渠道的用户提供了新选择。
AI 深度解读
背景
近期,字节跳动旗下的火山引擎(Volcengine)推出了 Coding/Agent Plan 服务。随着其内部模型 Seed-2.1-pro 的发布,部分用户发现该路由服务的实际表现与预期存在偏差,引发了关于后端实际调用模型的猜测。为了验证这一假设,社区用户通过技术手段对火山 Coding Plan(以下简称火山 CP)背后的模型路由机制进行了逆向工程分析。
核心疑点在于:火山 CP 是否真的在调用字节自家的 Seed 系列模型,还是说在灰度测试阶段,将部分或全部流量路由到了第三方顶级模型(如 Anthropic 的 Claude 系列或 OpenAI 的 GPT 系列)?由于不同模型的分词器(Tokenizer)对相同文本生成的 Token 计数存在差异,这成为了识别底层模型的关键突破口。
核心内容
作者通过“增量 Token 计数法”和“风格/提示词测试”,对多个灰度账户进行了详细的模型指纹识别。以下是具体的测试逻辑与结论:
1. 测试原理:Token 计数差异
不同模型使用不同的分词器,对同一段文本生成的 Token 数量不同。即使存在系统提示词(System Prompt),通过计算两段文本(一段基础文本和一段增加少量内容的文本)的 Token 差值,可以排除系统提示词的干扰,从而精准定位底层模型。
2. 基准测试:确认 glm-5.2
首先以官方渠道的 GLM 模型作为基准。
- 初始输入 Token:15
- 增量 Token:64
- 结论:测试账户在默认设置下,火山 CP 与官方渠道的 Token 计数完全一致,确认基础模型为 glm-5.2,且大概率未添加额外的系统提示词。
3. 灰度账户 1:识别为 Claude 系列
测试一个被标记为“灰度火山 CP1”的账户。
- 初始输入 Token:18
- 增量 Token:114
- 对比分析:
- Claude Opus 4.6:初始 14,增量 70
- Claude Opus 4.7:初始 18,增量 114
- Claude Opus 4.8:初始 12,增量 114
- 风格佐证:该账户回复语气热情,爱用 Emoji,符合 Claude 系列的人格特征。
- 结论:结合 Token 计数完全匹配及风格特征,判定该账户后端路由为 claude-opus-4-7(简称 4.7op)。同时确认该路由未添加火山自有的系统提示词。
4. 灰度账户 2:识别为 GPT 系列
测试另一个“灰度火山 CP2”账户。
- 初始输入 Token:9
- 增量 Token:60
- 对比分析:该计数与 GLM 和 Claude 均不匹配,且 Token 消耗极低,符合 OpenAI GPT 系列的分词特征。
- 风格测试:通过特定提示词进行风格比对,排除 GPT-5.2/5.3/5.4 等其他版本。
- 计费验证:对比 Juice 值(计费单位),与官方 API 数值完全一致。
- 结论:判定该账户后端路由为 gpt-5.5。
5. 最终路由策略总结
经过多方验证,火山 Coding Plan/Agent Plan 当前的灰度策略如下:
- 模型指向:
- 选择 glm-5.1:稳定路由至 gpt-5.5。
- 部分账户选择 glm-5.2:路由至 claude-opus-4-7 或 gpt-5.5。
- 计费方式:无论后端路由为何种模型,计费标准依然按照 glm-5.2 的价格执行。
- 提示词情况:从 GLM 和 GPT 的测试结果来看,火山并未在路由过程中添加额外的系统提示词,保持了模型的“纯净”度。
关键要点
- 技术验证方法:利用不同模型分词器的 Token 计数差异(特别是增量法)是识别黑盒路由模型的有效手段。
- 实际模型构成:火山 Coding Plan 并非完全使用字节自家模型,而是混合了第三方顶级模型。
- Claude 模型:确认为 claude-opus-4-7。
- GPT 模型:确认为 gpt-5.5。
- 价格优势:用户以 GLM-5.2 的价格,获得了 GPT-5.5 或 Claude Opus 4.7 的服务,性价比极高。
- 路由稳定性:选择 GLM-5.1 选项时,会稳定指向 GPT-5.5,适合急需 GPT 系列能力的用户。
- 无额外提示词:路由过程未添加火山自有的 System Prompt,模型输出风格保持原生。
意义与影响
这一发现揭示了当前大模型服务市场中一种新的竞争策略:“套壳”与数据蒸馏。
- 极高的性价比:对于开发者而言,火山 Coding Plan 提供了一种以较低成本获取 SOTA(State-of-the-Art)模型能力的途径。特别是对于需要 GPT-5.5 或 Claude Opus 级别推理能力,但受限于预算的用户,这是一个极具吸引力的替代方案。
- 字节跳动的战略意图:
- 数据收集:通过路由第三方模型,字节跳动可以收集高质量的对话数据,用于优化自家模型(如 Seed 系列)的训练。
- 蒸馏技术:利用顶级模型生成高质量数据,进而蒸馏到自家模型中,是提升模型性能的有效路径。
- 市场试探:通过灰度测试,观察用户对不同模型路由的反馈,为后续产品迭代提供数据支持。
- 对开源/私有模型生态的冲击:这种策略表明,即使是大型科技公司,也在积极整合全球最优质的模型资源,而非完全依赖自研。这也提醒用户,在选择云服务时,不应仅关注厂商宣传的“自研模型”,而应关注实际调用的模型版本及其性能表现。
总之,火山 Coding Plan 目前处于一个“用国产价格买全球顶级模型”的红利期。对于缺 GPT 或 Claude 资源的用户,购买字节的 Coding/Agent Plan 是一个值得考虑的策略。
