Agent SkillLINUX DO · AI·1 小时前

火山Coding灰度测试：GLM路由至GPT-5.5和Claude-Opus-4.7

原标题：火山coding/agent plan将所有账户的glm-5.1被指向gpt-5.5，部分账户的glm-5.2被指向claude-opus-4-7和gpt-5.5，计费不变。看看你抽到了哪个模型

速览

火山Coding/Agent Plan正在进行灰度测试，将部分账户的GLM-5.1和GLM-5.2模型路由至GPT-5.5和Claude-Opus-4.7。测试通过Token计数差异和风格对比确认了具体模型，且计费仍按GLM-5.2标准执行。此举可能旨在收集数据或进行模型蒸馏，为缺乏GPT渠道的用户提供了新选择。

AI 深度解读

背景

近期，字节跳动旗下的火山引擎（Volcengine）推出了 Coding/Agent Plan 服务。随着其内部模型 Seed-2.1-pro 的发布，部分用户发现该路由服务的实际表现与预期存在偏差，引发了关于后端实际调用模型的猜测。为了验证这一假设，社区用户通过技术手段对火山 Coding Plan（以下简称火山 CP）背后的模型路由机制进行了逆向工程分析。

核心疑点在于：火山 CP 是否真的在调用字节自家的 Seed 系列模型，还是说在灰度测试阶段，将部分或全部流量路由到了第三方顶级模型（如 Anthropic 的 Claude 系列或 OpenAI 的 GPT 系列）？由于不同模型的分词器（Tokenizer）对相同文本生成的 Token 计数存在差异，这成为了识别底层模型的关键突破口。

核心内容

作者通过“增量 Token 计数法”和“风格/提示词测试”，对多个灰度账户进行了详细的模型指纹识别。以下是具体的测试逻辑与结论：

1. 测试原理：Token 计数差异

不同模型使用不同的分词器，对同一段文本生成的 Token 数量不同。即使存在系统提示词（System Prompt），通过计算两段文本（一段基础文本和一段增加少量内容的文本）的 Token 差值，可以排除系统提示词的干扰，从而精准定位底层模型。

2. 基准测试：确认 glm-5.2

首先以官方渠道的 GLM 模型作为基准。

初始输入 Token：15
增量 Token：64
结论：测试账户在默认设置下，火山 CP 与官方渠道的 Token 计数完全一致，确认基础模型为 glm-5.2，且大概率未添加额外的系统提示词。

3. 灰度账户 1：识别为 Claude 系列

测试一个被标记为“灰度火山 CP1”的账户。

初始输入 Token：18
增量 Token：114
对比分析：
- Claude Opus 4.6：初始 14，增量 70
- Claude Opus 4.7：初始 18，增量 114
- Claude Opus 4.8：初始 12，增量 114
风格佐证：该账户回复语气热情，爱用 Emoji，符合 Claude 系列的人格特征。
结论：结合 Token 计数完全匹配及风格特征，判定该账户后端路由为 claude-opus-4-7（简称 4.7op）。同时确认该路由未添加火山自有的系统提示词。

4. 灰度账户 2：识别为 GPT 系列

测试另一个“灰度火山 CP2”账户。

初始输入 Token：9
增量 Token：60
对比分析：该计数与 GLM 和 Claude 均不匹配，且 Token 消耗极低，符合 OpenAI GPT 系列的分词特征。
风格测试：通过特定提示词进行风格比对，排除 GPT-5.2/5.3/5.4 等其他版本。
计费验证：对比 Juice 值（计费单位），与官方 API 数值完全一致。
结论：判定该账户后端路由为 gpt-5.5。

5. 最终路由策略总结

经过多方验证，火山 Coding Plan/Agent Plan 当前的灰度策略如下：

模型指向：
- 选择 glm-5.1：稳定路由至 gpt-5.5。
- 部分账户选择 glm-5.2：路由至 claude-opus-4-7 或 gpt-5.5。
计费方式：无论后端路由为何种模型，计费标准依然按照 glm-5.2 的价格执行。
提示词情况：从 GLM 和 GPT 的测试结果来看，火山并未在路由过程中添加额外的系统提示词，保持了模型的“纯净”度。

关键要点

技术验证方法：利用不同模型分词器的 Token 计数差异（特别是增量法）是识别黑盒路由模型的有效手段。
实际模型构成：火山 Coding Plan 并非完全使用字节自家模型，而是混合了第三方顶级模型。
- Claude 模型：确认为 claude-opus-4-7。
- GPT 模型：确认为 gpt-5.5。
价格优势：用户以 GLM-5.2 的价格，获得了 GPT-5.5 或 Claude Opus 4.7 的服务，性价比极高。
路由稳定性：选择 GLM-5.1 选项时，会稳定指向 GPT-5.5，适合急需 GPT 系列能力的用户。
无额外提示词：路由过程未添加火山自有的 System Prompt，模型输出风格保持原生。

意义与影响

这一发现揭示了当前大模型服务市场中一种新的竞争策略：“套壳”与数据蒸馏。

极高的性价比：对于开发者而言，火山 Coding Plan 提供了一种以较低成本获取 SOTA（State-of-the-Art）模型能力的途径。特别是对于需要 GPT-5.5 或 Claude Opus 级别推理能力，但受限于预算的用户，这是一个极具吸引力的替代方案。
字节跳动的战略意图：
- 数据收集：通过路由第三方模型，字节跳动可以收集高质量的对话数据，用于优化自家模型（如 Seed 系列）的训练。
- 蒸馏技术：利用顶级模型生成高质量数据，进而蒸馏到自家模型中，是提升模型性能的有效路径。
- 市场试探：通过灰度测试，观察用户对不同模型路由的反馈，为后续产品迭代提供数据支持。
对开源/私有模型生态的冲击：这种策略表明，即使是大型科技公司，也在积极整合全球最优质的模型资源，而非完全依赖自研。这也提醒用户，在选择云服务时，不应仅关注厂商宣传的“自研模型”，而应关注实际调用的模型版本及其性能表现。

总之，火山 Coding Plan 目前处于一个“用国产价格买全球顶级模型”的红利期。对于缺 GPT 或 Claude 资源的用户，购买字节的 Coding/Agent Plan 是一个值得考虑的策略。

查看原文 →linux.do