← 返回信息流
Agent SkillLINUX DO · AI·1 小时前

豆包新模型灰度测试表现SOTA,SVG生成能力比肩GPT-5.6

原标题:豆包新模型测试效果SOTA比肩fable5和gpt5.6

速览

字节跳动旗下豆包新模型近日在火山方舟CodingPlan进行灰度测试,该模型支持1M上下文窗口,最大token数为131072。实测显示其SVG生成质量极高,被认为达到SOTA水平,与GPT-5.6及Fable5相当。尽管部分测试为单轮生成且未经过Agent环境验证,但其综合表现仍获高度评价。

AI 深度解读

背景

近期,字节跳动旗下的豆包(Doubao)推出了一款备受瞩目的新模型,并在火山方舟(Volcengine Ark)的 Coding Plan 项目中开启了灰度测试。该模型通过概率路由机制,与 GLM-5.2、Kimi-K2.7-Code、MiniMax-M3 等第三方知名模型共同提供服务。据社区观察,这一被路由到的“神秘模型”即为豆包的新成员,其代号可能与 Arena 相关。这一动态迅速在 LINUX DO 等开发者社区引发热议,用户对其性能表现,特别是在 SVG 生成和代码能力方面的表现进行了初步测试与评估。

核心内容

本次分享主要围绕豆包新模型的技术参数、测试环境及实际表现展开。

技术规格与路由机制 该新模型支持高达 1M 的上下文窗口,max_tokens 最大值为 131072。其推理速度(TPS)表现优异,官方数据显示约为 100 TPS,测试者实测极限可达 163 TPS。在思维链(CoT)方面,该模型采用“思维摘要”模式。

值得注意的是,测试中涉及复杂的路由逻辑。部分标注为 M3 或 K2.7 的文件,并非由 MiniMax-M3 或 Kimi-K2.7 直接生成,而是通过路由机制间接生成的。具体而言,标注 M3 的文件对应的是经过 M3 路由的思考版本,而标注 K2.7 的文件则对应经过 K2.7 路由的无思考版本。

测试方法与局限性 所有测试均基于 One-shot(单次生成)模式,即模型单次生成的 HTML/SVG 效果。测试者特别强调,这些结果未能在 Agent 环境中进行验证,因此仅反映单次生成的直接输出能力。

性能评估与对比 在 SVG 生成质量方面,该新模型表现强劲,测试者认为其可跻身 SVG 生成模型的前三名。其质量与 GPT-5.6 检查点(Checkpoint)及 Fable5 模型相当。社区用户通过对比“豆包新模型”与 Design Arena 上的 Fable5(具体思考深度不明)生成的相同提示词结果,直观展示了其竞争力。

实际案例展示 测试者分享了多组生成案例,包括精灵宝可梦、投石机、天气卡等 SVG 图像,以佐证其生成质量的稳定性和多样性。

综合评价 基于上述测试,测试者对该模型给出了“夯”(意为扎实、强劲)的综合评价。

关键要点

  • 模型身份与来源:豆包新模型在火山方舟 Coding Plan 中灰度,通过概率路由与 GLM-5.2、Kimi-K2.7-Code、MiniMax-M3 等模型混合服务。
  • 核心参数:支持 1M 上下文窗口,最大 token 数 131072,TPS 约 100(实测极限 163),采用思维摘要模式。
  • 路由混淆说明:测试数据中,标注 M3 或 K2.7 的文件并非原生生成,而是通过相应模型路由后的产物(M3 为思考版,K2.7 为无思考版)。
  • 测试局限:所有测试均为 One-shot 单次生成,未涉及 Agent 环境下的多步交互或修正。
  • SVG 能力评级:SVG 生成质量极强,位列前三,与 GPT-5.6 检查点和 Fable5 处于同一梯队。
  • 社区反馈:LINUX DO 社区参与者对该模型持积极态度,认为其性能足以与当前顶尖模型(如 GPT-5.6 系列)比肩。

意义与影响

豆包新模型的亮相标志着国内大模型在代码生成与可视化(SVG)领域的竞争力进一步提升。其 1M 上下文窗口和高速推理能力(163 TPS)表明,国产模型在长文本处理和实时交互体验上已具备与国际顶尖水平抗衡的实力。

此外,概率路由机制的引入,使得用户在使用火山方舟时可能无感地体验到不同模型的特性,这既优化了资源分配,也增加了模型能力的多样性。对于开发者而言,该模型在 SVG 生成上的优异表现,为前端开发、数据可视化及创意生成提供了新的强力工具。尽管测试局限于 One-shot 模式,但其与 GPT-5.6 和 Fable5 的接近表现,预示着其在复杂工作流中可能具备更高的可用性和可靠性,值得进一步在 Agent 环境中进行深度验证。

查看原文 →linux.do