← 返回信息流
AI 资讯Hacker News·2 小时前

GLM5.2在AMD MI355X上跑出2626 tok/s/节点,成本低于Blackwell两倍多

原标题:GLM5.2 on AMD MI355X at 2626 tok/s/node at over 2x lower cost than Blackwell

速览

GLM5.2模型在AMD MI355X加速卡上跑出每节点2626 tokens/秒的推理速度,相比英伟达Blackwell架构,成本降低超过2倍。该结果展示了AMD MI355X在AI推理领域的竞争力,可能推动大模型部署的硬件选择多元化。GLM5.2是智谱AI的最新模型,此次性能数据凸显其与AMD硬件的适配优化。

AI 深度解读

背景

随着前沿模型以几乎每两周一款的速度发布(如 Claude Fable、GLM5.2、Minimax M3),推理需求激增,远超供给。NVIDIA 的 Blackwell GPU 供不应求,价格快速攀升,导致 token 成本越来越高。在此背景下,AMD 的 Instinct MI355X 以其约 2.75 倍于 Blackwell 的性价比(MI355X 对比 B300)成为替代方案。然而,AMD 在软件生态和 day-0 支持上长期落后于 NVIDIA,使得前沿模型在 AMD 硬件上达到最优化推理性能往往需要数周的工程调优。Wafer 公司致力于缩小这一差距,本次他们在 AMD MI355X 上成功部署并优化了 GLM5.2 模型,实现了极具竞争力的性能与成本比。

核心内容

Wafer 团队在 TensorWave 提供的 AMD MI355X 集群上,使用 sglang 推理框架和 AMD Quark 量化工具,将 GLM5.2 从 bf16 量化至 MXFP4,并完成了多项关键优化。以下是主要成果:

  • 单节点聚合吞吐量(20k 输入 / 1k 输出,60% 缓存命中率):达到 2626 tok/s/node,请求速率 2.4 RPS,TTFT 首延迟 ≤5s。相比之下,B200 上相同工作负载为 3192 tok/s/node(3.0 RPS),但 MI355X 成本降低超过 2 倍。
  • 单流解码吞吐量(10k 输入 / 1.5k 输出,遵循 Artificial Analysis 标准):达到 213 tok/s。虽未登上 AA 排行榜首位,但在性能/价格比上胜出。

实现过程涉及多个技术步骤:

  1. 量化选择:使用 AMD Quark 将 GLM-5.2 的 bf16 权重降至 MXFP4,在 GPQA-Diamond、tau2、GSM8K 等评测中保持无损(与 z-ai 的官方 FP8 量化相比)。
  2. 推理框架选择:排除 vLLM(无 MXFP4 + GlmMoeDsa 工作路径)和 ATOM(长上下文输出退化),最终选用 sglang,因其对 MXFP4 的原生支持与较低摩擦。
  3. 启用投机解码(Speculative Decode):sglang 的 ROCm 镜像默认不支持投机解码,需要两项修复:
    • MTP 头权重存储为 bf16(而非 MXFP4),但 sglang 的量化查找因模块前缀不匹配而错误地将 MTP 共享专家也当作 MXFP4 加载,导致初始化崩溃。通过将层名映射修正,解除了该阻塞,单流吞吐量提升约 3 倍。
    • 深度投机解码(如 5/1/6 配置)被阻塞,因为融合的多步元数据内核中写入了 #include <cuda_runtime.h> 而未加 ROCm 保护。添加 #ifdef USE_ROCM 宏后修复。
  4. 配置优化:启用 --kv-cache-dtype fp8_e4m3--enable-aiter-allreduce-fusion 等标志,最终单流解码达到 213 tok/s。
  5. 聚合吞吐量优化:工作负载以 prefill 为主。初始 TP8 配置下 prefill 仅 1461 tok/s/node,切换到 TP4×DP2 后提升至 1944 tok/s/node(2.0 RPS)。进一步发现 sglang 镜像中 GLM-5.2 的 fp4 MoE 内核默认使用了较慢的 FlyDSL 启发式回退路径,团队针对 GLM 的 fp4 形状(model_dim=6144, moe_inter=2048, E=256, topk=8)手动调优了 MoE 内核选择,最终达到 2626 tok/s/node(2.4 RPS)。

Wafer 强调,本次优化过程中并未编写自定义 CUDA 内核(与之前 Qwen3.5 397B 的工作不同),仅修复了框架层面的 bug 和配置。这体现了 AMD 平台在软件支持上的进步——瓶颈正从“软件能力”转向“支持成熟度”。CUD 护城河正在实时消融。

关键要点

  • 性价比突破:在单节点推理工作负载上,AMD MI355X 相比 NVIDIA B200 成本降低超过 2 倍,而性能仅损失约 20%(2626 vs 3192 tok/s),实际性价比远优于 Blackwell。
  • MXFP4 量化无损:使用 AMD Quark 将 GLM-5.2 从 bf16 量化至 MXFP4,在多个基准(GPQA-Diamond、tau2、GSM8K)上保持与官方 FP8 量化相当的无损精度。
  • 投机解码的关键修复:sglang 在 ROCm 上缺少对 MTP(Multi-Token Prediction)的原生支持,需要手动修正模块前缀映射和添加 ROCm 宏保护,修复后单流吞吐量提升约 3 倍。
  • prefill 阶段的 MoE 内核调优:默认 sglang 镜像对 fp4 MoE 使用慢速回退内核,通过手动指定 tuned config 实现 prefill 吞吐量从 1944 提升至 2626 tok/s/node。
  • 无需自定义内核:本次优化仅依赖框架配置和 bug 修复,未编写任何自定义 CUDA 内核,表明 AMD ROCm 生态的成熟度正在快速追赶。
  • 单节点部署仍是主流:尽管未考虑多节点性能,但实际应用中单节点部署仍高度普遍,因此本次结果对大多数用户有直接参考价值。

意义与影响

这一案例标志着 AMD 在推理领域的软件生态正在跨越关键门槛。过去,前沿模型在 AMD 硬件上达到 SOTA 性能几乎必须编写自定义内核或深度修改框架,而 Wafer 此次仅通过框架配置和少量 bug 修复便实现了接近 Blackwell 的性能,同时成本减半。这直接证明了:

  • AMD 的硬件潜力正在被释放:Instinct MI355X 的硬件规格(与 B300 接近)加上较低的单价,使其成为高性价比推理的有力竞争者。
  • CUDA 护城河正在侵蚀:随着模型优化工具(如 Quark、sglang、ATOM)对 AMD 的支持逐步成熟,以及像 Wafer 这样的团队持续推动,NVIDIA 在软件上的绝对优势正在削弱。“day-0 支持”不再仅仅是 NVIDIA 的专利。
  • 对市场格局的影响:如果 AMD 能持续降低推理成本并提供可比的性能,将迫使 NVIDIA 在定价和生态建设上做出调整,最终令 AI 推理服务变得更便宜、更可及。尤其对于高频推理场景(如聊天机器人、代码补全、实时翻译),成本下降将直接推动更大规模的部署和应用创新。

当然,完全消除“摩擦”仍需时日——框架中仍存在隐式的 CUDA 依赖(如 #include <cuda_runtime.h>)、MoE 内核选择需要人力调优等。但正如 Wafer 所言,这一差距正在实时收窄。AMD 在推理赛道上的追赶,已从“软件落后”转向“支持完善”,而后者可以随着社区贡献和框架迭代快速补齐。对于追求成本效益的企业而言,现在正是认真评估 AMD 平台的关键时刻。

查看原文 →wafer.ai