AI 资讯Hacker News·2 小时前

GLM5.2在AMD MI355X上跑出2626 tok/s/节点，成本低于Blackwell两倍多

原标题：GLM5.2 on AMD MI355X at 2626 tok/s/node at over 2x lower cost than Blackwell

速览

GLM5.2模型在AMD MI355X加速卡上跑出每节点2626 tokens/秒的推理速度，相比英伟达Blackwell架构，成本降低超过2倍。该结果展示了AMD MI355X在AI推理领域的竞争力，可能推动大模型部署的硬件选择多元化。GLM5.2是智谱AI的最新模型，此次性能数据凸显其与AMD硬件的适配优化。

AI 深度解读

背景

随着前沿模型以几乎每两周一款的速度发布（如 Claude Fable、GLM5.2、Minimax M3），推理需求激增，远超供给。NVIDIA 的 Blackwell GPU 供不应求，价格快速攀升，导致 token 成本越来越高。在此背景下，AMD 的 Instinct MI355X 以其约 2.75 倍于 Blackwell 的性价比（MI355X 对比 B300）成为替代方案。然而，AMD 在软件生态和 day-0 支持上长期落后于 NVIDIA，使得前沿模型在 AMD 硬件上达到最优化推理性能往往需要数周的工程调优。Wafer 公司致力于缩小这一差距，本次他们在 AMD MI355X 上成功部署并优化了 GLM5.2 模型，实现了极具竞争力的性能与成本比。

核心内容

Wafer 团队在 TensorWave 提供的 AMD MI355X 集群上，使用 sglang 推理框架和 AMD Quark 量化工具，将 GLM5.2 从 bf16 量化至 MXFP4，并完成了多项关键优化。以下是主要成果：

单节点聚合吞吐量（20k 输入 / 1k 输出，60% 缓存命中率）：达到 2626 tok/s/node，请求速率 2.4 RPS，TTFT 首延迟 ≤5s。相比之下，B200 上相同工作负载为 3192 tok/s/node（3.0 RPS），但 MI355X 成本降低超过 2 倍。
单流解码吞吐量（10k 输入 / 1.5k 输出，遵循 Artificial Analysis 标准）：达到 213 tok/s。虽未登上 AA 排行榜首位，但在性能/价格比上胜出。

实现过程涉及多个技术步骤：

量化选择：使用 AMD Quark 将 GLM-5.2 的 bf16 权重降至 MXFP4，在 GPQA-Diamond、tau2、GSM8K 等评测中保持无损（与 z-ai 的官方 FP8 量化相比）。
推理框架选择：排除 vLLM（无 MXFP4 + GlmMoeDsa 工作路径）和 ATOM（长上下文输出退化），最终选用 sglang，因其对 MXFP4 的原生支持与较低摩擦。
启用投机解码（Speculative Decode）：sglang 的 ROCm 镜像默认不支持投机解码，需要两项修复：
- MTP 头权重存储为 bf16（而非 MXFP4），但 sglang 的量化查找因模块前缀不匹配而错误地将 MTP 共享专家也当作 MXFP4 加载，导致初始化崩溃。通过将层名映射修正，解除了该阻塞，单流吞吐量提升约 3 倍。
- 深度投机解码（如 5/1/6 配置）被阻塞，因为融合的多步元数据内核中写入了 #include <cuda_runtime.h> 而未加 ROCm 保护。添加 #ifdef USE_ROCM 宏后修复。
配置优化：启用 --kv-cache-dtype fp8_e4m3 和 --enable-aiter-allreduce-fusion 等标志，最终单流解码达到 213 tok/s。
聚合吞吐量优化：工作负载以 prefill 为主。初始 TP8 配置下 prefill 仅 1461 tok/s/node，切换到 TP4×DP2 后提升至 1944 tok/s/node（2.0 RPS）。进一步发现 sglang 镜像中 GLM-5.2 的 fp4 MoE 内核默认使用了较慢的 FlyDSL 启发式回退路径，团队针对 GLM 的 fp4 形状（model_dim=6144, moe_inter=2048, E=256, topk=8）手动调优了 MoE 内核选择，最终达到 2626 tok/s/node（2.4 RPS）。

Wafer 强调，本次优化过程中并未编写自定义 CUDA 内核（与之前 Qwen3.5 397B 的工作不同），仅修复了框架层面的 bug 和配置。这体现了 AMD 平台在软件支持上的进步——瓶颈正从“软件能力”转向“支持成熟度”。CUD 护城河正在实时消融。

关键要点

性价比突破：在单节点推理工作负载上，AMD MI355X 相比 NVIDIA B200 成本降低超过 2 倍，而性能仅损失约 20%（2626 vs 3192 tok/s），实际性价比远优于 Blackwell。
MXFP4 量化无损：使用 AMD Quark 将 GLM-5.2 从 bf16 量化至 MXFP4，在多个基准（GPQA-Diamond、tau2、GSM8K）上保持与官方 FP8 量化相当的无损精度。
投机解码的关键修复：sglang 在 ROCm 上缺少对 MTP（Multi-Token Prediction）的原生支持，需要手动修正模块前缀映射和添加 ROCm 宏保护，修复后单流吞吐量提升约 3 倍。
prefill 阶段的 MoE 内核调优：默认 sglang 镜像对 fp4 MoE 使用慢速回退内核，通过手动指定 tuned config 实现 prefill 吞吐量从 1944 提升至 2626 tok/s/node。
无需自定义内核：本次优化仅依赖框架配置和 bug 修复，未编写任何自定义 CUDA 内核，表明 AMD ROCm 生态的成熟度正在快速追赶。
单节点部署仍是主流：尽管未考虑多节点性能，但实际应用中单节点部署仍高度普遍，因此本次结果对大多数用户有直接参考价值。

意义与影响

这一案例标志着 AMD 在推理领域的软件生态正在跨越关键门槛。过去，前沿模型在 AMD 硬件上达到 SOTA 性能几乎必须编写自定义内核或深度修改框架，而 Wafer 此次仅通过框架配置和少量 bug 修复便实现了接近 Blackwell 的性能，同时成本减半。这直接证明了：

AMD 的硬件潜力正在被释放：Instinct MI355X 的硬件规格（与 B300 接近）加上较低的单价，使其成为高性价比推理的有力竞争者。
CUDA 护城河正在侵蚀：随着模型优化工具（如 Quark、sglang、ATOM）对 AMD 的支持逐步成熟，以及像 Wafer 这样的团队持续推动，NVIDIA 在软件上的绝对优势正在削弱。“day-0 支持”不再仅仅是 NVIDIA 的专利。
对市场格局的影响：如果 AMD 能持续降低推理成本并提供可比的性能，将迫使 NVIDIA 在定价和生态建设上做出调整，最终令 AI 推理服务变得更便宜、更可及。尤其对于高频推理场景（如聊天机器人、代码补全、实时翻译），成本下降将直接推动更大规模的部署和应用创新。

当然，完全消除“摩擦”仍需时日——框架中仍存在隐式的 CUDA 依赖（如 #include <cuda_runtime.h>）、MoE 内核选择需要人力调优等。但正如 Wafer 所言，这一差距正在实时收窄。AMD 在推理赛道上的追赶，已从“软件落后”转向“支持完善”，而后者可以随着社区贡献和框架迭代快速补齐。对于追求成本效益的企业而言，现在正是认真评估 AMD 平台的关键时刻。

查看原文 →wafer.ai

GLM5.2在AMD MI355X上跑出2626 tok/s/节点，成本低于Blackwell两倍多

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐