指令集架构在关键领域已不再重要
速览
本文分析了指令集架构(ISA)在现代计算环境中的角色变化。指出在某些关键领域,ISA的选择已不再是决定性能或效率的核心因素。这一观点挑战了传统上对底层硬件架构的过度关注。
AI 深度解读
ISA Doesn't Matter Where It Counts:AI 基础设施中指令集架构的真实地位
背景
在当前的 AI 基础设施构建热潮中,AMD、Intel、Nvidia、Arm 和 Qualcomm 等厂商正纷纷向数据中心 CPU 市场发力。此前的一篇分析文章将这些处理器围绕 GPU 的五个“插座”(Socket,即系统接口或角色定位)进行了映射,并按价值进行了排名:相干主机(Coherent Host)、标准主机(Standard Host)、思考者(Thinker)、执行者(Doer)以及传统云(Traditional Cloud)。
其中,“相干主机”被视为最具价值的角色,而“传统云 CPU”的价值最低。随着 AI 代理(Agentic AI)的兴起,许多读者询问 CPU 的指令集架构(ISA,如 x86 或 Arm)是否至关重要。事实上,这种担忧被过度放大了。虽然 Arm 在服务器领域(如 AWS Graviton、Google Axion 和 Qualcomm Cobalt)的份额正在迅速增长,但在 AI 基础设施的核心环节中,ISA 并非决定性的护城河。
核心内容
文章通过逐一分析围绕 GPU 的五个关键角色,深入探讨了 ISA 在不同场景下的实际影响力。
1. 相干主机(Coherent Host):ISA 无关紧要
在 AI 集群中,最核心的价值在于 CPU 与 GPU 之间的高速相干连接,而非 CPU 本身使用的指令集。
- 技术现状:Nvidia 的 NVLink-C2C 技术将 Grace CPU 与 Blackwell GPU 以 900 GB/s 的带宽连接,提供共享地址空间,使 GPU 能像访问本地内存一样读取 CPU 的 DRAM。下一代 Vera Rubin 架构将这一带宽翻倍至 1.8 TB/s。同样,AMD 通过 Infinity Fabric 将其 EPYC CPU 与 Instinct MI455X GPU 以 comparable 的带宽相连。
- Nvidia 的演进:在 Grace 之前,Nvidia GPU 服务器通常使用标准的 x86 主机(Intel Xeon 或 AMD EPYC)并通过 PCIe 连接。2023 年发布的 Grace Hopper 是 Nvidia 首款相干超级芯片,采用基于 Arm Neoverse V2 的 Grace CPU,并通过 NVLink-C2C 连接 Hopper GPU。这标志着 Nvidia 首次在服务器级 Arm CPU 上部署完整的数据中心 CUDA 栈(此前 CUDA 仅在 Jetson 嵌入式线上支持 Arm)。Grace Blackwell 延续了这一架构,而 Vera Rubin 则使用了定制的 88 核 Arm CPU。
- AMD 的情况:ROCm 主要面向 x86 原生环境,AMD 的相干平台围绕 EPYC 构建,因此 Arm 端口并非其优先事项。
- 关键结论:ISA 已被固化在加速器平台的选择中。对于 Nvidia 这样的行业巨头,ISA 并非差异化因素,主机软件可以在两种架构上运行。
- NVLink Fusion 的开放趋势:Nvidia 正在通过 NVLink Fusion 技术向第三方 CPU 开放相干主机插座。此前,只有 Nvidia 自研的 CPU(Grace/Vera)能在 Nvidia 后端拥有相干席位。NVLink Fusion 允许其他厂商通过相同的高带宽相干链路将其处理器连接到 Blackwell GPU。虽然目前尚无实际出货产品,但合作伙伴名单已包括 Qualcomm(Arm)、Fujitsu、Intel(x86)和 SiFive(RISC-V)。这意味着,一旦这些产品上市,任何 ISA 都能接入相干主机插座,ISA 显然不再是护城河,甚至 RISC-V 也有机会(尽管需要大量的软件移植工作)。
2. 标准主机(Standard Host):ISA 几乎无关紧要,且正在衰退
标准主机的核心职责是“喂养”GPU:对输入进行分词、批量处理请求、通过 PCIe 暂存数据以及管理内存。CPU 需要尽可能快地处理数据并移动大量数据,而 PCIe 往往成为瓶颈,这也正是相干主机出现的动机。
- 超大规模云厂商的转向:超大规模云厂商(Hyperscalers)最初使用 x86 标准主机配合其 XPU(加速单元),但现在已转向 Arm。例如,AWS 将 Graviton 与 Trainium 配对,Google 将 Axion 与第 8 代 TPU 配对。
- 互操作性:喂养 XPU 的栈可以在 x86 或 Arm 上互换运行,ISA 不是护城河。
- 例外情况:双重职责:在较小的部署中(如运行 DGX、Instinct MI355X、RTX Pro 6000 服务器的中小企业或新兴云服务商),主机往往承担双重职责:既负责喂养 GPU,又运行应用层工作负载。在这种情况下,遗留的 x86 软件依赖性重新成为关键因素,ISA 变得重要。虽然这类部署量级较小,但未来可能会增长。
- 结论:如果主机仅作为应用处理器(即仅负责喂养 GPU),则 ISA 不重要;如果它同时承担应用处理任务,则 ISA 重要。
3. 其余角色简述
文章指出,距离 GPU 最近的两个轨道(相干主机和标准主机)得出了相同的结论:ISA 在那里并不重要。剩下的三个轨道(思考者、执行者、传统云)的情况则不完全一致,其中存在真正的 x86 锁定故事,存在细微差别,或者影响甚微。
关键要点
- ISA 并非核心护城河:在 AI 基础设施最关键的环节(相干主机和标准主机),ISA(x86 vs Arm)并非决定性因素。真正的壁垒在于硬件架构设计、互联技术(如 NVLink、Infinity Fabric)以及软件栈的优化。
- 相干连接才是王道:CPU 与 GPU 之间的高带宽、低延迟相干连接(如 NVLink-C2C)才是提升性能的关键。Nvidia 通过开放 NVLink Fusion,正逐步打破其 CPU 的封闭性,允许 x86、Arm 甚至 RISC-V 接入其高端 GPU 生态。
- Arm 的崛起是生态选择,而非技术碾压:Arm 在服务器和 AI 基础设施中的增长(如 Graviton、Axion、Cobalt)主要得益于超大规模云厂商对能效和特定工作负载优化的追求,而非因为 Arm 在指令集层面比 x86 “更好”。
- 双重职责场景保留 x86 价值:在中小企业或边缘部署中,当 CPU 同时承担 GPU 数据预处理和应用层业务逻辑时,现有的 x86 软件生态和兼容性使其仍具优势。
- 平台锁定大于 ISA 锁定:对于 AMD 等厂商,其 ROCm 软件栈主要围绕 x86 优化,导致 Arm 端口优先级较低。这表明,ISA 的选择往往是被加速器平台(如 CUDA 或 ROCm)的生态策略所“固化”的。
意义与影响
- 打破 x86 垄断的幻觉:市场常误以为 x86 在 AI 时代拥有不可撼动的指令集壁垒。然而,文章揭示在核心 AI 训练和推理基础设施中,Nvidia 等厂商更关注的是互联带宽和软件栈的统一,ISA 的兼容性正在通过开放接口(如 NVLink Fusion)变得日益重要。
- Arm 生态的合法化与扩张:随着 Arm 正式进入数据中心 GPU 服务器堆栈(如 Grace Hopper/Blackwell),Arm 不再仅仅是嵌入式或低功耗领域的选择,而是成为了高性能计算的核心力量。这将加速 Arm 在服务器市场的份额增长,并促使更多软件厂商优化 Arm 支持。
- RISC-V 的潜在机会:虽然目前 RISC-V 在 AI 基础设施中尚处边缘,但 Nvidia 对 NVLink Fusion 合作伙伴包括 SiFive(RISC-V)的宣布,表明在开放相干主机插座后,RISC-V 有望通过软件移植进入高端 AI 服务器市场,尽管面临巨大的软件生态挑战。
- 企业 IT 策略的调整:对于超大规模云厂商,ISA 的选择更多是基于供应链安全、能效比和特定硬件协同优化的考量,而非技术优劣。对于中小企业,若
