← 返回信息流
AI 资讯Hacker News·9 天前

AI数据中心为GPU而建,若移除GPU会发生什么?

原标题:AI Datacenters Were Built for GPUs. What Happens When You Remove the GPUs?

速览

随着AI算力需求激增,传统依赖GPU的数据中心面临成本与能耗压力。本文分析若移除GPU,数据中心需转向专用ASIC或新型架构以维持效率。这一转变将重塑硬件供应链并影响未来AI基础设施的设计方向。

AI 深度解读

AI 数据中心去 GPU 化:当网络不再是基础设施,而是瓶颈

背景

在过去几十年里,构建数据中心是一项成熟且可预测的效用工程任务。其核心逻辑简单直接:配置计算服务器,连接存储阵列,并构建网络将它们缝合在一起。目标是在最小化成本的同时最大化资源利用率。

传统的网络流量模式主要是“南北向”流量(客户端向服务器发送请求,服务器响应数据库查询),以及少量的服务器到存储的“东西向”流量。当时的网络设计旨在应对突发流量,如果发生丢包,标准的 TCP/IP 协议会自动重传。在 Web 托管或云服务中,微小的延迟仅意味着图片加载稍慢或请求完成时间增加几毫秒,这在当时是完全可接受的。

然而,人工智能(AI)训练彻底改变了这一模型。在现代 AI 集群中,网络不再仅仅是位于计算层之下的基础设施,它直接决定了加速器(GPU)的利用率。

核心内容

1. AI 工作负载带来的网络范式转移

在传统的深度学习范式下,大型模型训练并非处理独立的服务器,而是作为一个巨大的分布式超级计算机运行。成千上万块 GPU 必须持续交换参数,导致主导流量模式完全转变为集群内部的东西向通信(服务器到服务器、GPU 到 GPU、机架到机架)。

与本地化的突发流量不同,AI 工作负载执行的是如 All-to-all(全对全)和 All-reduce(全归约)等特定的通信模式。网络不再需要承载数百万个小型独立流,而是必须承载少量极其庞大的“大象流”(Elephant Flows)。在梯度同步阶段,数千块 GPU 可能同时在网络中交换数据,造成严重的网络拥塞(Incast),并迅速耗尽交换机的缓冲区。

这种转变打破了标准网络构建的许多假设。当现代加速器能以 800 Gb/s 的速度消费和生成数据时,关键指标从平均延迟转变为作业完成时间(JCT)尾部延迟(Tail Latency)。在深度学习中,工作负载以紧密同步的步骤执行,整个工作负载的进度取决于最慢的参与者。因此,一个延迟的数据包可能导致数千块 GPU 停滞。

2. RDMA 与 PFC 的陷阱

AI 集群对数据包延迟的敏感性被其依赖的传输层放大了。现代分布式训练 heavily 依赖通过 RoCEv2(基于融合以太网的 RDMA)实现的 RDMA,允许 GPU 绕过 CPU 和操作系统,实现 GPU 间低延迟的直接内存访问。

虽然 RoCEv2 大幅降低了开销,但它对丢包高度敏感。单个丢包可能触发重传、超时级联和集群内的同步延迟。为了实现丢包容忍,标准的 RoCEv2 网络依赖优先级流控(PFC)。PFC 的概念类似于暂停机制:当交换机缓冲区开始填满时,交换机会指示上游设备暂时停止传输流量。

但这带来了另一个问题:队头阻塞(Head-of-line blocking)。 PFC 通过向后传播拥塞来解决丢包问题。在持续负载下,这会导致无关流量被困在拥塞流之后。拥塞在网络中蔓延,队列深度增加,整个网络部分可能围绕最慢的流量路径变得同步。在分布式训练环境中,这是昂贵的代价:计算集群无法推进,直到每个同步操作完成,GPU 在等待重传数据包或清除拥塞流时保持空闲。

3. InfiniBand 与轨道优化

为了最大化 GPU 利用率,行业的即时应对方案是投入更多硬件。NVIDIA 通过 InfiniBand 主导了 AI 数据中心格局——这是一种专为高吞吐、低延迟集群设计的原生无损 fabric。与传统以太网部署不同,InfiniBand 围绕确定性传输行为、硬件拥塞管理、自适应路由和严格控制的延迟特性构建。

为了扩展这些集群,工程团队必须应对三个不同的网络向量:

  • Scale Up(向上扩展): 最大化单个机箱或节点内的高速互连(例如,使用 NVLink 将 8 块 GPU 连接在一起)。
  • Scale Out(向外扩展): 使用专用后端网络 fabric 在整个数据中心大厅内水平连接这些多 GPU 节点。
  • Scale Across / DCI(跨数据中心互联): 当物理电源和冷却限制阻止单个站点进一步扩展时,将整个集群链接在一起。

目前,随着 NVIDIA 提供完整的机架,其中每块 GPU 都通过 NVLink(同一机箱内)和 NVSwitch(同一机架内)访问其他所有 GPU 的内存,我们正进入 Scale Up 阶段的尾声。未来几年将侧重于使用 Connect-X NIC 连接不同的机架。

为了管理大规模的 Scale Out fabric,现代拓扑被严格设计为轨道优化(Rail-optimized)。在 8-GPU 节点配置中,每块 GPU 映射到一个专用的、独立的网络接口卡(NIC)。网络 fabric 被拆分为 8 个并行、隔离的物理交换机平面。每台服务器上的 GPU 位置 1 仅通过轨道 1 通信,GPU 位置 2 通过轨道 2,依此类推。

这种隔离减少了拥塞交互并提高了故障隔离能力。如果一个网络平面出现降级,集群仅损失部分聚合带宽,而不会导致整个分布式工作负载停滞。

4. ECMP 与大象流的冲突

轨道优化架构暴露了传统网络处理的另一个弱点。

传统路由协议无法高效处理这种架构。标准 IP 网络依赖**等价多路径路由(ECMP)**在路径间分配流量。ECMP 通过哈希数据包头部(静态 5 元组)将流分配给特定路径。在 Web 应用中,由于流量由大量相对较小且独立的流组成,这非常有效。

但 AI 流量行为不同,因为分布式训练创建了少量庞大的大象流。ECMP 哈希不可避免地产生冲突,导致多个大流被固定在同一物理链路上,而替代路径利用率不足。结果是缓冲区压力、更多拥塞、丢包和尾部延迟激增。

为了应对这一问题,现代 AI 交换机利用**动态负载均衡(DLB)数据包喷洒(Packet-spraying)**机制。硬件不再按流路由,而是将大象流分解,并根据实时端口拥塞动态调度流量。

5. 超以太网联盟(UEC)的崛起

InfiniBand 虽然有效,但昂贵、封闭且导致供应商锁定。更广泛生态系统的回应是超以太网联盟(Ultra Ethernet Consortium, UEC):这是对以太网的全面重新架构,旨在专门针对 AI 工作负载挑战 InfiniBand,同时不牺牲以太网庞大的生态系统和规模经济优势。

UEC 不依赖像 PFC 那样粗糙的流级暂停机制,而是将智能移至传输层。它原生引入数据包喷洒:UEC 交换机不通过 ECMP 强制整个大象流沿单一哈希路径传输,而是将流分解为单个数据包,并同时散布到 fabric 中的每个可用链路上。

这自然引入了数据包乱序交付,因此 Ultra Ethernet 在 NIC 层集成了硬件级别的数据包重排序机制。它还推动了诸如**虚拟输出队列(VOQ)**等机制的发展,其中数据包基于最终目的地而非源地址进行缓冲……

关键要点

  • 网络角色的根本转变:在 AI 训练中,网络不再是被动的基础设施,而是直接决定加速器利用率的关键组件。
  • 流量模式的改变:从传统的南北向突发流量转变为集群内部的大规模东西向“大象流”(如 All-to-all 通信)。
  • 延迟的致命性:在同步训练步骤中,单个延迟数据包可导致数千块 GPU 停滞,关键指标从平均延迟转向作业完成时间(JCT)和尾部延迟。
  • PFC 的副作用:为解决丢包而使用的优先级流控(PFC)会导致队头阻塞,使无关流量受阻,造成网络拥塞蔓延和 GPU 空闲等待。
  • 轨道优化(Rail-optimized):现代拓扑将每个 GPU 映射到独立的 NIC 和交换机平面,以隔离拥塞并提高故障容错能力。
  • ECMP 的局限性:传统的哈希路由无法有效处理 AI 的大象流,导致链路利用不均和拥塞,需采用动态负载均衡(DLB)和数据包喷洒技术。
  • UEC 的挑战:超以太网联盟旨在通过硬件级数据包喷洒和重排序等技术,重构以太网以在 AI 性能上挑战封闭且昂贵的 InfiniBand。

查看原文 →almartis.xyz