AI 资讯Hacker News·9 天前

AI数据中心为GPU而建，若移除GPU会发生什么？

原标题：AI Datacenters Were Built for GPUs. What Happens When You Remove the GPUs?

速览

随着AI算力需求激增，传统依赖GPU的数据中心面临成本与能耗压力。本文分析若移除GPU，数据中心需转向专用ASIC或新型架构以维持效率。这一转变将重塑硬件供应链并影响未来AI基础设施的设计方向。

AI 深度解读

AI 数据中心去 GPU 化：当网络不再是基础设施，而是瓶颈

背景

在过去几十年里，构建数据中心是一项成熟且可预测的效用工程任务。其核心逻辑简单直接：配置计算服务器，连接存储阵列，并构建网络将它们缝合在一起。目标是在最小化成本的同时最大化资源利用率。

传统的网络流量模式主要是“南北向”流量（客户端向服务器发送请求，服务器响应数据库查询），以及少量的服务器到存储的“东西向”流量。当时的网络设计旨在应对突发流量，如果发生丢包，标准的 TCP/IP 协议会自动重传。在 Web 托管或云服务中，微小的延迟仅意味着图片加载稍慢或请求完成时间增加几毫秒，这在当时是完全可接受的。

然而，人工智能（AI）训练彻底改变了这一模型。在现代 AI 集群中，网络不再仅仅是位于计算层之下的基础设施，它直接决定了加速器（GPU）的利用率。

核心内容

1. AI 工作负载带来的网络范式转移

在传统的深度学习范式下，大型模型训练并非处理独立的服务器，而是作为一个巨大的分布式超级计算机运行。成千上万块 GPU 必须持续交换参数，导致主导流量模式完全转变为集群内部的东西向通信（服务器到服务器、GPU 到 GPU、机架到机架）。

与本地化的突发流量不同，AI 工作负载执行的是如 All-to-all（全对全）和 All-reduce（全归约）等特定的通信模式。网络不再需要承载数百万个小型独立流，而是必须承载少量极其庞大的“大象流”（Elephant Flows）。在梯度同步阶段，数千块 GPU 可能同时在网络中交换数据，造成严重的网络拥塞（Incast），并迅速耗尽交换机的缓冲区。

这种转变打破了标准网络构建的许多假设。当现代加速器能以 800 Gb/s 的速度消费和生成数据时，关键指标从平均延迟转变为作业完成时间（JCT）和尾部延迟（Tail Latency）。在深度学习中，工作负载以紧密同步的步骤执行，整个工作负载的进度取决于最慢的参与者。因此，一个延迟的数据包可能导致数千块 GPU 停滞。

2. RDMA 与 PFC 的陷阱

AI 集群对数据包延迟的敏感性被其依赖的传输层放大了。现代分布式训练 heavily 依赖通过 RoCEv2（基于融合以太网的 RDMA）实现的 RDMA，允许 GPU 绕过 CPU 和操作系统，实现 GPU 间低延迟的直接内存访问。

虽然 RoCEv2 大幅降低了开销，但它对丢包高度敏感。单个丢包可能触发重传、超时级联和集群内的同步延迟。为了实现丢包容忍，标准的 RoCEv2 网络依赖优先级流控（PFC）。PFC 的概念类似于暂停机制：当交换机缓冲区开始填满时，交换机会指示上游设备暂时停止传输流量。

但这带来了另一个问题：队头阻塞（Head-of-line blocking）。 PFC 通过向后传播拥塞来解决丢包问题。在持续负载下，这会导致无关流量被困在拥塞流之后。拥塞在网络中蔓延，队列深度增加，整个网络部分可能围绕最慢的流量路径变得同步。在分布式训练环境中，这是昂贵的代价：计算集群无法推进，直到每个同步操作完成，GPU 在等待重传数据包或清除拥塞流时保持空闲。

3. InfiniBand 与轨道优化

为了最大化 GPU 利用率，行业的即时应对方案是投入更多硬件。NVIDIA 通过 InfiniBand 主导了 AI 数据中心格局——这是一种专为高吞吐、低延迟集群设计的原生无损 fabric。与传统以太网部署不同，InfiniBand 围绕确定性传输行为、硬件拥塞管理、自适应路由和严格控制的延迟特性构建。

为了扩展这些集群，工程团队必须应对三个不同的网络向量：

Scale Up（向上扩展）： 最大化单个机箱或节点内的高速互连（例如，使用 NVLink 将 8 块 GPU 连接在一起）。
Scale Out（向外扩展）： 使用专用后端网络 fabric 在整个数据中心大厅内水平连接这些多 GPU 节点。
Scale Across / DCI（跨数据中心互联）： 当物理电源和冷却限制阻止单个站点进一步扩展时，将整个集群链接在一起。

目前，随着 NVIDIA 提供完整的机架，其中每块 GPU 都通过 NVLink（同一机箱内）和 NVSwitch（同一机架内）访问其他所有 GPU 的内存，我们正进入 Scale Up 阶段的尾声。未来几年将侧重于使用 Connect-X NIC 连接不同的机架。

为了管理大规模的 Scale Out fabric，现代拓扑被严格设计为轨道优化（Rail-optimized）。在 8-GPU 节点配置中，每块 GPU 映射到一个专用的、独立的网络接口卡（NIC）。网络 fabric 被拆分为 8 个并行、隔离的物理交换机平面。每台服务器上的 GPU 位置 1 仅通过轨道 1 通信，GPU 位置 2 通过轨道 2，依此类推。

这种隔离减少了拥塞交互并提高了故障隔离能力。如果一个网络平面出现降级，集群仅损失部分聚合带宽，而不会导致整个分布式工作负载停滞。

4. ECMP 与大象流的冲突

轨道优化架构暴露了传统网络处理的另一个弱点。

传统路由协议无法高效处理这种架构。标准 IP 网络依赖**等价多路径路由（ECMP）**在路径间分配流量。ECMP 通过哈希数据包头部（静态 5 元组）将流分配给特定路径。在 Web 应用中，由于流量由大量相对较小且独立的流组成，这非常有效。

但 AI 流量行为不同，因为分布式训练创建了少量庞大的大象流。ECMP 哈希不可避免地产生冲突，导致多个大流被固定在同一物理链路上，而替代路径利用率不足。结果是缓冲区压力、更多拥塞、丢包和尾部延迟激增。

为了应对这一问题，现代 AI 交换机利用**动态负载均衡（DLB）和数据包喷洒（Packet-spraying）**机制。硬件不再按流路由，而是将大象流分解，并根据实时端口拥塞动态调度流量。

5. 超以太网联盟（UEC）的崛起

InfiniBand 虽然有效，但昂贵、封闭且导致供应商锁定。更广泛生态系统的回应是超以太网联盟（Ultra Ethernet Consortium, UEC）：这是对以太网的全面重新架构，旨在专门针对 AI 工作负载挑战 InfiniBand，同时不牺牲以太网庞大的生态系统和规模经济优势。

UEC 不依赖像 PFC 那样粗糙的流级暂停机制，而是将智能移至传输层。它原生引入数据包喷洒：UEC 交换机不通过 ECMP 强制整个大象流沿单一哈希路径传输，而是将流分解为单个数据包，并同时散布到 fabric 中的每个可用链路上。

这自然引入了数据包乱序交付，因此 Ultra Ethernet 在 NIC 层集成了硬件级别的数据包重排序机制。它还推动了诸如**虚拟输出队列（VOQ）**等机制的发展，其中数据包基于最终目的地而非源地址进行缓冲……

关键要点

网络角色的根本转变：在 AI 训练中，网络不再是被动的基础设施，而是直接决定加速器利用率的关键组件。
流量模式的改变：从传统的南北向突发流量转变为集群内部的大规模东西向“大象流”（如 All-to-all 通信）。
延迟的致命性：在同步训练步骤中，单个延迟数据包可导致数千块 GPU 停滞，关键指标从平均延迟转向作业完成时间（JCT）和尾部延迟。
PFC 的副作用：为解决丢包而使用的优先级流控（PFC）会导致队头阻塞，使无关流量受阻，造成网络拥塞蔓延和 GPU 空闲等待。
轨道优化（Rail-optimized）：现代拓扑将每个 GPU 映射到独立的 NIC 和交换机平面，以隔离拥塞并提高故障容错能力。
ECMP 的局限性：传统的哈希路由无法有效处理 AI 的大象流，导致链路利用不均和拥塞，需采用动态负载均衡（DLB）和数据包喷洒技术。
UEC 的挑战：超以太网联盟旨在通过硬件级数据包喷洒和重排序等技术，重构以太网以在 AI 性能上挑战封闭且昂贵的 InfiniBand。

查看原文 →almartis.xyz