← 返回信息流
AI 资讯Hacker News·18 小时前

亚马逊大规模部署扁平化数据中心网络

原标题:Flat Datacenter Networks at Scale at Amazon

速览

亚马逊展示了其在超大规模数据中心中部署扁平化网络架构的实践。这种网络设计消除了传统层级结构,显著提升了带宽利用率并降低了延迟。该架构对于支撑海量数据吞吐和高性能计算至关重要。

AI 深度解读

Flat Datacenter Networks at Scale at Amazon

背景

寻找“最优路由”网络的理论根源可以追溯到 20 世纪 70 年代末。数学家们定义了一类被称为“扩张图”(expanders)的特殊网络。这类图具有极强的连通性,保证没有任何顶点子集会与其余部分隔离。1976 年,Leslie Valiant 对此类图进行了最早的讨论之一。随后,在 Alon-Boppana 试图理解最佳“可能”扩张图的研究基础上,包括 Lubotzky、Phillips 和 Sarnak 在内的数学家构建了此类最优扩张图。然而,这些设计极其复杂,依赖高级数论,且仅适用于特定的网络规模和度数。

是否存在一种更简单、通用的构建方法?1991 年,Friedman 证明,随机布线的网络以高概率成为几乎与最佳显式构造一样好的扩张图。(2023 年的一项最新数学结果实际上表明,随机图确实达到了这一界限。)这一发现的暗示极具诱惑力:如果你想要一个用于路由的最优网络,只需随机布线即可。

与此同时, networking 行业走上了一条完全不同的道路。受交换机中 Clos 互连结构的启发,自 20 世纪 80 年代中期以来,通信网络一直基于胖树(fat-tree)拓扑结构构建(这是一种折叠的 Clos 结构),包含两层、三层或多层交换机。随着 2000 年代末云计算的爆发,胖树架构随着复杂度的提升而不断扩展。2009 年,由 Albert Greenberg 领导的九人团队发表了《VL2: A Scalable and Flexible Data Center Network》,通过引入扁平化寻址以及—— notably ——随机 Valiant 负载均衡来均匀分布网络路径上的流量,将胖树架构推向了新的高度。2019 年,VL2 论文获得了 SIGCOMM 的“Time Award”。VL2 的工作证明,即使在结构化拓扑中,流量的随机化(而非拓扑的随机化)也能提升性能。但底层网络仍然是分层的、僵化的,且布线复杂。

2012 年,伊利诺伊大学的研究人员在名为 Jellyfish 的提案中将随机图与数据中心网络联系起来。这项工作引发了大量的后续研究。由于基于简单的理论模型和模拟,它留下了关键的难题未解:在随机图中进行路由很棘手,因为数据可以采取更多样化的路径;布线更难,因为端点是随机选择的;操作变得不可预测。在大规模上构建随机网络仍然是一个难以捉摸的目标:路由、布线和操作是三个未解决的挑战。

核心内容

RNG(Resilient Network Graphs,弹性网络图)的诞生历程

2023 年,AWS 首席科学家 Giacomo Bernardi 开始研究是否可以根据彭罗斯铺砌(Penrose tiling)——一种形状密铺且从不重复的几何构造——将数据中心路由器排列成扁平网络。亚马逊学者、华盛顿大学教授 Ratul Mahajan 对此产生了兴趣。两人花了数月时间探索这一想法,构建模拟,并将概念推向了极限。

到 2024 年中,他们的研究撞上了墙:彭罗斯铺砌在纸面上很有前景,但模拟网络不可靠,且效率提升未达预期。当他们用随机性取代结构时,取得了显著更好的结果。这成了一个内部笑话:“只要随机就行!”

但仍然存在差距:现有理论并未解决如何在 Amazon 的规模上构建此类扁平网络的问题。需要开发新模型来预测性能、保证弹性并使设计可操作。因此,Bernardi 和 Mahajan 在内部 Slack 频道上发送了一条消息:“这里有随机图专家吗?”亚马逊学者、理论计算机科学教授 Seshadhri Comandur 热情地加入了这项努力。

三大挑战的突破

团队正面解决了这三个阻碍因素:

  1. 路由方面:他们开发了 Spraypoint,这是一种转发方案,利用图的扩张特性来分发流量,而不会因转发状态而淹没路由器内存。
  2. 布线方面:他们开发了 ShuffleBox——一种无源光学设备,其内部布线结合随机的 ShuffleBox 到 ShuffleBox 布线,产生了表现得像真正随机图的“准随机”图。
  3. 操作方面:他们设计 RNG 以使用已在胖树数据中心部署的完全相同的路由器和光学设备,构建了将抽象图转换为逐端口安装指令和诊断信息的软件工具,并开发了(在研究论文中详述的)模型,这些模型可以根据设计参数预测网络性能——从而允许在物理建造之前通过数学验证部署。

从理论到实践的验证

这三人组现在拥有了一个理论上可行的设计,但没有证明它在实践中可行的证据。网络工程副总裁 Matt Rehder 提出了挑战:“如果你想证明它有效,那就在一个实际的数据中心中构建提议的设计。”于是,在一个小团队的帮助下,他们真的这样做了。第一个 RNG 数据中心于 2024 年在爱尔兰都柏林附近建成。

到 2025 年,团队从数据中心实验中吸取了大量教训,并做出了一个大胆的决定:拆除网络,完善设计,并建造另外两个数据中心网络——一个在德国,一个在西班牙。结果令人瞩目:与传统胖树网络相比,RNG 使用的路由器减少了 69%,吞吐量提高了 33%,网络功耗降低了 40%,运营成本降低了 27%。2026 年初,RNG 成为全球大多数新建 Amazon 数据中心的默认设计。

关键要点

  • 从结构化到随机化:传统数据中心网络依赖分层、僵化的胖树(Fat-Tree)拓扑,虽然通过 VL2 等引入了流量随机化,但拓扑本身是固定的。RNG 则直接在拓扑层面引入随机性,利用随机图的扩张特性。
  • 技术突破组件
    • Spraypoint:解决随机图路由难题,利用图扩张特性分发流量,避免路由器状态过载。
    • ShuffleBox:解决随机图布线难题,通过无源光学设备和随机互连生成“准随机”图。
    • 可操作工具链:提供从抽象图到物理部署的完整软件支持,包括诊断、安装指令和性能预测模型。
  • 显著的性能优势
    • 资源节省:相比传统胖树,RNG 减少 69% 的路由器使用量。
    • 性能提升:吞吐量提高 33%。
    • 能效优化:网络功耗降低 40%,运营成本降低 27%。
  • 规模化验证:该设计并非仅停留在理论或模拟阶段,而是经过了爱尔兰、德国和西班牙等多个实际数据中心的部署验证,并于 2026 年初成为 Amazon 新建数据中心的默认架构。

意义与影响

1. 网络弹性的根本性提升 在 RNG 架构中,没有哪个路由器比其他路由器更关键。丢失 1% 的路由器仅导致约 1% 的容量损失,降级是成比例且可预测的,而非灾难性的。相比之下,在胖树网络中,丢失关键的脊交换机(spine switch)可能导致不成比例的容量丧失。这种“无单点故障”的特性极大地提高了大规模数据中心的可靠性。

2. 容量利用率的革命 由于通过网络的所有路径在统计上是等价的,容量变得具有可互换性(fungible)。不存在被锁定在特定层级的“ stranded bandwidth ”(滞留带宽)。任何可用容量都可以服务于任何流量需求,从而消除了传统分层网络中常见的资源碎片化问题。

3. 增量式扩展能力 与受限于交换机基数(radix)和层数固定大小的胖树不同,RNG 网络可以连续扩展。只需添加路由器和连接即可,无需重新设计拓扑或遭遇容量悬崖——图结构自然生长。这使得数据中心能够更灵活地适应业务增长,避免了传统架构中常见的“扩容断崖”。

4. 操作复杂性与随机性的权衡 尽管 RNG 带来了巨大优势,但也引入了操作复杂性。随机图中的路径不如树状结构可预测,使得使用传统工具进行故障排除变得更加困难。为此,团队开发了专门的诊断软件,使操作员能够在缺乏分层结构的情况下,仍能获得流量分布和故障定位的可见性。

5. 确定性向概率性保证的转变 RNG 的性能保证是随机性的(

查看原文 →perspectives.mvdirona.com