← 返回信息流
AI 资讯Hacker News·9 小时前

45°C冷却设计将数据中心用水量降至近零

原标题:45°C cooling design cuts data center water use to near zero

速览

该设计通过提高冷却水温至45°C,显著降低了数据中心对水资源的依赖。这一创新技术有助于减少数据中心的环境足迹,特别是在水资源稀缺地区。对于追求可持续发展和降低运营成本的数据中心运营商而言,这是一个重要的技术进步。

AI 深度解读

45°C 冷却设计将数据中心用水量降至近零:NVIDIA Rubin 架构的深度解读

背景

随着人工智能(AI)算力的爆炸式增长,数据中心的能源消耗问题日益严峻。传统上,冷却系统占据了数据中心高达 40% 的电力消耗,这不仅推高了运营成本,也带来了巨大的水资源压力。长期以来,行业存在一种误解,认为数据中心必须像“步入式冰箱”一样保持极低温才能高效运行。然而,随着芯片功耗密度的急剧上升,传统的风冷技术已触及物理极限。

在此背景下,NVIDIA 推出了基于 Rubin 平台的新一代 AI 基础设施。这一架构标志着行业向全液冷技术的重大转折,其核心突破在于允许冷却液在高达 45°C(113°F)的温度下运行。这一温度甚至高于人们泡温泉的舒适区间(38-40°C),但正是这种“更热”的冷却方式,为数据中心带来了前所未有的能效提升和水资源节约。

核心内容

NVIDIA 的 Rubin 世代 AI 基础设施是全球首个实现 100% 液冷技术的平台。在该架构中,每一个芯片、每一个网络组件都完全通过封闭回路中的液体进行冷却,系统内部不再需要任何风扇。这一方法论详细阐述在 NVIDIA DSX AI 工厂参考设计(DSX AI factory reference design)中,该指南为设计、构建和运营整个 AI 工厂基础设施栈提供了最佳实践。

1. 高温冷却与能效提升 NVIDIA 的 AI 服务器允许冷却液运行至 45°C。虽然这听起来很高,但硅处理器能够承受远高于直觉预期的环境温度。在全液冷芯片中,进入时温度为 45°C 的冷却液,在吸收芯片表面的热量后,排出温度约为 55°C。关键在于,只要液冷冷板(cold plates)将设备温度保持在验证过的操作限制内,处理器就能在全性能下运行,而不会发生性能降级。

2. 零水耗与干式冷却器(Dry Coolers) NVIDIA 数据中心冷却和基础设施总监 Ali Heydari 指出:“NVIDIA DSX AI 工厂参考设计实现了零水耗。我们消除了大量的电力使用和几乎全部的水使用。” 传统数据中心依赖冷却塔,每兆瓦每年消耗约 260 万加仑水。而在 NVIDIA 的 45°C 液冷架构下,通过基于干式冷却器的设计,系统成为一个封闭回路,没有蒸发式水冷。在适宜的气候条件下,系统可以完全无需机械制冷机(chillers)运行,仅利用室外空气通过干式冷却器散热,从而将用水量减少近 100%。即使在某些气候条件下需要制冷机,其运行时间也仅占全年约 1%。

3. 消除风扇与冷通道 传统数据中心依赖大量冷却空气,噪音通常超过 85 分贝,且需要严格管理冷热通道。Rubin 架构彻底改变了这一局面:

  • 无风扇设计:冷却液(75% 水,25% 丙二醇)直接流经处理器上的冷板,从源头带走热量。
  • 空间效率:由于不再需要复杂的空气流通路径和大型风扇,全液冷服务器实现了更高的机架密度。原本占用 6 个机架单元(RU)的系统现在仅需 2 个 RU,实现了“更多算力,更少空间,更低噪音”。
  • 前端密封:Rubin 服务器拥有干净、密封的前面板,取代了风冷服务器的穿孔边框。

4. 工程挑战的解决 过去的液冷服务器多为混合式:GPU 和 CPU 使用冷板,但其他组件仍依赖风冷鳍片散热器。NVIDIA 的 thermal engineering team 重新设计了这些组件的热处理方式,通过单个入口和出口简化了液体向板上多个高功耗芯片的输送路线,实现了更简洁的托盘级冷却架构。

5. 地理适应性与废热回收 虽然苏格兰高地和亚利桑那州凤凰城面临不同的气候现实,但 45°C 的冷却液温度使运营商更接近“无制冷机”的理想状态。在气候适宜的地区,系统可以直接利用室外空气温度进行冷却。此外,该架构还具备废热回收潜力,AI 工厂产生的残余热量可被重新用于加热附近的商业或住宅建筑。

关键要点

  • 100% 液冷革命:Rubin 平台是全球首个实现全系统(包括网络和计算组件)100% 液冷且无风扇的 AI 基础设施。
  • 高温运行优势:冷却液入口温度高达 45°C,出口约 55°C,既不影响芯片全性能运行,又大幅降低了冷却能耗。
  • 水资源近乎零消耗:相比传统冷却塔系统每年每兆瓦 260 万加仑的用水量,新架构在适宜气候下可实现用水量接近零,减少幅度达 100%。
  • 显著的成本节约:行业估算显示,制冷机温度每提高 1 度,冷却能耗成本可降低约 4%。对于一个 50 兆瓦的超大规模设施,转向液冷基础设施每年可节省超过 400 万美元的冷却相关能源和水费。
  • 密度与噪音的双重优化:全液冷设计使机架密度提升三倍(从 6 RU 降至 2 RU),并消除了导致 85 分贝以上噪音的风扇系统。
  • 混合到全液的演进:NVIDIA 解决了以往混合液冷中非计算组件散热难的问题,通过重新设计冷却回路,实现了从芯片到托盘级的统一液冷架构。
  • 生态系统协同:施耐德电气(Schneider Electric)旗下 Motivair 等合作伙伴已深度跟进,随着芯片每瓦特功耗跨越临界点,液冷已从“可选项”变为“必选项”。

意义与影响

NVIDIA 的 45°C 液冷设计不仅是技术上的迭代,更是对数据中心基础设施范式的根本性重塑。

首先,它解决了 AI 规模化扩张中的可持续性瓶颈。随着 AI 工作负载需求的增长速度超过几乎所有其他基础设施投资类别,如果没有冷却效率的突破,运行 AI 的能源成本将与硬件成本同步飙升。通过消除对蒸发式冷却的依赖,NVIDIA 的方案极大地减轻了数据中心对水资源的压力,这对于水资源匮乏地区的科技部署具有重要意义。

其次,它重新定义了数据中心的物理形态和运营逻辑。通过消除风扇和冷/热通道,数据中心不再需要维持极低的室温,也不再受限于复杂的空气动力学布局。这使得数据中心可以部署在更广泛的气候区域,甚至可以利用自然冷源实现近乎零能耗的冷却运行。

最后,这一架构推动了整个供应链的标准化。随着 Rubin 平台的发布,云提供商和数据中心运营商正在加速向全液冷转型。这种转变不仅降低了运营支出(OPEX),还通过废热回收等机制创造了新的能源利用价值,标志着 AI 基础设施正朝着更高效、更绿色、更紧凑的方向演进。正如行业所言,当每瓦特功耗跨越临界点后,液冷不再是选择,而是生存的必须。

查看原文 →blogs.nvidia.com