← 返回信息流
创投信息钛媒体·3 天前

西部数据:存储而非GPU才是AI规模化的真正门槛

原标题:GPU抢了风头,西部数据说存储才是AI规模化的真正门槛

速览

随着AI进入生产环境,数据存储的供需失衡成为主要瓶颈,西部数据认为存储已从幕后走向前台。面对数据量指数级增长,HDD因总体拥有成本优势成为长期战略核心。为此,西部数据公布了2029年单盘容量超100TB的技术路径及多项针对AI负载的创新技术。

AI 深度解读

背景

AI基础设施的投资重心正在发生微妙但深刻的转移。过去两年,市场目光几乎全部聚焦于算力端,GPU供不应求、智算中心遍地开花、大模型参数量不断刷新纪录。然而,当AI应用真正进入生产环境,一个此前被忽视的关键问题——数据存储的供需失衡——开始浮出水面。

IDC预测显示,到2029年全球AI基础设施支出将突破1万亿美元,五年复合增长率约为31%;中国市场的这一数字为32.5%,略高于全球均值。更为关键的是,预测指出到2029年,近80%的云端数据仍将存储在HDD(机械硬盘)上。这一数据趋势揭示了在算力狂飙突进的同时,存储基础设施正成为制约AI规模化落地的真正瓶颈。

核心内容

西部数据首席产品官Ahmed Shihab指出,计算资源可以在训练和推理之间循环复用,但数据的规模却在无休止地膨胀。训练模型需要消耗海量数据,单个模型训练即可消耗数个EB的数据量;而模型运行后,每一次推理都会持续生成新数据,这些数据又会回流至训练环节。与GPU的可复用性不同,每运行一次AI,数据就会不断累积叠加,形成结构性的存储压力。

这种结构性变化在企业侧已产生具体体感。阿里云对象存储高级总监罗庆超表示,存储已从幕后走向前台,成为AI系统运行的关键环节。随着GPU集群规模扩大和数据吞吐需求飙升,一旦存储系统跟不上,整个万卡集群将面临闲置风险,产生巨大的成本开销。比亚迪电子产品总经理崔勇也提到,智能驾驶领域每天产生的新数据接近PB级甚至数个PB级,增长曲线呈指数级。

然而,比数据量更棘手的是数据的流转效率。从车端采集、清洗、训练,到模型下放、车端推理,各环节存储往往处于割裂状态,依赖人工衔接。全生命周期数据流转效率低下,直接影响了AI闭环迭代的效率。此外,冷热数据分层也是普遍痛点:热数据对IO性能要求极高,但大量无需高性能的数据仍堆放在昂贵的闪存上,导致成本居高不下。崔勇总结道:“最大的挑战是做到又快又便宜,这是最难的。”

这些痛点解释了为何在西部数据对全球200家头部客户的调研中,90%的中国受访者将TCO(总体拥有成本)列为HDD的首要优势,72.7%的人表示这是其将HDD纳入长期战略的核心原因。

需求侧的变化正在倒逼供给侧加速。西部数据公布了一份密集的产品路线图:2026年实现40TB单盘,2029年达到100TB以上。这一目标在一年前被认为不现实,但西部数据给出了明确的技术路径:通过HAMR(热辅助磁记录)技术将单张磁碟容量从约4TB提升至10TB,配合单盘封装14碟,最终实现100TB以上的容量。

除容量外,西部数据还推出了两项面向AI工作负载的针对性技术:

  1. 高带宽硬盘技术:通过让两个磁头同时读写,将单盘带宽翻倍,解决容量增加后每TB带宽被稀释的问题,且客户无需随硬盘升级修改软件。
  2. 双枢轴技术:在硬盘内置双磁臂,使顺序IO性能翻倍。 这两项技术可以叠加使用,且均已进入客户验证阶段。

在能耗方面,功耗优化型HDD可将功耗降低20%,性能代偿控制在5%至10%,并附带约10%的额外容量提升,计划于2027年进入客户认证阶段。对于部署数千块硬盘的超大规模数据中心,这一乘数效应相当可观。西部数据数据显示,旧款4TB传统硬盘功耗约为2.85W/TB,而现代32TB氦气硬盘降至约0.3W/TB,降幅超过9倍。

关键要点

  • 存储成为AI规模化瓶颈:随着AI从训练走向推理并回流数据,数据规模无休止膨胀,存储系统若跟不上,将导致昂贵的GPU集群闲置。
  • 数据流转与分层是核心痛点:全生命周期数据流转效率低影响AI迭代;冷热数据分层不当导致高性能存储资源浪费,TCO(总体拥有成本)成为HDD的核心竞争优势。
  • HDD仍是云端存储主力:预测显示到2029年,近80%的云端数据仍将存储在HDD上,中国受访者尤其看重其低成本优势。
  • 西部数据技术路线图激进
    • 容量:2026年40TB,2029年100TB+(基于HAMR技术+14碟封装)。
    • 性能:高带宽技术(双磁头读写)和双枢轴技术(双磁臂)已获验证,旨在解决带宽稀释和IO性能问题。
    • 能效:功耗优化型HDD计划2027年认证,旨在大幅降低数据中心能耗。
  • 能效提升显著:从4TB到32TB硬盘,每TB功耗降幅超过9倍,对大规模数据中心具有显著的成本节约意义。

意义与影响

AI产业的上半场是算力的争夺战,而下半场则是数据基础设施的长期补课。随着大模型从实验室走向大规模生产环境,数据存储不再仅仅是后台支撑,而是直接决定AI系统运行效率和成本的关键环节。

对于行业而言,这一趋势意味着存储技术的重要性将被重新评估。HDD凭借其在容量、成本和能效方面的综合优势,将在AI数据湖和长期数据存储中占据主导地位。西部数据等厂商的技术突破,特别是HAMR和高带宽技术的落地,将为解决AI数据爆炸带来的存储压力提供切实可行的路径。

对企业而言,优化存储架构、实现冷热数据智能分层以及提升数据流转效率,将成为降低AI运营成本、加速模型迭代的关键策略。忽视存储基础设施的建设,可能导致算力投资回报率大幅降低。因此,构建高效、低成本、高能效的数据基础设施,已成为AI规模化落地的必答题。

查看原文 →tmtpost.com