← 返回信息流
AI 资讯雷峰网·3 小时前

十年榜单首迎中国双料冠军:F9000赢的不只性能

原标题:十年榜单首迎中国双料冠军:这次赢的不只是性能

速览

中科曙光ParaStor F9000分布式全闪存储系统在6月ISC高性能计算大会上,分别摘得生产型全节点和10节点IO500榜单冠军,这是近十年榜单中首个由中国厂商实现的双料第一。生产型榜单要求系统已在真实业务环境运行超过一年,F9000通过双子星硬件架构、CPU直连SSD和网卡的无中间转接设计、IO子域隔离、QoS调控,以及AI场景下的XDS技术、KV Cache offload等创新,实现系统吞吐量达到内存带宽峰值,并降低GPU显存占用、提升并发能力。

AI 深度解读

十年榜单首迎中国双料冠军:这次赢的不只是性能

背景

IO500作为全球高性能计算存储领域最权威的评测体系,持续追踪高性能计算存储的性能表现已近十年。本次榜单于2026年6月在德国汉堡ISC高性能计算大会现场公布,首次出现中国厂商同时拿下生产型全节点和10节点两大榜单第一名。

中科曙光ParaStor F9000分布式全闪存储系统以真实生产环境运行超过一年的标准,成为首个达成此成就的中国厂商。

核心内容

IO500榜单生产型评选要求存储系统必须已在真实业务环境中不间断运行超过一年,F9000并非实验室测试样机,而是正在产线上承担生产任务的真实系统。

中科曙光北京公司副总裁何振则表示,这次夺冠的意义远不止“拿了一个冠军”:“这是国产高端存储第一次在全球最严格的真实生产型评测体系中,形成了系统性领先。”

中科曙光分布式存储总工程师袁清波将F9000的技术壁垒归纳为三层:硬件形态、连接方式和QoS调控机制,以及全栈自研。

硬件形态上,F9000采用“双子星”特殊设计,在2U空间内塞进两个完全独立的物理节点,每个节点拥有自己的主板、CPU、内存、网卡和SSD。连接方式创新:CPU一侧直连NVMe介质,另一侧直连网卡,中间完全不经过PCIe Switch转接,提供了两倍的PCIe Lane数量,并有意识地“对半分”给了SSD和网卡。

ParaStor围绕每个CPU核心,把与之相关的内存、网卡、SSD绑定成一个独立的IO子域,确保混合负载之间相互隔离又能灵活配置。“用户发出的每一次IO,从发出那一刻起,我们就知道它要走哪个网卡、用哪块内存、经哪个核,最后落在哪块盘上。”袁清波说。

系统吞吐量已推至内存带宽的峰值。“基本上没有传统方案能做到这一点,”袁清波说,“一旦后面硬件有提升,比如网卡频率提高10%,我们的性能也能同步提升10%。”

在这套架构之上,叠加了一层QoS调控机制,能针对不同业务分别设定带宽和IOPS的上下限——这正是F9000在“业务不能停”的生产环境里,额外完成打榜测试而不互相干扰的关键。

从战略视角看,何振表示:“全国产自研的意义,并不只是供应链层面的可靠保障,更重要的是带来了体系级优化空间——核心软硬件栈完全可控,使存储系统可以在协议栈、数据路径、调度机制等多个层面进行深度协同优化。”

F9000面向AI场景,能够做到“以存提算、以存代算、以存降本”三级协同——本质上是把存储从被动的数据供给层,升级为参与计算路径设计的一部分。

在计算节点侧,F9000做了三层加速:把节点本地内存和NVMe SSD池化为近算力缓存,在训练前先将数据集“预热”进来,避免每次跨网络回源到后端存储;再通过XDS技术,让数据直接从网卡进入GPU显存,绕开CPU内存转发。“我们已经把内存带宽跑到了峰值,但XDS可以进一步突破内存带宽的限制——数据根本不走内存了。”袁清波解释。

网络侧,F9000优先适配的是曙光自研的scaleFabric——一款400G原生无损RDMA网络,中科曙光高速网络互联产品部总工程师万伟透露,网卡设计之初就考虑了存储的极端需求:在10万卡集群规模下,存储节点需要面向所有计算节点的并发访问,现有IB的QP规模根本撑不住,团队直接把这一指标扩展了一倍。

存储侧的重心,从“更快供给”转向“主动分担”。两项能力承担了这个角色:KV Cache offload自动将GPU闲置的KV缓存块迁移到后端全闪存储,推理时再通过XDS高速通路回传显存,实测降低60%以上GPU显存占用,单卡并发推理承载量提升2到10倍;存储端AI算子加速库则把数据清洗、向量编码等预处理操作下沉到存储侧执行,跨节点数据传输量减少70%。

袁清波把这套组合拳的意义概括为一句话:“未来存储系统的竞争将从单一性能指标,转向系统级综合能力——数据路径效率、端到端延迟控制能力、GPU利用率提升能力,以及高并发场景下的整体吞吐稳定性,这些指标共同决定系统在真实AI负载下的有效价值。”

大模型训练进入万卡、十万卡规模之后,瓶颈已从“算力不足”转移到了“数据供给不足”。袁清波表示:“在大规模AI训练体系中,算力本身已经高度冗余,真正限制系统效率的是数据供给能力。如果存储无法持续提供高带宽、低时延的数据流,GPU将处于等待状态,导致算力资源浪费。”

这种瓶颈转移,正在逼着存储的角色发生根本性变化,石静的判断是,ParaStor不再是一个数据容器,在AI的驱动下,它正在向“AI数据工厂”跃迁,存储开始成为计算路径设计的一部分。

这种跃迁已经发生在具体场景里。

在具身智能领域,曙光为智元机器人提供了超过500GB/s聚合读带宽的专属存储方案,支撑多款通用型机器人的快速迭代;自动驾驶领域,曙光连续为国内头部造车新势力提供超百PB存储资源,覆盖从数据采集到仿真验证的全流程闭环,模型研发周期缩短40%以上;科学计算领域,F9000支撑了414.7亿原子规模的液态水分子动力学模拟——存储开始直接参与数据与计算高度耦合的科学发现过程。

截至目前,ParaStor F9000已搭载于曙光scaleX万卡超集群,支撑了百余个AI与高性能计算领域的生产应用。

而下一代AI基础设施的竞争焦点,已从单一硬件能力转向系统级协同,何振将这种竞争的核心概括为三个维度:存算网一体化的数据流动效率、跨层资源调度能力,以及整体TCO优化。

“国产厂商的优势,在于更完整的系统工程能力——可以从整机、网络到软件栈进行端到端优化,而不是局限于单点性能提升。”

这套系统级竞争的逻辑,恰好撞上了当前存储市场近15年来最陡峭的涨价周期,海外巨头把产能向HBM、DDR5等高附加值领域倾斜,传统存储市场出现供给缺口。

但何振认为,这轮涨价的本质不是单一器件价格波动,而是AI算力需求爆发后,存储、网络、算力同步扩张带来的系统性成本上升。

正是在这个矛盾里,“以技术换效率、以效率降成本”开始成为国产存储的差异化路径。F9000的智能数据分层,把高频数据放到高性能路径上,低频数据沉淀到性价比更高的介质,再叠加软硬件协同优化提升单节点带宽——本质上是把原本需要线性堆叠硬件的投入,转化为更高密度、更高利用率的系统能力。

何振的判断很干脆:“谁能在同等算力需求下,用更少的资源、更高的利用率完成计算任务,谁就能在新一轮基础设施建设中获得优势。”

这次双榜登顶,放在更大的坐标系里看,踩在了一次范式转换的节点上——从“国产替代”切换到“全球并跑”。

2026年第一季度,中国存储器出口额同比增长174.2%,长江存储全球NAND闪存市占率升至13%,国产存储正在从“政策单引擎”切换到“政策+性能”双引擎并驱。

产业层面的数据提供了宏观注脚,但具体到每一款产品能否真正打开局面,仍需要接受市场和时间的检验,也正是基于这一认知,曙光内部对这次登顶的定位保持着清醒与克制。

何振首先划清了能力验证与商业成功之间的边界:“这次在IO500的突破,更多是对产品能力的一次国际级验证,不直接等同于商业市场的规模化结果。”

基于这一判断,曙光的海外策略没有奔着规模扩张去,而是以科研机构、超算中心为切入点,优先进入对性能和工程能力要求更高的细分市场。

石静的判断同样克制:“它不算一张全球通行证,只是代表我们具有这样一个能力——算是给全球的一个亮相。”

但亮相的意义,从来不只是被看见,石静说:"未来竞争的核心不在于'替换多少存量',而在于'能否在新一代AI基础设施中成为默认选项'。"

从产业大势到产品定位,从海外策略到生态愿景,这些冷静的研判背后,是二十年技术积累所沉淀出的底气。

被问到拿下双第一的心情时,石静用了八个字:"行稳致远、长期主义。"

二十多年,足够一条技术路线从实验室走到全球评测的聚光灯下。这次IO500双榜登顶,是一个节点,不是句号。

关键要点

  • 首次出现同时获得生产型全节点和10节点双榜第一的中国厂商:中科曙光ParaStor F9000
  • 生产型榜单硬性要求:真实业务环境运行超过一年,考核长期稳定性、复杂负载适配能力和大规模扩展一致性
  • 技术壁垒三层:硬件形态(双子星设计,双节点独立物理结构)、连接方式(CPU直连NVMe与网卡,PCIe Lane对半分给SSD与网络)、QoS调控机制(针对业务设定带宽和IOPS上限)
  • 系统吞吐量达到内存带宽峰值,并支持硬件升级同步提升10%
  • AI场景三级协同:“以存提算、以存代算、以存降本”——近算力缓存、XDS技术、KV Cache offload、AI算子下沉
  • 网络侧适配曙光自研400G scaleFabric,无损RDMA,集群规模扩展至10万卡
  • 场景落地:智元机器人500GB/s聚合读带宽、自动驾驶超百PB存储(周期缩短40%)、液态水分子动力学模拟(414.7亿原子规模)
  • 产业背景:2026年第一季度中国存储器出口额同比增长174.2%,长江存储NAND闪存市占率升至13%
  • 定位:国际级能力验证,非商业规模化结果,海外切入科研机构、超算中心

意义与影响

中科曙光ParaStor F9000的IO500双榜登顶,是国产高端存储在全球最严格真实生产型评测体系中系统性领先的标志,标志着中国存储技术从“国产替代”迈向“全球并跑”,并正在向AI数据工厂转型。

这一成就并非单一性能提升,而是存储角色从被动数据供给层升级为参与计算路径设计的重要组成部分,解决了大规模AI训练中数据供给不足的瓶颈,显著提升了GPU利用率和端到端效率。

在市场层面,它撞上存储供需矛盾与系统级成本优化需求,为“以技术换效率、以效率降成本”的国产路径提供了范例,助力企业在同等算力需求下实现更高资源利用率和TCO优化。

未来竞争焦点从单一硬件能力转向存算网一体化、跨层调度和整体TCO优化,曙光将继续以科研机构、超算中心为切入点,逐步成为新一代AI基础设施的默认选项。

此次双榜登顶是一个节点,二十年积累铸就的“行稳致远、长期主义”底气,将引领中国存储产业持续前行。

查看原文 →leiphone.com