华为更新韬定律论文:放弃的路线也说清楚了
速览
华为更新了关于韬定律的论文,文中详细解释了所放弃的技术路线及其原因。这项研究可能涉及算法或理论优化,对相关技术领域具有参考意义。华为此举展示了其在基础研究上的透明度。
AI 深度解读
背景
华为于近期更新了其此前提出的“韬定律”(τ scaling)论文。该论文最早发布于2025年,试图在摩尔定律逐渐放缓的背景下,为芯片性能提升提供一条新的理论路径。摩尔定律依赖晶体管尺寸的持续缩小,但这一方式在先进制程下面临物理极限。华为提出的韬定律则将衡量标准从“晶体管密度”转向“时间常数τ”——即系统对输入变化做出响应并达到稳定状态所需的特征时间。论文第二版在原有理论框架上补充了大量工程细节、实测数据和产品规划,使理论落地更加清晰。更新后的论文于2026年5月发布在中国科学院科技论文预印本平台(ChinaXiv)上。
核心内容
华为韬定律的核心观点是:未来十年芯片性能的提升,不再主要依靠把晶体管做小,而是要靠把系统的响应时间(τ)压短。τ 由四个层级叠加而成:晶体管层、电路层、芯片层、系统层,跨度从皮秒级到秒级,约十二个数量级。每一个层级缩短τ,都能带来性能收益。
论文给出了两个已经量产验证的案例:
案例一:手机芯片中的LogicFolding
手机SoC芯片必须把全部性能集成在一颗芯片上,无法依赖多机并行。华为提出的LogicFolding技术,核心是将数字、模拟、存储电路划分到垂直堆叠的有源层上,通过超精细键合连接。简言之,原本摊平在单层上的电路被立体叠放,走线长度大幅缩短,寄生电阻和电容降低,从而在相同制程节点下实现更快的速度和更低的功耗。
实测对比显示,华为新一代手机芯片与上一代同工艺节点芯片相比,晶体管密度从155百万颗/平方毫米提升至238百万颗/平方毫米,这一跨度在过去需要三代制程迭代(约三年)才能实现。
案例二:AI数据中心的三件套
AI系统与手机相反,需要成百上千颗芯片协同工作,瓶颈从单芯片算力转移到芯片之间、机柜之间的数据传输。论文指出,大型AI集群中超过80%的能耗花在数据搬运上,超过70%的成本花在数据存储上。为此,华为提出三件套方案:
-
Unified Bus(统一互联协议):一种内存语义、点对点、硬件管理一致性的互联协议。它把原来层层转换的通信栈简化为一条直连高速通道,跨节点访问延迟从几十微秒降至约100纳秒。
-
Hi-ONE(高密度光互联节点引擎):每个模块提供8Tb/s带宽。传统电互联在Tb/s级别时,信号传输距离锐减,线缆过粗且散热供电压力大。Hi-ONE将电信号转为光信号,所需传输距离从约100厘米压缩到5厘米,支持的连接距离从不到1米延长到100米。设计上未采用高精度但耗电的DSP方案,而是采用更轻量的模拟均衡驱动和跨阻放大器,代价是容忍更松的误码率,但综合功耗和成本收益更大。
-
3D Folding(三维折叠):解决“N平方对N困境”——芯片边长N增加时,算力(与芯片面积成正比)按N²增长,但内存带宽、互联和供电信号只能从芯片边缘进出,边缘周长仅按N线性增长。两者的差距随芯片变大而扩大。3D Folding的解法是将原本只能挤在芯片边缘的存储、供电、光模块搬到芯片表面上,利用芯片表面积来弥补边缘带宽的不足。
关键要点
- 韬定律将性能提升的衡量标尺从晶体管尺寸转向时间常数τ,覆盖晶体管、电路、芯片、系统四个层级。
- LogicFolding技术通过垂直堆叠有源层、缩短走线,在相同制程节点下实现晶体管密度跨越式提升(从155到238百万颗/平方毫米),相当于过去三代制程的进步。
- AI数据中心案例中,数据搬运能耗占80%以上,成本占70%以上,Unified Bus将跨节点延迟从几十微秒压至约100纳秒。
- Hi-ONE光互联模块单模块带宽8Tb/s,通过模拟均衡替代DSP,牺牲部分误码率换取功耗和成本优势。
- 3D Folding通过将存储、供电、光模块移至芯片表面,破解算力增长快于边缘带宽增长的矛盾。
- 论文第二版相比第一版,增补了大量工程细节:将“性能提升41%”拆解为在固定电压下频率提升13%,以及在同等性能下功耗降低至0.59倍、面积降至0.625倍。
- 技术选型方面,华为放弃了精度更高但良率撑不住的“顺序式3D集成”,选择了更成熟的“晶圆到晶圆混合键合”路线。代价是散热问题更突出,新版论文首次正面提及,并给出了“热感知分区和布局”的缓解方案(按模块功耗热图错开放置高功耗区域),但散热问题本身尚未完全解决。
- 关键的工艺参数“齿比”(键合层间距与顶层金属布线间距的比值)被详细解释:齿比足够密时,设计空间从离散优化变为连续优化,可实现逻辑单元级的精细分配,达到全局最优。
- 论文结论:过去五十年行业靠缩小晶体管进步,未来十年要靠压缩响应时间τ。
意义与影响
华为韬定律论文的更新,标志着该理论从抽象概念走向工程落地。通过补充实测数据和产品案例,论文向产业界展示了在先进制程接近极限的情况下,通过系统级协同优化(尤其是3D集成、光互联、协议精简)仍能获得显著性能增益。LogicFolding已在手机芯片中量产验证,AI数据中心三件套(Unified Bus、Hi-ONE、3D Folding)则提供了面向大规模AI集群的工程化方案。这些技术并非依赖于更先进的制程节点,而是在现有工艺基础上通过架构创新挖掘潜力,对芯片设计和数据中心建设具有参考价值。同时,论文坦诚地讨论了放弃的路线(顺序式3D集成)和未解决的瓶颈(散热),体现了技术路线的权衡过程。整体而言,它可能推动行业重新审视性能提升的路径选择,尤其是在后摩尔时代如何通过“时间维度的优化”延续算力增长曲线。
