Sophon发布PFG-1单片3D AI芯片:集成330GB片上DRAM无需HBM
速览
Sophon发布了PFG-1单片3D AI ASIC芯片,该芯片集成了330GB的片上DRAM。这一设计摒弃了传统的高带宽内存(HBM),旨在通过单片3D堆叠技术提升AI计算效率并降低系统复杂度。
AI 深度解读
Sophon PFG-1:一款拥有330GB片上DRAM、无需HBM的单体3D AI ASIC深度解读
背景
现代AI加速器正面临严峻的“内存墙”(Memory Wall)挑战,这一瓶颈在推理(Inference)和训练(Training)两种主要工作负载中表现各异,但根源均在于数据移动的效率与能耗。
在推理场景中,模型权重在部署后是固定的,但每次生成令牌(Token)时都需要读取完整的权重张量。传统的高带宽内存(HBM)在低批次(low-batch)场景下受限于带宽瓶颈。例如,NVIDIA Rubin (R200) 和 AMD Instinct MI455X 等2026年发布的HBM4显卡,其HBM带宽分别仅为22 TB/s和19.6 TB/s。此外,为了保持模型驻留内存,HBM子系统在自刷新状态下需消耗约10-15W的静态功耗,这对于需要低延迟响应的推理服务而言是巨大的能源浪费。
在训练场景中,工作负载呈现读写对称性:前向传播读取权重,反向传播写入梯度,优化器则原地更新权重。传统的非易失性存储(如SLC Resistive RAM)因写入 endurance(耐久性)限制(约10⁶次循环),无法承受800亿参数模型训练所需的约10¹⁰次写入循环。
与此同时,现有的GPU架构在低批次推理和训练任务中,往往受限于HBM带宽而非计算能力。尽管GPU在峰值密集FLOPS上占据优势,但在实际低批次应用中,权重-内存带宽才是决定性能的关键。
在此背景下,PhantaField公司提出了名为 Sophon PFG-1 的解决方案。这是一款基于2D过渡金属硫族化合物(TMD)单体3D(Monolithic 3D, M3D)平台的统一训练与推理芯片,旨在通过消除对片外HBM的依赖,从根本上解决内存墙问题。
核心内容
Sophon PFG-1 是一款集成在750 mm²面积上的单体3D AI ASIC,采用32层2D TMD M3D平台。其核心创新在于完全摒弃了片外HBM,将权重、梯度和优化器状态全部集成在片上的2T0C 2D-TMD增益单元DRAM中。
1. 架构概览与物理堆叠
Sophon 采用混合堆叠架构,由28 nm硅CMOS基础层、32层2D-TD CMOS MAC(乘加运算)堆叠以及单体层间通孔(MIV)互连网络组成。
- 堆叠结构:总堆叠高度约为硅片上方22 µm(64层 × 0.35 µm/层)。逻辑层与存储层以A/B/A/B模式交替排列,形成32个“逻辑+存储”双体单元。
- 逻辑层:位于奇数层,采用MoS₂ n-FET和WSe₂ p-FET构建2D-TD CMOS MAC阵列。密度为0.175 TFLOPS FP8/mm²,时钟频率1.2 GHz,电压0.6 V。
- 存储层:位于偶数层,直接位于配对逻辑层之上。2T0C DRAM模块嵌入在每层存储层的后端工艺(BEOL)Metal-3层中。
- 互连:通过亚100 nm间距的垂直单体层间通孔(MIV),将位线/字线/传感信号直接从逻辑MAC阵列传输至存储单元,实现每个MAC拥有独立的垂直端口,零网络-on-Chip (NoC) 流量。
2. 核心存储技术:2T0C 2D-TMD DRAM
Sophon 的核心突破在于使用 2T0C(2晶体管0电容) 2D-TMD 增益单元DRAM。
- 原理:利用TMD晶体管在28 nm节点下异常低的关态电流密度(Joff ≈ 10⁻¹⁵ A/µm,即约0.5 fA/单元),使得存储节点无需显式电容即可保持秒级数据保留时间。
- 结构:
- 写入晶体管 (WT):由写入字线控制的TMD nFET,用于对存储节点充电或放电。
- 读取晶体管 (RT):栅极为存储节点的TMD nFET,其漏极电流指示存储的比特。
- 存储节点:仅由RT的寄生栅电容(~2.5 fF)和WT漏极结电容(~0.5 fF)组成,无MIM或沟槽电容。
- 优势:单元面积仅为8 F²(远低于传统1T1C DRAM的~20 F²),支持原地写入,写入能耗低至20 fJ/bit,且具备无限写入耐久性。刷新开销极低,仅需约0.08 W。
3. 计算性能与能效
计算单元采用纯数字存内计算(Compute-In-Memory, CIM)架构。
- 计算单元:每个256×256的DRAM子阵列 tile 配对一个二进制传感放大器和一个8层加法器树,由500 MHz的位串行激活广播驱动。
- 吞吐量:每芯片包含131,072个tile,在7.5 cm²的足迹内提供 4,200 TFLOPS FP8 和 2,100 TFLOPS BF16 的计算能力。
- 统一性:由于阵列完全支持读写,同一硅片可同时执行BF16的前向/反向训练传递,并以计算受限速率服务低批次解码。
4. 性能对比:Sophon vs. 传统GPU
在800亿参数(80B)模型的性能评估中,Sophon 展现出显著优势:
- 训练性能:在80B BF16训练中,Sophon 每芯片的训练吞吐量比 NVIDIA Rubin 和 AMD MI455X 高出约 2.7–3.1倍。这是因为在低批次下,GPU受限于HBM4带宽(Rubin 22 TB/s, MI455X 19.6 TB/s),而Sophon提供了极高的片上权重带宽。
- 推理性能:
- 原生BF16模式下,80B模型推理速度达 7,219 tokens/s。
- FP8模式下,速度高达 14,438 tokens/s。
- 相比GPU,单流FP8解码吞吐量高出 48–53倍。
- 带宽优势:Sophon 提供的权重带宽是HBM4封装的 191–214倍(vs Rubin 191倍,vs MI455X 214倍)。
5. 经济性与容量
- 容量:Sophon 拥有 330 GB 的片上DRAM。对于80B BF16模型,它可将权重+一阶优化器状态完全容纳在片上,并留有约10 GB的激活值余量用于梯度检查点微批次。
- 成本:Morgan Stanley估计,一个NVIDIA NVL72机架(含VR200)成本约780万美元,其中HBM内存成本约200万美元(占机架25.7%,较GB300增长435%)。Sophon 消除了这一项,使其硬件BOM成本比 Rubin/MI455X 低 9.9–11.6倍。
关键要点
- 无HBM设计:Sophon PFG-1 完全消除了对片外高带宽内存(HBM)的依赖,所有权重、梯度和优化器状态均存储在片上330 GB DRAM中。
- 单体3D集成:采用32层2D-TMD M3D平台,通过垂直单体
