AI 资讯Hacker News·2 小时前

Sophon发布PFG-1单片3D AI芯片：集成330GB片上DRAM无需HBM

原标题：Sophon PFG-1: a monolithic-3D AI ASIC with 330 GB of on-die DRAM and no HBM

速览

Sophon发布了PFG-1单片3D AI ASIC芯片，该芯片集成了330GB的片上DRAM。这一设计摒弃了传统的高带宽内存（HBM），旨在通过单片3D堆叠技术提升AI计算效率并降低系统复杂度。

AI 深度解读

Sophon PFG-1：一款拥有330GB片上DRAM、无需HBM的单体3D AI ASIC深度解读

背景

现代AI加速器正面临严峻的“内存墙”（Memory Wall）挑战，这一瓶颈在推理（Inference）和训练（Training）两种主要工作负载中表现各异，但根源均在于数据移动的效率与能耗。

在推理场景中，模型权重在部署后是固定的，但每次生成令牌（Token）时都需要读取完整的权重张量。传统的高带宽内存（HBM）在低批次（low-batch）场景下受限于带宽瓶颈。例如，NVIDIA Rubin (R200) 和 AMD Instinct MI455X 等2026年发布的HBM4显卡，其HBM带宽分别仅为22 TB/s和19.6 TB/s。此外，为了保持模型驻留内存，HBM子系统在自刷新状态下需消耗约10-15W的静态功耗，这对于需要低延迟响应的推理服务而言是巨大的能源浪费。

在训练场景中，工作负载呈现读写对称性：前向传播读取权重，反向传播写入梯度，优化器则原地更新权重。传统的非易失性存储（如SLC Resistive RAM）因写入 endurance（耐久性）限制（约10⁶次循环），无法承受800亿参数模型训练所需的约10¹⁰次写入循环。

与此同时，现有的GPU架构在低批次推理和训练任务中，往往受限于HBM带宽而非计算能力。尽管GPU在峰值密集FLOPS上占据优势，但在实际低批次应用中，权重-内存带宽才是决定性能的关键。

在此背景下，PhantaField公司提出了名为 Sophon PFG-1 的解决方案。这是一款基于2D过渡金属硫族化合物（TMD）单体3D（Monolithic 3D, M3D）平台的统一训练与推理芯片，旨在通过消除对片外HBM的依赖，从根本上解决内存墙问题。

核心内容

Sophon PFG-1 是一款集成在750 mm²面积上的单体3D AI ASIC，采用32层2D TMD M3D平台。其核心创新在于完全摒弃了片外HBM，将权重、梯度和优化器状态全部集成在片上的2T0C 2D-TMD增益单元DRAM中。

1. 架构概览与物理堆叠

Sophon 采用混合堆叠架构，由28 nm硅CMOS基础层、32层2D-TD CMOS MAC（乘加运算）堆叠以及单体层间通孔（MIV）互连网络组成。

堆叠结构：总堆叠高度约为硅片上方22 µm（64层 × 0.35 µm/层）。逻辑层与存储层以A/B/A/B模式交替排列，形成32个“逻辑+存储”双体单元。
逻辑层：位于奇数层，采用MoS₂ n-FET和WSe₂ p-FET构建2D-TD CMOS MAC阵列。密度为0.175 TFLOPS FP8/mm²，时钟频率1.2 GHz，电压0.6 V。
存储层：位于偶数层，直接位于配对逻辑层之上。2T0C DRAM模块嵌入在每层存储层的后端工艺（BEOL）Metal-3层中。
互连：通过亚100 nm间距的垂直单体层间通孔（MIV），将位线/字线/传感信号直接从逻辑MAC阵列传输至存储单元，实现每个MAC拥有独立的垂直端口，零网络-on-Chip (NoC) 流量。

2. 核心存储技术：2T0C 2D-TMD DRAM

Sophon 的核心突破在于使用 2T0C（2晶体管0电容） 2D-TMD 增益单元DRAM。

原理：利用TMD晶体管在28 nm节点下异常低的关态电流密度（Joff ≈ 10⁻¹⁵ A/µm，即约0.5 fA/单元），使得存储节点无需显式电容即可保持秒级数据保留时间。
结构：
- 写入晶体管 (WT)：由写入字线控制的TMD nFET，用于对存储节点充电或放电。
- 读取晶体管 (RT)：栅极为存储节点的TMD nFET，其漏极电流指示存储的比特。
- 存储节点：仅由RT的寄生栅电容（~2.5 fF）和WT漏极结电容（~0.5 fF）组成，无MIM或沟槽电容。
优势：单元面积仅为8 F²（远低于传统1T1C DRAM的~20 F²），支持原地写入，写入能耗低至20 fJ/bit，且具备无限写入耐久性。刷新开销极低，仅需约0.08 W。

3. 计算性能与能效

计算单元采用纯数字存内计算（Compute-In-Memory, CIM）架构。

计算单元：每个256×256的DRAM子阵列 tile 配对一个二进制传感放大器和一个8层加法器树，由500 MHz的位串行激活广播驱动。
吞吐量：每芯片包含131,072个tile，在7.5 cm²的足迹内提供 4,200 TFLOPS FP8 和 2,100 TFLOPS BF16 的计算能力。
统一性：由于阵列完全支持读写，同一硅片可同时执行BF16的前向/反向训练传递，并以计算受限速率服务低批次解码。

4. 性能对比：Sophon vs. 传统GPU

在800亿参数（80B）模型的性能评估中，Sophon 展现出显著优势：

训练性能：在80B BF16训练中，Sophon 每芯片的训练吞吐量比 NVIDIA Rubin 和 AMD MI455X 高出约 2.7–3.1倍。这是因为在低批次下，GPU受限于HBM4带宽（Rubin 22 TB/s, MI455X 19.6 TB/s），而Sophon提供了极高的片上权重带宽。
推理性能：
- 原生BF16模式下，80B模型推理速度达 7,219 tokens/s。
- FP8模式下，速度高达 14,438 tokens/s。
- 相比GPU，单流FP8解码吞吐量高出 48–53倍。
带宽优势：Sophon 提供的权重带宽是HBM4封装的 191–214倍（vs Rubin 191倍，vs MI455X 214倍）。

5. 经济性与容量

容量：Sophon 拥有 330 GB 的片上DRAM。对于80B BF16模型，它可将权重+一阶优化器状态完全容纳在片上，并留有约10 GB的激活值余量用于梯度检查点微批次。
成本：Morgan Stanley估计，一个NVIDIA NVL72机架（含VR200）成本约780万美元，其中HBM内存成本约200万美元（占机架25.7%，较GB300增长435%）。Sophon 消除了这一项，使其硬件BOM成本比 Rubin/MI455X 低 9.9–11.6倍。

关键要点

无HBM设计：Sophon PFG-1 完全消除了对片外高带宽内存（HBM）的依赖，所有权重、梯度和优化器状态均存储在片上330 GB DRAM中。
单体3D集成：采用32层2D-TMD M3D平台，通过垂直单体

查看原文 →phantafield.com