AI 资讯量子位·3 小时前

算苗3D TokenPU正式流片引领国产AI云端大算力芯片升级

原标题：算苗3D TokenPU正式流片引领国产AI云端大算力芯片再升级

速览

算苗科技宣布其3D TokenPU芯片正式完成流片。该芯片的问世标志着国产AI云端大算力芯片技术实现重要突破。此举将进一步提升国产算力基础设施的性能与竞争力。

AI 深度解读

背景

随着人工智能产业从训练阶段加速向推理阶段迁移，大模型推理已成为算力需求的核心增长极。德勤预测，未来超过 80% 的算力需求将集中在推理侧。然而，这一领域长期受制于“内存墙、算力墙、通信墙”三大核心瓶颈，尤其是数据在存储器与处理器之间频繁搬运，导致了高达 80% 的能耗和 70% 的成本压力。

在此背景下，专注于 3D 架构 AI 云端大算力芯片研发的算苗科技（SUNMMIO）宣布其面向大模型推理的 3D TokenPU 芯片 A4E 于 2026 年 6 月 15 日正式流片。这一进展标志着中国在高端 AI 算力芯片领域，实现了依托国产供应链、采用 3D 混合堆叠架构的大模型专用处理器落地，旨在为国内大模型产业提供自主可控、高性能且高性价比的算力支撑。

核心内容

算苗科技此次推出的 A4E 芯片并非通用 GPU 的改良版，而是为大模型时代原生设计的专用处理器。其核心创新在于首创的 3D TokenPU 架构，旨在跳出传统设计思路，专攻推理场景下的极致性能与能效比。

在硬件物理结构上，A4E 芯片将 8 层存储晶圆垂直堆叠在计算逻辑晶圆之上。通过硅通孔（TSV）与凸点（bump）技术实现微米级互联，该技术将传统芯片间“毫米级”的传输距离压缩了两个数量级。这种 3D 混合堆叠设计带来了 16TB/s 的超大访存带宽，有效缓解了大模型推理中的数据饥饿问题。

在架构与软件协同方面，算苗科技引入了 Tile-Native 软硬件协同理念。该理念将 Tile 作为数据搬运、存储和计算的基本单元，实现了“一次搬运、多次复用”的高效数据调度模式。硬件层面原生支持 Tile 级数据调度与多精度动态切换；软件层面则构建了适配 LLVM、Triton 等开源生态的编译工具栈。这种“硬件架构-软件工具-算法特性”的闭环优化，兼顾了开发者友好性与算子优化效率，从而显著降低了总拥有成本（TCO）。

在供应链与制造层面，算苗科技已构建起覆盖芯片设计、核心 IP、制造、封装的国产化体系。A4E 芯片基于自研 RISC-V 架构、自研 IP 及自研软件体系打造，并与国内头部供应链伙伴深度合作。尽管采用成熟国产工艺，但通过 3D 堆叠技术仍可实现卓越推理性能。工程化方面，算苗团队核心成员曾在高通量存算一体芯片项目中完成万片级 3D 混合堆叠晶圆的量产，是全球少数掌握该技术并具备量产能力的团队之一。

在市场应用与资本认可方面，算苗科技的核心客户为头部大模型厂商，双方已开展近一年的深度研发，从芯片定义阶段便锚定真实推理场景需求，实现 AI 算力与大模型算法的极致匹配。公司已完成多轮融资，投资方包括国开金融、北京顺禧、源码资本、石溪资本、联想创投、襄禾资本等，涵盖国资平台、头部市场化基金与一线产业资本。

关键要点

产品进展：算苗科技旗下面向大模型推理的 3D TokenPU 芯片 A4E 已于 2026 年 6 月 15 日正式流片。
架构创新：首创 3D TokenPU 架构，将 8 层存储晶圆垂直堆叠在计算逻辑晶圆上，突破传统 2D 设计局限。
性能指标：通过 TSV 和 bump 技术实现微米级互联，将传输距离压缩两个数量级，提供 16TB/s 的超大访存带宽。
技术理念：引入 Tile-Native 软硬件协同理念，以 Tile 为基本单元实现“一次搬运、多次复用”，硬件原生支持多精度动态切换。
软件生态：构建适配 LLVM、Triton 等开源生态的编译工具栈，兼顾开发者友好性与算子优化效率。
供应链自主：基于自研 RISC-V 架构与自研 IP，依托国产供应链与成熟工艺，实现从设计到制造的自主可控。
量产能力：核心团队具备万片级 3D 混合堆叠晶圆量产经验，是全球少数掌握该技术的团队之一。
市场定位：专注解决推理侧的“内存墙、算力墙、通信墙”瓶颈，核心客户为头部大模型厂商，已进行深度联合调优。
资本背书：获得国开金融、源码资本、联想创投等知名机构的多轮融资支持。

意义与影响

算苗科技 A4E 芯片的流片，标志着中国在高端 AI 算力芯片领域取得重要突破。首先，它证明了通过 3D 混合堆叠架构而非单纯依赖制程缩小，即可实现算力密度和能效比的跨越式提升，为国产芯片在成熟工艺下追求高性能提供了可行的技术路径。

其次，该芯片专注于推理场景，契合了 AI 产业从训练向推理迁移的大趋势。通过解决数据搬运带来的高能耗和高成本问题，有望大幅降低大模型部署的总拥有成本（TCO），提升推理服务的经济性。

最后，算苗科技构建的国产化供应链体系及自主可控的技术栈，有助于缓解高端 AI 芯片受制于人的风险，为国内大模型产业提供稳定、高性能的算力底座，助力国产算力产业的跃迁与全球化发展。

查看原文 →qbitai.com

算苗3D TokenPU正式流片 引领国产AI云端大算力芯片升级

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐

算苗3D TokenPU正式流片引领国产AI云端大算力芯片升级