AI 资讯雷峰网·3 小时前

Groq LPU入局英伟达平台，AI推理芯片专业化分工成新趋势

原标题：被遗忘十年的LPU翻红，一门新生意成立了吗？

速览

随着AI进入推理时代，Groq LPU被纳入英伟达Vera Rubin平台，标志着专业化分工成为芯片行业共识。LPU凭借SRAM高带宽和静态调度优势，专攻FFN等工作流，但面临MoE动态架构带来的编译器优化挑战。这一趋势反映了AI基础设施从单芯片性能比拼向系统级效率优化的转变。

AI 深度解读

背景

随着人工智能应用从模型训练阶段全面转向推理阶段，单一通用计算架构（如传统的GPU集群）在处理复杂推理任务时，正逐渐触及效率与成本的边界。AI基础设施的竞争逻辑正在发生深刻变化：从单纯追求单芯片算力峰值，转向系统层级的效率优化与异构分工。

在这一背景下，曾被市场边缘化多年的语言处理单元（LPU）重新进入主流视野。特别是Groq的LPU被纳入英伟达（Nvidia）最新的Vera Rubin平台，标志着“专用芯片处理特定推理任务”的异构架构理念获得了行业巨头的背书。这一事件不仅宣告了LPU技术路线的复兴，更引发了关于“专业化分工”是否足以支撑独立芯片公司商业模式的深度讨论。

核心内容

1. LPU翻红的技术动因：推理任务的精细化拆解

AI推理过程并非铁板一块，其内部存在显著的性能瓶颈差异。Transformer模型的推理主要分为两个阶段：

Prefill（预填充）：主要关注算力密度，用于处理输入提示词。
Decode（解码）：主要依赖响应速度和系统吞吐能力，用于生成Token。

在Decode阶段内部，负载进一步分化：

Attention机制：受限于KV Cache的搬运和读取，对内存带宽极度敏感。
FFN（前馈神经网络）：承担大量Token生成任务，对计算逻辑有特定需求。

Groq LPU正是在此背景下，作为英伟达Vera Rubin平台中的新增角色，以LPX系统形式专攻FFN相关工作流。这种“25% Groq LPU + 75% Vera Rubin”的组合方案，旨在通过超低延迟的高速通道，解决GPU不擅长的极端推理场景，实现了从“单芯片性能比拼”到“系统级异构协作”的跨越。

2. LPU的核心竞争力与争议：编译器与SRAM

业界对LPU的优势主要集中在两点，但含金量存在分歧：

编译器与静态调度能力：
- 支持观点：芯片架构师方晓认为，LPU真正的护城河不是单芯片性能，而是多芯片、机柜及集群间的精确编排能力，这是非大厂企业难以突破的壁垒。
- 质疑观点：前大厂芯片软件设计师Tim指出，随着Transformer成为主流，模型算子收敛，编译器优化空间收窄。此外，MoE（混合专家）等动态架构的兴起，使得推理时的专家激活组合具有动态性，全静态编译系统难以提前获知这些信息，导致编译器只能为“最坏情况”预留冗余，抵消了部分理论优势。
SRAM高带宽存储路线：
- 数据表现：英伟达数据显示，单颗Groq 3 LPU的SRAM带宽高达150 TB/s，约为H100 HBM3的45倍；256颗LPU组成的机柜总带宽可达40 PB/s。
- 成本优势：该路线绕开了HBM（高带宽内存）供应链限制。随着HBM占AI芯片成本比例从2024年初的52%升至2025年底的63%，SRAM的高带宽价值被重新审视。
- 容量劣势：资深芯片产品负责人顾玥指出，SRAM单位成本高、容量小（Groq 3仅约500MB，而HBM可达数十GB），是“法拉利”而非“大众车”。虽然IO资本赵占祥认为总成本可能因容量差距而更低，但芯片架构专家晓东强调，SRAM因晶体管占用面积大，在硅片面积分配上存在天然瓶颈。

3. 商业模式的拷问：是“法拉利”还是“大众”？

LPU虽获入场券，但独立LPU公司能否成为一门好生意，面临严峻挑战：

客户与生态的缺失：Groq虽已拿下沙特项目、欧洲算力中心及Meta Llama生态，但大多数最需要LPU的企业（如大模型公司、互联网大厂）往往具备自研能力。Tim指出，相对于GPU，LPU架构相对简单，大厂若投入资源，一两年内即可自研实现。
“锦上添花”而非“雪中送炭”：英伟达引入LPU是拥有“大众”（通用GPU市场）基础上的“法拉利”（专用加速），属于锦上添花。对于初创公司，若无法找到“大众”搭档，独立生存艰难。
历史教训与风险：方晓类比DPU（数据处理单元）的发展历程，指出新架构需要漫长的市场培育期（如英伟达GPU历经十年普及）。对于依赖特定模型架构的ASIC芯片，若未来基础模型发生范式转移，专用优化价值可能归零。
长期需求逻辑：尽管存在风险，Mark和晓东认为，只要模型仍需从海量知识中筛选和组合信息，对高带宽和低延迟的需求就不会消失。未来的新架构更可能是Transformer的Plus版，基于此设计的芯片不会作废。

关键要点

架构趋势：AI推理正从单一GPU架构转向异构分工，Groq LPU通过专攻FFN工作流，成为英伟达Vera Rubin平台的重要补充。
技术壁垒：LPU的核心优势在于集群级的精确编排能力（编译器/调度）以及SRAM带来的极高带宽，但面临MoE动态架构对静态编译系统的挑战。
存储博弈：SRAM路线以高带宽、低延迟和规避HBM供应链风险为卖点，但受限于容量小、单位成本高，被视为高性能但非高性价比的“法拉利”方案。
成本范式转移：行业评价标准正从“最小系统部署成本”转向“单位Token成本”。大规模集群虽初始投入高，但可通过高吞吐量降低单Token成本。
商业困境：独立LPU初创公司面临大厂自研竞争和客户生态匮乏的双重压力。成功关键在于能否像英伟达一样，先拥有“大众”市场基础，再叠加“法拉利”专用加速。
未来展望：尽管存在模型演进风险，但高带宽、低延迟的硬件需求具有长期刚性。LPU可能重演DPU赛道的洗牌，但最终能在市场成熟前找到特定场景和客户的企业将存活下来。

意义与影响

LPU的翻红标志着AI芯片行业正式进入“专业化分工”的深水区。它打破了“GPU通吃”的迷思，证明了在推理时代，针对特定算子（如FFN）和特定存储特性（如SRAM高带宽）的专用芯片，能在系统层级带来显著的效率提升。

对于英伟达而言，引入LPU并非自我颠覆，而是通过构建开放的异构生态（NVLink互联），延长其技术领先窗口期，从“卖铲子”升级为“定义系统”。对于创业公司而言，LPU赛道虽热，但门槛极高。它不再仅仅是一场技术竞赛，更是一场关于生态绑定、客户获取和长期资本耐心的商业博弈。未来，能够存活下来的LPU企业，大概率不是那些试图取代GPU的公司，而是那些能证明自己在特定高价值Token生成场景中，比通用方案更具成本效益或性能优势的“特种部队”。

查看原文 →leiphone.com

Groq LPU入局英伟达平台，AI推理芯片专业化分工成新趋势

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐