← 返回信息流
AI 资讯雷峰网·3 小时前

Groq LPU入局英伟达平台,AI推理芯片专业化分工成新趋势

原标题:被遗忘十年的LPU翻红,一门新生意成立了吗?

速览

随着AI进入推理时代,Groq LPU被纳入英伟达Vera Rubin平台,标志着专业化分工成为芯片行业共识。LPU凭借SRAM高带宽和静态调度优势,专攻FFN等工作流,但面临MoE动态架构带来的编译器优化挑战。这一趋势反映了AI基础设施从单芯片性能比拼向系统级效率优化的转变。

AI 深度解读

背景

随着人工智能应用从模型训练阶段全面转向推理阶段,单一通用计算架构(如传统的GPU集群)在处理复杂推理任务时,正逐渐触及效率与成本的边界。AI基础设施的竞争逻辑正在发生深刻变化:从单纯追求单芯片算力峰值,转向系统层级的效率优化与异构分工。

在这一背景下,曾被市场边缘化多年的语言处理单元(LPU)重新进入主流视野。特别是Groq的LPU被纳入英伟达(Nvidia)最新的Vera Rubin平台,标志着“专用芯片处理特定推理任务”的异构架构理念获得了行业巨头的背书。这一事件不仅宣告了LPU技术路线的复兴,更引发了关于“专业化分工”是否足以支撑独立芯片公司商业模式的深度讨论。

核心内容

1. LPU翻红的技术动因:推理任务的精细化拆解

AI推理过程并非铁板一块,其内部存在显著的性能瓶颈差异。Transformer模型的推理主要分为两个阶段:

  • Prefill(预填充):主要关注算力密度,用于处理输入提示词。
  • Decode(解码):主要依赖响应速度和系统吞吐能力,用于生成Token。

在Decode阶段内部,负载进一步分化:

  • Attention机制:受限于KV Cache的搬运和读取,对内存带宽极度敏感。
  • FFN(前馈神经网络):承担大量Token生成任务,对计算逻辑有特定需求。

Groq LPU正是在此背景下,作为英伟达Vera Rubin平台中的新增角色,以LPX系统形式专攻FFN相关工作流。这种“25% Groq LPU + 75% Vera Rubin”的组合方案,旨在通过超低延迟的高速通道,解决GPU不擅长的极端推理场景,实现了从“单芯片性能比拼”到“系统级异构协作”的跨越。

2. LPU的核心竞争力与争议:编译器与SRAM

业界对LPU的优势主要集中在两点,但含金量存在分歧:

  • 编译器与静态调度能力

    • 支持观点:芯片架构师方晓认为,LPU真正的护城河不是单芯片性能,而是多芯片、机柜及集群间的精确编排能力,这是非大厂企业难以突破的壁垒。
    • 质疑观点:前大厂芯片软件设计师Tim指出,随着Transformer成为主流,模型算子收敛,编译器优化空间收窄。此外,MoE(混合专家)等动态架构的兴起,使得推理时的专家激活组合具有动态性,全静态编译系统难以提前获知这些信息,导致编译器只能为“最坏情况”预留冗余,抵消了部分理论优势。
  • SRAM高带宽存储路线

    • 数据表现:英伟达数据显示,单颗Groq 3 LPU的SRAM带宽高达150 TB/s,约为H100 HBM3的45倍;256颗LPU组成的机柜总带宽可达40 PB/s。
    • 成本优势:该路线绕开了HBM(高带宽内存)供应链限制。随着HBM占AI芯片成本比例从2024年初的52%升至2025年底的63%,SRAM的高带宽价值被重新审视。
    • 容量劣势:资深芯片产品负责人顾玥指出,SRAM单位成本高、容量小(Groq 3仅约500MB,而HBM可达数十GB),是“法拉利”而非“大众车”。虽然IO资本赵占祥认为总成本可能因容量差距而更低,但芯片架构专家晓东强调,SRAM因晶体管占用面积大,在硅片面积分配上存在天然瓶颈。

3. 商业模式的拷问:是“法拉利”还是“大众”?

LPU虽获入场券,但独立LPU公司能否成为一门好生意,面临严峻挑战:

  • 客户与生态的缺失:Groq虽已拿下沙特项目、欧洲算力中心及Meta Llama生态,但大多数最需要LPU的企业(如大模型公司、互联网大厂)往往具备自研能力。Tim指出,相对于GPU,LPU架构相对简单,大厂若投入资源,一两年内即可自研实现。
  • “锦上添花”而非“雪中送炭”:英伟达引入LPU是拥有“大众”(通用GPU市场)基础上的“法拉利”(专用加速),属于锦上添花。对于初创公司,若无法找到“大众”搭档,独立生存艰难。
  • 历史教训与风险:方晓类比DPU(数据处理单元)的发展历程,指出新架构需要漫长的市场培育期(如英伟达GPU历经十年普及)。对于依赖特定模型架构的ASIC芯片,若未来基础模型发生范式转移,专用优化价值可能归零。
  • 长期需求逻辑:尽管存在风险,Mark和晓东认为,只要模型仍需从海量知识中筛选和组合信息,对高带宽和低延迟的需求就不会消失。未来的新架构更可能是Transformer的Plus版,基于此设计的芯片不会作废。

关键要点

  • 架构趋势:AI推理正从单一GPU架构转向异构分工,Groq LPU通过专攻FFN工作流,成为英伟达Vera Rubin平台的重要补充。
  • 技术壁垒:LPU的核心优势在于集群级的精确编排能力(编译器/调度)以及SRAM带来的极高带宽,但面临MoE动态架构对静态编译系统的挑战。
  • 存储博弈:SRAM路线以高带宽、低延迟和规避HBM供应链风险为卖点,但受限于容量小、单位成本高,被视为高性能但非高性价比的“法拉利”方案。
  • 成本范式转移:行业评价标准正从“最小系统部署成本”转向“单位Token成本”。大规模集群虽初始投入高,但可通过高吞吐量降低单Token成本。
  • 商业困境:独立LPU初创公司面临大厂自研竞争和客户生态匮乏的双重压力。成功关键在于能否像英伟达一样,先拥有“大众”市场基础,再叠加“法拉利”专用加速。
  • 未来展望:尽管存在模型演进风险,但高带宽、低延迟的硬件需求具有长期刚性。LPU可能重演DPU赛道的洗牌,但最终能在市场成熟前找到特定场景和客户的企业将存活下来。

意义与影响

LPU的翻红标志着AI芯片行业正式进入“专业化分工”的深水区。它打破了“GPU通吃”的迷思,证明了在推理时代,针对特定算子(如FFN)和特定存储特性(如SRAM高带宽)的专用芯片,能在系统层级带来显著的效率提升。

对于英伟达而言,引入LPU并非自我颠覆,而是通过构建开放的异构生态(NVLink互联),延长其技术领先窗口期,从“卖铲子”升级为“定义系统”。对于创业公司而言,LPU赛道虽热,但门槛极高。它不再仅仅是一场技术竞赛,更是一场关于生态绑定、客户获取和长期资本耐心的商业博弈。未来,能够存活下来的LPU企业,大概率不是那些试图取代GPU的公司,而是那些能证明自己在特定高价值Token生成场景中,比通用方案更具成本效益或性能优势的“特种部队”。

查看原文 →leiphone.com