← 返回信息流
AI 资讯量子位·2 小时前

谷歌在Mythos阴影下发布扩散模型,生成速度提升4倍

原标题:Mythos阴影里谷歌悄悄发模型,速度暴涨4倍

速览

谷歌在Mythos项目的阴影下悄然发布了新的扩散模型。该模型专注于文本生成任务,其处理速度实现了4倍的显著提升。这一进展展示了谷歌在扩散模型应用于非图像领域的能力。

AI 深度解读

背景

在人工智能领域,OpenAI 和 Anthropic 等头部厂商的新模型竞争往往占据舆论中心,但谷歌(Google)近期在底层架构创新上悄然发力。传统大语言模型(LLM)主要依赖自回归(Autoregressive)架构,即像打字机一样从左到右、逐个 token 地生成文本。这种模式在云端大规模并发场景下效率尚可,但在本地推理或低延迟交互场景中,受限于内存带宽瓶颈(memory-bandwidth bound),算力往往处于空转状态,导致生成速度成为体验的短板。

与此同时,扩散模型(Diffusion Models)在图像生成领域已证明其并行处理的优势。谷歌试图将这一范式迁移至文本生成领域,以突破现有架构的速度极限。在此背景下,谷歌发布了名为 DiffusionGemma 的新模型,旨在探索非自回归生成路径的可能性,并测试其在现代 GPU 硬件上的并行算力利用率。

核心内容

谷歌发布的新模型 DiffusionGemma 是一个基于扩散机制的大语言模型,其核心创新在于彻底摒弃了传统的“逐 Token 生成”模式,转而采用类似“印刷机”的并行生成策略。

1. 架构原理:从打字机到印刷机 DiffusionGemma 的工作流程与 Stable Diffusion 生成图像类似,但处理对象是文本。具体步骤如下:

  • 初始化画布:模型首先铺设一张包含 256 个随机占位符 Token 的“画布”。
  • 多轮去噪:通过迭代过程对整块 Token 进行去噪。高置信度的 Token 会先被锁定,并作为上下文线索帮助修正其余部分的生成。
  • 收敛输出:经过多轮迭代,整段文字同时浮现并最终收敛为确定的输出结果。

这种机制使得模型能够一次性对一大块并行计算任务进行操作,充分利用 GPU 的 Tensor Core 算力,将计算瓶颈从“内存搬移速度”转变为“算力本身”,从而大幅提升推理速度。

2. 性能表现:速度暴涨 4 倍 在同等硬件条件下,DiffusionGemma 展现了惊人的生成速度:

  • H100 显卡:单卡推理速度超过 1000 tokens/s。
  • 消费级 RTX 5090:推理速度达到 700+ tokens/s。
  • 对比基准:在相同 H100 环境下(fp8,batch size=1),采用标准自回归架构的 Gemma 4 26B A4B(即使加上 MTP 加速)速度仅为 300+ tokens/s。DiffusionGemma 的速度优势约为 4 倍。

3. 模型规格与部署门槛

  • 参数结构:这是一个 26B 参数的混合专家(MoE)模型。
  • 激活参数:推理时仅激活 3.8B 参数,极大降低了计算负载。
  • 显存需求:量化后仅需 18GB 显存即可运行,意味着普通用户甚至可以使用 RTX 4090 等消费级显卡在本地部署。
  • 开源协议:采用 Apache 2.0 商用友好协议,权重已在 Hugging Face 开源。

4. 双向注意力机制带来的新能力 与传统自回归模型只能“向前看”(生成第 N+1 个 Token 时只能看到前 N 个)不同,DiffusionGemma 的 256 个 Token 同时生成,每个 Token 都能看见画布上所有其他 Token。这种双向注意力机制带来了“实时自我纠错”的能力:

  • 模型在生成过程中能评估整段文字的一致性,发现错误立即修正,无需等待生成完毕后再回溯。
  • 案例验证:在数独任务中,由于数独逻辑涉及“后面的数影响前面的数”,自回归模型成功率几乎为 0%,而 DiffusionGemma 微调后成功率飙升至 80%。

关键要点

  • 范式转移:DiffusionGemma 是首个将扩散模型原理大规模应用于文本生成的代表性工作之一,证明了非自回归架构在特定场景下的可行性。
  • 速度优势显著:相比同规格的自回归模型,生成速度提升约 4 倍,尤其在本地推理场景下,能有效解决内存带宽瓶颈问题。
  • 本地部署友好:26B 参数、MoE 架构及量化后的低显存需求(18GB),使得该模型可在 RTX 4090 等消费级硬件上流畅运行。
  • 双向注意力优势:支持全局上下文感知,具备实时自我纠错能力,在需要前后文协调的任务(如代码补全、复杂 Markdown 格式化、数独逻辑)中表现优异。
  • 质量与速度的权衡:谷歌承认,DiffusionGemma 在多项基准测试中的绝对质量略逊于标准自回归模型 Gemma 4。其定位并非完全替代,而是作为“赛马”项目,专注于速度敏感型场景。
  • 生态支持强劲:尽管被视为实验性项目,但 DiffusionGemma 获得了 NVIDIA(从 RTX 到 H100/DGX Spark)及主流推理框架(vLLM、MLX、Unsloth、NeMo、llama.cpp)的全面支持,显示出谷歌推动该路线落地的决心。
  • 行业竞争格局:谷歌并非唯一探索者,初创公司 Inception Labs 此前已发布类似模型 Mercury 2。但谷歌通过开源和强大的硬件/软件生态支持,正在加速这一技术路线的普及。

意义与影响

DiffusionGemma 的发布标志着大模型架构探索进入了一个新阶段。它挑战了“自回归是唯一正解”的行业共识,证明了利用现代 GPU 并行算力突破生成速度上限的巨大潜力。

1. 推动本地 AI 体验革新 对于普通用户和企业而言,DiffusionGemma 证明了高性能、低延迟的大模型推理可以在消费级硬件上实现。这将加速 AI 应用从云端向边缘端和本地端的迁移,降低使用门槛,提升交互实时性。

2. 拓展模型能力边界 双向注意力机制带来的“全局视野”和“实时纠错”能力,为处理复杂逻辑推理、结构化数据生成(如代码、SVG、Markdown)提供了新的技术路径。这可能在未来催生出专门针对此类任务的垂直模型架构。

3. 加速技术路线多元化 谷歌的公开支持表明,扩散语言模型不再仅仅是学术实验,而是具备实际工程价值的候选方案。随着 vLLM、llama.cpp 等基础设施的跟进,扩散模型有望形成独立的生态闭环。虽然短期内自回归模型仍将是主流,但 DiffusionGemma 的存在迫使行业重新审视效率与质量的平衡,可能在未来引发新一轮的架构竞争。

4. 开源生态的示范效应 通过 Apache 2.0 协议开源,谷歌不仅展示了技术实力,更通过降低研究者和开发者的使用门槛,加速了扩散文本生成技术的迭代与优化。这种“开源+生态护航”的策略,有助于确立该技术在下一代模型形态中的潜在地位。

查看原文 →qbitai.com