AI 资讯量子位·2 小时前

谷歌在Mythos阴影下发布扩散模型，生成速度提升4倍

原标题：Mythos阴影里谷歌悄悄发模型，速度暴涨4倍

速览

谷歌在Mythos项目的阴影下悄然发布了新的扩散模型。该模型专注于文本生成任务，其处理速度实现了4倍的显著提升。这一进展展示了谷歌在扩散模型应用于非图像领域的能力。

AI 深度解读

背景

在人工智能领域，OpenAI 和 Anthropic 等头部厂商的新模型竞争往往占据舆论中心，但谷歌（Google）近期在底层架构创新上悄然发力。传统大语言模型（LLM）主要依赖自回归（Autoregressive）架构，即像打字机一样从左到右、逐个 token 地生成文本。这种模式在云端大规模并发场景下效率尚可，但在本地推理或低延迟交互场景中，受限于内存带宽瓶颈（memory-bandwidth bound），算力往往处于空转状态，导致生成速度成为体验的短板。

与此同时，扩散模型（Diffusion Models）在图像生成领域已证明其并行处理的优势。谷歌试图将这一范式迁移至文本生成领域，以突破现有架构的速度极限。在此背景下，谷歌发布了名为 DiffusionGemma 的新模型，旨在探索非自回归生成路径的可能性，并测试其在现代 GPU 硬件上的并行算力利用率。

核心内容

谷歌发布的新模型 DiffusionGemma 是一个基于扩散机制的大语言模型，其核心创新在于彻底摒弃了传统的“逐 Token 生成”模式，转而采用类似“印刷机”的并行生成策略。

1. 架构原理：从打字机到印刷机 DiffusionGemma 的工作流程与 Stable Diffusion 生成图像类似，但处理对象是文本。具体步骤如下：

初始化画布：模型首先铺设一张包含 256 个随机占位符 Token 的“画布”。
多轮去噪：通过迭代过程对整块 Token 进行去噪。高置信度的 Token 会先被锁定，并作为上下文线索帮助修正其余部分的生成。
收敛输出：经过多轮迭代，整段文字同时浮现并最终收敛为确定的输出结果。

这种机制使得模型能够一次性对一大块并行计算任务进行操作，充分利用 GPU 的 Tensor Core 算力，将计算瓶颈从“内存搬移速度”转变为“算力本身”，从而大幅提升推理速度。

2. 性能表现：速度暴涨 4 倍 在同等硬件条件下，DiffusionGemma 展现了惊人的生成速度：

H100 显卡：单卡推理速度超过 1000 tokens/s。
消费级 RTX 5090：推理速度达到 700+ tokens/s。
对比基准：在相同 H100 环境下（fp8，batch size=1），采用标准自回归架构的 Gemma 4 26B A4B（即使加上 MTP 加速）速度仅为 300+ tokens/s。DiffusionGemma 的速度优势约为 4 倍。

3. 模型规格与部署门槛

参数结构：这是一个 26B 参数的混合专家（MoE）模型。
激活参数：推理时仅激活 3.8B 参数，极大降低了计算负载。
显存需求：量化后仅需 18GB 显存即可运行，意味着普通用户甚至可以使用 RTX 4090 等消费级显卡在本地部署。
开源协议：采用 Apache 2.0 商用友好协议，权重已在 Hugging Face 开源。

4. 双向注意力机制带来的新能力 与传统自回归模型只能“向前看”（生成第 N+1 个 Token 时只能看到前 N 个）不同，DiffusionGemma 的 256 个 Token 同时生成，每个 Token 都能看见画布上所有其他 Token。这种双向注意力机制带来了“实时自我纠错”的能力：

模型在生成过程中能评估整段文字的一致性，发现错误立即修正，无需等待生成完毕后再回溯。
案例验证：在数独任务中，由于数独逻辑涉及“后面的数影响前面的数”，自回归模型成功率几乎为 0%，而 DiffusionGemma 微调后成功率飙升至 80%。

关键要点

范式转移：DiffusionGemma 是首个将扩散模型原理大规模应用于文本生成的代表性工作之一，证明了非自回归架构在特定场景下的可行性。
速度优势显著：相比同规格的自回归模型，生成速度提升约 4 倍，尤其在本地推理场景下，能有效解决内存带宽瓶颈问题。
本地部署友好：26B 参数、MoE 架构及量化后的低显存需求（18GB），使得该模型可在 RTX 4090 等消费级硬件上流畅运行。
双向注意力优势：支持全局上下文感知，具备实时自我纠错能力，在需要前后文协调的任务（如代码补全、复杂 Markdown 格式化、数独逻辑）中表现优异。
质量与速度的权衡：谷歌承认，DiffusionGemma 在多项基准测试中的绝对质量略逊于标准自回归模型 Gemma 4。其定位并非完全替代，而是作为“赛马”项目，专注于速度敏感型场景。
生态支持强劲：尽管被视为实验性项目，但 DiffusionGemma 获得了 NVIDIA（从 RTX 到 H100/DGX Spark）及主流推理框架（vLLM、MLX、Unsloth、NeMo、llama.cpp）的全面支持，显示出谷歌推动该路线落地的决心。
行业竞争格局：谷歌并非唯一探索者，初创公司 Inception Labs 此前已发布类似模型 Mercury 2。但谷歌通过开源和强大的硬件/软件生态支持，正在加速这一技术路线的普及。

意义与影响

DiffusionGemma 的发布标志着大模型架构探索进入了一个新阶段。它挑战了“自回归是唯一正解”的行业共识，证明了利用现代 GPU 并行算力突破生成速度上限的巨大潜力。

1. 推动本地 AI 体验革新 对于普通用户和企业而言，DiffusionGemma 证明了高性能、低延迟的大模型推理可以在消费级硬件上实现。这将加速 AI 应用从云端向边缘端和本地端的迁移，降低使用门槛，提升交互实时性。

2. 拓展模型能力边界 双向注意力机制带来的“全局视野”和“实时纠错”能力，为处理复杂逻辑推理、结构化数据生成（如代码、SVG、Markdown）提供了新的技术路径。这可能在未来催生出专门针对此类任务的垂直模型架构。

3. 加速技术路线多元化 谷歌的公开支持表明，扩散语言模型不再仅仅是学术实验，而是具备实际工程价值的候选方案。随着 vLLM、llama.cpp 等基础设施的跟进，扩散模型有望形成独立的生态闭环。虽然短期内自回归模型仍将是主流，但 DiffusionGemma 的存在迫使行业重新审视效率与质量的平衡，可能在未来引发新一轮的架构竞争。

4. 开源生态的示范效应 通过 Apache 2.0 协议开源，谷歌不仅展示了技术实力，更通过降低研究者和开发者的使用门槛，加速了扩散文本生成技术的迭代与优化。这种“开源+生态护航”的策略，有助于确立该技术在下一代模型形态中的潜在地位。

查看原文 →qbitai.com

谷歌在Mythos阴影下发布扩散模型，生成速度提升4倍

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐