AI 资讯量子位·1 天前

何恺明组新作：文生图模型仅258M参数，作者全员本科生

原标题：全员本科生！何恺明组新作：文生图，258M参数就够了

速览

何恺明团队发布了一项关于文生图的新研究，其模型仅需258M参数即可运行。该论文共有六位作者，除何恺明外，其余五位均为本科生。这一成果展示了在模型轻量化和高效生成方面的突破。

AI 深度解读

背景

在当前的文生图（Text-to-Image, T2I）领域，主流模型如 SD3、FLUX.1-dev 和 DALL·E 3 普遍依赖数十亿甚至上百亿参数的庞大模型，以及海量的图文数据训练。这些模型通常采用潜在扩散（Latent Diffusion）路线，即先通过变分自编码器（VAE）将图像压缩到低维潜空间，再在潜空间中完成扩散生成，最后解码回像素空间。这种架构虽然降低了计算量，但也引入了重建误差、伪影以及额外的编解码器训练流程。

与此同时，何恺明（Kaiming He）团队此前提出的 JiT（Just Image Transformers）架构，主张抛开 VAE，直接在像素空间进行扩散生成，并通过“删繁就简”的思路证明了极简架构在类别条件生成任务中的可行性。然而，JiT 仅适用于 ImageNet 等固定类别的生成，无法处理开放式的文本提示（Prompt）。从类别条件生成扩展到文生图，通常意味着训练成本和模型复杂度的急剧攀升，这对于大多数学术团队而言是一项难以承担的工程。

在此背景下，何恺明携其本科生团队推出了全新工作 MiniT2I。该工作旨在回答一个核心问题：如果仅使用接近 ImageNet 训练规模的计算资源，能否构建出效果不错的文生图模型？

核心内容

MiniT2I 基于全新的 MM-JiT 架构，将 JiT 的思路从类别条件生成扩展到了文生图领域。其核心设计理念是“删繁就简”，即尽可能压缩模型复杂度和训练成本，同时保持生成效果。

1. 架构演进：从 JiT 到 MM-JiT MM-JiT 是团队前作「Back to Basics」在 T2I 方向上的延伸。团队认为，当文本被预训练语言模型编码为语义表示后，文本条件本质上只是另一种形式的上下文条件。因此，文生图与类别条件生成在模型架构、训练计算量和数据规模上的差距，远没有业界普遍认为的那么大。

2. 激进简化：移除 VAE 和 AdaLN

移除 VAE：团队决定彻底摆脱 VAE，将扩散过程重新搬回像素空间。实验表明，传统潜空间模型单次前向传播需要 1379 GFLOPs，而 MiniT2I 的计算开销仅为 265 GFLOPs，直接降低了约 80%。这验证了直接在像素空间扩散不仅可行，且未必比潜空间路线更昂贵。
移除 AdaLN：针对 MM-DiT 中使用的 AdaLN（自适应层归一化）机制，团队将其完全删除。理由是扩散模型当前所处的噪声水平已经包含在加噪后的输入 $z_t$ 中，模型可以自行推断扩散阶段，无需额外通道传递时间步信息。
引入 Text Adapter：为了适配文本条件，团队仅额外增加了两个 Text Adapter Block，放置在联合注意力之前，让冻结的 T5-Large 文本特征先完成适配，再与图像 Token 交互。

3. 训练策略与性能 MiniT2I 基于流匹配（Flow Matching）框架，网络直接预测干净图像（x-prediction），并在速度空间计算损失。

训练流程：首先在 CC12M 数据集上预训练 25 万步，学习基础视觉分布；随后在 12 万张高质量合成图像上微调 4 万步，以提升对 Prompt 的遵循能力。
参数量与算力：B/16 版本总参数量不到 600M（骨干网络约 258M-260M）。整个训练仅需约等于一次标准 ImageNet 实验的算力，即 8 张 H100 显卡，耗时约 3 天。
性能表现：
- 消融实验：参数量几乎不变的情况下，FID 分数从 MM-DiT 像素空间基线的 18.7，提升至加入 Text Adapter 后的 17.4，最终在移除 AdaLN 后达到 13.7。
- 基准测试：在 GenEval 上达到 0.87，DPG-Bench 达到 84.2，超过了多款参数规模数倍于自身的像素空间文生图模型。
- 对比工业级模型：在 PRISM-Bench 上，L/16 版本取得 62.4 分，而 FLUX.1-dev 为 68.5 分。MiniT2I 在风格表现和开放想象力两个维度甚至超过了 FLUX，短板主要集中在文字渲染和命名实体生成，这与公开训练数据覆盖范围有限有关。

关键要点

极简架构：MiniT2I 基于 MM-JiT 架构，直接在像素空间进行扩散生成，摒弃了主流的 VAE 编解码器和 AdaLN 机制。
极低算力需求：模型骨干仅 258M 参数，训练成本仅相当于一次标准 ImageNet 实验（8 张 H100，约 3 天），大幅降低了文生图模型的训练门槛。
计算效率提升：移除 VAE 后，单次前向传播计算开销从 1379 GFLOPs 降至 265 GFLOPs，降幅约 80%。
性能竞争力：尽管参数极少，MiniT2I 在 GenEval、DPG-Bench 等基准测试中表现优异，且在 PRISM-Bench 的风格和想象力维度上超越了 FLUX.1-dev。
作者团队：论文共有六位作者，除何恺明外，其余五位均为本科生，包括来自人大附中的王衔邦、赵瀚宏、马麟瑞，以及清华姚班的陆伊炀和 MIT 的周康阳。团队成员多为国际奥赛金牌得主。

意义与影响

MiniT2I 的发布在学术界和工业界均产生了重要影响。

首先，它挑战了“文生图必须依赖大规模参数和复杂架构”的行业共识。通过证明在像素空间直接建模且移除冗余模块（如 VAE 和 AdaLN）仍能获得高性能，MiniT2I 为轻量化、低成本的文生图模型设计提供了新的范式。这对于资源有限的学术团队和个人开发者而言，意味着以极低的算力门槛即可复现或改进先进的文生图技术。

其次，该工作展示了“第一性原理”在 AI 模型设计中的价值。通过回归像素空间、简化条件注入机制，团队揭示了文生图任务中许多复杂模块可能并非必要，从而推动了模型架构向更本质、更高效的方向发展。

最后，这篇论文的作者构成本身也极具象征意义。由五位本科生主导、何恺明指导的研究成果，不仅证明了年轻一代在 AI 前沿研究中的巨大潜力，也展示了顶尖科研团队在人才培养和学术传承方面的成功模式。这些刚刚走出奥赛赛场的年轻人，已经站在了 AI 研究的最前沿，为领域注入了新的活力。

查看原文 →qbitai.com

何恺明组新作：文生图模型仅258M参数，作者全员本科生

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐