← 返回信息流
AI 资讯量子位·1 天前

何恺明组新作:文生图模型仅258M参数,作者全员本科生

原标题:全员本科生!何恺明组新作:文生图,258M参数就够了

速览

何恺明团队发布了一项关于文生图的新研究,其模型仅需258M参数即可运行。该论文共有六位作者,除何恺明外,其余五位均为本科生。这一成果展示了在模型轻量化和高效生成方面的突破。

AI 深度解读

背景

在当前的文生图(Text-to-Image, T2I)领域,主流模型如 SD3、FLUX.1-dev 和 DALL·E 3 普遍依赖数十亿甚至上百亿参数的庞大模型,以及海量的图文数据训练。这些模型通常采用潜在扩散(Latent Diffusion)路线,即先通过变分自编码器(VAE)将图像压缩到低维潜空间,再在潜空间中完成扩散生成,最后解码回像素空间。这种架构虽然降低了计算量,但也引入了重建误差、伪影以及额外的编解码器训练流程。

与此同时,何恺明(Kaiming He)团队此前提出的 JiT(Just Image Transformers)架构,主张抛开 VAE,直接在像素空间进行扩散生成,并通过“删繁就简”的思路证明了极简架构在类别条件生成任务中的可行性。然而,JiT 仅适用于 ImageNet 等固定类别的生成,无法处理开放式的文本提示(Prompt)。从类别条件生成扩展到文生图,通常意味着训练成本和模型复杂度的急剧攀升,这对于大多数学术团队而言是一项难以承担的工程。

在此背景下,何恺明携其本科生团队推出了全新工作 MiniT2I。该工作旨在回答一个核心问题:如果仅使用接近 ImageNet 训练规模的计算资源,能否构建出效果不错的文生图模型?

核心内容

MiniT2I 基于全新的 MM-JiT 架构,将 JiT 的思路从类别条件生成扩展到了文生图领域。其核心设计理念是“删繁就简”,即尽可能压缩模型复杂度和训练成本,同时保持生成效果。

1. 架构演进:从 JiT 到 MM-JiT MM-JiT 是团队前作「Back to Basics」在 T2I 方向上的延伸。团队认为,当文本被预训练语言模型编码为语义表示后,文本条件本质上只是另一种形式的上下文条件。因此,文生图与类别条件生成在模型架构、训练计算量和数据规模上的差距,远没有业界普遍认为的那么大。

2. 激进简化:移除 VAE 和 AdaLN

  • 移除 VAE:团队决定彻底摆脱 VAE,将扩散过程重新搬回像素空间。实验表明,传统潜空间模型单次前向传播需要 1379 GFLOPs,而 MiniT2I 的计算开销仅为 265 GFLOPs,直接降低了约 80%。这验证了直接在像素空间扩散不仅可行,且未必比潜空间路线更昂贵。
  • 移除 AdaLN:针对 MM-DiT 中使用的 AdaLN(自适应层归一化)机制,团队将其完全删除。理由是扩散模型当前所处的噪声水平已经包含在加噪后的输入 $z_t$ 中,模型可以自行推断扩散阶段,无需额外通道传递时间步信息。
  • 引入 Text Adapter:为了适配文本条件,团队仅额外增加了两个 Text Adapter Block,放置在联合注意力之前,让冻结的 T5-Large 文本特征先完成适配,再与图像 Token 交互。

3. 训练策略与性能 MiniT2I 基于流匹配(Flow Matching)框架,网络直接预测干净图像(x-prediction),并在速度空间计算损失。

  • 训练流程:首先在 CC12M 数据集上预训练 25 万步,学习基础视觉分布;随后在 12 万张高质量合成图像上微调 4 万步,以提升对 Prompt 的遵循能力。
  • 参数量与算力:B/16 版本总参数量不到 600M(骨干网络约 258M-260M)。整个训练仅需约等于一次标准 ImageNet 实验的算力,即 8 张 H100 显卡,耗时约 3 天。
  • 性能表现
    • 消融实验:参数量几乎不变的情况下,FID 分数从 MM-DiT 像素空间基线的 18.7,提升至加入 Text Adapter 后的 17.4,最终在移除 AdaLN 后达到 13.7。
    • 基准测试:在 GenEval 上达到 0.87,DPG-Bench 达到 84.2,超过了多款参数规模数倍于自身的像素空间文生图模型。
    • 对比工业级模型:在 PRISM-Bench 上,L/16 版本取得 62.4 分,而 FLUX.1-dev 为 68.5 分。MiniT2I 在风格表现和开放想象力两个维度甚至超过了 FLUX,短板主要集中在文字渲染和命名实体生成,这与公开训练数据覆盖范围有限有关。

关键要点

  • 极简架构:MiniT2I 基于 MM-JiT 架构,直接在像素空间进行扩散生成,摒弃了主流的 VAE 编解码器和 AdaLN 机制。
  • 极低算力需求:模型骨干仅 258M 参数,训练成本仅相当于一次标准 ImageNet 实验(8 张 H100,约 3 天),大幅降低了文生图模型的训练门槛。
  • 计算效率提升:移除 VAE 后,单次前向传播计算开销从 1379 GFLOPs 降至 265 GFLOPs,降幅约 80%。
  • 性能竞争力:尽管参数极少,MiniT2I 在 GenEval、DPG-Bench 等基准测试中表现优异,且在 PRISM-Bench 的风格和想象力维度上超越了 FLUX.1-dev。
  • 作者团队:论文共有六位作者,除何恺明外,其余五位均为本科生,包括来自人大附中的王衔邦、赵瀚宏、马麟瑞,以及清华姚班的陆伊炀和 MIT 的周康阳。团队成员多为国际奥赛金牌得主。

意义与影响

MiniT2I 的发布在学术界和工业界均产生了重要影响。

首先,它挑战了“文生图必须依赖大规模参数和复杂架构”的行业共识。通过证明在像素空间直接建模且移除冗余模块(如 VAE 和 AdaLN)仍能获得高性能,MiniT2I 为轻量化、低成本的文生图模型设计提供了新的范式。这对于资源有限的学术团队和个人开发者而言,意味着以极低的算力门槛即可复现或改进先进的文生图技术。

其次,该工作展示了“第一性原理”在 AI 模型设计中的价值。通过回归像素空间、简化条件注入机制,团队揭示了文生图任务中许多复杂模块可能并非必要,从而推动了模型架构向更本质、更高效的方向发展。

最后,这篇论文的作者构成本身也极具象征意义。由五位本科生主导、何恺明指导的研究成果,不仅证明了年轻一代在 AI 前沿研究中的巨大潜力,也展示了顶尖科研团队在人才培养和学术传承方面的成功模式。这些刚刚走出奥赛赛场的年轻人,已经站在了 AI 研究的最前沿,为领域注入了新的活力。

查看原文 →qbitai.com