← 返回信息流
技术博客arXiv cs.AI·1 小时前

UltraFlux:Flux DiT原生4K多宽高比生成,质量远超Seedream

原标题:UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

速览

UltraFlux基于Flux的DiT架构,实现了原生4K分辨率生成,支持多种宽高比。研究通过多方面协同优化,包括Resonance 2D RoPE与YaRN的位置编码、改进VAE、SNR感知Huber小波目标函数以及美学课程学习策略。相关论文在arXiv上线,UltraFlux在Aesthetic-Eval等基准上显著提升细节保真度和审美质量,与结合LLM提示重构器后可媲美或超越Seedream 4.0。这一成果对推进高分辨率图像合成领域具有重要意义。

AI 深度解读

背景

Diffusion transformers(DiT)最近在约1K分辨率下实现了强大的文本到图像生成能力,但将这些模型原生扩展到4K并支持多样化的宽高比(aspect ratio,AR)时,会暴露出一个紧密耦合的失败模式,涉及位置编码、VAE压缩和优化问题。单独针对其中任何一项因素进行处理,都会牺牲大量生成质量。现有工作在训练-free的推理时缩放、轻量级适应(如潜在空间超分辨率和自级联模型)以及原生4K训练方面都取得了进展,但大多将位置鲁棒性、VAE压缩和损失设计视为独立的选择,而非4K统一优化设计。公开的4K数据集规模有限、AR覆盖不全、内容偏向景观且缺乏结构化元数据,导致数据模型共设计空间仍未被充分探索。

核心内容

Diffusion transformers已在约1K分辨率下展现出强大的文本到图像生成能力,但将它们原生扩展到4K并支持多样化宽高比时,暴露出一个紧密耦合的失败模式,涵盖位置编码、VAE压缩和优化问题。单独针对其中任何一项因素进行处理,都会牺牲大量生成质量。

因此,研究团队采取数据-模型共设计视角,推出UltraFlux,这是一个基于Flux的DiT,原生在4K上训练,数据集为MultiAspect-4K-1M,该数据集包含100万张4K图像,具有可控的多AR覆盖率、双语标注和丰富的VLM/IQA元数据,支持分辨率和AR感知采样。

在模型侧,UltraFlux整合了四项关键组件:(i)共振2D RoPE与YaRN结合,用于在4K下实现训练窗口、频率和AR感知的位置编码;(ii)一个简单的非对抗性VAE后训练方案,提升4K重建保真度;(iii)SNR感知Huber小波目标函数,在时间步和频率带之间重新平衡梯度;(iv)阶段式美学课程学习策略,在受模型先验支配的高噪声步集中应用高美学监督。这些组件共同产生了一个稳定、细节保留的4K DiT,能够在宽AR、方形和纵向AR上实现泛化。

在Aesthetic-Eval@4096基准以及多AR 4K设置下,UltraFlux在保真度、美学和对齐指标上持续优于强大的开源基线,并通过结合LLM提示精炼器,达到或超越了专有Seedream 4.0的性能。

关键要点

  • Diffusion transformers在1K分辨率下强,但原生4K多AR扩展暴露位置编码、VAE压缩和优化三者紧密耦合的失败模式。
  • 单独处理任一因素均无法充分释放质量,因此采用数据-模型共设计方法。
  • 引入UltraFlux:基于Flux的DiT,原生4K训练于MultiAspect-4K-1M(100万张4K图像,可控多AR覆盖、双语标注、丰富VLM/IQA元数据)。
  • 模型侧核心改进包括:Resonance 2D RoPE + YaRN(训练窗口、频率、AR感知位置编码)、非对抗性VAE后训练(提升4K保真度)、SNR-Aware Huber Wavelet目标函数(重新平衡梯度)、Stage-wise Aesthetic Curriculum Learning(高噪声步集中高美学监督)。
  • 整体设计实现稳定、细节保留的4K DiT,泛化于宽、方、正AR。
  • 在Aesthetic-Eval@4096及多AR 4K设置中,优于开源基线,并在结合LLM提示精炼器后达到或超越Seedream 4.0。

意义与影响

UltraFlux通过数据-模型共设计实现了原生4K多AR文本到图像生成的高质量稳定输出,为后续高分辨率扩散模型研究提供了统一框架。其数据集和训练配方可直接复现,推动更多工作关注分辨率-宽高比耦合问题,同时为高效训练提供参考。相比传统级联上采样或训练-free方法,其原生训练路径避免了高频保真度与位置外推的权衡,直接提升实际应用中的4K图像质量与一致性,推动AI图像合成在广告、设计和沉浸式媒体等领域的广泛采用。

查看原文 →arxiv.org