技术博客arXiv cs.AI·1 小时前

UltraFlux：Flux DiT原生4K多宽高比生成，质量远超Seedream

原标题：UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

速览

UltraFlux基于Flux的DiT架构，实现了原生4K分辨率生成，支持多种宽高比。研究通过多方面协同优化，包括Resonance 2D RoPE与YaRN的位置编码、改进VAE、SNR感知Huber小波目标函数以及美学课程学习策略。相关论文在arXiv上线，UltraFlux在Aesthetic-Eval等基准上显著提升细节保真度和审美质量，与结合LLM提示重构器后可媲美或超越Seedream 4.0。这一成果对推进高分辨率图像合成领域具有重要意义。

AI 深度解读

背景

Diffusion transformers（DiT）最近在约1K分辨率下实现了强大的文本到图像生成能力，但将这些模型原生扩展到4K并支持多样化的宽高比（aspect ratio，AR）时，会暴露出一个紧密耦合的失败模式，涉及位置编码、VAE压缩和优化问题。单独针对其中任何一项因素进行处理，都会牺牲大量生成质量。现有工作在训练-free的推理时缩放、轻量级适应（如潜在空间超分辨率和自级联模型）以及原生4K训练方面都取得了进展，但大多将位置鲁棒性、VAE压缩和损失设计视为独立的选择，而非4K统一优化设计。公开的4K数据集规模有限、AR覆盖不全、内容偏向景观且缺乏结构化元数据，导致数据模型共设计空间仍未被充分探索。

核心内容

Diffusion transformers已在约1K分辨率下展现出强大的文本到图像生成能力，但将它们原生扩展到4K并支持多样化宽高比时，暴露出一个紧密耦合的失败模式，涵盖位置编码、VAE压缩和优化问题。单独针对其中任何一项因素进行处理，都会牺牲大量生成质量。

因此，研究团队采取数据-模型共设计视角，推出UltraFlux，这是一个基于Flux的DiT，原生在4K上训练，数据集为MultiAspect-4K-1M，该数据集包含100万张4K图像，具有可控的多AR覆盖率、双语标注和丰富的VLM/IQA元数据，支持分辨率和AR感知采样。

在模型侧，UltraFlux整合了四项关键组件：（i）共振2D RoPE与YaRN结合，用于在4K下实现训练窗口、频率和AR感知的位置编码；（ii）一个简单的非对抗性VAE后训练方案，提升4K重建保真度；（iii）SNR感知Huber小波目标函数，在时间步和频率带之间重新平衡梯度；（iv）阶段式美学课程学习策略，在受模型先验支配的高噪声步集中应用高美学监督。这些组件共同产生了一个稳定、细节保留的4K DiT，能够在宽AR、方形和纵向AR上实现泛化。

在Aesthetic-Eval@4096基准以及多AR 4K设置下，UltraFlux在保真度、美学和对齐指标上持续优于强大的开源基线，并通过结合LLM提示精炼器，达到或超越了专有Seedream 4.0的性能。

关键要点

Diffusion transformers在1K分辨率下强，但原生4K多AR扩展暴露位置编码、VAE压缩和优化三者紧密耦合的失败模式。
单独处理任一因素均无法充分释放质量，因此采用数据-模型共设计方法。
引入UltraFlux：基于Flux的DiT，原生4K训练于MultiAspect-4K-1M（100万张4K图像，可控多AR覆盖、双语标注、丰富VLM/IQA元数据）。
模型侧核心改进包括：Resonance 2D RoPE + YaRN（训练窗口、频率、AR感知位置编码）、非对抗性VAE后训练（提升4K保真度）、SNR-Aware Huber Wavelet目标函数（重新平衡梯度）、Stage-wise Aesthetic Curriculum Learning（高噪声步集中高美学监督）。
整体设计实现稳定、细节保留的4K DiT，泛化于宽、方、正AR。
在Aesthetic-Eval@4096及多AR 4K设置中，优于开源基线，并在结合LLM提示精炼器后达到或超越Seedream 4.0。

意义与影响

UltraFlux通过数据-模型共设计实现了原生4K多AR文本到图像生成的高质量稳定输出，为后续高分辨率扩散模型研究提供了统一框架。其数据集和训练配方可直接复现，推动更多工作关注分辨率-宽高比耦合问题，同时为高效训练提供参考。相比传统级联上采样或训练-free方法，其原生训练路径避免了高频保真度与位置外推的权衡，直接提升实际应用中的4K图像质量与一致性，推动AI图像合成在广告、设计和沉浸式媒体等领域的广泛采用。

查看原文 →arxiv.org

UltraFlux：Flux DiT原生4K多宽高比生成，质量远超Seedream

速览

AI 深度解读

相关推荐