AI 资讯Hacker News·22 小时前

Krea 2 Technical Report

AI 深度解读

Krea 2 技术报告深度解读

背景

过去几年，图像生成领域取得了显著进步。扩散模型（Diffusion）和流匹配模型（Flow-matching models）能够生成高分辨率图像，呈现出逼真的摄影质感、稳定的结构、密集的文本渲染能力，并具备广泛的世界知识储备，能够精确遵循用户提示。这些改进主要得益于可扩展的 Transformer 架构、改进的图像描述（Captioning）和文本编码器、更优的潜在表示（Latent representations）以及流水线化的后训练技术。

然而，随着该领域不断优化这些能力的可靠性，许多系统逐渐收敛到一套狭窄的默认美学风格中。虽然这些系统作为生产工具非常有效，但作为创意探索的引擎却显得力不从心。在创意探索场景中，用户往往需要在风格、情绪、构图和视觉方向之间进行搜索和尝试，而不是仅仅接收一个单一的、经过打磨的默认结果。

为了解决这些局限性，Krea 推出了 Krea 2，这是一系列专注于创意探索的基础模型。Krea 2 的模型基于一个核心理念：图像生成应当是一种探索性媒介——既要足够 expressive（富有表现力）以涵盖多种美学风格，又要足够可控，以便创作者能够驾驭这些风格。

核心内容

Krea 2 的研发涉及从底层数据基础设施到模型架构，再到推理控制系统的全面创新。

1. 数据基础设施与训练框架

Krea 团队从零开始构建了一个大规模的数据基础设施和分布式训练框架，旨在策划一个具有广泛世界知识和风格覆盖面的预训练数据集。

2. 多阶段训练流水线

利用上述基础设施，Krea 2 通过一个多阶段流水线训练出富有表现力的模型，该流水线包括：

预训练 (Pretraining)
中期训练 (Midtraining)
监督微调 (SFT)
偏好优化 (Preference Optimization)
强化学习 (RL)

每个阶段都旨在逐步精炼模型的输出分布。

3. 模型架构优化

Krea 2 开发了一种简单但高性能的扩散 Transformer (DiT) 架构，并通过彻底的消融实验进行了验证。模型集成了多个加速收敛的组件，包括：

iREPA
改进的 VAEs
Qwen3-VL

此外，还整合了多项架构改进，包括分组查询注意力 (GQA)、Sigmoid 门控注意力、轻量级时间步调制 (Lightweight timestep modulation) 以及用于文本编码器特征的多层特征聚合。这些改进共同提高了训练的稳定性和效率。

4. 弥合“学习空间”与“推理意图”的差距

强大的基础模型只有在用户能够可靠地到达其分布中他们关心的部分时才有用。

训练时：模型从丰富、精心构建的描述图像中视觉细节的标题中学习。
推理时：用户输入通常较短、更模糊，并受到多种表达习惯的影响。有些用户用自然语言描述场景，而另一些用户则指向某种情绪、风格或参考图像。

这导致了模型学到的条件空间与推理时创意意图的表达方式之间存在差距。

5. 两大关键系统：提示词扩展器与风格参考系统

为了缩小这一差距，Krea 2 构建了两个系统，使其从文本和图像输入两方面更具探索性和可控性：

提示词扩展器 (Prompt Expander)：
- 将简单或定义不足的提示词映射到更丰富的视觉方向，同时不覆盖用户的原始意图。
- 基于开源 LLMs，通过两阶段的 SFT 和 RL 流水线进行训练。
- 目标不仅是提高图像质量，还鼓励创意变化和可控的探索。
风格参考系统 (Style-Reference System)：
- 当文字不足以表达视觉意图时，允许用户通过图像表达。
- 允许用户注入一个或多个参考图像的风格或情绪，同时最大限度地减少内容泄露 (Content leakage)。
- 提供对风格强度和加权风格混合的细粒度控制。

6. 数据策展原则

在数据策展方面，Krea 2 摒弃了仅依赖“高质量”图像的传统做法，强调多样性和广泛的领域覆盖。

反对传统过滤偏见：传统的基于模型的美学评分和图像质量评估 (IQA) 会引入隐性偏见。例如，运动模糊或柔和感可能是有意为之的艺术选择，却被误判为低质量。
保留“不理想”样本的价值：只要标题准确描述图像，即使是不理想的图像在下游用例中也有帮助，因为模型能精确理解这些“不良行为”，从而在后续生成中将其排除。
过滤标准：
- 重复样本和过度代表的概念。
- 视觉语言模型 (VLMs) 一致无法捕捉图像重要方面的样本。
- 引发不良偏见和伪影的样本。
- 视觉复杂度过高、在低分辨率下难以可靠建模的样本。
- AI 生成的样本：预训练数据中完全不含 AI 生成的图像。虽然合成数据和蒸馏是获取模型能力的有效捷径，但即使是小比例的 AI 生成图像也会引入偏见，因为合成图像更容易学习，从而限制了模型质量的上限。Krea 设计了内部分类器来过滤此类图像。

7. 标题生成 (Captioning) 策略

多阶段方法：首先使用 OCR 模型提取可见文本；然后将 OCR 结果和元数据（相机设置、已知实体等）提供给标题模型，生成融合了世界知识的丰富标题。
格式多样化：获得长形式自然语言标题后，使用更便宜的 LLM 将其重新格式化为各种长度和格式，使模型接触到不同的提示风格。
长提示训练：实证研究表明，在长提示词上训练能提供密集的监督信号，加速收敛并降低训练损失。尽管下游应用常涉及短提示，但训练主要基于长标题，同时确保模型在整个训练过程中接触到短和中等长度的提示。

8. 预训练数据的多分辨率课程学习

预训练数据涵盖 256px、512px 和 1024px 分辨率阶段。这种渐进式分辨率扩展形成了一种课程学习策略：

低分辨率阶段：分配大部分计算力 (FLOPs)，用于高效建立核心模型能力（基本图文对齐和结构）。由于数据量达数十亿张图像，主要依赖廉价的基于 CPU 的过滤器（如损坏文件、分辨率、纵横比、拉普拉斯滤波器去除极端纹理和噪声）来移除低质量图像。
高分辨率阶段：随着训练分辨率提高，赋予模型高保真生成能力。

关键要点

定位转变：Krea 2 从追求单一“完美默认值”的生产工具，转向支持多风格、多情绪探索的创意引擎。
数据纯净度：预训练数据严格排除 AI 生成图像，以防止合成数据带来的偏见和质量上限限制。
架构创新：采用 DiT 架构，集成 iREPA、改进 VAEs、Qwen3-VL 以及 GQA、Sigmoid 门控注意力等技术，提升训练稳定性和效率。
双重控制接口：
- 文本侧：通过 Prompt Expander 将简短提示扩展为丰富视觉方向，平衡创意与意图保留。
- 图像侧：通过 Style-Reference System 实现风格迁移，控制风格强度并最小化内容泄露。
数据策展哲学：不盲目追求美学高分，而是重视多样性、领域覆盖和图文对齐准确性，保留具有特定艺术风格（如模糊）的样本。
训练策略：采用多分辨率课程学习（256px -> 1024px），并在长提示词上主要训练以获取密集监督，同时兼顾短提示词的泛化能力。
性能表现：Krea 2 在 Artificial Analysis 的文本到图像排行榜中进入前 10 名，在独立实验室模型中排名第二，兼具广泛创意基线和高性能。

意义与影响

Krea 2 的发布标志着图像生成模型从

查看原文 →krea.ai