技术博客arXiv cs.AI·1 天前

COMPASS: Grounding Composition-Intent Guidance in Unified Multimodal Models

AI 深度解读

背景

在人工智能生成内容（AIGC）与多模态大模型快速发展的当下，统一多模态模型（Unified Multimodal Models）已经成为视觉理解与生成领域的主流趋势。这类模型试图在同一个架构内同时完成图像理解（感知）和图像生成（合成）任务。然而，当前的统一多模态模型在处理“构图”（Composition）这一高级视觉意图时表现不佳。构图决定了画面中主体的位置与场景的组织方式，是连接用户文本指令与最终视觉呈现的关键桥梁。现有模型不仅在细粒度构图识别上表现不可靠，更难以将这种构图意图转化为生成阶段的可控布局，导致生成结果往往偏离用户的空间与构图预期。

核心内容

针对上述痛点，本文提出了 COMPASS，这是首个将构图意图控制（Composition-Intent Control）统一落地于单一系统中的多模态框架。COMPASS 涵盖了构图感知和构图引导生成两大核心能力，其核心机制在于引入了一个共享的专家 token $\tau_c$ 作为中心意图锚点。

在感知端，COMPASS 采用了一种微创的方式，将构图专业知识注入到 MoE（Mixture of Experts）主干网络中。模型在理解图像构图后，将推断出的构图意图蒸馏到共享的 $\tau_c$ token 中。

在生成端，COMPASS 复用了这个 $\tau_c$ token，将其作为全局条件信号来引导扩散模型的去噪轨迹。这一设计成功将原本被动的构图分析，转化为了生成阶段显式的布局控制。

为了支持系统化的构图指令跟随学习与大规模评估，研究团队构建了 Comp-11 数据集。该数据集包含 11 类构图分类体系，并配备了推理增强标注。

大量实验证明，COMPASS 在类别级构图理解上取得了显著提升，并且在图像生成任务中，相比强基线模型，展现出了更优的构图一致性与提示

查看原文 →arxiv.org

COMPASS: Grounding Composition-Intent Guidance in Unified Multimodal Models

AI 深度解读

背景

核心内容

相关推荐