COMPASS: Grounding Composition-Intent Guidance in Unified Multimodal Models
AI 深度解读
背景
在人工智能生成内容(AIGC)与多模态大模型快速发展的当下,统一多模态模型(Unified Multimodal Models)已经成为视觉理解与生成领域的主流趋势。这类模型试图在同一个架构内同时完成图像理解(感知)和图像生成(合成)任务。然而,当前的统一多模态模型在处理“构图”(Composition)这一高级视觉意图时表现不佳。构图决定了画面中主体的位置与场景的组织方式,是连接用户文本指令与最终视觉呈现的关键桥梁。现有模型不仅在细粒度构图识别上表现不可靠,更难以将这种构图意图转化为生成阶段的可控布局,导致生成结果往往偏离用户的空间与构图预期。
核心内容
针对上述痛点,本文提出了 COMPASS,这是首个将构图意图控制(Composition-Intent Control)统一落地于单一系统中的多模态框架。COMPASS 涵盖了构图感知和构图引导生成两大核心能力,其核心机制在于引入了一个共享的专家 token $\tau_c$ 作为中心意图锚点。
在感知端,COMPASS 采用了一种微创的方式,将构图专业知识注入到 MoE(Mixture of Experts)主干网络中。模型在理解图像构图后,将推断出的构图意图蒸馏到共享的 $\tau_c$ token 中。
在生成端,COMPASS 复用了这个 $\tau_c$ token,将其作为全局条件信号来引导扩散模型的去噪轨迹。这一设计成功将原本被动的构图分析,转化为了生成阶段显式的布局控制。
为了支持系统化的构图指令跟随学习与大规模评估,研究团队构建了 Comp-11 数据集。该数据集包含 11 类构图分类体系,并配备了推理增强标注。
大量实验证明,COMPASS 在类别级构图理解上取得了显著提升,并且在图像生成任务中,相比强基线模型,展现出了更优的构图一致性与提示
