技术博客arXiv cs.AI·8 天前

推进大型多模态模型中的创造性物理智能

原标题：Advancing Creative Physical Intelligence in Large Multimodal Models

速览

该研究针对大型多模态模型在开放环境中发现视觉 grounding 解决方案的能力不足问题，提出了MM-CreativityBench基准。通过引入基于效用的对齐和直接偏好优化，引导模型基于视觉证据进行属性-效用推理。实验表明，该方法显著提升了模型选择正确实体和部件的能力，并大幅减少了幻觉和接地错误。

AI 深度解读

提升大多模态模型中的创造性物理智能：MM-CreativityBench 与偏好对齐

背景

大语言模型（LLMs）和多模态大模型（LMMs）在感知和推理能力上取得了飞速进展。然而，这些能力是否能够泛化到开放环境中、基于视觉线索发现解决方案，而不仅仅是进行模式识别，目前仍不清楚。

在传统的基准测试中，智能往往被简化为回答结构良好（well-posed）的问题。但在现实世界的物理环境中，智能不仅仅意味着回答问题，更意味着识别场景中的元素如何以非显而易见但符合物理规律的方式进行再利用。这种创造性问题解决能力是人类智能的核心，但在当前的评估基准中，这一领域几乎未被充分测试。

现有的 LMMs 通常擅长生成文本或图像，但在处理需要结合视觉证据、物理约束和创造性工具使用的复杂任务时，往往表现出明显的局限性。它们容易忽略相关实体，未能深入检查关键部件，或者产生与图像证据不符的幻觉属性。

核心内容

为了解决上述问题，研究团队提出了一套完整的评估框架、实验分析以及改进方案，主要包含以下三个部分：

1. 提出 MM-CreativityBench 基准测试

为了评估模型在基于可供性（affordance，即物体暗示的使用可能性）的创造性工具使用能力，研究团队引入了 MM-CreativityBench。这是一个专为视觉丰富且受物理约束的环境设计的基准测试。

评估机制：每个测试实例展示一个场景图像，并提供候选实体及其部件的结构化视图。
细粒度交互：该基准允许对模型进行细粒度、交互式的评估。它考察模型如何迭代地检查场景、识别相关的可供性，并组合出既符合视觉逻辑又符合物理规律的解决方案。
核心挑战：模型需要超越简单的物体识别，理解物体部件之间的物理关系和使用潜力。

2. 实验发现：LMMs 的失败模式

通过对当前主流 LMMs 在 MM-CreativityBench 上的实验，研究团队发现模型表现不佳的主要原因并非缺乏生成能力，而是缺乏持续的、基于 grounding（接地/具身关联）的探索。具体表现为：

忽略相关实体：模型往往忽略场景中关键的对象。
检查不足：对关键部件的观察不够深入。
幻觉问题：模型倾向于生成未在图像中体现的属性，即产生与视觉证据脱节的幻觉。

3. 解决方案：基于可供性的对齐（Affordance-Grounded Alignment）

针对上述失败模式，研究团队提出了一种新的对齐方法——基于可供性的对齐。该方法将创造性工具使用转化为一个偏好学习（preference learning）问题。

直接偏好优化（DPO）：利用 Direct Preference Optimization 技术，鼓励模型优先选择那些基于视觉证据进行属性-可供性推理的答案，而不是基于幻觉的替代方案。
知识库监督：引入源自可供性知识库（affordance knowledge base）的监督信号，以指导模型进行更广泛的实体探索和多轮规划。

实验结果显示，经过该方法训练的模型在正确选择实体和部件方面取得了持续的提升，同时显著减少了幻觉和与 grounding 相关的错误。

关键要点

现有基准的局限性：当前的大多模态模型基准主要测试模式识别和结构化问答，缺乏对开放环境中创造性物理问题解决能力的评估。
MM-CreativityBench 的创新：这是一个全新的基准，专注于评估模型在视觉丰富、物理受限环境中，基于物体可供性进行创造性工具使用的能力。它通过结构化视图支持对模型迭代探索过程的细粒度评估。
LMMs 的核心缺陷：当前模型的主要短板不在于生成能力，而在于无法维持基于视觉证据的深入探索，导致忽略关键实体、检查不足以及产生幻觉。
基于可供性的对齐策略：研究提出将创造性工具使用建模为偏好学习问题。通过直接偏好优化（DPO），引导模型偏好基于视觉证据的推理，抑制幻觉。
引入外部知识监督：结合可供性知识库的监督信号，帮助模型拓展实体探索范围并优化多轮规划能力。
显著的性能提升：新方法在提高实体和部件选择准确率的同时，大幅降低了幻觉率和 grounding 错误，证明了基于物理和视觉约束的对齐策略的有效性。

意义与影响

这项研究标志着多模态人工智能从“感知与识别”向“创造性物理智能”迈进的重要一步。

重新定义智能评估：MM-CreativityBench 填补了现有基准在创造性问题解决和物理推理方面的空白，为评估 AI 在真实世界复杂环境中的能力提供了新标准。它强调智能不仅是回答问题，更是发现非显而易见的解决方案。
揭示模型本质缺陷：研究明确指出，当前 LMMs 的瓶颈在于“接地探索”的缺失，而非生成能力的不足。这为未来的模型架构设计和训练策略指明了方向——即需要加强模型对视觉证据的依赖和对物理约束的理解。
推动对齐技术革新：提出的“基于可供性的对齐”方法，展示了如何将领域知识（如可供性）和物理常识融入大模型的偏好学习中。这种方法不仅适用于创造性工具使用，也可能推广到其他需要严格 grounding 的领域，如机器人操作、自动驾驶和环境交互。
促进人机协作与具身智能：能够理解物体可供性并进行创造性使用的 AI，更接近人类助手的能力。这对于开发能够辅助人类进行复杂物理任务（如维修、组装、创意制作）的 AI 系统具有重要意义，也为具身智能（Embodied AI）的发展提供了关键的认知基础。

总之，该工作不仅在技术上提出了有效的改进方案，更在概念上深化了我们对“多模态创造性智能”的理解，为构建更具物理常识和创造力的下一代 AI 系统奠定了基础。

查看原文 →arxiv.org