← 返回信息流
技术博客arXiv cs.AI·3 小时前

强化学习驱动SVoT框架提升多模态大模型空间推理能力

原标题:SVoT: State-aware Visualization-of-Thought for Spatial Reasoning via Reinforcement Learning

速览

针对多模态大语言模型在空间推理中难以验证中间状态的问题,研究提出SVoT框架。该框架利用强化学习生成交错的文本与视觉推理链,实现对动作前提和效果的显式验证。研究还构建了包含Pacman等新领域的基准测试,SVoT在分布外测试集上准确率提升高达65%。

AI 深度解读

SVoT:基于强化学习的空间推理状态感知思维可视化

背景

多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理空间推理任务时仍面临巨大挑战。空间推理不仅要求模型具备理解复杂场景的能力,更依赖于对中间状态(intermediate states)及其转换(state transitions)进行可靠的多跳推理(multi-hop inference)。

然而,现有的研究往往存在两个主要缺陷:

  1. 中间状态未经验证:模型在推理过程中生成的中间步骤缺乏有效的校验机制。
  2. 状态转换被视为隐式过程:模型通常将状态的变化过程视为黑盒,而非显式的逻辑推导步骤。

这种处理方式严重限制了模型在多跳空间推理中的可靠性。此外,现有的基准测试(benchmarks)往往将状态转换简化为单变量更新,极大地简化了问题的复杂度,导致评估结果无法真实反映模型在复杂场景下的推理能力。

核心内容

为了解决上述问题,研究团队提出了 SVoT(State-aware Visualization-of-Thought,状态感知思维可视化),这是一种基于强化学习的框架。SVoT 的核心创新在于生成交错的、可验证的中间状态和可视化结果,从而提升空间推理的透明度和准确性。

1. 技术架构:交错式推理与验证

SVoT 将“转换推理链”(transition reasoning chains)整合到生成过程中。这意味着模型不再仅仅输出最终答案,而是通过文本和视觉推理的交错(interleaved),显式地验证动作的前置条件(preconditions)和效果(effects)。

  • 可视化辅助:通过生成中间状态的可视化图像,模型能够“看到”自己的推理路径,从而更容易发现逻辑错误。
  • 显式验证:每一步状态转换都伴随着明确的验证步骤,确保动作在逻辑上是可行的。

2. 训练方法:基于 GRPO 的强化学习

SVoT 通过 GRPO(Group Relative Policy Optimization,组相对策略优化) 进行训练。

  • 奖励设计:验证机制通过奖励函数(reward design)具体实现。研究评估了不同细粒度奖励(fine-grained rewards)的有效性,以引导模型生成更准确的状态转换和可视化结果。
  • 监督信号:引入“转换感知监督”(transition-aware supervision),使模型在训练阶段就能学习到如何正确处理状态变化。

3. 基准测试:五大新领域

为了克服现有基准测试过于简化的问题,研究团队建立了五个新领域,用于系统性评估多跳空间推理能力。这些领域通过扩展经典环境并引入两个全新领域——Pacman(吃豆人)Gather(收集)——来实现。

  • Pacman 和 Gather:这两个新领域要求模型处理多对象交互(multi-object interactions)和数值推理(numerical reasoning),远超传统基准中简单的单变量更新。
  • 定量验证:这些领域支持对生成的中间状态和转换推理进行定量验证,提供了更严格的评估标准。

关键要点

  • 解决核心痛点:SVoT 针对 MLLMs 在多跳空间推理中“中间状态不可靠”和“状态转换隐式化”的问题,提出了显式验证和可视化的解决方案。
  • 方法创新:采用 State-aware Visualization-of-Thought 框架,结合文本与视觉推理,生成可验证的交错式中间状态。
  • 训练优化:利用 GRPO 强化学习算法,通过精心设计的细粒度奖励函数来优化模型的验证能力。
  • 基准突破:摒弃了仅关注单变量更新的旧式基准,引入了 PacmanGather 等新领域,强调多对象交互和数值推理,提供了更贴近真实复杂场景的评估体系。
  • 性能提升:SVoT 在引入的五个领域中取得了最先进(SOTA)的性能。特别是在分布外(out-of-distribution)测试集上,准确率实现了高达 65% 的绝对提升。

意义与影响

SVoT 的提出标志着多模态大语言模型在空间推理能力上的重要进展。其意义主要体现在以下几个方面:

  1. 提升推理的可解释性与可靠性:通过显式地生成和验证中间状态及可视化结果,SVoT 不仅提高了准确率,还增强了模型决策过程的透明度。这对于需要高可靠性的应用场景(如自动驾驶、机器人导航)至关重要。
  2. 重新定义空间推理评估标准:研究团队建立的五个新领域,特别是引入的多对象交互和数值推理任务,填补了现有基准测试在复杂性和真实性上的空白。这为后续研究提供了更严谨的评估工具,推动了领域向更复杂、更贴近现实的方向发展。
  3. 强化学习在思维链中的深化应用:SVoT 展示了如何将强化学习(特别是 GRPO)与思维链(Chain-of-Thought)及可视化技术结合,通过奖励设计引导模型进行更细致的状态转换推理。这为其他需要多步逻辑推理的任务提供了新的技术范式。
  4. 泛化能力的显著增强:高达 65% 的分布外测试集准确率提升表明,SVoT 学到的不仅仅是特定任务的记忆,而是真正掌握了空间状态转换的通用逻辑,具有极强的泛化能力。
查看原文 →arxiv.org