技术博客arXiv cs.AI·3 小时前

强化学习驱动SVoT框架提升多模态大模型空间推理能力

原标题：SVoT: State-aware Visualization-of-Thought for Spatial Reasoning via Reinforcement Learning

速览

针对多模态大语言模型在空间推理中难以验证中间状态的问题，研究提出SVoT框架。该框架利用强化学习生成交错的文本与视觉推理链，实现对动作前提和效果的显式验证。研究还构建了包含Pacman等新领域的基准测试，SVoT在分布外测试集上准确率提升高达65%。

AI 深度解读

SVoT：基于强化学习的空间推理状态感知思维可视化

背景

多模态大语言模型（Multimodal Large Language Models, MLLMs）在处理空间推理任务时仍面临巨大挑战。空间推理不仅要求模型具备理解复杂场景的能力，更依赖于对中间状态（intermediate states）及其转换（state transitions）进行可靠的多跳推理（multi-hop inference）。

然而，现有的研究往往存在两个主要缺陷：

中间状态未经验证：模型在推理过程中生成的中间步骤缺乏有效的校验机制。
状态转换被视为隐式过程：模型通常将状态的变化过程视为黑盒，而非显式的逻辑推导步骤。

这种处理方式严重限制了模型在多跳空间推理中的可靠性。此外，现有的基准测试（benchmarks）往往将状态转换简化为单变量更新，极大地简化了问题的复杂度，导致评估结果无法真实反映模型在复杂场景下的推理能力。

核心内容

为了解决上述问题，研究团队提出了 SVoT（State-aware Visualization-of-Thought，状态感知思维可视化），这是一种基于强化学习的框架。SVoT 的核心创新在于生成交错的、可验证的中间状态和可视化结果，从而提升空间推理的透明度和准确性。

1. 技术架构：交错式推理与验证

SVoT 将“转换推理链”（transition reasoning chains）整合到生成过程中。这意味着模型不再仅仅输出最终答案，而是通过文本和视觉推理的交错（interleaved），显式地验证动作的前置条件（preconditions）和效果（effects）。

可视化辅助：通过生成中间状态的可视化图像，模型能够“看到”自己的推理路径，从而更容易发现逻辑错误。
显式验证：每一步状态转换都伴随着明确的验证步骤，确保动作在逻辑上是可行的。

2. 训练方法：基于 GRPO 的强化学习

SVoT 通过 GRPO（Group Relative Policy Optimization，组相对策略优化） 进行训练。

奖励设计：验证机制通过奖励函数（reward design）具体实现。研究评估了不同细粒度奖励（fine-grained rewards）的有效性，以引导模型生成更准确的状态转换和可视化结果。
监督信号：引入“转换感知监督”（transition-aware supervision），使模型在训练阶段就能学习到如何正确处理状态变化。

3. 基准测试：五大新领域

为了克服现有基准测试过于简化的问题，研究团队建立了五个新领域，用于系统性评估多跳空间推理能力。这些领域通过扩展经典环境并引入两个全新领域——Pacman（吃豆人） 和 Gather（收集）——来实现。

Pacman 和 Gather：这两个新领域要求模型处理多对象交互（multi-object interactions）和数值推理（numerical reasoning），远超传统基准中简单的单变量更新。
定量验证：这些领域支持对生成的中间状态和转换推理进行定量验证，提供了更严格的评估标准。

关键要点

解决核心痛点：SVoT 针对 MLLMs 在多跳空间推理中“中间状态不可靠”和“状态转换隐式化”的问题，提出了显式验证和可视化的解决方案。
方法创新：采用 State-aware Visualization-of-Thought 框架，结合文本与视觉推理，生成可验证的交错式中间状态。
训练优化：利用 GRPO 强化学习算法，通过精心设计的细粒度奖励函数来优化模型的验证能力。
基准突破：摒弃了仅关注单变量更新的旧式基准，引入了 Pacman 和 Gather 等新领域，强调多对象交互和数值推理，提供了更贴近真实复杂场景的评估体系。
性能提升：SVoT 在引入的五个领域中取得了最先进（SOTA）的性能。特别是在分布外（out-of-distribution）测试集上，准确率实现了高达 65% 的绝对提升。

意义与影响

SVoT 的提出标志着多模态大语言模型在空间推理能力上的重要进展。其意义主要体现在以下几个方面：

提升推理的可解释性与可靠性：通过显式地生成和验证中间状态及可视化结果，SVoT 不仅提高了准确率，还增强了模型决策过程的透明度。这对于需要高可靠性的应用场景（如自动驾驶、机器人导航）至关重要。
重新定义空间推理评估标准：研究团队建立的五个新领域，特别是引入的多对象交互和数值推理任务，填补了现有基准测试在复杂性和真实性上的空白。这为后续研究提供了更严谨的评估工具，推动了领域向更复杂、更贴近现实的方向发展。
强化学习在思维链中的深化应用：SVoT 展示了如何将强化学习（特别是 GRPO）与思维链（Chain-of-Thought）及可视化技术结合，通过奖励设计引导模型进行更细致的状态转换推理。这为其他需要多步逻辑推理的任务提供了新的技术范式。
泛化能力的显著增强：高达 65% 的分布外测试集准确率提升表明，SVoT 学到的不仅仅是特定任务的记忆，而是真正掌握了空间状态转换的通用逻辑，具有极强的泛化能力。

查看原文 →arxiv.org