ProcessThinker:基于Rollout过程奖励提升多模态大模型推理能力
速览
针对多模态大模型在视觉问答中依赖稀疏结果奖励导致推理过程难以优化的问题,研究提出ProcessThinker后训练流水线。该方法通过重写推理轨迹进行冷启动微调,并结合基于Rollout的过程奖励机制,实现无需显式训练过程奖励模型的步骤级密集信用分配。实验表明,该方法在Video-MMMU等四个视频基准测试中,均有效提升了Qwen3-VL-8B-Instruct基线模型的推理一致性与准确性。
AI 深度解读
ProcessThinker:基于 Rollout 的过程奖励增强多模态大模型推理能力
背景
随着视觉问答(Visual Question Answering, VQA)任务的日益复杂,多模态大语言模型(MLLMs)往往需要进行多步推理才能得出正确答案。近年来,基于可验证奖励的强化学习后训练(RLVR)以及组相对策略优化(GRPO)等技术,在提升多模态推理能力方面取得了显著进展。
然而,现有的主流方法大多依赖于稀疏的仅结果奖励(sparse outcome-only rewards)。这种机制存在一个核心缺陷:当模型给出错误答案时,很难区分该错误是由于推理链条末端的微小失误造成的,还是从初始阶段就选择了低效或错误的推理轨迹。
为了解决这一问题,业界常见的解决方案是训练一个过程奖励模型(Process Reward Model, PRM),以提供步骤级的监督信号。但这种方法通常面临两个巨大挑战:
- 需要大规模的高质量思维链(Chain-of-Thought, CoT)标注数据;
- 引入了额外的训练成本和计算开销。
因此,如何在无需显式训练 PRM 且无需大量额外标注的情况下,实现有效的步骤级过程奖励分配,成为当前提升多模态推理鲁棒性的关键难题。
核心内容
针对上述痛点,研究团队提出了 ProcessThinker,这是一种实用的后训练流水线,旨在无需训练显式 PRM 的前提下,为多模态大模型提供步骤级的过程奖励。
1. 冷启动监督微调
ProcessThinker 首先将推理轨迹重写为带有步骤标签(step-tagged)的格式。利用这种结构化数据,模型进行冷启动的监督微调(Supervised Fine-Tuning, SFT),为后续的策略优化奠定良好的推理基础。
2. 基于 Rollout 的过程奖励机制
在 SFT 之后,ProcessThinker 应用 GRPO 算法,结合标准格式奖励与我们提出的**基于 Rollout 的过程奖励(Rollout-based Process Reward)**进行优化。
其核心创新在于具体的奖励计算方式:
- 对于推理过程中的每一个中间步骤,模型会采样多个从该步骤继续生成的延续轨迹(continuations)。
- 通过验证最终答案的正确性,计算这些延续轨迹的经验成功率(empirical success rate)。
- 该成功率即被用作当前步骤的奖励信号。
3. 密集信用分配与逻辑一致性
这种基于 Rollout 的方法实现了密集的信用分配(dense credit assignment)。它鼓励那些能更可靠地支持正确结论的推理步骤,从而帮助减少跨步骤的不一致或自相矛盾的进展。在逻辑推理中,这种一致性问题是导致推理失败的关键因素之一。
4. 实验验证
在四个具有挑战性的视频基准测试中,ProcessThinker 均表现出优于基线模型 Qwen3-VL-8B-Instruct 的性能:
- Video-MMMU
- MMVU
- VideoMathQA
- LongVideoBench
关键要点
- 无需显式 PRM:ProcessThinker 避免了训练额外过程奖励模型的高昂成本和数据需求,通过采样和统计方法直接获取步骤级奖励。
- 基于 Rollout 的奖励计算:利用从中间步骤采样多条后续轨迹并验证最终结果的成功率,作为当前步骤的奖励信号,实现了细粒度的过程监督。
- 解决稀疏奖励困境:通过密集信用分配,有效区分了“早期错误轨迹”和“晚期微小失误”,提升了模型对推理路径的把控能力。
- 提升逻辑一致性:该方法显著减少了推理过程中步骤间的不一致和自相矛盾现象,这是提升复杂逻辑推理能力的关键。
- 多模态视频推理增强:在 Video-MMMU、MMVU、VideoMathQA 和 LongVideoBench 四个视频理解基准上,均优于 Qwen3-VL-8B-Instruct 基线模型。
意义与影响
ProcessThinker 的提出为多模态大模型的推理优化提供了一条高效且实用的新路径。
首先,它降低了实施过程级强化学习的门槛。传统 PRM 方法依赖昂贵的人工标注和复杂的模型训练,而 ProcessThinker 通过算法创新,利用模型自身的采样能力生成监督信号,极大地节省了数据标注成本和计算资源。
其次,该方法解决了多步推理中的“信用分配”难题。在复杂的视觉-语言任务中,尤其是视频理解等长上下文场景,模型容易在长链条推理中出现逻辑断裂或错误累积。ProcessThinker 通过步骤级的密集奖励,迫使模型学习更稳健、更一致的推理策略,从而提升了最终答案的可靠性。
最后,这一工作展示了 RLVR 和 GRPO 在多模态领域的进一步潜力。通过结合冷启动 SFT 和基于 Rollout 的奖励机制,ProcessThinker 证明了即使在不引入额外奖励模型的情况下,也能显著提升模型在复杂视频基准上的表现,为后续多模态推理模型的优化提供了重要的参考范式。
