技术博客arXiv cs.AI·11 小时前

SCI-PRM：面向科学推理验证的工具感知过程奖励模型

原标题：SCI-PRM: A Tool Aware Process Reward Model for Scientific Reasoning Verification

速览

针对科学领域推理中事实一致性和工具使用的难题，研究团队构建了包含工具轨迹的大规模数据集SCIPRM70K。在此基础上训练的Sci-PRM模型能在单步推理中提供细粒度的工具选择与执行监督。实验表明，该模型通过测试时扩展和强化学习中的密集奖励信号，显著突破了现有性能瓶颈。

AI 深度解读

SCI-PRM: 面向科学推理验证的工具感知过程奖励模型

背景

尽管过程奖励模型（Process Reward Models, PRMs）在数学推理领域已经取得了显著的成功，但在生物学、化学和物理学等复杂的科学领域中，其应用潜力仍 largely unexplored（很大程度上未被探索）。

科学问题不仅要求逻辑上的严谨性，还要求事实的一致性以及对领域特定工具（domain-specific tools）的精确使用。然而，当前的模型在这些方面往往存在幻觉（hallucinations）问题，且缺乏有效的验证机制。为了解决这一空白，研究人员提出了一种新的方法，旨在通过引入工具感知能力来增强模型在科学推理中的表现。

核心内容

本文主要介绍了 SCI-PRM（Scientific Process Reward Model），这是一个专为科学推理验证设计的工具感知过程奖励模型。研究内容主要包含数据集构建、模型训练以及实验验证三个部分。

1. 构建 SCIPRM70K 数据集

为了训练有效的奖励模型，作者首先构建了 SCIPRM70K，这是一个大规模数据集。该数据集的核心特征是包含 Chain-of-Tool（工具链）轨迹。这些轨迹显式地将推理过程与科学工具的执行过程交织在一起，使得模型能够学习如何在推理步骤中正确地调用和执行工具。

2. 训练 Sci-PRM 模型

基于 SCIPRM70K 数据集，作者训练了一个高效的奖励模型 Sci-PRM。该模型能够在单次推理过程中，对每一个步骤提供细粒度的监督信号。具体监督维度包括：

工具选择（Tool Selection）：判断当前步骤是否选择了正确的工具。
执行准确性（Execution Accuracy）：评估工具执行的结果是否正确。
结果解释（Result Interpretation）：验证模型对工具输出结果的解读是否符合科学逻辑。

3. 实验验证与效果

实验结果表明，Sci-PRM 在两个关键方面显著增强了基础模型（Foundation Models）的能力：

测试时扩展（Test-time Scaling）：通过 Best-of-N 选择策略，Sci-PRM 能够有效地利用测试时的计算资源。模型生成 N 个候选答案，利用奖励模型对每个答案的过程进行评分，从而选出最优解。
强化学习中的稠密奖励信号：当 Sci-PRM 被集成到强化学习（Reinforcement Learning, RL）框架中时，它提供了一个稠密的奖励信号。这一机制缓解了强化学习中常见的 优势消失（advantage disappearance） 问题，使得模型能够突破现有的性能瓶颈，实现性能的提升。

关键要点

填补领域空白：将过程奖励模型从数学领域拓展至生物、化学、物理等复杂科学领域，解决了当前模型在事实一致性和工具使用上的不足。
Chain-of-Tool 轨迹：引入 SCIPRM70K 数据集，通过显式交织推理与工具执行，解决了科学推理中工具调用不规范的问题。
细粒度监督：Sci-PRM 不仅关注最终答案，还针对工具选择、执行准确性和结果解释提供每一步的细粒度反馈。
双重增强机制：
1. 推理阶段：支持 Best-of-N 测试时扩展，提升单次推理的准确率。
2. 训练阶段：作为强化学习的稠密奖励信号，解决优势消失问题，帮助模型突破性能天花板。
解决幻觉问题：通过工具执行的严格验证，减少了模型在科学事实上的幻觉现象。

意义与影响

SCI-PRM 的提出标志着 AI 在科学推理领域迈出了重要一步。传统的语言模型在处理科学问题时，往往因为缺乏对专业工具（如分子模拟软件、统计计算库等）的精确控制和验证，导致结果不可靠。

通过引入工具感知机制，SCI-PRM 不仅提升了模型在科学任务上的准确性，还为构建更可靠、可解释的科学 AI 助手提供了新的范式。特别是在强化学习领域，解决“优势消失”问题意味着模型可以更稳定地从复杂的科学反馈中学习，这对于开发能够辅助科学家进行发现和研究的高级 AI 系统具有深远的影响。未来，这类模型有望在药物发现、材料科学和物理建模等领域发挥关键作用。

查看原文 →arxiv.org