ICML 2026:PRM-PBE用过程奖励强化学习提升大模型PBE能力
速览
针对大模型在Programming-by-Example任务中缺乏过程监督的问题,研究团队提出PRM-PBE框架。该方法利用反馈引导的推理树构建过程监督数据,训练过程奖励模型评估中间推理步骤,并结合三阶段课程学习与PPO优化。实验显示,该方法在多个基准上显著优于现有基线,有效减少了捷径程序,提升了程序合成的准确率与可靠性。
AI 深度解读
背景
Programming-by-Example(PBE,基于示例编程)的核心目标是从少量的输入输出样例中,推断出用户真正想要的程序逻辑,并合成能够处理所有样例的代码。随着大语言模型(LLM)的发展,PBE 不再局限于传统的预定义领域特定语言(DSL),模型可以直接基于自然语言提示和样例生成通用代码。
然而,尽管 LLM 在代码生成和程序推理方面取得了显著进展,但在 PBE 任务中仍面临明显瓶颈。现有的 LLM 方法通常依赖输入到输出的直接映射,或者借助思维链(Chain-of-Thought)、执行反馈、监督微调(SFT)等方式增强推理能力。这些方法存在一个关键缺陷:缺乏对中间推理过程的细粒度监督。模型往往只学习表层映射,导致在复杂逻辑归纳场景下容易生成“捷径”程序(即只满足部分样例但逻辑错误的代码),或者完全偏离用户真实意图。
核心内容
针对上述问题,北京大学、京东、华东师范大学及天基综合信息系统全国重点实验室联合研究团队提出了一种名为 PRM-PBE 的强化学习框架。该框架旨在通过过程奖励模型(Process Reward Model, PRM)为 PBE 任务提供细粒度的推理过程监督。
1. 构建反馈引导的推理树数据 为了解决中间推理过程难以监督的问题,研究团队提出了一种反馈引导的推理树构建方法:
- 节点定义:推理树中的每个节点代表一个自然语言形式的中间推理步骤。
- 路径生成:模型从输入输出样例出发,逐步采样后继推理节点,形成完整的推理路径。
- 质量评估由于中间节点无法直接执行,系统会在路径终止后将其转化为完整程序,并通过执行测试判断其是否满足所有样例。
- 后继成功率:利用后续路径的成功比例来衡量节点质量。若某节点的大部分后续路径能导向正确程序,则该节点被视为可靠;若所有后继路径均失败,则视为逻辑偏离点。
- 数据增强:对于逻辑偏离点,系统引入外部自然语言指令进行定向修复,生成更多高质量正样本,以缓解过程监督数据中正样本稀疏的问题。
2. 训练过程奖励模型(PRM) 在完成推理树构建后,研究团队训练 PRM 来评估中间推理步骤的质量:
- 偏好学习:PRM 不直接判断最终程序是否正确,而是为每个推理状态分配奖励分数,估计其继续生成正确程序的可能性。
- 训练信号:将节点的后继成功率作为偏好信号。如果节点 A 的后续路径比节点 B 更容易生成正确程序,PRM 会被训练为给节点 A 更高的分数。这种偏好学习能更细致地区分不同推理状态的可靠程度。
3. 三阶段课程学习与 PPO 优化 获得 PRM 后,研究团队将其接入强化学习框架,并结合按失败模式组织的三阶段课程学习策略,以提升训练稳定性:
- 第一阶段:关注语法错误和运行时错误,训练模型生成可正常执行的程序。
- 第二阶段:关注可执行但与目标行为不一致的程序,引导模型学习输入输出样例中的核心约束。
- 第三阶段:处理只能通过部分样例的程序,帮助模型减少对有限样例的过拟合,学习全局逻辑。 在每个阶段中,PRM 对中间推理状态提供奖励,并通过近端策略优化(PPO)更新策略模型。
4. 实验验证 论文在 PROSE、SyGuS、Playgol、Lists 和 MBPP 五个代表性 PBE 基准上进行了实验。结果显示,PRM-PBE 在所有基准上均显著优于现有基线。以 DeepSeek-Coder-V2 为基础模型时,PRM-PBE 的平均 Pass@1 从 SFT 的 42.76% 提升至 56.61%,增益达 13.85 个百分点,并超越了最强非 PRM 基线 Claude-3.5-Sonnet 的 WPS 方法。
关键要点
- 解决过程监督缺失:PRM-PBE 的核心创新在于将 PBE 中难以监督的“从样例归纳程序意图”的过程显式建模,通过过程奖励提供比最终执行结果更细粒度的训练信号。
- 反馈引导的推理树:通过构建推理树并利用后继路径的成功率来评估中间推理步骤的质量,有效缓解了正样本稀疏问题。
- 偏好学习机制:PRM 采用偏好学习而非简单的正负分类,能够更细致地识别推理路径中的偏离点,减少“捷径”程序。
- 三阶段课程学习:设计了针对语法错误、逻辑不一致和部分样例过拟合的三阶段训练策略,提升了强化学习的稳定性和模型泛化能力。
- 显著性能提升:在多个基准测试中,PRM-PBE 相比监督微调(SFT)和最强基线模型均有显著提升,证明了显式过程奖励在复杂 PBE 任务中的有效性。
意义与影响
这项工作的主要意义在于,它证明了在程序合成任务中,仅依赖提示工程、搜索反馈或监督微调是不够的,显式的过程奖励能够更有效地提升模型从输入输出样例中捕捉隐含逻辑的能力。
此外,该框架为后续 LLM 程序合成研究提供了可扩展的思路:对于许多难以直接标注中间过程的任务,可以通过“采样后续路径、验证最终结果、反推中间状态价值”的方式构建过程监督信号。随着更强的代码模型和自动验证工具的发展,类似的过程奖励机制有望扩展到更复杂的程序归纳、算法生成以及真实软件工程任务中,推动 AI 在代码生成领域向更可靠、更可解释的方向发展。
