技术博客arXiv cs.CL·3 小时前

VeriBound：为形式化验证训练的过程奖励模型提供泛化界

原标题：VeriBound: PAC-Bayesian Generalization Bounds for Process Reward Models Trained with Formal Verification Tools

速览

过程奖励模型（PRMs）在LLM推理中提供步骤级验证，但其训练数据获取存在瓶颈。现有方法如FOVER利用形式化验证工具自动标注训练数据，虽表现出跨任务泛化能力，但缺乏理论解释。本文提出VeriBound理论框架，为这类PRMs建立了PAC-Bayesian泛化界，揭示了经验验证误差与未见任务期望误差的关系，并给出了样本复杂度、收敛速率及误差传播界限。

AI 深度解读

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）

查看原文 →arxiv.org

VeriBound：为形式化验证训练的过程奖励模型提供泛化界

速览

AI 深度解读

相关推荐