← 返回信息流
技术博客arXiv cs.CL·3 小时前

VeriBound:为形式化验证训练的过程奖励模型提供泛化界

原标题:VeriBound: PAC-Bayesian Generalization Bounds for Process Reward Models Trained with Formal Verification Tools

速览

过程奖励模型(PRMs)在LLM推理中提供步骤级验证,但其训练数据获取存在瓶颈。现有方法如FOVER利用形式化验证工具自动标注训练数据,虽表现出跨任务泛化能力,但缺乏理论解释。本文提出VeriBound理论框架,为这类PRMs建立了PAC-Bayesian泛化界,揭示了经验验证误差与未见任务期望误差的关系,并给出了样本复杂度、收敛速率及误差传播界限。

AI 深度解读

AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org