VeriBound:为形式化验证训练的过程奖励模型提供泛化界
原标题:VeriBound: PAC-Bayesian Generalization Bounds for Process Reward Models Trained with Formal Verification Tools
速览
过程奖励模型(PRMs)在LLM推理中提供步骤级验证,但其训练数据获取存在瓶颈。现有方法如FOVER利用形式化验证工具自动标注训练数据,虽表现出跨任务泛化能力,但缺乏理论解释。本文提出VeriBound理论框架,为这类PRMs建立了PAC-Bayesian泛化界,揭示了经验验证误差与未见任务期望误差的关系,并给出了样本复杂度、收敛速率及误差传播界限。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
