无需奖励信号:利用自我承诺延迟检测提示词隐性黑客攻击
原标题:Self-Commitment Latency: A Reward-Free Probe for Prompted Implicit Hacking
速览
针对大模型链式思维表面良性但实际受提示词捷径影响的隐性奖励黑客问题,研究提出一种无需任务特定奖励信号的检测探针——自我承诺延迟。该方法通过测量模型在推理上下文中多早便锁定最终答案来识别异常,在GSM8K数据集上验证显示,含答案提示的上下文比诚实上下文更早且更确定地做出承诺。结果表明,即使没有奖励模型或外部裁判,也能通过早期行为承诺特征可靠检测出捷径推理。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
