用C3RL提升LLM置信度,助力自适应推理提效
速览
C3RL是基于强化学习的LLM训练算法,通过整合正确性、置信度校准和数据集参考准确度奖励,解决传统RL奖励忽略置信问题导致过自信幻觉的不足。实验在8个文本与多模态数据集上证明,C3RL有效提升校准表现而不牺牲准确率,优于现有SOTA方法。基于此,作者提出CAS策略,利用C3RL生成的置信分数在推理阶段动态调整计算资源,超越多数投票法,同时将推理预算降低高达12.33倍。这将为部署更可靠且资源高效的LLM铺平道路。
AI 深度解读
背景
大型语言模型(LLMs)的训练已显著受益于强化学习(RL)技术的应用,这一进步在推理任务和问答任务中尤为明显。目前主流的RL奖励设计主要专注于响应内容的正确性,忽视了模型自信表达的准确性。结果是,模型性能提升往往伴随着置信度与准确性之间的校准偏差:模型倾向于过高自信地输出不准确的信息,甚至出现幻觉(hallucination)。这一问题在实际部署场景中尤为突出,限制了LLMs在高风险或需要可靠决策的场景下的应用潜力。
核心内容
为了解决这一局限,研究团队提出了一种名为Correctness and Confidence Calibration Reinforcement Learning(C3RL)的RL算法。该算法创新性地将三类奖励机制整合在一起:
- 正确性(Correctness)奖励,确保模型输出与真实答案匹配;
- 校准(Calibration)奖励,促使模型准确表达其自身置信度水平;
- 数据集引导的参考准确性(Dataset-informed reference accuracy)奖励,结合训练数据中的先验知识作为参考基准。
通过上述三者结合,C3RL不仅提升了模型的整体性能,还显著改善了置信度与实际准确率之间的匹配度。实验在8个文本和多模态数据集上全面验证,C3RL在校准指标上大幅优于当前最先进方法,同时保持了与基线相当的准确性。
在C3RL生成的“校准良好”口头表达的置信度基础上,研究团队进一步设计了Confidence-based Adaptive Test Time Scaling(CAS),这一自适应推理时策略能够根据模型对单个响应自信程度的评估,动态调整计算资源分配。CAS能够超越传统的多数投票(majority voting)方法,在领域内(in-domain)和领域外(out-of-domain)数据集上均表现更优,同时将推理预算(inference budget)减少高达12.33倍。
研究者指出,C3RL与CAS的协同作用为部署更可靠且资源高效的LLMs开辟了新路径。文章承诺将开源代码、数据和模型。
关键要点
- C3RL将正确性、校准和数据集参考准确性三类奖励整合,形成新型RL算法;
- 实验覆盖8个文本与多模态数据集,在校准指标上优于SOTA方法,且保持准确性;
- CAS利用C3RL输出的口头置信度,实现资源自适应分配,减少推理预算至原来的1/12.33;
- CAS在in-domain和out-of-domain任务上均超越多数投票;
- 整体方法旨在提升LLM的可靠性和资源效率,为实际部署提供可行方案。
意义与影响
C3RL与CAS的结合为解决LLM部署中的“幻觉与浪费”问题提供了系统性方案,有望显著降低大规模推理任务的计算成本,同时提升输出可靠性。这一进展在追求高性能与低成本平衡的AI应用场景中具有重要价值。未来,随着更多数据集和任务的验证,预计该方法将为构建更智能、更经济的LLM生态铺平道路。
