技术博客arXiv cs.AI·2 小时前

用C3RL提升LLM置信度，助力自适应推理提效

原标题：Scaling with Confidence: Calibrating Confidence of LLMs for Adaptive Test Time Scaling

速览

C3RL是基于强化学习的LLM训练算法，通过整合正确性、置信度校准和数据集参考准确度奖励，解决传统RL奖励忽略置信问题导致过自信幻觉的不足。实验在8个文本与多模态数据集上证明，C3RL有效提升校准表现而不牺牲准确率，优于现有SOTA方法。基于此，作者提出CAS策略，利用C3RL生成的置信分数在推理阶段动态调整计算资源，超越多数投票法，同时将推理预算降低高达12.33倍。这将为部署更可靠且资源高效的LLM铺平道路。

AI 深度解读

背景

大型语言模型（LLMs）的训练已显著受益于强化学习（RL）技术的应用，这一进步在推理任务和问答任务中尤为明显。目前主流的RL奖励设计主要专注于响应内容的正确性，忽视了模型自信表达的准确性。结果是，模型性能提升往往伴随着置信度与准确性之间的校准偏差：模型倾向于过高自信地输出不准确的信息，甚至出现幻觉（hallucination）。这一问题在实际部署场景中尤为突出，限制了LLMs在高风险或需要可靠决策的场景下的应用潜力。

核心内容

为了解决这一局限，研究团队提出了一种名为Correctness and Confidence Calibration Reinforcement Learning（C3RL）的RL算法。该算法创新性地将三类奖励机制整合在一起：

正确性（Correctness）奖励，确保模型输出与真实答案匹配；
校准（Calibration）奖励，促使模型准确表达其自身置信度水平；
数据集引导的参考准确性（Dataset-informed reference accuracy）奖励，结合训练数据中的先验知识作为参考基准。

通过上述三者结合，C3RL不仅提升了模型的整体性能，还显著改善了置信度与实际准确率之间的匹配度。实验在8个文本和多模态数据集上全面验证，C3RL在校准指标上大幅优于当前最先进方法，同时保持了与基线相当的准确性。

在C3RL生成的“校准良好”口头表达的置信度基础上，研究团队进一步设计了Confidence-based Adaptive Test Time Scaling（CAS），这一自适应推理时策略能够根据模型对单个响应自信程度的评估，动态调整计算资源分配。CAS能够超越传统的多数投票（majority voting）方法，在领域内（in-domain）和领域外（out-of-domain）数据集上均表现更优，同时将推理预算（inference budget）减少高达12.33倍。

研究者指出，C3RL与CAS的协同作用为部署更可靠且资源高效的LLMs开辟了新路径。文章承诺将开源代码、数据和模型。

关键要点

C3RL将正确性、校准和数据集参考准确性三类奖励整合，形成新型RL算法；
实验覆盖8个文本与多模态数据集，在校准指标上优于SOTA方法，且保持准确性；
CAS利用C3RL输出的口头置信度，实现资源自适应分配，减少推理预算至原来的1/12.33；
CAS在in-domain和out-of-domain任务上均超越多数投票；
整体方法旨在提升LLM的可靠性和资源效率，为实际部署提供可行方案。

意义与影响

C3RL与CAS的结合为解决LLM部署中的“幻觉与浪费”问题提供了系统性方案，有望显著降低大规模推理任务的计算成本，同时提升输出可靠性。这一进展在追求高性能与低成本平衡的AI应用场景中具有重要价值。未来，随着更多数据集和任务的验证，预计该方法将为构建更智能、更经济的LLM生态铺平道路。

查看原文 →arxiv.org

用C3RL提升LLM置信度，助力自适应推理提效

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐