← 返回信息流
技术博客arXiv cs.CL·23 小时前

大语言推理模型高效思考框架CAT发布

原标题:CAT: Confidence-Adaptive Thinking for Efficient Reasoning of Large Reasoning Models

速览

Large Reasoning Models 通过长链思考在复杂任务上取得成功,但简单查询易导致过思考,消耗大量token。现有压缩方法多为统一缩短或粗粒度难度判断,难以兼顾准确性。CAT框架利用模型内在自置信信号加入偏好优化,自主调节推理长度。根据实验结果,CAT在多基准上优于现有基线模型,为工业场景提供高效平衡方案。

AI 深度解读

背景

大型推理模型(Large Reasoning Models, LRMs)通过采用长链式思考(long chain-of-thought, CoT)轨迹在复杂任务中取得了显著成功,但它们在简单查询上常常出现过度思考现象,这导致了显著的 token 开销并降低了推理效率。现有压缩方法大多采用均匀长度缩减或依赖于粗粒度难度估计,常常导致在困难问题上性能下降。为了解决这一局限性,本文提出了一种名为“Confidence-Adaptive Thinking”的框架,该框架将模型自身固有的自确定信号(self-certainty signals)融入偏好优化(preference optimization)过程,实现自主根据问题难度调节推理长度。实验结果表明,CAT 在不同基础模型上多个基准测试的推理准确率上均优于现有最先进基线。本文工作使 LRMs 能够有效压缩有把握的回答,同时对不确定的问题进行详细阐述,为实际工业场景中平衡准确性与延迟提供了潜在的稳健解决方案。

核心内容

大型推理模型(Large Reasoning Models, LRMs)通过采用长链式思考(long chain-of-thought, CoT)轨迹在复杂任务中取得了显著成功,但它们在简单查询上常常出现过度思考现象,这导致了显著的 token 开销并降低了推理效率。现有压缩方法大多采用均匀长度缩减或依赖于粗粒度难度估计,常常导致在困难问题上性能下降。为了解决这一局限性,本文提出了一种名为“Confidence-Adaptive Thinking”的框架,该框架将模型自身固有的自确定信号(self-certainty signals)融入偏好优化(preference optimization)过程,实现自主根据问题难度调节推理长度。实验结果表明,CAT 在不同基础模型上多个基准测试的推理准确率上均优于现有最先进基线。本文工作使 LRMs 能够有效压缩有把握的回答,同时对不确定的问题进行详细阐述,为实际工业场景中平衡准确性与延迟提供了潜在的稳健解决方案。

关键要点

  • LRMs 依赖长 CoT 轨迹在复杂任务上取得成功,但在简单查询中易过度思考,导致 token 开销大、推理效率低。
  • 现有压缩方法多采用均匀长度缩减或粗粒度难度估计,常在困难问题上造成性能下降。
  • CAT 框架将模型固有自确定信号融入偏好优化过程,自主根据问题难度调节推理长度。
  • CAT 在不同基础模型上多个基准的推理准确率均优于 SOTA 基线。
  • CAT 使 LRMs 能压缩有把握的回答,同时对不确定的问题进行细致阐述,助力工业场景中准确性与延迟的平衡。

意义与影响

本文提出的 CAT 框架通过将模型自内在确定信号直接引入偏好优化过程,实现了推理长度的自主适应,避免了现有方法在困难问题上常见的性能下降问题,为大型推理模型在实际应用中的高效性提供了新的方向。这一创新不仅提升了 LRMs 在复杂与简单任务间的平衡,还为工业部署中的延迟控制和资源优化打开了新路径,有望推动更多高效、可靠的推理系统在生产环境中落地。

查看原文 →arxiv.org