← 返回信息流
技术博客arXiv cs.AI·1 天前

推理成本的经济视角:大模型最优预算分配策略

原标题:The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs

速览

研究将推理预算分配建模为受经济原则约束的全局优化问题,利用影子价格平衡边际效用。提出的CLEAR算法能理性放弃低效查询,并将资源重新分配给有潜力的查询。实验表明,该策略在资源稀缺场景下可将全局准确率提升3倍,优化了成本与准确率的帕累托前沿。

AI 深度解读

推理的影子价格:大模型预算分配的经济视角

背景

随着大语言模型(LLMs)在复杂推理任务中的表现日益突出,**推理时扩展(Inference-time scaling)**已成为提升模型性能的关键路径。无论是通过思维链(Chain-of-Thought)进行多步推导,还是采用自一致性(Self-Consistency)采样,这些方法都显著增加了单次推理所需的计算资源。

然而,现实世界的部署面临着严峻的约束:严格的计算预算(Computational Budgets)和延迟限制。在资源有限的情况下,如何分配有限的 Token 生成额度或计算步骤,以最大化整体系统的效用,成为一个尚未被充分解决的工程与理论难题。传统的做法往往采用均匀分配策略,但这忽略了不同查询(Query)在难度和解决潜力上的巨大差异,导致资源浪费或关键任务失败。

本文从经济学视角出发,将推理预算分配建模为一个全局约束优化问题,旨在解决资源稀缺条件下的最优配置问题。

核心内容

1. 经济学建模:影子价格与边际效用

作者提出,推理预算的分配不应是静态或均匀的,而应遵循经济学中的**全局约束优化(Global Constrained Optimization)**原则。

  • 影子价格(Shadow Price):在资源稀缺的情况下,引入一个全局的“影子价格”概念。这个价格反映了在当前资源总量下,增加一单位资源所能带来的边际效用。它充当了平衡不同查询间边际效用的调节器。
  • 推理效用函数:为了量化每个查询的推理价值,作者构建了一个**偏移激增函数(Shifted-Surge Function)**来建模单查询的推理效用。该函数捕捉了推理过程中的非线性特征:当计算资源达到某个“涌现阈值”(Emergence Threshold)时,模型解决该问题的概率或质量会发生跃升;若未达到该阈值,则效用极低甚至为零。

2. 理论推导:最优分配策略

基于上述模型,作者推导出了最优的预算分配策略。核心逻辑在于:

  1. 均衡边际效用:在最优状态下,所有正在进行的查询,其最后一单位资源带来的边际效用应当相等,且等于全局影子价格。
  2. 理性放弃(Rational Abandonment):如果某个查询的资源投入远低于其涌现阈值,且预计需要消耗大量额外资源才能突破该阈值,继续投入将是低效的。此时,系统应“理性放弃”该查询,停止资源投入。
  3. 资源重分配:从那些“资不抵债”(即投入产出比极低、难以突破阈值)的查询中回收资源,并将其重新分配给那些接近涌现阈值、只需少量额外资源即可显著提升成功率的“可解查询”。

3. 算法实现:CLEAR

基于这一理论框架,作者提出了 Constrained Latent-utility Equilibrium Allocation for Reasoning (CLEAR) 算法。

  • 机制:CLEAR 算法实时监控每个查询的当前状态与预期成本,动态计算其边际效用。
  • 操作
    • 识别出那些处于“低效区间”的查询。
    • 执行资源回收,终止或降级这些查询的处理。
    • 将释放出的计算资源(Token 或算力)实时重分配给那些具有高潜力、接近突破阈值的查询。

关键要点

  • 范式转变:从“均匀分配”转向“基于边际效用的动态分配”。推理预算应被视为一种稀缺经济资源,而非无限供给的公共品。
  • 涌现阈值概念:推理成功往往存在非线性拐点(涌现阈值)。在达到该阈值前,资源投入的回报率极低;一旦超过,回报率急剧上升。CLEAR 的核心在于精准识别并聚焦于接近该阈值的查询。
  • 理性放弃策略:允许系统主动放弃低成功率或高成本的查询,是一种优化全局性能的必要手段,而非系统缺陷。
  • 全局优化视角:优化目标不是单个查询的最大化,而是在总预算约束下的全局准确率或总效用最大化。
  • 算法名称:CLEAR (Constrained Latent-utility Equilibrium Allocation for Reasoning)。

意义与影响

1. 显著提升资源效率

实验结果表明,在多个推理任务和不同的流量场景下,CLEAR 显著改善了总 Token 成本与平均准确率之间的帕累托前沿(Pareto Frontier)。这意味着在相同的预算下,系统可以获得更高的整体准确率;或者在达到相同准确率时,消耗更少的计算资源。

2. 资源稀缺场景下的巨大优势

在资源受限(Resource-scarce)的环境中,CLEAR 相比均匀分配策略,实现了高达 3 倍的全局准确率提升。这证明了在算力紧张或 API 调用成本高昂的场景下,智能预算分配策略具有极高的商业和技术价值。

3. 为推理时扩展提供理论支撑

本文不仅提出了一个工程算法,更从经济学角度为大模型推理时的资源管理提供了坚实的理论基础。它揭示了推理过程中的边际效用规律,为未来更复杂的动态推理系统(如多智能体协作、长上下文处理)的资源调度提供了新的思考维度。

4. 降低部署门槛

通过优化预算分配,企业可以在有限的算力基础设施上支持更复杂的推理任务,或降低对高端硬件的依赖,从而降低 LLM 大规模部署的经济门槛。

查看原文 →arxiv.org