技术博客arXiv cs.AI·1 天前

推理成本的经济视角：大模型最优预算分配策略

原标题：The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs

速览

研究将推理预算分配建模为受经济原则约束的全局优化问题，利用影子价格平衡边际效用。提出的CLEAR算法能理性放弃低效查询，并将资源重新分配给有潜力的查询。实验表明，该策略在资源稀缺场景下可将全局准确率提升3倍，优化了成本与准确率的帕累托前沿。

AI 深度解读

推理的影子价格：大模型预算分配的经济视角

背景

随着大语言模型（LLMs）在复杂推理任务中的表现日益突出，**推理时扩展（Inference-time scaling）**已成为提升模型性能的关键路径。无论是通过思维链（Chain-of-Thought）进行多步推导，还是采用自一致性（Self-Consistency）采样，这些方法都显著增加了单次推理所需的计算资源。

然而，现实世界的部署面临着严峻的约束：严格的计算预算（Computational Budgets）和延迟限制。在资源有限的情况下，如何分配有限的 Token 生成额度或计算步骤，以最大化整体系统的效用，成为一个尚未被充分解决的工程与理论难题。传统的做法往往采用均匀分配策略，但这忽略了不同查询（Query）在难度和解决潜力上的巨大差异，导致资源浪费或关键任务失败。

本文从经济学视角出发，将推理预算分配建模为一个全局约束优化问题，旨在解决资源稀缺条件下的最优配置问题。

核心内容

1. 经济学建模：影子价格与边际效用

作者提出，推理预算的分配不应是静态或均匀的，而应遵循经济学中的**全局约束优化（Global Constrained Optimization）**原则。

影子价格（Shadow Price）：在资源稀缺的情况下，引入一个全局的“影子价格”概念。这个价格反映了在当前资源总量下，增加一单位资源所能带来的边际效用。它充当了平衡不同查询间边际效用的调节器。
推理效用函数：为了量化每个查询的推理价值，作者构建了一个**偏移激增函数（Shifted-Surge Function）**来建模单查询的推理效用。该函数捕捉了推理过程中的非线性特征：当计算资源达到某个“涌现阈值”（Emergence Threshold）时，模型解决该问题的概率或质量会发生跃升；若未达到该阈值，则效用极低甚至为零。

2. 理论推导：最优分配策略

基于上述模型，作者推导出了最优的预算分配策略。核心逻辑在于：

均衡边际效用：在最优状态下，所有正在进行的查询，其最后一单位资源带来的边际效用应当相等，且等于全局影子价格。
理性放弃（Rational Abandonment）：如果某个查询的资源投入远低于其涌现阈值，且预计需要消耗大量额外资源才能突破该阈值，继续投入将是低效的。此时，系统应“理性放弃”该查询，停止资源投入。
资源重分配：从那些“资不抵债”（即投入产出比极低、难以突破阈值）的查询中回收资源，并将其重新分配给那些接近涌现阈值、只需少量额外资源即可显著提升成功率的“可解查询”。

3. 算法实现：CLEAR

基于这一理论框架，作者提出了 Constrained Latent-utility Equilibrium Allocation for Reasoning (CLEAR) 算法。

机制：CLEAR 算法实时监控每个查询的当前状态与预期成本，动态计算其边际效用。
操作：
- 识别出那些处于“低效区间”的查询。
- 执行资源回收，终止或降级这些查询的处理。
- 将释放出的计算资源（Token 或算力）实时重分配给那些具有高潜力、接近突破阈值的查询。

关键要点

范式转变：从“均匀分配”转向“基于边际效用的动态分配”。推理预算应被视为一种稀缺经济资源，而非无限供给的公共品。
涌现阈值概念：推理成功往往存在非线性拐点（涌现阈值）。在达到该阈值前，资源投入的回报率极低；一旦超过，回报率急剧上升。CLEAR 的核心在于精准识别并聚焦于接近该阈值的查询。
理性放弃策略：允许系统主动放弃低成功率或高成本的查询，是一种优化全局性能的必要手段，而非系统缺陷。
全局优化视角：优化目标不是单个查询的最大化，而是在总预算约束下的全局准确率或总效用最大化。
算法名称：CLEAR (Constrained Latent-utility Equilibrium Allocation for Reasoning)。

意义与影响

1. 显著提升资源效率

实验结果表明，在多个推理任务和不同的流量场景下，CLEAR 显著改善了总 Token 成本与平均准确率之间的帕累托前沿（Pareto Frontier）。这意味着在相同的预算下，系统可以获得更高的整体准确率；或者在达到相同准确率时，消耗更少的计算资源。

2. 资源稀缺场景下的巨大优势

在资源受限（Resource-scarce）的环境中，CLEAR 相比均匀分配策略，实现了高达 3 倍的全局准确率提升。这证明了在算力紧张或 API 调用成本高昂的场景下，智能预算分配策略具有极高的商业和技术价值。

3. 为推理时扩展提供理论支撑

本文不仅提出了一个工程算法，更从经济学角度为大模型推理时的资源管理提供了坚实的理论基础。它揭示了推理过程中的边际效用规律，为未来更复杂的动态推理系统（如多智能体协作、长上下文处理）的资源调度提供了新的思考维度。

4. 降低部署门槛

通过优化预算分配，企业可以在有限的算力基础设施上支持更复杂的推理任务，或降低对高端硬件的依赖，从而降低 LLM 大规模部署的经济门槛。

查看原文 →arxiv.org