技术博客arXiv cs.AI·3 天前

UniScale：通过联合优化模型路由与测试时扩展实现自适应统一推理扩展

原标题：UniScale: Adaptive Unified Inference Scaling via Online Joint Optimization of Model Routing and Test-Time Scaling

速览

针对大语言模型部署中推理质量与计算成本的平衡难题，现有方法将模型路由与测试时扩展（TTS）割裂处理，导致性能调整粗糙且存在瓶颈。UniScale提出统一推理扩展（UIS）概念，将两者纳入单一优化空间，并通过在线上下文多臂老虎机算法动态学习推理策略。该方法在多样化动态场景中实现了更精细且稳定的质量与成本权衡。

AI 深度解读

UniScale：通过在线联合优化模型路由与测试时扩展实现自适应统一推理扩展

背景

在大型语言模型（LLMs）的实际部署中，如何在推理质量（Inference Quality）与计算成本（Computational Cost）之间取得平衡，已成为业界面临的核心挑战。随着模型规模的增长，单次推理的资源消耗急剧上升，而用户需求又呈现出高度的动态性和多样性。

目前，业界主要沿着两个相对独立的维度来解决这一权衡问题：

模型路由（Model Routing）：根据请求的复杂程度，在不同的模型规模之间进行切换。例如，简单的问答可能由小模型处理，而复杂的逻辑推理则交给大模型。
测试时扩展（Test-Time Scaling, TTS）：在固定模型内部，动态调整推理时的计算资源（如增加采样步数、扩展上下文窗口或增加思考时间），以实现更细粒度的控制。

然而，这种“解耦”（Decoupled）的设计存在固有的局限性：

模型路由的粗糙性：由于可用的模型规模集合通常是稀疏的（例如只有 7B、13B、70B 等几个档位），模型路由带来的性能变化是粗粒度的、离散的，无法实现平滑的性能调节。
TTS 的收益递减与天花板：单一模型内的 TTS 往往存在能力上限。随着计算量的增加，性能提升往往呈现边际效应递减，甚至遇到瓶颈。
适应性不足：将这两种机制分开处理，限制了系统在动态推理环境中的整体适应能力，无法充分利用两者之间的协同效应。

核心内容

为了克服上述局限，研究人员提出了**统一推理扩展（Unified Inference Scaling, UIS）**的概念，旨在将模型路由和 TTS 统一到一个单一的优化空间中。基于这一 formulation，团队提出了 UniScale，这是一个在线框架，通过上下文多臂老虎机（Contextual Multi-Armed Bandit）问题来建模自适应 UIS，并利用 LinUCB 算法学习推理策略。

1. 统一优化空间（UIS）

UniScale 的核心思想是打破模型路由与 TTS 之间的壁垒。在 UIS 空间中，每一个“动作”（Action）不仅包括选择哪个模型，还包括在该模型上分配多少测试时计算资源。这意味着系统可以在一个连续的、高维的动作空间中进行搜索，而不是在离散的模型列表和固定的 TTS 策略之间做二选一。

2. 在线学习与策略优化

UniScale 将推理策略的选择建模为一个上下文多臂老虎机问题：

上下文（Context）：包括请求的特征（如长度、复杂度）、当前的系统负载、历史性能数据等。
动作（Action）：在 UIS 空间中选择具体的模型及其对应的 TTS 配置。
奖励（Reward）：通常定义为推理质量与成本的综合指标（如每单位成本的准确率提升）。

算法采用 LinUCB（Linear Upper Confidence Bound）进行策略学习。LinUCB 是一种结合了线性回归与上置信界策略的算法，能够在探索（尝试新策略以获取更多信息）与利用（使用已知最佳策略以获取即时收益）之间取得平衡。

3. 效率感知学习与成本建模

为了确保在高维动作空间中的优化既稳定又可扩展，UniScale 引入了两个关键机制：

效率感知学习（Efficiency-Aware Learning）：算法不仅关注最终的质量，还实时监测每个动作的计算开销，避免选择那些虽然质量高但成本不可接受的策略。
成本建模（Cost Modeling）：建立精确的成本预测模型，用于预估不同路由和 TTS 组合的实际资源消耗，从而在优化过程中纳入成本约束。

4. 协同效应的利用

通过联合优化，UniScale 能够发现模型路由与 TTS 之间的协同效应。例如，对于中等复杂度的请求，系统可能不会直接选择最大的模型，而是选择一个中等规模的模型并适度增加其 TTS 计算量；而对于极高复杂度的请求，则可能选择大模型并配合激进的 TTS 策略。这种细粒度的调节使得系统能够在各种动态场景下提供更优的质量-成本权衡。

关键要点

统一框架：UniScale 首次将模型路由和测试时扩展（TTS）统一到一个单一的优化空间（UIS）中，解决了传统解耦设计的局限性。
在线学习机制：采用上下文多臂老虎机框架，利用 LinUCB 算法在线学习最优推理策略，能够适应动态变化的请求分布和系统状态。
细粒度控制：通过联合优化，实现了比单一模型路由更平滑、更细粒度的性能调节，避免了离散模型切换带来的性能跳跃。
成本与效率并重：引入效率感知学习和成本建模，确保在高维动作空间中的优化过程稳定且具备可扩展性，避免资源浪费。
协同效应：实证研究表明，UniScale 能够有效利用模型路由与 TTS 之间的协同效应，在 diverse（多样化）和 dynamic（动态）的推理场景中，提供一致且更优的质量-成本权衡。
解决边际效应递减：通过动态调整 TTS 计算量，UniScale 缓解了单一模型 TTS 中常见的收益递减问题，同时避免了盲目切换大模型带来的高昂成本。

意义与影响

UniScale 的提出对大语言模型的部署和优化具有重要的理论和实践意义：

推动推理优化的范式转变：从传统的“静态选择”或“单一维度优化”转向“动态联合优化”。这为后续研究如何更精细地管理 LLM 推理资源提供了新的思路。
提升实际部署的经济性：通过更精细的质量-成本权衡，企业可以在保证服务体验的同时显著降低计算成本。这对于大规模商业化部署 LLM 至关重要。
增强系统适应性：在线学习机制使得系统能够自动适应不断变化的用户需求和硬件环境，减少了人工调优的工作量和滞后性。
为边缘计算和混合云部署提供新思路：UniScale 的框架可以灵活应用于混合云或边缘设备场景，其中计算资源受限且波动较大，通过动态调整模型和计算量，可以在资源约束下最大化性能。

总之，UniScale 不仅是一个技术改进，更是一种针对 LLM 推理效率问题的系统性解决方案，标志着推理优化从粗放式走向精细化、智能化的新阶段。

查看原文 →arxiv.org