← 返回信息流
技术博客arXiv cs.AI·7 天前

面向Agentic LLM服务的策略驱动运行时层

原标题:A Policy-Driven Runtime Layer for Agentic LLM Serving

速览

针对多智能体LLM系统中框架与引擎割裂导致策略难以协同的问题,提出在两者间插入Agent运行时层。该层通过暴露观察、评分、预测和行动四个原语,统一处理前缀缓存、批处理塑造等跨层策略。实验表明,该架构显著提升了缓存命中率和吞吐量,降低了首Token延迟。

AI 深度解读

A Policy-Driven Runtime Layer for Agentic LLM Serving:为智能体服务构建策略驱动的运行层

背景

多智能体(Multi-agent)LLM 系统已成为当前生产环境中的主导工作负载。然而,现有的 LLM 推理服务栈(Serving Stack)并非为这种复杂的工作负载而设计。

在当前的架构中,存在一个显著的“断层”:

  1. 上层:智能体框架(Agent Framework)。它掌握智能体的身份、角色、Schema 以及调度结构,但它无法感知到底层引擎发生的具体事件。
  2. 下层:推理引擎(Serving Engine)。它能看到每一个底层事件,但对上层的智能体逻辑一无所知。

这种信息不对称导致了许多跨层(Cross-cutting)策略难以有效实施。例如,前缀缓存(Prefix Caching)、批处理整形(Batch Shaping)、投机执行(Speculative Execution)、公平性调度、工具结果记忆化(Tool-result Memoization)以及安全策略执行等,都依赖于同时理解智能体逻辑和引擎事件。目前,这些策略通常通过针对某一侧(框架或引擎)的“一次性补丁”来解决,这种点状修复不仅维护成本高,且难以系统化。

核心内容

为了解决上述断层,本文提出了一种架构层面的变革:在智能体框架和推理引擎之间插入一个第三层——智能体运行层(Agent Runtime Layer)

1. 架构设计:智能体运行层

该运行层作为中间件,暴露四个核心原语(Primitives),使得任何感知智能体的策略都可以无缝接入:

  • Observe(观察):感知智能体状态和引擎事件。
  • Score(评分):基于策略对请求或资源进行优先级评估。
  • Predict(预测):预测智能体的下一步行为或资源需求。
  • Act(执行):执行具体的调度、缓存或计算操作。

在这个架构中,智能体身份(Agent Identity) 是连接上层逻辑与下层引擎的共享坐标。任何策略都可以基于这一坐标进行插拔和组合。

2. 策略映射与验证

作者将九种具体的跨层策略映射到了这一新层上,并重点验证了其中对即时服务成本影响最大的一个策略:跨会话的 KV 缓存(KV Caching across sessions)

该具体实现被命名为 CacheSage。其核心机制包括:

  • 在线学习转移矩阵:CacheSage 能够在线学习每个工作负载下的智能体状态转移矩阵(Per-workload agent transition matrix)。
  • 基于生存期的驱逐策略(Survival-based eviction):利用转移矩阵预测智能体的未来行为,决定哪些 KV 缓存应该保留。
  • 步间预取(Between-step prefetch):在智能体执行步骤之间,提前预取可能需要的 KV 缓存。

3. 实验结果

在五个真实的多智能体工作负载上进行的初步验证显示,相较于未修改的原始服务栈,引入该运行层(特别是 CacheSage 实现)带来了显著的性能提升:

  • 缓存命中率提升:增加了 13% 到 37 个百分点(pp)。
  • 首 token 延迟(TTFT)降低:平均降低了 12% 到 29%。
  • 吞吐量提升:提高了 6% 到 14%。

关键要点

  • 架构痛点:现有的 LLM 服务栈中,智能体框架与推理引擎之间存在信息孤岛,导致跨层优化策略(如缓存、调度)难以高效实施,目前多依赖零散的补丁。
  • 解决方案:提出在框架与引擎之间引入“智能体运行层”,通过 observe, score, predict, act 四个原语标准化交互接口,以智能体身份为统一坐标。
  • 核心创新:将通用的策略抽象为可插拔模块,解决了前缀缓存、投机执行、工具结果记忆化等长期存在的跨层难题。
  • 实证案例:重点实现了跨会话 KV 缓存策略 CacheSage,通过在线学习智能体状态转移矩阵,实现了更智能的缓存保留和预取。
  • 性能收益:在真实多智能体场景中,CacheSage 显著提升了缓存命中率(+13~37 pp),降低了 TTFT(-12~29%),并提升了整体吞吐量(+6~14%)。
  • 未来展望:该抽象层为未来更多复杂策略(如公平性、安全性、动态批处理)的集成提供了统一的架构基础,无需再针对每个策略单独修改框架或引擎代码。

意义与影响

这篇文章标志着 LLM 服务架构从“通用推理”向“智能体原生推理”的重要演进。

  1. 解耦与标准化:通过引入中间运行层,解耦了应用逻辑(智能体)与基础设施(引擎)。这使得智能体开发者无需关心底层缓存细节,而引擎开发者也能通过标准接口获取智能体上下文,促进了生态的模块化发展。
  2. 成本优化:多智能体系统通常涉及大量的工具调用和长上下文交互,KV 缓存是降低推理成本的关键。CacheSage 证明,通过理解智能体的行为模式(而非仅仅基于文本相似度),可以大幅提升缓存效率,直接降低生产环境的算力成本。
  3. 扩展性:提出的四个原语(Observe, Score, Predict, Act)为未来更复杂的策略(如基于强化学习的动态批处理、细粒度的安全拦截)提供了标准化的接入点,避免了“烟囱式”开发带来的技术债务。
  4. 行业趋势:随着 Agentic AI 从实验走向大规模生产,这种针对智能体特性优化的运行时层将成为下一代 LLM 服务基础设施的标准组件。对于云厂商和开源社区(如 vLLM, TGI 等)而言,采纳此类抽象层将是支持多智能体工作负载的关键步骤。
查看原文 →arxiv.org