技术博客arXiv cs.AI·7 天前

面向Agentic LLM服务的策略驱动运行时层

原标题：A Policy-Driven Runtime Layer for Agentic LLM Serving

速览

针对多智能体LLM系统中框架与引擎割裂导致策略难以协同的问题，提出在两者间插入Agent运行时层。该层通过暴露观察、评分、预测和行动四个原语，统一处理前缀缓存、批处理塑造等跨层策略。实验表明，该架构显著提升了缓存命中率和吞吐量，降低了首Token延迟。

AI 深度解读

A Policy-Driven Runtime Layer for Agentic LLM Serving：为智能体服务构建策略驱动的运行层

背景

多智能体（Multi-agent）LLM 系统已成为当前生产环境中的主导工作负载。然而，现有的 LLM 推理服务栈（Serving Stack）并非为这种复杂的工作负载而设计。

在当前的架构中，存在一个显著的“断层”：

上层：智能体框架（Agent Framework）。它掌握智能体的身份、角色、Schema 以及调度结构，但它无法感知到底层引擎发生的具体事件。
下层：推理引擎（Serving Engine）。它能看到每一个底层事件，但对上层的智能体逻辑一无所知。

这种信息不对称导致了许多跨层（Cross-cutting）策略难以有效实施。例如，前缀缓存（Prefix Caching）、批处理整形（Batch Shaping）、投机执行（Speculative Execution）、公平性调度、工具结果记忆化（Tool-result Memoization）以及安全策略执行等，都依赖于同时理解智能体逻辑和引擎事件。目前，这些策略通常通过针对某一侧（框架或引擎）的“一次性补丁”来解决，这种点状修复不仅维护成本高，且难以系统化。

核心内容

为了解决上述断层，本文提出了一种架构层面的变革：在智能体框架和推理引擎之间插入一个第三层——智能体运行层（Agent Runtime Layer）。

1. 架构设计：智能体运行层

该运行层作为中间件，暴露四个核心原语（Primitives），使得任何感知智能体的策略都可以无缝接入：

Observe（观察）：感知智能体状态和引擎事件。
Score（评分）：基于策略对请求或资源进行优先级评估。
Predict（预测）：预测智能体的下一步行为或资源需求。
Act（执行）：执行具体的调度、缓存或计算操作。

在这个架构中，智能体身份（Agent Identity） 是连接上层逻辑与下层引擎的共享坐标。任何策略都可以基于这一坐标进行插拔和组合。

2. 策略映射与验证

作者将九种具体的跨层策略映射到了这一新层上，并重点验证了其中对即时服务成本影响最大的一个策略：跨会话的 KV 缓存（KV Caching across sessions）。

该具体实现被命名为 CacheSage。其核心机制包括：

在线学习转移矩阵：CacheSage 能够在线学习每个工作负载下的智能体状态转移矩阵（Per-workload agent transition matrix）。
基于生存期的驱逐策略（Survival-based eviction）：利用转移矩阵预测智能体的未来行为，决定哪些 KV 缓存应该保留。
步间预取（Between-step prefetch）：在智能体执行步骤之间，提前预取可能需要的 KV 缓存。

3. 实验结果

在五个真实的多智能体工作负载上进行的初步验证显示，相较于未修改的原始服务栈，引入该运行层（特别是 CacheSage 实现）带来了显著的性能提升：

缓存命中率提升：增加了 13% 到 37 个百分点（pp）。
首 token 延迟（TTFT）降低：平均降低了 12% 到 29%。
吞吐量提升：提高了 6% 到 14%。

关键要点

架构痛点：现有的 LLM 服务栈中，智能体框架与推理引擎之间存在信息孤岛，导致跨层优化策略（如缓存、调度）难以高效实施，目前多依赖零散的补丁。
解决方案：提出在框架与引擎之间引入“智能体运行层”，通过 observe, score, predict, act 四个原语标准化交互接口，以智能体身份为统一坐标。
核心创新：将通用的策略抽象为可插拔模块，解决了前缀缓存、投机执行、工具结果记忆化等长期存在的跨层难题。
实证案例：重点实现了跨会话 KV 缓存策略 CacheSage，通过在线学习智能体状态转移矩阵，实现了更智能的缓存保留和预取。
性能收益：在真实多智能体场景中，CacheSage 显著提升了缓存命中率（+13~37 pp），降低了 TTFT（-12~29%），并提升了整体吞吐量（+6~14%）。
未来展望：该抽象层为未来更多复杂策略（如公平性、安全性、动态批处理）的集成提供了统一的架构基础，无需再针对每个策略单独修改框架或引擎代码。

意义与影响

这篇文章标志着 LLM 服务架构从“通用推理”向“智能体原生推理”的重要演进。

解耦与标准化：通过引入中间运行层，解耦了应用逻辑（智能体）与基础设施（引擎）。这使得智能体开发者无需关心底层缓存细节，而引擎开发者也能通过标准接口获取智能体上下文，促进了生态的模块化发展。
成本优化：多智能体系统通常涉及大量的工具调用和长上下文交互，KV 缓存是降低推理成本的关键。CacheSage 证明，通过理解智能体的行为模式（而非仅仅基于文本相似度），可以大幅提升缓存效率，直接降低生产环境的算力成本。
扩展性：提出的四个原语（Observe, Score, Predict, Act）为未来更复杂的策略（如基于强化学习的动态批处理、细粒度的安全拦截）提供了标准化的接入点，避免了“烟囱式”开发带来的技术债务。
行业趋势：随着 Agentic AI 从实验走向大规模生产，这种针对智能体特性优化的运行时层将成为下一代 LLM 服务基础设施的标准组件。对于云厂商和开源社区（如 vLLM, TGI 等）而言，采纳此类抽象层将是支持多智能体工作负载的关键步骤。

查看原文 →arxiv.org