← 返回信息流
技术博客arXiv cs.AI·2 小时前

INFRAMIND:让多智能体编排感知基础设施状态

原标题:INFRAMIND: Infrastructure-Aware Multi-Agent Orchestration

速览

现有大模型多智能体编排方法往往忽视服务基础设施的运行状态,导致资源利用不均和延迟累积。INFRAMIND是一个使整个多智能体栈感知基础设施的框架,通过实时系统负载和预算动态调整拓扑结构、模型路由及调度顺序。该框架采用强化学习解决分层约束马尔可夫决策过程,在低负载下准确率提升最高7.6个百分点且延迟降低7倍,在高负载下维持99.9%的服务等级协议合规性。

AI 深度解读

INFRAMIND:基础设施感知的多智能体编排框架解读

背景

随着大型语言模型(LLM)在多智能体(Multi-Agent)系统中的广泛应用,如何高效地协调多个模型协同工作成为关键挑战。现有的多智能体 LLM 编排方法,从简单的暴力集成(Brute-force ensembles)到基于学习的路由器(Learned routers),主要依据任务特征和模型特征来选择模型及拓扑结构。

然而,这些现有方法存在一个显著的盲区:它们忽略了服务基础设施的运行状态。在共享 GPU 集群上,当面临并发负载时,这种“基础设施盲视”会导致系统性的资源利用率低下。具体表现为:被偏好的模型会积累深层的请求队列,而具备同等能力的替代模型却处于空闲状态。

在多智能体流水线中,单个查询会触发多次顺序模型调用。如果基础设施层出现延迟,这种延迟会在每一个下游步骤中叠加放大,导致整体响应时间急剧增加。解决这一问题的难点在于:相关的基础设施信号(如队列深度、KV-cache 压力、延迟)是动态且嘈杂的,且必须同时驱动三种不同的决策:规划(Planning)、每步路由(Per-step routing)和调度(Scheduling)。

核心内容

为填补这一空白,研究人员提出了 INFRAMIND,这是一个使整个多智能体栈具备基础设施感知能力的框架。该框架通过分层强化学习(Hierarchical Constrained MDP)进行端到端求解,旨在自动平衡服务质量与延迟。

INFRAMIND 的核心机制由以下三个主要组件构成:

1. 基础设施感知的规划器(Infra-aware Planner)

该组件根据实时系统负载和剩余预算来调节拓扑结构和角色选择。

  • 低负载时:倾向于选择更丰富、更复杂的图结构,以追求更高的准确性。
  • 高负载/拥塞时:倾向于选择更简单的图结构,以避免资源竞争和延迟累积。

2. 基础设施感知的执行器(Infra-aware Executor)

在每个智能体步骤中,该执行器实时观察每个模型的队列深度、缓存利用率(Cache utilization)和响应延迟。

  • 决策内容:决定调用哪个模型,以及推理的深度(How deeply to reason)。
  • 目标:根据实时性能指标动态调整推理策略,避免在拥堵的模型上浪费时间。

3. 预算感知的调度器(Budget-aware Scheduler)

该调度器进一步对每个模型的请求队列进行重排序。

  • 策略:优先服务紧急请求(Urgent requests)。
  • 目标:在有限的计算预算和时间内,最大化满足服务等级目标(SLO)的概率。

整个系统被建模为分层约束马尔可夫决策过程(Hierarchical Constrained MDP),并通过强化学习进行端到端训练。这使得系统能够学习如何在不同的基础设施状态下,自动权衡准确性与延迟。

关键要点

  • 解决资源错配问题:INFRAMIND 解决了现有方法因忽视基础设施状态而导致的“偏好模型拥堵、替代模型闲置”的资源浪费问题。
  • 动态决策三角:系统同时处理三个层面的动态决策:
    1. 规划层:根据负载调整智能体拓扑复杂度。
    2. 路由层:根据实时队列和缓存状态选择具体模型。
    3. 调度层:根据紧急程度重排请求队列。
  • 延迟累积效应:特别针对多智能体流水线中“单次查询触发多次顺序调用”导致的延迟叠加问题进行了优化。
  • 技术实现路径:采用分层约束 MDP 建模,利用强化学习(RL)自动学习质量与延迟之间的平衡策略,无需人工硬编码规则。
  • 性能表现优异
    • 低负载场景:相比先前基线,准确率最高提升 +7.6 个百分点(pp),同时延迟降低高达 7 倍
    • 高负载场景:在几乎所有基线系统 SLO 合规率降至 50% 以下的情况下,INFRAMIND 仍能维持高达 99.9% 的 SLO 合规率。

意义与影响

INFRAMIND 的提出标志着多智能体系统从“逻辑编排”向“物理资源感知编排”的重要转变。

  1. 提升集群效率:在共享 GPU 集群环境中,通过感知基础设施状态,能够显著减少资源闲置和队列积压,提高硬件投资回报率(ROI)。
  2. 保障服务稳定性:在高并发场景下,通过动态调整拓扑和调度策略,系统能够保持极高的服务等级目标(SLO)合规率,这对于生产环境中的关键应用至关重要。
  3. 优化用户体验:通过降低延迟并维持高准确率,特别是在高负载下避免性能断崖式下跌,直接提升了终端用户的交互体验。
  4. 方法论创新:将基础设施信号(动态、嘈杂)整合进强化学习的决策闭环中,为后续研究如何将底层系统指标与上层 AI 逻辑紧密结合提供了新的范式。

总之,INFRAMIND 不仅是一个优化算法,更是一种架构理念,即未来的多智能体系统必须“看见”并“理解”其运行的物理基础设施,才能实现真正的智能与高效。

查看原文 →arxiv.org