技术博客arXiv cs.AI·2 小时前

INFRAMIND：让多智能体编排感知基础设施状态

原标题：INFRAMIND: Infrastructure-Aware Multi-Agent Orchestration

速览

现有大模型多智能体编排方法往往忽视服务基础设施的运行状态，导致资源利用不均和延迟累积。INFRAMIND是一个使整个多智能体栈感知基础设施的框架，通过实时系统负载和预算动态调整拓扑结构、模型路由及调度顺序。该框架采用强化学习解决分层约束马尔可夫决策过程，在低负载下准确率提升最高7.6个百分点且延迟降低7倍，在高负载下维持99.9%的服务等级协议合规性。

AI 深度解读

INFRAMIND：基础设施感知的多智能体编排框架解读

背景

随着大型语言模型（LLM）在多智能体（Multi-Agent）系统中的广泛应用，如何高效地协调多个模型协同工作成为关键挑战。现有的多智能体 LLM 编排方法，从简单的暴力集成（Brute-force ensembles）到基于学习的路由器（Learned routers），主要依据任务特征和模型特征来选择模型及拓扑结构。

然而，这些现有方法存在一个显著的盲区：它们忽略了服务基础设施的运行状态。在共享 GPU 集群上，当面临并发负载时，这种“基础设施盲视”会导致系统性的资源利用率低下。具体表现为：被偏好的模型会积累深层的请求队列，而具备同等能力的替代模型却处于空闲状态。

在多智能体流水线中，单个查询会触发多次顺序模型调用。如果基础设施层出现延迟，这种延迟会在每一个下游步骤中叠加放大，导致整体响应时间急剧增加。解决这一问题的难点在于：相关的基础设施信号（如队列深度、KV-cache 压力、延迟）是动态且嘈杂的，且必须同时驱动三种不同的决策：规划（Planning）、每步路由（Per-step routing）和调度（Scheduling）。

核心内容

为填补这一空白，研究人员提出了 INFRAMIND，这是一个使整个多智能体栈具备基础设施感知能力的框架。该框架通过分层强化学习（Hierarchical Constrained MDP）进行端到端求解，旨在自动平衡服务质量与延迟。

INFRAMIND 的核心机制由以下三个主要组件构成：

1. 基础设施感知的规划器（Infra-aware Planner）

该组件根据实时系统负载和剩余预算来调节拓扑结构和角色选择。

低负载时：倾向于选择更丰富、更复杂的图结构，以追求更高的准确性。
高负载/拥塞时：倾向于选择更简单的图结构，以避免资源竞争和延迟累积。

2. 基础设施感知的执行器（Infra-aware Executor）

在每个智能体步骤中，该执行器实时观察每个模型的队列深度、缓存利用率（Cache utilization）和响应延迟。

决策内容：决定调用哪个模型，以及推理的深度（How deeply to reason）。
目标：根据实时性能指标动态调整推理策略，避免在拥堵的模型上浪费时间。

3. 预算感知的调度器（Budget-aware Scheduler）

该调度器进一步对每个模型的请求队列进行重排序。

策略：优先服务紧急请求（Urgent requests）。
目标：在有限的计算预算和时间内，最大化满足服务等级目标（SLO）的概率。

整个系统被建模为分层约束马尔可夫决策过程（Hierarchical Constrained MDP），并通过强化学习进行端到端训练。这使得系统能够学习如何在不同的基础设施状态下，自动权衡准确性与延迟。

关键要点

解决资源错配问题：INFRAMIND 解决了现有方法因忽视基础设施状态而导致的“偏好模型拥堵、替代模型闲置”的资源浪费问题。
动态决策三角：系统同时处理三个层面的动态决策：
1. 规划层：根据负载调整智能体拓扑复杂度。
2. 路由层：根据实时队列和缓存状态选择具体模型。
3. 调度层：根据紧急程度重排请求队列。
延迟累积效应：特别针对多智能体流水线中“单次查询触发多次顺序调用”导致的延迟叠加问题进行了优化。
技术实现路径：采用分层约束 MDP 建模，利用强化学习（RL）自动学习质量与延迟之间的平衡策略，无需人工硬编码规则。
性能表现优异：
- 低负载场景：相比先前基线，准确率最高提升 +7.6 个百分点（pp），同时延迟降低高达 7 倍。
- 高负载场景：在几乎所有基线系统 SLO 合规率降至 50% 以下的情况下，INFRAMIND 仍能维持高达 99.9% 的 SLO 合规率。

意义与影响

INFRAMIND 的提出标志着多智能体系统从“逻辑编排”向“物理资源感知编排”的重要转变。

提升集群效率：在共享 GPU 集群环境中，通过感知基础设施状态，能够显著减少资源闲置和队列积压，提高硬件投资回报率（ROI）。
保障服务稳定性：在高并发场景下，通过动态调整拓扑和调度策略，系统能够保持极高的服务等级目标（SLO）合规率，这对于生产环境中的关键应用至关重要。
优化用户体验：通过降低延迟并维持高准确率，特别是在高负载下避免性能断崖式下跌，直接提升了终端用户的交互体验。
方法论创新：将基础设施信号（动态、嘈杂）整合进强化学习的决策闭环中，为后续研究如何将底层系统指标与上层 AI 逻辑紧密结合提供了新的范式。

总之，INFRAMIND 不仅是一个优化算法，更是一种架构理念，即未来的多智能体系统必须“看见”并“理解”其运行的物理基础设施，才能实现真正的智能与高效。

查看原文 →arxiv.org