技术博客arXiv cs.AI·3 小时前

PACT协议：通过动作状态通信优化多智能体系统效率

原标题：What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems

速览

针对多智能体系统中自由文本通信导致Token膨胀和上下文窗口耗尽的问题，研究提出PACT协议。该协议将智能体间的通信视为公共状态更新，把原始输出投影为紧凑的动作状态记录。实验表明，PACT在不同拓扑结构中均能显著减少Token使用量，同时保持或提升任务性能，并在OpenHands等生产级代码工具中验证了其有效性。

AI 深度解读

What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems

背景

随着基于大型语言模型（LLM）的多智能体系统（Multi-Agent Systems, MAS）在复杂任务处理中的广泛应用，其内部通信机制的重要性日益凸显。目前，大多数 MAS 架构主要围绕角色分配、流水线作业和回合调度来组织，但智能体之间传递的内容往往被简化为不受约束的自然语言。

这种自由形式的通信方式存在显著的缺陷：

Token 消耗激增：冗长的自然语言描述会迅速增加系统的 Token 使用量。
上下文窗口拥堵：大量的通信内容会快速填满共享的上下文窗口（Context Window），导致关键信息被挤出或需要更昂贵的长上下文模型。
性能与成本失衡：通信效率低下直接影响了系统的整体推理成本和最终的任务表现。

尽管现有的研究关注了 MAS 的结构优化，但对于“智能体之间究竟应该说什么”这一核心通信内容问题，缺乏系统性的分析和标准化的解决方案。

核心内容

本文深入分析了在多智能体系统中，不同通信策略对性能与成本的影响，并提出了一个新的通信协议。

1. 现有通信策略的分析

研究人员在两种典型的 MAS 拓扑结构中，对五种常见的智能体间通信策略进行了实证分析。研究发现：

不存在一种在所有场景下都最优的固定通信策略。
然而，高效的智能体间消息有一个共同特征：始终保留下游智能体所需的关键“以行动为中心”的信息（Action-centered information）。
相反，包含大量无关背景、情感色彩或冗余解释的自然语言通信，不仅浪费资源，还可能引入噪声，干扰下游智能体的判断。

2. 提出 PACT 协议

基于上述发现，作者提出了 PACT (Protocolized Action-state Communication and Transmission) 协议。PACT 的核心理念是将智能体间的通信重新定义为公共状态更新问题（Public State-Update Problem）。

具体机制如下：

投影压缩：在智能体的原始输出进入共享历史记录之前，将其投影为一个紧凑的“行动-状态记录”（Action-state Record）。
结构化通信：这种记录摒弃了自由形式的自然语言，转而采用结构化的方式，明确记录智能体执行了什么动作（Action）以及该动作导致的环境或任务状态发生了何种变化（State）。
公共状态视图：所有智能体通过读取这个公共的状态更新来了解系统进展，而非通过阅读彼此冗长的对话日志。

3. 实验验证

PACT 协议在不同类型的 MAS 拓扑结构中均进行了测试，结果显示：

性能-成本权衡优化：PACT consistently 提升了系统的性能与成本之间的平衡。
Token 效率显著：在实现相当甚至更强任务性能的同时，大幅减少了所需的 Token 数量。

4. 生产环境中的应用效果

研究进一步将 PACT 应用于实际的生产级代码生成智能体框架中，取得了显著成效：

OpenHands：在减少 10% 的“每解决任务 Token 数”（tokens-per-resolved）的情况下，提升了代码解决的比率（Resolve Rate）。
SWE-agent：在保持解决率不变（Resolve-Neutral）的前提下，将输入 Token 量减半。

这些结果表明，PACT 不仅适用于理论模型，也能在真实的工业级应用中带来实质性的效率提升。

关键要点

自由形式通信的弊端：在多智能体系统中，使用无约束的自然语言进行通信会导致 Token 浪费、上下文窗口快速耗尽，进而降低系统性能和增加推理成本。
高效通信的本质：有效的智能体间消息必须保留下游智能体执行任务所需的“以行动为中心”的信息，而非冗余的自然语言描述。
PACT 协议的核心机制：PACT 将通信视为公共状态更新，通过协议将原始输出投影为紧凑的“行动-状态记录”，从而替代传统的自然语言对话。
通用性与适应性：PACT 在不同 MAS 拓扑结构中均表现优异，证明了其作为通用通信标准的潜力。
显著的成本效益：在实际应用（如 OpenHands 和 SWE-agent）中，PACT 能够在保持或提升任务解决率的同时，显著降低 Token 消耗（最高减少 50% 输入 Token）。
开源贡献：相关代码已公开，便于社区复现和进一步开发。

意义与影响

本文的研究对多智能体系统的设计和优化具有重要的理论和实践意义：

重新定义智能体通信范式：文章挑战了当前 MAS 中普遍依赖自然语言对话的默认设置，提出了结构化、状态驱动的通信新范式。这为未来构建更高效、更可扩展的多智能体架构提供了新的理论基础。
降低 LLM 应用成本：通过大幅减少通信过程中的 Token 浪费，PACT 协议直接降低了基于 LLM 的应用程序的运行成本。这对于需要处理大量交互或长流程任务的工业级应用（如自动化代码生成、复杂决策支持系统）至关重要。
提升系统稳定性与可预测性：结构化的状态更新比自由形式的自然语言更易于解析和验证，有助于减少因语义歧义导致的错误传播，从而提升多智能体系统的整体稳定性和可靠性。
推动标准化进程：PACT 协议的提出为多智能体间的通信接口标准化迈出了重要一步。随着 MAS 应用的普及，统一的通信协议将有助于不同智能体模块之间的互操作性和集成效率。

总之，这篇文章不仅解决了一个具体的工程痛点（通信效率），更为构建下一代高效、低成本的多智能体系统提供了关键的技术路径。

查看原文 →arxiv.org