技术博客arXiv cs.CL·3 小时前

超越Token：大模型多智能体系统的统一潜在通信框架

原标题：Beyond tokens: a unified framework for latent communication in LLM-based multi-agent systems

速览

基于大语言模型的多智能体系统通常依赖自然语言通信，但存在推理成本高和信息冗余等问题。本文提出统一框架，从通信内容、对齐方式和融合机制三个维度，系统梳理了2024至2026年间十八种潜在通信方法。该框架旨在降低研究门槛，并为未来工作提供比较词汇。

基于大语言模型（LLMs）的多智能体系统（Multi-agent systems）已成为解决复杂推理、规划及工具使用任务的主流范式。在这些系统中，智能体之间需要交换信息以协同工作，而目前占主导地位的通信协议是自然语言。

在这种传统模式下，智能体通过“逐 token”的方式交换消息，将其内部推理过程“口语化”（verbalising），以便其他智能体能够阅读、验证并做出响应。尽管这种基于文本的协议具有便捷性和可解释性，但它存在三个结构性的缺陷：

鉴于此，越来越多的研究工作开始探索一种替代协议——潜在通信（Latent Communication）。在这种模式下，智能体直接交换连续表示（如嵌入向量 embeddings、隐藏状态 hidden states 或 KV 缓存 KV-caches），从而绕过文本生成的瓶颈。

本文提出了一种统一框架，用于整理和分类近年来迅速扩展的关于“潜在通信”的文献。作者从三个正交维度（orthogonal axes）对现有方法进行了深入分析，并据此对 2024 年至 2026 年间提出的 18 种代表性方法进行了系统分类。

该框架通过以下三个核心问题来解构现有的潜在通信方法：

WHAT：通信什么信息？ 即智能体之间交换的具体连续状态是什么。主要包括：
- Embeddings（嵌入向量）：输入或输出的向量表示。
- Hidden States（隐藏状态）：模型中间层的激活值。
- KV-Caches（KV 缓存）：注意力机制中的键值对缓存，包含上下文信息。
- 其他连续状态：模型内部的其他连续变量。
WHICH：使用哪种发送者-接收者对齐方式？ 即如何确保发送方的表示能被接收方正确理解。主要策略包括：
- Latent-space alignment（潜在空间对齐）：通过映射或投影，使不同智能体的潜在空间保持一致。
- Layer alignment（层对齐）：确保通信发生在模型的特定层级，以便接收方能在对应的处理阶段利用这些信息。
HOW：如何将信息融合到接收方？ 即接收方智能体如何整合收到的潜在信息。主要融合机制包括：
- Concatenation（拼接）：将接收到的向量与输入序列拼接。
- Prepending（前置）：将信息作为前缀添加到输入中。
- Mathematical operations（数学运算）：如加法、乘法等元素级操作。
- Cross-attention（交叉注意力）：让接收方的注意力机制直接关注发送方的潜在状态。
- Cache restoration（缓存恢复）：直接利用发送方的 KV 缓存来加速或增强接收方的推理。

基于上述三维框架，文章系统梳理了 18 种代表性方法，并识别出五种主要的设计模式（design patterns）。这些模式展示了不同研究如何在“通信内容”、“对齐策略”和“融合机制”之间进行组合，以优化多智能体协作的效率和质量。

文章还指出了当前领域面临的一系列开放性问题，包括：

跨架构对齐（Cross-architecture alignment）：不同架构或规模的 LLM 之间如何实现有效的潜在通信。
潜在通道安全性（Security of latent channels）：防止潜在通信被恶意利用或泄露敏感信息。
边缘部署的压缩（Compression for edge deployment）：如何在资源受限的设备上高效传输潜在表示。
潜在通信与潜在思维链的关系（Relationship between latent communication and latent chain-of-thought）：探讨潜在通信是否以及如何促进更复杂的链式推理过程。

范式转变：多智能体系统正从基于自然语言的通信向基于连续表示的“潜在通信”转变，以克服文本生成的成本和信息损失问题。
统一框架：提出了一个基于三个维度（WHAT, WHICH, HOW）的分析框架，为理解现有研究提供了标准化的词汇和分类体系。
- WHAT：关注通信的数据形态（Embeddings, Hidden States, KV-Caches 等）。
- WHICH：关注发送者与接收者的对齐策略（潜在空间对齐、层对齐）。
- HOW：关注信息的融合机制（拼接、前置、数学运算、交叉注意力、缓存恢复）。
系统梳理：框架涵盖了 2024-2026 年间提出的 18 种代表性方法，并提炼出五种主要设计模式。
未来方向：明确了跨架构对齐、安全性、边缘计算压缩以及潜在思维链关联性等关键研究挑战。
目标受众：旨在降低新研究者的入门门槛，并为未来工作的比较提供一个共同的术语体系。

这篇论文的价值在于其系统性和前瞻性。

首先，它为迅速发展的“潜在通信”领域提供了一个清晰的分类学（Taxonomy）。在 LLM 多智能体系统快速发展的背景下，研究往往分散且缺乏统一视角。通过引入 WHAT、WHICH、HOW 三个正交维度，作者不仅帮助读者理解现有方法的区别，还为未来新方法的提出提供了设计空间。

其次，文章强调了效率与保真度的平衡。传统自然语言通信虽然可解释性强，但计算成本高且信息有损。潜在通信通过直接交换连续状态，有望显著提升多智能体系统的推理速度和协作精度，特别是在需要复杂规划和高频交互的场景中。

最后，文章指出的开放挑战（如安全性、跨架构兼容性）为后续研究指明了方向。随着多智能体系统从实验室走向实际部署，如何解决潜在通信在边缘设备上的压缩问题以及确保通信通道的安全，将是决定该技术能否大规模落地的关键因素。

对于研究人员而言，这篇论文不仅是一篇综述，更是一个设计指南，帮助他们在构建下一代高效、低延迟的多智能体系统时，做出更明智的技术选型。