技术博客arXiv cs.CL·7 小时前

Argent信令协议：缓解多智能体系统语义漂移

原标题：Trustworthy Multi-Agent Systems: Mitigating Semantic Drift with the Argent Signaling Protocol

速览

研究人员提出Argent信令协议（ASP），这是一种紧凑的机器可读标头，为AI生成的响应附带结构化质量信号，包括确定性、依据性、随机性和假设索引。该协议使控制器能够区分可修复的失败与需管控的失败，从而采取不同的路由策略。实验表明，ASP在本地模型上显著提升了问答准确率，并在多智能体模式下实现了100%的未依据输出拦截。

AI 深度解读

可信多智能体系统：利用 Argent 信令协议缓解语义漂移

背景

在基于大语言模型（LLM）的多智能体系统中，生成错误答案的情况并非千篇一律。当前的重试策略往往采取“一刀切”的方式：无论错误类型如何，系统都会简单地重新生成答案，寄希望于下一次尝试能给出正确结果。然而，这种策略掩盖了失败的本质差异：

可修复的失败（Repairable Failures）：模型基于正确的材料进行了回答，但回答不完整或存在细微偏差。这类问题可以通过重试或补充信息来解决。
需管控的失败（Containment Failures）：模型的回答完全缺乏依据（ungrounded），即产生了幻觉或捏造事实。对于这类问题，继续重试不仅无效，反而可能加剧错误传播。

现有的机制无法让人类监督者或系统控制器区分这两种情况，导致无法决定是应该“重试”还是“停止/拦截”。这种模糊性使得多智能体系统在关键任务场景下的可信度大打折扣。

核心内容

为了解决上述问题，研究人员提出了一种名为 Argent 信令协议（Argent Signaling Protocol, ASP） 的新方法。ASP 是一种紧凑的、机器可读的头部信息（header），伴随每一个 AI 生成的响应一起输出。它通过结构化的质量信号，让控制器能够精确判断响应的质量，从而采取不同的路由策略。

1. ASP 的核心信号机制

ASP 在每个响应中嵌入以下关键信号：

确定性信号 (@C)：反映模型对当前回答内容的置信程度。
依据信号 (@G)：标识回答是否基于给定的上下文或证据材料。
随机性信号 (@S)：反映生成过程中的随机性水平，帮助判断结果的稳定性。
假设索引（Assumption Index）：对每个声明的证据基础进行分类，明确区分哪些是事实陈述，哪些是假设或推测。

这些信号共同构成了一个多维度的质量评估矩阵，使控制器能够区分“可修复”与“需管控”的失败。

2. 评估实验与结果

研究团队在两种模式下对 ASP 进行了评估：

模式一：独立模式（Standalone Mode）

在此模式下，研究人员使用了一个包含 27 个问题的文档 grounded QA（基于文档的问答）基准测试，测试材料为 Array BioPharma/Ono 许可协议。实验对比了基线提示词与 ASP 仪器化控制器动作在三个本地 GGUF 模型上的表现：

Qwen (0.8B)：ASP 显著提升了性能。通过率从 11.1% 提升至 33.3%，平均术语覆盖率从 36.7% 提升至 65.4%。
Dobby (8B)：ASP 实现了 4 次从失败到成功的恢复，使通过率从 33.3% 提升至 44.4%。
SmolLM3 (3B)：ASP 能够根据具体问题在“修复”和“管控”之间交替选择策略。
总体改进：整体通过率从 81 题中的 12 题正确提升至 21 题正确，具有统计学意义上的显著改进。

模式二：多智能体模式（Multi-Agent Mode）

在此模式下，ASP 作为一个侧车（sidecar）组件，部署在检索智能体（Retrieval Agent）和下游决策智能体（Downstream Decision Agent）之间。

拦截效果：ASP 侧车成功拦截了上游产生的所有无依据输出。
数据表现：在 27 个测试用例中，100% 的无依据上游输出被阻止，未向下游智能体传播任何无依据信息（24/27 被拦截，0 次无依据传播）。

关键要点

区分失败类型：ASP 的核心价值在于区分“基于正确材料但不完整”的回答与“完全无依据”的回答，从而避免对幻觉问题进行无效重试。
结构化质量信号：通过 @C（确定性）、@G（依据）、@S（随机性）和假设索引，ASP 提供了机器可读的质量元数据。
小模型性能显著提升：在参数量较小的模型（如 Qwen 0.8B）上，ASP 带来的性能提升尤为明显，证明其在资源受限场景下的高价值。
多智能体架构中的“守门员”角色：作为侧车组件，ASP 能有效阻断错误信息的级联传播，确保下游决策智能体只接收经过验证的、有依据的信息。
无需重新训练：ASP 是一种协议层面的增强，通过修改控制器逻辑和响应格式实现，无需对基础模型进行重新训练。

意义与影响

Argent 信令协议（ASP）的提出，为构建可信的多智能体系统提供了一条切实可行的技术路径。其意义主要体现在以下几个方面：

提升系统透明度与可控性：通过引入机器可读的质量信号，ASP 使得黑盒式的 LLM 输出变得可解释、可监控。人类监督者或自动化控制器可以基于明确的信号做出理性决策，而非盲目重试。
优化计算资源效率：通过及时识别并拦截“需管控的失败”，系统可以避免在无法通过重试解决的问题上浪费计算资源，从而提高整体系统的运行效率。
增强关键任务场景的可靠性：在医疗、法律、金融等对准确性要求极高的领域，ASP 能够有效减少幻觉传播，确保决策基于坚实的事实依据，从而提升 AI 系统在高风险场景下的可信度。
推动多智能体协作标准化：ASP 作为一种标准化的信令协议，可能成为未来多智能体系统中组件间通信和质量评估的标准接口，促进不同智能体之间的无缝协作与信任建立。

总之，ASP 不仅是一种技术改进，更是一种思维范式的转变：从“盲目重试”转向“基于证据的精准干预”，为构建更可靠、更高效的 AI 系统奠定了基础。

查看原文 →arxiv.org