技术博客arXiv cs.AI·2 小时前

ReM-MoA：推理记忆机制实现智能体混合架构的持续扩展

原标题：ReM-MoA: Reasoning Memory Sustains Mixture-of-Agents Scaling

速览

Mixture-of-Agents (MoA) 架构通过分层推理管道提升推理时扩展能力，但现有变体在深度增加时会出现性能退化或饱和。ReM-MoA 提出一种增强记忆的框架，利用排名推理记忆持久存储并排序各层推理轨迹，并通过策展多样化记忆路由保持探索多样性。实验显示，ReM-MoA 在数学、逻辑、代码等五个基准测试中持续优于现有 MoA 变体，且优势随深度增加而扩大。

AI 深度解读

ReM-MoA：推理记忆如何维持混合智能体的扩展性

背景

在大型语言模型（LLM）的推理过程中，Mixture-of-Agents (MoA) 架构通过构建分层推理管道，将多个 LLM 智能体组织在一起，从而显著提升了推理时的扩展效果（inference-time scaling）。这种架构的核心思想是利用多个智能体的协同工作来优化最终答案的质量。

然而，现有的 MoA 变体在实际应用中面临一个严峻的挑战：随着推理层数（depth）的增加，性能增益往往无法持续。具体表现为性能退化、早期出现平台期（early plateauing）或陷入饱和状态。这意味着，简单地增加智能体的数量或推理的深度，并不总能带来线性的性能提升，反而可能因为信息冗余或错误累积导致效果下降。这一瓶颈限制了 MoA 架构在复杂推理任务中的进一步扩展和应用。

核心内容

为了解决上述扩展性难题，研究人员提出了 ReM-MoA（Reasoning Memory Sustains Mixture-of-Agents Scaling），这是一种增强记忆机制的 MoA 框架。ReM-MoA 旨在通过引入结构化的跨层推理记忆，确保持续的性能扩展。其核心创新主要包含以下两个关键机制：

排序推理记忆（Ranked Reasoning Memory） 该机制通过一个比较性的审查者智能体（Reviewer Agent），持久地存储并排名来自所有层级的推理轨迹（reasoning traces）。不同于传统方法中信息的瞬时传递，ReM-MoA 建立了一个长期的记忆库，能够识别并保留高质量的推理路径，同时剔除低效或错误的尝试。
策展多样化记忆路由（Curated Diversified Memory Routing） 这是一种智能的信息分发策略。它确保不同的智能体接触到由成功和失败轨迹组成的独特组合。这种设计具有双重目的：一方面，通过暴露于多样化的历史经验，保留了探索的多样性（exploration diversity），防止智能体陷入局部最优；另一方面，它有效地传播了高质量的推理模式，使得后续层级的智能体能够基于更丰富的上下文进行优化。

此外，研究还引入了一种可选的多领域审查者蒸馏管道（multi-domain Reviewer distillation pipeline）。该管道利用前沿模型（frontier-model）的监督信号来改进排序质量，从而进一步提升记忆库中推理轨迹的可靠性。

在评估方面，ReM-MoA 在五个涵盖数学、形式逻辑、代码、知识和常识推理的基准测试中进行了验证。实验结果表明，ReM-MoA 在深度扩展（depth scaling）和宽度扩展（width scaling）方面均一致地优于先前的 MoA 变体。更重要的是，随着层数的增加，ReM-MoA 的优势进一步扩大，证明了结构化的跨层推理记忆是实现可扩展多智能体推理的关键缺失机制。

关键要点

解决扩展瓶颈：ReM-MoA 直接针对现有 MoA 架构在增加层数时性能退化或饱和的问题，通过引入记忆机制实现了性能的持续扩展。
双重核心机制：
- Ranked Reasoning Memory：利用 Reviewer Agent 对所有层级的推理轨迹进行持久存储和排名，筛选出高质量路径。
- Curated Diversified Memory Routing：智能路由策略，让不同智能体接触成功与失败轨迹的特定组合，平衡探索多样性与高质量推理的传播。
前沿模型监督：引入可选的多领域 Reviewer 蒸馏管道，利用前沿模型监督来提升排序质量，增强记忆的有效性。
全面基准验证：在数学、逻辑、代码、知识和常识推理五大类任务中，ReM-MoA 均表现优异。
深度优势显著：与其他 MoA 变体相比，ReM-MoA 的性能优势随着推理深度的增加而扩大，证实了结构化记忆在深层推理中的核心价值。

意义与影响

ReM-MoA 的提出标志着多智能体推理系统从简单的“堆叠层数”向“结构化记忆增强”的重要转变。其意义主要体现在以下几个方面：

突破 MoA 的性能天花板：以往的研究表明，增加 MoA 的深度并不总是有益的。ReM-MoA 证明了通过引入有序的、经过筛选的记忆机制，可以打破这一限制，使深层推理管道真正发挥其潜力。
提升推理效率与质量：通过区分成功和失败的推理轨迹，并有针对性地路由给不同的智能体，ReM-MoA 不仅提高了最终答案的准确性，还优化了计算资源的利用效率，避免了在低质量路径上的无效探索。
为复杂推理任务提供新范式：在数学证明、代码生成等需要多步逻辑推导的复杂任务中，ReM-MoA 展现出的优势表明，保留和利用历史推理经验是解决长链条推理问题的关键。这为未来设计更强大的自主智能体系统提供了新的架构思路。
推动多智能体协作理论的发展：ReM-MoA 强调了“记忆”在多智能体协作中的核心地位，而非仅仅关注智能体之间的即时交互。这一视角的转换可能启发更多关于如何构建具有长期记忆和自适应能力的多智能体系统的研究。

总之，ReM-MoA 不仅是一个性能更优的模型架构，更是对多智能体推理扩展性机制的一次深刻洞察，为构建下一代可扩展、高可靠性的 AI 推理系统奠定了重要基础。

查看原文 →arxiv.org