技术博客arXiv cs.AI·8 天前

UnityMAS-O：面向基于大语言模型的多智能体系统的通用强化学习优化框架

原标题：UnityMAS-O: A General RL Optimization Framework for LLM-Based Multi-Agent Systems

速览

UnityMAS-O是一个面向基于大语言模型的多智能体系统的通用强化学习优化框架。该框架将完整工作流作为优化单元，解耦逻辑智能体与物理模型参数，支持灵活的参数共享与结构化奖励分配。实验表明，该框架能显著提升检索增强问答和代码生成等任务的性能，为多智能体系统提供了可复用的强化学习训练基础。

基于大语言模型（LLM）的多智能体系统（Multi-Agent Systems, MAS）通过将复杂任务分解为多个相互交互的角色，展现出解决复杂问题的潜力。然而，当前的主流实践仍存在显著局限：

人工编排主导：大多数多智能体工作流仍依赖于人工编写的提示词（Prompts）、工具调用逻辑和控制规则进行编排，缺乏自动化的优化机制。
缺乏统一的强化学习接口：智能体很少通过统一的强化学习（RL）接口进行优化。
现有框架的抽象不足：现有的 RL 后训练框架主要聚焦于单策略（Single-policy）优化，缺乏对用户自定义多智能体工作流、结构化交互、角色特定的信用分配（Credit Assignment）以及可配置参数共享机制的有效抽象。

这种现状导致多智能体系统难以像单模型那样高效地通过数据驱动的方式进行迭代优化，限制了其在复杂动态环境中的性能上限。

为了解决上述问题，研究团队提出了 UnityMAS-O，这是一个专为基于 LLM 的多智能体系统设计通用的 RL 优化框架。UnityMAS-O 的核心理念是将整个工作流（Workflow）视为优化的基本单位，而非传统的单个响应或策略轨迹。

UnityMAS-O 通过以下四个核心抽象来表征多智能体工作流，实现了逻辑与物理的解耦：

逻辑智能体角色（Logical Agent Roles）：定义智能体在系统中的功能角色，而非具体的模型实例。
图轨迹（Graph Trajectories）：以图结构记录多智能体之间的交互过程，捕捉复杂的依赖关系。
用户定义奖励（User-Defined Rewards）：允许用户灵活定义奖励函数，支持在角色（Role）、回合（Turn）和轨迹（Trajectory）三个层级进行信用分配。
智能体-模型映射（Agent-Model Mappings）：将逻辑角色映射到具体的物理模型参数。这种映射支持三种模式：
- 完全共享：多个角色共享同一模型参数。
- 完全分离：每个角色拥有独立的模型参数。
- 部分共享：混合模式，灵活配置参数共享策略。

这种设计使得逻辑智能体与物理模型参数解耦，极大地提高了框架的灵活性和可复用性。

UnityMAS-O 在开源框架 verl 的基础上进行了扩展，构建了一个基于 Ray 的星型拓扑（Star-Topology）运行时环境：

中央控制器（Central Controller）：负责执行工作流、调用工具、记录结构化轨迹以及组装奖励信号。它充当系统的“大脑”，协调全局状态。
模型局部工作器组（Model-Local Worker Groups）：分布在各个节点上，负责处理 rollout（ rollout 生成）、缓冲区管理、优势函数（Advantage）计算以及分布式的 PPO 风格更新。

这种架构设计使得用户可以在不重写底层优化基础设施的情况下，自由定义智能体、工作流、模型映射和奖励函数。

研究团队在以下三个典型场景中实例化了 UnityMAS-O：

实验结果显示，在 Natural Questions、HotpotQA 以及保留的代码任务中，经过多智能体 RL 优化后的系统，其性能显著优于人工指定的工作流。特别是在较小规模的模型上，以及严格的“代码全通过”（All-Passed）指标上，提升尤为显著。

优化粒度升级：UnityMAS-O 将优化单元从“单条轨迹/响应”升级为“完整工作流”，更适合处理多步骤、多角色协作的复杂任务。
逻辑与物理解耦：通过“智能体-模型映射”机制，实现了逻辑角色与物理模型参数的分离，支持灵活的参数共享策略（全共享、全分离、部分共享）。
细粒度信用分配：支持在角色、回合和轨迹三个层级定义奖励，解决了多智能体系统中责任归属难的问题。
基础设施复用：基于 verl 和 Ray 构建，用户无需修改底层优化代码即可接入新的多智能体工作流，降低了使用门槛。
显著的性能增益：实验证明，该方法能有效提升多智能体系统的性能，尤其对参数量较小的模型和需要高准确率的代码生成任务效果明显。
通用性：作为一个可复用的底层支撑（Substrate），UnityMAS-O 能够将多样化的 LLM 多智能体工作流转化为可训练的多智能体 RL 系统。

UnityMAS-O 的提出标志着基于 LLM 的多智能体系统从“人工规则驱动”向“数据驱动优化”迈出了关键一步。

填补领域空白：它解决了现有 RL 框架在多智能体抽象层面的缺失，为多智能体系统的自动化优化提供了标准化的基础设施。
降低开发成本：通过解耦逻辑与物理实现，开发者可以专注于工作流设计和奖励函数定义，而无需关心底层的分布式训练细节，极大地提高了开发效率。
提升小模型能力：实验表明，RL 优化能显著提升小模型在多智能体协作中的表现，这为降低大模型部署成本、利用小模型集群解决复杂问题提供了新的技术路径。
推动通用智能体架构发展：UnityMAS-O 作为一个通用的优化框架，为未来构建更复杂、更自主的多智能体生态系统奠定了技术基础，有助于推动 AI 智能体从简单的任务执行者向具备自我优化能力的智能系统演进。