技术博客arXiv cs.AI·3 小时前

ClawArena-Team: Benchmarking Subagent Orchestration and Dynamic Workflows in Language-Model Agents

AI 深度解读

背景

随着大型语言模型（LLM）在生产环境中的部署日益复杂，其角色正从单一的“问题解决者”向“团队管理者”演变。一个主模型创建专门的子代理，分配任务，并通过动态工作流协调它们的并行、异步返回。然而，现有基准测试主要评估模型自身的任务解决能力或固定多智能体系统的涌现行为，却未能隔离并衡量单个LLM作为“领导者”的管理与协调能力。这一评估空白，使得我们无法系统性地理解不同模型在复杂工作流编排上的真实水平。

核心内容

为填补这一空白，论文提出了 ClawArena-Team 基准。该基准旨在专门衡量LLM作为管理者，协调固定子代理池完成复杂任务的能力。其核心设计如下：

基准构成：包含41个多轮、多模态、多目录的复杂场景，总计进行258轮评估，并包含72个阶段性更新，以测试代理在动态环境中的适应能力。
主代理约束：被评估的“主代理”被刻意限制：
- 感知受限：原生只能感知文本信息。
- 访问受限：只能直接访问工作空间的一部分。
- 指挥固定团队：它指挥一个固定的、本地服务的子代理池。这种设计确保了评估分数的差异主要反映模型的管理技能（如任务分解、权限分配、工作流调度），而非其自身的原始问题解决能力。
评估方法：采用完全基于执行的评分，不使用LLM作为评判者。总体得分称为子代理管理分数，其计算方式为：任务正确性 乘以一个 最小权限与模态路由因子。后者衡量主代理是否以安全（遵循最小权限原则）且高效（正确路由不同模态任务）的方式委派工作。
关键实验发现：在涵盖专有模型、社区托管模型和自托管模型在内的12个模型上进行的实验揭示了几个重要现象：
- 管理瓶颈在于权限授予，而非感知：没有模型在“工作空间权限精度”上超过50%，表明准确授予子代理所需的最小权限是主要挑战。
- 成本与管理质量脱节：API成本差异超过100倍，而总体管理分数差异不到4倍。一些成本最低的开放模型位于帕累托前沿，表明高昂费用并不自动带来优秀的管理能力。
- 排行榜分数聚集，但编排行为分化严重：大多数模型在总体分数上聚集在9.9分的狭窄区间内，但它们的底层编排行为（如权限分配模式、任务路由策略）差异却超过一个数量级。这说明单一分数无法揭示管理风格的巨大差异。

关键要点

评估目标创新：ClawArena-Team 是首个专注于衡量单个LLM作为“管理者”协调固定子代理团队能力的基准，隔离了管理能力与模型自身能力。
严格受控设计：通过限制主代理的感知和访问权限，并固定子代理池，确保评估结果纯粹反映管理策略的优劣。
执行式评分：SMS分数结合任务完成度、安全性和路由效率，提供多维度的管理质量评估，避免使用LLM评判带来的偏差。
揭示关键瓶颈：实验发现，精准授予权限是当前LLM管理团队的主要短板，而非理解多模态信息。
挑战成本与性能正相关假设：证明低成本开放模型在管理任务上可以媲美甚至超越高成本模型，性价比并非线性关系。
暴露评估盲区：传统聚合分数掩盖了模型间编排行为的巨大差异，呼吁未来评估需要更细粒度的行为分析。

意义与影响

ClawArena-Team 的提出对LLM代理领域具有重要的理论与实践意义：

确立评估新维度：将“多代理协调与管理”作为模型的一个独立、可衡量的核心能力，推动了评估范式从“模型能做什么”向“模型能领导团队做什么”演进。
指导模型开发与选型：研究结论（如权限授予是关键瓶颈、成本与管理质量脱节）为开发者优化模型的管理能力指明了具体方向，也为用户根据实际管理需求（而非单纯的任务性能）选择模型提供了依据。
促进安全协作：通过强调“最小权限原则”在评分中的重要性，该基准鼓励开发更安全的多代理系统，防止子代理获得不必要的权限，降低安全风险。
揭示研究前沿：实验发现现有模型在复杂工作流编排上仍有巨大提升空间，且行为模式差异显著，这为后续研究（如改进模型的规划、监督和动态调整能力）设立了清晰的靶点。
推动基准设计方法论：其“受控约束”的设计思路——通过限制领导者能力来凸显管理技能——为评估其他高阶认知能力（如教学、协作）提供了有价值的参考。

总之，ClawArena-Team 不仅是一个新的测试集，更是对LLM代理能力评估框架的重要扩展，它迫使研究社区正视并深入探究在构建复杂、自主的AI系统时，协调与管理这一至关重要且极具挑战性的层面。

查看原文 →arxiv.org

ClawArena-Team: Benchmarking Subagent Orchestration and Dynamic Workflows in Language-Model Agents

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐