← 返回信息流
技术博客arXiv cs.AI·3 天前

MAVEN框架提升智能体工具调用泛化能力

原标题:MAVEN: Improving Generalization in Agentic Tool Calling

速览

MAVEN(模块化智能体验证与执行网络)是一种轻量级符号推理框架,旨在解决智能体在工具调用环境中的泛化难题。该框架通过结构化分解、自适应工具编排和中间验证,显著提升了多步推理能力。在MAVEN-Bench基准测试中,其准确率从48%提升至71%,且成本仅为前沿专有模型的十分之一。

AI 深度解读

MAVEN:提升智能体工具调用的泛化能力深度解读

背景

在构建可靠的智能体(Agentic)推理系统时,跨环境的泛化能力始终是一个核心挑战。尽管大型语言模型(LLMs)在单一的基准测试中表现优异,但它们在跨领域场景中组合推理策略、保持中间状态以及协调工具使用方面的能力仍未得到充分探索。

目前的现状是,许多模型在孤立任务上表现良好,但在面对需要多步骤推理、复杂工具链组合以及严格验证的真实世界任务时,往往会出现性能断崖。特别是在数学和物理推理等需要高精度和逻辑一致性的领域,现有的评估体系往往难以区分“部分推理质量”与“端到端任务成功率”之间的巨大差距。因此,业界急需一种轻量级、结构化的推理框架,以增强智能体在复杂工具调用环境中的鲁棒性和泛化能力。

核心内容

本文介绍了 MAVEN(Modular Agentic Verification and Execution Network,模块化智能体验证与执行网络)。这是一个轻量级的符号推理脚手架(scaffold),旨在通过结构化分解、自适应工具编排和中间验证来提升智能体的性能。

1. MAVEN 的设计原理

MAVEN 并非一个独立的大模型,而是一个附加在基础模型之上的推理框架。其核心机制包括:

  • 结构化分解:将复杂任务拆解为可管理的子步骤。
  • 自适应工具编排:根据子任务的需求动态选择和组合工具。
  • 中间验证:在推理过程中引入显式的验证环节,确保每一步的逻辑正确性,从而减少错误累积。

2. MAVEN-Bench:新的压力测试基准

为了更准确地评估智能体在复杂推理中的表现,作者引入了 MAVEN-Bench。这是一个专门针对多步数学和物理推理的压力测试基准,具有以下特点:

  • 显式验证:要求模型在推理过程中进行自我验证。
  • 对抗性任务组合:通过组合具有挑战性的任务,测试模型在极端情况下的稳定性。
  • 揭示差距:该基准暴露了当前模型在“部分推理质量”与“最终任务成功”之间的显著鸿沟。

3. 实验结果与性能表现

作者在多个现有的工具调用基准上评估了 MAVEN,包括 BFCL v3TauBenchTau2BenchAceBench。关键发现如下:

  • 无需额外训练的性能提升:在 MAVEN-Bench 的直接运行中,基于 GPT-OSS-120b 基础模型的准确率从 48% 提升至 71%。这一提升完全通过 MAVEN 框架实现,无需对基础模型进行微调或额外训练。
  • 竞争力与成本优势:MAVEN 在使用开源权重骨干模型(Open-weight backbone)的情况下,其性能与前沿的专有模型(Proprietary baselines)相竞争。
  • 成本效益:由于使用的是开源模型且框架轻量,MAVEN 的估计成本比例仅为前沿专有模型的约 1/10

关键要点

  • 泛化挑战:现有 LLM 在跨领域工具调用和复杂推理中的泛化能力不足,特别是在保持中间状态和组合策略方面。
  • MAVEN 架构:作为一种轻量级符号推理脚手架,MAVEN 通过结构化分解、自适应工具编排和中间验证来增强推理能力。
  • MAVEN-Bench 基准:新提出的基准测试专注于多步数学和物理推理,揭示了部分推理质量与端到端成功率之间的巨大差距。
  • 显著性能提升:在不进行额外训练的情况下,MAVEN 使 GPT-OSS-120b 在 MAVEN-Bench 上的准确率从 48% 提升至 71%。
  • 高性价比:MAVEN 使用开源骨干模型,成本仅为前沿专有模型的约 1/10,同时保持了具有竞争力的性能。
  • 方法论启示:轻量级的、以验证为中心的脚手架可以有效增强组合推理能力,并促使业界采用更关注过程的智能体评估方法。

意义与影响

MAVEN 的研究成果对智能体系统和 AI 评估领域具有深远的影响:

  1. 验证中心范式的崛起:MAVEN 证明了轻量级的、以验证为中心的推理脚手架可以显著增强模型的组合推理能力。这表明,提升智能体性能不一定依赖于更大规模的模型训练,结构化的推理过程优化同样关键。
  2. 重新定义评估标准:通过 MAVEN-Bench,研究揭示了现有评估体系在衡量复杂推理任务时的局限性。这推动了业界从单纯关注最终答案正确性,转向更加关注推理过程的透明性、可验证性和鲁棒性。
  3. 降低智能体部署门槛:MAVEN 展示了开源模型结合高效推理框架即可达到接近专有模型的性能,且成本大幅降低。这为开发高性价比、高可靠性的智能体应用提供了可行的技术路径,有助于推动智能体技术在更广泛场景中的落地。
  4. 促进过程感知评估:MAVEN 的成功激励了更多关于“过程感知”(process-aware)智能体评估的研究,鼓励开发者在设计和评估智能体时,更加重视中间状态的保持和逻辑验证机制。
查看原文 →arxiv.org