技术博客arXiv cs.AI·3 天前

MAVEN框架提升智能体工具调用泛化能力

原标题：MAVEN: Improving Generalization in Agentic Tool Calling

速览

MAVEN（模块化智能体验证与执行网络）是一种轻量级符号推理框架，旨在解决智能体在工具调用环境中的泛化难题。该框架通过结构化分解、自适应工具编排和中间验证，显著提升了多步推理能力。在MAVEN-Bench基准测试中，其准确率从48%提升至71%，且成本仅为前沿专有模型的十分之一。

AI 深度解读

MAVEN：提升智能体工具调用的泛化能力深度解读

背景

在构建可靠的智能体（Agentic）推理系统时，跨环境的泛化能力始终是一个核心挑战。尽管大型语言模型（LLMs）在单一的基准测试中表现优异，但它们在跨领域场景中组合推理策略、保持中间状态以及协调工具使用方面的能力仍未得到充分探索。

目前的现状是，许多模型在孤立任务上表现良好，但在面对需要多步骤推理、复杂工具链组合以及严格验证的真实世界任务时，往往会出现性能断崖。特别是在数学和物理推理等需要高精度和逻辑一致性的领域，现有的评估体系往往难以区分“部分推理质量”与“端到端任务成功率”之间的巨大差距。因此，业界急需一种轻量级、结构化的推理框架，以增强智能体在复杂工具调用环境中的鲁棒性和泛化能力。

核心内容

本文介绍了 MAVEN（Modular Agentic Verification and Execution Network，模块化智能体验证与执行网络）。这是一个轻量级的符号推理脚手架（scaffold），旨在通过结构化分解、自适应工具编排和中间验证来提升智能体的性能。

1. MAVEN 的设计原理

MAVEN 并非一个独立的大模型，而是一个附加在基础模型之上的推理框架。其核心机制包括：

结构化分解：将复杂任务拆解为可管理的子步骤。
自适应工具编排：根据子任务的需求动态选择和组合工具。
中间验证：在推理过程中引入显式的验证环节，确保每一步的逻辑正确性，从而减少错误累积。

2. MAVEN-Bench：新的压力测试基准

为了更准确地评估智能体在复杂推理中的表现，作者引入了 MAVEN-Bench。这是一个专门针对多步数学和物理推理的压力测试基准，具有以下特点：

显式验证：要求模型在推理过程中进行自我验证。
对抗性任务组合：通过组合具有挑战性的任务，测试模型在极端情况下的稳定性。
揭示差距：该基准暴露了当前模型在“部分推理质量”与“最终任务成功”之间的显著鸿沟。

3. 实验结果与性能表现

作者在多个现有的工具调用基准上评估了 MAVEN，包括 BFCL v3、TauBench、Tau2Bench 和 AceBench。关键发现如下：

无需额外训练的性能提升：在 MAVEN-Bench 的直接运行中，基于 GPT-OSS-120b 基础模型的准确率从 48% 提升至 71%。这一提升完全通过 MAVEN 框架实现，无需对基础模型进行微调或额外训练。
竞争力与成本优势：MAVEN 在使用开源权重骨干模型（Open-weight backbone）的情况下，其性能与前沿的专有模型（Proprietary baselines）相竞争。
成本效益：由于使用的是开源模型且框架轻量，MAVEN 的估计成本比例仅为前沿专有模型的约 1/10。

关键要点

泛化挑战：现有 LLM 在跨领域工具调用和复杂推理中的泛化能力不足，特别是在保持中间状态和组合策略方面。
MAVEN 架构：作为一种轻量级符号推理脚手架，MAVEN 通过结构化分解、自适应工具编排和中间验证来增强推理能力。
MAVEN-Bench 基准：新提出的基准测试专注于多步数学和物理推理，揭示了部分推理质量与端到端成功率之间的巨大差距。
显著性能提升：在不进行额外训练的情况下，MAVEN 使 GPT-OSS-120b 在 MAVEN-Bench 上的准确率从 48% 提升至 71%。
高性价比：MAVEN 使用开源骨干模型，成本仅为前沿专有模型的约 1/10，同时保持了具有竞争力的性能。
方法论启示：轻量级的、以验证为中心的脚手架可以有效增强组合推理能力，并促使业界采用更关注过程的智能体评估方法。

意义与影响

MAVEN 的研究成果对智能体系统和 AI 评估领域具有深远的影响：

验证中心范式的崛起：MAVEN 证明了轻量级的、以验证为中心的推理脚手架可以显著增强模型的组合推理能力。这表明，提升智能体性能不一定依赖于更大规模的模型训练，结构化的推理过程优化同样关键。
重新定义评估标准：通过 MAVEN-Bench，研究揭示了现有评估体系在衡量复杂推理任务时的局限性。这推动了业界从单纯关注最终答案正确性，转向更加关注推理过程的透明性、可验证性和鲁棒性。
降低智能体部署门槛：MAVEN 展示了开源模型结合高效推理框架即可达到接近专有模型的性能，且成本大幅降低。这为开发高性价比、高可靠性的智能体应用提供了可行的技术路径，有助于推动智能体技术在更广泛场景中的落地。
促进过程感知评估：MAVEN 的成功激励了更多关于“过程感知”（process-aware）智能体评估的研究，鼓励开发者在设计和评估智能体时，更加重视中间状态的保持和逻辑验证机制。

查看原文 →arxiv.org