← 返回信息流
技术博客arXiv cs.AI·1 小时前

ToolMenuBench:提升LLM智能体工具筛选可靠性与效率

原标题:ToolMenuBench: Benchmarking Tool-Menu Filtering Strategies for Reliable and Efficient LLM Agents

速览

针对大型语言模型智能体在庞大工具库中操作的问题,研究提出ToolMenuBench基准,重点评估可见工具菜单对可靠性、效率和风险暴露的影响。该基准通过改变工具菜单大小、干扰类型及风险暴露等变量,全面衡量过滤策略效果。实验显示,CMTF方法将任务成功率从32.1%提升至85.7%,同时Token使用量减少约98%,为智能体接口设计提供了重要评估框架。

AI 深度解读

ToolMenuBench:为可靠且高效的 LLM Agent 评测工具菜单过滤策略

背景

随着工具增强型大型语言模型(Tool-augmented LLM)智能体(Agents)的广泛应用,这些智能体往往需要在庞大的工具库中进行操作。然而,现有的评估体系存在明显的盲区:它们主要关注模型是否能够“正确调用”某个工具,却忽视了“可见的工具菜单”这一关键界面因素对智能体可靠性、效率以及安全风险暴露的影响。

在实际场景中,如果向 LLM 展示的工具菜单过于庞大或包含大量无关选项,不仅会增加模型的推理负担,还可能导致错误调用、过早行动(premature actions)或暴露于高风险工具之下。因此,如何构建一个既能保证任务成功率,又能控制成本(如 Token 消耗)并降低安全风险的“工具菜单过滤策略”,成为了 Agent 接口设计中的核心问题。

核心内容

为了解决上述问题,研究团队提出了 ToolMenuBench,这是一个专门用于评估多步 LLM 智能体中“工具菜单构建”过程的基准测试框架。

1. 评测维度与变量

ToolMenuBench 通过控制以下变量来模拟复杂的真实环境:

  • 工具菜单大小:从少量工具到大规模工具库。
  • 干扰项类型:引入不同类型的无关或误导性工具。
  • 状态依赖的任务结构:任务的成功与否依赖于智能体对当前状态的准确判断。
  • 风险暴露:评估智能体接触高风险工具的概率。

2. 评估指标

该基准测试不仅报告过滤层面的指标,还报告下游智能体的表现指标,包括:

  • 可见工具数量
  • 高风险工具暴露率
  • 任务成功率
  • 错误工具调用次数
  • 过早行动次数
  • Token 使用量

3. 实验设置与结果

研究团队在 7 种模型后端3 种工具菜单大小6 种过滤方法7 种评估设置 下进行了受控评估。主要发现如下:

  • CMTF 的显著优势:采用 Causal Minimal Tool Filtering (CMTF,因果最小工具过滤) 策略后,任务成功率从“全量工具暴露”下的 32.1% 大幅提升至 85.7%
  • 效率提升:CMTF 将平均 Token 使用量减少了约 98%,极大地降低了推理成本。
  • 综合最佳权衡:CMTF 在减少可见工具数量、错误工具调用、过早行动以及高风险工具暴露方面,均优于未过滤暴露、基于词汇的过滤、状态感知过滤以及更广泛的因果路径基线方法。

4. 框架价值

ToolMenuBench 提供了一个可复用的评估框架,旨在研究 Agent 接口问题,即回答三个核心问题:

  1. 哪些工具应该是可见的?
  2. 在什么时机可见?
  3. 在何种成本或风险约束下可见?

关键要点

  • 现有评估的局限性:传统评测仅关注“能否调用工具”,忽略了“菜单设计”对智能体行为(可靠性、效率、安全性)的决定性影响。
  • ToolMenuBench 的核心贡献:引入了一个多维度的基准测试,专门针对多步 Agent 中的工具菜单构建策略进行量化评估。
  • CMTF 策略的卓越表现
    • 可靠性:任务成功率从 32.1% 跃升至 85.7%。
    • 效率:Token 消耗降低约 98%。
    • 安全性:显著减少了错误调用和高风险工具的暴露。
  • 过滤策略的比较:CMTF(因果最小工具过滤)在综合性能上优于未过滤、词汇过滤、状态感知过滤及其他因果基线方法,实现了可靠性、效率与安全性之间的最佳平衡。
  • 研究范式转变:从单纯评估模型能力,转向评估“模型 + 接口设计”的系统级表现,强调工具可见性管理的必要性。

意义与影响

ToolMenuBench 的提出标志着 LLM Agent 评估体系的一个重要转折点。它揭示了工具菜单过滤不仅仅是优化推理速度的手段,更是提升智能体可靠性安全性的关键机制。

  1. 指导 Agent 架构设计:对于开发者而言,该研究证明,简单的“全量暴露”策略在复杂任务中不仅效率低下,而且风险极高。采用基于因果关系的智能过滤策略(如 CMTF)是构建生产级 Agent 的必要步骤。
  2. 降低运营成本:通过减少 98% 的 Token 消耗,智能的菜单过滤策略可以直接转化为显著的经济效益,使得大规模部署 LLM Agent 更加可行。
  3. 增强安全可控性:通过减少高风险工具的暴露,ToolMenuBench 为构建更安全、更可控的 AI 系统提供了方法论支持,有助于缓解 AI 滥用或误操作带来的潜在风险。
  4. 推动标准化评测:作为一个开源且可复用的框架,ToolMenuBench 有望成为未来评估 Agent 接口策略的标准工具,促进学术界和工业界在“如何更好地向 LLM 展示工具”这一问题上达成共识并持续进步。
查看原文 →arxiv.org