技术博客arXiv cs.AI·1 小时前

ToolMenuBench：提升LLM智能体工具筛选可靠性与效率

原标题：ToolMenuBench: Benchmarking Tool-Menu Filtering Strategies for Reliable and Efficient LLM Agents

速览

针对大型语言模型智能体在庞大工具库中操作的问题，研究提出ToolMenuBench基准，重点评估可见工具菜单对可靠性、效率和风险暴露的影响。该基准通过改变工具菜单大小、干扰类型及风险暴露等变量，全面衡量过滤策略效果。实验显示，CMTF方法将任务成功率从32.1%提升至85.7%，同时Token使用量减少约98%，为智能体接口设计提供了重要评估框架。

AI 深度解读

ToolMenuBench：为可靠且高效的 LLM Agent 评测工具菜单过滤策略

背景

随着工具增强型大型语言模型（Tool-augmented LLM）智能体（Agents）的广泛应用，这些智能体往往需要在庞大的工具库中进行操作。然而，现有的评估体系存在明显的盲区：它们主要关注模型是否能够“正确调用”某个工具，却忽视了“可见的工具菜单”这一关键界面因素对智能体可靠性、效率以及安全风险暴露的影响。

在实际场景中，如果向 LLM 展示的工具菜单过于庞大或包含大量无关选项，不仅会增加模型的推理负担，还可能导致错误调用、过早行动（premature actions）或暴露于高风险工具之下。因此，如何构建一个既能保证任务成功率，又能控制成本（如 Token 消耗）并降低安全风险的“工具菜单过滤策略”，成为了 Agent 接口设计中的核心问题。

核心内容

为了解决上述问题，研究团队提出了 ToolMenuBench，这是一个专门用于评估多步 LLM 智能体中“工具菜单构建”过程的基准测试框架。

1. 评测维度与变量

ToolMenuBench 通过控制以下变量来模拟复杂的真实环境：

工具菜单大小：从少量工具到大规模工具库。
干扰项类型：引入不同类型的无关或误导性工具。
状态依赖的任务结构：任务的成功与否依赖于智能体对当前状态的准确判断。
风险暴露：评估智能体接触高风险工具的概率。

2. 评估指标

该基准测试不仅报告过滤层面的指标，还报告下游智能体的表现指标，包括：

可见工具数量
高风险工具暴露率
任务成功率
错误工具调用次数
过早行动次数
Token 使用量

3. 实验设置与结果

研究团队在 7 种模型后端、3 种工具菜单大小、6 种过滤方法 和 7 种评估设置 下进行了受控评估。主要发现如下：

CMTF 的显著优势：采用 Causal Minimal Tool Filtering (CMTF，因果最小工具过滤) 策略后，任务成功率从“全量工具暴露”下的 32.1% 大幅提升至 85.7%。
效率提升：CMTF 将平均 Token 使用量减少了约 98%，极大地降低了推理成本。
综合最佳权衡：CMTF 在减少可见工具数量、错误工具调用、过早行动以及高风险工具暴露方面，均优于未过滤暴露、基于词汇的过滤、状态感知过滤以及更广泛的因果路径基线方法。

4. 框架价值

ToolMenuBench 提供了一个可复用的评估框架，旨在研究 Agent 接口问题，即回答三个核心问题：

哪些工具应该是可见的？
在什么时机可见？
在何种成本或风险约束下可见？

关键要点

现有评估的局限性：传统评测仅关注“能否调用工具”，忽略了“菜单设计”对智能体行为（可靠性、效率、安全性）的决定性影响。
ToolMenuBench 的核心贡献：引入了一个多维度的基准测试，专门针对多步 Agent 中的工具菜单构建策略进行量化评估。
CMTF 策略的卓越表现：
- 可靠性：任务成功率从 32.1% 跃升至 85.7%。
- 效率：Token 消耗降低约 98%。
- 安全性：显著减少了错误调用和高风险工具的暴露。
过滤策略的比较：CMTF（因果最小工具过滤）在综合性能上优于未过滤、词汇过滤、状态感知过滤及其他因果基线方法，实现了可靠性、效率与安全性之间的最佳平衡。
研究范式转变：从单纯评估模型能力，转向评估“模型 + 接口设计”的系统级表现，强调工具可见性管理的必要性。

意义与影响

ToolMenuBench 的提出标志着 LLM Agent 评估体系的一个重要转折点。它揭示了工具菜单过滤不仅仅是优化推理速度的手段，更是提升智能体可靠性和安全性的关键机制。

指导 Agent 架构设计：对于开发者而言，该研究证明，简单的“全量暴露”策略在复杂任务中不仅效率低下，而且风险极高。采用基于因果关系的智能过滤策略（如 CMTF）是构建生产级 Agent 的必要步骤。
降低运营成本：通过减少 98% 的 Token 消耗，智能的菜单过滤策略可以直接转化为显著的经济效益，使得大规模部署 LLM Agent 更加可行。
增强安全可控性：通过减少高风险工具的暴露，ToolMenuBench 为构建更安全、更可控的 AI 系统提供了方法论支持，有助于缓解 AI 滥用或误操作带来的潜在风险。
推动标准化评测：作为一个开源且可复用的框架，ToolMenuBench 有望成为未来评估 Agent 接口策略的标准工具，促进学术界和工业界在“如何更好地向 LLM 展示工具”这一问题上达成共识并持续进步。

查看原文 →arxiv.org