技术博客arXiv cs.AI·7 天前

EgoBench：面向工具使用代理的交互式自我中心多模态基准

原标题：EgoBench: An Interactive Egocentric Multimodal Benchmark for Tool-Using Agents

速览

针对现有基准无法联合评估多模态感知、工具调用及动态交互的局限，研究团队推出了EgoBench。该基准包含1045个基于第一人称视频的任务，并构建了用户-代理-工具交互环境及确定性验证框架。实验显示，当前最先进视频多模态大模型在该基准上表现不佳，准确率仅约30%，揭示了AI代理在复杂真实场景中的能力瓶颈。

AI 深度解读

EgoBench：面向工具使用型智能体的交互式第一人称多模态基准测试

背景

随着人工智能智能体（AI Agents）逐渐从封闭的数字环境走向开放、真实的物理世界，其能力边界正在经历深刻的重构。在现实场景中，智能体不仅需要像人类一样通过视觉、听觉等多模态感知环境，还需要具备调用外部工具（如搜索引擎、API、软件操作界面）的能力，并能在复杂的多步推理中动态地与人类用户进行交互。

然而，现有的评估基准（Benchmarks）存在显著的局限性。大多数现有基准要么仅关注静态的视觉理解，要么侧重于单步的工具调用，缺乏对“感知-推理-交互”这一完整闭环的联合评估。具体挑战在于：

任务设计的耦合性：难以设计出严格耦合多能力的复杂任务。
反馈模拟的真实性：难以模拟自然且受任务约束的用户反馈。
评估的客观性：在动态交互过程中，如何确保评估结果的客观性和可复现性是一个难题。

为了填补这一空白，研究团队提出了 EgoBench，这是首个面向工具使用型智能体的交互式多模态基准测试平台，旨在全面评估智能体在真实世界场景下的综合性能。

核心内容

EgoBench 是一个基于第一人称视角（Egocentric）视频的多模态基准测试，专门用于评估智能体在工具使用场景下的表现。其核心架构和评估体系包含以下几个关键维度：

1. 数据集构建：第一人称视角与日常场景

EgoBench 构建了包含 1,045 个任务 的数据集，这些任务均基于第一人称视角（Egocentric）的视频数据。第一人称视角更贴近人类在真实世界中操作工具时的视觉体验（如佩戴智能眼镜或手持设备时的视角）。数据集覆盖了 4 类日常场景，确保测试环境具有高度的现实相关性和多样性。

2. 三阶段协同流水线（Three-Stage Synergistic Pipeline）

为了确保任务能够强制智能体同时运用视觉感知和工具增强型多跳推理（Multi-hop Reasoning），研究团队设计了一种三阶段的协同任务生成流水线：

阶段一：基于视频内容提取关键视觉线索。
阶段二：结合任务目标，生成需要多步推理才能确定的工具调用序列。
阶段三：构建最终的交互任务，要求智能体在理解视觉上下文的基础上，通过调用工具获取信息或执行操作，最终达成目标。

3. 多智能体模拟用户（Multi-Agent Simulated User）

为了解决真实用户交互成本高且难以标准化的问题，EgoBench 开发了一个内置的 多智能体模拟用户（Simulated User）。

高保真反馈：该模拟用户能够根据智能体的行为生成高保真、与任务高度对齐的响应。
动态交互：它不仅能回答智能体的查询，还能对智能体的操作进行反馈（如确认、纠正或拒绝），从而模拟真实世界中用户与智能体的动态博弈过程。

4. 确定性联合验证框架（Deterministic Joint Validation Framework）

针对动态交互评估中常见的随机性和主观性问题，EgoBench 建立了一个确定性的联合验证框架。该框架通过以下两种方式确保评估的客观性：

基于过程的等价性（Process-based Equivalence）：检查智能体调用的工具序列和执行步骤是否符合逻辑规范。
基于结果的等价性（Result-based Equivalence）：验证最终输出的结果是否与预期目标一致。这种双重验证机制确保了即使交互路径不同，只要逻辑正确且结果准确，即可被判定为成功。

5. 基准测试结果：性能天花板显著

研究团队在 EgoBench 上对 8 个最先进的视频多模态大语言模型（Video-MLLMs） 进行了全面基准测试。结果揭示了当前技术在复杂交互式任务中的严重瓶颈：

最佳场景准确率：表现最好的模型在最佳场景下的准确率仅为 30.62%。
平均准确率：在所有四个场景中的平均准确率仅为 19.43%。这一数据表明，尽管 Video-MLLMs 在静态视觉理解上取得了巨大进步，但在需要结合工具调用、多跳推理和动态交互的复杂任务中，其能力仍有巨大的提升空间。

6. 多维错误分析

通过对失败案例进行多维度的错误解构（Disentangle Failure Modes），研究团队识别了导致智能体失败的主要瓶颈，包括视觉理解偏差、推理链条断裂、工具调用错误以及交互策略不当等，为未来 AI 智能体的优化指明了方向。

关键要点

首个交互式基准：EgoBench 是第一个专门针对“工具使用型智能体”设计的交互式多模态基准测试，填补了现有基准在动态交互评估方面的空白。
第一人称视角（Egocentric）：采用第一人称视频数据，更真实地模拟人类在物理世界中操作工具和环境的视觉体验。
强制多能力协同：通过三阶段协同流水线，确保每个任务都强制要求智能体同时运用视觉感知、多跳推理和工具调用能力，而非单一能力。
模拟用户交互：引入多智能体模拟用户，能够生成高保真、任务对齐的动态反馈，解决了真实用户交互难以标准化和规模化的问题。
客观评估框架：提出基于过程和结果的双重确定性验证框架，确保在动态交互场景下评估结果的客观性和可复现性。
性能瓶颈暴露：当前最先进的 Video-MLLMs 在 EgoBench 上表现不佳（平均准确率仅 19.43%），证明现有模型在处理复杂、动态、需多步推理的工具使用任务时存在严重的能力天花板。
错误模式解构：通过详细的错误分析，明确了视觉、推理、工具调用和交互策略四个维度的失败模式，为后续研究提供了明确的优化方向。

意义与影响

EgoBench 的发布对 AI 智能体领域具有重要的里程碑意义：

重新定义评估标准：它标志着 AI 评估从“静态理解”向“动态交互”和“工具协同”的转变。未来的智能体评估将不再仅仅看它“看到了什么”，更要看它“做了什么”以及“如何与用户协作”。
揭示技术瓶颈：通过揭示当前 SOTA 模型在复杂任务中仅 19.43% 的平均准确率，EgoBench 清醒地指出了当前 Video-MLLMs 的局限性。这有助于研究人员将注意力从单纯的模型规模扩展，转向提升推理深度、工具调用准确性和交互鲁棒性等核心能力。
推动具身智能发展：由于采用第一人称视角和日常场景，EgoBench 为具身智能（Embodied AI）和机器人领域的智能体提供了更贴近现实的训练和评估环境，有助于缩小数字智能体与物理世界操作之间的差距。
提供标准化测试床：其确定的联合验证框架和模拟用户机制，为学术界和工业界提供了一个公平、可复现的测试平台，加速了工具使用型智能体技术的迭代和优化。

总之，EgoBench 不仅是一个基准测试，更是一个推动 AI 智能体从“被动响应”走向“主动协作”的关键基础设施。

查看原文 →arxiv.org