技术博客arXiv cs.AI·2 小时前

EComAgentBench：评估购物智能体在长周期任务中的表现

原标题：EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent

速览

针对现有基准无法捕捉购物者隐性需求的问题，研究团队推出EComAgentBench。该基准包含662个基于真实亚马逊商品和评论的任务，要求智能体在100次工具调用内通过查询、档案和澄清揭示隐藏意图并选定商品。评估显示最强模型准确率仅57.1%，表明长周期购物辅助仍有巨大提升空间。

AI 深度解读

EComAgentBench：基于分布式隐藏意图的长程购物智能体基准测试

背景

随着基于大语言模型（LLM）的购物智能体（Shopping Agents）逐步进入生产环境，现有的评估基准（Benchmarks）已无法充分捕捉真实场景中消费者需求呈现的复杂性。在现实世界的购物过程中，用户的需求往往并非一次性完整披露：它们可能隐含在初始查询中、记录在用户画像（Profile）里，或者只有在智能体提出恰当的问题时才会被揭示出来。

传统的基准测试通常假设所有意图在任务开始时就已完全暴露，并且仅对最终的商品选择进行评分。这种简化模型存在两个主要缺陷：首先，它无法模拟需要多步交互的“长程”（Long-Horizon）挑战；其次，当智能体失败时，它无法解释具体遗漏了哪一项需求。为了填补这一空白，研究人员引入了 EComAgentBench，旨在建立一个更贴近真实、更具挑战性的评估框架。

核心内容

EComAgentBench 是一个包含 662 个任务的基准测试集，其数据基础源自真实的 Amazon 产品及其评论。该基准测试的核心创新在于其任务设计机制，旨在模拟“分布式隐藏意图”（Distributed Hidden Intent）。

1. 任务结构与意图分布

每个任务中的用户需求被分散在三个不同的来源中，智能体必须通过交互逐步 uncover（揭示）这些隐藏意图：

可见查询（Visible Query）：用户输入的初始搜索词或简短描述，通常包含部分显式需求。
工具门控画像（Tool-Gated Profile）：智能体需要通过调用工具才能访问的用户历史偏好或详细资料，其中包含隐含的需求。
脚本化澄清（Scripted Clarification）：模拟对话过程中，智能体通过提问获得的补充信息。

2. 智能体执行约束

智能体在完成任务时需遵循严格的约束条件：

工具调用限制：智能体必须在 100 次工具调用（Tool Calls）的限制内，从候选商品中锁定并承诺选择单一产品。
验证过程：智能体不仅需要发现隐藏意图，还必须根据产品属性和评论证据（Review Evidence）对候选商品进行验证。

3. 自动化构建与评估体系

自动化构建：基准测试的构建过程是自动化的，但保证了可靠性。所有答案在生成任何文本之前已在代码中固定，且每个样本都经过验证，确保数据的一致性和准确性。
细粒度评分标准：采用了带有类型和来源标签的评分细则（Typed, Source-Tagged Rubrics）。这意味着评估不仅看最终结果，还会将每一次失败归因于具体的需求及其来源（例如：是忽略了查询中的需求，还是未能从画像中获取偏好）。

4. 模型评估结果

研究团队对七种主流模型进行了评估，结果揭示了当前技术的局限性：

整体准确率较低：即使是表现最强的模型，整体准确率也仅为 57.1%。
意图来源的影响：随着需求来源从“可见”转向“隐藏”（即从查询转向画像或澄清对话），评分细则的满足率显著下降。这表明当前模型在处理需要多步推理和跨源信息整合的长程任务时，仍存在显著的能力短板。

关键要点

真实场景模拟：EComAgentBench 通过分散需求来源（查询、画像、澄清），真实还原了购物场景中用户需求不一次性完整披露的特点。
长程任务挑战：不同于传统的单步搜索或最终选择评估，该基准测试要求智能体在长程交互中逐步揭示意图并验证候选商品，对智能体的规划、记忆和推理能力提出了更高要求。
细粒度诊断能力：通过带有来源标签的评分细则，该基准测试能够精准定位智能体的失败原因（如：遗漏了画像中的偏好或误解了澄清信息），为模型优化提供具体方向。
当前性能瓶颈：最强模型仅达到 57.1% 的准确率，且随着意图隐藏程度的增加，性能显著下降，说明现有 LLM 购物智能体在复杂交互和多源信息整合方面仍有巨大提升空间。
自动化与可靠性：基准测试采用代码预定义答案和自动验证机制，确保了数据的高质量和高可复现性，为后续研究提供了可靠的基础设施。

意义与影响

EComAgentBench 的提出标志着购物智能体评估从“单查询搜索”向“长程可靠辅助”迈进的重要一步。

推动智能体能力升级：通过揭示当前模型在处理分布式隐藏意图时的不足，该基准测试为研究人员指明了优化方向，即增强智能体的多步推理、信息检索和交互澄清能力。
提升用户体验：更准确的意图识别和更可靠的推荐结果将直接提升用户在复杂购物场景中的体验，减少因误解需求而导致的错误推荐。
建立可复现的研究基础：作为一个基于真实数据、自动化构建且细粒度评估的基准测试，EComAgentBench 为学术界和工业界提供了一个可复现、可比较的平台，有助于推动购物智能体领域的标准化研究和进步。

总之，EComAgentBench 不仅是一个评估工具，更是推动购物智能体从简单的搜索助手转变为真正理解用户、具备长期记忆和复杂推理能力的可靠伙伴的关键基础设施。

查看原文 →arxiv.org