← 返回信息流
技术博客arXiv cs.AI·6 天前

GTA:大规模生成Web智能体长视界任务

原标题:GTA: Generating Long-Horizon Tasks for Web Agents at Scale

速览

GTA框架整合爬取、检索、上下文生成和质量控制,为Web智能体生成大规模长视界任务及可执行轨迹。该框架解耦爬取与生成,确保任务组合性并提供密集监督,覆盖电商、政府等多领域。此基准测试揭示了人机性能差距,为智能体训练与评估提供了可复现的高质量数据支持。

AI 深度解读

背景

随着人工智能技术的发展,Web 智能体(Web Agents)——即结合大语言模型与浏览、工具使用能力的智能系统——作为开放网络助手展现出了巨大的潜力。然而,这一领域的进步正日益受到缺乏可扩展的、过程级监督(process-level supervision)的制约。

现有的评估基准主要依赖人工构建,这种模式不仅成本高昂,而且通常只提供粗略的“起点-终点”标注,缺乏对智能体执行任务过程中中间轨迹的详细记录。虽然近期出现了一些自动生成的方法,但它们往往存在成本高、偏差大以及覆盖场景浅显的问题。这些局限性导致智能体难以在真实、多跳(multi-hop)、跨页面的复杂任务中进行可靠的训练和评估,从而限制了其泛化能力的提升。

核心内容

为了解决上述问题,本文介绍了一个名为 GTA (Generating Long-Horizon Tasks for Web Agents at Scale) 的可扩展框架。GTA 旨在通过自动化手段生成真实的任务及其可执行的轨迹,从而为 Web 智能体提供密集的监督信号。

GTA 框架的核心设计整合了以下四个关键组件:

  1. 爬虫(Crawling):用于收集网站结构和数据。
  2. 基于检索的种子生成(Retrieval-based Seeding):从爬取的数据中筛选出有意义的任务起点。
  3. 上下文生成(In-context Generation):利用大语言模型生成具体的任务路径。
  4. 自动化质量控制(Automated Quality Control):确保生成任务的真实性和可执行性。

该设计的关键创新在于将“爬虫”与“生成”解耦,以提高效率。同时,GTA 将任务锚定在“站点图(site graph)”中,以强制保证任务生成的组合性(compositionality),即任务可以由多个子步骤合理拼接而成。此外,通过确定性回放(deterministic replays)和系统性验证,GTA 确保了监督信号的密集性和准确性。

为了验证框架的有效性,作者在一个涵盖电子商务、政府网站、论坛和新闻等多个领域的 50 多个真实网站上实例化了该管道,并实现了多语言和多跳任务的覆盖。生成的基准测试揭示了一个显著的人类与智能体之间的性能差距,并支持详细的诊断分析。

关键要点

  • 框架创新:提出了 GTA 框架,整合了爬虫、检索、上下文生成和自动化质量控制,实现了 Web 智能体任务的大规模自动生成。
  • 解耦设计:将数据爬取与任务生成解耦,显著提高了生成效率。
  • 组合性保障:通过将任务锚定在站点图中,确保生成的多跳任务具有逻辑上的组合性和合理性。
  • 密集监督:通过确定性回放和系统验证,提供了包含中间轨迹的详细监督信号,弥补了传统基准仅关注起点和终点的不足。
  • 广泛覆盖:在 50 多个真实网站(包括电商、政府、论坛、新闻等)上进行了实例化,支持多语言和多跳任务。
  • 性能差距揭示:生成的基准测试清晰地展示了当前智能体与人类用户在复杂 Web 任务执行能力上的显著差距。

意义与影响

GTA 框架的贡献主要体现在三个方面:

  1. 形式化多跳 Web 智能体任务生成:首次系统地提出了多跳 Web 智能体任务生成的形式化定义,为后续研究提供了理论基础。
  2. 高效且经过验证的自动数据创建管道:提出了一种高效、可扩展且经过严格验证的自动数据创建流程,解决了人工构建基准成本高昂且难以扩展的痛点。
  3. 发布动态基准与可复现评估:发布了一个动态的 Web 智能体基准测试,支持可复现的评估,有助于更准确地衡量智能体在真实复杂场景下的性能。

这一工作对于推动 Web 智能体从简单的单步操作向复杂的、长期的、跨页面的任务执行能力发展具有重要意义。它提供了一个高质量的训练和评估环境,有助于智能体更好地泛化到现实世界的复杂场景中,从而加速开放网络助手的实用化进程。

查看原文 →arxiv.org