技术博客arXiv cs.AI·6 天前

GTA：大规模生成Web智能体长视界任务

原标题：GTA: Generating Long-Horizon Tasks for Web Agents at Scale

速览

GTA框架整合爬取、检索、上下文生成和质量控制，为Web智能体生成大规模长视界任务及可执行轨迹。该框架解耦爬取与生成，确保任务组合性并提供密集监督，覆盖电商、政府等多领域。此基准测试揭示了人机性能差距，为智能体训练与评估提供了可复现的高质量数据支持。

AI 深度解读

背景

随着人工智能技术的发展，Web 智能体（Web Agents）——即结合大语言模型与浏览、工具使用能力的智能系统——作为开放网络助手展现出了巨大的潜力。然而，这一领域的进步正日益受到缺乏可扩展的、过程级监督（process-level supervision）的制约。

现有的评估基准主要依赖人工构建，这种模式不仅成本高昂，而且通常只提供粗略的“起点-终点”标注，缺乏对智能体执行任务过程中中间轨迹的详细记录。虽然近期出现了一些自动生成的方法，但它们往往存在成本高、偏差大以及覆盖场景浅显的问题。这些局限性导致智能体难以在真实、多跳（multi-hop）、跨页面的复杂任务中进行可靠的训练和评估，从而限制了其泛化能力的提升。

核心内容

为了解决上述问题，本文介绍了一个名为 GTA (Generating Long-Horizon Tasks for Web Agents at Scale) 的可扩展框架。GTA 旨在通过自动化手段生成真实的任务及其可执行的轨迹，从而为 Web 智能体提供密集的监督信号。

GTA 框架的核心设计整合了以下四个关键组件：

爬虫（Crawling）：用于收集网站结构和数据。
基于检索的种子生成（Retrieval-based Seeding）：从爬取的数据中筛选出有意义的任务起点。
上下文生成（In-context Generation）：利用大语言模型生成具体的任务路径。
自动化质量控制（Automated Quality Control）：确保生成任务的真实性和可执行性。

该设计的关键创新在于将“爬虫”与“生成”解耦，以提高效率。同时，GTA 将任务锚定在“站点图（site graph）”中，以强制保证任务生成的组合性（compositionality），即任务可以由多个子步骤合理拼接而成。此外，通过确定性回放（deterministic replays）和系统性验证，GTA 确保了监督信号的密集性和准确性。

为了验证框架的有效性，作者在一个涵盖电子商务、政府网站、论坛和新闻等多个领域的 50 多个真实网站上实例化了该管道，并实现了多语言和多跳任务的覆盖。生成的基准测试揭示了一个显著的人类与智能体之间的性能差距，并支持详细的诊断分析。

关键要点

框架创新：提出了 GTA 框架，整合了爬虫、检索、上下文生成和自动化质量控制，实现了 Web 智能体任务的大规模自动生成。
解耦设计：将数据爬取与任务生成解耦，显著提高了生成效率。
组合性保障：通过将任务锚定在站点图中，确保生成的多跳任务具有逻辑上的组合性和合理性。
密集监督：通过确定性回放和系统验证，提供了包含中间轨迹的详细监督信号，弥补了传统基准仅关注起点和终点的不足。
广泛覆盖：在 50 多个真实网站（包括电商、政府、论坛、新闻等）上进行了实例化，支持多语言和多跳任务。
性能差距揭示：生成的基准测试清晰地展示了当前智能体与人类用户在复杂 Web 任务执行能力上的显著差距。

意义与影响

GTA 框架的贡献主要体现在三个方面：

形式化多跳 Web 智能体任务生成：首次系统地提出了多跳 Web 智能体任务生成的形式化定义，为后续研究提供了理论基础。
高效且经过验证的自动数据创建管道：提出了一种高效、可扩展且经过严格验证的自动数据创建流程，解决了人工构建基准成本高昂且难以扩展的痛点。
发布动态基准与可复现评估：发布了一个动态的 Web 智能体基准测试，支持可复现的评估，有助于更准确地衡量智能体在真实复杂场景下的性能。

这一工作对于推动 Web 智能体从简单的单步操作向复杂的、长期的、跨页面的任务执行能力发展具有重要意义。它提供了一个高质量的训练和评估环境，有助于智能体更好地泛化到现实世界的复杂场景中，从而加速开放网络助手的实用化进程。

查看原文 →arxiv.org

GTA：大规模生成Web智能体长视界任务

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐