技术博客arXiv cs.CL·14 小时前

WebChallenger：无需大模型即可高效可靠的通用网页智能体

原标题：WebChallenger: A Reliable and Efficient Generalist Web Agent

速览

WebChallenger是一种新型网页智能体框架，旨在解决大模型在自主网页导航中推理成本高昂的问题。该框架不依赖模型规模，而是通过PageMem结构化页面表示，模拟人类的选择性注意、持久记忆和程序熟练度三大认知优势。实验表明，使用现成开源模型微调，其在WebArena等基准测试上的表现接近前沿专有系统，且成本大幅降低。

AI 深度解读

WebChallenger：一种可靠且高效的全能型 Web 智能体

背景

尽管大型语言模型（LLM）在自然语言处理领域取得了巨大进展，但自主网页导航仍然是智能体（Agent）面临的一大挑战。目前，表现最强的通用型 Web 智能体系统往往依赖于专有的推理模型。然而，这些模型在推理成本上极其高昂，这使得它们在那些最需要智能体发挥作用的重复性任务中难以大规模部署。

学术界和工业界普遍认为，这一性能与成本之间的巨大差距，并非源于模型本身能力的不足，而是现有的智能体架构未能有效模拟人类在处理网页任务时的三种核心认知优势：

选择性注意力：能够聚焦于页面中与任务相关的关键区域，忽略无关信息。
持久记忆：能够记住网站的整体结构，而非仅关注当前页面。
程序性熟练度：对常见的交互模式（如点击、输入、滚动）具有熟练的操作能力。

现有的架构设计往往忽略了这些认知机制，导致智能体在处理复杂网页任务时效率低下且成本高昂。

核心内容

为了解决上述问题，研究团队提出了 WebChallenger，这是一个旨在通过架构设计而非单纯增加模型规模来提升性能的 Web 智能体框架。该框架的核心在于构建了一个名为 PageMem 的结构化页面表示层，并在此基础上实现了三种模拟人类认知优势的机制。

1. 基础层：PageMem 结构化页面表示

PageMem 是 WebChallenger 的共享基础层。它从文档对象模型（DOM）中确定性（deterministically）地构建出一种结构化的页面表示。这种表示将每个网页呈现为一个由“语义区块（semantic sections）”组成的层次结构，并为每个区块生成简短的摘要。

这种设计使得智能体不再面对杂乱无章的原始 HTML 代码，而是面对一个经过语义提炼、结构清晰的页面地图。

2. 三大核心机制

基于 PageMem，WebChallenger 构建了三个关键机制，分别对应人类的三种认知优势：

分治观察流水线（Divide-and-Conquer Observation Pipeline）：对应“选择性注意力”。智能体首先浏览各个语义区块的摘要，快速筛选出与当前任务相关的区域。只有在确定相关后，才会深入提取该区域内的详细细节。这种“先摘要后详情”的策略极大地减少了输入 Token 的数量，提高了观察效率。
轻量级探索与记忆系统（Lightweight Exploration and Memory System）：对应“持久记忆”。该系统会在智能体首次访问某个网站时进行遍历，构建一个可重用的网站地图，记录页面之间的链接关系以及各个元素的行为特征。一旦地图构建完成，智能体在后续任务中即可利用这一记忆，无需重新探索整个网站结构，从而实现对不同网站的泛化能力。
复合动作工作流（Compound Action Workflows）：对应“程序性熟练度”。许多网页交互涉及多步骤操作（例如：点击菜单 -> 选择子项 -> 填写表单）。WebChallenger 将这些常见的多步交互模式折叠为单一的智能体动作。此外，该机制还能自动处理部分状态变化，确保在复杂交互中保持状态的一致性。

3. 通用性与成本优势

由于上述三个机制均基于 PageMem 运行，WebChallenger 具有极强的泛化能力，无需针对特定网站编写适配器（site-specific adapters）。

在模型选择上，WebChallenger 无需进行微调，直接使用现成的开源权重模型（off-the-shelf open-weight models）即可运行。这使得系统在保持高性能的同时，将推理成本大幅降低，达到了前沿专有系统水平的性能，但成本仅为后者的极小部分。

关键要点

架构驱动而非规模驱动：WebChallenger 证明，通过改进智能体架构来模拟人类认知优势，比单纯依赖更大、更昂贵的专有模型更有效。
PageMem 的核心地位：通过 DOM 构建结构化的语义区块层次结构，解决了网页数据非结构化、噪声大的问题，为智能体提供了清晰的“认知地图”。
三大认知模拟机制：
- 分治观察：通过摘要筛选降低信息过载，提升注意力效率。
- 网站记忆：一次性遍历构建可复用地图，提升跨任务效率。
- 复合动作：将多步交互封装为原子操作，提升执行流畅度。
零微调、低成本：无需针对特定任务或网站进行微调，直接使用开源模型即可实现高性能，显著降低了部署门槛和运行成本。
广泛的基准测试表现：
- WebArena: 56.3%
- VisualWebArena: 48.7%
- Online-Mind2Web: 51.0%
- WorkArena: 70.9% 这些成绩表明，WebChallenger 在多个主流 Web 智能体基准测试中均取得了极具竞争力的结果，逼近甚至部分超越了依赖专有模型的现有系统。

意义与影响

WebChallenger 的提出对 Web 智能体领域具有重要的理论和实践意义。

首先，它重新定义了 Web 智能体的设计范式。以往的研究多集中于提升 LLM 本身的推理能力或增加训练数据量，而 WebChallenger 指出，架构设计在弥补模型与真实世界复杂交互之间的差距中起着决定性作用。它证明了通过引入类似人类的认知机制（注意力、记忆、程序性熟练度），可以在不增加模型算力的情况下显著提升任务成功率。

其次，它解决了 Web 智能体落地应用中的核心痛点——成本与效率。由于 Web 智能体往往需要在大量重复性任务中运行（如自动化测试、数据抓取、流程自动化），高昂的推理成本一直是阻碍其大规模应用的主要障碍。WebChallenger 通过减少 Token 消耗（分治观察）和使用开源模型，提供了一个经济可行的解决方案。

最后，其通用性设计降低了开发和维护成本。无需为每个网站编写特定的解析器或适配器，使得 WebChallenger 能够迅速适应新的网站环境，这对于需要处理海量异构网页的应用场景（如企业级 RPA 或自动化测试平台）具有极高的实用价值。

随着 WebChallenger 代码的开源，这一框架有望成为构建下一代高效、低成本 Web 智能体的重要基石，推动自主网页导航技术从实验室走向更广泛的工业应用。

查看原文 →arxiv.org