技术博客arXiv cs.AI·13 小时前

基于状态动态检索实现Web智能体在线技能学习

原标题：Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval

速览

现有Web智能体技能复用多基于初始任务指令，难以适应执行过程中的页面状态变化。研究提出基于状态动态检索（SGDR）的在线技能学习方法，通过滑动窗口提取子程序，并结合文本-代码双重表示，实现技能与当前页面状态的精准匹配。在WebArena基准测试中，该方法在GPT-4.1和Qwen3-4B模型上均显著优于基线，验证了其在多步骤网页自动化中的有效性。

AI 深度解读

在线技能学习：基于状态锚定的动态检索机制

背景

随着大型语言模型（LLM）在自动化领域的应用日益深入，Web 代理（Web Agents）在处理多步骤网页自动化任务时展现出巨大潜力。为了提升跨相关任务的性能，越来越多的研究聚焦于“可复用技能”（Reusable Skills）的概念。近期，一种名为“在线技能学习”（Online Skill Learning）的研究方向逐渐兴起。其核心思想是：Web 代理能够从过去的任务轨迹（Task Trajectories）中持续归纳出技能，并在未来的任务中即时（on the fly）复用这些技能，从而避免从零开始学习每个新任务。

然而，现有的在线技能学习方法存在一个显著的局限性：任务级静态检索。具体而言，这些方法通常基于初始的任务指令（Initial Task Instruction）检索出一组固定的技能，并在整个执行过程中保持不变。这种静态策略与 Web 执行的动态特性存在错位。在真实的网页交互中，下一步的适当动作不仅取决于任务目标，还高度依赖于当前的网页状态（Current Webpage State）。网页状态往往会在执行过程中发生剧烈变化，导致初始检索到的技能无法覆盖后续出现的场景，从而限制了代理的泛化能力和成功率。

核心内容

针对上述痛点，研究人员提出了一种名为 State-Grounded Dynamic Retrieval (SGDR) 的新方法。这是一种在线技能学习机制，旨在实现 Web 代理的“逐步技能复用”（Stepwise Skill Reuse）。SGDR 的核心创新在于将技能检索从“任务级”下沉到了“状态级”，确保技能与当前的执行上下文紧密对齐。

SGDR 架构主要由以下三个关键组件构成：

滑动窗口提取过程（Sliding-Window Extraction Process） 该组件负责将历史任务中已完成的轨迹转化为可复用的子程序（Sub-procedures）。不同于将整个任务轨迹视为一个整体，滑动窗口机制允许提取出在特定中间执行状态下可被调用的细粒度技能片段。这使得代理能够在执行过程中，根据当前所处的中间状态，动态地调用之前积累的经验片段。
双模文本-代码表示（Dual Text-Code Representation） 为了解决技能检索与可执行动作之间的鸿沟，SGDR 引入了双模表示法。它将技能同时表示为自然语言文本和可执行代码。这种双重表示不仅便于通过语义匹配检索技能，还确保了检索到的技能可以直接转化为具体的动作指令，实现了从“知识检索”到“行动执行”的无缝衔接。
状态锚定的动态检索机制（State-Grounded Dynamic Retrieval Mechanism） 这是 SGDR 的核心决策模块。传统的检索仅匹配任务目标，而 SGDR 的检索机制同时匹配两个维度：
- 任务目标（Task Goal）：确保技能的大方向符合用户意图。
- 当前网页状态（Current Webpage State）：确保技能适用于当前的具体情境（如特定的页面布局、元素状态或错误提示）。
通过这种双重匹配，代理能够在每一步执行中，从技能库中动态检索出最契合当前“任务+状态”组合的最佳技能，而非依赖初始检索的固定集合。

实验结果验证： 研究者在 WebArena 基准测试上进行了广泛评估，涵盖五个不同的域名领域。实验结果表明，SGDR consistently 优于强大的基线模型：

在 GPT-4.1 模型上，SGDR 实现了 37.5% 的平均成功率，相比最强基线提升了 10.6%。
在 Qwen3-4B 模型上，SGDR 实现了 24.3% 的平均成功率，相比最强基线提升了 10.0%。

这些结果证明了将技能检索与当前网页状态动态对齐的有效性，特别是在处理复杂、多变的 Web 环境时，能够显著提升代理的鲁棒性和成功率。

关键要点

痛点识别：现有在线技能学习方法采用“任务级静态检索”，忽略了 Web 执行过程中网页状态的动态变化，导致技能复用效率低下。
核心创新：提出 SGDR 方法，实现“逐步技能复用”，将技能检索粒度从任务级细化到步骤级/状态级。
技术架构三要素：
1. 滑动窗口提取：将历史轨迹转化为可在中间状态调用的子程序。
2. 双模表示：结合文本语义与代码可执行性，打通检索与执行链路。
3. 动态检索：同时基于“任务目标”和“当前网页状态”进行技能匹配。
性能提升：在 WebArena 基准测试中，SGDR 在 GPT-4.1 和 Qwen3-4B 上分别实现了 10.6% 和 10.0% 的相对性能提升。
开源贡献：相关代码已开源，促进了该领域的进一步研究与应用。

意义与影响

SGDR 的提出标志着 Web 代理技能学习从“静态经验存储”向“动态情境感知”的重要转变。其意义主要体现在以下几个方面：

提升 Web 代理的泛化能力：通过状态锚定的动态检索，代理不再受限于初始任务指令的静态假设，能够适应网页执行过程中不可预见的状态变化，显著增强了在开放 Web 环境中的鲁棒性。
优化资源利用效率：滑动窗口提取和细粒度技能复用机制，使得代理能够更高效地利用历史经验，避免了对完整任务轨迹的冗余依赖，降低了计算和存储开销。
推动自动化测试与 RPA 发展：对于依赖网页自动化的场景（如自动化测试、RPA），SGDR 提供的动态技能复用机制能够更准确地模拟人类用户的交互逻辑，提高自动化脚本的生成质量和执行成功率。
方法论启示：SGDR 证明了在 LLM 驱动的智能体中，将“状态感知”引入技能检索环节是提升复杂任务表现的关键路径。这一思路可推广至其他需要多步推理和动态环境交互的领域，如机器人控制、游戏 AI 等。

总之，SGDR 不仅解决了一个具体的技术瓶颈，更为构建更智能、更自适应的 Web 代理提供了一套可行的方法论框架。

查看原文 →arxiv.org