技术博客arXiv cs.AI·2 小时前

超越域名：通过可迁移交互模式复用网页技能

原标题：Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns

速览

针对大模型网页代理在跨站点任务中技能复用率低的问题，研究提出SkillMigrator。该方法将交互片段转化为基于布局结构的可迁移交互模式（TIP），而非依赖特定元素引用。实验显示，该方法在保持成功率的同时，显著降低了LLM动作数量，提升了执行效率。

AI 深度解读

Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns

背景

当前，基于大型语言模型（LLM）的 Web 智能体（Web Agents）通常被部署为“工具调用者”（tool callers）。在这种范式下，模型在每一个交互回合中读取新的页面观察结果，并生成一个结构化的底层工具动作（primitive tool action）。

然而，这种细粒度的操作方式带来了显著的效率瓶颈。由于每个动作都是低层级的原语操作，随着任务复杂度的增加，决策 horizon（视野/步长）迅速拉长，导致面向策略的 LLM 补全（completions）数量激增。这不仅主导了 Mind2Web 和 WebArena 等基准测试中的延迟，也大幅增加了计算成本。

为了解决这一问题，近期的系统开始尝试将重复的交互片段封装为“Web 技能”（web skills）。这些技能是从成功的轨迹或诱导程序中构建的可调用工具，旨在通过一次调用替代多个底层原语操作。

尽管已有进展，但现有的技能库主要依赖于指令相似度或粗略的网站元数据进行触发。这种机制导致在未见过的网站（held-out sites）上技能复用率极低，未能充分释放减少步骤和 Token 消耗的潜力。

核心内容

针对上述痛点，研究团队提出了 SkillMigrator，这是一种能够学习可复用 Web 技能并通过匹配布局结构而非特定元素引用来实现跨站点迁移的智能体。

1. 可转移交互模式（TIP）

SkillMigrator 的核心创新在于将每个诱导的技能存储为一种可转移交互模式（Transferable Interaction Pattern, TIP）。TIP 由两部分组成：

技能本身：即具体的操作序列。
结构草图（Structural Sketch）：在技能诱导时刻，页面快照的结构化表示。

2. 基于布局的检索与接地（Grounding）

在测试阶段，SkillMigrator 通过计算布局相似度来检索 TIP。一旦找到匹配的 TIP，系统会将技能中的引用关系“接地”（grounding）到当前实时页面上。这意味着系统不再依赖具体的 DOM 元素 ID 或绝对坐标，而是依赖页面的视觉和结构布局来定位目标元素。

3. 标准技术栈

除了核心的 TIP 机制外，SkillMigrator 的其他部分采用标准配置：

观察机制：使用带有稳定引用的可访问性快照（accessibility-snapshot observations）。
工具调用：在底层原语操作和技能调用之上进行固定的工具调用逻辑。

4. 性能表现

与最先进的方法相比，SkillMigrator 在保持成功率匹配的前提下，显著降低了 LLM 的动作计数：

在 WebArena 和 Mind2Web 两个基准测试中，成功轨迹上的平均 LLM 动作计数减少了 8-10%。

关键要点

从“指令匹配”到“结构匹配”：传统的技能复用依赖文本指令或网站元数据，泛化能力差；SkillMigrator 通过匹配页面布局结构，实现了真正的跨站点技能迁移。
TIP 是核心抽象：将“技能”与“诱导时的结构草图”绑定为 TIP，使得技能不再绑定于特定网站的特定元素，而是绑定于通用的交互模式。
显著的效率提升：在相同的成功率下，减少了 8-10% 的 LLM 调用次数。考虑到 LLM 推理是 Web 智能体延迟和成本的主要来源，这一优化具有直接的经济和性能价值。
解耦了引用与布局：通过“检索-接地”机制，系统先通过布局找到大致区域，再在实时页面上精确定位元素，从而解决了跨站点元素 ID 不匹配的问题。
兼容现有架构：SkillMigrator 并非推翻现有的 Web 智能体架构，而是在其基础上引入了更高级的技能复用层，保持了与标准可访问性快照和工具调用接口的兼容性。

意义与影响

SkillMigrator 的提出标志着 Web 智能体从“单点任务执行”向“通用技能积累与复用”迈出了关键一步。

降低部署成本：通过减少 LLM 的调用次数，直接降低了 API 调用成本和响应延迟，使得在大规模、高并发场景下部署 Web 智能体变得更加可行。
提升泛化能力：传统的技能库往往需要为每个新网站手动标注或诱导技能，维护成本极高。SkillMigrator 的布局匹配机制使得技能可以在不同但布局相似的网站间自动迁移，极大地降低了新网站适配的门槛。
推动 Web 智能体的标准化：通过引入 TIP 这一标准化抽象，未来可能形成跨平台、跨模型的 Web 技能共享生态。不同系统诱导的技能可以基于结构草图进行交换和复用，加速整个领域的发展。
对基准测试的启示：在 Mind2Web 和 WebArena 等基准测试中，单纯追求成功率已不足以衡量智能体的优劣，动作效率（Action Efficiency）将成为衡量 Web 智能体成熟度的重要指标。SkillMigrator 证明了通过结构化的技能复用，可以在不牺牲性能的前提下显著提升效率。

查看原文 →arxiv.org