← 返回信息流
AI 资讯量子位·2 小时前

BrowserBC:一次录制让所有Agent具备人类点击能力

原标题:BrowserBC:克隆人类点击,让一次网页操作转化为所有Agent的能力

速览

BrowserBC是一种创新技术,旨在通过录制人类在网页上的点击和操作行为,将其转化为可复用的技能。该技术允许单个Agent模拟这些操作,并将这些能力共享给所有其他Agent,从而大幅降低自动化任务的开发门槛。这一突破有望提升多Agent协作的效率和通用性。

AI 深度解读

背景

当前的 Web Agent(网页智能体)虽然已经具备了基础的浏览器操作能力,如识别按钮、输入框、点击、跳转和提交等,但在实际应用中仍面临严峻挑战。主要痛点在于“从零探索”的高昂成本与低效性:每当面对新任务或新网站时,Agent 往往需要调用昂贵且强大的模型重新摸索流程。这种探索过程极易导致 Agent 陷入死循环、偏离任务意图、遗漏关键信息或过早终止。更致命的是,单次操作的经验往往随对话结束而消失,无法复用。下一次遇到同类任务或更换 Agent 时,仍需从头试错。

在此背景下,Einsia AI 旗下 Navers Lab 发布了开源项目 BrowserBC。该项目旨在解决“一次操作,多次复用”的问题,通过一种三步范式(录制→转写成 Skill→交付执行),将人类在浏览器中的操作轨迹蒸馏为可复用的自然语言技能(Skill),从而让更便宜、更小的模型也能高效完成复杂的网页任务。

核心内容

BrowserBC 的核心逻辑在于将“技能生成”与“技能执行”彻底解耦。 它并非简单的坐标回放,而是通过模型将人类的操作过程转化为结构化的自然语言说明书,使 Agent 能够理解任务逻辑并在变化的页面环境中举一反三。

1. 三步范式:从录制到执行

  • 录制(Recording): 在浏览器中执行任务时,完整记录全过程。记录内容包括:

    • 任务指令;
    • 每一步的页面观察(渲染截图及结构化的 DOM/可访问性树快照);
    • 用户的每一个动作(点击、输入、跳转、提交及其对应的元素定位);
    • 页面反馈(跳转、校验、报错、完成信号);
    • 任务最终状态。
  • 转写(Transcription): 这是核心环节。系统不是保存为死板的回放脚本,而是由模型将轨迹转写为一份自然语言的 Skill 卡(技能说明书)。这份卡片明确描述了此类任务的通用做法、判断标准和完成条件,剥离了具体的坐标和 DOM 选择器,保留了“该做什么、怎么算做完”的过程性知识。

  • 执行(Execution): 将 Skill 卡交付给任意模型(包括更小、更便宜的模型)。Agent 读取 Skill 后,在真实页面上根据当前状态自主落地操作,而非机械复刻历史点击。

2. 方法细节:清洗、蒸馏与管理

  • 轨迹清洗与证据抽取: 原始轨迹包含误点击、无意义等待及隐私信息。BrowserBC 先清洗数据,按语义切割为连贯子过程,并抽取“证据(evidence)”,包括任务指令、前后页面状态、关键步骤、反馈及成功/失败信号。

  • Skill 转写原则:

    • 保留可迁移知识: 只保留语义层面的流程(如“按标签找字段”、“确认成功状态”)。
    • 剥离易变细节: 剔除精确坐标、DOM 选择器、临时 ID、登录态、隐私文本及具体答案,防止因页面布局变化或数据泄露导致技能失效。
    • 利用失败经验: 结合成功与失败轨迹,强化执行步骤并显式生成恢复策略。
    • 泄露检查: 确保 Skill 卡不包含具体评测答案。
  • Skill 图(Skill Graph)管理: 为避免技能库冗余和冲突,BrowserBC 将技能组织成一张图。新产生的技能会根据意图、前置条件、步骤和效果,被判断为新增节点、合并进已有技能或登记为特化技能。图中的边表示时间依赖、特化关系、替代方案或互斥关系。这种结构支持增量精炼,仅更新受影响的局部区域,实现可扩展性。

  • 轻量级检索: 执行时,系统按语义相似度(叠加页面上下文兼容性)检索少量相关 Skill 注入 Agent 上下文。Agent 仍需读取当前页面进行实时 grounding,Skill 仅作为策略引导而非执行脚本。

3. 实验验证

  • WebArena-Hard 基准测试: 在 258 个经人类核验的任务中,注入 Skill 后 Agent 成功率从 60.5% 提升至 81.4%(+20.9 个百分点),挽回了 54 个原本失败的任务。平均工具调用次数从 31.2 降至 22.7(-27.3%),提升了效率。

  • ClawBench 基准测试: 在 152 个真实网站任务中(页面布局多变,以写操作为主),Skill-free 基线成功率仅为 32.9%,注入 Skill 后提升至 68.4%(+35.5 个百分点),几乎翻倍。

  • 跨模型迁移性: 由强模型(如 Sonnet-4.6)蒸馏出的 Skill,可显著提升小模型(如 Qwen-3.7)的执行效果。小模型装备高质量 Skill 后,表现逼近大模型,验证了“蒸馏一次、便宜复用”的可行性。

  • OSWorld 迁移研究: 在 Ubuntu 桌面任务中,17/30 个任务因匹配技能而改善,证明过程性先验(前置条件、状态转移、里程碑、恢复策略)可跨 GUI 环境迁移。

关键要点

  • 技能即先验,非脚本: Skill 是带置信度的策略先验,而非强制命令。Agent 需结合当前页面状态选择性使用,盲目照搬可能导致失败(实验中约 3.9% 的任务因盲目照搬而变差)。
  • 解耦蒸馏与执行: 技能可由强模型蒸馏,由弱模型执行。技能质量主要取决于蒸馏阶段,高质量技能可跨执行器迁移,实现成本优化。
  • 应对长尾网站: 针对大量不提供官方 Agent 接口(如 MCP)的老网站,BrowserBC 通过复用人类操作经验,使 Agent 无需等待网站升级即可高效访问。
  • 瓶颈在执行精度: 剩余失败案例多因执行精度不足(如漏填字段、目标歧义、预算耗尽或推理跑飞),而非缺乏知识。技能能补“怎么做”,但补不了“手稳不稳”。
  • 幂律分布优势: 常见站点的 Skill 库会随使用收敛完备,稀疏长尾站点也可通过人类轨迹覆盖,无需依赖网站方配合。
  • 可解释与可维护: Skill 以自然语言呈现,便于人类审阅、修改和组合,解决了传统脚本难以维护的问题。

意义与影响

BrowserBC 标志着 Web Agent 从“能操作”向“高效、通用操作”的关键跨越。

  1. 重新定义数据价值: 它揭示了人类浏览器轨迹作为未被充分利用的数据资源的巨大价值。通过蒸馏这些隐含经验,Agent 获得了在信息不完备环境下的决策先验。
  2. 降低部署门槛与成本: 通过“蒸馏一次、便宜复用”的模式,企业无需为每个任务调用昂贵的大模型,显著降低了 Web Agent 的规模化应用成本。
  3. 推动通用性实现: 技能的可迁移性和组合性,使得 Agent 能够适应不断变化的网页布局和新网站,不再受制于特定网站的接口开放程度。
  4. 方法论启示: 对于 OS 级 Agent 或其他 GUI 交互场景,BrowserBC 证明了“过程性先验”的通用性。真正的上限不在于复现流程,而在于构建可积累、可复用、可迁移的经验结构。

这一方法为构建真正通用、高效且低成本的 Web Agent 提供了切实可行的技术路径,是迈向“通用网页浏览”的重要一步。

查看原文 →qbitai.com