AI 资讯量子位·2 小时前

BrowserBC：一次录制让所有Agent具备人类点击能力

原标题：BrowserBC：克隆人类点击，让一次网页操作转化为所有Agent的能力

速览

BrowserBC是一种创新技术，旨在通过录制人类在网页上的点击和操作行为，将其转化为可复用的技能。该技术允许单个Agent模拟这些操作，并将这些能力共享给所有其他Agent，从而大幅降低自动化任务的开发门槛。这一突破有望提升多Agent协作的效率和通用性。

AI 深度解读

背景

当前的 Web Agent（网页智能体）虽然已经具备了基础的浏览器操作能力，如识别按钮、输入框、点击、跳转和提交等，但在实际应用中仍面临严峻挑战。主要痛点在于“从零探索”的高昂成本与低效性：每当面对新任务或新网站时，Agent 往往需要调用昂贵且强大的模型重新摸索流程。这种探索过程极易导致 Agent 陷入死循环、偏离任务意图、遗漏关键信息或过早终止。更致命的是，单次操作的经验往往随对话结束而消失，无法复用。下一次遇到同类任务或更换 Agent 时，仍需从头试错。

在此背景下，Einsia AI 旗下 Navers Lab 发布了开源项目 BrowserBC。该项目旨在解决“一次操作，多次复用”的问题，通过一种三步范式（录制→转写成 Skill→交付执行），将人类在浏览器中的操作轨迹蒸馏为可复用的自然语言技能（Skill），从而让更便宜、更小的模型也能高效完成复杂的网页任务。

核心内容

BrowserBC 的核心逻辑在于将“技能生成”与“技能执行”彻底解耦。 它并非简单的坐标回放，而是通过模型将人类的操作过程转化为结构化的自然语言说明书，使 Agent 能够理解任务逻辑并在变化的页面环境中举一反三。

1. 三步范式：从录制到执行

录制（Recording）： 在浏览器中执行任务时，完整记录全过程。记录内容包括：
- 任务指令；
- 每一步的页面观察（渲染截图及结构化的 DOM/可访问性树快照）；
- 用户的每一个动作（点击、输入、跳转、提交及其对应的元素定位）；
- 页面反馈（跳转、校验、报错、完成信号）；
- 任务最终状态。
转写（Transcription）： 这是核心环节。系统不是保存为死板的回放脚本，而是由模型将轨迹转写为一份自然语言的 Skill 卡（技能说明书）。这份卡片明确描述了此类任务的通用做法、判断标准和完成条件，剥离了具体的坐标和 DOM 选择器，保留了“该做什么、怎么算做完”的过程性知识。
执行（Execution）： 将 Skill 卡交付给任意模型（包括更小、更便宜的模型）。Agent 读取 Skill 后，在真实页面上根据当前状态自主落地操作，而非机械复刻历史点击。

2. 方法细节：清洗、蒸馏与管理

轨迹清洗与证据抽取： 原始轨迹包含误点击、无意义等待及隐私信息。BrowserBC 先清洗数据，按语义切割为连贯子过程，并抽取“证据（evidence）”，包括任务指令、前后页面状态、关键步骤、反馈及成功/失败信号。
Skill 转写原则：
- 保留可迁移知识： 只保留语义层面的流程（如“按标签找字段”、“确认成功状态”）。
- 剥离易变细节： 剔除精确坐标、DOM 选择器、临时 ID、登录态、隐私文本及具体答案，防止因页面布局变化或数据泄露导致技能失效。
- 利用失败经验： 结合成功与失败轨迹，强化执行步骤并显式生成恢复策略。
- 泄露检查： 确保 Skill 卡不包含具体评测答案。
Skill 图（Skill Graph）管理： 为避免技能库冗余和冲突，BrowserBC 将技能组织成一张图。新产生的技能会根据意图、前置条件、步骤和效果，被判断为新增节点、合并进已有技能或登记为特化技能。图中的边表示时间依赖、特化关系、替代方案或互斥关系。这种结构支持增量精炼，仅更新受影响的局部区域，实现可扩展性。
轻量级检索： 执行时，系统按语义相似度（叠加页面上下文兼容性）检索少量相关 Skill 注入 Agent 上下文。Agent 仍需读取当前页面进行实时 grounding，Skill 仅作为策略引导而非执行脚本。

3. 实验验证

WebArena-Hard 基准测试： 在 258 个经人类核验的任务中，注入 Skill 后 Agent 成功率从 60.5% 提升至 81.4%（+20.9 个百分点），挽回了 54 个原本失败的任务。平均工具调用次数从 31.2 降至 22.7（-27.3%），提升了效率。
ClawBench 基准测试： 在 152 个真实网站任务中（页面布局多变，以写操作为主），Skill-free 基线成功率仅为 32.9%，注入 Skill 后提升至 68.4%（+35.5 个百分点），几乎翻倍。
跨模型迁移性： 由强模型（如 Sonnet-4.6）蒸馏出的 Skill，可显著提升小模型（如 Qwen-3.7）的执行效果。小模型装备高质量 Skill 后，表现逼近大模型，验证了“蒸馏一次、便宜复用”的可行性。
OSWorld 迁移研究： 在 Ubuntu 桌面任务中，17/30 个任务因匹配技能而改善，证明过程性先验（前置条件、状态转移、里程碑、恢复策略）可跨 GUI 环境迁移。

关键要点

技能即先验，非脚本： Skill 是带置信度的策略先验，而非强制命令。Agent 需结合当前页面状态选择性使用，盲目照搬可能导致失败（实验中约 3.9% 的任务因盲目照搬而变差）。
解耦蒸馏与执行： 技能可由强模型蒸馏，由弱模型执行。技能质量主要取决于蒸馏阶段，高质量技能可跨执行器迁移，实现成本优化。
应对长尾网站： 针对大量不提供官方 Agent 接口（如 MCP）的老网站，BrowserBC 通过复用人类操作经验，使 Agent 无需等待网站升级即可高效访问。
瓶颈在执行精度： 剩余失败案例多因执行精度不足（如漏填字段、目标歧义、预算耗尽或推理跑飞），而非缺乏知识。技能能补“怎么做”，但补不了“手稳不稳”。
幂律分布优势： 常见站点的 Skill 库会随使用收敛完备，稀疏长尾站点也可通过人类轨迹覆盖，无需依赖网站方配合。
可解释与可维护： Skill 以自然语言呈现，便于人类审阅、修改和组合，解决了传统脚本难以维护的问题。

意义与影响

BrowserBC 标志着 Web Agent 从“能操作”向“高效、通用操作”的关键跨越。

重新定义数据价值： 它揭示了人类浏览器轨迹作为未被充分利用的数据资源的巨大价值。通过蒸馏这些隐含经验，Agent 获得了在信息不完备环境下的决策先验。
降低部署门槛与成本： 通过“蒸馏一次、便宜复用”的模式，企业无需为每个任务调用昂贵的大模型，显著降低了 Web Agent 的规模化应用成本。
推动通用性实现： 技能的可迁移性和组合性，使得 Agent 能够适应不断变化的网页布局和新网站，不再受制于特定网站的接口开放程度。
方法论启示： 对于 OS 级 Agent 或其他 GUI 交互场景，BrowserBC 证明了“过程性先验”的通用性。真正的上限不在于复现流程，而在于构建可积累、可复用、可迁移的经验结构。

这一方法为构建真正通用、高效且低成本的 Web Agent 提供了切实可行的技术路径，是迈向“通用网页浏览”的重要一步。

查看原文 →qbitai.com