开源Browser Relay让AI Agent直接操控本机Chrome
速览
为解决AI Agent无法直接操作本机浏览器登录态和扩展环境的痛点,开发者开源了Browser Relay。该项目通过HTTP API/MCP连接Agent与Chrome扩展,利用CDP协议实现点击、输入、截图等操作,同时保留Cookie和LocalStorage。相比Playwright等方案,它无需新建浏览器环境,支持Claude Code、Cursor等任意Agent调用,且近期已优化为CLI优先以降低调用复杂度。
AI 深度解读
背景
在当前的 AI Agent 开发与应用场景中,让大模型直接操控用户本地浏览器是一个长期存在的痛点。尽管 Playwright 和 Puppeteer 等自动化工具广泛使用,但它们默认启动的是全新的、无状态的浏览器环境,无法继承用户本机 Chrome 中积累的登录态、Cookie、LocalStorage 以及已安装的扩展程序。对于许多需要复杂交互、依赖特定插件或必须保持长期登录状态的任务(如抓取登录后内容、操作特定 Web 应用),这种“隔离”使得自动化变得几乎不可能。
此外,现有的替代方案也存在明显缺陷:云浏览器缺乏本地环境;部分开源项目如 openclaw-browser-relay 仅支持特定框架(OpenClaw);dotobot 依赖外部服务器且仅支持读取;agent-reach 侧重于信息获取而非交互操作;而 opencli/opencli-rs 则将网页 CLI 化,无法满足临时性、多样化的网页操作需求。因此,开发者亟需一种能够无缝桥接任意 AI Agent 与本机真实 Chrome 环境的解决方案。
核心内容
针对上述痛点,开发者发布了一个名为 Browser Relay 的工具,旨在将本机 Chrome 浏览器暴露给任意 AI Agent 进行操控。该工具通过一套标准化的架构,实现了 Agent 与本地浏览器之间的双向通信。
架构设计
Browser Relay 的核心架构由四个层级组成,通过不同的协议进行连接:
- AI Agent 层:任意能够调用 HTTP API 或支持 MCP 协议的 AI Agent(如 Claude Code、Cursor、Codex、Windsurf 或自定义脚本)。
- Relay Server 层:运行在本地的中继服务器,接收来自 Agent 的请求。
- Chrome Extension 层:安装在 Chrome 浏览器中的扩展程序,通过 WebSocket 与 Relay Server 通信。
- Chrome 实例层:用户的真实本地 Chrome 浏览器,通过 CDP (Chrome DevTools Protocol) 被扩展程序控制。
功能特性
Browser Relay 提供了丰富的浏览器操作能力,包括但不限于:
- 内容读取:将当前网页内容转换为 Agent 友好的文本快照。
- 交互操作:支持点击按钮、输入文字、提交表单。
- 页面控制:支持滚动页面、截图。
- 脚本执行:允许执行自定义 JavaScript 代码。
- 状态保留:完全保留用户的真实浏览器环境,包括登录态、Cookie、LocalStorage 和扩展程序。
安装与使用流程
该工具提供了标准化的安装步骤,确保开箱即用:
- 安装核心服务:通过 npm 全局安装
@linsoai/browser-relay,并运行browser-relay status检查状态。 - 配置 Chrome 扩展:
- 运行
browser-relay path获取扩展目录路径。 - 在 Chrome 中打开
chrome://extensions,启用开发者模式。 - 选择“加载已解压的扩展程序”,指向上述目录。
- 运行
- 集成 Agent Skills:运行
browser-relay skill命令,根据提示将相应的 Skills 安装到目标 Agent(如 Cursor 或 Claude Code)中,使 AI 能够识别并调用浏览器操作指令。
版本迭代与优化
- 开源与改进:项目已开源(GitHub:
reliefeai/browser-relay)。相较于早期的openclaw-browser-relay,新版本改进了鉴权机制,增加了更便捷的安装流程和 Skills 支持。 - CLI 优先策略:2025 年 5 月 11 日后的更新中,将底层实现从优先使用
curl转为 CLI 优先。这一改动大幅降低了出错概率,避免了 AI 在生成请求时处理复杂的curlbody 和转义字符的问题,同时更新了 Skills 以引导 AI 优先使用 CLI 命令。 - 通用性对比:与 Codex 近期发布的 Chrome 插件类似,Browser Relay 同样基于 CDP 协议,但其核心优势在于开放性——它不绑定特定 AI 模型,支持所有具备 HTTP 调用能力的 Agent。
关键要点
- 解决核心痛点:突破了 Playwright/Puppeteer 无法复用本地登录态和扩展环境的限制,实现了“所见即所得”的本地浏览器自动化。
- 高度兼容性:不依赖特定 AI 框架,支持 Claude Code、Cursor、Codex、Windsurf 等主流 AI 编程助手及自定义 Agent。
- 操作安全性与真实性:直接在用户本机 Chrome 中操作,确保数据隐私(数据不经过第三方云服务器),且能处理需要复杂人机交互或特定插件支持的网页。
- 易用性优化:通过 npm 一键安装、标准化的 Skills 集成以及 CLI 优先的底层重构,显著降低了 AI 调用的复杂度和错误率。
- 开源生态:项目已完全开源,社区反馈积极,且开发者明确表示下一步将加强操作的友好性(减少转义)及跨机器浏览器连通性。
意义与影响
Browser Relay 的出现填补了“通用 AI Agent”与“本地真实浏览器环境”之间的关键空白。它标志着 AI 自动化从“沙箱环境模拟”向“真实环境操控”的重要转变。
- 提升 Agent 实用性:对于需要处理复杂 Web 应用、SaaS 平台或依赖特定登录态的任务,该工具使得 Agent 能够像人类一样使用浏览器,极大地扩展了 AI 的应用边界。
- 推动标准化接口:通过定义清晰的 HTTP API/MCP 与 CDP 之间的映射,为其他开发者提供了可参考的架构范式,促进了浏览器自动化协议的标准化。
- 隐私与安全的平衡:与依赖云浏览器的方案不同,Browser Relay 强调本地化处理,减少了敏感数据(如 Cookie、登录凭证)泄露到第三方服务器的风险,符合对数据隐私要求较高的用户和企业的需求。
- 促进开源协作:项目的快速迭代和开源策略,吸引了社区贡献和反馈(如与 Codex 插件的对比讨论),有助于推动整个 AI Agent 基础设施生态的成熟。
