Agent SkillLINUX DO · AI·2026/4/27

开源Browser Relay让AI Agent直接操控本机Chrome

原标题：为了让 Agent 直接操作我的本地 Chrome，我做了个 Browser Relay

速览

为解决AI Agent无法直接操作本机浏览器登录态和扩展环境的痛点，开发者开源了Browser Relay。该项目通过HTTP API/MCP连接Agent与Chrome扩展，利用CDP协议实现点击、输入、截图等操作，同时保留Cookie和LocalStorage。相比Playwright等方案，它无需新建浏览器环境，支持Claude Code、Cursor等任意Agent调用，且近期已优化为CLI优先以降低调用复杂度。

AI 深度解读

背景

在当前的 AI Agent 开发与应用场景中，让大模型直接操控用户本地浏览器是一个长期存在的痛点。尽管 Playwright 和 Puppeteer 等自动化工具广泛使用，但它们默认启动的是全新的、无状态的浏览器环境，无法继承用户本机 Chrome 中积累的登录态、Cookie、LocalStorage 以及已安装的扩展程序。对于许多需要复杂交互、依赖特定插件或必须保持长期登录状态的任务（如抓取登录后内容、操作特定 Web 应用），这种“隔离”使得自动化变得几乎不可能。

此外，现有的替代方案也存在明显缺陷：云浏览器缺乏本地环境；部分开源项目如 openclaw-browser-relay 仅支持特定框架（OpenClaw）；dotobot 依赖外部服务器且仅支持读取；agent-reach 侧重于信息获取而非交互操作；而 opencli/opencli-rs 则将网页 CLI 化，无法满足临时性、多样化的网页操作需求。因此，开发者亟需一种能够无缝桥接任意 AI Agent 与本机真实 Chrome 环境的解决方案。

核心内容

针对上述痛点，开发者发布了一个名为 Browser Relay 的工具，旨在将本机 Chrome 浏览器暴露给任意 AI Agent 进行操控。该工具通过一套标准化的架构，实现了 Agent 与本地浏览器之间的双向通信。

架构设计

Browser Relay 的核心架构由四个层级组成，通过不同的协议进行连接：

AI Agent 层：任意能够调用 HTTP API 或支持 MCP 协议的 AI Agent（如 Claude Code、Cursor、Codex、Windsurf 或自定义脚本）。
Relay Server 层：运行在本地的中继服务器，接收来自 Agent 的请求。
Chrome Extension 层：安装在 Chrome 浏览器中的扩展程序，通过 WebSocket 与 Relay Server 通信。
Chrome 实例层：用户的真实本地 Chrome 浏览器，通过 CDP (Chrome DevTools Protocol) 被扩展程序控制。

功能特性

Browser Relay 提供了丰富的浏览器操作能力，包括但不限于：

内容读取：将当前网页内容转换为 Agent 友好的文本快照。
交互操作：支持点击按钮、输入文字、提交表单。
页面控制：支持滚动页面、截图。
脚本执行：允许执行自定义 JavaScript 代码。
状态保留：完全保留用户的真实浏览器环境，包括登录态、Cookie、LocalStorage 和扩展程序。

安装与使用流程

该工具提供了标准化的安装步骤，确保开箱即用：

安装核心服务：通过 npm 全局安装 @linsoai/browser-relay，并运行 browser-relay status 检查状态。
配置 Chrome 扩展：
- 运行 browser-relay path 获取扩展目录路径。
- 在 Chrome 中打开 chrome://extensions，启用开发者模式。
- 选择“加载已解压的扩展程序”，指向上述目录。
集成 Agent Skills：运行 browser-relay skill 命令，根据提示将相应的 Skills 安装到目标 Agent（如 Cursor 或 Claude Code）中，使 AI 能够识别并调用浏览器操作指令。

版本迭代与优化

开源与改进：项目已开源（GitHub: reliefeai/browser-relay）。相较于早期的 openclaw-browser-relay，新版本改进了鉴权机制，增加了更便捷的安装流程和 Skills 支持。
CLI 优先策略：2025 年 5 月 11 日后的更新中，将底层实现从优先使用 curl 转为 CLI 优先。这一改动大幅降低了出错概率，避免了 AI 在生成请求时处理复杂的 curl body 和转义字符的问题，同时更新了 Skills 以引导 AI 优先使用 CLI 命令。
通用性对比：与 Codex 近期发布的 Chrome 插件类似，Browser Relay 同样基于 CDP 协议，但其核心优势在于开放性——它不绑定特定 AI 模型，支持所有具备 HTTP 调用能力的 Agent。

关键要点

解决核心痛点：突破了 Playwright/Puppeteer 无法复用本地登录态和扩展环境的限制，实现了“所见即所得”的本地浏览器自动化。
高度兼容性：不依赖特定 AI 框架，支持 Claude Code、Cursor、Codex、Windsurf 等主流 AI 编程助手及自定义 Agent。
操作安全性与真实性：直接在用户本机 Chrome 中操作，确保数据隐私（数据不经过第三方云服务器），且能处理需要复杂人机交互或特定插件支持的网页。
易用性优化：通过 npm 一键安装、标准化的 Skills 集成以及 CLI 优先的底层重构，显著降低了 AI 调用的复杂度和错误率。
开源生态：项目已完全开源，社区反馈积极，且开发者明确表示下一步将加强操作的友好性（减少转义）及跨机器浏览器连通性。

意义与影响

Browser Relay 的出现填补了“通用 AI Agent”与“本地真实浏览器环境”之间的关键空白。它标志着 AI 自动化从“沙箱环境模拟”向“真实环境操控”的重要转变。

提升 Agent 实用性：对于需要处理复杂 Web 应用、SaaS 平台或依赖特定登录态的任务，该工具使得 Agent 能够像人类一样使用浏览器，极大地扩展了 AI 的应用边界。
推动标准化接口：通过定义清晰的 HTTP API/MCP 与 CDP 之间的映射，为其他开发者提供了可参考的架构范式，促进了浏览器自动化协议的标准化。
隐私与安全的平衡：与依赖云浏览器的方案不同，Browser Relay 强调本地化处理，减少了敏感数据（如 Cookie、登录凭证）泄露到第三方服务器的风险，符合对数据隐私要求较高的用户和企业的需求。
促进开源协作：项目的快速迭代和开源策略，吸引了社区贡献和反馈（如与 Codex 插件的对比讨论），有助于推动整个 AI Agent 基础设施生态的成熟。

查看原文 →linux.do