开源agent-browser-cli:让AI Agent复用本机Chrome登录态
速览
该项目开源了一个名为agent-browser-cli的命令行工具,旨在让AI Agent(如Codex、Claude Code等)能够直接控制本机已打开的Chrome浏览器。它通过复用现有的登录态、Cookie和页面环境,解决了传统MCP方案中需要重启隔离浏览器、速度慢且无登录态的问题。工具基于Rust重构,支持读取页面、执行JS、操作标签页、获取Cookie、截图及上传文件等功能。
AI 深度解读
背景
在 AI Agent 与浏览器交互的生态中,现有的 MCP (Model Context Protocol) 方案往往存在明显的局限性。许多基于 MCP 的工具无法复用用户本机浏览器中已建立的登录态(Session/Cookie),而是倾向于启动一个隔离的、无登录状态的浏览器实例。这不仅导致用户需要重新登录,还带来了启动速度慢、配置链路长以及 Token 浪费等问题。
为了解决这一痛点,LINUX DO 社区开发者开源了 agent-browser-cli。该项目旨在让 AI Agent 能够直接控制本机正在运行的真实 Chrome 浏览器,复用现有的登录状态和环境。项目最初基于复旦团队研发的 GenericAgent(约 3K 行代码的 Self-Evolving Agent)进行提取和改造,随后通过技术重构和功能扩展,演变为一个独立的 CLI 工具。
核心内容
agent-browser-cli 是一个支持 Windows (含 WSL)、Mac 和 Linux 的命令行工具,其核心目标是实现 AI Agent 对本机 Chrome 浏览器的无缝控制。
设计理念与架构选择 开发者选择将其设计为独立的 CLI + Skill 形式,而非 MCP 插件,主要基于以下考量:
- 通用性:CLI 是最通用的接口,Codex、Claude Code、OpenCode 以及 Shell 脚本均可直接调用。
- 调试便捷性:安装后即可在终端直接验证和排查问题,无需预先加载 MCP 客户端。
- 资源效率:避免 MCP 在闲置时持续占用 Token 或资源,浏览器控制这种本机能力可随时按需调用。
技术实现与功能特性
- 语言重构:项目由 Python 重构为 Rust,显著提升了命令执行速度。
- 会话复用:通过 Chrome 扩展(Agent Browser CLI Bridge)与 CLI 本体通信,复用当前浏览器的 Cookie、登录态及页面环境。
- 操作能力:支持读取页面内容、执行 JavaScript、操作标签页(新建、切换、关闭、分组)、获取 Cookie、截图、上传文件等。
- 静默操作优化:默认不聚焦浏览器窗口,防止操作过程中浏览器主动弹出打断用户工作流。通过
allowFocus参数可显式控制是否允许聚焦。 - 多环境支持:支持多浏览器和多 Chrome Profile,会话隔离机制为
browser_id:profile_id:tab_id。 - 调试与诊断:新增 snapshot、DOM 定位、network 接口读取、console 控制台读取等调试能力;提供
doctor、logs等诊断命令。
安装与使用流程 项目由三部分组成:
- CLI 本体:通过 npm 安装
agent-browser-cli。 - Chrome 扩展:位于项目
/assets/tmwd_cdp_bridge,需手动加载到 Chrome 中。 - Skill 文档:
skills/agent-browser-cli/SKILL.md,供 AI Agent 读取以理解操作规范。
开发者建议用户阅读官方 AI_INSTALL.md 文档,或通过 AI 辅助完成安装配置。
版本演进亮点
- v0.3.1 (2026-05-17):引入稳定的 DOM 定位、截图/PDF/网络/控制台调试能力;优化标签页操作逻辑,支持静默执行;插件更名为 Agent Browser CLI Bridge 并添加图标。
- v0.3.3 (2026-05-19):优化多浏览器/多用户支持,修复全局
alert被改写问题,将 npm 包体积优化至约 7MB。
关键要点
- 核心痛点解决:解决了 AI Agent 无法复用本机浏览器登录态和 Cookie 的问题,避免了重复登录和环境隔离带来的效率损失。
- 技术栈优势:使用 Rust 重构,相比原 Python 版本具有更快的执行速度;采用 CLI + Skill 架构,兼容 Codex、Claude Code 等多种 AI 工具,调试链路更短。
- 用户体验优化:
- 静默操作:默认不抢占系统前台焦点,防止浏览器窗口弹出打断用户。
- 连接稳定:WebSocket 连接前增加本地服务可用性探测,减少连接拒绝报错。
- 配置灵活:支持通过
config.json和命令行参数调整插件端口、聚焦行为等。
- 功能完备性:不仅支持基本的页面浏览和 JS 执行,还涵盖了 DOM 定位、网络请求捕获、控制台日志读取等高级调试功能,以及截图、PDF 生成、文件上传等实用操作。
- 安装门槛:需要手动加载 Chrome 扩展,但提供了详细的安装指南和 AI 辅助安装方案,降低了配置难度。
- 开源合规:项目完全开源,无未开源部分,并遵循 LINUX DO 社区的推广规范。
意义与影响
agent-browser-cli 的出现为 AI Agent 的浏览器自动化提供了一种更高效、更贴近真实用户场景的解决方案。
- 提升 Agent 实用性:通过复用真实浏览器的登录态和环境,AI Agent 能够执行需要身份验证的复杂任务(如管理社交媒体、访问私有数据等),极大地扩展了 Agent 的应用边界。
- 推动本地化 AI 工作流:CLI 形式的工具更易于集成到现有的本地开发和工作流中,无需依赖复杂的云端服务或特定的 MCP 客户端,降低了使用门槛。
- 优化资源与 Token 效率:按需调用和避免 MCP 常驻,减少了不必要的 Token 消耗和系统资源占用,符合 AI 应用对成本和效率的追求。
- 促进开源生态发展:基于
GenericAgent的二次开发,展示了开源社区在 AI 工具链上的协作与创新潜力,为其他开发者提供了可参考的架构设计和实现路径。
该项目不仅是一个技术工具,更是对当前 AI Agent 浏览器交互模式的一种反思和优化,预示着未来 AI 与本地应用交互将更加紧密、高效和自然。
