← 返回信息流
Agent SkillLINUX DO · AI·2026/5/13

开源agent-browser-cli:让AI Agent复用本机Chrome登录态

原标题:【开源】三级了!开源一个项目,AI Agent 复用本机真实 Chrome 会话的浏览器控制 CLI,支持读取页面、执行 JS、操作标签页、获取 Cookie、截图和上传文件,保留登录态

速览

该项目开源了一个名为agent-browser-cli的命令行工具,旨在让AI Agent(如Codex、Claude Code等)能够直接控制本机已打开的Chrome浏览器。它通过复用现有的登录态、Cookie和页面环境,解决了传统MCP方案中需要重启隔离浏览器、速度慢且无登录态的问题。工具基于Rust重构,支持读取页面、执行JS、操作标签页、获取Cookie、截图及上传文件等功能。

AI 深度解读

背景

在 AI Agent 与浏览器交互的生态中,现有的 MCP (Model Context Protocol) 方案往往存在明显的局限性。许多基于 MCP 的工具无法复用用户本机浏览器中已建立的登录态(Session/Cookie),而是倾向于启动一个隔离的、无登录状态的浏览器实例。这不仅导致用户需要重新登录,还带来了启动速度慢、配置链路长以及 Token 浪费等问题。

为了解决这一痛点,LINUX DO 社区开发者开源了 agent-browser-cli。该项目旨在让 AI Agent 能够直接控制本机正在运行的真实 Chrome 浏览器,复用现有的登录状态和环境。项目最初基于复旦团队研发的 GenericAgent(约 3K 行代码的 Self-Evolving Agent)进行提取和改造,随后通过技术重构和功能扩展,演变为一个独立的 CLI 工具。

核心内容

agent-browser-cli 是一个支持 Windows (含 WSL)、Mac 和 Linux 的命令行工具,其核心目标是实现 AI Agent 对本机 Chrome 浏览器的无缝控制。

设计理念与架构选择 开发者选择将其设计为独立的 CLI + Skill 形式,而非 MCP 插件,主要基于以下考量:

  1. 通用性:CLI 是最通用的接口,Codex、Claude Code、OpenCode 以及 Shell 脚本均可直接调用。
  2. 调试便捷性:安装后即可在终端直接验证和排查问题,无需预先加载 MCP 客户端。
  3. 资源效率:避免 MCP 在闲置时持续占用 Token 或资源,浏览器控制这种本机能力可随时按需调用。

技术实现与功能特性

  • 语言重构:项目由 Python 重构为 Rust,显著提升了命令执行速度。
  • 会话复用:通过 Chrome 扩展(Agent Browser CLI Bridge)与 CLI 本体通信,复用当前浏览器的 Cookie、登录态及页面环境。
  • 操作能力:支持读取页面内容、执行 JavaScript、操作标签页(新建、切换、关闭、分组)、获取 Cookie、截图、上传文件等。
  • 静默操作优化:默认不聚焦浏览器窗口,防止操作过程中浏览器主动弹出打断用户工作流。通过 allowFocus 参数可显式控制是否允许聚焦。
  • 多环境支持:支持多浏览器和多 Chrome Profile,会话隔离机制为 browser_id:profile_id:tab_id
  • 调试与诊断:新增 snapshot、DOM 定位、network 接口读取、console 控制台读取等调试能力;提供 doctorlogs 等诊断命令。

安装与使用流程 项目由三部分组成:

  1. CLI 本体:通过 npm 安装 agent-browser-cli
  2. Chrome 扩展:位于项目 /assets/tmwd_cdp_bridge,需手动加载到 Chrome 中。
  3. Skill 文档skills/agent-browser-cli/SKILL.md,供 AI Agent 读取以理解操作规范。

开发者建议用户阅读官方 AI_INSTALL.md 文档,或通过 AI 辅助完成安装配置。

版本演进亮点

  • v0.3.1 (2026-05-17):引入稳定的 DOM 定位、截图/PDF/网络/控制台调试能力;优化标签页操作逻辑,支持静默执行;插件更名为 Agent Browser CLI Bridge 并添加图标。
  • v0.3.3 (2026-05-19):优化多浏览器/多用户支持,修复全局 alert 被改写问题,将 npm 包体积优化至约 7MB。

关键要点

  • 核心痛点解决:解决了 AI Agent 无法复用本机浏览器登录态和 Cookie 的问题,避免了重复登录和环境隔离带来的效率损失。
  • 技术栈优势:使用 Rust 重构,相比原 Python 版本具有更快的执行速度;采用 CLI + Skill 架构,兼容 Codex、Claude Code 等多种 AI 工具,调试链路更短。
  • 用户体验优化
    • 静默操作:默认不抢占系统前台焦点,防止浏览器窗口弹出打断用户。
    • 连接稳定:WebSocket 连接前增加本地服务可用性探测,减少连接拒绝报错。
    • 配置灵活:支持通过 config.json 和命令行参数调整插件端口、聚焦行为等。
  • 功能完备性:不仅支持基本的页面浏览和 JS 执行,还涵盖了 DOM 定位、网络请求捕获、控制台日志读取等高级调试功能,以及截图、PDF 生成、文件上传等实用操作。
  • 安装门槛:需要手动加载 Chrome 扩展,但提供了详细的安装指南和 AI 辅助安装方案,降低了配置难度。
  • 开源合规:项目完全开源,无未开源部分,并遵循 LINUX DO 社区的推广规范。

意义与影响

agent-browser-cli 的出现为 AI Agent 的浏览器自动化提供了一种更高效、更贴近真实用户场景的解决方案。

  1. 提升 Agent 实用性:通过复用真实浏览器的登录态和环境,AI Agent 能够执行需要身份验证的复杂任务(如管理社交媒体、访问私有数据等),极大地扩展了 Agent 的应用边界。
  2. 推动本地化 AI 工作流:CLI 形式的工具更易于集成到现有的本地开发和工作流中,无需依赖复杂的云端服务或特定的 MCP 客户端,降低了使用门槛。
  3. 优化资源与 Token 效率:按需调用和避免 MCP 常驻,减少了不必要的 Token 消耗和系统资源占用,符合 AI 应用对成本和效率的追求。
  4. 促进开源生态发展:基于 GenericAgent 的二次开发,展示了开源社区在 AI 工具链上的协作与创新潜力,为其他开发者提供了可参考的架构设计和实现路径。

该项目不仅是一个技术工具,更是对当前 AI Agent 浏览器交互模式的一种反思和优化,预示着未来 AI 与本地应用交互将更加紧密、高效和自然。

查看原文 →linux.do