Agent SkillLINUX DO · AI·2026/5/13

开源agent-browser-cli：让AI Agent复用本机Chrome登录态

原标题：【开源】三级了！开源一个项目，AI Agent 复用本机真实 Chrome 会话的浏览器控制 CLI，支持读取页面、执行 JS、操作标签页、获取 Cookie、截图和上传文件，保留登录态

速览

该项目开源了一个名为agent-browser-cli的命令行工具，旨在让AI Agent（如Codex、Claude Code等）能够直接控制本机已打开的Chrome浏览器。它通过复用现有的登录态、Cookie和页面环境，解决了传统MCP方案中需要重启隔离浏览器、速度慢且无登录态的问题。工具基于Rust重构，支持读取页面、执行JS、操作标签页、获取Cookie、截图及上传文件等功能。

AI 深度解读

背景

在 AI Agent 与浏览器交互的生态中，现有的 MCP (Model Context Protocol) 方案往往存在明显的局限性。许多基于 MCP 的工具无法复用用户本机浏览器中已建立的登录态（Session/Cookie），而是倾向于启动一个隔离的、无登录状态的浏览器实例。这不仅导致用户需要重新登录，还带来了启动速度慢、配置链路长以及 Token 浪费等问题。

为了解决这一痛点，LINUX DO 社区开发者开源了 agent-browser-cli。该项目旨在让 AI Agent 能够直接控制本机正在运行的真实 Chrome 浏览器，复用现有的登录状态和环境。项目最初基于复旦团队研发的 GenericAgent（约 3K 行代码的 Self-Evolving Agent）进行提取和改造，随后通过技术重构和功能扩展，演变为一个独立的 CLI 工具。

核心内容

agent-browser-cli 是一个支持 Windows (含 WSL)、Mac 和 Linux 的命令行工具，其核心目标是实现 AI Agent 对本机 Chrome 浏览器的无缝控制。

设计理念与架构选择 开发者选择将其设计为独立的 CLI + Skill 形式，而非 MCP 插件，主要基于以下考量：

通用性：CLI 是最通用的接口，Codex、Claude Code、OpenCode 以及 Shell 脚本均可直接调用。
调试便捷性：安装后即可在终端直接验证和排查问题，无需预先加载 MCP 客户端。
资源效率：避免 MCP 在闲置时持续占用 Token 或资源，浏览器控制这种本机能力可随时按需调用。

技术实现与功能特性

语言重构：项目由 Python 重构为 Rust，显著提升了命令执行速度。
会话复用：通过 Chrome 扩展（Agent Browser CLI Bridge）与 CLI 本体通信，复用当前浏览器的 Cookie、登录态及页面环境。
操作能力：支持读取页面内容、执行 JavaScript、操作标签页（新建、切换、关闭、分组）、获取 Cookie、截图、上传文件等。
静默操作优化：默认不聚焦浏览器窗口，防止操作过程中浏览器主动弹出打断用户工作流。通过 allowFocus 参数可显式控制是否允许聚焦。
多环境支持：支持多浏览器和多 Chrome Profile，会话隔离机制为 browser_id:profile_id:tab_id。
调试与诊断：新增 snapshot、DOM 定位、network 接口读取、console 控制台读取等调试能力；提供 doctor、logs 等诊断命令。

安装与使用流程 项目由三部分组成：

CLI 本体：通过 npm 安装 agent-browser-cli。
Chrome 扩展：位于项目 /assets/tmwd_cdp_bridge，需手动加载到 Chrome 中。
Skill 文档：skills/agent-browser-cli/SKILL.md，供 AI Agent 读取以理解操作规范。

开发者建议用户阅读官方 AI_INSTALL.md 文档，或通过 AI 辅助完成安装配置。

版本演进亮点

v0.3.1 (2026-05-17)：引入稳定的 DOM 定位、截图/PDF/网络/控制台调试能力；优化标签页操作逻辑，支持静默执行；插件更名为 Agent Browser CLI Bridge 并添加图标。
v0.3.3 (2026-05-19)：优化多浏览器/多用户支持，修复全局 alert 被改写问题，将 npm 包体积优化至约 7MB。

关键要点

核心痛点解决：解决了 AI Agent 无法复用本机浏览器登录态和 Cookie 的问题，避免了重复登录和环境隔离带来的效率损失。
技术栈优势：使用 Rust 重构，相比原 Python 版本具有更快的执行速度；采用 CLI + Skill 架构，兼容 Codex、Claude Code 等多种 AI 工具，调试链路更短。
用户体验优化：
- 静默操作：默认不抢占系统前台焦点，防止浏览器窗口弹出打断用户。
- 连接稳定：WebSocket 连接前增加本地服务可用性探测，减少连接拒绝报错。
- 配置灵活：支持通过 config.json 和命令行参数调整插件端口、聚焦行为等。
功能完备性：不仅支持基本的页面浏览和 JS 执行，还涵盖了 DOM 定位、网络请求捕获、控制台日志读取等高级调试功能，以及截图、PDF 生成、文件上传等实用操作。
安装门槛：需要手动加载 Chrome 扩展，但提供了详细的安装指南和 AI 辅助安装方案，降低了配置难度。
开源合规：项目完全开源，无未开源部分，并遵循 LINUX DO 社区的推广规范。

意义与影响

agent-browser-cli 的出现为 AI Agent 的浏览器自动化提供了一种更高效、更贴近真实用户场景的解决方案。

提升 Agent 实用性：通过复用真实浏览器的登录态和环境，AI Agent 能够执行需要身份验证的复杂任务（如管理社交媒体、访问私有数据等），极大地扩展了 Agent 的应用边界。
推动本地化 AI 工作流：CLI 形式的工具更易于集成到现有的本地开发和工作流中，无需依赖复杂的云端服务或特定的 MCP 客户端，降低了使用门槛。
优化资源与 Token 效率：按需调用和避免 MCP 常驻，减少了不必要的 Token 消耗和系统资源占用，符合 AI 应用对成本和效率的追求。
促进开源生态发展：基于 GenericAgent 的二次开发，展示了开源社区在 AI 工具链上的协作与创新潜力，为其他开发者提供了可参考的架构设计和实现路径。

该项目不仅是一个技术工具，更是对当前 AI Agent 浏览器交互模式的一种反思和优化，预示着未来 AI 与本地应用交互将更加紧密、高效和自然。

查看原文 →linux.do

开源agent-browser-cli：让AI Agent复用本机Chrome登录态

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐