在Windows下通过MCP为Claude Code添加Computer Use能力
速览
该玩法通过MCP协议将Codex的Computer Use封装为服务器,实现在Windows环境下为Claude Code添加计算机操作能力。实测表明,即使是不支持多模态的模型也能运行,但效果受模型能力影响较大,不如GPT+Codex原生方案稳定。
AI 深度解读
背景
在 AI 编程助手领域,Anthropic 推出的 Claude Code 以及 OpenAI 的 Codex 均代表了当前 Agent 能力的顶尖水平。其中,OpenAI 的 Codex 引入了原生支持 GUI 操作的 "Computer Use" 功能,允许模型直接操控电脑界面完成复杂任务。然而,这一功能通常局限于 OpenAI 自身的生态闭环内。
与此同时,Model Context Protocol (MCP) 作为连接 AI 模型与外部数据/工具的标准协议,正在成为各大 AI 代理(Agent)扩展能力的通用基础设施。本文分享了一种在 Windows 环境下,通过 MCP 协议将 Codex 的 Computer Use 能力“移植”或“封装”到 Claude Code 中的技术方案。该方案旨在打破模型间的壁垒,让用户能够利用 Claude Code 的交互优势,结合底层 Computer Use 的执行能力,实现跨模型的 GUI 自动化操作。
核心内容
该方案的核心逻辑在于将 OpenAI Codex 的 Computer Use 功能封装为一个标准的 MCP 服务器,从而让 Claude Code 能够像调用其他外部工具一样调用它。
1. 技术原理与架构
- 本质解构:作者指出,Codex 的 Computer Use 功能本质上是一个可执行文件(exe)。这意味着它不依赖于特定的云端黑盒接口,而是可以在本地环境中被直接调用。
- MCP 封装:通过编写代码,将这个 exe 文件封装成符合 MCP 规范的服务器。这样,任何支持 MCP 协议的 AI Agent(不仅仅是 Claude Code,理论上包括其他兼容 MCP 的代理)都可以向该服务器发送指令,进而控制 Computer Use 执行屏幕操作。
- 配置灵活性:项目提供了
config\computer-use\config.json配置文件,允许用户自定义 Computer Use 界面中蓝色横幅显示的文本,增加了使用的可定制性。
2. 实施步骤
- 获取资源:用户需下载包含核心 exe 文件和配置脚本的项目压缩包(
codex-cua-mcp.zip)。 - 自动化部署:在项目根目录下运行 PowerShell 脚本
.\setup.ps1。该脚本会自动完成 MCP 服务器的注册工作,无需用户手动配置复杂的连接参数。 - 集成使用:部署完成后,Claude Code 即可通过 MCP 协议连接至该服务器,开始执行基于 GUI 的操作任务。
3. 兼容性测试与效果评估
- 模型兼容性:实测表明,该方案不仅适用于原生支持多模态的模型,甚至可以在不支持多模态的模型(如 Mimo V2.5 Pro、Deepseek)上正常运行。
- 效果差异:
- 原生优势:OpenAI 的 GPT + Codex 原生 Computer Use 在准确性和速度上仍具有明显优势,因为这是其原生架构的一部分。
- 第三方模型表现:使用 Mimo 或 Deepseek 等非原生模型时,执行速度较慢,且准确率可能不稳定。作者推测,支持多模态的模型在处理视觉指令时效果会更好,但具体表现仍高度依赖于所选模型的能力。
关键要点
- MCP 协议的通用性:该方案验证了 MCP 协议在整合不同 AI 模型能力方面的潜力,使得非原生的 Computer Use 功能可以被其他 Agent 复用。
- 本地化执行:核心功能依赖于本地运行的 exe 文件,这意味着操作可以在本地环境中完成,不必然依赖特定的云端推理服务(尽管模型推理可能需要云端支持)。
- 低门槛部署:通过
setup.ps1脚本实现一键注册,降低了用户配置 MCP 服务器的技术门槛。 - 效果依赖模型能力:虽然技术链路打通,但最终的任务执行效果(速度、准确率)严重依赖于调用该 MCP 服务的 AI 模型本身的能力,尤其是视觉理解和指令遵循能力。
- 多模态非强制但有益:即使模型本身不支持多模态输入,该方案仍可运行,但支持多模态的模型预计能提供更优的操作指导效果。
意义与影响
这一实践展示了 AI 工具链解耦与重组的可能性。通过 MCP 协议,开发者可以将不同厂商、不同特性的 AI 能力模块化,并根据需求进行灵活组合。对于 Windows 用户而言,这提供了一种在 Claude Code 等优秀交互界面中利用强大底层 GUI 操作能力的替代方案。
然而,这也揭示了当前跨模型集成面临的挑战:由于缺乏原生的深度优化,非原生集成的 Computer Use 在稳定性和效率上仍有差距。未来的发展方向可能在于 MCP 标准的进一步普及,以及各模型厂商对 GUI 操作能力的原生标准化支持,从而降低此类“拼装”方案的摩擦成本。
