← 返回信息流
Agent SkillLINUX DO · AI·2 小时前

在Windows下通过MCP为Claude Code添加Computer Use能力

原标题:在Windows下的Claude Code中使用Computer Use

速览

该玩法通过MCP协议将Codex的Computer Use封装为服务器,实现在Windows环境下为Claude Code添加计算机操作能力。实测表明,即使是不支持多模态的模型也能运行,但效果受模型能力影响较大,不如GPT+Codex原生方案稳定。

AI 深度解读

背景

在 AI 编程助手领域,Anthropic 推出的 Claude Code 以及 OpenAI 的 Codex 均代表了当前 Agent 能力的顶尖水平。其中,OpenAI 的 Codex 引入了原生支持 GUI 操作的 "Computer Use" 功能,允许模型直接操控电脑界面完成复杂任务。然而,这一功能通常局限于 OpenAI 自身的生态闭环内。

与此同时,Model Context Protocol (MCP) 作为连接 AI 模型与外部数据/工具的标准协议,正在成为各大 AI 代理(Agent)扩展能力的通用基础设施。本文分享了一种在 Windows 环境下,通过 MCP 协议将 Codex 的 Computer Use 能力“移植”或“封装”到 Claude Code 中的技术方案。该方案旨在打破模型间的壁垒,让用户能够利用 Claude Code 的交互优势,结合底层 Computer Use 的执行能力,实现跨模型的 GUI 自动化操作。

核心内容

该方案的核心逻辑在于将 OpenAI Codex 的 Computer Use 功能封装为一个标准的 MCP 服务器,从而让 Claude Code 能够像调用其他外部工具一样调用它。

1. 技术原理与架构

  • 本质解构:作者指出,Codex 的 Computer Use 功能本质上是一个可执行文件(exe)。这意味着它不依赖于特定的云端黑盒接口,而是可以在本地环境中被直接调用。
  • MCP 封装:通过编写代码,将这个 exe 文件封装成符合 MCP 规范的服务器。这样,任何支持 MCP 协议的 AI Agent(不仅仅是 Claude Code,理论上包括其他兼容 MCP 的代理)都可以向该服务器发送指令,进而控制 Computer Use 执行屏幕操作。
  • 配置灵活性:项目提供了 config\computer-use\config.json 配置文件,允许用户自定义 Computer Use 界面中蓝色横幅显示的文本,增加了使用的可定制性。

2. 实施步骤

  • 获取资源:用户需下载包含核心 exe 文件和配置脚本的项目压缩包(codex-cua-mcp.zip)。
  • 自动化部署:在项目根目录下运行 PowerShell 脚本 .\setup.ps1。该脚本会自动完成 MCP 服务器的注册工作,无需用户手动配置复杂的连接参数。
  • 集成使用:部署完成后,Claude Code 即可通过 MCP 协议连接至该服务器,开始执行基于 GUI 的操作任务。

3. 兼容性测试与效果评估

  • 模型兼容性:实测表明,该方案不仅适用于原生支持多模态的模型,甚至可以在不支持多模态的模型(如 Mimo V2.5 Pro、Deepseek)上正常运行。
  • 效果差异
    • 原生优势:OpenAI 的 GPT + Codex 原生 Computer Use 在准确性和速度上仍具有明显优势,因为这是其原生架构的一部分。
    • 第三方模型表现:使用 Mimo 或 Deepseek 等非原生模型时,执行速度较慢,且准确率可能不稳定。作者推测,支持多模态的模型在处理视觉指令时效果会更好,但具体表现仍高度依赖于所选模型的能力。

关键要点

  • MCP 协议的通用性:该方案验证了 MCP 协议在整合不同 AI 模型能力方面的潜力,使得非原生的 Computer Use 功能可以被其他 Agent 复用。
  • 本地化执行:核心功能依赖于本地运行的 exe 文件,这意味着操作可以在本地环境中完成,不必然依赖特定的云端推理服务(尽管模型推理可能需要云端支持)。
  • 低门槛部署:通过 setup.ps1 脚本实现一键注册,降低了用户配置 MCP 服务器的技术门槛。
  • 效果依赖模型能力:虽然技术链路打通,但最终的任务执行效果(速度、准确率)严重依赖于调用该 MCP 服务的 AI 模型本身的能力,尤其是视觉理解和指令遵循能力。
  • 多模态非强制但有益:即使模型本身不支持多模态输入,该方案仍可运行,但支持多模态的模型预计能提供更优的操作指导效果。

意义与影响

这一实践展示了 AI 工具链解耦与重组的可能性。通过 MCP 协议,开发者可以将不同厂商、不同特性的 AI 能力模块化,并根据需求进行灵活组合。对于 Windows 用户而言,这提供了一种在 Claude Code 等优秀交互界面中利用强大底层 GUI 操作能力的替代方案。

然而,这也揭示了当前跨模型集成面临的挑战:由于缺乏原生的深度优化,非原生集成的 Computer Use 在稳定性和效率上仍有差距。未来的发展方向可能在于 MCP 标准的进一步普及,以及各模型厂商对 GUI 操作能力的原生标准化支持,从而降低此类“拼装”方案的摩擦成本。

查看原文 →linux.do