Agent SkillLINUX DO · AI·2 小时前

在Windows下通过MCP为Claude Code添加Computer Use能力

原标题：在Windows下的Claude Code中使用Computer Use

速览

该玩法通过MCP协议将Codex的Computer Use封装为服务器，实现在Windows环境下为Claude Code添加计算机操作能力。实测表明，即使是不支持多模态的模型也能运行，但效果受模型能力影响较大，不如GPT+Codex原生方案稳定。

AI 深度解读

背景

在 AI 编程助手领域，Anthropic 推出的 Claude Code 以及 OpenAI 的 Codex 均代表了当前 Agent 能力的顶尖水平。其中，OpenAI 的 Codex 引入了原生支持 GUI 操作的 "Computer Use" 功能，允许模型直接操控电脑界面完成复杂任务。然而，这一功能通常局限于 OpenAI 自身的生态闭环内。

与此同时，Model Context Protocol (MCP) 作为连接 AI 模型与外部数据/工具的标准协议，正在成为各大 AI 代理（Agent）扩展能力的通用基础设施。本文分享了一种在 Windows 环境下，通过 MCP 协议将 Codex 的 Computer Use 能力“移植”或“封装”到 Claude Code 中的技术方案。该方案旨在打破模型间的壁垒，让用户能够利用 Claude Code 的交互优势，结合底层 Computer Use 的执行能力，实现跨模型的 GUI 自动化操作。

核心内容

该方案的核心逻辑在于将 OpenAI Codex 的 Computer Use 功能封装为一个标准的 MCP 服务器，从而让 Claude Code 能够像调用其他外部工具一样调用它。

1. 技术原理与架构

本质解构：作者指出，Codex 的 Computer Use 功能本质上是一个可执行文件（exe）。这意味着它不依赖于特定的云端黑盒接口，而是可以在本地环境中被直接调用。
MCP 封装：通过编写代码，将这个 exe 文件封装成符合 MCP 规范的服务器。这样，任何支持 MCP 协议的 AI Agent（不仅仅是 Claude Code，理论上包括其他兼容 MCP 的代理）都可以向该服务器发送指令，进而控制 Computer Use 执行屏幕操作。
配置灵活性：项目提供了 config\computer-use\config.json 配置文件，允许用户自定义 Computer Use 界面中蓝色横幅显示的文本，增加了使用的可定制性。

2. 实施步骤

获取资源：用户需下载包含核心 exe 文件和配置脚本的项目压缩包（codex-cua-mcp.zip）。
自动化部署：在项目根目录下运行 PowerShell 脚本 .\setup.ps1。该脚本会自动完成 MCP 服务器的注册工作，无需用户手动配置复杂的连接参数。
集成使用：部署完成后，Claude Code 即可通过 MCP 协议连接至该服务器，开始执行基于 GUI 的操作任务。

3. 兼容性测试与效果评估

模型兼容性：实测表明，该方案不仅适用于原生支持多模态的模型，甚至可以在不支持多模态的模型（如 Mimo V2.5 Pro、Deepseek）上正常运行。
效果差异：
- 原生优势：OpenAI 的 GPT + Codex 原生 Computer Use 在准确性和速度上仍具有明显优势，因为这是其原生架构的一部分。
- 第三方模型表现：使用 Mimo 或 Deepseek 等非原生模型时，执行速度较慢，且准确率可能不稳定。作者推测，支持多模态的模型在处理视觉指令时效果会更好，但具体表现仍高度依赖于所选模型的能力。

关键要点

MCP 协议的通用性：该方案验证了 MCP 协议在整合不同 AI 模型能力方面的潜力，使得非原生的 Computer Use 功能可以被其他 Agent 复用。
本地化执行：核心功能依赖于本地运行的 exe 文件，这意味着操作可以在本地环境中完成，不必然依赖特定的云端推理服务（尽管模型推理可能需要云端支持）。
低门槛部署：通过 setup.ps1 脚本实现一键注册，降低了用户配置 MCP 服务器的技术门槛。
效果依赖模型能力：虽然技术链路打通，但最终的任务执行效果（速度、准确率）严重依赖于调用该 MCP 服务的 AI 模型本身的能力，尤其是视觉理解和指令遵循能力。
多模态非强制但有益：即使模型本身不支持多模态输入，该方案仍可运行，但支持多模态的模型预计能提供更优的操作指导效果。

意义与影响

这一实践展示了 AI 工具链解耦与重组的可能性。通过 MCP 协议，开发者可以将不同厂商、不同特性的 AI 能力模块化，并根据需求进行灵活组合。对于 Windows 用户而言，这提供了一种在 Claude Code 等优秀交互界面中利用强大底层 GUI 操作能力的替代方案。

然而，这也揭示了当前跨模型集成面临的挑战：由于缺乏原生的深度优化，非原生集成的 Computer Use 在稳定性和效率上仍有差距。未来的发展方向可能在于 MCP 标准的进一步普及，以及各模型厂商对 GUI 操作能力的原生标准化支持，从而降低此类“拼装”方案的摩擦成本。

查看原文 →linux.do

在Windows下通过MCP为Claude Code添加Computer Use能力

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐