AI 资讯爱范儿·1 小时前

OpenAI Codex 重磅更新：支持录制并复现电脑操作

原标题：刚刚，Codex 大更新，你在电脑的操作正在成为 AI 经验包

速览

OpenAI 旗下 Codex 应用推出 Record & Replay 功能，允许用户录制在电脑上的完整操作流程，并自动生成可复用的 Skill。该功能基于 Computer Use 等底层能力，能智能识别隐性规则并灵活适配不同场景，显著提升重复性任务的自动化效率。这标志着图形界面操作正逐步成为 AI 接管电脑的基础设施。

AI 深度解读

背景

随着大语言模型（LLM）能力的不断进化，AI 与计算机图形用户界面（GUI）的交互方式正经历从“被动响应”向“主动执行”的转变。长期以来，自动化工作流依赖于软件提供的 API（应用程序接口），这意味着只有开放了结构化接口的应用才能被自动化工具或 AI 高效调用。然而，大量日常办公、设计开发及系统管理任务仍深陷于复杂的图形界面操作中，缺乏标准化的 API 入口，导致这些任务难以被自动化。

在此背景下，OpenAI 推出的 Codex 应用近期发布了重磅功能 Record & Replay（录制与复现）。该功能旨在通过观察人类在电脑上的实际操作，将其转化为可复用的 AI 技能（Skill），从而让 AI 能够像人类一样理解并执行图形界面操作。这一更新不仅标志着 Codex 在 Computer Use（电脑使用）能力上的重大突破，也暗示了 AI 正在从单纯的文本/代码生成工具，演变为能够接管复杂桌面工作流的智能代理。

核心内容

1. Record & Replay 功能机制

Record & Replay 的核心逻辑是“演示即编程”。用户只需在 Codex 中安装该插件，并授权录制权限，然后在 Mac 上正常执行一遍目标任务（如报销、订位、配置 Issue 等）。Codex 会全程观察用户的点击、输入、窗口切换等操作，并在录制结束后自动生成一份 Skill 说明书。

这份 Skill 并非死板的脚本，而是包含以下要素的可复用上下文：

触发条件：何时使用该流程。
输入参数：需要哪些动态数据（如文件名、日期、具体数值）。
执行步骤：具体的操作序列。
验证逻辑：如何确认任务完成。

下次执行时，用户只需新开对话，调用该 Skill 并提供新的具体参数，Codex 即可结合当前环境灵活复现整个流程。

2. 操作规范与最佳实践

为了确保录制的 Skill 高质量且稳定，官方建议遵循以下七步流程及注意事项：

准备：在 Codex 插件中搜索并添加 Record & Replay。
授权：同意录制权限请求。
演示：专注完成单一任务，避免录制无关操作。
停止：任务完成后主动停止录制。
复盘：Codex 自动生成 Skill 草稿，用户可要求打磨。
隐性规则补充：录制时尽量使用真实数据（严禁密码等敏感信息），并在事后补充命名规范、默认字段值、决策逻辑等隐性偏好。
复用：通过新对话调用 Skill，传入新参数即可执行。

3. Codex 操作电脑的三种路径

Codex 之所以能实现 Record & Replay，依赖于其底层对图形界面的多种操控能力。OpenAI 工程师 Jason 梳理了 Codex 操作电脑的三条主要路径，能力重叠但各有侧重：

Computer Use（计算机使用）：
- 能力：覆盖面最广，可在 macOS 和 Windows 上通过视觉识别窗口、菜单，并通过键盘、鼠标、剪贴板操作授权应用。支持后台运行，甚至可通过 iPhone 镜像操作 iOS 设备。
- 局限：速度较慢（需“看-判-等-验”循环），信任边界宽（涉及资金、凭据等敏感操作需人工在场）。
- 关系：Record & Replay 仅与 Computer Use 绑定，因为复现依赖其底层视觉交互能力。
Chrome 扩展：
- 能力：接管已登录的 Chrome 浏览器，适合处理依赖 Cookie 和会话的任务（如 Gmail、Salesforce）。支持多标签页串联工作流。
- 局限：携带用户身份，敏感操作（发送、购买）需人工审核。
应用内浏览器（App-in-browser）：
- 能力：存在于 Codex 对话内部，与用户共享渲染页面但隔离 Cookie 和扩展。适合 Web 应用开发调试，形成“改代码-截图-反馈”的闭环。
- 局限：不触碰用户本地浏览器环境。

此外，Appshot 机制负责将用户当前焦点窗口的图像和文字提取并附入对话，为 AI 提供视觉上下文，配合上述三种执行方式完成“指方向”与“动手”的分工。

4. 模型开放性与限制

Codex 应用本身是一个对模型开放的客户端。用户可通过 config.toml 配置 model_providers，将 Codex 指向 Ollama、LM Studio 等本地开源模型，或 Mistral、Azure、Amazon Bedrock 等第三方服务。

然而，Record & Replay 功能目前存在明确限制：

平台：仅限 macOS。
地区：首发不覆盖欧盟、英国和瑞士。
前置条件：必须先开启 Computer Use 功能。
组织管理：若通过 requirements.toml 统一管理，关闭 [features].computer_use 会导致 Record & Replay 一同不可用。

关键要点

Skill 的动态性：Record & Replay 生成的 Skill 是“可复用的上下文”，而非固定脚本。它能根据每次传入的不同参数（如不同文件、不同时间段报表）灵活调整执行细节。
隐性知识显性化：该功能特别擅长处理那些“步骤固定但充满隐性规则”的任务（如特定的文件命名规范、字段默认值、分支决策点），这些规则往往难以通过文字描述，但通过演示可被 AI 自动捕捉。
执行层级差异：
- Computer Use 是基础，负责视觉识别和底层交互，支持跨应用、跨平台（包括 iOS 镜像），但速度较慢且需关注安全边界。
- Chrome 扩展 适合基于 Web 身份认证的工作流，但需注意身份冒用风险。
- 应用内浏览器 适合开发调试，提供隔离环境。
模型无关性：Codex 客户端支持接入多种后端模型（包括本地开源模型），Record & Replay 的能力载体是客户端本身，而非特定模型。
当前局限：功能仅限 Mac，且受地区和安全策略（Computer Use 开关）严格限制。对于需要团队共享、捆绑多个 Skill 或集成 MCP 服务器的复杂场景，建议直接打包为独立插件而非依赖录制。

意义与影响

1. 自动化范式的转移：从 API 到 GUI

传统自动化的边界取决于软件厂商开放 API 的意愿。Record & Replay 的出现标志着 AI 开始绕过 API 限制，直接学习人类使用图形界面的方式。AI 不再依赖结构化接口，而是通过视觉理解和模拟操作来接管任务。这意味着，任何拥有图形界面的软件，理论上都可以成为 AI 自动化的对象。

2. 操作系统角色的重构：AI 成为新的中间层

过去，操作系统是软件的组织者，而人类是连接不同软件、传递信息的中间层。随着 AI 能够跨应用观察、理解并执行任务，AI 开始承担这一中间层角色。用户关注点从“如何操作软件”转向“想完成什么任务”，AI 负责处理报销填写、视频配置、系统切换等细节。未来，频繁使用软件的主体可能不再是人，而是 AI。

3. 人机协作关系的演变：从操作者到训练者

Record & Replay 揭示了一种新的趋势：人类正在从软件的直接操作者，逐渐转变为软件能力的训练者。今天，我们学习如何使用工具；未来，一项重要的能力将是“教会 AI 使用工具”。通过将个人工作流沉淀为 Skill，用户实际上是在构建自己的 AI 经验库，让 AI 成为具备个人偏好和工作习惯的“数字学徒”。

4. 对开发者和企业的启示

对于开发者而言，Codex 对本地开源模型的支持降低了使用门槛，但同时也要求更精细的安全管控（如敏感数据隔离）。对于企业而言，虽然 Record & Replay 提供了快速构建自动化的捷径，但对于标准化、高安全要求的团队工作流，仍需回归到传统的插件开发、MCP 服务器集成和严格的权限管理中，不能仅依赖录制生成的 Skill。

查看原文 →ifanr.com

OpenAI Codex 重磅更新：支持录制并复现电脑操作

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐