← 返回信息流
AI 资讯爱范儿·1 小时前

OpenAI Codex 重磅更新:支持录制并复现电脑操作

原标题:刚刚,Codex 大更新,你在电脑的操作正在成为 AI 经验包

速览

OpenAI 旗下 Codex 应用推出 Record & Replay 功能,允许用户录制在电脑上的完整操作流程,并自动生成可复用的 Skill。该功能基于 Computer Use 等底层能力,能智能识别隐性规则并灵活适配不同场景,显著提升重复性任务的自动化效率。这标志着图形界面操作正逐步成为 AI 接管电脑的基础设施。

AI 深度解读

背景

随着大语言模型(LLM)能力的不断进化,AI 与计算机图形用户界面(GUI)的交互方式正经历从“被动响应”向“主动执行”的转变。长期以来,自动化工作流依赖于软件提供的 API(应用程序接口),这意味着只有开放了结构化接口的应用才能被自动化工具或 AI 高效调用。然而,大量日常办公、设计开发及系统管理任务仍深陷于复杂的图形界面操作中,缺乏标准化的 API 入口,导致这些任务难以被自动化。

在此背景下,OpenAI 推出的 Codex 应用近期发布了重磅功能 Record & Replay(录制与复现)。该功能旨在通过观察人类在电脑上的实际操作,将其转化为可复用的 AI 技能(Skill),从而让 AI 能够像人类一样理解并执行图形界面操作。这一更新不仅标志着 Codex 在 Computer Use(电脑使用)能力上的重大突破,也暗示了 AI 正在从单纯的文本/代码生成工具,演变为能够接管复杂桌面工作流的智能代理。

核心内容

1. Record & Replay 功能机制

Record & Replay 的核心逻辑是“演示即编程”。用户只需在 Codex 中安装该插件,并授权录制权限,然后在 Mac 上正常执行一遍目标任务(如报销、订位、配置 Issue 等)。Codex 会全程观察用户的点击、输入、窗口切换等操作,并在录制结束后自动生成一份 Skill 说明书。

这份 Skill 并非死板的脚本,而是包含以下要素的可复用上下文:

  • 触发条件:何时使用该流程。
  • 输入参数:需要哪些动态数据(如文件名、日期、具体数值)。
  • 执行步骤:具体的操作序列。
  • 验证逻辑:如何确认任务完成。

下次执行时,用户只需新开对话,调用该 Skill 并提供新的具体参数,Codex 即可结合当前环境灵活复现整个流程。

2. 操作规范与最佳实践

为了确保录制的 Skill 高质量且稳定,官方建议遵循以下七步流程及注意事项:

  • 准备:在 Codex 插件中搜索并添加 Record & Replay。
  • 授权:同意录制权限请求。
  • 演示:专注完成单一任务,避免录制无关操作。
  • 停止:任务完成后主动停止录制。
  • 复盘:Codex 自动生成 Skill 草稿,用户可要求打磨。
  • 隐性规则补充:录制时尽量使用真实数据(严禁密码等敏感信息),并在事后补充命名规范、默认字段值、决策逻辑等隐性偏好。
  • 复用:通过新对话调用 Skill,传入新参数即可执行。

3. Codex 操作电脑的三种路径

Codex 之所以能实现 Record & Replay,依赖于其底层对图形界面的多种操控能力。OpenAI 工程师 Jason 梳理了 Codex 操作电脑的三条主要路径,能力重叠但各有侧重:

  • Computer Use(计算机使用)

    • 能力:覆盖面最广,可在 macOS 和 Windows 上通过视觉识别窗口、菜单,并通过键盘、鼠标、剪贴板操作授权应用。支持后台运行,甚至可通过 iPhone 镜像操作 iOS 设备。
    • 局限:速度较慢(需“看-判-等-验”循环),信任边界宽(涉及资金、凭据等敏感操作需人工在场)。
    • 关系:Record & Replay 仅与 Computer Use 绑定,因为复现依赖其底层视觉交互能力。
  • Chrome 扩展

    • 能力:接管已登录的 Chrome 浏览器,适合处理依赖 Cookie 和会话的任务(如 Gmail、Salesforce)。支持多标签页串联工作流。
    • 局限:携带用户身份,敏感操作(发送、购买)需人工审核。
  • 应用内浏览器(App-in-browser)

    • 能力:存在于 Codex 对话内部,与用户共享渲染页面但隔离 Cookie 和扩展。适合 Web 应用开发调试,形成“改代码-截图-反馈”的闭环。
    • 局限:不触碰用户本地浏览器环境。

此外,Appshot 机制负责将用户当前焦点窗口的图像和文字提取并附入对话,为 AI 提供视觉上下文,配合上述三种执行方式完成“指方向”与“动手”的分工。

4. 模型开放性与限制

Codex 应用本身是一个对模型开放的客户端。用户可通过 config.toml 配置 model_providers,将 Codex 指向 Ollama、LM Studio 等本地开源模型,或 Mistral、Azure、Amazon Bedrock 等第三方服务。

然而,Record & Replay 功能目前存在明确限制:

  • 平台:仅限 macOS。
  • 地区:首发不覆盖欧盟、英国和瑞士。
  • 前置条件:必须先开启 Computer Use 功能。
  • 组织管理:若通过 requirements.toml 统一管理,关闭 [features].computer_use 会导致 Record & Replay 一同不可用。

关键要点

  • Skill 的动态性:Record & Replay 生成的 Skill 是“可复用的上下文”,而非固定脚本。它能根据每次传入的不同参数(如不同文件、不同时间段报表)灵活调整执行细节。
  • 隐性知识显性化:该功能特别擅长处理那些“步骤固定但充满隐性规则”的任务(如特定的文件命名规范、字段默认值、分支决策点),这些规则往往难以通过文字描述,但通过演示可被 AI 自动捕捉。
  • 执行层级差异
    • Computer Use 是基础,负责视觉识别和底层交互,支持跨应用、跨平台(包括 iOS 镜像),但速度较慢且需关注安全边界。
    • Chrome 扩展 适合基于 Web 身份认证的工作流,但需注意身份冒用风险。
    • 应用内浏览器 适合开发调试,提供隔离环境。
  • 模型无关性:Codex 客户端支持接入多种后端模型(包括本地开源模型),Record & Replay 的能力载体是客户端本身,而非特定模型。
  • 当前局限:功能仅限 Mac,且受地区和安全策略(Computer Use 开关)严格限制。对于需要团队共享、捆绑多个 Skill 或集成 MCP 服务器的复杂场景,建议直接打包为独立插件而非依赖录制。

意义与影响

1. 自动化范式的转移:从 API 到 GUI

传统自动化的边界取决于软件厂商开放 API 的意愿。Record & Replay 的出现标志着 AI 开始绕过 API 限制,直接学习人类使用图形界面的方式。AI 不再依赖结构化接口,而是通过视觉理解和模拟操作来接管任务。这意味着,任何拥有图形界面的软件,理论上都可以成为 AI 自动化的对象。

2. 操作系统角色的重构:AI 成为新的中间层

过去,操作系统是软件的组织者,而人类是连接不同软件、传递信息的中间层。随着 AI 能够跨应用观察、理解并执行任务,AI 开始承担这一中间层角色。用户关注点从“如何操作软件”转向“想完成什么任务”,AI 负责处理报销填写、视频配置、系统切换等细节。未来,频繁使用软件的主体可能不再是人,而是 AI。

3. 人机协作关系的演变:从操作者到训练者

Record & Replay 揭示了一种新的趋势:人类正在从软件的直接操作者,逐渐转变为软件能力的训练者。今天,我们学习如何使用工具;未来,一项重要的能力将是“教会 AI 使用工具”。通过将个人工作流沉淀为 Skill,用户实际上是在构建自己的 AI 经验库,让 AI 成为具备个人偏好和工作习惯的“数字学徒”。

4. 对开发者和企业的启示

对于开发者而言,Codex 对本地开源模型的支持降低了使用门槛,但同时也要求更精细的安全管控(如敏感数据隔离)。对于企业而言,虽然 Record & Replay 提供了快速构建自动化的捷径,但对于标准化、高安全要求的团队工作流,仍需回归到传统的插件开发、MCP 服务器集成和严格的权限管理中,不能仅依赖录制生成的 Skill。

查看原文 →ifanr.com