Project Fetch: Phase Two
AI 深度解读
Project Fetch 第二阶段:当 AI 开始接管物理世界
背景
2025 年 8 月,Anthropic 的 Frontier Red Team 进行了一项名为 Project Fetch 的实验,旨在探索大型语言模型(LLM)如何赋能非机器人专家。当时,研究人员让 Anthropic 的员工(分为两组:一组使用当时的旗舰模型 Claude Opus 4.1,另一组仅依靠互联网和自身创造力)操作一台市售的四足机器人(即“机器狗”),完成一系列复杂且有趣的任务。
实验结果显示,拥有 Claude Opus 4.1 支持的团队显著优于仅依靠人类智慧的团队,他们不仅完成的工作量更大,而且速度更快。然而,在实验开始前,研究人员曾验证 Opus 4.1 能否完全独立完成任务,结果发现它无法做到——就像没有 Claude 的人类团队一样,它在连接机器人的初步任务上卡住了。
随着 AI 模型能力的飞速进化(甚至快于那只在实验中差点撞到人的一只失控机器狗),Anthropic 决定重新审视 Project Fetch,以测试新一代模型是否能超越上一代的表现。
核心内容
在 Project Fetch 的第二阶段,研究人员重点评估了最新模型 Claude Opus 4.7 的自主能力。实验设定如下:
-
实验设置:
- 研究人员不再要求 Claude 使用物理控制器,也未评估人类使用 Claude 编写的程序控制机器人的时间(仅确认其功能正常)。
- 针对剩余的任务子集,研究人员在 Claude Code 中设置了最大努力级别(maximum effort)和自适应思维(adaptive thinking),对 Opus 4.7 进行了三次试验。
- 人类研究人员的角色被简化为:将运行 Claude Code 的笔记本电脑连接到机器狗、输入初始提示词、批准命令以及批准模型进入下一个任务。
-
性能对比:
- 速度飞跃:在所有由至少一个人类团队在 8 月份完成的任务中,Opus 4.7 完成相同任务的速度至少快了 10 倍。
- 具体数据:对于两个团队都完成的四项任务,Opus 4.7 的平均速度比“无 Claude 团队”快 37 倍以上,比“有 Claude 团队”快 18 倍以上。
- 代码效率:Opus 4.7 生成的代码量仅为“有 Claude 团队”的十分之一左右,但成功率相当或更高。这表明模型能够迅速识别最佳路径,且大部分代码首次尝试即有效。
-
局限性分析:
- 精确控制难题:尽管速度惊人,但最新的 Claude 模型在利用机器人精确移动沙滩球(即 Project Fetch 的核心“取物”环节)时仍感到吃力。
- 缺乏底层控制:实验中的任务并未涉及机器人控制中更具挑战性的低层元素,例如开发特定的致动策略(actuation policy)。
- 闭环反馈不足:人类通过实践能够建立闭环反馈(感知偏差、调整输入),从而精确推动沙滩球回到起点。Opus 4.7 虽然能将机器人移至球后并尝试撞击,但由于缺乏对细微误差的实时感知和调整能力,控制效果不佳,未能成功将球推回起点。
- 算法选择:模型有时默认使用过时的对象检测算法,尽管它能通过变通找到有效解决方案,但这导致个别试验耗时较长。
-
演进模式: 研究人员观察到一个反复出现的模式:首先,模型帮助人类;其次,人类帮助模型;最后,模型能够 largely 自主完成任务。这一动态在网络安全领域已得到验证,如今正在 AI 与物理世界的交汇点开始显现。
关键要点
- 自主性显著提升:Claude Opus 4.7 在无需人类协助的情况下,完成了此前需要人类团队配合或指导才能完成的任务,且速度提升了 10 至 37 倍。
- 代码生成更高效:新模型生成的代码量大幅减少(约为之前人类团队代码量的 1/10),但执行效率更高,首次尝试成功率更高。
- 物理交互仍是瓶颈:目前的模型尚无法解决机器人控制中的高精度闭环问题(如精确移动物体)。这涉及到低层致动策略的开发,超出了当前 LLM 在通用缩放(general scaling)下的能力范围。
- 非刻意优化的成果:这些进步并非源于专门针对机器人能力的优化,而是 LLM 通用能力扩展的自然结果。
- 人机协作模式的转变:对于某些任务,人类在环(human-in-the-loop)控制可能仍优于 AI;但对于其他任务,AI 正在从“辅助编程”转向“自主执行”,人类角色逐渐转向监督和控制。
意义与影响
Project Fetch 第二阶段的结果标志着我们可能正进入 物理智能体 AI(Physical Agentic AI) 的早期时代。
-
从软件到硬件的跨越: 这就好比 AI 模型在从被动工具转变为主动编码智能体时,利用了现有的软件编辑工具(如字符串替换)。现在,模型开始以相对轻松的方式使用现成的物理工具(如机器狗),尽管目前仅限于有限目的。
-
加速非专家进入机器人领域: 正如第一阶段所示,LLM 极大地降低了非专家使用机器人的门槛。第二阶段表明,模型现在可以更快地完成原本需要人机结对编程的工作,使人类能够更快地过渡到控制和使用机器人的阶段。
-
未来的研究方向: 虽然模型在通用任务上表现出色,但要实现更通用的、具备物理适应能力的语言模型,仍需解决如何编写针对特定任务的定制控制策略,以及如何设计机器人系统等问题。目前,模型在自主完成“取物”这一最终任务的速度和可靠性上,仍与在其他元素上的表现存在差距。
-
能力边界的快速移动: 模型构建自身软件工具的想法曾被视为荒谬,但已成为现实。同样,模型在物理世界中的能力边界也在迅速扩展。尽管存在障碍,但模型能力之间的巨大差距正在被快速填补。
