AI 资讯Hacker News·2 小时前

Project Fetch: Phase Two

AI 深度解读

Project Fetch 第二阶段：当 AI 开始接管物理世界

背景

2025 年 8 月，Anthropic 的 Frontier Red Team 进行了一项名为 Project Fetch 的实验，旨在探索大型语言模型（LLM）如何赋能非机器人专家。当时，研究人员让 Anthropic 的员工（分为两组：一组使用当时的旗舰模型 Claude Opus 4.1，另一组仅依靠互联网和自身创造力）操作一台市售的四足机器人（即“机器狗”），完成一系列复杂且有趣的任务。

实验结果显示，拥有 Claude Opus 4.1 支持的团队显著优于仅依靠人类智慧的团队，他们不仅完成的工作量更大，而且速度更快。然而，在实验开始前，研究人员曾验证 Opus 4.1 能否完全独立完成任务，结果发现它无法做到——就像没有 Claude 的人类团队一样，它在连接机器人的初步任务上卡住了。

随着 AI 模型能力的飞速进化（甚至快于那只在实验中差点撞到人的一只失控机器狗），Anthropic 决定重新审视 Project Fetch，以测试新一代模型是否能超越上一代的表现。

核心内容

在 Project Fetch 的第二阶段，研究人员重点评估了最新模型 Claude Opus 4.7 的自主能力。实验设定如下：

实验设置：
- 研究人员不再要求 Claude 使用物理控制器，也未评估人类使用 Claude 编写的程序控制机器人的时间（仅确认其功能正常）。
- 针对剩余的任务子集，研究人员在 Claude Code 中设置了最大努力级别（maximum effort）和自适应思维（adaptive thinking），对 Opus 4.7 进行了三次试验。
- 人类研究人员的角色被简化为：将运行 Claude Code 的笔记本电脑连接到机器狗、输入初始提示词、批准命令以及批准模型进入下一个任务。
性能对比：
- 速度飞跃：在所有由至少一个人类团队在 8 月份完成的任务中，Opus 4.7 完成相同任务的速度至少快了 10 倍。
- 具体数据：对于两个团队都完成的四项任务，Opus 4.7 的平均速度比“无 Claude 团队”快 37 倍以上，比“有 Claude 团队”快 18 倍以上。
- 代码效率：Opus 4.7 生成的代码量仅为“有 Claude 团队”的十分之一左右，但成功率相当或更高。这表明模型能够迅速识别最佳路径，且大部分代码首次尝试即有效。
局限性分析：
- 精确控制难题：尽管速度惊人，但最新的 Claude 模型在利用机器人精确移动沙滩球（即 Project Fetch 的核心“取物”环节）时仍感到吃力。
- 缺乏底层控制：实验中的任务并未涉及机器人控制中更具挑战性的低层元素，例如开发特定的致动策略（actuation policy）。
- 闭环反馈不足：人类通过实践能够建立闭环反馈（感知偏差、调整输入），从而精确推动沙滩球回到起点。Opus 4.7 虽然能将机器人移至球后并尝试撞击，但由于缺乏对细微误差的实时感知和调整能力，控制效果不佳，未能成功将球推回起点。
- 算法选择：模型有时默认使用过时的对象检测算法，尽管它能通过变通找到有效解决方案，但这导致个别试验耗时较长。
演进模式：研究人员观察到一个反复出现的模式：首先，模型帮助人类；其次，人类帮助模型；最后，模型能够 largely 自主完成任务。这一动态在网络安全领域已得到验证，如今正在 AI 与物理世界的交汇点开始显现。

关键要点

自主性显著提升：Claude Opus 4.7 在无需人类协助的情况下，完成了此前需要人类团队配合或指导才能完成的任务，且速度提升了 10 至 37 倍。
代码生成更高效：新模型生成的代码量大幅减少（约为之前人类团队代码量的 1/10），但执行效率更高，首次尝试成功率更高。
物理交互仍是瓶颈：目前的模型尚无法解决机器人控制中的高精度闭环问题（如精确移动物体）。这涉及到低层致动策略的开发，超出了当前 LLM 在通用缩放（general scaling）下的能力范围。
非刻意优化的成果：这些进步并非源于专门针对机器人能力的优化，而是 LLM 通用能力扩展的自然结果。
人机协作模式的转变：对于某些任务，人类在环（human-in-the-loop）控制可能仍优于 AI；但对于其他任务，AI 正在从“辅助编程”转向“自主执行”，人类角色逐渐转向监督和控制。

意义与影响

Project Fetch 第二阶段的结果标志着我们可能正进入 物理智能体 AI（Physical Agentic AI） 的早期时代。

从软件到硬件的跨越：这就好比 AI 模型在从被动工具转变为主动编码智能体时，利用了现有的软件编辑工具（如字符串替换）。现在，模型开始以相对轻松的方式使用现成的物理工具（如机器狗），尽管目前仅限于有限目的。
加速非专家进入机器人领域：正如第一阶段所示，LLM 极大地降低了非专家使用机器人的门槛。第二阶段表明，模型现在可以更快地完成原本需要人机结对编程的工作，使人类能够更快地过渡到控制和使用机器人的阶段。
未来的研究方向：虽然模型在通用任务上表现出色，但要实现更通用的、具备物理适应能力的语言模型，仍需解决如何编写针对特定任务的定制控制策略，以及如何设计机器人系统等问题。目前，模型在自主完成“取物”这一最终任务的速度和可靠性上，仍与在其他元素上的表现存在差距。
能力边界的快速移动：模型构建自身软件工具的想法曾被视为荒谬，但已成为现实。同样，模型在物理世界中的能力边界也在迅速扩展。尽管存在障碍，但模型能力之间的巨大差距正在被快速填补。

查看原文 →anthropic.com