General Intuition融资3.2亿美元,押注游戏训练AI直觉
速览
General Intuition近日完成3.2亿美元融资,计划扩大基于数百万小时游戏画面训练的AI规模。该公司认为,通过动作数据训练,AI能够发展出更接近人类直觉的能力。这一举措旨在将游戏环境中的智能转化为现实世界的应用。
AI 深度解读
General Intuition 的 23 亿美元豪赌:用电子游戏训练 AI 代理走向现实世界
背景
General Intuition 是一家专注于开发具身智能(Embodied AI)和通用代理模型的公司。其联合创始人兼 CEO Pim de Witte 此前创立了 Medal,这是一个允许玩家上传和分享电子游戏片段的平台。Medal 积累了数亿小时的游戏玩法数据,这些数据构成了 General Intuition 模型训练的初始数据集。
2023 年 10 月,General Intuition 以 1.34 亿美元的首轮融资成立。近日,该公司宣布完成 3.2 亿美元的新一轮融资,估值达到 23 亿美元。加上此前的融资,其披露的总融资金额已达 4.54 亿美元。本轮融资由 Khosla Ventures 领投,General Catalyst、杰夫·贝佐斯(Jeff Bezos)、埃里克·施密特(Eric Schmidt)、尼科·罗斯伯格(Nico Rosberg)以及 Google DeepMind 和 MIT 的研究人员参与投资。
核心内容
General Intuition 的核心理念是:电子游戏不仅是娱乐,更是训练 AI 代理理解物理世界因果关系的最佳沙盒。通过利用 Medal 平台积累的海量游戏数据,该公司试图构建一个能够从虚拟游戏泛化到模拟环境,最终应用于现实世界机器人的通用模型。
从游戏到机器人的“同一大脑” 在 General Intuition 位于纽约的研发中心,演示展示了其技术的实际效果。一个 AI 代理已在类似《堡垒之夜》(Fortnite)的游戏中连续游玩了 100 小时。与此同时,同一套“大脑”驱动着一台大型四足机器人。该机器人依靠单目摄像头进行探索,它在办公室内行走时,会像刚学会走路的孩子一样偶尔撞到椅子腿或垃圾桶。令人惊讶的是,仅用 8 分钟的真实世界机器人数据,即可对该 AI 模型进行微调,使其适应现实物理环境。值得注意的是,用于微调的数据是在街道上收集的,而非在办公室内。
动作标签是关键:超越视觉推断 General Intuition 认为,其竞争优势不在于游戏画面本身,而在于嵌入在这些片段中的“动作标签”(Action Labels)。这些数据记录了玩家按下哪些按钮以及按下的确切时机。联合创始人 Pim de Witte 指出,大多数竞争对手试图仅从视频中推断动作,这被认为是不充分的。 “我们将这视为未来预训练的下一个阶段,”de Witte 表示,“我们拥有一个单一模型,它既能响应屏幕上的《堡垒之夜》信息并采取行动,也能以大型语言模型(LLM)永远无法做到的方式响应现实世界的动态。”
世界模型作为训练环境(The Gym) General Intuition 展示了一个由帧逐帧生成的模拟环境,而非传统游戏引擎渲染。在这个环境中,AI 代理学会了“墙就是墙”、“梯子用于攀爬”以及“随着太阳移动影子会变长”等物理常识。对于 General Intuition 而言,这个“世界模型”本身并非最终产品,而是内部称为“健身房”的训练环境。其最终目标是出售具备代理能力的模型。de Witte 认为,游戏中嵌入的动作数据帮助模型区分“自我”与“环境”,从而赋予其更丰富的因果理解能力。
数据飞轮与伦理边界 General Intuition 希望成为像 Anthropic 或 OpenAI 那样的生态系统赋能者,提供基础模型供他人构建应用,而非直接制造自动驾驶汽车等终端产品。 在伦理方面,de Witte 设定了明确红线:绝不将代理用于伤害人类。尽管硅谷对军事应用日益热衷,但 General Intuition 拒绝参与致命自主武器系统,尽管他们愿意将技术用于搜救任务。这种价值观也影响了团队构成,例如首席行政官 Brianna Martin 因公开辞去 Palantir 职务(抗议其与美国移民及海关执法局的合作)而加入团队。
此外,de Witte 还推出了名为 Nerve 的平台,这是一个面向游戏玩家的就业市场,允许玩家利用现有设备通过数据标注和机器人远程操作赚取收入。此举旨在让最易受 AI 替代影响的玩家群体从 AI 发展中获益。
关键要点
- 巨额融资与高估值:General Intuition 以 23 亿美元估值完成 3.2 亿美元融资,总披露融资额达 4.54 亿美元。投资方包括 Khosla Ventures、Jeff Bezos、Eric Schmidt 及 Google DeepMind 等顶级机构和个人。
- 独特的数据优势:依托前身公司 Medal 积累的数亿小时游戏玩法数据,特别是其中包含的“动作标签”(玩家按键记录),而非仅仅依靠视频画面。
- 技术路径:从游戏到现实:
- 利用游戏数据训练空间-时间推理能力。
- 构建“世界模型”作为训练环境(The Gym)。
- 通过少量真实世界数据(如 8 分钟)即可微调模型,实现从虚拟到物理世界的泛化。
- 投资人观点:Khosla Ventures 创始人 Vinod Khosla 认为,LLM 的量子飞跃在于推理能力的出现,而世界模型的量子飞跃在于 AI 中“直觉”的涌现。游戏中的人类动作和反应数据是产生这种直觉的关键。
- 非并购目标:公司不寻求被收购,旨在成为通用代理和模拟/现实世界世界模型的骨干基础设施提供商。
- 伦理与社会责任:
- 明确禁止将技术用于伤害人类或致命自主武器。
- 推出 Nerve 平台,让游戏玩家通过数据标注和远程操作参与 AI 经济,缓解 AI 带来的就业焦虑。
- 商业模式:不直接制造终端硬件(如自动驾驶汽车),而是作为模型提供商,降低他人构建应用的技术门槛。
意义与影响
General Intuition 的崛起标志着 AI 训练范式的一个重要转变:从单纯依赖大规模文本或视频数据,转向利用包含丰富因果逻辑和动作反馈的交互数据。
1. 解决具身智能的数据瓶颈 传统机器人学习面临的最大挑战之一是现实世界数据收集成本高、速度慢且危险。General Intuition 的赌注在于,电子游戏提供了一个安全、低成本且可大规模扩展的“捷径”,能够生成高质量的因果推理数据。如果这一假设成立,将极大加速具身智能从实验室走向大规模商业应用的过程。
2. “直觉”作为 AI 的新里程碑 正如 Vinod Khosla 所言,AI 的发展正在从“推理”迈向“直觉”。这种直觉并非神秘主义,而是指 AI 对物理世界动态、因果关系和自我与环境边界的本能理解。通过游戏动作数据训练出的模型,可能比仅靠视觉或文本训练的模型更接近人类对世界的认知方式。
3. 重塑 AI 伦理与社会契约 在硅谷普遍追求军事化和快速扩张的背景下,General Intuition 坚持非军事化立场,并主动通过 Nerve 平台解决 AI 带来的就业替代问题。这种“技术向善”且兼顾社会影响的策略,可能为 AI 初创公司树立新的伦理标杆,同时也展示了如何将受影响群体转化为技术生态的参与者而非受害者。
4. 基础设施层的竞争加剧 General Intuition 明确表示自己不做终端产品,而是做“使能者”。这表明 AI 竞争正在向底层基础设施层深化。未来,拥有独特、高质量、结构化交互数据的公司,可能比拥有更多通用数据的公司更具核心竞争力。General Intuition 与 CoreWeave 的合作以及 API 的开放计划,预示着其试图构建一个基于其世界模型的开发者生态。
