← 返回信息流
AI 资讯雷峰网·15 小时前

物理AI的船票藏在世界模型里

原标题:物理AI的船票,藏在世界模型里

速览

世界模型被视为物理AI的底层基座,旨在让AI理解物理世界的运行规律。自动驾驶因具备规模化数据闭环和商业闭环,成为实现这一目标的首选场景。Momenta发布R7世界模型,通过预训练、仿真和强化学习三层架构,实现了该技术在量产车上的首发应用。

AI 深度解读

物理AI的船票,藏在世界模型里

背景

物理AI(Physical AI)被视为继生成式AI之后的下一波技术浪潮。英伟达、特斯拉、OpenAI等科技巨头,以及Yann LeCun、李飞飞等顶尖科学家,正将资源集中投向这一领域。特斯拉将自动驾驶、Robotaxi、人形机器人与世界模型统一在同一AI体系下;Yann LeCun离开Meta创办AMI Labs,完成10.3亿美元种子轮融资押注世界模型;李飞飞的World Labs融资10亿美元;OpenAI也重组建了机器人团队。

与此同时,从华为、蔚来、小鹏、理想到吉利、比亚迪,几乎所有头部车企都在加速向“世界模型”技术轨道汇聚。这一技术正从学术概念迅速转变为量产标配。其核心逻辑在于:物理AI的关键在于“数据scaling”和“商业scaling”形成的正向反馈,而目前唯一同时实现这两者的场景,正是自动驾驶。

核心内容

文章深入剖析了物理AI的技术路径、核心架构以及以Momenta为代表的商业化落地实践。

1. 物理AI与数字AI的本质差异及三大支柱

生成式AI(如ChatGPT)的核心是掌握语言符号的统计关联,通过预测下一个词元来压缩人类文本知识。然而,这种机制无法内化真实的物理因果律。例如,仅阅读过文档的AI知道“物体受重力会下落”,但无法预判不规则物体在倾斜平面上的速度变化或摩擦力对轨迹的影响。

要让AI进入物理世界,必须具备三种底层能力,对应三条技术路径:

  • 空间智能:理解三维空间结构。如李飞飞所强调,机器人需计算物体与环境的相对位置和姿态。
  • 世界模型:具备内在的“世界模拟器”,能推演不同行动导致的未来状态。这是Yann LeCun提出的核心观点,也是本文论述的重点。
  • 具身智能:通过物理身体与环境交互,利用多模态信号在试错中学习反馈机制。

其中,世界模型被视为物理AI的底层基座。它通过将物理世界的运行规律压缩进模型参数,让AI具备对空间、运动、因果关系的“常识性”理解。正如Momenta CEO曹旭东所言,大语言模型通过预测压缩数字世界常识,而世界模型通过预测物理世界未来状态,获得理解物体物理属性和交互逻辑的能力。

2. Momenta的R7世界模型三层架构

作为全球第三方城市NOA(导航辅助驾驶)供应商的领军者,Momenta发布了R7世界模型,实现了世界模型、强化学习和端到端架构的深度融合并投入量产。其核心架构分为三层:

  • 第一层:世界模型预训练(构建物理常识基底) 基于超过120亿公里的实车行驶里程,筛选出超1亿段高价值“黄金数据”,涵盖各类复杂场景。通过预测下一帧或多帧的传感器状态,模型逐步压缩物理世界的时空演化规律。这一层的壁垒在于数据规模,Momenta搭载系统的量产车辆已超90万台。

  • 第二层:世界模型仿真(低成本复现长尾场景) 利用生成式模型推演环境演变,对极端罕见的长尾场景(如路面散落物、前车急刹)进行闭环仿真。与传统游戏引擎仿真不同,Momenta的仿真参数直接学习自真实数据,能明确量化仿真与真实的差距,从而高效生成数以万计的变体场景,覆盖边缘情况。

  • 第三层:在世界模型中做强化学习(自主探索最优策略) 在仿真环境中,通过设定安全、舒适、效率等多维奖励函数,让模型以自我博弈方式反复试错。经过数千万次虚拟交互,模型习得比人类预置规则更优的驾驶策略,尤其在复杂博弈场景中表现出超越模仿学习的能力。

这三层架构形成了一个“数据→模型→场景”的正向循环:量产车产生的真实数据进入预训练,仿真环境生成案例用于强化学习,优化后的模型再部署回量产车和Robotaxi验证。

3. 商业规模化闭环:数据与商业的双轮驱动

技术之外,物理AI的竞争本质是规模效应。Momenta已构建起独特的商业飞轮:

  • 收入结构转型:收入由“技术开发收入”(上车前)和“许可收入”(上车后)构成。2023年主要依赖技术开发,而2025年许可收入飙升至9.68亿元,三年增长42倍,占比达40.1%。随着车型量产,许可收入的边际成本极低,几乎带来纯利润。
  • 正向反馈循环:定点带来量产,量产带来收入,收入支撑高研发投入(2025年研发支出18.69亿元,占营收77.5%),研发反哺模型优化,进而帮助拿下更多定点。
  • 市场地位:2025年3月至2026年2月,Momenta以65%的销量市占率位居中国第三方城市NOA供应商首位。其客户覆盖全球排名前10大车企中的9家,累计定点车型超210款,量产车辆超90万台。

关键要点

  • 世界模型是物理AI的基座:它让AI从理解语言符号转向理解物理世界的运行规律,是通往高阶自动驾驶和通用物理AI的必经之路。
  • 自动驾驶是物理AI的最佳试验田:它是目前唯一同时实现“数据scaling”(海量实车数据)和“商业scaling”(明确的付费闭环)的场景。
  • R7架构的核心优势
    • 基于120亿公里真实数据预训练,建立物理常识。
    • 数据驱动的仿真技术,高效解决长尾场景问题。
    • 强化学习优化策略,实现超越人类规则的决策能力。
  • Momenta的商业护城河
    • 数据壁垒:90多万台量产车构成的数据采集终端网络。
    • 规模效应:许可收入占比大幅提升,边际成本递减,逼近盈利拐点。
    • 生态协同:All-in-One Platform将乘用车、Robotaxi、Robovan等场景汇入同一技术底座。
  • 行业趋势:2026年,世界模型已从技术选项变为L2+和L4级智驾行业的必答题。

意义与影响

这篇文章揭示了AI发展从“数字智能”向“物理智能”跨越的关键转折点。

首先,它明确了世界模型在AI技术栈中的核心地位。不同于依赖大语言模型作为中介的路径,物理AI要求AI直接学习物理规律。Momenta的实践证明,通过世界模型压缩物理常识,结合强化学习,可以实现更可靠、更高效的自动驾驶决策。

其次,文章强调了规模化闭环对于物理AI的重要性。在数字AI领域,数据获取相对容易;而在物理世界,高质量、多样化的实车数据是稀缺资源。Momenta通过“定点-量产-许可”的商业模式,成功将数据积累与商业回报绑定,形成了难以复制的竞争壁垒。这种“数据+商业”的双轮驱动,为其他物理AI场景(如人形机器人)提供了可借鉴的范式。

最后,从行业影响来看,世界模型的量产落地标志着自动驾驶技术进入新阶段。随着华为、蔚来、理想、比亚迪等主流玩家的入局,以及Momenta等第三方供应商的技术突破,高阶智驾的普及速度将远超预期。预计到2030年,城市NOA解决方案渗透率将从2025年的11%升至62%。这不仅将重塑汽车产业的技术格局,也为通用人工智能(AGI)在物理世界的落地奠定了坚实基础。

Momenta的IPO进程及其市场表现,进一步验证了这一赛道的投资价值。在物理AI这场长跑中,率先跑通数据与商业规模化闭环的企业,将占据关键身位,引领下一代智能技术的演进。

查看原文 →leiphone.com