← 返回信息流
创投信息36氪 主站·2 天前

前美团外卖技术负责人创业,做具身智能时代的餐饮世界模型

原标题:前美团外卖技术负责人创业,做具身智能时代的“餐饮世界模型”

速览

前美团外卖技术负责人王栋创立的具身智能公司元节智能,近日完成千万级种子轮融资。公司聚焦餐饮后厨场景,研发融合视觉与触觉的“世界动作模型”,旨在解决打包、分拣等高频物理操作难题。该项目已获多家头部公司合作意向,预计2026年进入真实商家后厨规模化部署。

AI 深度解读

背景

具身智能(Embodied AI)的落地进程正从实验室环境加速迈向最真实、最繁忙的物理世界。在这一趋势下,元节智能(AtomBite.AI)选择了一个看似缺乏“性感”光环,但极具商业确定性的场景——餐饮后厨。

近年来,餐饮行业虽已通过SaaS系统、点餐小程序及配送调度系统完成了数字化改造,但在全球外卖订单持续攀升的背景下,一个长期被忽视的痛点日益凸显:从商家出餐到骑手取餐之间,仍存在大量高度依赖人工的物理操作环节,如打包、封签、分拣、接驳等。这些流程不仅直接影响履约效率,错单、漏单、撒漏带来的损耗更会同时传导至用户、商家、骑手与平台四端。与此同时,全球餐饮行业普遍面临结构性用工难题:北美快餐行业时薪持续上涨,而国内餐饮门店则长期受困于招工难和高流动率。

前美团外卖技术负责人王栋博士在离开美团后,曾在北美与新加坡进行为期数月的市场考察。他观察到,餐饮后厨场景具备全球共通的需求、清晰的ROI(投资回报率)以及较短的决策链条,是具身智能最具确定性的商业落地方向之一。基于此判断,王栋联合具有深厚美团背景的李滔、李浩哲等人创立了元节智能,致力于解决这一物理世界的复杂问题。

核心内容

元节智能近日完成了千万级种子轮融资,由英诺科创基金领投,水木清华校友种子基金及知名投资人个人跟投。资金将主要用于餐饮场景具身世界模型的研发及核心产品的落地。目前,该项目已通过初步可行性验证,并获得了国内外多家头部公司的产品合作部署意向。

1. 技术路线:从“通用模型”转向“场景驱动”

与许多优先研发“通用具身世界模型”的公司不同,元节智能倾向于从真实场景中持续学习以逐步建立模型能力。创始人王栋指出,移动能力(Locomotion)经过七八年的发展已基本解决,行业焦点已转向精细操作。虽然灵巧手尚未完全成熟,但二指、三指夹爪等工程化方案已能支撑部分标准化任务。

因此,元节智能并未将重点放在重新发明机器人硬件上,而是专注于开发面向餐饮场景的“世界动作模型(World Action Model, WAM)”。王栋认为,主流的VLA(Vision-Language-Action)路线过度依赖语言模块进行高层规划,但在真实世界的动作控制中,视觉表征和物理理解更为核心。人类的动作控制路径并不强依赖语言,更关键的是视觉理解、物理理解以及动作与真实世界的映射关系。

2. 核心架构:VT-WAM(视觉-触觉世界动作模型)

基于上述判断,元节智能在模型层面探索融合视觉(Vision)与触觉(Touch)的“VT-WAM”。其核心逻辑在于:

  • 视觉:能看见物体,但看不见接触;Ground的是世界的几何侧面。
  • 触觉:看不见全局,但能感知接触的成败;Ground的是世界的物理侧面。

VT-WAM通过隐空间将这两类信息综合,构建出一个能预判接触后果的“世界-动作模型”。世界模型不仅需要视觉感知,更需理解真实物理世界中的规律与因果关系。例如,饮料杯是否装水、装得满不满、温度冷热,都会影响机器人抓取时的摩擦力、重心变化与操作稳定性。元节智能希望通过多传感器协同感知,在模型中嵌入对液体晃动、重心变化等物理属性的因果理解,使机器人的动作符合现实物理规律,而非单纯的数据拟合。

3. 系统架构与落地路径

元节智能的系统架构分为三层:

  • 顶层:具身世界模型,负责形成对后厨环境的认知,并完成决策与动作规划。
  • 中层:任务编排与调度引擎,将认知结果转化为具体执行计划,并统一调度不同设备。
  • 底层:自研核心部件与通用硬件本体的融合,确保系统在真实后厨长期稳定运行。

其核心逻辑是“数据喂养”:在高频、高痛点的场景中收集真实交互数据,反过来优化世界模型。具体落地路径上,元节智能选择从“外卖打包与接驳”切入。这是履约链路中出错率最高、标准化程度相对较高且价值易量化的环节。

在部署策略上,元节智能采用“端云协同”模式:

  • 端侧:轻量化小模型负责高频、标准化动作(如套餐装盒、封签),以降低延迟和网络依赖。
  • 云端:大模型处理异常情况(如物料缺失、异物干扰),并通过KDS(厨房显示系统)联动后厨人工补位。

预计该打包环节模型将在2026年内进入真实商家后厨进行规模化部署。未来,模型能力将从打包单点环节向分拣、配送接驳、烹饪协同等更复杂的后厨操作延伸,并逐步拓展至更广泛的服务业场景。

关键要点

  • 团队背景:创始团队带有鲜明的“美团基因”。CEO王栋曾任美团外卖事业部技术负责人,联合创始人李滔曾执掌美团外卖算法与数据体系,联合创始人李浩哲具备多年全球化商业落地经验。
  • 融资情况:完成千万级种子轮融资,由英诺科创基金领投,水木清华校友种子基金及知名投资人个人跟投。
  • 技术差异化:摒弃过度依赖语言的VLA路线,提出VT-WAM(视觉-触觉世界动作模型),强调视觉与触觉信息的融合,以解决物理世界中的因果理解和精细操作问题。
  • 场景选择逻辑
    • 全球共通:无论中国、北美还是东南亚,餐饮行业均面临人力成本上升与履约效率问题。
    • ROI清晰:降低错单率、减少人工、提升效率直接对应商家付费意愿。
    • 决策链条短:相比家庭、养老等情感交互场景,餐饮属于专业服务领域,中小商家合作意愿更强。
  • 数据飞轮:利用餐饮后厨高频、重复的操作(打包、分拣等)产生海量真实世界数据,这些数据难以通过仿真环境生成,是训练具身智能模型的关键燃料。
  • 部署时间表:打包环节模型预计于2026年内进入真实商家后厨进行规模化部署。

意义与影响

元节智能的探索标志着具身智能从“炫技”走向“务实”的重要转折。其意义主要体现在以下几个方面:

  1. 验证了具身智能在垂直领域的商业可行性:通过聚焦餐饮后厨这一高频、高痛点场景,元节智能证明了具身智能并非仅停留在实验室或家庭娱乐领域,而是能够解决严肃的工业与服务级问题。其清晰的ROI逻辑为整个行业提供了可复制的商业化范本。
  2. 推动了“世界模型”技术的工程化落地:元节智能提出的VT-WAM概念,强调了物理因果理解在具身智能中的核心地位。这提示行业,未来的竞争焦点将从单纯的感知能力转向对物理世界规律的理解与预测能力,尤其是在处理非结构化物理交互(如抓取易碎品、液体)时。
  3. 缓解了全球餐饮业的结构性用工危机:随着全球劳动力成本上升和人口结构变化,餐饮行业对自动化的需求迫在眉睫。元节智能的方案有望通过替代部分重复性、高强度的人工劳动,提升行业整体效率,缓解招工难问题。
  4. 为更复杂的具身智能场景奠定基础:餐饮后厨被视为具身智能的“磨刀石”。一旦在餐饮场景中建立起成熟的“模型到应用”闭环,其技术积累和数据优势将有助于向家庭厨房、养老护理等更复杂、非结构化的场景延伸,加速具身智能在更广泛服务业的普及。
查看原文 →36kr.com