← 返回信息流
创投信息钛媒体·1 天前

桥介数物发布跨本体全身运动数据工厂

原标题:桥介数物尚阳星:高质量的跨本体全身运动数据不能依靠简单采集

速览

桥介数物创始人尚阳星宣布其“跨本体全身运动数据工厂”正式启用,以填补行业高质量运动控制数据的真空。该工厂通过工业化体系生产满足跨本体、全身覆盖、物理可行及多模态要求的CWM数据。此举旨在解决具身智能领域运动数据供应不足、质量参差不齐及泛化能力弱的核心痛点。

AI 深度解读

背景

具身智能行业正经历从“运动控制”向“通用大脑”叙事转移的关键节点。随着宇树科技等公司通过侧空翻、功夫等高难度动作展示了顶尖的小脑(运动控制)能力,以及银河通用、星海图、千寻智能等头部玩家推动“通用具身大脑”成为主流,公众往往误以为运动控制已不再是核心壁垒。

然而,现实情况是运动控制并未成为行业通用解决方案,而是少数公司的私有能力。头部具身大脑公司倾向于绕开这一壁垒,优先发展轮式或固定底盘机器人;而中小本体公司在追赶运动控制时面临巨大困难。宇树科技作为本体厂商,大概率不会开放跨型号的通用运动控制平台。因此,无论是大脑公司还是本体公司,补齐运动控制短板是必经之路。

在数据供给侧,由于操作数据(Manipulation)需求量大,第三方数据工厂产能倾斜于此;而运动数据(Locomotion)因需求规模小、技术门槛高,缺乏专业服务,导致高质量、高泛化的运动数据极度稀缺。在此背景下,专注于通用机器人运动控制基础设施研发的“桥介数物”宣布其“跨本体全身运动数据工厂”正式投入使用,旨在解决行业高质量跨本体全身运动数据缺位的问题。

核心内容

桥介数物由99年出生的创始人尚阳星创立,团队从宿舍起步,累计获得近亿元融资,服务对象涵盖世界机器人大会上超半数的人形机器人厂商。其核心产品是“跨本体全身运动数据”(Cross-Embodiment Whole-Body Motion Data, CWM),这是一种面向通用全身运动模型训练的数据资产。

CWM 数据的定义与四大性质 尚阳星指出,通用全身运动模型需要一种能向上兼容多模态意图、向下兼容不同硬件、安全可靠且能持续进化的能力。为此,CWM 数据必须同时满足以下四个性质:

  1. 跨本体可重定向性:同一段动作能通过统一处理管线,在差异显著的多种本体上产出物理自洽的训练样本。
  2. 全身覆盖性:完整表达躯干、四肢、手部、手指及其协同关系,而非仅保留上半身或下半身轨迹。
  3. 物理可行性:数据不仅在运动学上平滑,还需在目标本体动力学上可行,避免浮空、穿透、滑移、失稳或力矩超限。
  4. 多模态性:同步采集人体动作、语义标签、第一人称/第三人称视频、环境资产和物体资产。

工业化生产体系:采集并非终点 CWM 数据无法通过简单采集获得,需经过严格的工业化生产体系。一条数据从设计到进入训练集,需经历以下环节:

  • 动作设计:不按动作名称堆叠,而是按身体使用方式(移动、姿态转换、肢体协同等)组织,兼顾复杂地形、多人/环境交互、下意识行为及失败恢复场景。
  • 同步采集:建立统一时钟和时间戳体系,同步记录人体动作(BVH)、原始视频(第一/第三人称)、场景交互资产(地形、物体)及语义标签,确保不同模态间的对应关系。
  • 跨本体重定向:自研重定向引擎,支持“任意动作×任意机型×任意地形”。相比行业仅考虑运动学的人工调参,桥介数物的算法综合考虑了地形、接触与关节因素,并通过统一本体抽象层,使新机器人仅靠 URDF 即可自动适配,将人工调试压缩至接近实时。
  • 数据增强
    • 动力学增强:通过 RL 动力学后处理,确保轨迹在目标本体上不穿透、不超扭矩、符合摩擦锥。
    • 仿真多样性增强:将动作放入不同虚拟环境执行,扩增视觉与场景多样性。
    • 语义标注:AI 辅助生成切片、类别、接触状态等标签,由专业人员复核。
  • 质检与闭环反馈:数据需通过设计、原始数据、重定向、增强四层质检。模型训练结果形成“失败画像”,回写至上游各层以调整执行策略,形成“设计—采集—处理—训练—反馈”的持续迭代闭环。

运营现状与未来规划 目前工厂投入千万级别,采集成本约数百元/小时。过去三个月内部试点产出近千小时高质量 CWM 数据,并在十多款差异显著的足式机器人上完成验证。下一阶段将从试点转向规模化生产,目标在新工厂落地后形成每月数千小时级的高质量数据产出能力。

关键要点

  • 行业痛点:运动控制数据存在供应不足、质量参差不齐、构型与场景局限性大等问题,且缺乏第三方专业服务,导致数据孤岛和资源浪费。
  • CWM 核心价值:解决了现有数据(如动捕、遥操作、视频)单独使用时缺失环境信息、绑定特定硬件或无法表达全身协同的问题,实现了数据的跨本体复用和物理可行性。
  • 技术壁垒
    • 重定向算法:突破行业仅考虑运动学的局限,引入动力学约束,实现任意机型与地形的自动适配。
    • 多模态同步:通过统一时间戳体系,确保动作、视频、语义、环境资产的精确对齐。
    • 闭环质检:利用模型训练反馈优化上游数据生产,提升单条数据的有效利用率。
  • 生产效率:将原本需数小时/台的人工调试压缩至接近实时,实现了数据生产的工业化与规模化潜力。
  • 商业逻辑:作为独立第三方,桥介数物通过提供通用运动控制基础设施,避免了几十家机器人公司重复建设数据工厂的资源浪费,降低了行业整体进入门槛。

意义与影响

桥介数物“跨本体全身运动数据工厂”的启用,标志着具身智能行业在数据基础设施层面从“作坊式采集”向“工业化生产”的转型。

首先,它填补了运动控制领域高质量数据的“真空地带”。通过提供标准化的 CWM 数据,降低了中小本体公司和具身大脑公司获取高质量运动数据的门槛,加速了通用全身运动模型的训练与迭代。

其次,其“跨本体”特性打破了硬件壁垒。传统数据往往绑定特定机器人型号,而桥介数物的技术使得同一套动作数据可适配多种构型、驱动和质量的机器人,极大提升了数据资产的复用价值和泛化能力。

最后,从产业生态角度看,桥介数物扮演了类似“操作系统”或“基础软件提供商”的角色。在预计未来将存在数十家主流机器人厂商的市场格局下,这种第三方专业化分工避免了重复造轮子,有助于行业资源的高效配置,推动具身智能从“单体能力竞争”走向“生态协同竞争”。

查看原文 →tmtpost.com