自变量开源具身数采系统XRZero-G0,成本降至1/20
速览
自变量机器人开源具身数采系统XRZero-G0,提供从数据采集、质检到训练的全链路方案。该系统通过多视角采集与严格筛选,将数采成本降至传统方式的二十分之一,并发现10:1的混合数据黄金配比。此举旨在降低行业门槛,加速具身智能从Demo演示向数据驱动规模化应用的转变。
AI 深度解读
国内首个!具身数采「黑箱」正式开源,具身数据昂贵的时代结束了
背景
具身智能(Embodied AI)的发展长期受制于数据获取的高昂成本与低效流程。与大模型依赖互联网上海量且免费的文本数据不同,具身智能需要物理世界的交互数据,每一条数据都需要真金白银地通过真机采集。过去,行业面临“贵、脏、不可复用”的“不可能三角”,导致具身数据层成为制约行业发展的瓶颈。
近期,自变量机器人(X-Square Robot)开源了具身数采系统 XRZero-G0。这不仅仅是一个数据集,而是一套完整的“无本体数采 + 质检 + 训练 + 真机评测”链路,并附带了包含 2000 多小时、覆盖 3000 个任务的多模态无本体数据集。该项目的开源标志着国内在具身数据基础设施领域的首次重大突破,旨在通过工程化手段打破数据壁垒,降低行业门槛。
核心内容
XRZero-G0 的核心贡献在于将具身数据采集从“黑箱”变为透明的“白盒”,并系统性地解决了数据采集与训练配比两大难题。
1. 无本体数采系统:从“黑箱”到“白盒”
传统的无本体数采(如 UMI 范式)存在数据有效性未知的风险,而 XRZero-G0 通过一套严密的“三道安检”机制,确保了采集数据的高质量和高可用性。
- 多视角硬件架构: 操作员佩戴 PICO VR 头显,头顶部署一个全局相机,左右手腕各挂一个相机。这种三路视角结合六自由度位姿信息,配合背包边缘计算进行时空对齐,实现了 ≤4 毫米的高精度追踪。无论操作员如何转身、俯身或走动,均能有效避免遮挡和漂移问题。
- 三道质量安检机制:
- 物理可行性验证:引入自动逆运动学(IK)验证,过滤掉超出机器人关节极限的动作,防止因人类动作过于灵活(如做瑜伽动作)而导致真机执行时电机烧毁或动作失效。
- 真机开环回放:系统随机抽取部分数据,直接投放到真实的双臂机器人上进行“开环回放”。只有当机器人顺利完成任务,该批次数据才被正式入库。
- 效率提升:经过三层漏斗筛选,入库数据的有效率提升至 85% 以上。简单任务采集时间从 35 秒压缩至 15 秒(提速 2.33 倍),复杂任务提速 1.71 倍,峰值采集速度达到 93.2 条轨迹/小时。
2. 数据训练策略:发现“黄金比例”
在训练阶段,XRZero-G0 团队通过系统性穷举实验,确定了便宜无本体数据与昂贵真机数据的最佳混合比例,摒弃了以往靠“炼丹”猜测比例的做法。
- 实验对比:
- 基线:500 条纯真机数据。
- 方案 A:500 条真机 + 500 条无本体(1:1 比例)。
- 方案 B:50 条真机 + 500 条无本体(10:1 比例)。
- 结论: 方案 B(10:1)的成功率与 500 条纯真机基线持平甚至更高。这意味着将真机数据用量减少 90%,总成本可降至传统方式的二十分之一,实现了 20 倍的成本效率跃升。
- 原理解释: 论文将此现象解释为“少样本物理锚定效应”。少量的真机数据提供了关键的物理约束和锚点,使得模型能够利用大量廉价的无本体数据泛化学习。
3. 零样本跨本体迁移能力
XRZero-G0 采集的数据具有天然的动态噪声(视角、高度、光照变化),这反而赋予了模型极强的鲁棒性,实现了“零样本”跨本体迁移。
- 实测效果: 使用混合数据训练出的模型,在未见过目标机器人真机数据的情况下,直接部署到 EX001 和 CX001 不同本体上,成功完成了插花、叠毛巾、装香肠等任务。这解决了传统遥操作数据难以在不同机器人本体间复用的痛点。
关键要点
- 开源性质:XRZero-G0 是国内首个开源的具身数采完整链路,包含代码、质检流程、训练方法及大规模多模态数据集。
- 成本突破:通过“无本体数采 + 10:1 混合训练”策略,将数据获取与训练成本降低至传统真机采集方式的 1/20。
- 技术架构:
- 硬件:PICO VR + 3 路相机(1 全局 + 2 手腕)+ 边缘计算。
- 软件:IK 逆运动学过滤 + 真机开环回放质检。
- 性能指标:数据入库有效率 >85%;简单任务提速 2.33 倍;峰值采集速度 93.2 条轨迹/小时。
- 迁移能力:模型具备零样本跨本体迁移能力,无需针对新机器人重新采集大量真机数据。
- 背后团队:自变量机器人(X-Square Robot),一家从 Day One 就坚持端到端大模型路线,并在 VLA、WM、WUM 三条技术上均有布局的公司。
- 资本背书:自变量机器人不到两年完成 9 轮融资,估值过百亿,股东包括字节、美团、阿里、小米等大厂。
意义与影响
XRZero-G0 的开源对具身智能行业具有里程碑式的意义:
-
打破数据垄断,加速行业共识: 具身行业正从“拼 Demo”转向“拼数据”。此前,数据获取缺乏统一标准和低成本方案。XRZero-G0 提供了一套标准化的工具链,让高校、中小团队和个人开发者都能批量生产高质量数据,有助于行业在数据堆叠时长和方法论上形成共识。
-
构建数据飞轮,确立护城河: 自变量机器人通过开源降低使用门槛,旨在加速全行业数据飞轮的转动。当大量开发者基于 XRZero-G0 进行迭代时,自变量所定义的数采标准和基础设施将成为行业事实标准,从而构建起深厚的生态护城河。
-
推动具身智能进入“ChatGPT 时刻”: 具身智能的爆发不可能仅靠一家公司完成。通过开源基础设施,自变量推动了数据生产方式的工业化变革,使得高质量具身数据的获取变得像文本数据一样相对廉价和便捷,为具身智能的大规模应用铺平了道路。
-
工程化能力的验证: 该项目证明了解决具身智能核心痛点不仅需要学术创新,更需要扎实的 Infra 工程能力。自变量机器人从 WALL-OSS 到 XRZero-G0 的演进,展示了其从底层基础设施到上层应用的全栈技术实力。
