AI 资讯量子位·2 小时前

BEV技术赋能具身智能，加速机器人数据Scaling

原标题：BEV 杀入具身智能：跨维把机器人数据带上 Scaling 快车道

速览

BEV（鸟瞰图）技术正被引入具身智能领域，旨在解决机器人数据获取与处理的难题。这一技术突破有望通过跨维数据转换，显著提升机器人感知与决策能力。此举标志着机器人数据训练正式进入Scaling加速阶段。

AI 深度解读

背景

具身智能（Embodied AI）当前面临的困境，与几年前自动驾驶行业所经历的挑战高度相似。在自动驾驶的发展初期，纯视觉多相机方案各自为政：前摄、侧摄等独立感知并输出检测结果，最终拼合的数据仍停留在图像坐标系中，而非统一的物理世界坐标系。这种方案对视角、光线和场景变化极为敏感，导致数据堆叠越多，系统越混乱，性能反而下降。

BEV（Bird’s-Eye View，鸟瞰图）技术的引入解决了这一问题。它并非仅仅提供一张俯视图像，而是将多相机、多传感器及多任务的输出统一映射到一个可被规划系统直接消费的物理坐标系中，实现了从“在图像中猜测世界”到“在物理空间中理解世界”的关键跃迁。

如今，具身智能正站在同样的十字路口。机器人数据来源于不同的相机、本体、坐标系及操作者，且天然异构。若缺乏统一的空间秩序，数据规模的扩张不会带来正向的规模化（Scale），反而会导致“熵暴”（Entropy Explosion）。跨维智能（Kuawei Intelligence）提出的 Dexterity-BEV 正是为了在具身智能领域重演这一重构过程，旨在建立一套可规模化的数据基建。

核心内容

Dexterity-BEV 的核心思路是将多来源、多视角、多本体的机器人数据统一对齐到一个 BEV 三维空间中，构建一套系统性的数据秩序。其具体实施路径包含以下三个关键维度：

1. 构建统一空间坐标系 Dexterity-BEV 构建了一个“虚拟正交相机”式的统一 BEV 对齐坐标系。无论真实相机安装位置、拍摄角度或机器人观察方向如何，所有视觉输入、机器人状态和目标动作都会被转化至同一个俯视参考空间。

解决痛点：传统 VLA（Vision-Language-Action）模型往往在相机视角变化、机器人基座移动或场景布局改变时性能骤降，因为它们学习的是固定视角下的图像模式，而非物理规律。
技术实现：通过顶点图（vertex map）和顶点谱（vertex spectrum），Dexterity-BEV 在保留成熟二维视觉编码器和视觉语言模型（VLM）语义能力的基础上，为每个视觉 Token 注入三维空间位置。对于有深度信息的设备，利用深度图和相机标定生成像素级三维顶点；对于纯 RGB 相机，则通过顶点谱机制构建三维位置假设并编码进视觉特征。这相当于给二维图像接上了三维物理骨架，实现了低成本、可复用的 3D 空间理解。

2. 实现感知与动作的对齐 机器人数据的难点不仅在于视觉异构，还在于动作的不统一。不同本体（如 Franka、双臂平台、半人形机器人）的关节轨迹差异巨大，直接学习关节角会导致模型被硬件绑定。

动作解耦：Dexterity-BEV 将动作从具体关节中解放出来，不再学习“某个关节转多少度”，而是学习末端执行器在统一 BEV 空间中的位姿、接近姿态及移动轨迹。
闭环对齐：视觉输入、机器人状态和目标动作最终都被对齐到同一个 BEV 坐标系中，形成了真正的“感知—动作对齐”。这为不同机器人提供了共同的“空间尺子”，使得数据能够用同一种物理语言进行交流。

3. 引入跨轨迹时序对齐机制 针对数据采集中的时间维度混乱（如不同操作者速度不同、动作连贯性差异），Dexterity-BEV 在数据管线中加入了跨轨迹时序对齐机制。

时间规整：该机制对不同机器人、不同操作者及不同数据集的轨迹进行时间尺度规整，消除“快慢”等无意义差异，使模型专注于学习任务的关键动作顺序和空间关系，而非执行速度。

关键要点

数据异构性是核心挑战：具身智能面临的双重难题是高质量真实交互数据稀缺，且已采集数据高度异构（包含多视角图像、深度、关节状态、语言指令等），难以互通和统一训练。
非推倒重来的工程策略：Dexterity-BEV 没有抛弃现有的 2D 大模型，而是通过“顶点图/谱”技术为 2D 视觉特征补上 3D 坐标，兼顾了语义能力、空间理解能力和工程成本。
端到端的物理空间表达：通过空间对齐、动作对齐、时序对齐和数据管线对齐，Dexterity-BEV 建立了一套系统性的数据基建，而非单点优化。
强泛化能力验证：
- 仿真测试：在 LIBERO 和 RoboTwin 2.0 基准上，Dexterity-BEV 在相机视角、机器人基座和场景布局大幅扰动的情况下，表现优于 $\pi0$、X-VLA 等强基线，稳定性显著更高。
- 真实机器人测试：在四类双臂平台上完成了折叠纸盒、折布、舀爆米花、递书等复杂长程任务，涉及刚体、柔性物体、颗粒物及双臂协同，证明了模型在真实物理世界中的泛化能力。

意义与影响

Dexterity-BEV 的提出标志着具身智能行业从“堆数据阶段”向“建数据秩序阶段”的转折。

打通 Scaling 关键路径：正如 BEV 技术让自动驾驶从图像感知走向统一空间理解，Dexterity-BEV 正在让具身智能从杂乱的机器人轨迹走向统一的感知—动作物理表达。它解决了数据孤岛问题，使得数据具备可训练、可迁移、可复用的资产属性。
确立数据基建标准：在模型更大、数据更多之前，先建立统一的物理空间底座是具身智能真正 Scale 的前提。Dexterity-BEV 提供的是一套可规模化的数据秩序，而非仅仅是一个更强的策略模型。
行业范式转移：BEV 杀入具身智能是一次必要的“补课”。它表明，真正决定行业能否跑起来的，不是数据规模的简单叠加，而是数据能否被统一、动作能否被迁移、经验能否跨机器人复用。跨维智能通过此举，试图为具身智能铺上通往规模化发展的快车道。

查看原文 →qbitai.com

BEV技术赋能具身智能，加速机器人数据Scaling

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐