AI 资讯雷峰网·2 天前

ICRA 2026 | 首个36自由度双臂灵巧操作VLA模型Dexora开源

原标题：ICRA 2026 | 首个 36 自由度双臂灵巧操作 VLA 模型，开源！

速览

Dexora是首个原生支持双臂双高自由度（36自由度）灵巧操作的开源VLA模型，旨在解决双臂协同与精细手指动作难以兼顾的行业痛点。该模型采用扩散Transformer策略网络与离线质量判别器，通过虚实协同数据采集与三阶段渐进式训练，显著提升了高维动作生成的稳定性与任务成功率。实验表明，Dexora在基础抓取、灵巧操作及跨形态泛化方面均优于GR00T N1等基线模型，为通用灵巧机器人的落地提供了新范式。

AI 深度解读

背景

视觉-语言-动作（VLA）模型作为具身智能的核心大脑，旨在让机器人通过多模态输入理解环境并生成控制指令。然而，在双臂协同与高自由度灵巧操作领域，现有的主流 VLA 系统存在明显的“形态壁垒”。

过往的研究通常呈现两极分化：要么聚焦于双臂低自由度夹爪的控制，缺乏手指层面的精细操作能力；要么专攻单臂高自由度灵巧手，无法实现双臂的复杂协同。这种割裂导致许多需要双手配合且涉及多指精细调控的任务（如活塞插入、拧瓶盖、精细取物等）长期缺乏统一的解决方案。行业亟需一个能够同时兼顾双臂协同与高自由度手指动作的通用模型，以推动通用灵巧机器人的落地。

核心内容

近日，ICRA 2026 上发布了首个原生面向双臂双高自由度（36自由度）灵巧操作的开源 VLA 模型——Dexora。该模型打破了此前 VLA 在形态上的局限，通过创新的硬件数据采集、架构设计及训练策略，实现了从基础抓取到精细灵巧操作的全覆盖。

1. 硬件与遥操作：构建虚实协同的数据底座

Dexora 的硬件基础由两台 6 自由度的 AIRBOT 机械臂和一对 12 自由度的 XHAND 灵巧手组成。单只手拥有 12 个独立驱动的关节，拇指与食指支持侧摆动作，整套系统总计 36 个自由度，为扭转、捏取等类人精细操作提供了物理基础。

在数据采集方面，Dexora 采用了“大动作+小动作”分离的遥操作策略：

手臂运动：通过定制外骨骼背包捕捉机械臂整体运动，确保无漂移、低延迟。
手指运动：利用 Apple Vision Pro 实现无标记手指追踪，兼顾大范围移动的稳定性与手指精细动作的灵活性。

为了实现数据的高效扩展，系统采用了虚实同步设计。遥操作指令同时下发至物理机器人和数字孪生体，两者以 20Hz 的频率同步记录传感器数据（包括 4 路 RGB 图像和 36 自由度关节状态）。这种“真实+仿真”互补的方式最终构建了包含 10 万条仿真轨迹（650 万帧）和 1 万条真实遥操作轨迹（292 万帧）的数据集，覆盖 30 类仿真物体和 17 类真实物体。

2. 模型架构：扩散 Transformer + 质量判别器

Dexora 基于数据质量感知的端到端 VLA 架构，旨在解决遥操作数据质量参差不齐及高维动作训练不稳定的痛点。

策略核心：采用解码器-only 的扩散 Transformer（Diffusion Transformer）。模型输入多视角 RGB 图像、语言指令及当前关节状态，输出 36 自由度连续动作序列。其中，T5 用于编码语言指令，SigLip 用于编码图像特征，两者交替注入 Transformer 块，通过去噪预测生成动作，兼顾多模态融合能力与高维动作建模精度。
离线质量判别器：针对遥操作数据中存在的操作误差和传感器噪声，Dexora 设计了离线判别器进行数据筛选。
- 预筛选：计算轨迹加速度和抖动值，保留运动平稳的样本。
- 后验证：重放轨迹，保留无碰撞且任务成功的样本。
- 加权训练：判别器以冻结的预训练策略为基准，预测轨迹质量得分（0-1）。在训练过程中，将得分转化为权重，高质量轨迹赋予高权重，低质量轨迹赋予低权重，从而引导模型聚焦有效数据，提升训练稳定性。

3. 三阶段训练策略

Dexora 采用“仿真预训练 + 判别器训练 + 真实微调”的三阶段训练流程，以平衡基础能力与灵巧技能：

仿真预训练：利用 10 万条仿真轨迹进行预训练，使模型掌握抓取、组装等基础操作，形成初始动作生成能力。
判别器训练：使用筛选后的高质量真实数据训练判别器，使其能精准识别轨迹优劣。
真实微调：使用全部真实数据对策略进行微调，通过质量权重引导，让模型从基础能力进阶到拧瓶盖、精细取物等高阶灵巧技能。

4. 实验结果与性能

实验表明，Dexora 在基础任务、灵巧任务及跨形态泛化三大维度均实现突破：

基础任务：在抓取、组装、关节操作等任务中，平均成功率达 89.6%。在 12 项任务中，有 7 项成功率超过 90%。双臂协同任务（如双手递物、嵌套碗分离）优势显著，远超 GR00T N1（82.1%）和 π0（50.4%）等基线模型。
灵巧任务：在拧瓶盖、用钢笔、切韭菜等需要双手配合及多指调控的任务中，平均成功率为 66.7%，较最优基线 GR00T N1（51.7%）提升 15 个百分点。在基线模型几乎失效的复杂精细任务中，Dexora 仍能稳定完成。
泛化能力：
- 分布外泛化：在未知背景、光照、物体及遮挡场景下，成功率仅小幅下降，表现出强鲁棒性。
- 跨形态迁移：36 自由度的 Dexora 可直接适配单臂夹爪、双臂夹爪及单臂低自由度手，无需重新训练，仅需适配动作维度。消融实验证实，质量判别器能有效降低动作抖动，提升任务稳定性。

关键要点

首创性：Dexora 是首个原生面向双臂双高自由度（36自由度）灵巧操作的开源 VLA 模型，统一了“双臂协同”与“精细操作”两大需求。
数据构建创新：采用“外骨骼+Apple Vision Pro”的虚实协同遥操作系统，结合仿真与真实数据，构建了大规模、高质量的多模态数据集。
架构突破：引入扩散 Transformer 作为策略核心，并创新性地加入离线质量判别器，通过“运动平滑度+任务成功率”双重标准筛选数据，有效解决了高维动作训练不稳定及噪声数据干扰问题。
向下兼容能力：证明了高自由度模型可向下兼容低自由度设备（如单臂夹爪），为通用机器人提供了“高维训练、低维部署”的新思路。
性能优势：在基础任务（89.6%成功率）和灵巧任务（66.7%成功率）上均显著优于 GR00T N1、π0 等主流基线模型，尤其在需要双手配合的复杂任务中优势明显。
局限性：目前仍依赖高成本硬件（36自由度系统），缺乏触觉反馈导致接触敏感任务成功率受限，且在长时序复杂装配及极端动态环境下的适应能力仍有待提升。

意义与影响

Dexora 的发布标志着具身智能在灵巧操作领域迈出了关键一步。它打破了以往 VLA 模型在形态上的壁垒，证明了通过高质量数据构建和质量感知训练，可以解决高维灵巧动作的学习难题。

对于行业而言，Dexora 的开源降低了技术门槛，为服务机器人、工业灵巧操作等场景提供了可行的解决方案。其“高维训练、低维部署”的特性，使得开发者可以利用高自由度模型的优势，灵活适配不同成本和功能需求的硬件平台。

尽管目前仍存在硬件成本高、缺乏触觉反馈等局限，但 Dexora 为通用灵巧机器人从实验室走向实际应用提供了重要范式。未来，若能进一步融合触觉反馈并强化长时序推理能力，Dexora 有望进一步缩小机器人与人类操作的差距，推动具身智能技术的规模化落地。

查看原文 →leiphone.com