← 返回信息流
AI 资讯雷峰网·3 小时前

斯坦福Jeannette Bohg:灵巧手价值在于吞吐量与可控子空间

原标题:斯坦福Jeannette Bohg教授:抛弃“人手崇拜”,灵巧手要「解构物理」 | ICRA 2026

速览

斯坦福大学Jeannette Bohg教授在ICRA 2026演讲中指出,尽管二指夹爪表现优异,但灵巧手在吞吐量与可控子空间上具有不可替代优势。她提出“从物体轨迹学”的核心方法论,通过UniSim-Real统一策略与Play-to-Effect微调,解决高自由度操控难题。该研究旨在弥合低维表征与复杂视觉物理间的鸿沟,推动灵巧手走向通用化。

AI 深度解读

背景

在2026年6月3日于维也纳举行的ICRA 2026会议上,斯坦福大学计算机科学系副教授、斯坦福交互式感知实验室(Interactive Perception Lab)负责人Jeannette Bohg发表了一场题为《Do We Still Need Dexterous Hands?》(我们还需要灵巧手吗?)的主题演讲。

当前机器人操作领域存在一种显著的技术张力:二指夹爪(two-finger gripper)结合端到端大模型,已在魔方还原、精细拼装等任务中展现出令人惊叹的能力。这引发了业界对高自由度、高复杂度的拟人灵巧手(dexterous hand)存在价值的质疑。Bohg教授通过演讲回应了这一挑战,指出尽管夹爪在特定任务上表现优异,但灵巧手在吞吐量(throughput)和可控子空间(controllable subspace)方面具有不可替代的优势。然而,灵巧手的控制难点在于其22个自由度及多接触状态切换导致的遥操作(teleop)数据采集困难。为此,Bohg团队提出了一套从“物体轨迹”而非“人手动作”中学习的新方法论,旨在解决灵巧手的泛化与精度难题。

核心内容

Jeannette Bohg的演讲逻辑清晰地分为对灵巧手价值的辩护、核心方法论的阐述以及未来挑战的探讨三个部分。

1. 灵巧手的不可替代性:吞吐量与可控子空间

Bohg首先承认二指夹爪的强大,但强调灵巧手在以下两个维度具备独特优势:

  • 吞吐量(Throughput): 灵巧手能够执行复杂的“手内操作”(in-hand manipulation)。例如,在抓取工具后,通过手指的精细调整旋转工具以对齐螺槽,这一系列动作无需第二只手辅助,且速度极快。相比之下,夹爪无法完成这种单手的复杂姿态调整。
  • 可控子空间(Controllable Subspace): 引用LASA实验室对瑞士制表师的研究,专家级操作者(如制表大师)能够通过小指稳定工具、腕部旋转螺丝,展现出经过长期训练涌现的高效策略。这种利用身体多部位协同的复杂控制能力,是夹爪永远无法复现的。

2. 核心方法论:Sim-Tool-Real 与 UniSim-Real

针对灵巧手控制难、遥操作数据低效的问题,Bohg团队摒弃了传统的“从人手学”路线,转而采用“从物体轨迹学”的策略,分为两个阶段:

  • 第一阶段:UniSim-Real(统一仿真到现实策略)

    • 核心理念: 不模仿人手的姿态,而是模仿物体的目标位姿序列。
    • 数据获取: 录制人类操作视频,利用基础模型(Foundation Models)提取“物体在做什么”(即物体的目标位姿序列),而非“人手如何移动”。
    • 训练过程: 在仿真环境中生成一组基元物体,训练单一的强化学习(RL)策略。该策略的输入包括手部本体感受状态、物体包围盒、当前位姿(40个关键点)以及目标位姿序列。
    • 成果: 得到一个零样本(zero-shot)泛化的单一策略,能够处理大量未见过工具和任务,克服了固定抓取和运动学重定向(kinematic retargeting)的不稳定性。
  • 第二阶段:Play-to-Effect(从游玩到精确效果)

    • 问题: 上述“泛化探索策略”(Play Policy)虽然掌握了原子级技能,但在高精度装配任务(如公差极小的插孔)中表现不足。
    • 解决方案: 将预训练的Play Policy作为起点,针对特定高精度任务进行微调(fine-tune)。
    • 成果: 在插销任务、宜家(IKEA)基准测试及家具组装等任务中,该方法比从头训练更快、更鲁棒,且对外力干扰抵抗力更强。此外,作为闭环策略,它具备物体掉落后的主动拾取恢复能力。

3. 开放问题与未来方向

Bohg指出,当前研究尚未解决的核心问题是:如何弥合“低维度RL物体表征”与“自我中心视频中蕴含的丰富视觉-物理复杂性”之间的鸿沟。

  • 非拟人手适用性: 该方法论不依赖于拟人手的历史动作,因此同样适用于具有仿生主动表面的非拟人设计手部。
  • 视觉编码改进: 团队正在探索如《Masquerade》等项目,通过在人类视频中用机器人手替换人手,消除域偏移(Domain Gap),提升分布外泛化(OOD Generalization)能力。
  • Q&A补充: 在仿真到现实迁移中,团队使用域随机化(包括物体属性、物理环境、传感器噪声及延迟)来增强鲁棒性。对于柔性物体(如布料),目前尚无完美解决方案,猜想可能需结合刚体预训练与示范数据微调,或依赖更快的柔性体仿真框架。

关键要点

  • 灵巧手价值定位: 灵巧手并非为了“像人手”,而是为了在吞吐量可控子空间上提供夹爪无法实现的复杂操作能力(如单手工具对齐、多指协同稳定)。
  • 数据获取范式转变: 放弃低效且非直觉的遥操作(teleop)数据收集,转而使用Sim-Tool-Real路线,从人类视频中通过基础模型提取物体目标位姿,实现“物体轨迹”与“手部动作”的解耦。
  • 两阶段训练策略:
    1. UniSim-Real: 训练单一RL策略,基于物体目标位姿序列进行零样本泛化,处理广泛的任务和工具。
    2. Play-to-Effect: 以泛化策略为预训练起点,通过微调实现高精度装配任务,提升鲁棒性和抗干扰能力。
  • 闭环优势: 策略具备闭环控制能力,能在物体掉落时主动拾取,体现了本质上的恢复行为优势。
  • 通用性与扩展性: 该方法论不绑定于拟人手,可推广至非拟人手部;同时具备作为VLA模型Action Head或模块嵌入大型操控模型的潜力。
  • 现存挑战: 柔性物体(如布料、面团)的仿真与操作仍是难点;需进一步弥合低维RL表征与高维视觉-物理复杂性之间的差距。

意义与影响

Jeannette Bohg的演讲为具身智能领域的灵巧手研究提供了重要的理论突破和实践路径。

首先,它重新定义了灵巧手的学习范式。传统研究多聚焦于模仿人类动作(Imitation Learning from Human Data),但这受限于遥操作的数据质量和运动学重定向的天花板。Bohg提出的“从物体轨迹学”思路,将关注点从“手怎么动”转移到“物体怎么变”,这不仅提高了数据利用效率,还增强了策略的泛化能力,使得单一策略能够适应多种工具和任务。

其次,该方法论解决了灵巧手在“泛化”与“精度”之间的矛盾。通过“Play-to-Effect”的两阶段训练,既保留了RL在探索广泛技能上的优势,又通过微调解决了装配任务对精度的严苛要求。这种“先游玩后精确”的路径,为灵巧手从实验室走向工业场景(如精密制造、家具组装)提供了可行的技术框架。

最后,这一研究推动了机器人操作基础模型的发展。Bohg提到的将策略蒸馏至VLA模型、利用《Masquerade》消除域偏移等方向,表明灵巧手控制正逐渐融入更通用的视觉-语言-动作(VLA)架构中。这不仅有助于解决仿真到现实的迁移问题,也为构建真正通用的具身智能体奠定了关键基础。对于学术界和工业界而言,这标志着灵巧手研究正从单纯的硬件仿生,转向基于物理理解和数据驱动的高效策略学习阶段。

查看原文 →leiphone.com