← 返回信息流
AI 资讯量子位·1 小时前

它石智航发布TacForeSight,让机器人预判接触破解精细操作难题

原标题:让机器人学会“预判接触”:它石智航牵头四大顶尖机构发布TacForeSight,破解精细操作难题

速览

它石智航联合四大顶尖机构发布TacForeSight技术,旨在解决机器人精细操作中的接触难题。该技术能使机器人提前200毫秒预判接触状态,显著提升操作的精准度与安全性。这一突破对于推动机器人技术在复杂场景下的应用具有重要意义。

AI 深度解读

背景

机器人技术正在经历从“视觉主导”向“多模态感知”的深刻转型。虽然机器人已经能够通过视觉“看见”世界,并开始通过触觉“摸到”世界,但在处理真实的接触操作(Contact-Rich Manipulation)时,仅感知当前状态是远远不够的。

在擦拭、插接、拧紧等精细操作中,接触力度会实时变化,物体位置可能发生偏移。如果机器人仅依赖事后的触觉反馈进行修正(Reactive Feedback),往往因为物理反馈的滞后性而导致打滑、卡住或任务失败。例如,在擦拭过程中,接触压力随表面高度变化;在插接任务中,微小的位置偏差即可导致卡滞。

为了突破这一瓶颈,它石智航联合新加坡国立大学、上海交通大学、中科院自动化所及复旦大学,发布了名为 TacForeSight 的研究成果。该研究提出了一种力条件触觉世界模型,旨在让机器人从“被动反应”转向“主动预见”(Proactive Foresight),即在接触发生前预判其演化趋势,从而在物理世界发生变化之前主动调整动作。

核心内容

TacForeSight 的核心在于利用力觉信号作为先导,预测短时未来的触觉状态,并将这一预测引入机器人的动作生成闭环。其技术架构主要包含以下两个关键阶段:

1. Force-Guided Tactile World Model (TacForceWM)

这是系统的核心模块,旨在解决高维触觉数据计算开销大的问题。

  • 紧凑潜变量编码:不同于传统直接重建高维触觉图像的思路,该模型将双指触觉场编码为紧凑的触觉潜变量(Tactile Latent Variables)。
  • 力引导预测:利用高频的腕部力/力矩信号,预测短时未来的触觉演化。其核心洞察是:力觉与触觉并非重复信息,而是具有“时间先后关系”。人类在操作中,手腕先感知整体受力趋势,指尖随后感知局部细节。TacForceWM 模拟了这一机制,学习“当前接触如何演化为未来接触”。
  • 两阶段耦合
    • 第一阶段:通过力条件触觉世界模型预测触觉动态。
    • 第二阶段:将预测到的触觉动态作为“接触先验”,用于轻量级的动作策略生成。

2. Predictive Tactile-Conditioned Policy

在获得未来触觉预测后,系统提出了一种预测性触觉条件策略,以实现精细控制。

  • Cross-Attention 机制:策略显式建模当前接触状态与未来接触趋势之间的关系。机器人在生成动作时,不仅考虑“现在的接触”,也考虑“即将发生的接触变化”。
  • 自适应门控机制:根据任务阶段动态调整视觉与触觉的权重。在接触密集阶段,策略更依赖触觉进行精细控制;在远离接触阶段,则更多依赖视觉提供全局信息。

关键要点

  • 核心创新:首次将腕部力觉作为未来触觉状态的先导信号,用于预测短时接触演化,实现了从 Reactive Feedback(反应式反馈)到 Proactive Foresight(主动式预见)的范式转变。
  • 效率优化:通过紧凑潜空间预测实现高效实时推理,避免了高维触觉生成带来的巨大计算开销,使模型能够真正进入实时控制闭环。
  • 实时性能:支持 20Hz 的实时推理速度,逼近人类操作速度,适用于高频机器人操作控制。
  • 预判能力:在灯泡锁紧和花瓶擦拭等任务中,预测触觉潜变量比当前触觉潜变量提前约 200ms 出现接触相关变化,证明模型学到了接触状态随时间演化的趋势,而非简单记忆轨迹。
  • 泛化能力:在按压、扭转、滑动等未见过的力-触觉交互片段上,触觉编码器提取的潜变量在 t-SNE 可视化中形成清晰可分的簇,表明模型具备捕捉不同物理交互下局部形变和受力变化的判别能力。

意义与影响

TacForeSight 的发布标志着机器人精细操作领域的重要进展,其意义体现在以下几个维度:

  1. 解决接触操作痛点:通过引入“预判”机制,有效解决了因反馈滞后导致的卡顿、错位和任务失败问题,显著提升了机器人在复杂物理环境中的鲁棒性。
  2. 性能超越基线:在真实机器人平台上的实验显示,TacForeSight 在花瓶擦拭、卡片滑动、管件插入、灯泡锁紧、柔性线束插入五类典型任务中,平均完成率接近 80%,明显优于纯视觉模型及 KineDex、FoAR、RDP 等现有基线方法。
  3. 强大的抗扰动能力:在高度、角度、姿态等高扰动场景下,TacForeSight 的平均成绩达到 86.7%,展现出极强的扰动恢复能力。
  4. 构建新范式:继今年3月发布 OmniVTA 视触觉操作框架后,它石智航进一步补上了“提前预判”的能力。这展示了从“看见世界”、“摸到世界”到“预感世界”的技术演进路径,为接触智能提供了一种更接近人类操作逻辑的新范式。

未来,随着视觉、触觉与力觉等多模态感知的进一步融合,机器人将逐渐学会像人一样预判世界、适应世界,从而在更复杂的物理环境中完成稳定且精细的操作。

查看原文 →qbitai.com