← 返回信息流
AI 资讯雷峰网·3 天前

ICRA 2026:MASt3R-Nav打造像素级相对3D地图视觉导航新范式

原标题:ICRA 2026 | 像素级相对 3D 地图领航!MASt3R-Nav:打造高精度无全局重建视觉导航新范式

速览

ICRA 2026论文MASt3R-Nav提出像素级相对3D地图导航新范式,利用冻结的MASt3R基础模型构建像素-相对3D连通性地图。该方法无需全局坐标一致性、精准位姿估计或额外深度传感器,大幅降低建图门槛。实验显示,其WayPixel代价图与PixelReact控制器组合使SPL飙升至81.77%,在多项高难度任务中超越GNM等SOTA算法,并实现零微调仿真到现实迁移。

AI 深度解读

ICRA 2026 | 像素级相对 3D 地图领航!MASt3R-Nav:打造高精度无全局重建视觉导航新范式

背景

视觉导航是自主机器人和智能移动设备的核心能力,其性能高度依赖于环境表征方式。然而,当前主流的视觉导航方案在精度、效率与通用性之间难以兼顾,存在显著的局限性:

  • 经典全局度量 3D 地图:依赖占据栅格或 SLAM 重建全局一致的几何地图。虽然能实现精准路径规划,但高度依赖高精度全局位姿配准和完整的 3D 点云重建。这种方式算力开销巨大,且对环境变化极为敏感,一旦匹配误差累积,导航即刻失效。
  • 图像相对拓扑导航:以关键帧图像为节点,依靠帧间视觉相似度构建拓扑边。其优势在于轻量化,但完全弱化了三维几何约束,功能极度受限,仅能实现简单的示教-复现,无法自主规划新路径或应对未知岔路及场景变化。
  • 物体相对语义导航:将环境抽象为柜子、墙面、桌椅等语义物体,以物体为子目标进行路径规划。虽然提升了规划容错性,但过度语义抽象丢失了底层几何细节(如墙面边界、斜坡、微小障碍物),极易导致决策偏差、走错路线或碰撞风险。

此外,现有方案普遍存在“规划与控制割裂”的痛点:控制器通常只能接收单一的粗粒度子目标,缺乏连续的局部代价梯度引导,无法自主修正规划路径中的微小误差,导致在复杂室内场景下的适应性极差。

在此背景下,ICRA 2026 的新作 MASt3R-Nav 另辟蹊径,立足像素级局部相对几何,跳出全局重建与高层抽象的固有思维,旨在打造全新的像素级导航范式。

核心内容

MASt3R-Nav 提出了一种基于像素-相对 3D 连通性的拓扑导航流水线。该方法仅利用像素间的局部相对几何关系,无需全局坐标一致性、无需精准位姿估计、也无需额外深度传感器,从而大幅降低了建图与导航的门槛。其整体架构分为骨干模型、离线建图、在线执行、控制器训练四大核心环节,并引入图结构精简策略以严控计算开销。

1. 视觉感知骨干:冻结预训练的 MASt3R

系统全程采用冻结预训练的 MASt3R 模型作为视觉感知骨干。输入任意 RGB 图像对,该模型即可输出两大核心能力:

  • 跨帧稠密像素匹配关系;
  • 逐像素相对 3D 坐标。

通过定义像素间的 3D 欧氏距离,系统仅依靠单目 RGB 图像和基础模型,即可获取可靠的相对三维几何信息,彻底摆脱了对硬件传感器的依赖。

2. 离线建图:构建像素拓扑图

机器人遍历环境采集图像序列,构建像素拓扑图 $G=(N, E)$:

  • 节点 (N):仅保留参与跨帧匹配的有效像素,过滤掉无几何关联的冗余像素。
  • 边 (E):分为两类:
    • 帧间边:连接不同图像中匹配的同一物理像素,代价置为 0,实现跨帧坐标关联。
    • 帧内边:连接同一张图像内的有效像素,代价由 3D 欧氏距离决定。

为解决百万级像素图带来的计算爆炸问题,论文采用了三重优化策略:仅保留有匹配像素、使用欧氏最小生成树 (EMST) 替代全连接图、以及在运行时动态激活孤立像素。这些措施在保留几何完整性的同时,大幅压缩了图规模。

3. 在线执行:生成 WayPixel 代价图

这是导航的核心环节,通过三步生成全覆盖的像素代价梯度:

  1. 像素级定位:将当前实时图像与历史子图进行稠密匹配,选取匹配度最高的子图以完成机器人定位。
  2. 稀疏代价初始化:使用 Dijkstra 算法预计算地图中所有像素到目标的最短路径代价。实时匹配到的像素直接继承地图像素的规划代价。
  3. 全局代价传播:将稀疏匹配像素的代价扩散至整张图像中所有未匹配的像素,生成 WayPixel 代价图

最终,画面中的每一个像素都拥有指向目标的连续代价梯度,为控制器提供细粒度的决策依据。

4. 控制器训练:PixelReact

论文设计了定制的 PixelReact 学习控制器,专为 WayPixel 代价图设计轨迹预测功能。

  • 网络结构:沿用成熟的模仿学习框架,由卷积编码器 + MLP 解码器组成。
  • 工作流程:编码器输入 WayPixel 代价图以提取稠密几何特征;解码器一次性预测未来 10 个局部 2D 轨迹路点。
  • 训练方式:以真实最优路径为监督信号,采用 L2 回归损失进行训练,完美拟合最优导航轨迹,并兼容各类室内布局。

关键要点

  • 创新表征:首创 WayPixel Costmap 作为路径规划与控制器的通用接口,完整保留墙面、坡度、遮挡物等精细几何梯度,弥补了图像级和物体级表征细节丢失的硬伤。
  • 轻量化建图:摒弃全局 3D 重建与繁琐位姿标定,依托像素相对 3D 连通性实现轻量化建图,无需额外深度传感器。
  • 鲁棒控制PixelReact 控制器利用像素稠密代价梯度自主修正路径偏差,对规划瑕疵具备强鲁棒性,能精准输出机器人局部鸟瞰视角的轨迹路点。
  • 极致精简:采用 EMST 精简策略后,帧内边数从 466 万骤减至 2.4 万,Dijkstra 规划耗时从 9.0s 压缩至 1.4s,在算力大幅下降的同时,导航性能无任何衰减。
  • 仿真到现实迁移:仅在仿真 HM3D 数据集训练的模型,无需任何微调,可直接部署到真实未知室内环境的 P3DX 移动机器人上,实现了零微调的 Sim-to-Real 迁移。
  • 扩展性强:环境从 1 层扩展至 3 层大型办公楼宇时,算法运行耗时和内存占用均呈线性增长。即便拥有 8 万像素节点的超大地图,总运行时长不足 5 分钟,存储仅 540.18MB,支持规模化部署。
  • 性能超越 SOTA:在 4 类高难度导航任务(轨迹模仿、陌生目标导航、捷径规划、反向遍历)中全面超越 GNM、ObjectReact 等 SOTA 算法。其中,轨迹模仿任务 SPL 高达 93.94%,超过往最优模型 10 个百分点;陌生目标和捷径任务性能较物体级基线近乎翻倍。

意义与影响

MASt3R-Nav 的诞生彻底打破了机器人视觉导航的固有设计思路,证明了像素细粒度几何表征才是性能突破的关键。实验数据显示,单纯更换图像匹配器无法提升物体级导航上限,而像素级 WayPixel 表征 + PixelReact 控制器的组合,使 SPL 从传统物体级的 51.51% 飙升至 81.77%。

该研究兼顾了精度、算力、可扩展性与落地性,在仿真和真实机器人双场景下全面验证了其价值。它不仅解决了物体级表征抽象过度导致的决策失误痛点,还通过稠密梯度容错规划误差,使导航更加稳定和智能。

未来,该方向有望进一步探索像素几何与物体语义的混合表征,以融合两者优势并补齐反向轨迹导航的短板;同时优化 MASt3R 的大视角图像匹配策略,提升极端视角和低重叠场景下的定位规划精度。此外,通过进一步轻量化模型与图结构,该技术有望适配小型无人机、家用服务机器人等低算力终端设备,推动视觉导航技术的广泛落地。

查看原文 →leiphone.com