AI 资讯雷峰网·3 天前

ICRA 2026：MASt3R-Nav打造像素级相对3D地图视觉导航新范式

原标题：ICRA 2026 | 像素级相对 3D 地图领航！MASt3R-Nav：打造高精度无全局重建视觉导航新范式

速览

ICRA 2026论文MASt3R-Nav提出像素级相对3D地图导航新范式，利用冻结的MASt3R基础模型构建像素-相对3D连通性地图。该方法无需全局坐标一致性、精准位姿估计或额外深度传感器，大幅降低建图门槛。实验显示，其WayPixel代价图与PixelReact控制器组合使SPL飙升至81.77%，在多项高难度任务中超越GNM等SOTA算法，并实现零微调仿真到现实迁移。

AI 深度解读

ICRA 2026 | 像素级相对 3D 地图领航！MASt3R-Nav：打造高精度无全局重建视觉导航新范式

背景

视觉导航是自主机器人和智能移动设备的核心能力，其性能高度依赖于环境表征方式。然而，当前主流的视觉导航方案在精度、效率与通用性之间难以兼顾，存在显著的局限性：

经典全局度量 3D 地图：依赖占据栅格或 SLAM 重建全局一致的几何地图。虽然能实现精准路径规划，但高度依赖高精度全局位姿配准和完整的 3D 点云重建。这种方式算力开销巨大，且对环境变化极为敏感，一旦匹配误差累积，导航即刻失效。
图像相对拓扑导航：以关键帧图像为节点，依靠帧间视觉相似度构建拓扑边。其优势在于轻量化，但完全弱化了三维几何约束，功能极度受限，仅能实现简单的示教-复现，无法自主规划新路径或应对未知岔路及场景变化。
物体相对语义导航：将环境抽象为柜子、墙面、桌椅等语义物体，以物体为子目标进行路径规划。虽然提升了规划容错性，但过度语义抽象丢失了底层几何细节（如墙面边界、斜坡、微小障碍物），极易导致决策偏差、走错路线或碰撞风险。

此外，现有方案普遍存在“规划与控制割裂”的痛点：控制器通常只能接收单一的粗粒度子目标，缺乏连续的局部代价梯度引导，无法自主修正规划路径中的微小误差，导致在复杂室内场景下的适应性极差。

在此背景下，ICRA 2026 的新作 MASt3R-Nav 另辟蹊径，立足像素级局部相对几何，跳出全局重建与高层抽象的固有思维，旨在打造全新的像素级导航范式。

核心内容

MASt3R-Nav 提出了一种基于像素-相对 3D 连通性的拓扑导航流水线。该方法仅利用像素间的局部相对几何关系，无需全局坐标一致性、无需精准位姿估计、也无需额外深度传感器，从而大幅降低了建图与导航的门槛。其整体架构分为骨干模型、离线建图、在线执行、控制器训练四大核心环节，并引入图结构精简策略以严控计算开销。

1. 视觉感知骨干：冻结预训练的 MASt3R

系统全程采用冻结预训练的 MASt3R 模型作为视觉感知骨干。输入任意 RGB 图像对，该模型即可输出两大核心能力：

跨帧稠密像素匹配关系；
逐像素相对 3D 坐标。

通过定义像素间的 3D 欧氏距离，系统仅依靠单目 RGB 图像和基础模型，即可获取可靠的相对三维几何信息，彻底摆脱了对硬件传感器的依赖。

2. 离线建图：构建像素拓扑图

机器人遍历环境采集图像序列，构建像素拓扑图 $G=(N, E)$：

节点 (N)：仅保留参与跨帧匹配的有效像素，过滤掉无几何关联的冗余像素。
边 (E)：分为两类：
- 帧间边：连接不同图像中匹配的同一物理像素，代价置为 0，实现跨帧坐标关联。
- 帧内边：连接同一张图像内的有效像素，代价由 3D 欧氏距离决定。

为解决百万级像素图带来的计算爆炸问题，论文采用了三重优化策略：仅保留有匹配像素、使用欧氏最小生成树 (EMST) 替代全连接图、以及在运行时动态激活孤立像素。这些措施在保留几何完整性的同时，大幅压缩了图规模。

3. 在线执行：生成 WayPixel 代价图

这是导航的核心环节，通过三步生成全覆盖的像素代价梯度：

像素级定位：将当前实时图像与历史子图进行稠密匹配，选取匹配度最高的子图以完成机器人定位。
稀疏代价初始化：使用 Dijkstra 算法预计算地图中所有像素到目标的最短路径代价。实时匹配到的像素直接继承地图像素的规划代价。
全局代价传播：将稀疏匹配像素的代价扩散至整张图像中所有未匹配的像素，生成 WayPixel 代价图。

最终，画面中的每一个像素都拥有指向目标的连续代价梯度，为控制器提供细粒度的决策依据。

4. 控制器训练：PixelReact

论文设计了定制的 PixelReact 学习控制器，专为 WayPixel 代价图设计轨迹预测功能。

网络结构：沿用成熟的模仿学习框架，由卷积编码器 + MLP 解码器组成。
工作流程：编码器输入 WayPixel 代价图以提取稠密几何特征；解码器一次性预测未来 10 个局部 2D 轨迹路点。
训练方式：以真实最优路径为监督信号，采用 L2 回归损失进行训练，完美拟合最优导航轨迹，并兼容各类室内布局。

关键要点

创新表征：首创 WayPixel Costmap 作为路径规划与控制器的通用接口，完整保留墙面、坡度、遮挡物等精细几何梯度，弥补了图像级和物体级表征细节丢失的硬伤。
轻量化建图：摒弃全局 3D 重建与繁琐位姿标定，依托像素相对 3D 连通性实现轻量化建图，无需额外深度传感器。
鲁棒控制：PixelReact 控制器利用像素稠密代价梯度自主修正路径偏差，对规划瑕疵具备强鲁棒性，能精准输出机器人局部鸟瞰视角的轨迹路点。
极致精简：采用 EMST 精简策略后，帧内边数从 466 万骤减至 2.4 万，Dijkstra 规划耗时从 9.0s 压缩至 1.4s，在算力大幅下降的同时，导航性能无任何衰减。
仿真到现实迁移：仅在仿真 HM3D 数据集训练的模型，无需任何微调，可直接部署到真实未知室内环境的 P3DX 移动机器人上，实现了零微调的 Sim-to-Real 迁移。
扩展性强：环境从 1 层扩展至 3 层大型办公楼宇时，算法运行耗时和内存占用均呈线性增长。即便拥有 8 万像素节点的超大地图，总运行时长不足 5 分钟，存储仅 540.18MB，支持规模化部署。
性能超越 SOTA：在 4 类高难度导航任务（轨迹模仿、陌生目标导航、捷径规划、反向遍历）中全面超越 GNM、ObjectReact 等 SOTA 算法。其中，轨迹模仿任务 SPL 高达 93.94%，超过往最优模型 10 个百分点；陌生目标和捷径任务性能较物体级基线近乎翻倍。

意义与影响

MASt3R-Nav 的诞生彻底打破了机器人视觉导航的固有设计思路，证明了像素细粒度几何表征才是性能突破的关键。实验数据显示，单纯更换图像匹配器无法提升物体级导航上限，而像素级 WayPixel 表征 + PixelReact 控制器的组合，使 SPL 从传统物体级的 51.51% 飙升至 81.77%。

该研究兼顾了精度、算力、可扩展性与落地性，在仿真和真实机器人双场景下全面验证了其价值。它不仅解决了物体级表征抽象过度导致的决策失误痛点，还通过稠密梯度容错规划误差，使导航更加稳定和智能。

未来，该方向有望进一步探索像素几何与物体语义的混合表征，以融合两者优势并补齐反向轨迹导航的短板；同时优化 MASt3R 的大视角图像匹配策略，提升极端视角和低重叠场景下的定位规划精度。此外，通过进一步轻量化模型与图结构，该技术有望适配小型无人机、家用服务机器人等低算力终端设备，推动视觉导航技术的广泛落地。

查看原文 →leiphone.com