AI 资讯雷峰网·1 天前

上海交大王贺升：动态SLAM正从画地图走向预测未来

原标题：上海交大王贺升教授：从画地图到预测未来，传统 SLAM 正走出静态世界 | ICRA 2026

速览

上海交大王贺升教授在ICRA 2026演讲中，针对传统SLAM在动态环境中的局限，提出了结合激光雷达与视觉的多模态融合及动态高斯建图技术。该方案通过引入NeRF记忆机制和视觉语言模型，赋予机器人长期记忆与语义理解能力，有效应对人体形变等复杂场景。目前相关技术已在矿卡、仓储机器人及手术机器人等领域落地应用。

AI 深度解读

背景

同步定位与建图（SLAM）一直是机器人实现自主导航与环境理解的基石。然而，传统的 SLAM 技术大多建立在“环境静止、结构稳定”的理想化假设之上。随着具身智能（Embodied AI）从实验室走向真实的复杂场景，现实世界充满了动态变化、语义模糊以及物理形变，这使得传统 SLAM 逐渐触及性能天花板。

在自动驾驶中，车辆和行人的运动；在手术机器人领域，人体组织的多变与形变，都是传统算法难以应对的挑战。运动、遮挡甚至形变问题，构成了新一代 SLAM 技术需要突破的核心难题。上海交通大学王贺升教授在 ICRA 2026 大会上，系统阐述了如何从感知、建图、定位到规划，构建一套能够应对动态、语义及可变性环境的完整技术路线，推动 SLAM 从单纯的“画地图”走向“预测未来”。

核心内容

王贺升教授在演讲《Learning to Navigate: From Scene Understanding to Decision Making》中，详细拆解了从里程计估计到最终决策制定的全链路技术革新。

1. 多模态融合与动态里程计 在感知层面，团队结合激光雷达与视觉传感器进行多模态数据融合。具体而言，将激光雷达点云投影至标准鸟瞰图平面，利用已知的外参将三维点投影到图像平面，提取特征后通过 Local-to-Global 特征融合网络获得全局特征表示，进而通过位姿解码器和类似 RANSAC 的迭代优化获得精确初始位姿。

针对动态场景，研究从二维光流扩展到三维场景流，最终实现四维（4D）重建与 SLAM：

二维光流估计：引入 Memory Bank 存储历史光流，利用连续性约束预测下一时刻光流，结合基于 DRU 的网络和多尺度 Transformer 结构进行优化，并在 nuScenes、Waymo 等数据集上验证了强大的零样本泛化能力。
三维场景流估计：采用两阶段框架，第一阶段利用两帧点云进行粗略估计，第二阶段利用生成式扩散模型进行精细优化。通过嵌入几何特征、流特征及代价体作为条件信号，控制扩散模型的输出多样性。
四维重建：将场景流作为监督信号，输入到 4D Hybrid Representation 中，利用 Neural Rendering 技术完成动态场景重建。

2. 动态与可变形环境的建图 在构建全局地图时，系统对前景和背景分别处理：

背景建模：采用传统的三维高斯表示方法，利用 Gaussian SLAM 完成背景建图。
前景建模：针对非刚体目标（如人、动物），设计可变形高斯网络，在人体动力学约束（FMPTL 框架）下预测位置、姿态和朝向；针对刚体目标，则结合检测结果和光流估计连续运动状态。
定位优化：利用三维高斯中心投影形成的几何中心与渲染获得的二维观测中心，通过最小化重投影误差（Reprojection Error）来优化相机位姿。

为解决高斯表示存储大、计算慢的问题，团队设计了紧凑型三维高斯 SLAM：通过体素化组织高斯、滑动窗口去除冗余、引入 3D Gaussian ICP Loss 作为全局 Bundle Adjustment 约束，以及利用残差向量优化压缩存储。实验显示，系统运行速度提升约一倍，接近实时运行。

3. 语义 SLAM 与可变形地图

语义融合：提取几何、外观及语义特征，利用 Attention 机制融合，采用从粗到细（Coarse-to-Fine）的层次化框架，最终通过图优化实现语义 SLAM。
可变形三维高斯地图（Deformable 3D Gaussian Map）：针对背景本身也可变形的情况（如手术场景），定义可变形体元（区分刚体、半刚体、完全可变形）和时变形变场（Temporal Deformation Field）。基于地图计算连续性地图（Continuity Map），用于相机位姿优化和参数更新，有效应对高度可变形环境。

4. 跨模态定位与记忆增强导航

跨模态定位：针对部署时仅有廉价摄像头（2D）而地图为高精度点云（3D）的情况，建立 2D-3D 对应关系。通过投影、邻域特征聚合及鲁棒匹配，利用位姿回归（Pose Regression）实现高精度、实时定位（每帧推理仅 14 毫秒）。
记忆与推理机制：引入 NeRF 存储关键帧信息建立检索机制，让机器人利用历史经验导航。同时，引入视觉语言模型（VLM）理解图像内容并建立语义关系图谱，构建双层图结构以学习对象间的关联规则，辅助决策。

5. 商业化落地案例 相关技术已在多个场景落地：

矿卡：在复杂矿区环境自主导航，稳定运行超一年。
仓储机器人：适应货物和设备持续变化的动态清洁机器人。
自动泊车：利用高精度地图支持车辆自主导航。
移动通信平台：辅助通信设备的精准部署。
割草机器人：在开放大区域工作，解决定位误差积累和边界识别问题。

关键要点

技术演进路径：SLAM 技术正从处理静态环境，向处理动态目标（光流/场景流）、四维重建、语义理解以及可变形环境（如人体组织）演进。
核心算法创新：
- 提出结合激光雷达与视觉的 Local-to-Global 特征融合网络。
- 利用生成式扩散模型优化三维场景流估计。
- 设计紧凑型三维高斯 SLAM，通过体素化和残差优化解决存储与效率瓶颈。
- 开发可变形三维高斯地图，引入连续性地图解决背景形变带来的定位难题。
记忆与推理增强：突破传统 SLAM 仅关注几何定位的局限，引入 NeRF 记忆机制和视觉语言模型（VLM），使机器人具备基于历史经验和语义关系的推理导航能力。
跨模态定位突破：实现了低成本 2D 摄像头与高精度 3D 点云地图的高效匹配，推理速度达到每帧 14 毫秒，满足实时性要求。
真实场景验证：技术已在矿卡、仓储、自动泊车、通信平台及割草机器人等多样化场景中验证，证明了其在动态、复杂及可变形环境中的鲁棒性。

意义与影响

王贺升教授的研究标志着 SLAM 技术正在经历从“感知现状”到“理解与预测未来”的范式转移。

首先，突破了静态环境的局限。通过引入动态高斯、可变形地图及四维表示，该技术能够应对手术机器人面前的人体组织形变、自动驾驶中的行人车辆等复杂动态场景，解决了具身智能落地中的关键痛点。

其次，提升了机器人的认知智能。通过融合视觉语言模型和 NeRF 记忆机制，机器人不再仅仅是“知道自己在哪”，而是能够“理解环境语义”并“利用历史经验”进行决策。这种从几何导航到语义推理的跨越，是具身智能迈向更高自主性的关键一步。

最后，推动了技术的工程化落地。紧凑型高斯 SLAM 和高效的跨模态定位算法，使得高精度的动态建图与定位在计算资源受限的真实设备（如矿卡、割草机器人）上实时运行成为可能。这不仅验证了学术研究的实用性，也为仓储、医疗、自动驾驶等行业的智能化升级提供了坚实的基础设施支持。

展望未来，随着世界模型（World Model）的引入，SLAM 将进一步具备预测长时间序列未来状态的能力，感知、规划与决策将更紧密地耦合，从而在不可预测的真实世界中处理更多边缘案例，实现真正通用的具身智能。

查看原文 →leiphone.com

上海交大王贺升：动态SLAM正从画地图走向预测未来

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐