上海交大王贺升:动态SLAM正从画地图走向预测未来
速览
上海交大王贺升教授在ICRA 2026演讲中,针对传统SLAM在动态环境中的局限,提出了结合激光雷达与视觉的多模态融合及动态高斯建图技术。该方案通过引入NeRF记忆机制和视觉语言模型,赋予机器人长期记忆与语义理解能力,有效应对人体形变等复杂场景。目前相关技术已在矿卡、仓储机器人及手术机器人等领域落地应用。
AI 深度解读
背景
同步定位与建图(SLAM)一直是机器人实现自主导航与环境理解的基石。然而,传统的 SLAM 技术大多建立在“环境静止、结构稳定”的理想化假设之上。随着具身智能(Embodied AI)从实验室走向真实的复杂场景,现实世界充满了动态变化、语义模糊以及物理形变,这使得传统 SLAM 逐渐触及性能天花板。
在自动驾驶中,车辆和行人的运动;在手术机器人领域,人体组织的多变与形变,都是传统算法难以应对的挑战。运动、遮挡甚至形变问题,构成了新一代 SLAM 技术需要突破的核心难题。上海交通大学王贺升教授在 ICRA 2026 大会上,系统阐述了如何从感知、建图、定位到规划,构建一套能够应对动态、语义及可变性环境的完整技术路线,推动 SLAM 从单纯的“画地图”走向“预测未来”。
核心内容
王贺升教授在演讲《Learning to Navigate: From Scene Understanding to Decision Making》中,详细拆解了从里程计估计到最终决策制定的全链路技术革新。
1. 多模态融合与动态里程计 在感知层面,团队结合激光雷达与视觉传感器进行多模态数据融合。具体而言,将激光雷达点云投影至标准鸟瞰图平面,利用已知的外参将三维点投影到图像平面,提取特征后通过 Local-to-Global 特征融合网络获得全局特征表示,进而通过位姿解码器和类似 RANSAC 的迭代优化获得精确初始位姿。
针对动态场景,研究从二维光流扩展到三维场景流,最终实现四维(4D)重建与 SLAM:
- 二维光流估计:引入 Memory Bank 存储历史光流,利用连续性约束预测下一时刻光流,结合基于 DRU 的网络和多尺度 Transformer 结构进行优化,并在 nuScenes、Waymo 等数据集上验证了强大的零样本泛化能力。
- 三维场景流估计:采用两阶段框架,第一阶段利用两帧点云进行粗略估计,第二阶段利用生成式扩散模型进行精细优化。通过嵌入几何特征、流特征及代价体作为条件信号,控制扩散模型的输出多样性。
- 四维重建:将场景流作为监督信号,输入到 4D Hybrid Representation 中,利用 Neural Rendering 技术完成动态场景重建。
2. 动态与可变形环境的建图 在构建全局地图时,系统对前景和背景分别处理:
- 背景建模:采用传统的三维高斯表示方法,利用 Gaussian SLAM 完成背景建图。
- 前景建模:针对非刚体目标(如人、动物),设计可变形高斯网络,在人体动力学约束(FMPTL 框架)下预测位置、姿态和朝向;针对刚体目标,则结合检测结果和光流估计连续运动状态。
- 定位优化:利用三维高斯中心投影形成的几何中心与渲染获得的二维观测中心,通过最小化重投影误差(Reprojection Error)来优化相机位姿。
为解决高斯表示存储大、计算慢的问题,团队设计了紧凑型三维高斯 SLAM:通过体素化组织高斯、滑动窗口去除冗余、引入 3D Gaussian ICP Loss 作为全局 Bundle Adjustment 约束,以及利用残差向量优化压缩存储。实验显示,系统运行速度提升约一倍,接近实时运行。
3. 语义 SLAM 与可变形地图
- 语义融合:提取几何、外观及语义特征,利用 Attention 机制融合,采用从粗到细(Coarse-to-Fine)的层次化框架,最终通过图优化实现语义 SLAM。
- 可变形三维高斯地图(Deformable 3D Gaussian Map):针对背景本身也可变形的情况(如手术场景),定义可变形体元(区分刚体、半刚体、完全可变形)和时变形变场(Temporal Deformation Field)。基于地图计算连续性地图(Continuity Map),用于相机位姿优化和参数更新,有效应对高度可变形环境。
4. 跨模态定位与记忆增强导航
- 跨模态定位:针对部署时仅有廉价摄像头(2D)而地图为高精度点云(3D)的情况,建立 2D-3D 对应关系。通过投影、邻域特征聚合及鲁棒匹配,利用位姿回归(Pose Regression)实现高精度、实时定位(每帧推理仅 14 毫秒)。
- 记忆与推理机制:引入 NeRF 存储关键帧信息建立检索机制,让机器人利用历史经验导航。同时,引入视觉语言模型(VLM)理解图像内容并建立语义关系图谱,构建双层图结构以学习对象间的关联规则,辅助决策。
5. 商业化落地案例 相关技术已在多个场景落地:
- 矿卡:在复杂矿区环境自主导航,稳定运行超一年。
- 仓储机器人:适应货物和设备持续变化的动态清洁机器人。
- 自动泊车:利用高精度地图支持车辆自主导航。
- 移动通信平台:辅助通信设备的精准部署。
- 割草机器人:在开放大区域工作,解决定位误差积累和边界识别问题。
关键要点
- 技术演进路径:SLAM 技术正从处理静态环境,向处理动态目标(光流/场景流)、四维重建、语义理解以及可变形环境(如人体组织)演进。
- 核心算法创新:
- 提出结合激光雷达与视觉的 Local-to-Global 特征融合网络。
- 利用生成式扩散模型优化三维场景流估计。
- 设计紧凑型三维高斯 SLAM,通过体素化和残差优化解决存储与效率瓶颈。
- 开发可变形三维高斯地图,引入连续性地图解决背景形变带来的定位难题。
- 记忆与推理增强:突破传统 SLAM 仅关注几何定位的局限,引入 NeRF 记忆机制和视觉语言模型(VLM),使机器人具备基于历史经验和语义关系的推理导航能力。
- 跨模态定位突破:实现了低成本 2D 摄像头与高精度 3D 点云地图的高效匹配,推理速度达到每帧 14 毫秒,满足实时性要求。
- 真实场景验证:技术已在矿卡、仓储、自动泊车、通信平台及割草机器人等多样化场景中验证,证明了其在动态、复杂及可变形环境中的鲁棒性。
意义与影响
王贺升教授的研究标志着 SLAM 技术正在经历从“感知现状”到“理解与预测未来”的范式转移。
首先,突破了静态环境的局限。通过引入动态高斯、可变形地图及四维表示,该技术能够应对手术机器人面前的人体组织形变、自动驾驶中的行人车辆等复杂动态场景,解决了具身智能落地中的关键痛点。
其次,提升了机器人的认知智能。通过融合视觉语言模型和 NeRF 记忆机制,机器人不再仅仅是“知道自己在哪”,而是能够“理解环境语义”并“利用历史经验”进行决策。这种从几何导航到语义推理的跨越,是具身智能迈向更高自主性的关键一步。
最后,推动了技术的工程化落地。紧凑型高斯 SLAM 和高效的跨模态定位算法,使得高精度的动态建图与定位在计算资源受限的真实设备(如矿卡、割草机器人)上实时运行成为可能。这不仅验证了学术研究的实用性,也为仓储、医疗、自动驾驶等行业的智能化升级提供了坚实的基础设施支持。
展望未来,随着世界模型(World Model)的引入,SLAM 将进一步具备预测长时间序列未来状态的能力,感知、规划与决策将更紧密地耦合,从而在不可预测的真实世界中处理更多边缘案例,实现真正通用的具身智能。
