波恩大学Maren Bennewitz:让机器人通过主动感知突破遮挡世界
速览
波恩大学Maren Bennewitz在ICRA 2026指出,机器人需将感知、预测与动作规划整合为闭环,以应对杂乱且部分观测的真实环境。她展示了利用语义地图、LLM先验及几何约束,在货架、家庭搜索及农业场景中通过主动移动降低不确定性的方法。该研究旨在让机器人通过行动将未知转化为已知,提升在遮挡世界中的可靠理解能力。
AI 深度解读
背景
在真实的物理世界中,机器人部署面临着巨大的挑战:环境往往是杂乱无章、持续变化且只能被部分观测的。传统的机器人感知范式主要依赖“被动观察”,即等待传感器捕捉到完整或足够的数据。然而,这种被动策略在面对严重遮挡、动态变化以及信息缺失的场景时显得力不从心。
2026年6月4日,在ICRA 2026大会的“Robot perception and spatial AI”主题演讲环节,波恩大学(University of Bonn)的 Maren Bennewitz 教授指出,机器人若要从实验室走向家庭、农业和服务业等复杂场景,必须从根本上改变感知逻辑。她提出,机器人不能仅仅把感知当作“看一眼”的过程,而必须将感知、预测、先验知识与动作规划整合到一个闭环系统中。核心观点在于:**主动感知(Active Perception)**不仅仅是改变视角,而是通过主动移动、推动或抓取遮挡物,以最小的动作成本获取最大的信息增益,从而将“未知”转化为“已知”。
核心内容
Maren Bennewitz 在演讲中详细阐述了如何通过主动感知解决遮挡和不确定性问题,并展示了三个典型的应用场景:杂乱货架场景、家庭物体搜索以及农业监测与采摘。
1. 杂乱场景中的主动感知与不确定性管理
在货架或桌面等存在严重遮挡的环境中,机器人仅靠改变视角无法看到被前方物体遮挡的后方空间。Bennewitz 团队提出了一种基于**不确定性感知的语义地图(Uncertainty-aware Semantic Map)**的方法。
- 信念表示与演化预测:机器人使用带有不确定性度量的语义地图来表示环境。通过训练一个动作条件网络,机器人可以预测执行特定动作(如视角变化、推动、抓取)后,地图中的占据(Occupancy)、语义(Semantics)及其不确定性将如何演化。
- 信息增益最大化:系统通过优化目标函数来选择最佳动作序列。该函数综合考虑了预期信息增益(Expected Information Gain)和动作成本。对于纯粹的视角变化,主要关注信息增益;对于需要移动物体的操作,则需平衡信息增益与操作成本。
- 执行流程:机器人查看不确定性地图,识别出高不确定性区域,选择能最大程度降低不确定性的动作(如向左推动盒子、抓取并移开遮挡物),从而揭示被遮挡的空间。实验显示,机器人能够维护关于物体的长期信念,即使物体被移开,它也知道其原始位置,并在任务完成后将其归位。
2. 家庭环境中的按需物体搜索
在家庭场景中,物体频繁移动、重新放置,甚至隐藏在家具内部。重新探索整个环境效率极低。为此,团队构建了一个3D场景图(3D Scene Graph),包含房间、家具和隔层结构,并结合多种先验知识进行空间信念推理。
- 多源先验融合:
- LLM语义先验:利用大语言模型(LLM)根据场景图预测候选放置位置,生成初始信念分布。
- 几何约束:基于目标物体的尺寸和形状,过滤掉物理上不可行的位置(如小物体放入大隔层,或大物体放入小隔层)。
- 重定位动态模型:学习环境中物体重定位的转移概率,模拟人类的移动习惯,随时间更新搜索策略。
- 全局定位与动作选择:系统将上述因素结合到全局定位中,允许因物体未被观察而产生的概率扩散。最终,机器人基于代价感知(考虑可访问性、动作成本及对人的干扰)选择最优位置进行检查。
- 效果:在固定搜索预算下,加入语义、几何及重定位先验后,搜索成功率显著高于仅使用均匀先验的方法,实现了无需重新探索全屋的按需搜索。
3. 农业监测与果实采摘
农业环境具有高度动态性,植物生长导致外观和遮挡关系随时间变化。团队针对作物重复监测和果实采摘提出了基于先验的高效规划方法。
- 基于时间先验的视角规划:
- 利用上一时间步(如上周)的完整重建模型作为先验。
- 通过**非刚性配准(Non-rigid Registration)**将上一时刻的模型与当前时刻的部分重建点云对齐。
- 基于对齐后的近似表面,使用集合覆盖优化(Set Cover Optimization)选择能填补当前数据空洞的最佳视角,并通过旅行商问题(TSP)规划高效路径。
- 这种方法避免了从零开始重建,显著提高了重复监测的效率。
- 遮挡推理与可采摘性估计:
- 对于甜椒或番茄等果实,叶片遮挡是主要难题。团队引入叶片形变模型,评估候选动作和视角,预测叶片背后的可见性。
- 正在开发一种统一的**图表示(Graph Representation)**来建模可见性和遮挡关系,使机器人能推理哪片叶子遮挡了目标,以及按何种顺序处理遮挡。
- 结合三臂系统(相机、切割器、操作器),机器人不仅能识别果实,还能估计其形状和可采摘性,并执行采摘操作。
关键要点
- 主动感知的本质:主动感知是将“看哪里、动什么、何时停止”转化为信息增益最大化问题的过程。世界不是一张静态照片,而是一组可以通过行动逐步揭开的信念分布。
- 不确定性是核心指标:机器人必须量化“自己不知道什么”。通过维护带有不确定性度量的语义地图,机器人可以精确识别需要进一步观测的区域。
- 先验知识的作用:先验知识(如LLM语义、几何约束、重定位习惯、历史地图)不替代感知,而是用于约束搜索空间,帮助机器人更聪明地选择下一步动作,从而减少无效探索。
- 动作作为信息采集工具:换视角、推开物体、移动叶片等动作,其直接目的不仅是操作,更是为了降低地图和语义的不确定性,揭示被遮挡的信息。
- 时间维度的重要性:在农业等动态环境中,上一轮的重建结果可作为下一轮的先验,通过非刚性配准和视角规划,实现高效的重建和监测,避免重复劳动。
- 从识别到可采摘性:在农业采摘任务中,机器人需从简单的“识别果实”进阶到“估计可采摘性”,这需要理解叶片、视角和目标之间的复杂遮挡关系,并可能涉及物理交互(如移动叶片)。
意义与影响
Maren Bennewitz 的研究为具身智能(Embodied AI)在复杂非结构化环境中的部署提供了重要的理论框架和技术路径。
- 突破被动感知的局限:传统机器人感知往往受限于传感器视场和静态数据,而主动感知范式赋予机器人“好奇心”和“探索能力”,使其能够在信息不全的情况下通过主动交互获取关键信息,这是机器人进入真实世界的关键一步。
- 提升鲁棒性与效率:通过融合多源先验知识和不确定性管理,机器人能够在遮挡、动态变化等恶劣条件下保持较高的任务成功率,同时通过优化动作序列显著降低时间和能源成本。
- 推动农业与服务机器人落地:在农业领域,该方法解决了作物遮挡和生长动态带来的监测难题,为自动化采摘和产量预估提供了可行方案。在家庭服务领域,按需搜索算法使得机器人能够在大型、动态变化的环境中高效完成任务,提升了用户体验。
- 信念驱动的智能决策:将世界表示为信念分布,并通过动作更新信念,这一范式为机器人提供了更透明的决策依据。机器人不仅知道“看到了什么”,还知道“相信什么”以及“为什么相信”,这有助于增强人机信任和安全控制。
总之,Bennewitz 的工作强调,未来的机器人必须是“主动的学习者”和“理性的探索者”,通过行动与环境的持续互动,逐步构建对世界的完整理解。
