AI 资讯雷峰网·3 小时前

波恩大学Maren Bennewitz：让机器人通过主动感知突破遮挡世界

原标题：波恩大学 Maren Bennewitz 教授：让机器人在遮挡世界中主动获取信息 | ICRA 2026

速览

波恩大学Maren Bennewitz在ICRA 2026指出，机器人需将感知、预测与动作规划整合为闭环，以应对杂乱且部分观测的真实环境。她展示了利用语义地图、LLM先验及几何约束，在货架、家庭搜索及农业场景中通过主动移动降低不确定性的方法。该研究旨在让机器人通过行动将未知转化为已知，提升在遮挡世界中的可靠理解能力。

AI 深度解读

背景

在真实的物理世界中，机器人部署面临着巨大的挑战：环境往往是杂乱无章、持续变化且只能被部分观测的。传统的机器人感知范式主要依赖“被动观察”，即等待传感器捕捉到完整或足够的数据。然而，这种被动策略在面对严重遮挡、动态变化以及信息缺失的场景时显得力不从心。

2026年6月4日，在ICRA 2026大会的“Robot perception and spatial AI”主题演讲环节，波恩大学（University of Bonn）的 Maren Bennewitz 教授指出，机器人若要从实验室走向家庭、农业和服务业等复杂场景，必须从根本上改变感知逻辑。她提出，机器人不能仅仅把感知当作“看一眼”的过程，而必须将感知、预测、先验知识与动作规划整合到一个闭环系统中。核心观点在于：**主动感知（Active Perception）**不仅仅是改变视角，而是通过主动移动、推动或抓取遮挡物，以最小的动作成本获取最大的信息增益，从而将“未知”转化为“已知”。

核心内容

Maren Bennewitz 在演讲中详细阐述了如何通过主动感知解决遮挡和不确定性问题，并展示了三个典型的应用场景：杂乱货架场景、家庭物体搜索以及农业监测与采摘。

1. 杂乱场景中的主动感知与不确定性管理

在货架或桌面等存在严重遮挡的环境中，机器人仅靠改变视角无法看到被前方物体遮挡的后方空间。Bennewitz 团队提出了一种基于**不确定性感知的语义地图（Uncertainty-aware Semantic Map）**的方法。

信念表示与演化预测：机器人使用带有不确定性度量的语义地图来表示环境。通过训练一个动作条件网络，机器人可以预测执行特定动作（如视角变化、推动、抓取）后，地图中的占据（Occupancy）、语义（Semantics）及其不确定性将如何演化。
信息增益最大化：系统通过优化目标函数来选择最佳动作序列。该函数综合考虑了预期信息增益（Expected Information Gain）和动作成本。对于纯粹的视角变化，主要关注信息增益；对于需要移动物体的操作，则需平衡信息增益与操作成本。
执行流程：机器人查看不确定性地图，识别出高不确定性区域，选择能最大程度降低不确定性的动作（如向左推动盒子、抓取并移开遮挡物），从而揭示被遮挡的空间。实验显示，机器人能够维护关于物体的长期信念，即使物体被移开，它也知道其原始位置，并在任务完成后将其归位。

2. 家庭环境中的按需物体搜索

在家庭场景中，物体频繁移动、重新放置，甚至隐藏在家具内部。重新探索整个环境效率极低。为此，团队构建了一个3D场景图（3D Scene Graph），包含房间、家具和隔层结构，并结合多种先验知识进行空间信念推理。

多源先验融合：
1. LLM语义先验：利用大语言模型（LLM）根据场景图预测候选放置位置，生成初始信念分布。
2. 几何约束：基于目标物体的尺寸和形状，过滤掉物理上不可行的位置（如小物体放入大隔层，或大物体放入小隔层）。
3. 重定位动态模型：学习环境中物体重定位的转移概率，模拟人类的移动习惯，随时间更新搜索策略。
全局定位与动作选择：系统将上述因素结合到全局定位中，允许因物体未被观察而产生的概率扩散。最终，机器人基于代价感知（考虑可访问性、动作成本及对人的干扰）选择最优位置进行检查。
效果：在固定搜索预算下，加入语义、几何及重定位先验后，搜索成功率显著高于仅使用均匀先验的方法，实现了无需重新探索全屋的按需搜索。

3. 农业监测与果实采摘

农业环境具有高度动态性，植物生长导致外观和遮挡关系随时间变化。团队针对作物重复监测和果实采摘提出了基于先验的高效规划方法。

基于时间先验的视角规划：
- 利用上一时间步（如上周）的完整重建模型作为先验。
- 通过**非刚性配准（Non-rigid Registration）**将上一时刻的模型与当前时刻的部分重建点云对齐。
- 基于对齐后的近似表面，使用集合覆盖优化（Set Cover Optimization）选择能填补当前数据空洞的最佳视角，并通过旅行商问题（TSP）规划高效路径。
- 这种方法避免了从零开始重建，显著提高了重复监测的效率。
遮挡推理与可采摘性估计：
- 对于甜椒或番茄等果实，叶片遮挡是主要难题。团队引入叶片形变模型，评估候选动作和视角，预测叶片背后的可见性。
- 正在开发一种统一的**图表示（Graph Representation）**来建模可见性和遮挡关系，使机器人能推理哪片叶子遮挡了目标，以及按何种顺序处理遮挡。
- 结合三臂系统（相机、切割器、操作器），机器人不仅能识别果实，还能估计其形状和可采摘性，并执行采摘操作。

关键要点

主动感知的本质：主动感知是将“看哪里、动什么、何时停止”转化为信息增益最大化问题的过程。世界不是一张静态照片，而是一组可以通过行动逐步揭开的信念分布。
不确定性是核心指标：机器人必须量化“自己不知道什么”。通过维护带有不确定性度量的语义地图，机器人可以精确识别需要进一步观测的区域。
先验知识的作用：先验知识（如LLM语义、几何约束、重定位习惯、历史地图）不替代感知，而是用于约束搜索空间，帮助机器人更聪明地选择下一步动作，从而减少无效探索。
动作作为信息采集工具：换视角、推开物体、移动叶片等动作，其直接目的不仅是操作，更是为了降低地图和语义的不确定性，揭示被遮挡的信息。
时间维度的重要性：在农业等动态环境中，上一轮的重建结果可作为下一轮的先验，通过非刚性配准和视角规划，实现高效的重建和监测，避免重复劳动。
从识别到可采摘性：在农业采摘任务中，机器人需从简单的“识别果实”进阶到“估计可采摘性”，这需要理解叶片、视角和目标之间的复杂遮挡关系，并可能涉及物理交互（如移动叶片）。

意义与影响

Maren Bennewitz 的研究为具身智能（Embodied AI）在复杂非结构化环境中的部署提供了重要的理论框架和技术路径。

突破被动感知的局限：传统机器人感知往往受限于传感器视场和静态数据，而主动感知范式赋予机器人“好奇心”和“探索能力”，使其能够在信息不全的情况下通过主动交互获取关键信息，这是机器人进入真实世界的关键一步。
提升鲁棒性与效率：通过融合多源先验知识和不确定性管理，机器人能够在遮挡、动态变化等恶劣条件下保持较高的任务成功率，同时通过优化动作序列显著降低时间和能源成本。
推动农业与服务机器人落地：在农业领域，该方法解决了作物遮挡和生长动态带来的监测难题，为自动化采摘和产量预估提供了可行方案。在家庭服务领域，按需搜索算法使得机器人能够在大型、动态变化的环境中高效完成任务，提升了用户体验。
信念驱动的智能决策：将世界表示为信念分布，并通过动作更新信念，这一范式为机器人提供了更透明的决策依据。机器人不仅知道“看到了什么”，还知道“相信什么”以及“为什么相信”，这有助于增强人机信任和安全控制。

总之，Bennewitz 的工作强调，未来的机器人必须是“主动的学习者”和“理性的探索者”，通过行动与环境的持续互动，逐步构建对世界的完整理解。

查看原文 →leiphone.com