Agentic RAG-VLM: Affordance-Aware Retrieval-Augmented Generation with Self-Reflective Planning for Robotic Grasping
AI 深度解读
背景
在非结构化的人类空间中部署机械臂,要求机器人具备在杂乱环境中进行泛化抓取的能力。然而,当前主流的基于视觉语言模型(VLM)的抓取方法存在明显短板:它们主要依赖视觉相似性来进行物体匹配,却严重忽略了物体的物理可供性——例如把手是否易抓、材质是否易碎等关键物理属性。此外,现有方法多采用开环运行机制,缺乏空间推理能力与失败恢复策略。当面对物体密集堆叠或物理属性差异巨大的场景时,这些局限性导致抓取成功率大幅下降,成为机器人落地应用的主要瓶颈。
核心内容
针对上述问题,本文提出了 Agentic RAG-VLM 框架。该框架通过将检索增强生成(RAG)、视觉语言模型(VLM)与智能体自反思规划相结合,桥接了基于 VLM 的语义理解与物理世界抓取执行之间的鸿沟。
Agentic RAG-VLM 包含三个紧密耦合的核心组件:
- 层级可供性感知 RAG(HAA-RAG):传统的 RAG 依赖视觉外观检索,而 H
查看原文 →arxiv.org
