技术博客arXiv cs.AI·3 小时前

Agentic RAG-VLM: Affordance-Aware Retrieval-Augmented Generation with Self-Reflective Planning for Robotic Grasping

AI 深度解读

背景

在非结构化的人类空间中部署机械臂，要求机器人具备在杂乱环境中进行泛化抓取的能力。然而，当前主流的基于视觉语言模型（VLM）的抓取方法存在明显短板：它们主要依赖视觉相似性来进行物体匹配，却严重忽略了物体的物理可供性——例如把手是否易抓、材质是否易碎等关键物理属性。此外，现有方法多采用开环运行机制，缺乏空间推理能力与失败恢复策略。当面对物体密集堆叠或物理属性差异巨大的场景时，这些局限性导致抓取成功率大幅下降，成为机器人落地应用的主要瓶颈。

核心内容

针对上述问题，本文提出了 Agentic RAG-VLM 框架。该框架通过将检索增强生成（RAG）、视觉语言模型（VLM）与智能体自反思规划相结合，桥接了基于 VLM 的语义理解与物理世界抓取执行之间的鸿沟。

Agentic RAG-VLM 包含三个紧密耦合的核心组件：

层级可供性感知 RAG（HAA-RAG）：传统的 RAG 依赖视觉外观检索，而 H

查看原文 →arxiv.org

Agentic RAG-VLM: Affordance-Aware Retrieval-Augmented Generation with Self-Reflective Planning for Robotic Grasping

AI 深度解读

背景

核心内容

相关推荐