ViGiL3D++:利用LLM与场景图提升3D视觉定位多样性
原标题:Scaling Diverse Language Generation for 3D Visual Grounding
速览
针对3D视觉定位(3DVG)中描述多样性不足的问题,研究提出ViGiL3D++方法。该方法结合场景图的约束采样与大语言模型(LLM)的语言生成能力,生成多样化的视觉定位查询。实验表明,该方法在多个3DVG基准测试中提升了模型性能,并揭示了视觉语言模型(VLMs)的局限性。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
