技术博客arXiv cs.CL·3 小时前

ViGiL3D++：利用LLM与场景图提升3D视觉定位多样性

原标题：Scaling Diverse Language Generation for 3D Visual Grounding

速览

针对3D视觉定位（3DVG）中描述多样性不足的问题，研究提出ViGiL3D++方法。该方法结合场景图的约束采样与大语言模型（LLM）的语言生成能力，生成多样化的视觉定位查询。实验表明，该方法在多个3DVG基准测试中提升了模型性能，并揭示了视觉语言模型（VLMs）的局限性。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）