技术博客arXiv cs.AI·7 小时前

自动具身对话增强推动DialNav性能大幅提升

原标题：Advancing DialNav through Automatic Embodied Dialog Augmentation

速览

针对DialNav框架因训练数据稀缺导致的性能瓶颈，研究提出自动具身对话增强流水线，构建包含23.8万集的大型RAINbow数据集。通过双策略训练对齐动态对话-导航循环，并结合利用VLN知识的定位模型，该方案大幅提升了模型在Val Seen和Val Unseen上的成功率，确立了新的最先进水平。

AI 深度解读

通过自动具身对话增强推进 DialNav：深度解读

背景

在具身智能（Embodied AI）领域，能够进行物理交互的智能体（Embodied Agents）不仅需要理解视觉和空间信息，更需要具备创建和理解对话的能力。这种能力对于确保智能体在复杂环境中的安全性和有效性至关重要。

DialNav 是一个旨在对“对话-执行”闭环进行整体评估的框架，特别针对照片级真实的室内导航场景。然而，尽管 DialNav 提供了评估基准，其性能提升长期受到一个关键瓶颈的限制：训练数据的极度稀缺。原始 DialNav 框架仅拥有约 2,000 个训练片段（episodes），这严重制约了模型的泛化能力和最终表现。

核心内容

为了解决数据稀缺问题，研究团队提出了一种自动生成流水线，并构建了名为 RAINbow 的大规模训练数据集。该数据集包含 238,000 个训练片段，旨在为 DialNav 提供充足的数据支持。

1. RAINbow 数据集的构建

研究团队的核心工作是将现有的视觉语言导航（VLN, Vision-and-Language Navigation）数据集转化为多轮对话形式。这一过程不仅创造了成本效益高且高质量的训练数据，还保留了原始 VLN 任务中的空间推理逻辑，将其映射到更自然的对话交互场景中。

2. 解锁数据潜力的两项关键创新

仅仅拥有大量数据并不足以保证性能飞跃，研究团队引入了两项互补的技术进步，以充分挖掘 RAINbow 数据集的潜力：

双策略训练（Dual-Strategy Training）：这是一种新的导航训练方案。传统的训练方法往往将导航与对话割裂，而双策略训练旨在使导航训练与动态的“对话-导航”闭环紧密对齐。这意味着模型在训练过程中不仅学习如何到达目的地，还学习如何在导航过程中根据对话上下文调整策略，从而更好地处理交互中的不确定性。
利用 VLN 知识的定位模型：研究团队设计了一个专门的定位模型，该模型充分利用了从 VLN 任务中习得的空间知识。通过将 VLN 中积累的细粒度空间理解能力迁移到对话导航任务中，模型能够更精准地确定自身位置，从而在对话交互中做出更合理的导航决策。

3. 性能突破

通过结合上述数据增强方案和技术创新，新模型在 DialNav 基准测试中取得了显著的性能提升：

在 Val Seen（验证集-已知场景）上，成功率达到 58.24，相比基线模型提升了 89%。
在 Val Unseen（验证集-未知场景）上，成功率达到 29.05，相比基线模型提升了 100%。

这一结果确立了该模型在 DialNav 任务上的新最先进状态（State of the Art, SOTA）。

关键要点

数据瓶颈突破：通过自动流水线将现有 VLN 数据集转化为多轮对话数据，构建了包含 238K 片段的 RAINbow 数据集，解决了 DialNav 训练数据仅 2K 片段的稀缺问题。
双策略训练对齐：提出了 Dual-Strategy Training，使导航训练与动态的对话-导航交互闭环保持一致，提升了模型在交互过程中的适应能力。
VLN 知识迁移：引入利用 VLN 知识的定位模型，将视觉语言导航中的空间推理能力迁移至对话导航任务，提高了定位精度。
SOTA 性能确立：新模型在 Val Seen 和 Val Unseen 上的成功率分别实现了 89% 和 100% 的大幅增长，刷新了 DialNav 基准记录。
安全与有效性并重：强调具身智能体在物理交互中，对话能力对于保障操作安全和任务执行效率的核心作用。

意义与影响

这项研究对具身智能和对话导航领域具有多重重要意义：

解决了具身对话导航的数据鸿沟：通过自动化生成高质量的多轮对话导航数据，为后续研究提供了可复用的数据构建范式，降低了该领域对昂贵人工标注数据的依赖。
推动了“对话-执行”闭环的研究：研究不仅关注导航结果，更关注导航过程中的交互逻辑。双策略训练方法的提出，为如何更好地模拟人类在导航中的自然交互提供了新的技术路径。
提升了智能体的实用性与安全性：在真实物理环境中，智能体若无法理解人类指令或无法通过对话澄清意图，极易导致安全事故。RAINbow 数据集及其训练方法显著提升了模型在未知环境中的鲁棒性，为具身智能体进入更复杂的真实世界应用场景奠定了基础。
跨任务知识迁移的典范：利用 VLN 知识增强定位模型，展示了不同具身任务之间知识迁移的有效性，为未来多任务具身智能体的联合训练提供了参考。

查看原文 →arxiv.org