← 返回信息流
技术博客arXiv cs.AI·1 小时前

Phi-Nav用路径级后见之明指导语言导航训练

原标题:Path-level Hindsight Instructions for Semantic Exploration in Vision-Language Navigation

速览

Phi-Nav通过三阶段双监督循环实现对齐:智能体在专家反馈指导下探索轨迹,后见之明讲者生成路径级指令,智能体第二次模仿学习。 该框架桥接了在线方法固有的语义监督差距,将无标签运动转化为密集训练信号。 在R2R-CE和RxR-CE基准测试中,Phi-Nav仅需现有基线小部分专家演示即达到竞争力表现。 研究强调语义探索在VLN中的必要性,为数据有限的具身智能体训练提供有效解决方案。

AI 深度解读

背景

在视觉-语言导航(Vision-Language Navigation,简称VLN)领域,智能体(agent)需要在真实环境中通过视觉观察和自然语言指令完成一系列导航任务。训练高效的VLN智能体面临一个核心挑战:on-policy探索(基于当前策略的探索)至关重要,因为它能让智能体接触到更广泛的状态分布,从而提升

查看原文 →arxiv.org