← 返回信息流
技术博客arXiv cs.AI·3 小时前

VISTA:基于视图一致自验证训练的GUI定位新方法

原标题:VISTA: View-Consistent Self-Verified Training for GUI Grounding

速览

针对GUI定位中GRPO训练因单视图采样导致的优势估计失效问题,研究提出VISTA框架。该方法通过构建保持目标可见的多视图样本组,并引入自验证交叉视图锚点来稳定坐标生成。实验显示,该方法在多个基准测试中显著提升了Qwen系列模型的定位准确率与鲁棒性。

AI 深度解读

VISTA:基于视图一致性自验证训练的 GUI 定位方法解读

背景

在计算机视觉与人工智能领域,GUI(图形用户界面)定位(GUI Grounding)是一项关键任务,旨在让模型理解屏幕截图并准确指出特定 UI 元素的位置。随着大语言模型(LLM)和多模态大模型(MLLM)的发展,利用强化学习(Reinforcement Learning, RL)来优化模型的定位能力成为研究热点。

其中,Group Relative Policy Optimization (GRPO) 是一种流行的强化学习算法,它通过比较同一组内的多个采样结果(rollouts)来计算相对优势(relative advantage),从而更新策略。然而,在传统的 GUI 定位应用中,GRPO 面临一个显著的痛点:采样视图的单一性

通常,模型从单张屏幕截图(single screenshot view)中采样生成多个响应。这种设置导致了一个严重的问题:

  1. 在困难样本上:由于输入信息固定且复杂,生成的组往往全部失败,无法提供有效的梯度信号。
  2. 在简单样本上:由于任务过于简单,生成的组往往全部成功,同样无法计算有意义的相对优势。

这种“全赢”或“全输”的局面使得基于 GRPO 的训练难以收敛或优化效果不佳。为了解决这一瓶颈,研究人员提出了 VISTA(View-Consistent Self-Verified Training,视图一致性自验证训练)框架。

核心内容

VISTA 是一种基于 GRPO 的训练框架,其核心创新在于改变了比较组的构建方式,并引入了自验证机制,以提升模型在 GUI 定位任务中的鲁棒性和准确性。

1. 多视图比较组构建(Multi-View Comparison Groups)

VISTA 不再从单一的屏幕截图中采样,而是为同一个 GUI 界面生成多个**保持目标元素可见(target-preserving)**的视图。

  • 视图生成机制:通过裁剪(crop)操作生成新视图,确保目标 UI 元素在裁剪后的图像中依然可见,并且其边界框(bounding box)被精确重映射(remap)。
  • 语义等价但几何不同:这些新视图在语义上与原始截图等价(都指向同一个目标),但在几何结构上不同(视角、缩放或裁剪区域不同)。
  • 优势:模型在这些语义等价但几何不同的输入上进行 rollout 比较。这不仅增加了数据的多样性,还迫使模型学习更鲁棒的定位特征,而不是依赖特定的图像布局或位置偏差。

2. 自验证交叉视图锚点(Self-Verified Cross-View Anchor)

为了稳定短坐标生成过程,同时避免将强化学习退化为无条件模仿学习(unconditional imitation),VISTA 引入了一个创新的“自验证交叉视图锚点”机制。

  • Oracle Answer 优化:该机制利用一个“预言机答案”(oracle answer,即真实标签或高质量参考),通过优势加权损失(advantage-weighted loss)进行优化。
  • 排除基线:这个锚点被排除在 GRPO 的组基线(group baseline)计算之外,避免污染相对优势的估计。
  • 条件激活:该锚点仅在模型生成了具有最大奖励(maximum-reward)的 rollout 时才会被激活。这意味着只有当模型表现最佳时,系统才会利用这个高质量的锚点来进一步巩固和优化策略,从而在探索与利用之间取得平衡。

3. 实验验证与性能提升

VISTA 在五个 GUI 定位基准测试和多个 Qwen 系列骨干模型上进行了广泛评估。

  • 基准测试:包括 ScreenSpot-Pro 等主流 GUI 定位数据集。
  • 模型支持:主要基于 Qwen3-VL 系列模型(4B、8B、30B-A3B 版本)。
  • 性能提升
    • 在 ScreenSpot-Pro 基准上,VISTA 显著提升了各规模模型的性能:
      • Qwen3-VL 4B:从 55.5 提升至 63.4
      • Qwen3-VL 8B:从 52.7 提升至 65.8
      • Qwen3-VL 30B-A3B:从 53.7 提升至 67.0
  • 鲁棒性分析
    • 最坏情况准确率(Worst-view accuracy)更高:表明模型在面对困难视图时表现更稳定。
    • 预测翻转率(Prediction flip rates)更低:表明模型在不同视图间的一致性更好,减少了因微小视角变化导致的定位错误。

关键要点

  • 解决 GRPO 的“全赢全输”困境:VISTA 通过引入多视图采样,确保了比较组内存在差异化的表现,从而能够计算有效的相对优势,解决了传统单视图 GRPO 在困难或简单样本上失效的问题。
  • 视图一致性(View-Consistency):核心思想是利用同一 GUI 的不同几何视图(保持目标可见)进行训练,增强模型对空间位置和几何变化的鲁棒性。
  • 自验证机制(Self-Verified):通过优势加权损失优化预言机答案,并仅在模型产生最佳奖励时激活,既稳定了训练过程,又避免了强化学习退化为简单的监督学习。
  • 显著的性能增益:在 Qwen3-VL 系列模型上,VISTA 带来了 7-13 个百分点的性能提升,特别是在 ScreenSpot-Pro 等高难度基准上表现突出。
  • 提升鲁棒性与一致性:实验证明,VISTA 不仅提高了平均准确率,还降低了预测翻转率,提升了模型在最坏视图下的表现,证明了其在实际应用场景中的稳定性。

意义与影响

VISTA 的提出对 GUI 自动化、智能体(Agent)开发以及多模态大模型的训练方法具有重要的理论和实践意义。

  1. 优化强化学习在视觉任务中的应用:VISTA 展示了如何通过数据增强(多视图生成)和训练机制创新(自验证锚点)来克服传统强化学习算法(如 GRPO)在视觉定位任务中的局限性。这为其他基于 RL 的视觉任务提供了新的思路。
  2. 提升 GUI 智能体的可靠性:GUI 定位是构建自主操作软件、自动化测试和辅助技术(Accessibility)的核心组件。VISTA 提高了模型在不同屏幕布局、缩放和裁剪情况下的定位准确性,使得基于大模型的 GUI 智能体更加可靠和实用。
  3. 推动多模态模型的空间理解能力:通过强制模型在几何变换中保持语义一致性,VISTA 有助于提升模型对空间关系和视觉结构的深层理解,这可能泛化到其他需要精确空间推理的多模态任务中。
  4. 开源社区的贡献:作为 arXiv 上发布的最新研究成果(2026年6月提交),VISTA 为社区提供了一个高效的训练框架,有望成为后续 GUI 定位研究的基准方法之一,促进相关领域的技术进步。

总之,VISTA 通过巧妙的视图一致性和自验证机制,成功解决了 GUI 定位中强化学习训练的稳定性与有效性难题,为构建更智能、更鲁棒的视觉-语言-行动模型奠定了坚实基础。

查看原文 →arxiv.org