技术博客arXiv cs.AI·3 小时前

Teach-and-Repeat：从手机演示精准提取操作知识赋能GUI智能体

原标题：Teach-and-Repeat: Accurately Extracting Operational Knowledge from Mobile Screen Demonstrations to Empower GUI Agents

速览

该研究提出Teach VLM模型，能从手机演示视频中提取关键帧并转化为步骤化的操作知识，解决现有视觉语言模型在异构UI下理解困难的问题。通过构建数据飞轮和中文评测基准，实现了操作语义预测的SOTA性能。基于此提出的Teach-and-Repeat范式，将生成的操作知识作为可解释的程序参考，有效指导下游屏幕执行智能体，显著提升了任务成功率。

AI 深度解读

Teach-and-Repeat：从移动端屏幕演示中精准提取操作知识以赋能 GUI 智能体

背景

随着人工智能在移动设备上的应用日益深入，理解数字世界的能力正在经历一场范式转移：从静态的用户界面（UI）感知，转向动态的动作理解。传统的视觉语言模型（VLMs）虽然能够识别屏幕上的元素，但往往难以捕捉用户操作背后的逻辑和意图。

这种新能力要求模型能够将视觉状态的转换转化为“操作知识”（Operational Knowledge）。操作知识被定义为描述动作类型、目标 UI 元素、文本参数以及执行顺序的简短自然语言句子。然而，由于不同应用程序之间存在高度多样且异构的 UI 设计，现有的 VLMs 在准确推断这些底层操作时面临巨大挑战。此外，缺乏对齐的高质量训练数据也限制了模型的泛化能力。

核心内容

为了解决上述问题，研究团队提出了一种名为 Teach VLM 的核心模型，并基于此构建了 Teach-and-Repeat 范式。

1. Teach VLM：从演示视频中提取操作知识

Teach VLM 的核心功能是将移动设备的屏幕轨迹转化为分步式的操作知识。该模型通过从演示视频（demonstration videos）中提取和分析与操作相关的关键帧（keyframes），进而解析出用户的具体操作步骤。这一过程旨在让模型不仅“看到”屏幕，还能“理解”用户是如何通过一系列动作改变屏幕状态的。

2. 数据飞轮：解决数据稀缺问题

针对对齐训练数据稀缺的痛点，团队开发了一个系统性的“数据飞轮”（data flywheel），用于实现可扩展的数据获取。这一机制通过自动化或半自动化的流程，不断生成和积累高质量的操作演示数据，从而形成良性循环，持续优化模型性能。

3. 中文移动端屏幕教学基准（Chinese Mobile Screen Teach Benchmark）

为了对模型进行细粒度的评估，研究团队引入了一个新的基准测试——中文移动端屏幕教学基准。该基准专门针对中文语境下的移动应用界面设计，旨在更准确地衡量模型在理解中文 UI 操作逻辑方面的能力。

4. Teach-and-Repeat 范式

在 Teach VLM 的基础上，团队提出了 Teach-and-Repeat 范式。该范式的核心思想是：将生成的操作知识作为可解释的过程参考（interpretable procedural reference），用来指导下游基于屏幕的执行智能体（screen-based execution agents）。

具体流程如下：

Teach（教学）：通过演示视频训练 Teach VLM，提取出结构化的操作知识。
Repeat（重复/执行）：下游智能体利用这些操作知识作为指导，在类似的任务场景中执行相应的屏幕操作。

关键要点

从静态感知到动态理解：移动端 AI 的核心能力正从识别静态 UI 元素转向理解动态的用户操作序列。
操作知识的定义：操作知识是连接视觉状态与动作意图的桥梁，包含动作类型、目标元素、文本参数和执行顺序四个维度。
Teach VLM 的创新：通过提取和分析演示视频中的关键帧，Teach VLM 能够准确地将屏幕轨迹转化为分步的自然语言操作指令。
数据飞轮机制：为解决数据瓶颈，团队构建了可扩展的数据获取系统，确保持续获得高质量的训练数据。
中文基准测试：发布了专门的中文移动端屏幕教学基准，填补了中文语境下 GUI 智能体评估的空白。
可解释性增强：Teach-and-Repeat 范式生成的操作知识具有可解释性，为下游智能体的决策提供了清晰的逻辑参考。
性能优势：在操作语义预测任务中，Teach VLM 显著优于强大的 VLM 基线模型，达到了最先进（SOTA）的性能水平。
下游任务提升：在 Android World 实验环境中，该范式显著提高了下游智能体的任务成功率（Task Success Rate）。

意义与影响

这项研究为从原始演示数据到可复用任务自动化提供了一条切实可行的路径。

首先，Teach VLM 解决了现有视觉语言模型在复杂异构 UI 环境中理解用户操作意图的难题。通过引入关键帧分析和操作知识提取，模型不再仅仅停留在“这是什么界面”，而是深入到了“用户想做什么”以及“如何做到”的层面。

其次，Teach-and-Repeat 范式 强调了可解释性在 GUI 智能体中的重要性。传统的端到端黑盒模型往往难以调试和优化，而通过生成结构化的操作知识作为中间参考，下游智能体的执行过程变得更加透明和可控。这不仅有助于提高任务成功率，也为后续的错误诊断和模型迭代提供了便利。

最后，中文基准测试 的发布推动了中文环境下 GUI 智能体研究的发展。随着中文互联网生态的庞大，针对中文 UI 特性的专门评估和数据积累，将有助于提升 AI 助手在中文场景下的实用性和准确性。

综上所述，Teach-and-Repeat 不仅是一项技术突破，更是一种新的方法论，它展示了如何利用人类演示数据来高效训练和赋能下一代智能体，使它们能够像人类一样理解并执行复杂的移动设备操作任务。

查看原文 →arxiv.org