← 返回信息流
技术博客arXiv cs.AI·8 天前

MobileExplorer:通过在线探索加速移动端GUI代理的设备端推理

原标题:MobileExplorer: Accelerating On-Device Inference for Mobile GUI Agents via Online Exploration

速览

针对现有移动端GUI代理依赖云端导致隐私和延迟问题,提出MobileExplorer框架。该框架利用视觉语言模型的推理时间并行探索UI元素,并将结果转化为上下文提示以优化后续步骤。实验表明,该方法在保持或提升任务成功率的同时,将推理步骤和端到端延迟降低了23%。

AI 深度解读

MobileExplorer:通过在线探索加速移动端 GUI 代理的本地推理

背景

随着人工智能技术的发展,基于视觉的移动端图形用户界面(GUI)代理逐渐兴起。这类代理旨在让 AI 模型能够代替用户自主操作智能手机,执行复杂的任务。然而,当前大多数现有的系统主要聚焦于优化任务执行的准确率,并且在推理(Inference)阶段高度依赖托管在云端的模型。

这种云端依赖模式带来了两个显著的问题:

  1. 隐私安全隐患:用户界面数据和操作行为需要上传至云端,增加了数据泄露的风险。
  2. 网络依赖导致的延迟:推理过程受网络状况影响,导致响应延迟高,难以实现流畅的实时交互体验。

因此,将移动端 GUI 代理完全部署在设备端(On-Device) remains an underexplored area(仍是一个未被充分探索的领域)。为了克服上述局限,研究人员提出了 MobileExplorer 框架,旨在通过“在线探索”(Online Exploration)技术,加速基于视觉的移动端 GUI 代理在设备端的推理速度,同时保持甚至提升任务成功率。

核心内容

MobileExplorer 的核心设计理念是利用视觉语言模型(Vision-Language Models, VLMs)在每个推理步骤中较长的推理时间窗口,并行执行轻量级的 UI 元素探索。其工作流程和关键技术组件如下:

1. 并行探索与结构化记忆

在模型进行常规推理的同时,MobileExplorer 代理会主动探测与当前任务语义相关的 UI 元素。这种探测是轻量级且并行的,不会阻塞主推理流程。代理会将这些探索过程中产生的轨迹记录为“结构化记忆”(Structured Memory)。

2. 两级回滚机制(Two-level Rollback Mechanism)

为了确保在真实的动态移动环境中执行的可靠性,MobileExplorer 设计了一种两级回滚机制。

  • 由于快速但简单的回溯策略(Naive Backtracking)在某些复杂场景下可能失效,该机制能够在简单策略失败时,更稳健地将 UI 状态恢复到初始状态。
  • 这保证了代理在探索失败或状态混乱时,能够安全地重置环境,避免陷入死循环或错误状态。

3. 上下文提示注入

收集到的探索轨迹并不会被丢弃,而是经过摘要处理,转化为简洁的“上下文提示”(Contextual Hints)。这些提示随后被注入到后续的推理步骤的 Prompt(提示词)中。通过这种方式,模型能够利用之前探索获得的信息,增强对当前任务的理解,从而优化后续的决策过程。

4. 评估与性能

研究团队在多个现成的移动设备上,使用 AndroidWorld 基准测试集,以及新设计的更复杂任务和动态设备环境对 MobileExplorer 进行了评估。结果显示:

  • 推理步骤减少:平均推理步骤减少了 23%。
  • 端到端延迟降低:整体任务完成时间(端到端延迟)降低了 23%。
  • 任务成功率提升:在加速推理的同时,任务成功率保持了稳定,甚至最高提升了 5%。

关键要点

  • 本地化推理优先:MobileExplorer 解决了现有 GUI 代理依赖云端模型带来的隐私和延迟问题,实现了完全的设备端部署。
  • 时间窗口利用:核心创新在于利用 VLM 推理时的“空闲”时间,并行进行 UI 元素的轻量级探索,变“等待”为“预计算”。
  • 结构化记忆增强:将探索轨迹转化为结构化记忆和上下文提示,使模型在后续步骤中能“记住”并“利用”之前的探索结果,提高决策效率。
  • 鲁棒的错误恢复:引入两级回滚机制,解决了简单回溯策略在复杂动态环境中不可靠的问题,确保了系统运行的稳定性。
  • 性能显著提升:在 AndroidWorld 基准测试中,实现了 23% 的延迟降低和步骤减少,同时任务成功率不降反升(最高 +5%),证明了该框架在效率与准确性之间的良好平衡。

意义与影响

MobileExplorer 的提出标志着移动端 AI 代理从“云端依赖”向“本地智能”迈出了重要一步。

  1. 隐私保护的增强:通过完全在设备端运行,用户的敏感界面数据和操作习惯无需离开本地设备,从根本上降低了隐私泄露的风险,符合日益严格的数据保护法规要求。
  2. 用户体验的优化:降低端到端延迟意味着用户与 AI 代理的交互将更加流畅、实时,消除了网络波动带来的卡顿感,提升了实际使用的可用性。
  3. 技术范式的转变:MobileExplorer 展示了如何通过软件算法优化(如在线探索、并行处理、记忆注入)来弥补硬件算力的限制,为在资源受限的移动设备上运行大模型提供了新的技术路径。
  4. 推动自主代理的实用化:更高的任务成功率和更低的延迟使得移动端 GUI 代理更有可能从实验室演示走向日常实际应用,如自动化手机操作、智能辅助等场景。

总之,MobileExplorer 不仅是一个性能优化的框架,更是解决移动端 AI 代理落地痛点(隐私、延迟、稳定性)的关键技术方案,为后续研究提供了重要的参考范例。

查看原文 →arxiv.org