技术博客arXiv cs.AI·8 天前

MobileExplorer：通过在线探索加速移动端GUI代理的设备端推理

原标题：MobileExplorer: Accelerating On-Device Inference for Mobile GUI Agents via Online Exploration

速览

针对现有移动端GUI代理依赖云端导致隐私和延迟问题，提出MobileExplorer框架。该框架利用视觉语言模型的推理时间并行探索UI元素，并将结果转化为上下文提示以优化后续步骤。实验表明，该方法在保持或提升任务成功率的同时，将推理步骤和端到端延迟降低了23%。

AI 深度解读

MobileExplorer：通过在线探索加速移动端 GUI 代理的本地推理

背景

随着人工智能技术的发展，基于视觉的移动端图形用户界面（GUI）代理逐渐兴起。这类代理旨在让 AI 模型能够代替用户自主操作智能手机，执行复杂的任务。然而，当前大多数现有的系统主要聚焦于优化任务执行的准确率，并且在推理（Inference）阶段高度依赖托管在云端的模型。

这种云端依赖模式带来了两个显著的问题：

隐私安全隐患：用户界面数据和操作行为需要上传至云端，增加了数据泄露的风险。
网络依赖导致的延迟：推理过程受网络状况影响，导致响应延迟高，难以实现流畅的实时交互体验。

因此，将移动端 GUI 代理完全部署在设备端（On-Device） remains an underexplored area（仍是一个未被充分探索的领域）。为了克服上述局限，研究人员提出了 MobileExplorer 框架，旨在通过“在线探索”（Online Exploration）技术，加速基于视觉的移动端 GUI 代理在设备端的推理速度，同时保持甚至提升任务成功率。

核心内容

MobileExplorer 的核心设计理念是利用视觉语言模型（Vision-Language Models, VLMs）在每个推理步骤中较长的推理时间窗口，并行执行轻量级的 UI 元素探索。其工作流程和关键技术组件如下：

1. 并行探索与结构化记忆

在模型进行常规推理的同时，MobileExplorer 代理会主动探测与当前任务语义相关的 UI 元素。这种探测是轻量级且并行的，不会阻塞主推理流程。代理会将这些探索过程中产生的轨迹记录为“结构化记忆”（Structured Memory）。

2. 两级回滚机制（Two-level Rollback Mechanism）

为了确保在真实的动态移动环境中执行的可靠性，MobileExplorer 设计了一种两级回滚机制。

由于快速但简单的回溯策略（Naive Backtracking）在某些复杂场景下可能失效，该机制能够在简单策略失败时，更稳健地将 UI 状态恢复到初始状态。
这保证了代理在探索失败或状态混乱时，能够安全地重置环境，避免陷入死循环或错误状态。

3. 上下文提示注入

收集到的探索轨迹并不会被丢弃，而是经过摘要处理，转化为简洁的“上下文提示”（Contextual Hints）。这些提示随后被注入到后续的推理步骤的 Prompt（提示词）中。通过这种方式，模型能够利用之前探索获得的信息，增强对当前任务的理解，从而优化后续的决策过程。

4. 评估与性能

研究团队在多个现成的移动设备上，使用 AndroidWorld 基准测试集，以及新设计的更复杂任务和动态设备环境对 MobileExplorer 进行了评估。结果显示：

推理步骤减少：平均推理步骤减少了 23%。
端到端延迟降低：整体任务完成时间（端到端延迟）降低了 23%。
任务成功率提升：在加速推理的同时，任务成功率保持了稳定，甚至最高提升了 5%。

关键要点

本地化推理优先：MobileExplorer 解决了现有 GUI 代理依赖云端模型带来的隐私和延迟问题，实现了完全的设备端部署。
时间窗口利用：核心创新在于利用 VLM 推理时的“空闲”时间，并行进行 UI 元素的轻量级探索，变“等待”为“预计算”。
结构化记忆增强：将探索轨迹转化为结构化记忆和上下文提示，使模型在后续步骤中能“记住”并“利用”之前的探索结果，提高决策效率。
鲁棒的错误恢复：引入两级回滚机制，解决了简单回溯策略在复杂动态环境中不可靠的问题，确保了系统运行的稳定性。
性能显著提升：在 AndroidWorld 基准测试中，实现了 23% 的延迟降低和步骤减少，同时任务成功率不降反升（最高 +5%），证明了该框架在效率与准确性之间的良好平衡。

意义与影响

MobileExplorer 的提出标志着移动端 AI 代理从“云端依赖”向“本地智能”迈出了重要一步。

隐私保护的增强：通过完全在设备端运行，用户的敏感界面数据和操作习惯无需离开本地设备，从根本上降低了隐私泄露的风险，符合日益严格的数据保护法规要求。
用户体验的优化：降低端到端延迟意味着用户与 AI 代理的交互将更加流畅、实时，消除了网络波动带来的卡顿感，提升了实际使用的可用性。
技术范式的转变：MobileExplorer 展示了如何通过软件算法优化（如在线探索、并行处理、记忆注入）来弥补硬件算力的限制，为在资源受限的移动设备上运行大模型提供了新的技术路径。
推动自主代理的实用化：更高的任务成功率和更低的延迟使得移动端 GUI 代理更有可能从实验室演示走向日常实际应用，如自动化手机操作、智能辅助等场景。

总之，MobileExplorer 不仅是一个性能优化的框架，更是解决移动端 AI 代理落地痛点（隐私、延迟、稳定性）的关键技术方案，为后续研究提供了重要的参考范例。

查看原文 →arxiv.org