← 返回信息流
技术博客arXiv cs.CL·1 小时前

PhoneHarness:通过混合GUI、CLI和工具动作赋能手机使用智能体

原标题:PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

速览

现有手机智能体研究多局限于GUI控制,难以应对复杂的真实移动工作流。PhoneHarness引入混合动作基准与执行框架,结合GUI、CLI及主机端工具动作,支持确定性路由与可审计执行。该框架能评估智能体是否产生可观察的副作用,而非仅预测屏幕动作。实验显示,PhoneHarness在标注评估集上达到75.0%通过率,显著优于其他设置。

AI 深度解读

PhoneHarness:通过混合 GUI、CLI 和工具动作驾驭手机使用智能体

背景

随着大语言模型(LLM)和智能体(Agent)技术的飞速发展,手机智能体(Phone Agents)正逐渐从单纯的屏幕交互预测者,转向能够完成真实移动端工作流的执行者。然而,当前的移动智能体研究仍存在显著的局限性。

大多数现有文献仍将智能体主要评估为“GUI 控制器”。在这种范式下,智能体仅负责观察屏幕,发出点击(taps)或滑动(swipes)指令,其得分主要取决于目标应用程序的状态是否达到预期。这种评估方式过于狭隘,无法反映真实世界中复杂的手机使用场景。

在实际的手机使用任务中,智能体需要更广泛的决策能力:它必须判断何时使用应用程序的图形用户界面(GUI),何时调用设备侧的命令行界面(CLI)命令,以及何时使用结构化的工具(Tools)。更重要的是,智能体必须留下证据,证明其预期的副作用(side effects)确实已经发生。现有的评估体系缺乏对这种混合动作执行及其可验证性的支持。

核心内容

为了解决上述问题,研究团队提出了 PhoneHarness,这是一个用于研究手机使用智能体的混合动作基准测试(benchmark)和执行框架(execution harness)。

1. PhoneHarness 的执行机制

PhoneHarness 运行一个设备侧的智能体循环(agent loop),该循环能够处理三种类型的动作:

  • GUI 动作:传统的屏幕交互,如点击、滑动。
  • CLI 动作:设备侧的命令行指令,用于执行系统级操作。
  • Host-side 工具动作:主机侧的工具调用,用于处理结构化数据或调用外部 API。

该框架结合了确定性的动作路由(deterministic action routing)、有界 GUI 委托(bounded GUI delegation)以及可审计的执行痕迹(auditable execution traces)。这意味着智能体不仅是在“猜测”下一步操作,而是在一个受控且可追踪的环境中执行混合任务。

2. PhoneHarness Bench 评估体系

伴随框架发布的还有一个名为 PhoneHarness Bench 的基准测试集。与传统的仅评估“最终答案是否合理”或“屏幕状态是否匹配”不同,PhoneHarness Bench 的核心评估标准是:智能体是否完成了具有可观察副作用的任务。

例如,如果任务要求“发送一条短信”,传统的评估可能只检查短信应用是否打开;而 PhoneHarness Bench 则要求验证短信是否真的被发送成功,并保留相应的执行证据。

3. 实验结果

在标注好的评估拆分集(annotated evaluation split)上,PhoneHarness 达到了 75.0% 的通过率。这一成绩优于最强的非 PhoneHarness 设置 12.9 个百分点

4. 框架与基准的关系

研究指出,PhoneHarness(执行框架)和 PhoneHarness Bench(评估基准)扮演着既独立又相互依赖的角色:

  • PhoneHarness 使得混合手机工作流变得可执行(executable)。
  • PhoneHarness Bench 衡量智能体是否能够可靠且安全地使用该框架。

关键要点

  • 范式转变:手机智能体评估正从单一的“GUI 控制器”模式,转向支持 GUI、CLI 和工具调用的“混合动作”模式。
  • 可验证性:新的评估体系强调“可观察的副作用”和“执行痕迹”,要求智能体不仅输出结果,还要证明结果确实发生。
  • 性能提升:PhoneHarness 框架下的智能体在混合任务上的通过率(75.0%)显著高于传统设置(高出 12.9%)。
  • 技术架构:通过确定性动作路由和有界 GUI 委托,PhoneHarness 实现了对设备侧和主机侧操作的统一调度与审计。
  • 核心发现:可靠的手机自动化不仅仅依赖于视觉 GUI 控制,更依赖于动作表面的路由(action-surface routing)和执行的可验证性。

意义与影响

PhoneHarness 的提出标志着移动智能体研究的一个重要转折点。它揭示了当前基于纯视觉 GUI 控制的智能体在应对复杂真实任务时的不足,并证明了引入 CLI 和结构化工具调用对于提升任务完成率和可靠性至关重要。

对于开发者而言,PhoneHarness 提供了一套标准化的执行环境和评估标准,有助于解决智能体在真实手机环境中“幻觉”或“执行失败”但难以追踪的问题。对于学术界,它强调了“可验证执行”在智能体评估中的核心地位,推动了从“预测下一个动作”到“完成可验证工作流”的研究范式转移。未来,随着混合动作路由技术的成熟,手机智能体将能够更自主、更可靠地处理跨应用、跨系统的复杂任务。

查看原文 →arxiv.org