技术博客arXiv cs.CL·1 小时前

PhoneHarness：通过混合GUI、CLI和工具动作赋能手机使用智能体

原标题：PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

速览

现有手机智能体研究多局限于GUI控制，难以应对复杂的真实移动工作流。PhoneHarness引入混合动作基准与执行框架，结合GUI、CLI及主机端工具动作，支持确定性路由与可审计执行。该框架能评估智能体是否产生可观察的副作用，而非仅预测屏幕动作。实验显示，PhoneHarness在标注评估集上达到75.0%通过率，显著优于其他设置。

AI 深度解读

PhoneHarness：通过混合 GUI、CLI 和工具动作驾驭手机使用智能体

背景

随着大语言模型（LLM）和智能体（Agent）技术的飞速发展，手机智能体（Phone Agents）正逐渐从单纯的屏幕交互预测者，转向能够完成真实移动端工作流的执行者。然而，当前的移动智能体研究仍存在显著的局限性。

大多数现有文献仍将智能体主要评估为“GUI 控制器”。在这种范式下，智能体仅负责观察屏幕，发出点击（taps）或滑动（swipes）指令，其得分主要取决于目标应用程序的状态是否达到预期。这种评估方式过于狭隘，无法反映真实世界中复杂的手机使用场景。

在实际的手机使用任务中，智能体需要更广泛的决策能力：它必须判断何时使用应用程序的图形用户界面（GUI），何时调用设备侧的命令行界面（CLI）命令，以及何时使用结构化的工具（Tools）。更重要的是，智能体必须留下证据，证明其预期的副作用（side effects）确实已经发生。现有的评估体系缺乏对这种混合动作执行及其可验证性的支持。

核心内容

为了解决上述问题，研究团队提出了 PhoneHarness，这是一个用于研究手机使用智能体的混合动作基准测试（benchmark）和执行框架（execution harness）。

1. PhoneHarness 的执行机制

PhoneHarness 运行一个设备侧的智能体循环（agent loop），该循环能够处理三种类型的动作：

GUI 动作：传统的屏幕交互，如点击、滑动。
CLI 动作：设备侧的命令行指令，用于执行系统级操作。
Host-side 工具动作：主机侧的工具调用，用于处理结构化数据或调用外部 API。

该框架结合了确定性的动作路由（deterministic action routing）、有界 GUI 委托（bounded GUI delegation）以及可审计的执行痕迹（auditable execution traces）。这意味着智能体不仅是在“猜测”下一步操作，而是在一个受控且可追踪的环境中执行混合任务。

2. PhoneHarness Bench 评估体系

伴随框架发布的还有一个名为 PhoneHarness Bench 的基准测试集。与传统的仅评估“最终答案是否合理”或“屏幕状态是否匹配”不同，PhoneHarness Bench 的核心评估标准是：智能体是否完成了具有可观察副作用的任务。

例如，如果任务要求“发送一条短信”，传统的评估可能只检查短信应用是否打开；而 PhoneHarness Bench 则要求验证短信是否真的被发送成功，并保留相应的执行证据。

3. 实验结果

在标注好的评估拆分集（annotated evaluation split）上，PhoneHarness 达到了 75.0% 的通过率。这一成绩优于最强的非 PhoneHarness 设置 12.9 个百分点。

4. 框架与基准的关系

研究指出，PhoneHarness（执行框架）和 PhoneHarness Bench（评估基准）扮演着既独立又相互依赖的角色：

PhoneHarness 使得混合手机工作流变得可执行（executable）。
PhoneHarness Bench 衡量智能体是否能够可靠且安全地使用该框架。

关键要点

范式转变：手机智能体评估正从单一的“GUI 控制器”模式，转向支持 GUI、CLI 和工具调用的“混合动作”模式。
可验证性：新的评估体系强调“可观察的副作用”和“执行痕迹”，要求智能体不仅输出结果，还要证明结果确实发生。
性能提升：PhoneHarness 框架下的智能体在混合任务上的通过率（75.0%）显著高于传统设置（高出 12.9%）。
技术架构：通过确定性动作路由和有界 GUI 委托，PhoneHarness 实现了对设备侧和主机侧操作的统一调度与审计。
核心发现：可靠的手机自动化不仅仅依赖于视觉 GUI 控制，更依赖于动作表面的路由（action-surface routing）和执行的可验证性。

意义与影响

PhoneHarness 的提出标志着移动智能体研究的一个重要转折点。它揭示了当前基于纯视觉 GUI 控制的智能体在应对复杂真实任务时的不足，并证明了引入 CLI 和结构化工具调用对于提升任务完成率和可靠性至关重要。

对于开发者而言，PhoneHarness 提供了一套标准化的执行环境和评估标准，有助于解决智能体在真实手机环境中“幻觉”或“执行失败”但难以追踪的问题。对于学术界，它强调了“可验证执行”在智能体评估中的核心地位，推动了从“预测下一个动作”到“完成可验证工作流”的研究范式转移。未来，随着混合动作路由技术的成熟，手机智能体将能够更自主、更可靠地处理跨应用、跨系统的复杂任务。

查看原文 →arxiv.org