移动GUI长时任务代理无需架构修改 任务状态表示新框架
速览
该框架以轻量外部包装器形式运作,维护全局指令摘要、动态子目标进度追踪器及过渡感知行动验证器。 通过连续预后行动视觉比较更新任务状态,有效指导代理推理。 实验验证在四个移动GUI基准上表现突出,特别在跨应用与记忆密集型复杂任务上成功率显著提升。 无需任何架构改动,为长时移动GUI代理提供可靠训练免费解决方案。
AI 深度解读
A Task-State Representation for Long-Horizon Mobile GUI Agents
背景
在长时序移动GUI代理的实际应用中,主流的“思考-行动-观察”循环虽然能够实现多步任务执行,但难以将持久的任务状态与瞬态的屏幕观测分离。随着执行历史不断增长,这种状态与观测的纠缠导致严重的上下文负担,进而引发一系列问题:代理容易遗忘初始任务要求、幻觉性地报告进度、或者反复与过时的界面元素交互。为解决这一痛点,研究者提出了一种名为Task-State Representation (TSR)的训练-free框架。
核心内容
Task-State Representation (TSR) 是一套轻量级外部包装器,它明确地将任务状态从感官输入中解耦。具体而言,TSR 维护三个结构化组件:全局指令摘要(global instruction summary)、动态进度追踪器(dynamic progress tracker for subgoals)以及过渡感知动作验证器(transition-aware action verifier)。这些组件通过持续的行动前后视觉对比(pre- and post-action visual comparisons)实现动态更新,指导代理的推理过程,而无需对代理架构本身进行任何修改。
为了验证TSR的有效性,研究团队在四个移动GUI基准测试中进行了系统性实验,结果显示:在复杂跨应用和记忆密集型任务上,TSR 带来了高达12个绝对点的成功率提升。整个框架强调训练-free设计,保持了极高的可迁移性和易用性,同时最大限度地减少了上下文膨胀带来的干扰。
关键要点
- TSR 作为轻量级外部包装器,专门解决长时序GUI代理中任务状态与瞬态屏幕观测的纠缠问题。
- 核心结构化组件包括:全局指令摘要、动态子目标进度追踪器、过渡感知动作验证器。
- 更新机制依赖于持续的行动前后视觉对比,无需架构修改。
- 实验验证在四个移动GUI基准上,复杂跨应用和记忆密集型任务成功率最高提升12个绝对点。
- 框架完全训练-free,突出可迁移性和上下文负担缓解能力。
意义与影响
TSR 的提出为长时序移动GUI代理提供了可扩展的解决方案,直接缓解了状态纠缠带来的上下文膨胀难题,有望显著提升此类代理在实际复杂场景下的可靠性和泛化能力。该工作为后续相关研究提供了清晰的技术路径,预计将在提升移动端AI代理性能方面产生广泛影响。
