技术博客arXiv cs.CL·1 天前

移动GUI长时任务代理无需架构修改任务状态表示新框架

原标题：A Task-State Representation for Long-Horizon Mobile GUI Agents

速览

该框架以轻量外部包装器形式运作，维护全局指令摘要、动态子目标进度追踪器及过渡感知行动验证器。通过连续预后行动视觉比较更新任务状态，有效指导代理推理。实验验证在四个移动GUI基准上表现突出，特别在跨应用与记忆密集型复杂任务上成功率显著提升。无需任何架构改动，为长时移动GUI代理提供可靠训练免费解决方案。

AI 深度解读

A Task-State Representation for Long-Horizon Mobile GUI Agents

背景

在长时序移动GUI代理的实际应用中，主流的“思考-行动-观察”循环虽然能够实现多步任务执行，但难以将持久的任务状态与瞬态的屏幕观测分离。随着执行历史不断增长，这种状态与观测的纠缠导致严重的上下文负担，进而引发一系列问题：代理容易遗忘初始任务要求、幻觉性地报告进度、或者反复与过时的界面元素交互。为解决这一痛点，研究者提出了一种名为Task-State Representation (TSR)的训练-free框架。

核心内容

Task-State Representation (TSR) 是一套轻量级外部包装器，它明确地将任务状态从感官输入中解耦。具体而言，TSR 维护三个结构化组件：全局指令摘要（global instruction summary）、动态进度追踪器（dynamic progress tracker for subgoals）以及过渡感知动作验证器（transition-aware action verifier）。这些组件通过持续的行动前后视觉对比（pre- and post-action visual comparisons）实现动态更新，指导代理的推理过程，而无需对代理架构本身进行任何修改。

为了验证TSR的有效性，研究团队在四个移动GUI基准测试中进行了系统性实验，结果显示：在复杂跨应用和记忆密集型任务上，TSR 带来了高达12个绝对点的成功率提升。整个框架强调训练-free设计，保持了极高的可迁移性和易用性，同时最大限度地减少了上下文膨胀带来的干扰。

关键要点

TSR 作为轻量级外部包装器，专门解决长时序GUI代理中任务状态与瞬态屏幕观测的纠缠问题。
核心结构化组件包括：全局指令摘要、动态子目标进度追踪器、过渡感知动作验证器。
更新机制依赖于持续的行动前后视觉对比，无需架构修改。
实验验证在四个移动GUI基准上，复杂跨应用和记忆密集型任务成功率最高提升12个绝对点。
框架完全训练-free，突出可迁移性和上下文负担缓解能力。

意义与影响

TSR 的提出为长时序移动GUI代理提供了可扩展的解决方案，直接缓解了状态纠缠带来的上下文膨胀难题，有望显著提升此类代理在实际复杂场景下的可靠性和泛化能力。该工作为后续相关研究提供了清晰的技术路径，预计将在提升移动端AI代理性能方面产生广泛影响。

查看原文 →arxiv.org

移动GUI长时任务代理无需架构修改 任务状态表示新框架

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐

移动GUI长时任务代理无需架构修改任务状态表示新框架