技术博客arXiv cs.AI·11 小时前

MIRAGE框架：利用隐式推理与生成世界模型提升移动智能体效率

原标题：MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models

速览

MIRAGE是一种学习连续潜在推理表示的框架，将显式推理转化为紧凑的隐藏状态，使智能体无需解码冗长推理即可内部思考。该框架引入生成世界模型目标，将潜在推理向量与未来屏幕截图对齐，促使智能体在行动前预判界面状态。在AndroidWorld和AndroidControl基准测试中，MIRAGE在显著降低解码token预算的同时，取得了优于基线的性能表现。

AI 深度解读

MIRAGE：具备隐式推理与生成式世界模型的移动智能体

背景

随着人工智能向端侧和日常应用渗透，Mobile Agents（移动智能体）正成为研究热点。这类智能体被期望能够仅通过屏幕截图和自然语言指令，自主操作各种日常应用程序。然而，要实现可靠的操作控制，智能体必须能够推理屏幕上的功能可用性（affordances）、执行多步骤导航，并预测未来的状态变化。

目前，大多数现有的移动智能体采用“显式推理”模式，即将思维过程外化为长长的文本链式思维（Chain-of-Thought, CoT）。这种模式存在显著的缺陷：

交互延迟高：生成长文本推理过程会拖慢与界面的交互速度。
监督成本高：需要大量的人工标注或复杂的监督信号来训练这些长文本轨迹。
部署复杂：长文本推理增加了计算负担，使得在资源受限的移动设备上部署变得困难。

为了解决这些问题，研究人员提出了 MIRAGE 框架，旨在通过隐式推理和生成式世界模型，将复杂的思维过程压缩为紧凑的隐藏状态，从而在保持甚至提升性能的同时，大幅降低计算开销。

核心内容

MIRAGE（Mobile Agents with Implicit Reasoning and Generative World Models）是一个全新的框架，其核心创新在于将显式的文本推理转化为连续的潜在推理表示（continuous latent reasoning representations）。

1. 从显式到隐式的推理转化

MIRAGE 并不直接生成冗长的推理文本，而是从可见的文本推理轨迹中学习，将显式的推理过程映射到紧凑的隐藏状态（hidden states）中。这意味着智能体可以在内部进行“静默”推理，而无需解码出长长的理由。这种机制不仅减少了 token 的生成量，还提高了执行效率。

2. 生成式世界模型目标

除了隐式推理，MIRAGE 还引入了一个**生成式世界模型（Generative World Model）**的目标。具体而言，潜在推理向量被对齐到未来的屏幕截图中。这一机制鼓励智能体在行动之前，预先“想象”或预测即将出现的界面状态。

这使得隐藏的计算不仅仅是一种压缩的思维表示，更成为了一种面向未来的环境动力学模型。
智能体通过预测未来状态，能够更准确地规划当前动作，从而提高操作的准确性。

3. 推理阶段的优化

在推理（Inference）阶段，MIRAGE 在连续的潜在空间中进行推理。由于无需生成和解析长文本，系统显著减少了 token 生成量，同时提升了执行效率。这种设计使得智能体能够在保持高智能水平的同时，实现更快的响应速度和更低的资源消耗。

关键要点

隐式推理机制：MIRAGE 将显式的文本链式思维转化为紧凑的连续潜在表示，使智能体能够在内部进行推理，无需输出冗长的文本解释。
生成式世界模型：通过将对齐潜在推理向量与未来屏幕截图相结合，智能体能够预测未来的界面状态，从而在行动前进行前瞻性的规划。
效率显著提升：在推理阶段，MIRAGE 减少了 token 生成量，从而降低了延迟和计算成本，更适合移动设备的部署需求。
性能优于基线：
- 在 AndroidWorld 基准测试中，4B 参数的消融实验版本在仅使用 1/3 到 1/5 解码 token 预算的情况下，性能匹配了显式链式思维监督微调（SFT）的效果。
- 与可比的指令微调基线相比，MIRAGE 提升了 10.2 分。
- 在 AndroidControl 基准测试中，MIRAGE 改进了动作定位（action grounding）能力，同时生成的 token 数量减少了超过 75%。

意义与影响

MIRAGE 的提出标志着移动智能体从“显式思考”向“隐式直觉”转变的重要一步。

推动端侧 AI 落地：通过大幅减少 token 生成量和推理延迟，MIRAGE 使得复杂的 AI 智能体更有可能在资源受限的移动设备上高效运行，为真正的个人 AI 助手铺平道路。
重新定义智能体架构：MIRAGE 证明了将推理过程内化为潜在空间中的向量操作，并结合生成式预测模型，可以在不牺牲甚至提升性能的前提下，解决长文本推理带来的效率瓶颈。
提升用户体验：更快的响应速度和更流畅的操作体验，将直接改善用户与智能体交互的感受，使得自动化操作日常应用变得更加实用和可靠。
降低开发门槛：减少了对长文本推理轨迹的监督依赖，降低了训练数据收集和标注的成本，有助于加速移动智能体技术的迭代和应用普及。

总之，MIRAGE 不仅是一个技术改进，更是为了解决 AI 智能体在真实世界中规模化部署所面临的关键效率与性能平衡问题提供了有力的解决方案。

查看原文 →arxiv.org