技术博客arXiv cs.AI·1 天前

先感知后推理：高效可靠的主动式移动智能体框架

原标题：Perceive Before Reasoning: A Pre-Reasoning Perception Framework for Efficient and Reliable Proactive Mobile Agents

速览

针对现有移动智能体在主动协助中存在的目标错位和冗余推理问题，研究提出先感知后推理框架（PRPF）。该框架引入轻量级多模态主动感知器进行干预门控和上下文压缩，仅在必要时激活推理器。实验表明，该框架在ProactiveMobile基准测试中显著降低了误触发率，同时提升了成功率和推理效率。

AI 深度解读

感知先于推理：面向高效可靠主动式移动智能体的预推理感知框架

背景

多模态大语言模型（Multimodal Large Language Models, MLLMs）的快速发展极大地推动了移动智能体（Mobile Agents）的进步。然而，在构建“主动式”移动辅助系统时，仍面临显著挑战。与被动响应用户指令不同，主动式智能体需要在用户提出请求之前，自主判断何时介入（when to intervene）以及如何提供协助（how to assist）。

现有的主流系统通常将“是否介入”的决策与“如何协助”的生成过程整合在一个统一的基于 MLLM 的流水线中。这种架构存在两个主要缺陷：

目标错位（Goal Misalignment）：保守的介入过滤机制与全面的协助生成机制之间存在内在冲突。为了减少误触，系统往往过于保守，导致漏报；或者为了全面协助，导致频繁且不必要的打扰。
推理冗余（Redundant Inference）：当智能体判断当前无需介入（即应保持沉默）时，系统仍然会运行完整的推理管道来生成协助方案，造成计算资源的浪费和响应延迟。

为了解决上述局限性，研究人员提出了预推理感知框架（Pre-Reasoning Perception Framework, PRPF），旨在通过“先感知，后推理”的两阶段架构，实现更高效、更可靠的主动式移动辅助。

核心内容

PRPF 框架的核心思想是将智能体的决策过程解耦为两个独立的阶段：感知阶段（Perception）与推理阶段（Reasoning）。该框架不再依赖单一的 MLLM 同时处理所有任务，而是引入专门化的组件来优化流程。

1. 轻量级多模态主动感知器（Multimodal Proactive Perceptor, MPP）

PRPF 引入了一个轻量级的组件，称为 MPP，专门负责第一阶段的“感知”任务。MPP 承担两个关键职责：

介入门控（Intervention Gating）：MPP 作为“守门人”，快速评估当前用户上下文（如屏幕内容、传感器数据、用户行为等），判断智能体是否应该介入。如果判断结果为“无需介入”，则直接终止流程，避免后续昂贵的推理操作。
上下文压缩（Context Compression）：在决定介入后，MPP 会对原始的多模态输入进行筛选和压缩，提取出与当前任务最相关的信息，去除噪声。这不仅提高了后续推理的准确性，也减少了输入 token 的数量，从而降低计算成本。

2. 主动式智能体推理器（Proactive Agent Reasoner, PAR）

只有当 MPP 判定“介入是必要的”时，PRPF 才会激活第二阶段的核心组件——PAR。PAR 是一个功能更强大的推理模块，负责基于 MPP 提供的压缩上下文，生成具体的协助策略或执行动作。

3. 工作流程

PRPF 的工作流程如下：

输入监测：系统实时收集多模态数据。
快速感知（MPP）：MPP 对数据进行轻量级分析，输出介入概率及压缩后的上下文。
门控决策：
- 若介入概率低于阈值，智能体保持沉默，流程结束。
- 若介入概率高于阈值，触发下一阶段。
深度推理（PAR）：PAR 接收压缩后的上下文，进行深度推理，生成具体的协助方案。

关键要点

架构创新：提出了“感知先于推理”的两阶段范式，打破了传统统一 MLLM 流水线的局限，实现了介入决策与协助生成的解耦。
效率提升：通过 MPP 的介入门控机制，智能体在无需介入时完全跳过昂贵的推理过程，显著减少了冗余计算。
准确性优化：MPP 的上下文压缩功能去除了无关噪声，使 PAR 能够专注于关键信息，从而提高了协助生成的质量。
解决目标错位：将保守的介入过滤（由 MPP 负责）与全面的协助生成（由 PAR 负责）分离，解决了单一模型中难以平衡“少打扰”与“高帮助”之间的矛盾。
实验验证：在 ProactiveMobile 基准测试中，PRPF 相比基线模型表现出显著优势：
- 降低误触率（False Trigger Rate, FTR）：减少了不必要的主动干预。
- 提高成功率（Success Rate, SR）：在需要介入的场景下，提供了更有效的协助。
- 提升推理效率：整体计算开销更低，响应速度更快。

意义与影响

PRPF 框架的提出对于移动智能体领域具有重要的理论和实践意义：

推动主动式 AI 的实用化：主动式智能体若不能平衡“及时性”与“打扰度”，将难以被用户接受。PRPF 通过技术手段有效降低了误触率，使得主动辅助更加自然、可信，有助于提升用户体验和采纳率。
优化资源利用：在移动端设备上，计算资源和电池续航至关重要。PRPF 通过轻量级感知模块过滤掉大部分无需处理的场景，仅在必要时调用重型推理模型，显著降低了能耗和延迟，更适合部署在资源受限的移动设备上。
提供新的设计范式：该框架展示了将复杂 AI 任务分解为“快速筛选”和“深度处理”两个阶段的可行性。这种“感知-推理”解耦的思路可推广到其他需要实时决策和复杂推理结合的应用场景，如自动驾驶、智能家居等。
促进多模态 AI 的精细化发展：PRPF 强调了上下文压缩和多模态感知的重要性，提示未来的研究应更加关注如何从海量多模态数据中提取高价值信息，而非仅仅依赖模型的参数量。

总之，PRPF 为构建高效、可靠且用户友好的主动式移动智能体提供了一条切实可行的技术路径，是 MLLMs 在移动场景落地应用的重要一步。

查看原文 →arxiv.org