技术博客arXiv cs.AI·1 天前

AURA：恒定显存下机器人策略的动作门控记忆机制

原标题：AURA: Action-Gated Memory for Robot Policies at Constant VRAM

速览

针对边缘设备显存和写入带宽受限的问题，AURA-Mem提出了一种动作门控记忆机制，仅在当前观察改变动作时才写入记忆。该方法在保持恒定4,224字节显存占用的同时，大幅减少内存写入次数。实验表明，其在LIBERO-Long等基准测试中性能媲美基线策略，有效解决了长序列推理中的资源瓶颈。

AI 深度解读

AURA：恒定显存下的机器人策略动作门控记忆机制

背景

在数据中心的大语言模型推理场景中，KV-cache（键值缓存）被视为理想的内存管理方案。数据中心通常通过批量处理大量短请求并定期重置上下文，从而将注意力机制的缓存成本分摊到庞大的用户群中。然而，这种模式并不适用于具身智能（Embodied Agents）或机器人领域。

具身智能体通常在带宽受限的边缘硬件上运行，执行的是单一、长周期且不可重置的任务序列（episode）。在这种环境下，高带宽内存（HBM）和闪存资源极度稀缺，且闪存具有有限的写入寿命。对于机器人而言，内存写入操作往往比计算本身更容易成为系统的性能瓶颈（binding constraint）。现有的基于 KV-cache 的方法随着序列长度增加，显存占用呈线性甚至超线性增长，这在资源受限的机器人平台上是不可持续的。

核心内容

本文提出了 AURA-Mem（Action-Utility Recurrent Adaptive Memory，动作效用循环自适应记忆），旨在解决上述边缘设备上的长周期推理问题。该方法的核心思想是为冻结的视觉-语言-动作（Vision-Language-Action, VLA）主干网络包裹一层恒定大小的循环记忆模块，并引入一个学习到的“门控”机制。

1. 机制原理：知道何时保持沉默

AURA-Mem 的关键创新在于其门控机制。该门控并非基于传统的重建误差（reconstruction-based）进行训练，而是直接针对闭环动作误差信号（closed-loop action-error signal）进行优化。

动作门控（Action-Gated）：只有当当前观测值（observation）足以改变下一步的动作决策时，记忆模块才会写入新信息。
恒定显存：无论任务序列长度（horizon）如何，其推理状态大小固定为 4,224 字节。相比之下，在 100,000 步的序列中，传统的 KV-cache 大小会膨胀至原来的 6,061 倍。

2. 实验验证：合成基准测试

在受控的合成基准测试中，AURA-Mem 展现了显著优势：

准确性：其准确率与最佳的 $O(1)$（常数级复杂度）基线模型相当。
写入效率：相比基线，写入次数减少了 5.19 到 6.13 倍；在配置较简单的任务中，写入次数甚至减少了高达 9.19 倍。
对比分析：为了证明这种增益并非来自随机性或周期性调度，研究团队进行了预算匹配的随机和周期性写入对比实验，结果未能复现 AURA 的性能提升，从而证实了收益主要来源于“动作惊讶信号”（action-surprise signal，即对动作有影响的观测变化）。

3. 实验验证：真实机器人闭环测试

在 LIBERO-Long 数据集上，研究团队使用训练好的 OpenVLA-OFT 7B 模型进行了闭环测试（每个机械臂 60 个 episode）：

成功率：AURA-Mem 的成功率与未加门控的基础策略持平（0.233），并略高于始终写入的 KV 缓存策略（0.217）。
资源消耗：在保持相同成功率的同时，AURA-Mem 的写入次数减少了 7.0 倍，且显存占用保持恒定。

4. 方法论补充

研究还实例化了一个近似信息状态价值损失界限（approximate-information-state value-loss bound），作为方法论演示。但在当前规模下，该界限更多是理论上的说明，而非严格的性能保证。

关键要点

痛点解决：针对具身智能在边缘设备上运行长周期任务时，显存受限、闪存写入寿命有限以及内存写入成为性能瓶颈的问题，提出了恒定显存解决方案。
核心架构：AURA-Mem 采用“冻结主干 + 恒定大小循环记忆 + 动作门控”的结构。
门控逻辑：门控机制直接优化闭环动作误差，仅当观测值可能改变下一步动作时才触发写入，实现了“智能记忆”。
显存效率：推理状态固定为 4,224 字节，彻底消除了随序列长度增长导致的显存爆炸问题（在 10 万步序列中，相比 KV-cache 缩小 6,061 倍）。
写入优化：在合成基准测试中，写入次数减少 5-9 倍；在 LIBERO-Long 真实任务中，写入次数减少 7 倍，且未牺牲任务成功率。
性能对比：在 OpenVLA-OFT 7B 模型上，AURA-Mem 的表现优于始终写入的 KV 策略，并与未优化基线持平，证明了其在资源受限环境下的高效性。

意义与影响

AURA-Mem 的提出标志着机器人策略部署从“追求无限上下文”向“追求高效资源利用”的重要转变。

推动具身智能落地：通过消除对巨大 KV-cache 的依赖，使得在资源受限的边缘设备（如嵌入式机器人控制器）上运行大型视觉-语言-动作模型成为可能，降低了硬件门槛。
延长硬件寿命：大幅减少闪存写入次数不仅提升了推理速度，还直接延长了边缘设备存储介质的使用寿命，解决了机器人长期运行中的维护痛点。
重新定义记忆机制：证明了在机器人控制中，记忆的有效性不应由“存储了多少信息”来衡量，而应由“信息对决策的影响”来衡量。这种以动作效用为导向的记忆机制，为后续研究提供了新的范式。
架构启示：AURA 展示了将大模型能力与轻量级、特定领域的控制逻辑相结合的可能性，为构建更鲁棒、更高效的具身智能系统提供了可行的技术路径。

查看原文 →arxiv.org