技术博客arXiv cs.AI·2 天前

VLA模型闭环神经激活控制框架提升具身控制稳定性

原标题：Closed-Loop Neural Activation Control in Vision-Language-Action Models

速览

针对视觉-语言-动作（VLA）模型在测试时干预存在开环缺陷、易导致过校正和振荡的问题，研究者提出了CTRL-STEER闭环框架。该框架将表示与调节解耦，利用反馈控制器在线调整干预强度，而非使用固定系数。实验表明，该方法在LIBERO任务中实现了更稳定的概念调节和更好的任务成功率，且无需修改基础模型。

AI 深度解读

闭环神经激活控制在视觉-语言-动作模型中的应用

背景

视觉-语言-动作（Vision-Language-Action, VLA）模型代表了具身智能（Embodied AI）的前沿方向，它们旨在通过整合视觉感知、语言理解和动作执行，使机器人能够理解复杂指令并在物理世界中完成任务。近年来，研究人员发现可以通过干预模型内部具有语义意义的方向（internal directions），在测试时对 VLA 模型的行为进行引导或修正。这种技术通常被称为“神经激活控制”或“模型引导”。

然而，现有的引导方法存在一个显著的局限性：它们通常使用固定的引导系数（fixed steering coefficient）。这意味着无论任务当前的状态如何，干预的强度都是恒定不变的。这种机制本质上属于“开环”控制（open-loop control）。

在具身控制场景中，任务状态和概念误差（concept error）是随时间动态演变的。例如，机器人抓取物体时的速度、平滑度以及最终的成功率，都依赖于对当前状态的实时反馈。使用固定的引导系数往往难以适应这种动态变化，容易导致过度修正（overcorrection）、行为振荡（oscillation），从而降低任务成功率，特别是在涉及时间动态行为（如速度和动作平滑性）的任务中表现尤为不佳。

核心内容

针对上述问题，研究团队提出了 CTRL-STEER，这是一种闭环（closed-loop）框架，旨在取代静态的干预强度，转而使用自适应的、随时间变化的控制信号。

核心理念：表征与调节解耦

CTRL-STEER 的关键思想在于将“表征”（representation）与“调节”（regulation）解耦。传统的开环方法往往假设时间概念可以直接由单个神经元控制，而 CTRL-STEER 采取了不同的策略：

沿运动对齐的残差方向引导：模型不再试图直接控制特定的神经元，而是沿着与运动方向对齐的残差方向（motion-aligned residual directions）进行引导。这种方法更贴合物理动作的动态特性。
在线调整干预幅度：引入一个反馈控制器，根据实时的任务状态动态调整干预的幅度。

控制器实现

为了验证这一框架的有效性，研究团队实例化了两种不同类型的控制器：

PID 控制器：基于经典的比例-积分-微分控制理论，利用历史误差信息来平滑调整引导强度。
基于强化学习（Reinforcement Learning）的控制器：通过强化学习算法在线学习最优的干预策略，以适应更复杂的环境动态。

实验验证

研究使用经过微调的 OpenVLA 策略，在四个 LIBERO 任务套件上进行了实验。LIBERO 是一个广泛用于评估具身智能泛化能力和长程规划能力的基准测试集。

实验结果显示，与使用固定系数的基线方法相比，CTRL-STEER 实现了更稳定的概念调节，并在“引导效果”与“任务成功率”之间取得了更好的权衡（trade-off）。值得注意的是，这种性能提升无需对基础模型进行修改或重新训练，仅通过改变测试时的控制机制即可实现。

关键要点

从开环到闭环：现有的 VLA 模型引导方法多为开环控制，使用固定系数，无法适应动态变化的任务状态；CTRL-STEER 引入了闭环控制机制，实现了自适应引导。
解耦表征与调节：该方法不假设时间概念由单个神经元直接控制，而是通过沿运动对齐的残差方向进行引导，并结合反馈控制器在线调整干预强度。
多种控制器支持：框架兼容 PID 控制器和基于强化学习的控制器，提供了灵活的调节手段。
无需重新训练：CTRL-STEER 是一种测试时干预方法，不需要对基础 VLA 模型（如 OpenVLA）进行任何修改或重新训练。
显著提升性能：在 LIBERO 基准测试中，CTRL-STEER 相比固定系数基线，在概念调节的稳定性和任务成功率之间取得了更优的平衡，特别改善了涉及速度和平滑度等时间动态行为的任务表现。
解决过度修正问题：通过动态调整干预幅度，有效减少了因固定强引导导致的过度修正和行为振荡现象。

意义与影响

CTRL-STEER 的提出为具身智能模型的实时控制和行为修正提供了一个新的范式。其意义主要体现在以下几个方面：

提升具身控制的鲁棒性：在物理世界中，环境噪声和任务动态变化是常态。闭环控制机制使得模型能够像人类一样“边做边调整”，显著提高了在复杂、动态环境中的任务成功率。
降低部署成本：由于该方法无需重新训练基础模型，只需在推理阶段引入额外的控制逻辑，因此可以低成本地应用于现有的大型 VLA 模型，加速了先进 AI 模型在机器人领域的落地。
深化对模型内部机制的理解：通过“运动对齐的残差方向”这一概念，研究揭示了 VLA 模型内部表征与物理动作之间的深层联系，为未来更精细的模型可解释性和可控性研究提供了理论基础。
推动 AI 与经典控制理论的融合：将 PID 和强化学习等经典控制理论引入大模型的行为引导中，展示了跨学科方法在解决 AI 安全问题（如避免有害行为）和优化性能方面的巨大潜力。

总之，CTRL-STEER 不仅是一个技术改进，更是向更智能、更自适应的具身 AI 系统迈出的重要一步。它证明了通过简单的测试时干预，即可显著提升复杂智能体的表现，为未来的研究开辟了新的方向。

查看原文 →arxiv.org