AI 资讯量子位·1 小时前

HIL-ResRL：1小时真机RL微调成功率破95%的VLA即插即用神器

原标题：1小时真机RL微调成功率破95%！HIL-ResRL：即插即用的VLA“外挂”神器

速览

HIL-ResRL是一种即插即用的视觉-语言-动作（VLA）模型增强工具。该技术通过强化学习微调，在真机环境中实现了超过95%的成功率，且仅需1小时即可完成。这一突破显著降低了机器人技能学习的门槛与时间成本，为具身智能的快速部署提供了高效解决方案。

在具身智能（Embodied AI）领域，视觉-语言-动作（VLA）模型展现出了惊人的泛化能力。然而，将这类模型从实验室部署到真实的物理世界或工业产线时，往往面临严峻挑战。

目前的 VLA 模型主要依赖于模仿学习（Imitation Learning），尤其是行为克隆（Behavior Cloning, BC）。这种范式存在两个致命硬伤：

误差累积：在长序列任务中，微小误差会随时间放大。
分布偏移（Distribution Shift）：在实验室环境中表现完美的机械臂，一旦目标物体位置偏离演示数据的分布，机器人就会“懵圈”，甚至做出危险动作。

虽然业界尝试使用真实世界强化学习（Real-world RL，如近期的 $\pi_{0.6}^*$）让机器人“自我纠错”，但这些方法通常计算代价高昂，且与特定的模型架构深度绑定。对于追求快速部署和灵活性的柔性制造业而言，现有的解决方案显得不够灵活。

华为云 CloudRobo 团队提出了一种名为 HIL-ResRL（基于人机协同残差强化学习的模型无关微调适配器）的解决方案。该方案将基础 VLA 模型视为黑盒，采用“即插即用”的设计，仅需 1 小时真机在线训练，即可让任务成功率突破 95%。

HIL-ResRL 并未选择从头训练或整体微调庞大的 VLA 模型，而是采用了一种轻量化的**残差策略（Residual Policy）结合人机协同（Human-in-the-Loop, HIL）**的哲学。其核心逻辑类比于“大人教小孩骑自行车”：

基础动作（Base Policy）：冻结预训练的 VLA 模型（如 Diffusion Policy 或 $\pi_{0.5}$）。这些模型通过大量离线模仿学习，掌握了抓取、移动等基础动作先验，负责输出基础动作方向 $a_{base}$。
分布偏移与误差（OOD）：当预训练模型应用于新场景时，若偏离演示数据分布，模型会出现“胡乱抖动”或轨迹发散。
残差干预（Residual Action + HIL）：
- 残差网络：训练一个极轻量的网络输出修正动作 $a_{res}$。
- 人类介入：在危急时刻，人类操作员通过 3D SpaceMouse 给出干预信号 $a_{int}$。
- 最终动作：机器人执行的动作为 $a_t = a_{base} + a_{res}$。
极速收敛：残差网络只需学习“特定时刻怎么微调纠偏”，通过离策略强化学习算法 SAC（Soft Actor-Critic）实现快速收敛。

这种设计具有模型无关性（Model-agnostic），无需获取 VLA 内部权重或生成范式（无论是 Diffusion 还是 Flow Matching），即可无缝集成。

HIL-ResRL 将人类深度融入强化学习循环，解决纯自主探索样本效率低且易损坏硬件的问题。人类操作员通过 3D SpaceMouse 在以下场景介入：

应对分布外（OOD）状态：当基础模型在演示数据稀疏区域“胡乱抖动”时，人类给出微小干预信号，将机器人拉回正确状态分布，无需重新演示完整轨迹。
权威裁判与紧急刹车：在工业高精度操作（如插头插座遮挡判断）中，人类提供最准确的“成功/失败”标签；在危险死锁状态下触发紧急重置，防止策略从危险状态中学习。
聚焦困难样本（Hard-negative mining）：利用人类介入数据，针对高失败率、被遮挡的挑战性区域进行重点学习。

介入数据与残差网络自我探索数据以 50/50 的比例混合，通过 SAC 算法进行高效优化。

研究团队在真实的 UR5e 机械臂上进行了三项典型工业任务测试：抓取放置（Pick and Place）、垂直放置（Place Upright）以及高精度的多孔插网线/插头任务（Multiple Plug-in-Hole）。

成功率飙升：无论使用 Diffusion Policy 还是 $\pi_{0.5}$ 作为基础模型，原本因瓶颈状态导致 50%-80% 的成功率，在经过 40 到 90 分钟的真机在线训练后，全部飙升至 90% 甚至 95% 以上。
优于基线：相比当前顶级的真机强化学习框架 HIL-SERL，HIL-ResRL 利用基础模型的“动作先验”，在需同时控制位置和姿态的复杂任务上展现出断层式领先优势。
极高安全性：在“插网线”高接触任务中，纯自主强化学习（ResRL）在一小时内触发 15 次紧急急停，而 HIL-ResRL 在人类护航下仅触发 2 次。

对于视觉易被遮挡的高精度接触任务（Contact-rich tasks），HIL-ResRL 支持将六轴力/力矩传感器信号作为多模态输入喂给残差网络。实验显示，该任务成功率从仅靠视觉的 50% 提升至 93%。残差策略学会了“通过触觉摸索”来纠正微小错位。

模型无关性：HIL-ResRL 将 VLA 模型视为黑盒，不依赖特定架构（如 Diffusion 或 Flow Matching），无需内部权重，实现真正的即插即用。
残差策略设计：不重新训练大模型，而是训练一个轻量级残差网络进行局部动力学修正，大幅降低学习难度。
人机协同（HIL）机制：引入人类操作员通过 3D SpaceMouse 进行实时干预，既解决了分布外（OOD）状态下的稳定性问题，又提供了权威的安全标签和紧急刹车机制。
高效收敛：结合 SAC 算法与人类干预数据，仅需 1 小时（40-90 分钟）真机在线训练即可实现性能突破。
多模态扩展能力：支持接入力/力觉传感器信号，显著提升视觉遮挡下的高精度装配任务成功率。
安全性显著提升：相比纯自主强化学习，引入 HIL 机制大幅减少了硬件损坏风险和紧急急停次数。

在制造业向“多品种、小批量、短周期”的柔性制造转型背景下，机器人模型的快速部署和适配能力至关重要。HIL-ResRL 证明了无需动辄使用成百上千张显卡微调庞大的 VLA 基座模型，只需赋予其一个懂得“自我参考与人类协作”的轻量级残差策略，即可在极短时间内蜕变为工业级的高性能智能体。

这一架构兼顾了大模型的泛化性与底层控制的精准度，为具身智能在真实物理世界的落地提供了一条高效、安全且低成本的新路径，有望成为工业级 VLA 部署的重要标准方案之一。