AI 资讯雷峰网·3 小时前

ICLR 2026录用ROMI：破解离线强化学习保守与不稳困局

原标题：GAIR Paper 105｜离线强化学习新突破——ROMI：破解对抗式模型学习「过保守、训不稳」深层困局｜ICLR 2026

速览

本文提出ROMI算法，旨在解决基于模型的离线强化学习中对抗式模型学习面临的保守性难控与训练不稳定问题。ROMI引入鲁棒价值感知框架与隐式可微自适应加权双层优化机制，有效抑制模型利用并提升泛化能力。实验表明，ROMI在D4RL等基准上显著超越RAMBO及SOTA方法，该论文已被ICLR 2026录用。

AI 深度解读

GAIR Paper 105｜ROMI：破解离线强化学习「过保守、训不稳」深层困局

背景

离线强化学习（offline RL）的核心目标是在不与环境继续交互的前提下，仅依赖已有的静态数据集学习最优策略。相较于无模型（model-free）方法，基于模型的离线强化学习（model-based offline RL）通过额外训练一个环境动力学模型，让策略在该模型上生成轨迹，从而扩展离线训练数据，显著提升算法的样本效率与泛化能力。

然而，基于模型的离线强化学习面临一个经典难题：模型利用（model exploitation）。由于模型预测的环境动态不可能完全准确，策略在生成轨迹时若探索到模型预测偏差较大但价值较高的区域，可能会利用这些误差，朝着“在模型里看起来价值高、在真实环境里却表现差”的方向优化。

为了解决这一问题，学术界主要引入保守性（conservatism）。其中，对抗式模型学习（adversarial model learning）是一条经典范式，即将环境模型视为“最坏情况”的对手，在一定不确定性集合内寻找对策略最不利的动力学模型，从而抑制策略对模型误差的投机利用。尽管该范式在理论层面已有丰富积累，但如何设计实际训练算法仍面临巨大挑战。

代表性工作 RAMBO 是该方向的重要成果，但在实际应用中暴露出两个难以回避的问题：保守程度难以控制以及训练过程容易不稳定。这主要源于 RAMBO 使用了容易导致过度保守和梯度爆炸的模型梯度（model gradient）更新方式。

在此背景下，来自香港城市大学、腾讯、芝加哥大学、香港科技大学（广州）等机构的研究者提出了 ROMI（RObust Value-aware Model learning with Implicitly differentiable adaptive weighting），旨在弥合理论与实际性能之间的鸿沟。该论文已被国际机器学习顶会 ICLR 2026 接收。

核心内容

ROMI 提出了一种鲁棒价值感知的模型学习框架，并引入隐式可微的自适应加权双层优化机制，以兼顾价值保守性与分布外泛化能力。其核心逻辑是对抗式模型学习范式的重新审视与工程化改进。

1. RAMBO 的局限性分析

ROMI 首先深入剖析了 RAMBO 失败的根本原因。RAMBO 将原问题转化为优化求解，包含对抗损失（最小化分布外区域价值）和最大似然损失。其依赖一个对抗权重系数 $\lambda$ 来平衡两者，但在实践中存在严重缺陷：

保守性难以精细控制：$\lambda$ 在理论上应视为对偶变量并通过梯度更新，但在实际中常被设为常数。这导致很难稳定地决定“到底该有多保守”。
模型梯度更新过于激进：RAMBO 借助模型梯度主动寻找“值函数更低”的区域，这种机制容易将模型推向数值极不稳定的方向，引发 Q 值严重低估甚至梯度爆炸，导致训练崩溃。

2. ROMI 的核心机制：鲁棒价值感知模型学习

为解决上述问题，ROMI 不再直接使用模型梯度压低分布外区域价值，而是回归对抗式模型学习的最大化最小值目标，从单步价值误差角度构造更稳定、可控的学习目标。

目标重构：ROMI 将原始问题转换为“使模型对应的价值与不确定性集合下的最坏情况价值保持对齐”。
分布内保守性约束：直接最小化价值感知误差会导致模型在分布外区域追求任意低的价值（过度保守）。ROMI 将动作分布从策略换成行为策略，并将价值函数替换为训练过程中的价值，从而仅在分布内区域显式学习保守性。分布外区域的保守性则通过模型的泛化能力间接实现。
Wasserstein 距离与对偶转换：为了计算困难的动力学不确定集，ROMI 选用 Wasserstein 距离作为分布距离度量，并给出了关键的对偶形式转换。这使得 ROMI 无需直接处理动力学不确定集，而只需在显式的状态空间中进行最小值函数的搜索。
鲁棒价值感知模型损失（RVL）：最终优化目标转化为让当前模型预测的下一个状态的价值，贴近局部邻域中的最小价值。具体实现上，利用数据集中的样本作为邻域中心，并在其附近加噪构造扰动状态。

RVL 的两大优势：

保守程度可控：保守性由超参数 $\epsilon$ 直接控制，而非由拉格朗日系数隐式控制。$\epsilon$ 越大，状态不确定集越大，保守性增强；反之减弱。
训练稳定性增强：ROMI 仅在邻域内做最小值逼近，避免了 RAMBO 因模型梯度直接推向价值陡降区域而引发的梯度爆炸。

3. 隐式可微的自适应加权双层优化

仅约束模型预测状态的价值可能忽略动态误差，导致策略在多步生成时被迫探索分布外区域。为此，ROMI 引入动态加权网络，通过双层优化平衡价值约束与动态约束：

内层优化（动态约束）：固定动态加权网络的权重，使用梯度下降最小化加权监督学习损失，以优化环境动态模型。
外层优化（价值约束）：通过链式法则计算动态加权网络的梯度，利用隐式微分技术最小化价值感知损失。
策略更新：最终，ROMI 通过上述框架更新环境动态模型，并配合 SAC 算法更新策略，完成完整训练流程。

关键要点

问题定位精准：ROMI 指出 RAMBO 等现有对抗式模型学习方法的核心痛点在于“保守性不可控”和“模型梯度更新导致的训练不稳定（梯度爆炸）”。
方法论创新：
- 提出鲁棒价值感知模型损失（RVL），通过 Wasserstein 距离的对偶转换，将复杂的动力学不确定性搜索转化为状态空间中的局部最小值逼近。
- 引入隐式可微的自适应加权双层优化机制，内层优化动态模型拟合，外层优化价值约束，实现动态约束与价值约束的平衡。
可控性与稳定性：通过超参数 $\epsilon$ 直接控制保守程度，避免了拉格朗日乘子难以调优的问题；邻域最小值逼近机制显著提升了训练稳定性，避免了 Q 值低估和梯度爆炸。
性能超越 SOTA：在 D4RL 和 NeoRL 多个基准任务上，ROMI 显著超越同属对抗式模型学习路线的 RAMBO，并在多数任务上达到甚至超越无模型（如 CQL, IQL）及基于模型带惩罚项（如 MOPO, MOBILE）的离线强化学习 SOTA 方法。
消融实验验证：实验证明，加入动态约束能显著提升算法性能并降低模型预测误差；不同 $\epsilon$ 值下 Q 值估计清晰可分且无梯度爆炸，验证了方法的有效性和鲁棒性。

意义与影响

ROMI 的提出对于基于模型的离线强化学习领域具有重要的理论和实践意义：

弥合理论与工程的鸿沟：对抗式模型学习在理论上具有优势，但长期受限于实际实现的稳定性。ROMI 通过改进优化目标和对偶转换，提供了一条可落地、高稳定性的实现路径，证明了该范式在实际应用中的巨大潜力。
解决样本效率与泛化性的平衡难题：通过鲁棒价值感知和动态加权，ROMI 在利用模型扩展数据的同时，有效抑制了模型误差带来的负面偏差，提升了算法在分布外区域的泛化能力。
推动离线 RL 落地应用：离线强化学习在机器人控制、医疗决策等无法实时交互的场景中至关重要。ROMI 在 D4RL 和 NeoRL 上的优异表现，表明其有望在更复杂的真实世界任务中替代或增强现有的离线 RL 算法，推动相关技术的产业化进程。
提供新的研究思路：ROMI 将保守性控制从隐式的对偶变量更新转化为显式的邻域约束，并引入双层优化机制，为后续研究如何平衡模型拟合精度与策略安全性提供了新的参考框架。

查看原文 →leiphone.com