← 返回信息流
AI 资讯雷峰网·4 小时前2 源报道

ICML 2026:Robust-U1利用视觉自恢复与双奖励强化学习提升受损图像理解

原标题:ICML 2026:视觉自恢复 + 双奖励强化学习,提升受损图像理解

速览

ICML 2026展示了Robust-U1方法,旨在解决多模态模型在图像受损时无法仅凭语言补回视觉细节的问题。该方法基于BAGEL模型,通过监督微调、带像素和语义双奖励的强化学习以及双图联合推理三个阶段,实现视觉自恢复。实验表明,恢复出的视觉证据能有效帮助模型回答原本看不清的问题,性能显著优于基线模型。

AI 深度解读

背景

多模态大模型(MLLMs)在处理经过压缩、噪声、暗光或模糊等破坏的图像时,往往能生成逻辑通顺的语言分析,但这并不等同于其视觉证据充分。例如,当车辆朝向模糊时,模型仍可能自信地解释其“直行”;当公交车轮廓重叠时,模型可能错误地数出数量。

传统的视觉鲁棒性研究主要沿两条路线展开:

  1. 特征对齐:让干净图像与受损图像在编码空间中接近,虽能提高稳定性,但缺乏可解释性,无法说明恢复了何种具体信息。
  2. 文本化退化推理:如 Robust-R1,让模型先描述图像受到的破坏(如压缩、噪声),再据此推理。然而,文字只能提醒模型“此处看不清”,无法重建车辆朝向、物体数量或细小文字等关键视觉细节。当视觉证据缺失时,仅靠语言推理链容易围绕错误的观察组织出连贯但错误的解释。

此外,具备图像生成能力的模型(如 BAGEL)虽能尝试恢复画面,但直接依赖生成图可能导致“幻觉”,即生成图中新增的物体或方向被误认为事实。因此,核心矛盾在于:如何让统一多模态模型在视觉证据丢失时,主动重建可供判断的视觉内容,并避免生成过程中的幻觉风险。

核心内容

ICML 2026 接收的论文提出 Robust-U1,这是一种基于统一多模态模型(以 BAGEL 为基础)的视觉自恢复框架。其核心逻辑是:既然关键视觉信息已丢失,模型应先生成一张恢复后的图像,再让模型同时查看原图(受损图)与恢复图,通过双图联合推理完成回答。该方法并非外挂图像修复器,而是让理解、恢复和回答由同一模型协同完成。

Robust-U1 的训练过程分为三个连续阶段:

  1. 图像恢复监督训练: 模型在 ImageNet-C 的 75 万组受损—干净图像对上进行监督微调。受损图像作为条件输入,干净图像进入 rectified flow 的去噪目标。此阶段使模型学习近似的退化逆过程,能够去除主要噪声和模糊,但恢复结果可能在细节或语义上存在偏差。

  2. 带双重视觉奖励的强化学习: 为了约束恢复图的质量,模型不接受最终问答正确率的奖励,而是针对恢复图本身施加两种奖励:

    • 像素结构奖励(SSIM):检查局部亮度、对比度和结构,确保恢复图在物理结构上接近干净图。
    • 语义一致性奖励(CLIP):通过冻结的 CLIP 模型比较两张图的表示,确保恢复图在语义上与原始场景一致,避免“看起来清晰但对象或颜色错误”的情况。 这种双奖励机制平衡了局部结构细节与全局语义内容,防止模型生成清晰但语义错误的图像。
  3. 双图联合推理: 在恢复能力稳定后,模型进入推理训练。输入格式为“受损图—恢复图—问题”,配合推理链进行下一词预测。模型学会以恢复图作为主要观察依据,同时回看受损图以校验恢复过程中可能出现的歧义或幻觉。

实验表明,这种“先恢复、再校验、后推理”的流程显著提升了性能。在 R-Bench 基准测试中,Robust-U1 的综合得分(0.7398)远高于基础模型 BAGEL(0.5770)和文本推理方法 Robust-R1(0.5017)。特别是在高强度退化下,Robust-U1 的性能下降幅度远小于对比方法。消融实验证实,移除双图推理或任一视觉奖励均会导致性能显著下降,且外接专用图像修复器的效果不如该方法,因为专用修复器往往针对单一退化类型优化,且未必保留问答所需的视觉证据。

关键要点

  • 范式转变:从让模型“容忍”受损视觉或仅用文字描述损坏,转变为让模型主动重建视觉证据。Robust-U1 将中间推理过程从纯文本扩展到了视觉空间。
  • 双图校验机制:恢复图不被视为唯一真理,而是作为中间假设。模型必须同时参考原始受损图和恢复图,利用原图约束恢复图的生成,防止幻觉。
  • 双奖励约束:仅靠像素级奖励(SSIM)可能导致语义错误,仅靠语义奖励(CLIP)可能忽略精细结构。两者结合确保了恢复图既在结构上可信,又在内容上一致。
  • 性能优势:在 R-Bench、MMMB、MMStar 等基准上,Robust-U1 在处理低、中、高不同等级退化时均表现出优于现有方法的鲁棒性,尤其在图像描述任务中提升明显。
  • 局限性
    • 非物理重建:恢复是基于训练分布的估计,无法找回被物理删除的信息,仍存在生成错误的可能(论文报告恢复前后答案一致率为 92.3%)。
    • 成本与延迟:训练成本高(仅监督阶段需 1920 个 L20 GPU 小时),推理时因额外生成图像会增加延迟。
    • 数据依赖:完整训练依赖成对的受损—干净图片,无干净参考的语义奖励效果较差。
    • 场景限制:当前实验集中在静态图片,视频时间一致性、未知真实退化及高风险场景下的错误校准仍需验证。

意义与影响

Robust-U1 为多模态模型在恶劣视觉环境下的应用提供了新的思路。对于暗光驾驶、遥感、监控和医学影像等领域,许多错误源于感知信息缺失而非语言推理不足。Robust-U1 允许模型主动重建视觉证据,并提供了一种可观察的中间结果,使得系统可以直接检查模型依据了何种视觉内容,而非仅分析隐藏特征,从而提高了系统的可解释性和可靠性。

该方法标志着多模态模型处理受损输入的策略从“被动适应”转向“主动重建”。它证明,通过像素结构、语义一致性和原图校验的三重约束,生成出的清晰画面可以转化为可靠的推理证据。尽管存在计算成本和幻觉风险,但 Robust-U1 为构建更具鲁棒性和可解释性的下一代多模态系统指明了方向。

查看原文 →leiphone.com