← 返回信息流
AI 资讯雷峰网·4 小时前

CVPR 2026接收智象未来PS-SR:春晚4K超分技术解析

原标题:CVPR 2026 | 支撑春晚合肥 7 分钟的4K画面奇观 PS-SR让视频超分不用在速度与质量间为难

速览

智象未来团队提出的PS-SR视频超分框架被CVPR 2026接收,该技术成功支撑2026年央视春晚合肥分会场的4K级画面呈现。PS-SR通过投机扩散机制,让基础模型确定全局结构、轻量草稿模型补充高频细节,解决了视频超分中速度与质量的矛盾。实验表明,该方法在重建准确性、视觉细节和内容一致性上取得均衡,显著优于现有单步及多步扩散模型。

AI 深度解读

CVPR 2026 | PS-SR:让视频超分不再在速度与质量间为难

背景

2026年央视春晚合肥分会场《合韵满江淮》呈现了一系列令人惊叹的视觉奇观:鱼灯破水、火狮踏焰、剪纸奔马以及诗词瀑布等虚实融合的画面,极大地刷新了观众的想象边界。这些4K级画面的背后,不仅需要处理海量的实拍与生成素材,更要求在60帧率下保证每一帧的极致清晰与稳定——从鱼鳞反光与水波的同步,到奔马肌肉在疾驰中的无畸变,再到AI特效与真人实景的无缝融合。

实现这一切的基础能力是视频超分辨率(Video Super-Resolution, VSR)。然而,在VSR走向真实应用的过程中,业界长期面临一个核心矛盾:模型究竟应该追求速度还是质量?

  • 单步模型:推理速度快,适合部署,但往往难以恢复真实高清视频中的高频纹理,结果偏平滑。
  • 多步扩散模型:细节丰富、视觉质量强,但因反复迭代导致计算成本高昂,难以满足长视频或近实时场景的需求。

传统的基于CNN或Transformer的方法虽效率高且一致性强,但在面对严重退化(如压缩伪影、噪声、模糊)时能力有限;而扩散模型虽能利用生成先验补全细节,却受限于高昂的推理成本。近年来的单步扩散蒸馏方法试图解决此问题,但往往难以继承多步扩散的迭代创造力,导致复杂纹理生成保守。

在此背景下,智象未来团队提出了**PS-SR(Pseudo-Single-Step Video Super-Resolution)**框架,该成果已被计算机视觉顶级会议 CVPR 2026 接收。

核心内容

PS-SR 的核心创新在于提出了一种**「伪单步」的视频超分框架,通过投机扩散(Speculative Diffusion)**机制,重新分配扩散采样中的计算角色,试图同时获得接近单步模型的速度和多步扩散模型的视觉丰富度。

1. 架构设计:不对称模型协作

PS-SR 并非简单地将多步扩散压缩为一次前向传播,而是采用两个不对称模型协作完成推理:

  • 第一阶段:基础模型(Base Model)

    • 角色:负责全局结构、语义内容和低频一致性的恢复。这一步决定了“画面应该是什么”。
    • 实现:初始化自 Wan2.1-T2V-1.3B 视频扩散模型,并通过 LoRA 适配到视频超分任务。
    • 训练:先在 latent space 中学习从低质量到高质量视频的速度场,结合 VSD 和对抗损失增强分布对齐;随后进入 pixel-space training,通过 L2 和 LPIPS 损失提升局部质量。
    • 采样:仅执行一次全面采样。
  • 第二阶段:草稿模型(Draft Model)

    • 角色:在基础模型确定的基础上,接力完成后续细节增强,补充高频纹理。
    • 实现:来自基础模型的轻量化版本(论文中采用从 30 个 DiT blocks 中裁剪 20 个的配置)。
    • 特征增强:为了让轻模型获得强表征,PS-SR 将基础模型对应层的特征拼接给草稿模型,再通过全连接层恢复维度。这使得草稿模型无需重新理解整个视频,只需推测并补充细节。
    • 训练:聚焦于 refinement,主要通过在像素空间使用 L2 和 LPIPS 损失学习高频细节恢复。

2. 频域更新规则(Frequency-Domain Update Rule, FDU)

为防止草稿模型在细化过程中出现语义漂移(即越改越清晰但越改越不像原视频),PS-SR 引入了频域更新规则:

  • 核心逻辑:草稿模型的后续步骤只允许注入高频细节,低频结构必须继承自前一步。
  • 具体操作
    1. 将当前视频和新预测视频转换到 YUV 色彩空间。
    2. 在亮度通道(Y)上提取高频成分。
    3. 通过自适应权重融合高频信息。
    4. 与原有低频内容和色度通道(UV)组合回 RGB 空间。
  • 作用:确保增强发生在细节层面,而非内容重绘,从而在视觉丰富度与内容一致性之间取得平衡。

3. 推理流程

PS-SR 形成一种**「1+x」**式采样体验:

  • 1:一个完整的基础模型采样步。
  • x:多个轻量草稿模型细化步。
  • 这种机制在效率上接近单步模型,同时保留了多步细化的空间。

关键要点

  • 性能指标优势

    • UDM10 数据集上,PS-SR 取得 SSIM 0.7547、LPIPS 0.2444、DISTS 0.1277,均为对比方法最佳。
    • SPMCS 数据集上,取得 PSNR 22.092、SSIM 0.6287 等稳定优势。
    • YouHQ40 数据集上,获得 PSNR 21.772、NIQE 3.7508 等有竞争力结果。
    • PS-SR 不盲目追求无参考锐度指标(如 CLIP-IQA),而是平衡重建准确性、视觉细节和内容一致性。
  • 时序一致性

    • 在合成与真实视频场景中,PS-SR 表现出更稳定的帧间对齐,相邻帧间的结构漂移和纹理闪烁显著减少。
  • 推理速度对比

    • 测试环境:NVIDIA A800 GPU,29帧、720×1280分辨率视频。
    • STAR(50步多步扩散):98.61 秒。
    • SeedVR(多步扩散):188.93 秒。
    • DOVE(单步方法):20.43 秒。
    • PS-SR(1+3步投机扩散):21.11 秒
    • 结论:PS-SR 仅比最快的单步方法带来极小额外开销,但相比 50 步的 SeedVR 快约 9 倍,相比 15 步的 STAR 快约 4.7 倍。
  • 消融实验验证

    • 去掉频域更新规则(FDU)后,模型容易产生看似更锐利但与原视频结构不一致的细节,局部纹理和边缘会出现偏移或重绘,证明 FDU 对维持内容一致性至关重要。

意义与影响

PS-SR 的意义不仅在于提出一个新模型,更在于为扩散式视频超分提供了一种新的计算组织方式

  1. 打破速度与质量的二元对立: 过去,VSR 往往被迫在“快速但平滑”的单步模型和“高质量但昂贵”的多步扩散模型之间摇摆。PS-SR 证明,强模型可以只完成最关键的全局一步,轻模型可以接力补足细节,从而打破这一僵局。

  2. 可控的多步生成: PS-SR 的「伪单步」价值在于,它不否认多步生成的必要性,而是让多步生成以更轻、更受控、更接近实际部署的方式发生。通过频域更新规则,它有效约束了语义漂移,确保了生成的可控性。

  3. 应用前景广阔: 该框架为视频修复、低清素材增强、在线内容生产和高清化播放等场景展示了一个兼顾速度、质量与稳定性的方向。特别是在需要处理长视频、高清分辨率和接近实时增强的场景中,PS-SR 提供了极具实用价值的解决方案。

查看原文 →leiphone.com