AI 资讯雷峰网·4 小时前

CVPR 2026接收智象未来PS-SR：春晚4K超分技术解析

原标题：CVPR 2026 | 支撑春晚合肥 7 分钟的4K画面奇观 PS-SR让视频超分不用在速度与质量间为难

速览

智象未来团队提出的PS-SR视频超分框架被CVPR 2026接收，该技术成功支撑2026年央视春晚合肥分会场的4K级画面呈现。PS-SR通过投机扩散机制，让基础模型确定全局结构、轻量草稿模型补充高频细节，解决了视频超分中速度与质量的矛盾。实验表明，该方法在重建准确性、视觉细节和内容一致性上取得均衡，显著优于现有单步及多步扩散模型。

AI 深度解读

CVPR 2026 | PS-SR：让视频超分不再在速度与质量间为难

背景

2026年央视春晚合肥分会场《合韵满江淮》呈现了一系列令人惊叹的视觉奇观：鱼灯破水、火狮踏焰、剪纸奔马以及诗词瀑布等虚实融合的画面，极大地刷新了观众的想象边界。这些4K级画面的背后，不仅需要处理海量的实拍与生成素材，更要求在60帧率下保证每一帧的极致清晰与稳定——从鱼鳞反光与水波的同步，到奔马肌肉在疾驰中的无畸变，再到AI特效与真人实景的无缝融合。

实现这一切的基础能力是视频超分辨率（Video Super-Resolution, VSR）。然而，在VSR走向真实应用的过程中，业界长期面临一个核心矛盾：模型究竟应该追求速度还是质量？

单步模型：推理速度快，适合部署，但往往难以恢复真实高清视频中的高频纹理，结果偏平滑。
多步扩散模型：细节丰富、视觉质量强，但因反复迭代导致计算成本高昂，难以满足长视频或近实时场景的需求。

传统的基于CNN或Transformer的方法虽效率高且一致性强，但在面对严重退化（如压缩伪影、噪声、模糊）时能力有限；而扩散模型虽能利用生成先验补全细节，却受限于高昂的推理成本。近年来的单步扩散蒸馏方法试图解决此问题，但往往难以继承多步扩散的迭代创造力，导致复杂纹理生成保守。

在此背景下，智象未来团队提出了**PS-SR（Pseudo-Single-Step Video Super-Resolution）**框架，该成果已被计算机视觉顶级会议 CVPR 2026 接收。

核心内容

PS-SR 的核心创新在于提出了一种**「伪单步」的视频超分框架，通过投机扩散（Speculative Diffusion）**机制，重新分配扩散采样中的计算角色，试图同时获得接近单步模型的速度和多步扩散模型的视觉丰富度。

1. 架构设计：不对称模型协作

PS-SR 并非简单地将多步扩散压缩为一次前向传播，而是采用两个不对称模型协作完成推理：

第一阶段：基础模型（Base Model）
- 角色：负责全局结构、语义内容和低频一致性的恢复。这一步决定了“画面应该是什么”。
- 实现：初始化自 Wan2.1-T2V-1.3B 视频扩散模型，并通过 LoRA 适配到视频超分任务。
- 训练：先在 latent space 中学习从低质量到高质量视频的速度场，结合 VSD 和对抗损失增强分布对齐；随后进入 pixel-space training，通过 L2 和 LPIPS 损失提升局部质量。
- 采样：仅执行一次全面采样。
第二阶段：草稿模型（Draft Model）
- 角色：在基础模型确定的基础上，接力完成后续细节增强，补充高频纹理。
- 实现：来自基础模型的轻量化版本（论文中采用从 30 个 DiT blocks 中裁剪 20 个的配置）。
- 特征增强：为了让轻模型获得强表征，PS-SR 将基础模型对应层的特征拼接给草稿模型，再通过全连接层恢复维度。这使得草稿模型无需重新理解整个视频，只需推测并补充细节。
- 训练：聚焦于 refinement，主要通过在像素空间使用 L2 和 LPIPS 损失学习高频细节恢复。

2. 频域更新规则（Frequency-Domain Update Rule, FDU）

为防止草稿模型在细化过程中出现语义漂移（即越改越清晰但越改越不像原视频），PS-SR 引入了频域更新规则：

核心逻辑：草稿模型的后续步骤只允许注入高频细节，低频结构必须继承自前一步。
具体操作：
1. 将当前视频和新预测视频转换到 YUV 色彩空间。
2. 在亮度通道（Y）上提取高频成分。
3. 通过自适应权重融合高频信息。
4. 与原有低频内容和色度通道（UV）组合回 RGB 空间。
作用：确保增强发生在细节层面，而非内容重绘，从而在视觉丰富度与内容一致性之间取得平衡。

3. 推理流程

PS-SR 形成一种**「1+x」**式采样体验：

1：一个完整的基础模型采样步。
x：多个轻量草稿模型细化步。
这种机制在效率上接近单步模型，同时保留了多步细化的空间。

关键要点

性能指标优势：
- 在 UDM10 数据集上，PS-SR 取得 SSIM 0.7547、LPIPS 0.2444、DISTS 0.1277，均为对比方法最佳。
- 在 SPMCS 数据集上，取得 PSNR 22.092、SSIM 0.6287 等稳定优势。
- 在 YouHQ40 数据集上，获得 PSNR 21.772、NIQE 3.7508 等有竞争力结果。
- PS-SR 不盲目追求无参考锐度指标（如 CLIP-IQA），而是平衡重建准确性、视觉细节和内容一致性。
时序一致性：
- 在合成与真实视频场景中，PS-SR 表现出更稳定的帧间对齐，相邻帧间的结构漂移和纹理闪烁显著减少。
推理速度对比：
- 测试环境：NVIDIA A800 GPU，29帧、720×1280分辨率视频。
- STAR（50步多步扩散）：98.61 秒。
- SeedVR（多步扩散）：188.93 秒。
- DOVE（单步方法）：20.43 秒。
- PS-SR（1+3步投机扩散）：21.11 秒。
- 结论：PS-SR 仅比最快的单步方法带来极小额外开销，但相比 50 步的 SeedVR 快约 9 倍，相比 15 步的 STAR 快约 4.7 倍。
消融实验验证：
- 去掉频域更新规则（FDU）后，模型容易产生看似更锐利但与原视频结构不一致的细节，局部纹理和边缘会出现偏移或重绘，证明 FDU 对维持内容一致性至关重要。

意义与影响

PS-SR 的意义不仅在于提出一个新模型，更在于为扩散式视频超分提供了一种新的计算组织方式。

打破速度与质量的二元对立：过去，VSR 往往被迫在“快速但平滑”的单步模型和“高质量但昂贵”的多步扩散模型之间摇摆。PS-SR 证明，强模型可以只完成最关键的全局一步，轻模型可以接力补足细节，从而打破这一僵局。
可控的多步生成： PS-SR 的「伪单步」价值在于，它不否认多步生成的必要性，而是让多步生成以更轻、更受控、更接近实际部署的方式发生。通过频域更新规则，它有效约束了语义漂移，确保了生成的可控性。
应用前景广阔：该框架为视频修复、低清素材增强、在线内容生产和高清化播放等场景展示了一个兼顾速度、质量与稳定性的方向。特别是在需要处理长视频、高清分辨率和接近实时增强的场景中，PS-SR 提供了极具实用价值的解决方案。

查看原文 →leiphone.com