中科大&智象未来提出PS-SR:强模型打底轻模型精修重塑视频超分
速览
中国科学技术大学与智象未来研究团队提出PS-SR方法,通过强Base模型恢复结构、轻量Draft模型补充细节,实现伪单步视频超分。该方法在保持接近单步推理速度的同时,具备多步扩散模型级别的细节表现与帧间稳定性。这一设计有效解决了视频增强中速度、细节与稳定性的平衡难题,为大规模实际应用提供了新方案。
AI 深度解读
中科大&智象未来:强模型打底、轻模型精修,重塑视频超分体验丨CVPR 2026
背景
随着生成式 AI 深入视频生产链,视频增强技术已从单纯的后期修补工具,演变为内容生产、分发及机器视觉理解的基础能力。现实需求不再局限于让画面“变清楚”,而是要求在电商直播中看清商品质感、在工业巡检中识别细微裂纹与仪表读数、在远程协作中保留设计细节,以及在文博数字化中还原影像纹理。
随着 4K 级高清内容成为视频平台、智能电视及专业制作流程的常态,如何将低清素材稳定放大至更高分辨率,同时保留纹理、边缘和运动连续性,成为行业痛点。传统技术面临两难:单步模型速度快但细节保守;多步扩散模型细节丰富但推理成本高,难以大规模落地。此外,视频增强不仅要求单帧清晰,更需保证帧间稳定性,避免闪烁、跳动和细节漂移。
在此背景下,中国科学技术大学与智象未来研究团队提出了《PS-SR: Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion》(伪单步视频超分辨率,基于推测扩散)。该研究旨在解决视频增强在大规模应用中的核心矛盾:系统能否既足够快,又足够稳,还能生成可信细节。
核心内容
PS-SR 提出了一种“强模型打底、轻模型精修”的伪单步扩散路径,通过大模型恢复整体结构,小模型补充细节,并利用频域更新约束生成范围,从而在结构保真、细节增强与计算成本之间寻找平衡。
1. 模型架构与流程
- Base Model(基础模型):基于 Wan2.1 视频扩散基础模型,采用 LoRA 微调。其任务是一次性恢复全局结构(画面布局、主体形状、低频语义信息),仅执行 1 次推理,以避免大模型多步推理的高成本。训练过程包括潜在空间(latent space)训练、VSD 约束、对抗训练、像素空间微调和 patch 训练,旨在让单步输出接近多步扩散模型的质量分布。
- Draft Model(草稿/轻量模型):作为 Base Model 的轻量剪枝版本,通过移除部分 DiT block 实现。其任务是基于 Base Model 传递的特征,进行多次轻量细化,补充边缘、纹理等高频细节。训练以中间 latent 状态为输入,使用 L2 loss 和 pixel loss,不使用 VSD 以减少复杂度,重点在于高频细节恢复。
- 频域更新机制:作为细节增强的“边界”,模型将画面从 RGB 转换至 YUV 空间,重点处理亮度信息。上一轮结果中的整体结构和低频内容被保留,当前 Draft Model 预测的高频纹理被补充进去。这种机制确保模型是在原有结构上增加细节,而非重写整幅画面,从而减少语义漂移。
- 完整推理流程:低质视频输入 -> VAE 编码 -> Base Model 单步恢复 -> Draft Model 第 1 次细化 -> 频域更新 -> Draft Model 第 2 次细化 -> 频域更新 -> Draft Model 第 3 次细化 -> 频域更新 -> VAE 解码 -> 高质量视频输出。
2. 实验设置与数据
- 数据准备:使用 YouHQ 高质量视频片段作为训练数据,通过 RealESRGAN 退化流程构造低质输入。合成测试集包括 UDM10、SPMCS、YouHQ40;真实测试集为 VideoLQ。数据覆盖人物、车辆、动物、街景及互联网低质视频。
- 对比方法:多步扩散方法(STAR、SeedVR)、单步扩散方法(DLoRAL、SeedVR2、DOVE)。
- 评价指标:包括重建类指标(结构接近 GT)、感知类指标(自然度、清晰度)、无参考指标(真实视频视觉质量)、时间一致性指标(帧间稳定)及主观评价。
3. 实验结果
- 画质与细节:PS-SR 在纹理清晰度、结构稳定性和帧间抖动控制上表现均衡。相比 STAR、SeedVR 速度更快;相比 DLoRAL、SeedVR2、DOVE 细节更自然、结构偏移更少。在 VideoLQ 真实视频测试中,人脸区域五官边缘更稳定,细节不过度扭曲。
- 时间一致性:得益于基础视频扩散模型中的 motion prior 保留,PS-SR 的帧间连续性优于对比方法,视频闪烁减少,运动区域更平滑。
- 速度效率:采用 1 次 Base Model 推理 + 3 次 Draft Model 细化,推理耗时接近单步方法,计算开销明显低于多步扩散方法。
- 参数分析:最终设置为采样步数 T=4,细化强度 α=0.6,剪掉 20 个 DiT block。消融实验表明,去掉 VSD、对抗损失、像素监督或频域更新均会导致生成质量、真实感、局部还原或结构稳定性下降。
关键要点
- 伪单步框架:并非真正只做 1 步,而是通过“大模型关键一步 + 小模型后续修补”的方式,使视觉体验和速度体验接近单步模型,同时内部保留轻量多步细化能力,降低计算量并保留细节生成能力。
- 强模型打底:Base Model 负责提供全局结构基础,保证主体形状不乱、语义内容不偏、低频信息稳定,相当于先建立准确的整体轮廓。
- 轻模型精修:Draft Model 以低成本模拟多步扩散的细化过程,补充边缘、纹理和局部清晰度,避免每一步都使用大模型,相当于在稳定轮廓上继续补充纹理。
- 频域约束生成:将结构和细节分开处理,低频负责整体内容,高频负责纹理细节。只更新高频可减少内容改写,保留低频可增强输入输出一致性,关键价值是防止“越修越偏”。
- 均衡的性能表现:PS-SR 在画质、速度、稳定性三方面取得平衡,核心优势是接近单步模型的速度,同时具备多步扩散模型级别的细节表现。
- 泛化能力强:不仅适用于合成退化视频,在真实互联网低质视频(如 VideoLQ)中也能保持人脸自然度、物体边缘清晰度和视频流畅度。
意义与影响
PS-SR 的研究价值不仅在于提出了一种新的视频超分方法,更在于回应了低清、模糊、压缩严重及播放不稳定等用户痛点,为视频增强技术的实际部署提供了高效方案。
- 实际应用价值:该技术可广泛应用于互联网低清视频增强、老视频修复、短视频平台画质提升、监控视频清晰化、压缩视频修复及长视频分段增强。其高效率特性使其更适合部署在资源受限或需要实时处理的视频增强系统中。
- 技术范式迁移:研究提出的“强模型 + 轻模型”协作范式及频域约束生成思路,可迁移至视频去噪、去模糊、去压缩伪影等其他任务,也能启发其他生成任务中的低成本多步细化策略。
- 行业参考意义:PS-SR 为内容平台、智能视觉系统和生成式视频工具提供了一种更接近实际部署需求的技术参考,展示了如何在保证结构保真和细节增强的同时,大幅降低扩散模型的推理成本,对实时高保真视频生成具有参考价值。
