AI 资讯雷峰网·5 小时前

CVPR 2026：拆解深度学习标准件，量化与训练范式迎来颠覆

原标题：CVPR 2026：深度学习的「标准件」，正在被逐个拆掉

速览

CVPR 2026多项研究深入质疑深度学习架构中的“标准件”，如浮点精度、归一化层及扩散模型的去噪目标。BinaryAttention通过1-bit量化实现比FlashAttention2快2倍的推理速度；SegQuant提供无需人工调参的跨架构扩散模型量化方案。此外，研究开始重新审视扩散模型预测噪声与预测干净图像的等价性，推动底层计算范式的革新。

AI 深度解读

背景

深度学习领域过去几年的发展轨迹，常被比喻为一座不断加盖、扩建的大楼。以 Transformer 为主干，扩散模型和归一化流为附楼，这一体系依靠大量“标准件”构建而成：浮点精度被视为钢筋，层归一化（LayerNorm）和残差连接被视为混凝土，因果掩码被视为承重隔断。随着模型规模扩大，人们倾向于通过增加更粗的钢筋、更复杂的控制系统来追求性能提升，但边际收益逐渐递减。

在 CVPR 2026 上，一批研究团队开始从根本层面质疑这些被视为“必需品”的标准件。他们并非进行简单的工程修补，而是追问这些组件是真正的“承重墙”还是仅仅因为“一直存在”而被默认保留的研究。研究范围从推理端的精度优化，延伸至训练目标的参数化方式，最后触及架构底层的归一化层和可逆性约束，形成了一条从外围到核心的递进式拆解线。

核心内容

本次解读涵盖五篇代表性论文，分别针对注意力机制的精度、量化策略的通用性、扩散模型的训练目标、归一化流的约束条件以及 Transformer 的归一化层进行了重构。

1. BinaryAttention：1-bit 注意力的理论重构 针对 Transformer 中注意力模块作为算力黑洞的问题，传统优化路径（如 FlashAttention 和 INT8/INT4 量化）已接近瓶颈。来自 Chaodong Xiao、Zhengqiang Zhang 和 Lei Zhang 的研究提出 BinaryAttention，将 Query (Q) 和 Key (K) 压缩为仅含正负状态的 1-bit 数据。

理论依据：注意力核心在于计算相似度关系，二值化后的符号足以捕捉核心信息，无需保留小数位精度。
技术实现：用 XNOR 加 popcount 的位运算替代传统浮点矩阵乘法。引入可学习偏置项补偿信息损失，采用量化感知训练和自蒸馏技术确保符号相似性与全精度一致。
效果：在 A100 GPU 上速度比 FlashAttention2 快 2 倍以上，且在视觉和扩散 Transformer 基准测试中维持甚至超越了全精度版本的精度。

2. SegQuant：跨架构通用的量化框架 针对扩散模型（如 SDXL、DiT、PixArt）架构多样导致量化策略需手工定制、工业部署门槛高的问题，浙大 OptiSys 团队提出 SegQuant。

SegLinear：基于静态计算图的拓扑结构，自动识别线性层的语义结构和空间分布差异，自动分配量化配置，无需人工启发式规则。
DualScale：解决扩散模型激活值正负分布不对称导致的失真问题，通过双尺度分别校准正负两侧，保障视觉输出保真度。
效果：首次实现扩散模型量化的跨架构通用（适配 UNet 和 DiT 系），且与主流工业部署工具无缝兼容。

3. JiT：扩散模型训练目标的几何再审视 Kaiming He 和 Tianhong Li 的研究挑战了扩散模型“预测噪声”而非“预测干净图像”的默认范式。

理论洞察：基于流形假设，自然图像分布在高维空间的低维流形上。预测噪声是在流形外弥散空间中工作，易导致灾难性失败；预测干净图像则始终在流形上，即便网络容量有限也能有效建模。
JiT 设计：直接使用大 patch Transformer 处理原始像素，训练目标为预测干净图像，损失函数仅为简单 MSE。去除了 VAE/Tokenizer 潜空间压缩、预训练权重和复杂正则化。
效果：在 ImageNet 256/512 分辨率上取得有竞争力结果，打破了“高分辨率必须先压缩到潜空间”的通行做法，证明了“预测噪声”路线在几何上的次优性。

4. BiFlow：放弃精确可逆以换取并行解码 针对归一化流（Normalizing Flow）中严格可逆性约束限制架构选择、导致自回归串行解码速度慢的问题，Yiyang Lu、Qiao Sun 与 Kaiming He 合作提出 BiFlow。

核心思路：逆函数无需是精确解析解。同时学习前向模型（数据到噪声）和反向模型（噪声到数据），反向模型作为自由参数化的神经网络，不受可逆性约束。
优势：反向模型可使用双向注意力实现完全并行解码，摆脱因果解码限制。
效果：在 ImageNet 上生成质量显著提升，采样速度比因果解码方法快两个数量级，达到归一化流类方法最优。

5. Derf：归一化层的替代与超越 针对 Transformer 中 LayerNorm 和 RMSNorm 的必要性，Mingzhi Chen、Taiming Lu 等人提出 Derf，旨在寻找最优的逐点非线性函数替代归一化层。

设计：Derf(x) = erf(αx + s)，其中 erf 为高斯累积分布函数，α 和 s 为可学习参数。
发现：Derf 的优势主要源于泛化能力的提升，而非拟合能力的增强。这暗示归一化层长期存在的原因可能是其提供了尚可的稳定性，而非不可替代的计算功能。
效果：在视觉识别、生成、语音表示学习、DNA 建模等多个领域，Derf 全面优于 LayerNorm、RMSNorm 和 DyT。

关键要点

精度冗余：BinaryAttention 证明注意力机制的核心逻辑在 1-bit 二值化后依然有效，浮点精度并非必须，位运算可带来显著加速。
自动化量化：SegQuant 证明量化策略可从计算图自动推断，无需针对每个模型手工调参，解决了扩散模型量化部署难的问题。
范式反转：JiT 证明扩散模型预测干净图像在几何流形上比预测噪声更合理，去除了潜空间压缩等复杂组件后性能依然强劲。
近似可逆：BiFlow 证明归一化流中“精确可逆”是限制性能的奢侈品，近似可逆结合并行解码可大幅提升采样速度。
归一化替代：Derf 证明 Transformer 中的归一化层并非不可替代，基于误差函数的极简设计在泛化性上优于传统归一化层。
系统性拆解：这五项工作分别从推理端（BinaryAttention, SegQuant）、训练目标（JiT）和架构底层（BiFlow, Derf）入手，系统性地质疑了深度学习的“默认设置”。

意义与影响

这些研究标志着深度学习领域从“追求规模化”向“探究根源必要性”的范式转变。

重新定义“必需品”：过去被视为架构基石的组件（如浮点精度、精确可逆、归一化层、预测噪声目标），被证明可能只是历史惯性或次优解。拆掉这些“隔断”而非“承重墙”，模型性能未降反升，且效率大幅提高。
工业部署门槛降低：BinaryAttention 和 SegQuant 直接针对推理加速和量化部署痛点，提供了无需复杂调参、兼容主流工具的工程化方案，有助于将前沿模型更快落地。
理论指导实践：JiT 和 BiFlow 从几何和数学约束角度解释了现有范式的低效之处，为后续模型设计提供了新的理论视角——即优先考虑几何合理性和工程可行性，而非盲目遵循传统数学优雅性。
架构设计的极简主义回归：Derf 和 JiT 的成功暗示，许多复杂的模型组件可能是为了补偿次优设计而存在的“补丁”。未来的模型设计可能趋向于更简洁、更直接的架构，去除冗余的标准化步骤和中间压缩环节。

总体而言，CVPR 2026 的这些工作揭示了一个清晰趋势：深度学习的下一个突破点，不在于堆砌更多参数，而在于通过解构现有标准件，发现更本质、更高效的计算与建模方式。

查看原文 →leiphone.com

CVPR 2026：拆解深度学习标准件，量化与训练范式迎来颠覆

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐