AI 资讯雷峰网·6 天前

CVPR 2026：深度学习的「标准件」，正在被逐个拆掉

速览

CVPR 2026多篇论文挑战深度学习核心组件，包括用1-bit注意力替代浮点计算、SegQuant实现跨架构通用量化，以及重新审视扩散模型的训练目标。这些研究从推理加速到训练范式，逐步拆解并优化深度学习的传统“标准件”，推动模型向更高效、更本质的方向发展。

AI 深度解读

CVPR 2026：深度学习的「标准件」，正在被逐个拆掉

背景

过去几年，深度学习领域如同建造一座不断加盖、扩建的高楼，以 Transformer 为主楼，扩散模型（Diffusion Models）和归一化流（Normalizing Flows）为附楼。为了追求更高的性能，行业习惯性地堆砌“标准件”：使用浮点精度作为计算基础，层归一化（LayerNorm）和残差连接作为结构支撑，因果掩码作为逻辑隔断。

然而，随着模型规模的扩大，这种堆砌带来的边际收益逐渐递减。在 CVPR 2026 上，一批研究不再满足于在现有架构上进行微调或工程优化，而是开始质疑这些被视为“必需品”的基础组件是否真的必要。研究者们从推理端的精度、训练目标的设定，一直深入到架构底层的归一化层和可逆性约束，试图厘清哪些是真正的“承重墙”，哪些只是因循守旧的“装饰板”。

核心内容

本次解读聚焦于五篇代表性论文，它们分别从不同层面拆解了深度学习的传统标准件。

1. 推理端：打破精度与定制化的迷信

BinaryAttention：1-bit 注意力的可行性 Transformer 的注意力机制因 Query 和 Key 的矩阵乘法成为算力瓶颈。传统量化路径从 FP32 降至 INT8/INT4，但降至 1-bit（仅保留正负符号）被认为会导致巨大的信息损失。

核心发现：注意力机制的核心是计算相似度关系，这种关系在二值化后依然有效。
技术方案：BinaryAttention 仅保留 Q 和 K 的符号，用 XNOR 加 popcount 的位运算替代浮点矩阵乘法。通过引入可学习偏置项补偿信息损失，并结合量化感知训练和自蒸馏技术，确保符号相似性与全精度一致。
效果：在 A100 GPU 上，其速度比 FlashAttention2 快 2 倍以上。在视觉和扩散 Transformer 基准测试中，1-bit 注意力不仅维持了精度，部分任务甚至超越全精度版本。

SegQuant：跨架构的通用量化策略 针对扩散模型（如 SDXL、DiT、PixArt）架构多样导致量化需手工调参的痛点。

核心发现：量化配置可以从模型的计算图中自动推断，无需人工启发式规则。
技术方案：
- SegLinear：基于段的图量化策略，分析静态计算图的拓扑结构，自动识别功能相似的层并分配不同量化配置。
- DualScale：针对扩散模型激活值正负分布不对称的问题，采用双尺度分别校准正负两侧，保护视觉输出保真度。
效果：实现了 UNet 系和 DiT 系模型的跨架构通用量化，无需为每个模型单独调参，且兼容主流工业部署工具。

2. 训练目标：质疑“预测噪声”的范式

JiT：直接预测干净图像 扩散模型通常让模型预测噪声，尽管这与预测干净图像在数学上等价，但研究者指出两者在几何上不等价。

核心发现：根据流形假设（Manifold Hypothesis），自然图像分布在高维空间的低维流形上。预测噪声是在流形外寻找弥散目标，而预测干净图像是在流形上寻找结构化目标。后者即便在网络容量有限时也能更有效地建模。
技术方案：JiT（Just image Transformers）直接使用大 patch 的 Transformer 处理原始像素，训练目标为预测干净图像，损失函数仅为简单的 MSE。去除了 VAE、Tokenizer、预训练权重和额外正则化。
效果：在 ImageNet 256 和 512 分辨率上取得有竞争力结果，打破了“高分辨率必须先压缩到潜空间”的通行做法。

3. 架构底层：重构归一化与可逆性

BiFlow：放弃精确可逆，换取并行解码 归一化流（Normalizing Flows）要求严格的精确可逆性，这限制了架构选择并导致自回归解码的串行推理，速度缓慢。

核心发现：精确可逆是强约束，近似可逆是工程可行的折衷。放弃精确可逆可大幅提升架构灵活性。
技术方案：BiFlow 同时学习前向和反向模型。反向模型不再追求解析逆，而是作为一个自由参数化的神经网络，使用双向注意力而非因果注意力，实现完全并行的解码。
效果：在 ImageNet 上生成质量显著提升，采样速度比因果解码方法快两个数量级，达到归一化流类方法的最优水平。

Derf：用极简函数击败归一化层 LayerNorm 和 RMSNorm 被视为 Transformer 的必需品，主要用于稳定训练。

核心发现：归一化层的优势可能主要源于泛化能力的提升，而非拟合能力的增强。存在更简洁的逐点非线性函数可以替代它。
技术方案：Derf 提出基于误差函数的设计：$Derf(x) = erf(\alpha x + s)$，其中 $\alpha$ 和 $s$ 为可学习参数。
效果：在视觉识别、视觉生成、语音表示学习、DNA 序列建模等多个领域，Derf 全面优于 LayerNorm、RMSNorm 和 DyT。

关键要点

精度冗余：BinaryAttention 证明注意力机制的浮点精度并非必须，1-bit 符号配合适当补偿即可实现加速且精度不降反升。
自动化量化：SegQuant 证明量化策略无需针对每个模型手工定制，通过计算图拓扑分析可实现跨架构的通用量化。
训练范式重构：JiT 证明扩散模型“预测噪声”并非最优解，直接预测干净图像在几何流形上更合理，且可去除潜空间压缩等复杂组件。
近似可逆的价值：BiFlow 证明归一化流的“精确可逆”是限制性能的枷锁，近似可逆配合并行解码可带来数量级的速度提升。
归一化层的可替代性：Derf 证明 LayerNorm/RMSNorm 并非不可替代，基于误差函数的极简设计在泛化性能上优于传统归一化层。
去伪存真：这五篇论文共同指向一个趋势：深度学习正在从追求规模化的“堆砌”转向探究本质必要性的“精简”。

意义与影响

CVPR 2026 的这批工作标志着深度学习研究范式的一次重要转变。过去几年，行业焦点集中在扩大模型规模、增加数据量和精细化调参上，隐含假设是“更大的模型和更复杂的结构必然带来更好的性能”。然而，这些研究通过拆解“标准件”揭示了以下深远影响：

从工程优化到理论回归：研究不再局限于如何更快地运行现有模型，而是回归到“为什么这样设计”的根本问题。例如，JiT 和 BiFlow 分别从训练目标和生成约束层面，指出了长期被忽视的几何和数学本质差异。
简化架构，提升效率：通过移除或简化非必要的组件（如浮点精度、复杂量化策略、精确可逆约束、归一化层），模型可以在保持甚至提升性能的同时，显著降低计算成本和部署门槛。这为边缘设备部署和大规模应用提供了新的可能性。
挑战行业共识：这些研究挑战了诸如“低比特必然牺牲精度”、“量化必须手工调参”、“扩散模型必须预测噪声”、“归一化层不可或缺”等行业常识。这种质疑精神将推动后续研究重新评估现有架构的每一个组件，寻找更优的替代方案。
通用性与兼容性：SegQuant 和 Derf 等工作特别强调了与工业部署工具的兼容性，表明这些理论突破并非仅停留在学术层面，而是可以直接转化为生产力，推动深度学习技术的落地应用。

总之，深度学习的大楼并未因拆除部分“标准件”而倒塌，反而因为去除了冗余和束缚，变得更加轻盈、高效和透明。这一趋势预示着未来深度学习的发展将更加注重本质效率与理论

查看原文 →leiphone.com

CVPR 2026：深度学习的「标准件」，正在被逐个拆掉

速览

AI 深度解读

CVPR 2026：深度学习的「标准件」，正在被逐个拆掉

背景

核心内容

1. 推理端：打破精度与定制化的迷信

2. 训练目标：质疑“预测噪声”的范式

3. 架构底层：重构归一化与可逆性

关键要点

意义与影响

相关推荐