AI 资讯雷峰网·4 小时前

ICML 2026 REViT发布：去位置编码实现Transformer旋转等变性

原标题：ICML 2026 REViT 发布 | 这可能是这个 Transformer 时代，CNN最后的体面

速览

ICML 2026发布的REViT提出了一种极简方案，利用Lifting层和分组卷积自注意力（G-CSA），使视觉Transformer天然具备旋转反射等变性。该方法摒弃了传统Transformer中破坏对称性的位置编码，在保持平移等变性的同时大幅降低计算复杂度。实验表明，REViT在多个数据集上以更少参数实现了碾压级的性能优势，为视觉模型的空间变换鲁棒性提供了新范式。

AI 深度解读

ICML 2026 REViT 发布：这可能是 Transformer 时代，CNN 最后的体面

背景

在计算机视觉领域，传统卷积神经网络（CNN）以其对平移、旋转等空间变换的鲁棒性著称，而视觉 Transformer（ViT）则凭借自注意力机制在大规模数据上取得了统治级表现。然而，ViT 的核心痛点在于其“排列等变性”（Permutation Equivariance）——它将输入 token 视为无序集合，忽略了像素间的空间位置关系。

为了解决这一问题，主流方案引入了位置编码（Position Encoding）。绝对位置编码破坏了平移等变性，而相对位置编码（RPE）虽然保持了平移等变，却带来了巨大的计算复杂度。更棘手的是，当模型转向追求旋转等变性（Equivariance）时，现有的群等变方法（如 G-SA）不得不叠加复杂的旋转群编码和方向相关的 RPE 项，导致模型臃肿、训练和推理负担沉重。

在医疗影像分析中，细胞切片微小的旋转可能导致 AI 诊断结果截然不同；在自动驾驶中，摄像头角度的倾斜可能引发漏检误报。这些场景揭示了现有模型对空间变换过于敏感的缺陷。在此背景下，ICML 2026 提出了一种名为 REViT (Roto-reflection Equivariant Convolutional Vision Transformer) 的新架构。它摒弃了繁琐的位置编码，通过卷积投影和群自注意力机制，让 ViT 天然具备旋转反射等变性，在性能与效率上实现了双重突破。

核心内容

REViT 的核心设计理念是“极简而优雅”：通过移除显式的位置编码，利用卷积操作内建的空间感知能力和群等变卷积，使模型在没有任何人工干预的情况下，天然具备旋转对称性。其架构主要包含两个关键模块：Lifting 层和分组卷积自注意力（G-CSA）。

1. Lifting 层：从 2D 到 3D 的群空间跃迁

Lifting 层的任务是将普通的 2D 输入图像“提升”到一个更高维的表示空间，该空间不仅包含空间位置信息，还显式编码了离散的方向（旋转）通道。

操作定义：对于输入图像 $I$ 和一组可学习的卷积核 $K$，Lifting 操作并非使用固定卷积核，而是对每个离散旋转群元素 $g$（如 0°, 90°, 180°, 270°），应用一个预先旋转好的卷积核。
输出结构：输出不再是 2D 特征图，而是一个 3D 张量 $Z \in \mathbb{R}^{H \times W \times G}$。其中，第三个维度 $G$ 对应不同的旋转方向。
等变性基础：这一操作引入了离散旋转对称性。如果输入图像被旋转，Lifting 层的输出仅在群维度上发生循环位移，而不破坏特征的数值分布。这为后续的等变处理奠定了数学基础。

2. G-CSA 模块：3D 空间中的群等变自注意力

如果说 Lifting 层完成了空间维度的扩展，G-CSA 则确保了等变性质在网络深层的传递。

群等变卷积投影：G-CSA 使用 3D 群等变卷积来计算 Query (Q)、Key (K) 和 Value (V)。由于在空间维度和群维度上同时执行卷积，生成的 Q、K、V 本身也是群等变的。
联合注意力计算：注意力权重通过 Q 与 K 的点积计算 Softmax 得到。与普通自注意力不同，这里的点积在所有空间位置 $x$ 和所有群元素 $g$ 上归一化。这意味着模型不仅关注“空间上哪里重要”，还关注“在哪个旋转方向上重要”。
数学证明：对于任何群变换 $g$，G-CSA 满足 $f(g \cdot x) = g \cdot f(x)$。即先旋转输入再计算注意力，等同于先计算注意力再旋转输出。

3. 为何摒弃位置编码？

REViT 的设计巧妙地解决了位置编码带来的矛盾：

绝对位置编码的冲突：一旦输入被提升到 $G$ 空间，处理的是“旋转后的相对关系”而非绝对坐标。标准位置编码无法编码这种群变换下的相对关系，强行添加会破坏 Lifting 层建立的群等变性。
RPE 的冗余：相对位置编码（RPE）旨在恢复平移等变性。REViT 通过转用卷积自注意力，天然内建了平移等变性，因此 RPE 变得多余。这种设计既简化了实现，又降低了计算开销。

关键要点

架构创新：REViT 通过 Lifting 层将 2D 图像映射到包含离散旋转通道的 3D 空间，并利用 G-CSA 模块在 3D 空间执行群等变自注意力，无需任何显式位置编码即可实现旋转反射等变性。
性能碾压：
- 对比 G-SA：在 PatchCamelyon 数据集上，G-CSA 仅用 94.35K 参数（G-SA 为 205.66K）即实现准确率反超。
- 对比 G-CNN：p8-CSA 在 Rotated MNIST 上达到 98.92% 准确率，p4m-CSA 在 PatchCamelyon 上达到 90.75%，均优于对应的 CNN 基线及 SOTA 方法。
- 对比 Vanilla ViT：即使使用数据增强，Vanilla ViT 在 Rotated MNIST 上准确率为 91.67%，而 REViT (p8CSA) 达到 98.03%，证明将对称性编码进架构比依赖数据增强更有效。
极致效率：G-CSA 的乘加运算量（Mul-Add）和峰值模型内存几乎是 G-SA with RPE 的一半甚至更低。例如，p8-CSA 的 Mul-Add 仅为 15.98M，而 p8-SA 为 48.32M。
超参数敏感性：
- 群阶数：增加群阶数并非总是有益。从 p4 增至 p12 准确率提升，但增至 p16 时因非网格对齐旋转（如 22.5°）引入双线性插值近似误差，导致准确率下降。
- 卷积核尺寸：5×5 核尺寸表现最佳，过小感受野受限，过大可能破坏局部平移等变性并导致过拟合。
严格的等变性验证：
- 等变误差：在 p4 和 p4m 群下，REViT 的等变误差低至 1e-5 到 1e-2 量级，与 G-CNN 持平，而 Vanilla ViT 高达 1e-1。
- 泛化能力：面对训练时未见的任意角度连续旋转，REViT 的平均预测一致性高达 96.99%，比普通 ViT 提升 11.61%。
大规模扩展性：在 ImageNet-1K 上，REViT 以 18M 参数取得 79.27% Top-1 准确率，完胜 RE-ResNet (77.37%, 11M) 和 ViT-S w/ aug (72.08%, 22M)，且无需额外数据增强或预训练蒸馏。
局限性：
- 计算开销：推理延迟与群阶数成比例，p12 群理论上需处理 12 倍特征映射，在资源受限场景部署仍有挑战。
- 插值伪影：高阶群（如 p8）包含非网格对齐旋转，输入阶段的插值会引入无法完全消除的近似误差（误差量级 10^-2），虽非架构缺陷，但

查看原文 →leiphone.com