← 返回信息流
AI 资讯雷峰网·4 小时前

ICML 2026 REViT发布:去位置编码实现Transformer旋转等变性

原标题:ICML 2026 REViT 发布 | 这可能是这个 Transformer 时代,CNN最后的体面

速览

ICML 2026发布的REViT提出了一种极简方案,利用Lifting层和分组卷积自注意力(G-CSA),使视觉Transformer天然具备旋转反射等变性。该方法摒弃了传统Transformer中破坏对称性的位置编码,在保持平移等变性的同时大幅降低计算复杂度。实验表明,REViT在多个数据集上以更少参数实现了碾压级的性能优势,为视觉模型的空间变换鲁棒性提供了新范式。

AI 深度解读

ICML 2026 REViT 发布:这可能是 Transformer 时代,CNN 最后的体面

背景

在计算机视觉领域,传统卷积神经网络(CNN)以其对平移、旋转等空间变换的鲁棒性著称,而视觉 Transformer(ViT)则凭借自注意力机制在大规模数据上取得了统治级表现。然而,ViT 的核心痛点在于其“排列等变性”(Permutation Equivariance)——它将输入 token 视为无序集合,忽略了像素间的空间位置关系。

为了解决这一问题,主流方案引入了位置编码(Position Encoding)。绝对位置编码破坏了平移等变性,而相对位置编码(RPE)虽然保持了平移等变,却带来了巨大的计算复杂度。更棘手的是,当模型转向追求旋转等变性(Equivariance)时,现有的群等变方法(如 G-SA)不得不叠加复杂的旋转群编码和方向相关的 RPE 项,导致模型臃肿、训练和推理负担沉重。

在医疗影像分析中,细胞切片微小的旋转可能导致 AI 诊断结果截然不同;在自动驾驶中,摄像头角度的倾斜可能引发漏检误报。这些场景揭示了现有模型对空间变换过于敏感的缺陷。在此背景下,ICML 2026 提出了一种名为 REViT (Roto-reflection Equivariant Convolutional Vision Transformer) 的新架构。它摒弃了繁琐的位置编码,通过卷积投影和群自注意力机制,让 ViT 天然具备旋转反射等变性,在性能与效率上实现了双重突破。

核心内容

REViT 的核心设计理念是“极简而优雅”:通过移除显式的位置编码,利用卷积操作内建的空间感知能力和群等变卷积,使模型在没有任何人工干预的情况下,天然具备旋转对称性。其架构主要包含两个关键模块:Lifting 层和分组卷积自注意力(G-CSA)。

1. Lifting 层:从 2D 到 3D 的群空间跃迁

Lifting 层的任务是将普通的 2D 输入图像“提升”到一个更高维的表示空间,该空间不仅包含空间位置信息,还显式编码了离散的方向(旋转)通道。

  • 操作定义:对于输入图像 $I$ 和一组可学习的卷积核 $K$,Lifting 操作并非使用固定卷积核,而是对每个离散旋转群元素 $g$(如 0°, 90°, 180°, 270°),应用一个预先旋转好的卷积核。
  • 输出结构:输出不再是 2D 特征图,而是一个 3D 张量 $Z \in \mathbb{R}^{H \times W \times G}$。其中,第三个维度 $G$ 对应不同的旋转方向。
  • 等变性基础:这一操作引入了离散旋转对称性。如果输入图像被旋转,Lifting 层的输出仅在群维度上发生循环位移,而不破坏特征的数值分布。这为后续的等变处理奠定了数学基础。

2. G-CSA 模块:3D 空间中的群等变自注意力

如果说 Lifting 层完成了空间维度的扩展,G-CSA 则确保了等变性质在网络深层的传递。

  • 群等变卷积投影:G-CSA 使用 3D 群等变卷积来计算 Query (Q)、Key (K) 和 Value (V)。由于在空间维度和群维度上同时执行卷积,生成的 Q、K、V 本身也是群等变的。
  • 联合注意力计算:注意力权重通过 Q 与 K 的点积计算 Softmax 得到。与普通自注意力不同,这里的点积在所有空间位置 $x$ 和所有群元素 $g$ 上归一化。这意味着模型不仅关注“空间上哪里重要”,还关注“在哪个旋转方向上重要”。
  • 数学证明:对于任何群变换 $g$,G-CSA 满足 $f(g \cdot x) = g \cdot f(x)$。即先旋转输入再计算注意力,等同于先计算注意力再旋转输出。

3. 为何摒弃位置编码?

REViT 的设计巧妙地解决了位置编码带来的矛盾:

  • 绝对位置编码的冲突:一旦输入被提升到 $G$ 空间,处理的是“旋转后的相对关系”而非绝对坐标。标准位置编码无法编码这种群变换下的相对关系,强行添加会破坏 Lifting 层建立的群等变性。
  • RPE 的冗余:相对位置编码(RPE)旨在恢复平移等变性。REViT 通过转用卷积自注意力,天然内建了平移等变性,因此 RPE 变得多余。这种设计既简化了实现,又降低了计算开销。

关键要点

  • 架构创新:REViT 通过 Lifting 层将 2D 图像映射到包含离散旋转通道的 3D 空间,并利用 G-CSA 模块在 3D 空间执行群等变自注意力,无需任何显式位置编码即可实现旋转反射等变性。
  • 性能碾压
    • 对比 G-SA:在 PatchCamelyon 数据集上,G-CSA 仅用 94.35K 参数(G-SA 为 205.66K)即实现准确率反超。
    • 对比 G-CNN:p8-CSA 在 Rotated MNIST 上达到 98.92% 准确率,p4m-CSA 在 PatchCamelyon 上达到 90.75%,均优于对应的 CNN 基线及 SOTA 方法。
    • 对比 Vanilla ViT:即使使用数据增强,Vanilla ViT 在 Rotated MNIST 上准确率为 91.67%,而 REViT (p8CSA) 达到 98.03%,证明将对称性编码进架构比依赖数据增强更有效。
  • 极致效率:G-CSA 的乘加运算量(Mul-Add)和峰值模型内存几乎是 G-SA with RPE 的一半甚至更低。例如,p8-CSA 的 Mul-Add 仅为 15.98M,而 p8-SA 为 48.32M。
  • 超参数敏感性
    • 群阶数:增加群阶数并非总是有益。从 p4 增至 p12 准确率提升,但增至 p16 时因非网格对齐旋转(如 22.5°)引入双线性插值近似误差,导致准确率下降。
    • 卷积核尺寸:5×5 核尺寸表现最佳,过小感受野受限,过大可能破坏局部平移等变性并导致过拟合。
  • 严格的等变性验证
    • 等变误差:在 p4 和 p4m 群下,REViT 的等变误差低至 1e-5 到 1e-2 量级,与 G-CNN 持平,而 Vanilla ViT 高达 1e-1。
    • 泛化能力:面对训练时未见的任意角度连续旋转,REViT 的平均预测一致性高达 96.99%,比普通 ViT 提升 11.61%。
  • 大规模扩展性:在 ImageNet-1K 上,REViT 以 18M 参数取得 79.27% Top-1 准确率,完胜 RE-ResNet (77.37%, 11M) 和 ViT-S w/ aug (72.08%, 22M),且无需额外数据增强或预训练蒸馏。
  • 局限性
    • 计算开销:推理延迟与群阶数成比例,p12 群理论上需处理 12 倍特征映射,在资源受限场景部署仍有挑战。
    • 插值伪影:高阶群(如 p8)包含非网格对齐旋转,输入阶段的插值会引入无法完全消除的近似误差(误差量级 10^-2),虽非架构缺陷,但
查看原文 →leiphone.com