探索视觉嵌入:AI如何理解图像
速览
视觉嵌入是将图像转换为高维向量表示的关键技术,使计算机能够以数学方式理解和处理视觉信息。这一技术极大地提升了多模态大模型在图像识别、检索及生成任务中的表现。通过利用视觉嵌入,AI系统可以更精准地捕捉图像中的语义特征,从而推动人工智能在视觉领域的进一步发展。
AI 深度解读
探索视觉嵌入:解码 DINOv3 的“神经语言”
背景
嵌入(Embeddings)在某种意义上是神经网络的“母语”。它们让网络能够仅通过一组数字列表,编码出丰富且具有语义意义的表征。然而,这些数字往往令人沮丧地不透明——你无法通过逐个阅读它们来理解其含义。
本文旨在通过一种可解释的方法,深入理解一个特定神经网络——DINOv3——的嵌入空间。我们试图回答一个核心问题:在这组数字背后,究竟编码了什么样的视觉信息?
核心内容
1. 模型选择:DINOv3 ViT-S
本文研究的模型是 DINOv3 ViT-S (Siméoni et al., 2025)。选择该模型的原因在于其独特的训练方式:它通过极少的先验知识,学习将原始像素映射到一个丰富的特征空间。
- 非语言模型:它不懂语言,无法描述所见之物,但它依然能“理解”图像。
- 压缩机制:它将任何图像压缩为一个单一的嵌入向量(包含 384 个数字的列表)。
- 不变性:训练目标确保同一图像的不同裁剪或增强版本,会产生相似的嵌入。
我们的目标是解析这 384 个数字中编码的信息。
2. 从嵌入生成图像:逆向工程
为了在 384 维空间中“游玩”,我们需要一种将数字转换回人类可理解形式(即图像)的方法。具体而言,我们希望找到一个点,使得 DINOv3 认为该点对应的图像与目标嵌入一致。
实现这一目标主要依赖两个核心思想:
- 完全可微性:DINOv3 是完全可微的。通过调整像素值,可以使输出向量更接近目标嵌入。这类似于 DeepDream (Mordvintsev et al., 2015) 和 Olah 等人的特征可视化工作,通过最大化生成图像嵌入与目标嵌入之间的余弦相似度来优化像素。
- 模仿训练策略:由于 DINOv3 在训练时使用了多种裁剪和增强策略,我们在构建像素梯度时也模仿这一策略。这有两个好处:
- 防止优化器利用高频噪声“作弊”。
- 优化模型自身定义的“相似性”。
此外,为了生成更自然的图像,我们还采用了两个技巧:
- 使用未训练的 Transformer 主干网络生成图像(类似于 Deep Image Prior, Ulyanov et al., 2017)。
- 最小化辅助的全变分损失(Total Variation Loss)。
实验结果示例: 当我们对一张阿尔卑斯山风景照计算嵌入,并沿该方向生成图像时,生成的图像虽然存在细节上的差异(如饱和度更高、对比度更强、物体位置错乱或重复),但成功捕捉到了原图的整体氛围(山脉、雪、湖泊)。这种差异部分源于生成管道的特性,读者需在后续分析中 mentally invert(心理逆转)这些生成伪影。
3. 特征发现:超位现象(Superposition)
在解析 384 维空间之前,必须认识到:DINOv3 在这 384 个数字中编码的视觉概念远不止 384 个。
- 超位现象:主流假设认为,模型通过将每个特征指向近乎正交的方向,从而在嵌入维度内“塞入”远多于维度数量的特征 (Elhage et al., 2022)。
- 直观演示:通过一个将 10 个 MNIST 数字类别压缩到 2 维瓶颈层的玩具神经网络演示,可以看到每个数字类别都占据了一个独特的倾斜方向。在 384 维空间中,这种空间足以容纳数千个特征。
超位的两面性:
- 优势:允许模型学习比维度数量多得多的特征。
- 劣势:单个嵌入维度是多个概念的混合体(smear),难以直接解读。
为了解耦这些概念,我们引入了稀疏自编码器(Sparse Autoencoder, SAE)。SAE 旨在为模型的表征提供更多“呼吸空间”,并激励编码器减少表征的混合。虽然 SAE 最初为语言模型开发,但同样适用于视觉 Transformer(例如 Fry (2024) 在 CLIP 上的工作)。
训练后的 SAE 在 384 维空间中提供了约 12,000 个独特方向,每个方向通常对应一个独特且可解释的特征。
4. 特征分解与组合
利用 SAE,我们可以执行两项关键操作:
A. 特征分解 我们将给定图像的 DINOv3 嵌入输入 SAE,将其分解为一组稀疏激活的特征。
- 红杉林路径照片:激活最强的特征清晰对应于“树木”、“绿色植被”、“栅栏”和“路径”。
- 金门大桥照片:最显著的特征似乎专门针对“金门大桥”本身。这表明模型不仅提取了通用视觉元素,还捕获了特定物体的整体表征。
B. 特征组合 SAE 的一个关键假设是:不同特征可以相加,从而创建这些特征的合理混合。
- 我们选取两个由 SAE 解码器方向定义的特征方向,将它们相加生成新方向,并运行图像生成技术。
- 实验显示,这种线性组合确实能够产生包含两种特征混合效果的图像,验证了嵌入空间中的线性结构假设。
关键要点
- 嵌入是神经网络的母语:虽然数字本身不透明,但通过逆向工程(从嵌入生成图像),我们可以理解其语义内容。
- DINOv3 的特性:作为一个无语言先验的视觉模型,它将图像压缩为 384 维嵌入,并通过训练确保不同视角/增强下的图像嵌入相似。
- 生成技术的关键:通过最大化余弦相似度、模仿训练时的数据增强策略、以及使用未训练 Transformer 主干,可以从嵌入空间中生成视觉上连贯的图像。
- 超位现象(Superposition):模型在有限维度内编码了远超维度数量的特征,通过指向近乎正交的方向来实现。这导致单个维度是多个概念的混合。
- 稀疏自编码器(SAE)的作用:SAE 是解耦嵌入空间的关键工具,它将混合的表征分解为约 12,000 个独立、可解释的特征方向。
- 线性组合的有效性:嵌入空间支持特征的线性相加,生成的图像能够反映多个特征的混合,证明了空间内的语义结构。
意义与影响
这项研究为理解视觉 Transformer 的内部工作机制提供了新的视角。通过结合图像生成和稀疏自编码器,我们不仅验证了 DINOv3 嵌入空间的丰富性,还展示了如何将其“翻译”为人类可理解的视觉概念。
- 可解释性突破:证明了即使在没有语言标签的情况下,视觉模型也能学习到高度语义化的特征表示,并且这些表示可以通过数学工具(如 SAE)进行解耦和解释。
- 特征工程的新范式:展示了从黑盒嵌入中提取特定特征(如“金门大桥”或“树木”)的可能性,为后续的特征编辑、图像生成和内容控制提供了理论基础。
- 对模型设计的启示:超位现象的存在表明,增加模型维度可以容纳更复杂、更细粒度的特征表示,这对设计更高效、更强大的视觉模型具有指导意义。
总之,这项工作不仅揭示了 DINOv3 如何“看”世界,也为打开其他视觉模型的黑盒提供了可行的方法论。
