AI 资讯Hacker News·2 天前

探索视觉嵌入：AI如何理解图像

原标题：Playing with Vision Embeddings

速览

视觉嵌入是将图像转换为高维向量表示的关键技术，使计算机能够以数学方式理解和处理视觉信息。这一技术极大地提升了多模态大模型在图像识别、检索及生成任务中的表现。通过利用视觉嵌入，AI系统可以更精准地捕捉图像中的语义特征，从而推动人工智能在视觉领域的进一步发展。

AI 深度解读

探索视觉嵌入：解码 DINOv3 的“神经语言”

背景

嵌入（Embeddings）在某种意义上是神经网络的“母语”。它们让网络能够仅通过一组数字列表，编码出丰富且具有语义意义的表征。然而，这些数字往往令人沮丧地不透明——你无法通过逐个阅读它们来理解其含义。

本文旨在通过一种可解释的方法，深入理解一个特定神经网络——DINOv3——的嵌入空间。我们试图回答一个核心问题：在这组数字背后，究竟编码了什么样的视觉信息？

核心内容

1. 模型选择：DINOv3 ViT-S

本文研究的模型是 DINOv3 ViT-S (Siméoni et al., 2025)。选择该模型的原因在于其独特的训练方式：它通过极少的先验知识，学习将原始像素映射到一个丰富的特征空间。

非语言模型：它不懂语言，无法描述所见之物，但它依然能“理解”图像。
压缩机制：它将任何图像压缩为一个单一的嵌入向量（包含 384 个数字的列表）。
不变性：训练目标确保同一图像的不同裁剪或增强版本，会产生相似的嵌入。

我们的目标是解析这 384 个数字中编码的信息。

2. 从嵌入生成图像：逆向工程

为了在 384 维空间中“游玩”，我们需要一种将数字转换回人类可理解形式（即图像）的方法。具体而言，我们希望找到一个点，使得 DINOv3 认为该点对应的图像与目标嵌入一致。

实现这一目标主要依赖两个核心思想：

完全可微性：DINOv3 是完全可微的。通过调整像素值，可以使输出向量更接近目标嵌入。这类似于 DeepDream (Mordvintsev et al., 2015) 和 Olah 等人的特征可视化工作，通过最大化生成图像嵌入与目标嵌入之间的余弦相似度来优化像素。
模仿训练策略：由于 DINOv3 在训练时使用了多种裁剪和增强策略，我们在构建像素梯度时也模仿这一策略。这有两个好处：
- 防止优化器利用高频噪声“作弊”。
- 优化模型自身定义的“相似性”。

此外，为了生成更自然的图像，我们还采用了两个技巧：

使用未训练的 Transformer 主干网络生成图像（类似于 Deep Image Prior, Ulyanov et al., 2017）。
最小化辅助的全变分损失（Total Variation Loss）。

实验结果示例：当我们对一张阿尔卑斯山风景照计算嵌入，并沿该方向生成图像时，生成的图像虽然存在细节上的差异（如饱和度更高、对比度更强、物体位置错乱或重复），但成功捕捉到了原图的整体氛围（山脉、雪、湖泊）。这种差异部分源于生成管道的特性，读者需在后续分析中 mentally invert（心理逆转）这些生成伪影。

3. 特征发现：超位现象（Superposition）

在解析 384 维空间之前，必须认识到：DINOv3 在这 384 个数字中编码的视觉概念远不止 384 个。

超位现象：主流假设认为，模型通过将每个特征指向近乎正交的方向，从而在嵌入维度内“塞入”远多于维度数量的特征 (Elhage et al., 2022)。
直观演示：通过一个将 10 个 MNIST 数字类别压缩到 2 维瓶颈层的玩具神经网络演示，可以看到每个数字类别都占据了一个独特的倾斜方向。在 384 维空间中，这种空间足以容纳数千个特征。

超位的两面性：

优势：允许模型学习比维度数量多得多的特征。
劣势：单个嵌入维度是多个概念的混合体（smear），难以直接解读。

为了解耦这些概念，我们引入了稀疏自编码器（Sparse Autoencoder, SAE）。SAE 旨在为模型的表征提供更多“呼吸空间”，并激励编码器减少表征的混合。虽然 SAE 最初为语言模型开发，但同样适用于视觉 Transformer（例如 Fry (2024) 在 CLIP 上的工作）。

训练后的 SAE 在 384 维空间中提供了约 12,000 个独特方向，每个方向通常对应一个独特且可解释的特征。

4. 特征分解与组合

利用 SAE，我们可以执行两项关键操作：

A. 特征分解 我们将给定图像的 DINOv3 嵌入输入 SAE，将其分解为一组稀疏激活的特征。

红杉林路径照片：激活最强的特征清晰对应于“树木”、“绿色植被”、“栅栏”和“路径”。
金门大桥照片：最显著的特征似乎专门针对“金门大桥”本身。这表明模型不仅提取了通用视觉元素，还捕获了特定物体的整体表征。

B. 特征组合 SAE 的一个关键假设是：不同特征可以相加，从而创建这些特征的合理混合。

我们选取两个由 SAE 解码器方向定义的特征方向，将它们相加生成新方向，并运行图像生成技术。
实验显示，这种线性组合确实能够产生包含两种特征混合效果的图像，验证了嵌入空间中的线性结构假设。

关键要点

嵌入是神经网络的母语：虽然数字本身不透明，但通过逆向工程（从嵌入生成图像），我们可以理解其语义内容。
DINOv3 的特性：作为一个无语言先验的视觉模型，它将图像压缩为 384 维嵌入，并通过训练确保不同视角/增强下的图像嵌入相似。
生成技术的关键：通过最大化余弦相似度、模仿训练时的数据增强策略、以及使用未训练 Transformer 主干，可以从嵌入空间中生成视觉上连贯的图像。
超位现象（Superposition）：模型在有限维度内编码了远超维度数量的特征，通过指向近乎正交的方向来实现。这导致单个维度是多个概念的混合。
稀疏自编码器（SAE）的作用：SAE 是解耦嵌入空间的关键工具，它将混合的表征分解为约 12,000 个独立、可解释的特征方向。
线性组合的有效性：嵌入空间支持特征的线性相加，生成的图像能够反映多个特征的混合，证明了空间内的语义结构。

意义与影响

这项研究为理解视觉 Transformer 的内部工作机制提供了新的视角。通过结合图像生成和稀疏自编码器，我们不仅验证了 DINOv3 嵌入空间的丰富性，还展示了如何将其“翻译”为人类可理解的视觉概念。

可解释性突破：证明了即使在没有语言标签的情况下，视觉模型也能学习到高度语义化的特征表示，并且这些表示可以通过数学工具（如 SAE）进行解耦和解释。
特征工程的新范式：展示了从黑盒嵌入中提取特定特征（如“金门大桥”或“树木”）的可能性，为后续的特征编辑、图像生成和内容控制提供了理论基础。
对模型设计的启示：超位现象的存在表明，增加模型维度可以容纳更复杂、更细粒度的特征表示，这对设计更高效、更强大的视觉模型具有指导意义。

总之，这项工作不仅揭示了 DINOv3 如何“看”世界，也为打开其他视觉模型的黑盒提供了可行的方法论。

查看原文 →prestonbjensen.com