技术博客arXiv cs.AI·3 小时前

大语言模型化身视觉导师，跨模态传授细粒度知识

原标题：Large Language Model Teaches Visual Students: Cross-Modality Transfer of Fine-Grained Conceptual Knowledge

速览

该研究提出LaViD框架，通过提示大语言模型生成多项选择题来提取概念信号，并将这些高阶语义知识蒸馏给纯视觉学生模型。该方法无需依赖配对的多模态数据，仅利用语言教师即可指导视觉模型学习。实验表明，LaViD在多个细粒度基准测试中表现优于MaKD等现有方法，并显著提升了模型对虚假相关性的鲁棒性。

AI 深度解读

Large Language Model Teaches Visual Students: Cross-Modality Transfer of Fine-Grained Conceptual Knowledge

背景

大型语言模型（LLMs）通过大规模文本预训练，已经掌握了极其广泛的概念性知识。然而，这些模型在监督其他模态（如视觉）模型方面的潜力尚未得到充分探索。传统的多模态知识蒸馏通常依赖于成对的图文数据，或者从视觉-语言模型（VLMs）中蒸馏知识。这种方法不仅数据获取成本高，而且往往局限于模型在训练数据中直接见过的视觉特征。

与此同时，细粒度视觉分类任务（Fine-grained Visual Classification, FGVC）一直是一个挑战，因为不同类别的视觉对象（如不同种类的鸟或植物）在外观上非常相似，而语义上的细微差别往往难以通过像素级特征直接捕捉。如何有效地将LLM中蕴含的高级语义知识迁移到纯视觉模型中，使其能够理解这些细微的概念差异，是当前研究的一个关键空白。

核心内容

本文提出了一种名为 LaViD（Language-to-Visual Knowledge Distillation，语言到视觉知识蒸馏）的新框架。该框架旨在将仅基于语言的教师模型（LLM）中的高层语义知识，有效地转移给仅基于视觉的学生模型。

LaViD 的核心创新在于它不依赖成对的多模态数据，而是通过提示工程（Prompting）从 LLM 中引出概念信号。具体流程如下：

生成多选题（MCQs）：系统提示 LLM 生成一系列多项选择题，这些问题旨在探测不同视觉类别之间的语义区别。例如，在区分两种相似的鸟类时，问题可能涉及羽毛颜色、栖息地或行为差异。
构建概念签名（Conceptual Signature）：对于每个视觉类别，模型将其映射到这些多选题上的软标签分布（Soft Label Distribution）。这种分布反映了该类别在语义概念空间中的特征，形成了一种丰富的“概念签名”。
辅助蒸馏损失（Auxiliary Distillation Loss）：学生模型（纯视觉模型）被训练去预测这些由 LLM 生成的多选题的答案分布。通过最小化学生模型预测与 LLM 生成的软标签之间的差异，LaViD 引入了一个辅助蒸馏损失函数，从而引导视觉模型学习细粒度的语义概念。

值得注意的是，LaViD 的教师模型是纯语言的，无法访问任何图像数据。尽管存在这一限制，LaViD 在多个细粒度基准测试中，表现持续优于近期从视觉-语言模型中蒸馏知识的方法（如 MaKD）。此外，与最先进的视觉蒸馏方法（如 DKD 和 MLKD）相比，LaViD 也取得了具有竞争力甚至更优的性能。当结合 Logit 标准化（Logit Standardization）技术时，其性能进一步提升。

关键要点

纯语言教师，纯视觉学生：LaViD 实现了跨模态的知识转移，无需视觉-语言模型作为中间桥梁，也无需成对的图文训练数据。
基于 MCQ 的概念蒸馏：通过让 LLM 生成针对类别语义区别的多选题，将抽象的语言知识转化为具体的、可量化的软标签分布。
细粒度概念签名：每个类别被表示为一个多维的软标签向量，捕捉了该类别在语义空间中的细微特征，而不仅仅是外观特征。
性能优越：
- 在多个细粒度基准测试中，LaViD 优于 MaKD（一种从 VLM 蒸馏的方法）。
- 在性能上与 DKD 和 MLKD 等 SOTA 视觉蒸馏方法相当或更优。
- 结合 Logit 标准化后，性能进一步提升。
增强鲁棒性：在 Waterbirds 数据集上的实验表明，LaViD 显著提高了最差组准确率（Worst-group Accuracy），证明其通过蒸馏增强了模型对虚假相关性（Spurious Correlations）的鲁棒性。
开源代码：相关代码已公开，便于复现和进一步研究。

意义与影响

LaViD 的提出具有重要的理论和实践意义：

突破数据依赖：它证明了即使没有成对的视觉-语言数据，也可以利用 LLM 强大的语义理解能力来指导视觉模型。这降低了对昂贵多模态标注数据的依赖。
提升细粒度识别能力：通过引入细粒度的概念性知识，视觉模型能够更好地区分外观相似但语义不同的类别，这对于生物分类、工业缺陷检测等需要高精度识别的应用场景至关重要。
增强模型鲁棒性：LaViD 在 Waterbirds 数据集上的表现表明，这种跨模态蒸馏有助于模型学习到更本质的语义特征，从而减少对数据中虚假相关性的依赖，提高模型在分布外数据上的泛化能力和鲁棒性。
简化蒸馏架构：相比于需要从复杂的 VLM 中蒸馏知识，LaViD 使用纯 LLM 作为教师，架构更简单，且避免了 VLM 可能引入的视觉偏见或知识瓶颈。

总之，LaViD 为利用 LLM 的语义知识增强视觉模型提供了一条高效、简洁且有效的路径，特别是在细粒度视觉理解和提升模型鲁棒性方面展现了巨大潜力。

查看原文 →arxiv.org