大语言模型化身视觉导师,跨模态传授细粒度知识
速览
该研究提出LaViD框架,通过提示大语言模型生成多项选择题来提取概念信号,并将这些高阶语义知识蒸馏给纯视觉学生模型。该方法无需依赖配对的多模态数据,仅利用语言教师即可指导视觉模型学习。实验表明,LaViD在多个细粒度基准测试中表现优于MaKD等现有方法,并显著提升了模型对虚假相关性的鲁棒性。
AI 深度解读
Large Language Model Teaches Visual Students: Cross-Modality Transfer of Fine-Grained Conceptual Knowledge
背景
大型语言模型(LLMs)通过大规模文本预训练,已经掌握了极其广泛的概念性知识。然而,这些模型在监督其他模态(如视觉)模型方面的潜力尚未得到充分探索。传统的多模态知识蒸馏通常依赖于成对的图文数据,或者从视觉-语言模型(VLMs)中蒸馏知识。这种方法不仅数据获取成本高,而且往往局限于模型在训练数据中直接见过的视觉特征。
与此同时,细粒度视觉分类任务(Fine-grained Visual Classification, FGVC)一直是一个挑战,因为不同类别的视觉对象(如不同种类的鸟或植物)在外观上非常相似,而语义上的细微差别往往难以通过像素级特征直接捕捉。如何有效地将LLM中蕴含的高级语义知识迁移到纯视觉模型中,使其能够理解这些细微的概念差异,是当前研究的一个关键空白。
核心内容
本文提出了一种名为 LaViD(Language-to-Visual Knowledge Distillation,语言到视觉知识蒸馏)的新框架。该框架旨在将仅基于语言的教师模型(LLM)中的高层语义知识,有效地转移给仅基于视觉的学生模型。
LaViD 的核心创新在于它不依赖成对的多模态数据,而是通过提示工程(Prompting)从 LLM 中引出概念信号。具体流程如下:
- 生成多选题(MCQs):系统提示 LLM 生成一系列多项选择题,这些问题旨在探测不同视觉类别之间的语义区别。例如,在区分两种相似的鸟类时,问题可能涉及羽毛颜色、栖息地或行为差异。
- 构建概念签名(Conceptual Signature):对于每个视觉类别,模型将其映射到这些多选题上的软标签分布(Soft Label Distribution)。这种分布反映了该类别在语义概念空间中的特征,形成了一种丰富的“概念签名”。
- 辅助蒸馏损失(Auxiliary Distillation Loss):学生模型(纯视觉模型)被训练去预测这些由 LLM 生成的多选题的答案分布。通过最小化学生模型预测与 LLM 生成的软标签之间的差异,LaViD 引入了一个辅助蒸馏损失函数,从而引导视觉模型学习细粒度的语义概念。
值得注意的是,LaViD 的教师模型是纯语言的,无法访问任何图像数据。尽管存在这一限制,LaViD 在多个细粒度基准测试中,表现持续优于近期从视觉-语言模型中蒸馏知识的方法(如 MaKD)。此外,与最先进的视觉蒸馏方法(如 DKD 和 MLKD)相比,LaViD 也取得了具有竞争力甚至更优的性能。当结合 Logit 标准化(Logit Standardization)技术时,其性能进一步提升。
关键要点
- 纯语言教师,纯视觉学生:LaViD 实现了跨模态的知识转移,无需视觉-语言模型作为中间桥梁,也无需成对的图文训练数据。
- 基于 MCQ 的概念蒸馏:通过让 LLM 生成针对类别语义区别的多选题,将抽象的语言知识转化为具体的、可量化的软标签分布。
- 细粒度概念签名:每个类别被表示为一个多维的软标签向量,捕捉了该类别在语义空间中的细微特征,而不仅仅是外观特征。
- 性能优越:
- 在多个细粒度基准测试中,LaViD 优于 MaKD(一种从 VLM 蒸馏的方法)。
- 在性能上与 DKD 和 MLKD 等 SOTA 视觉蒸馏方法相当或更优。
- 结合 Logit 标准化后,性能进一步提升。
- 增强鲁棒性:在 Waterbirds 数据集上的实验表明,LaViD 显著提高了最差组准确率(Worst-group Accuracy),证明其通过蒸馏增强了模型对虚假相关性(Spurious Correlations)的鲁棒性。
- 开源代码:相关代码已公开,便于复现和进一步研究。
意义与影响
LaViD 的提出具有重要的理论和实践意义:
- 突破数据依赖:它证明了即使没有成对的视觉-语言数据,也可以利用 LLM 强大的语义理解能力来指导视觉模型。这降低了对昂贵多模态标注数据的依赖。
- 提升细粒度识别能力:通过引入细粒度的概念性知识,视觉模型能够更好地区分外观相似但语义不同的类别,这对于生物分类、工业缺陷检测等需要高精度识别的应用场景至关重要。
- 增强模型鲁棒性:LaViD 在 Waterbirds 数据集上的表现表明,这种跨模态蒸馏有助于模型学习到更本质的语义特征,从而减少对数据中虚假相关性的依赖,提高模型在分布外数据上的泛化能力和鲁棒性。
- 简化蒸馏架构:相比于需要从复杂的 VLM 中蒸馏知识,LaViD 使用纯 LLM 作为教师,架构更简单,且避免了 VLM 可能引入的视觉偏见或知识瓶颈。
总之,LaViD 为利用 LLM 的语义知识增强视觉模型提供了一条高效、简洁且有效的路径,特别是在细粒度视觉理解和提升模型鲁棒性方面展现了巨大潜力。
