← 返回信息流
技术博客arXiv cs.AI·1 天前

ComMem: Complementary Memory Systems for Test-Time Adaptation of Vision-Language Models

AI 深度解读

背景

视觉语言模型(VLMs)在动态、真实世界环境中的稳健部署至关重要,而测试时适应(TTA)是应对环境变化、提升模型泛化能力的关键技术。然而,现有的 VLMs TTA 方法存在明显局限:它们往往仅进行局部适应,无法随时间推移积累和沉淀知识;或者仅在单一模态内运作,未能充分利用 VLMs 固有的多模态特性。这种单模态和短视的适应方式,限制了模型在面对复杂分布偏移时的实际表现。

核心内容

受生物大脑中互补记忆系统的启发,论文提出了 ComMem,一种面向 VLMs 测试时适应的创新方法。该方法模仿大脑中海马体与新皮层既分工又协作的角色,构建了双记忆系统以实现更有效的 TTA。

ComMem 包含两个核心组件:

  1. 快速适应的详细记忆:类比大脑的海马体,该模块从高置信度的测试样本中形成动态的视觉缓存。它负责快速捕捉和适应当前测试环境中的具体视觉细节与短期变化。
  2. 缓慢整合的抽象记忆:类比大脑的新皮层,该模块持续优化和精炼全局的文本原型。它负责将零散的视觉信息提炼为抽象的、跨时间的长期语义知识。

在推理过程中,针对每一个测试实例,ComMem 会联合优化这两个记忆系统。通过这种协同机制,模型不仅能在视觉模态上快速响应分布变化,还能在文本模态上维持语义的稳定性,从而确保跨模态的一致性。

实验验证方面,ComMem 在 15 个基准数据集上进行了广泛的评估。结果表明,无论是在自然分布偏移场景下,还是在跨数据集泛化任务中,ComMem 的表现均显著优于现有的最先进(SOTA)方法,为提升 VLMs 的实际适应能力提供了一种极具前景的新方向。

关键要点

  • 仿生双记忆架构:引入大脑海马体与新皮层的互补机制,分别对应快速适应的视觉缓存(详细记忆)和缓慢整合的文本原型(抽象记忆)。
  • 跨模态联合优化:打破单模态适应的局限,在每个测试实例上联合优化视觉与文本双记忆系统,保障跨模态一致性。
  • 兼顾短期与长期适应:视觉缓存负责捕捉即时的高置信度
查看原文 →arxiv.org