技术博客arXiv cs.AI·1 天前

ComMem: Complementary Memory Systems for Test-Time Adaptation of Vision-Language Models

AI 深度解读

背景

视觉语言模型（VLMs）在动态、真实世界环境中的稳健部署至关重要，而测试时适应（TTA）是应对环境变化、提升模型泛化能力的关键技术。然而，现有的 VLMs TTA 方法存在明显局限：它们往往仅进行局部适应，无法随时间推移积累和沉淀知识；或者仅在单一模态内运作，未能充分利用 VLMs 固有的多模态特性。这种单模态和短视的适应方式，限制了模型在面对复杂分布偏移时的实际表现。

核心内容

受生物大脑中互补记忆系统的启发，论文提出了 ComMem，一种面向 VLMs 测试时适应的创新方法。该方法模仿大脑中海马体与新皮层既分工又协作的角色，构建了双记忆系统以实现更有效的 TTA。

ComMem 包含两个核心组件：

快速适应的详细记忆：类比大脑的海马体，该模块从高置信度的测试样本中形成动态的视觉缓存。它负责快速捕捉和适应当前测试环境中的具体视觉细节与短期变化。
缓慢整合的抽象记忆：类比大脑的新皮层，该模块持续优化和精炼全局的文本原型。它负责将零散的视觉信息提炼为抽象的、跨时间的长期语义知识。

在推理过程中，针对每一个测试实例，ComMem 会联合优化这两个记忆系统。通过这种协同机制，模型不仅能在视觉模态上快速响应分布变化，还能在文本模态上维持语义的稳定性，从而确保跨模态的一致性。

实验验证方面，ComMem 在 15 个基准数据集上进行了广泛的评估。结果表明，无论是在自然分布偏移场景下，还是在跨数据集泛化任务中，ComMem 的表现均显著优于现有的最先进（SOTA）方法，为提升 VLMs 的实际适应能力提供了一种极具前景的新方向。

关键要点

仿生双记忆架构：引入大脑海马体与新皮层的互补机制，分别对应快速适应的视觉缓存（详细记忆）和缓慢整合的文本原型（抽象记忆）。
跨模态联合优化：打破单模态适应的局限，在每个测试实例上联合优化视觉与文本双记忆系统，保障跨模态一致性。
兼顾短期与长期适应：视觉缓存负责捕捉即时的高置信度

查看原文 →arxiv.org

ComMem: Complementary Memory Systems for Test-Time Adaptation of Vision-Language Models

AI 深度解读

背景

核心内容

关键要点

相关推荐