← 返回信息流
技术博客arXiv cs.AI·3 小时前

DMV-Bench:通过 incidental cue 诊断多模态智能体视觉记忆

原标题:DMV-Bench: Diagnosing Long-Horizon Multimodal Agents' Visual Memory with Incidental Cue Injection

速览

研究指出当前智能体记忆基准多集中于文本,缺乏对交互环境中视觉记忆真实需求的评估。为此,团队推出DMV-Bench,基于千款家具电商目录构建,通过控制变量确保判别信号仅存在于像素中。受双重编码理论启发,提出的DualMem架构并行维护视觉与语言代码,在多项测试中显著优于基线模型。

AI 深度解读

DMV-Bench:通过偶然线索注入诊断长视界多模态智能体的视觉记忆

背景

尽管智能体(Agent)记忆的研究近年来取得了成熟且快速的发展,但现有的工作几乎完全集中在文本领域。在交互式环境中,极少有基准测试能够回答一个核心问题:智能体在何时真正需要记住它“看到”的内容,而不是仅仅记住它可以“写下来”的内容?

传统的评估往往忽略了视觉信息在长程任务中的独特性。当智能体在复杂的交互环境中进行长时间的操作时,视觉信号往往包含大量非结构化、难以用语言精确描述但至关重要的判别性特征。现有的多模态智能体记忆系统缺乏针对这种“纯视觉记忆”能力的标准化、可控的评估框架。

核心内容

为了解决这一空白,研究团队引入了 DMV-Bench(代码地址见原文链接),这是首个面向多模态智能体视觉记忆的交互式基准测试。

1. 基准测试设计:受控的家居电商环境

DMV-Bench 构建在一个受控的家居用品电商目录之上,该目录包含 1,000 种产品变体。其核心设计理念是建立一个“文本泄漏合同”(text-leakage contract),确保每个任务的判别性信号仅存在于像素(视觉)中,而非文本描述中。这意味着智能体无法通过阅读产品标题或描述来完成任务,必须依赖对图像内容的视觉记忆。

2. 任务流程:偶然线索注入

在一系列自主购物会话链中,智能体访问的每一个产品图像都携带一个独特的、预先渲染的“偶然线索”(incidental cue)。在会话结束后,智能体被要求回忆出带有特定线索的产品,并导航至其对应的 URL。这种设计模拟了真实世界中“无意中注意到某个细节,随后需要基于该细节进行检索”的认知过程。

3. 理论支撑与模型架构:DualMem

受双重编码理论(Dual-coding theory)的启发,研究团队提出了 DualMem 记忆架构。该架构并行维护两种代码:

  • 视觉代码(Visual Code):保留原始的视觉信息。
  • 言语代码(Verbal Code):将视觉信息转化为语言描述。

4. 实验结果

在 DMV-Bench 上,研究团队在链长 $J \in {5, 10, 15, 50}$ 的不同设置下,对 Gemini 2.5 FlashQwen2.5-VL-7B 两种基础模型进行了评估。结果显示,DualMem 在以下方面均优于基线方法:

  • 优于简单的图像描述(Caption)基线。
  • 优于三种最近的多模态智能体记忆系统。

这一优势在控制了记忆库大小(memory-bank size)和编码位置偏差(encoding-position bias)后依然显著。研究发现,一种不对称的双重编码机制表现最佳:视觉通道端到端地承载线索,而言语通道仅起到较小的查询接地(query-grounding)作用。

关键要点

  • 首个交互式视觉记忆基准:DMV-Bench 填补了多模态智能体在交互式环境中视觉记忆评估的空白,强调“所见即所记”而非“所见即所写”。
  • 纯视觉判别信号:通过受控的电商目录和文本泄漏合同,确保任务完成依赖于对图像像素的视觉记忆,排除了文本信息的干扰。
  • 偶然线索机制:利用预先渲染的偶然线索,测试智能体在长程任务中对非主动关注但关键的视觉细节的回忆能力。
  • DualMem 架构优势:提出的 DualMem 架构通过并行维护视觉和言语代码,显著提升了智能体的视觉记忆性能。
  • 不对称双重编码更有效:实验证明,让视觉通道端到端承载线索,而言语通道仅辅助查询接地,是比对称编码更高效的策略。
  • 广泛适用性:DualMem 在 Gemini 2.5 Flash 和 Qwen2.5-VL-7B 等不同基础模型上均表现出优越性,且优势在长链任务(多达 50 步)中依然保持。
  • 鲁棒性验证:性能提升在控制了记忆库大小和编码位置偏差后依然成立,证明了方法的有效性并非源于简单的记忆容量增加或位置偏好。

意义与影响

DMV-Bench 和 DualMem 的提出,标志着多模态智能体研究从“文本主导”向“视觉-文本协同”深层认知的重要转变。

  1. 重新定义视觉记忆评估:现有的基准测试往往侧重于智能体的即时感知或短期记忆,DMV-Bench 通过长视界(Long-Horizon)和偶然线索注入,更真实地模拟了人类在复杂环境中依赖视觉细节进行长期规划和检索的认知过程。
  2. 验证双重编码理论在 AI 中的有效性:研究结果从实证角度支持了双重编码理论在多模态智能体中的应用价值,特别是揭示了视觉信息在记忆存储中的核心地位,而言语信息更多起到索引和辅助作用。
  3. 推动智能体架构优化:DualMem 的成功表明,未来的多模态智能体架构不应简单地将视觉信息压缩为文本,而应设计专门的并行记忆机制,以保留视觉信息的丰富性和判别力。
  4. 为复杂任务奠定基础:随着智能体在机器人、自动驾驶、复杂游戏和虚拟助手等场景中的应用日益深入,对长程视觉记忆的需求将急剧增加。DMV-Bench 为开发和评估这些高级能力提供了标准化的工具,有助于推动智能体从“感知-行动”循环向“感知-记忆-推理-行动”的高级认知阶段演进。
查看原文 →arxiv.org