技术博客arXiv cs.CL·11 小时前

多模态长对话细粒度片段检索方法

原标题：Fine-grained Fragment Retrieval in Multi-modal Long-form Dialogues

速览

针对多模态长对话中用户检索连贯话题片段的需求，提出细粒度片段检索（FFR）方法。研究涵盖单对话检索与大规模语料库检索两种场景，分别引入基于强化学习的F2RVLM模型和两阶段FFRS系统。该方法通过构建最小语义片段索引与细粒度推理，有效提升了检索的连贯性与准确性。

AI 深度解读

细粒度片段检索：多模态长对话中的信息定位新范式

背景

随着多模态通信平台（如微信、Discord 等）的广泛普及，包含文本与图像交织的长篇幅对话（Long-form Dialogues）已成为日常交流的主流形式。在这些复杂的对话场景中，用户往往面临信息过载的挑战。传统的检索方法通常针对孤立的单条语句（Single Utterance）或单张图片进行匹配，但这无法有效捕捉多模态长对话中跨文本、跨图像的语义连贯性。

用户在实际需求中，通常需要检索的是与特定主题相关的、包含多个 utterance（话语）和多个 image（图像）的连贯对话片段（Coherent Dialogue Fragments），而非零散的孤立信息。然而，现有的检索技术难以在细粒度上精准定位这些多模态片段，尤其是在保持片段内部语义连贯性和跨模态对齐方面存在显著瓶颈。

核心内容

本文提出了一种名为**细粒度片段检索（Fine-grained Fragment Retrieval, FFR）**的新任务，旨在从多模态长对话中定位语义相关的多话语、多图像片段。研究探索了两种主要场景：

单对话内的 FFR（FFR within Single-Dialogue）：从给定的单一长对话中检索相关片段。
对话语料库内的 FFR（FFR within Dialogue Corpus）：在大规模语料库中进行开放域场景的检索。

针对上述两种场景，研究团队分别提出了相应的解决方案：

1. 单对话场景：F2RVLM 模型

对于单对话内的检索，作者引入了 F2RVLM，这是一个基于生成的检索模型。该模型通过强化学习（Reinforcement Learning）进行训练，其核心创新在于：

多目标奖励机制（Multi-objective Rewards）：不仅优化检索的准确性，还优化生成片段的语义连贯性。
难度感知课程采样（Difficulty-aware Curriculum Sampling）：通过动态调整训练样本的难度，提升模型处理复杂语义片段的能力。 F2RVLM 能够生成连贯的多模态片段，从而解决传统检索方法中片段断裂的问题。

2. 语料库场景：FFRS 系统

对于大规模语料库的开放域检索，作者开发了 FFRS，这是一个两阶段检索系统，结合了离线片段级索引与在线检索机制：

离线阶段：每个长对话被分解为最小的语义片段（Minimal Semantic Fragments）。这些片段由**片段嵌入模型（Fragment Embedding Model, FEM）**编码，并存储到向量数据库中。
在线推理阶段：
1. 快速召回：FEM 快速从向量数据库中召回 Top-K 候选片段。
2. 细粒度推理：F2RVLM 对召回的候选片段进行细粒度的语义推理，识别出与查询最相关的子内容。

3. 数据集构建：MLDR

为了支持 FFR 任务的研究，作者构建了 MLDR（Multi-modal Long-form Dialogue Retrieval），这是迄今为止最长的多模态对话检索数据集。此外，还构建了一个基于微信（WeChat）的真实世界测试集，以评估模型在真实场景下的表现。

实验结果表明，在单对话和语料库级别的 FFR 任务中，F2RVLM 和 FFRS 均 consistently（一致地）取得了优越的性能。

关键要点

新任务定义：首次提出“细粒度片段检索（FFR）”任务，强调从多模态长对话中检索连贯的多话语、多图像片段，而非孤立单元。
双场景适配：
- 单对话检索：采用生成式模型 F2RVLM，利用强化学习中的多目标奖励和难度感知课程采样，提升片段生成的连贯性。
- 大规模语料库检索：采用两阶段系统 FFRS，结合片段嵌入模型（FEM）的高效索引与 F2RVLM 的细粒度推理能力。
技术架构创新：
- FEM（Fragment Embedding Model）：负责将最小语义片段编码为向量，实现快速检索。
- F2RVLM：既作为生成式检索模型用于单对话，也作为重排序/推理模块用于语料库检索的第二阶段。
数据贡献：构建了目前最长的多模态对话检索数据集 MLDR 及基于微信的真实测试集，填补了该领域高质量数据的空白。
性能优势：实验证明，所提出的方法在保持语义连贯性和检索准确性方面均优于基线方法。

意义与影响

这项研究对多模态信息检索领域具有重要的理论和应用价值：

提升用户体验：在微信、Slack 等即时通讯工具中，用户能够更精准地找回历史聊天记录中的关键讨论片段，特别是那些包含图片和文字混合的复杂上下文，极大提升了信息回溯的效率。
推动多模态理解技术：通过引入“片段”作为检索的基本单元，并强调多模态语义的连贯性，推动了模型对跨模态、长上下文语义对齐能力的理解。
解决长上下文难题：FFRS 系统通过“嵌入索引 + 生成推理”的两阶段架构，为处理大规模长文本/多模态数据提供了可扩展的解决方案，平衡了检索速度与精度。
数据基准建立：MLDR 数据集的建立为后续研究提供了标准化的评估基准，有助于社区更公平地比较不同多模态检索算法的性能。

总之，Fine-grained Fragment Retrieval 不仅是一个新的检索任务，更是连接多模态大模型生成能力与传统检索效率的桥梁，为未来智能对话助手和知识库系统的发展指明了方向。

查看原文 →arxiv.org