← 返回信息流
技术博客arXiv cs.CL·2 小时前

5ting团队凭借LLM重排与忠实度控制获SemEval-2026多轮RAG任务佳绩

原标题:5ting at SemEval-2026 Task 8: Strong End-to-End Multi-Turn RAG via LLM-Based Reranking and Faithfulness Control

速览

5ting团队提出了一种基于LLM重排和忠实度控制的多轮检索增强生成系统,旨在解决上下文漂移和幻觉问题。该系统融合了BGE-M3密集检索与FAISS索引,并在角色分离生成中严格约束于检索证据。在SemEval-2026 Task 8评估中,其检索器在Task A取得nDCG@5 0.4719,端到端系统在Task C获得0.5597的调和分数。

AI 深度解读

5ting 在 SemEval-2026 Task 8 的表现:基于 LLM 重排序与忠实度控制的强端到端多轮 RAG 系统

背景

检索增强生成(Retrieval-Augmented Generation, RAG)技术已成为解决大语言模型(LLM)幻觉问题、提升回答事实准确性的主流方案。然而,当 RAG 系统从单轮对话扩展至**多轮对话(Multi-Turn)**场景时,面临着一系列独特的挑战:

  1. 上下文漂移(Context Drift):随着对话轮次增加,用户意图可能发生变化,早期检索到的文档可能不再相关,导致上下文污染。
  2. 规格说明不足(Under Specification):在多轮交互中,用户往往不会在每一轮都提供完整的查询条件,系统需要结合历史对话进行隐式补全。
  3. 幻觉风险(Hallucination Risk):如果检索到的证据不足或噪声过多,LLM 仍可能生成违背事实的内容。

为了评估和推动多轮 RAG 系统的发展,SemEval-2026 设立了 Task 8 (MTRAGEval),专门针对多轮检索增强生成系统进行评测。本文介绍了名为 5ting 的系统,该系统在 Task 8 中展示了通过结合密集检索、LLM 重排序以及严格的忠实度控制,实现高性能端到端多轮 RAG 的能力。

核心内容

5ting 系统旨在解决多轮 RAG 中的核心痛点,其架构设计涵盖了从检索到生成的完整链路,主要包含以下关键模块:

1. 检索模块:混合策略与高效索引

5ting 的检索器采用了 BGE-M3 模型进行密集检索(Dense Retrieval)。BGE-M3 是一种支持多语言、多粒度文本嵌入的模型,能够捕捉更丰富的语义信息。

  • 索引结构:使用 FAISS(Facebook AI Similarity Search)构建高效向量索引,以支持大规模文档的快速近似最近邻搜索。
  • 双查询合并检索(Dual-Query Merged Retrieval):针对多轮对话中“规格说明不足”的问题,5ting 采用双查询策略。这意味着系统不仅基于当前轮次的用户输入,还结合历史对话上下文生成两个互补的查询向量,并将结果合并。这种策略有助于捕捉隐含意图,减少因上下文缺失导致的检索偏差。

2. 重排序模块:LLM 驱动的精细筛选

初步检索返回的文档列表通常包含噪声。5ting 引入了基于大语言模型的**重排序(Reranking)**机制。

  • 利用 LLM 对初步检索结果与当前查询(含上下文)的相关性进行精细打分和重新排序。
  • 这一步骤显著提升了进入生成阶段的文档质量,确保 LLM 仅基于最相关、最可靠的证据进行回答,从而缓解上下文漂移带来的负面影响。

3. 生成模块:角色分离与忠实度控制

在生成阶段,5ting 采用了角色分离生成(Role Separated Generation)策略,并实施了严格的忠实度控制(Faithfulness Control)

  • 角色分离:系统将“检索”与“生成”的角色明确分离,生成模块被严格约束为仅依据检索到的证据(Retrieved Evidence)进行回答。
  • 忠实度控制:通过提示工程或后处理机制,强制 LLM 在生成回答时引用具体的检索片段,并抑制模型利用内部参数知识进行自由发挥,从而最大程度降低幻觉风险。

4. 评测结果

在 SemEval-2026 Task 8 的评测中,5ting 系统取得了以下成绩:

  • 检索器表现(Task A):在检索任务中,5ting 的检索器获得了 nDCG@5 = 0.4719 的成绩。nDCG(归一化折损累计增益)是衡量排序质量的重要指标,该分数表明其检索结果具有较高的相关性排序精度。
  • 端到端系统表现(Task C):在多轮 RAG 端到端任务中,5ting 取得了 调和分数(Harmonic Score)为 0.5597,以及 RL_F = 0.7692 的成绩。RL_F 通常用于衡量生成内容与检索证据之间的忠实度(即回答是否忠实于检索到的事实),0.7692 的高分证明了其忠实度控制策略的有效性。

关键要点

  • 系统名称:5ting,专为 SemEval-2026 Task 8 (MTRAGEval) 设计。
  • 核心挑战应对:针对多轮 RAG 的上下文漂移、规格说明不足和幻觉风险,设计了专门的解决流程。
  • 检索技术栈
    • 模型:BGE-M3(密集检索)。
    • 索引:FAISS
    • 策略:双查询合并检索,以增强对多轮上下文的理解能力。
  • 重排序机制:采用 LLM-Based Reranking,利用大语言模型的能力对初步检索结果进行精细化排序,提升输入生成模块的文档质量。
  • 生成约束:实施角色分离生成,严格限制生成模型仅基于检索到的证据(Retrieved Evidence)进行回答,并引入忠实度控制以减少幻觉。
  • 性能指标
    • 检索任务(Task A):nDCG@5 达到 0.4719
    • 端到端任务(Task C):调和分数 0.5597,忠实度指标 RL_F 为 0.7692

意义与影响

5ting 系统在 SemEval-2026 Task 8 中的表现,为多轮 RAG 系统的工程实践提供了重要的参考范式:

  1. 验证了“检索+重排序+严格约束生成”的有效性:研究表明,仅靠强大的检索模型(如 BGE-M3)不足以解决多轮 RAG 的所有问题,引入 LLM 进行重排序以及对生成过程施加严格的忠实度约束,是提升端到端性能的关键。
  2. 双查询策略的价值:在规格说明不足的多轮对话场景中,双查询合并检索被证明是一种有效的上下文补全手段,能够显著提升检索的相关性(nDCG@5)。
  3. 忠实度作为核心指标:RL_F 达到 0.7692 的成绩强调了在多轮 RAG 中,生成内容对检索证据的忠实度与回答的准确性同等重要,甚至更为关键。这对于构建可信赖的企业级问答系统具有指导意义。
  4. 开源与社区贡献:通过参与 SemEval 评测并公开系统细节,5ting 促进了多轮 RAG 领域的技术交流和基准统一,有助于推动该子领域的标准化发展。

总之,5ting 展示了一种稳健的多轮 RAG 架构,其通过组合先进的嵌入模型、LLM 重排序和严格的生成控制,在应对复杂对话场景时取得了平衡性能与可靠性的优异成果。

查看原文 →arxiv.org