技术博客arXiv cs.CL·2 小时前

5ting团队凭借LLM重排与忠实度控制获SemEval-2026多轮RAG任务佳绩

原标题：5ting at SemEval-2026 Task 8: Strong End-to-End Multi-Turn RAG via LLM-Based Reranking and Faithfulness Control

速览

5ting团队提出了一种基于LLM重排和忠实度控制的多轮检索增强生成系统，旨在解决上下文漂移和幻觉问题。该系统融合了BGE-M3密集检索与FAISS索引，并在角色分离生成中严格约束于检索证据。在SemEval-2026 Task 8评估中，其检索器在Task A取得nDCG@5 0.4719，端到端系统在Task C获得0.5597的调和分数。

AI 深度解读

5ting 在 SemEval-2026 Task 8 的表现：基于 LLM 重排序与忠实度控制的强端到端多轮 RAG 系统

背景

检索增强生成（Retrieval-Augmented Generation, RAG）技术已成为解决大语言模型（LLM）幻觉问题、提升回答事实准确性的主流方案。然而，当 RAG 系统从单轮对话扩展至**多轮对话（Multi-Turn）**场景时，面临着一系列独特的挑战：

上下文漂移（Context Drift）：随着对话轮次增加，用户意图可能发生变化，早期检索到的文档可能不再相关，导致上下文污染。
规格说明不足（Under Specification）：在多轮交互中，用户往往不会在每一轮都提供完整的查询条件，系统需要结合历史对话进行隐式补全。
幻觉风险（Hallucination Risk）：如果检索到的证据不足或噪声过多，LLM 仍可能生成违背事实的内容。

为了评估和推动多轮 RAG 系统的发展，SemEval-2026 设立了 Task 8 (MTRAGEval)，专门针对多轮检索增强生成系统进行评测。本文介绍了名为 5ting 的系统，该系统在 Task 8 中展示了通过结合密集检索、LLM 重排序以及严格的忠实度控制，实现高性能端到端多轮 RAG 的能力。

核心内容

5ting 系统旨在解决多轮 RAG 中的核心痛点，其架构设计涵盖了从检索到生成的完整链路，主要包含以下关键模块：

1. 检索模块：混合策略与高效索引

5ting 的检索器采用了 BGE-M3 模型进行密集检索（Dense Retrieval）。BGE-M3 是一种支持多语言、多粒度文本嵌入的模型，能够捕捉更丰富的语义信息。

索引结构：使用 FAISS（Facebook AI Similarity Search）构建高效向量索引，以支持大规模文档的快速近似最近邻搜索。
双查询合并检索（Dual-Query Merged Retrieval）：针对多轮对话中“规格说明不足”的问题，5ting 采用双查询策略。这意味着系统不仅基于当前轮次的用户输入，还结合历史对话上下文生成两个互补的查询向量，并将结果合并。这种策略有助于捕捉隐含意图，减少因上下文缺失导致的检索偏差。

2. 重排序模块：LLM 驱动的精细筛选

初步检索返回的文档列表通常包含噪声。5ting 引入了基于大语言模型的**重排序（Reranking）**机制。

利用 LLM 对初步检索结果与当前查询（含上下文）的相关性进行精细打分和重新排序。
这一步骤显著提升了进入生成阶段的文档质量，确保 LLM 仅基于最相关、最可靠的证据进行回答，从而缓解上下文漂移带来的负面影响。

3. 生成模块：角色分离与忠实度控制

在生成阶段，5ting 采用了角色分离生成（Role Separated Generation）策略，并实施了严格的忠实度控制（Faithfulness Control）。

角色分离：系统将“检索”与“生成”的角色明确分离，生成模块被严格约束为仅依据检索到的证据（Retrieved Evidence）进行回答。
忠实度控制：通过提示工程或后处理机制，强制 LLM 在生成回答时引用具体的检索片段，并抑制模型利用内部参数知识进行自由发挥，从而最大程度降低幻觉风险。

4. 评测结果

在 SemEval-2026 Task 8 的评测中，5ting 系统取得了以下成绩：

检索器表现（Task A）：在检索任务中，5ting 的检索器获得了 nDCG@5 = 0.4719 的成绩。nDCG（归一化折损累计增益）是衡量排序质量的重要指标，该分数表明其检索结果具有较高的相关性排序精度。
端到端系统表现（Task C）：在多轮 RAG 端到端任务中，5ting 取得了 调和分数（Harmonic Score）为 0.5597，以及 RL_F = 0.7692 的成绩。RL_F 通常用于衡量生成内容与检索证据之间的忠实度（即回答是否忠实于检索到的事实），0.7692 的高分证明了其忠实度控制策略的有效性。

关键要点

系统名称：5ting，专为 SemEval-2026 Task 8 (MTRAGEval) 设计。
核心挑战应对：针对多轮 RAG 的上下文漂移、规格说明不足和幻觉风险，设计了专门的解决流程。
检索技术栈：
- 模型：BGE-M3（密集检索）。
- 索引：FAISS。
- 策略：双查询合并检索，以增强对多轮上下文的理解能力。
重排序机制：采用 LLM-Based Reranking，利用大语言模型的能力对初步检索结果进行精细化排序，提升输入生成模块的文档质量。
生成约束：实施角色分离生成，严格限制生成模型仅基于检索到的证据（Retrieved Evidence）进行回答，并引入忠实度控制以减少幻觉。
性能指标：
- 检索任务（Task A）：nDCG@5 达到 0.4719。
- 端到端任务（Task C）：调和分数 0.5597，忠实度指标 RL_F 为 0.7692。

意义与影响

5ting 系统在 SemEval-2026 Task 8 中的表现，为多轮 RAG 系统的工程实践提供了重要的参考范式：

验证了“检索+重排序+严格约束生成”的有效性：研究表明，仅靠强大的检索模型（如 BGE-M3）不足以解决多轮 RAG 的所有问题，引入 LLM 进行重排序以及对生成过程施加严格的忠实度约束，是提升端到端性能的关键。
双查询策略的价值：在规格说明不足的多轮对话场景中，双查询合并检索被证明是一种有效的上下文补全手段，能够显著提升检索的相关性（nDCG@5）。
忠实度作为核心指标：RL_F 达到 0.7692 的成绩强调了在多轮 RAG 中，生成内容对检索证据的忠实度与回答的准确性同等重要，甚至更为关键。这对于构建可信赖的企业级问答系统具有指导意义。
开源与社区贡献：通过参与 SemEval 评测并公开系统细节，5ting 促进了多轮 RAG 领域的技术交流和基准统一，有助于推动该子领域的标准化发展。

总之，5ting 展示了一种稳健的多轮 RAG 架构，其通过组合先进的嵌入模型、LLM 重排序和严格的生成控制，在应对复杂对话场景时取得了平衡性能与可靠性的优异成果。

查看原文 →arxiv.org