技术博客arXiv cs.CL·4 小时前

SafeLLM：提取作为安全关键场景下抗幻觉的替代方案

原标题：SafeLLM: Extraction as a Hallucination-Resistant Alternative to Rewriting in Safety-Critical Settings

速览

大型语言模型在访问组织文档时，基于重写的RAG系统易引入幻觉。该研究评估了提取作为抗幻觉替代方案的有效性，并比较了不同策略在精度、召回率和安全性上的表现。实验显示，基于行号的提取策略在保持高术语召回率的同时，能更好地对齐源文本，优于直接复制和安全导向策略。

AI 深度解读

SafeLLM：在安全关键场景中，提取作为抗幻觉的改写替代方案

背景

大型语言模型（LLMs）正被越来越多地应用于访问组织内部文档，包括标准操作程序（SOPs）、人力资源政策以及机构指导方针。在这些场景中，检索增强生成（RAG）系统通常依赖于自由形式的文本改写（rewriting），即让模型根据检索到的片段重新组织语言以生成答案。

然而，在安全和合规性至关重要的领域（如医疗护理、金融合规等），这种基于改写的 RAG 方法存在显著风险。自由改写容易引入幻觉（hallucinations），即生成看似合理但事实错误或不存在的内容。此外，改写过程往往需要在“完整性”和“简洁性”之间进行不稳定的权衡，这可能导致关键信息的遗漏或过度简化，从而在安全关键设置中引发严重后果。

核心内容

本文提出并评估了一种替代策略：提取（Extraction）。研究旨在验证提取是否可作为基于改写的 RAG 的抗幻觉替代方案，并比较不同策略在平衡精确度、召回率和安全性的表现。

研究方法与实验设计

研究团队对比了多种提示策略（prompting strategies），主要包括：

基于行号的源选择：直接定位并引用源文档中的特定行。
带安全注解的相关句子提取：提取相关的指导方针句子，并附带明确的安全标注。
多阶段管道：使用源指南中的支持性证据来精炼草稿答案。

实验使用了不同长度和结构的文档，包括英国国家医疗服务体系（NHS）的急性护理和肿瘤学指南，以及全英国的 NICE（国家卫生与临床优化研究所）指南。模型方面，既使用了前沿规模的大模型，也使用了可本地部署的小型模型。

性能评估

性能通过自动指标和人类专家对相关性及完整性的评估进行衡量。

主要发现

基于行号的提取表现最佳：
- 无论是大型模型还是小型模型，基于行号的选择策略均优于直接复制和安全导向策略。
- 该策略保持了极高的术语召回率（高达 95%），且与源文本高度一致，从而有效降低了幻觉风险。
安全导向策略的权衡代价：
- 虽然以安全为导向的方法提高了精确度（precision），但它们引入了系统性的遗漏（systematic omissions）。这意味着模型为了“安全”而过度过滤，导致关键信息丢失。
- 多阶段过滤进一步放大了这种精确度与召回率之间的权衡矛盾。
文档结构对性能的影响：
- 对于协议类（protocol-like）内容，基于行的提取表现卓越。
- 对于更冗长、结构更复杂的文档，其他替代策略可能表现更好，术语召回率甚至可达 97%。

关键要点

改写并非最优解：在安全关键场景中，依赖 LLM 进行自由改写会引入幻觉和不稳定的完整性/简洁性权衡，风险高于收益。
提取优于改写：直接从源文档中提取相关片段（特别是基于行号的提取）是更抗幻觉的策略，能更好地保持事实准确性。
行号策略的普适性优势：基于行号的源选择策略在多种模型规模（从前沿大模型到本地小模型）和文档类型中均表现出最强的鲁棒性。
安全过滤的双刃剑：旨在提高安全性的过滤机制虽然提升了精确度，但往往以牺牲召回率为代价，导致系统性信息遗漏，需谨慎使用。
上下文依赖性：没有一种策略在所有情况下都完美。基于行的提取适合结构化强的协议文档，而面对冗长文档时，可能需要结合其他策略以最大化召回率。

意义与影响

这项研究对企业在部署 RAG 系统处理敏感或关键业务文档时具有重要的指导意义：

降低合规风险：在医疗、法律、金融等对准确性要求极高的行业，采用基于提取而非改写的 RAG 策略可以显著降低因模型幻觉导致的合规违规风险。
优化模型选型与部署：研究表明，即使是本地部署的小型模型，在使用正确的提取策略（如行号选择）时，也能达到与前沿大模型相当甚至更优的安全性和准确性表现。这为企业降低算力成本和满足数据隐私要求提供了可行路径。
重新审视 RAG 架构设计：传统的 RAG 流程往往侧重于生成流畅的自然语言回答，而本研究强调在关键场景中，“忠实于源文本”比“生成流畅文本”更重要。未来的 RAG 系统设计应更重视源引用的精确性和可追溯性，而非单纯的文本重构。
平衡自动化与人工审核：尽管提取策略提高了准确性，但多阶段过滤带来的信息遗漏问题表明，完全自动化的安全过滤仍需谨慎。结合人类专家评估（如本研究中使用的方法）对于验证系统性能至关重要。

查看原文 →arxiv.org