技术博客arXiv cs.CL·3 小时前

ConflictScore：量化大模型处理冲突证据的能力

原标题：ConflictScore: Identifying and Measuring How Language Models Handle Conflicting Evidence

速览

现有事实性指标难以捕捉支持性与矛盾性证据共存的情况。研究提出ConflictScore，通过分解原子声明并聚合标签，量化模型对冲突证据的承认程度。该指标包含冲突计数与平衡比例，并构建了ConflictBench基准进行测试。实验表明其能有效检测过度自信声明并提升模型真实性。

AI 深度解读

ConflictScore：识别并量化语言模型处理冲突证据的能力

背景

在评估大型语言模型（LLM）的事实准确性（factuality）和忠实度（faithfulness）时，现有的评估指标主要关注模型的回答是否由其提供的支撑文档（grounding documents）所支持或反驳。简而言之，传统指标倾向于判断答案与文档之间是“一致”还是“矛盾”。

然而，这种二元对立的评估方式存在一个显著的盲区：它无法捕捉当支撑文档中同时存在支持性证据和反驳性证据时的复杂情况。在现实世界的检索增强生成（RAG）场景中，检索到的文档往往包含相互冲突的信息、模糊的表述或不同的观点。现有的指标难以量化模型在面对这种“冲突证据”时的处理能力，即模型是否充分识别、承认并合理权衡了这些冲突信息。

为了解决这一缺陷，研究人员提出了 ConflictScore，这是一种全新的评估指标，旨在量化模型在其回答中承认和处理冲突证据的程度。

核心内容

1. ConflictScore 框架详解

ConflictScore 的核心思想是将模型的回答分解为最小的语义单元，并逐一评估这些单元与支撑文档的关系。该框架主要包含以下三个步骤：

原子化声明分解（Atomic Claim Decomposition）：首先，将模型生成的自然语言回答分解为一系列独立的、不可再分的“原子声明”（atomic claims）。每个原子声明代表一个具体的事实断言。
逐文档标签标注（Per-Document Labeling）：针对每一个原子声明，系统会将其与每一个支撑文档进行比对，并打上标签。标签通常包括“支持”（supporting）、“反驳”（contradicting）或“无关/未提及”等。这一步旨在建立声明与文档之间的细粒度关联。
聚合为互补指标（Aggregation into Complementary Measures）：基于上述标签，ConflictScore 聚合生成两个互补的度量指标：
- ConflictScore-Count (CS-C)：冲突声明的比例。即在所有原子声明中，同时存在支持性和反驳性证据的声明所占的百分比。该指标衡量模型回答中涉及冲突信息的广度。
- ConflictScore-Ratio (CS-R)：支持性与反驳性证据的平衡度。该指标量化模型在回答中如何权衡相互冲突的证据，反映其处理冲突的精细程度。

2. ConflictBench 基准测试

为了系统地评估 ConflictScore 指标的有效性，研究团队开发了 ConflictBench 基准测试集。该基准测试涵盖了多种形式的冲突场景，包括：

歧义性（Ambiguity）：文档信息模糊，可能导致多种解读。
矛盾性（Contradiction）：不同文档之间直接的事实冲突。
观点分歧（Divergent Opinions）：文档中呈现的不同立场或主观观点。

通过 ConflictBench，研究人员能够全面测试模型在面对不同类型冲突时的表现，并验证 ConflictScore 能否准确反映这些表现。

3. 实验结果与应用

实验结果显示，ConflictScore 能够有效检测跨领域的过度自信声明（overconfident claims）。更重要的是，该指标不仅可以作为评估工具，还可以作为一种纠正性反馈机制（corrective feedback mechanism）。

在实际应用中，利用 ConflictScore 提供的反馈来调整模型的生成过程，可以显著提升模型在 TruthfulQA（一个专门评估模型说真话能力的基准测试）上的真实性（truthfulness）。这表明，让模型更好地识别和处理冲突证据，是提高其事实准确性的关键路径。

关键要点

现有指标的局限：传统事实性指标无法有效捕捉支撑文档中同时存在支持和反驳证据的复杂情况，导致对模型处理冲突能力的评估缺失。
ConflictScore 的创新：提出了一种新的度量标准，通过分解回答为原子声明并逐文档比对，量化模型对冲突证据的承认和处理能力。
双维度评估：
- CS-C (Count)：衡量涉及冲突的声明比例，反映冲突的广度。
- CS-R (Ratio)：衡量支持性与反驳性证据的平衡，反映处理的深度和平衡性。
ConflictBench 基准：构建了涵盖歧义、矛盾和观点分歧等多种冲突形式的基准测试，用于系统评估指标有效性。
提升真实性：实验证明，ConflictScore 不仅能检测过度自信，还能作为反馈机制，通过引导模型更好地处理冲突证据，从而在 TruthfulQA 等任务中提高模型的回答真实性。

意义与影响

ConflictScore 的提出标志着语言模型评估从“二元正确/错误”向“复杂证据权衡”的重要转变。

更精细的评估体系：它填补了现有评估框架在处理多源、冲突信息时的空白，使得评估更加贴近真实世界的应用场景，其中信息往往是不完整、模糊甚至矛盾的。
促进模型鲁棒性：通过量化模型处理冲突的能力，研究人员可以更有针对性地优化模型，使其在面对不确定或冲突信息时，能够表现出更谨慎、更诚实的态度，而非盲目自信。
推动 RAG 系统优化：对于依赖检索增强生成的系统，ConflictScore 提供了一种新的优化方向。通过监控和优化冲突处理指标，可以显著提升 RAG 系统在复杂查询下的回答质量和可信度。
增强用户信任：当模型能够明确识别并合理处理冲突信息时，用户更容易建立对系统输出的信任。这种透明度对于医疗、法律、新闻等高可靠性要求领域的应用至关重要。

总之，ConflictScore 不仅是一个新的评估指标，更是一种推动语言模型向更诚实、更稳健方向发展的方法论工具。

查看原文 →arxiv.org