技术博客arXiv cs.CL·7 小时前

CREDENCE框架：提升分解与可信度的语义指标及收敛分析

原标题：CREDENCE: Claim Reduction for Decomposition & Enhanced Credibility -- Semantic Metrics and Convergence Analysis

速览

该研究提出CREDENCE框架，旨在解决复合句分解中的质量评估与修复循环终止问题。通过引入基于BGE-large的Semantic-F1语义指标，有效克服了传统Jaccard指标对改写声明的惩罚，显著提升了下游事实核查的准确性。研究还形式化证明了基于规则的修复具有单调性和有限终止性，而LLM自修复需设置早退守卫。实验表明，新指标在多个基准上优于传统方法，大幅降低了原子性违规率。

AI 深度解读

CREDENCE：面向分解与增强可信度的声明缩减——语义指标与收敛性分析解读

背景

在自动化事实核查（Automated Fact-Checking）领域，将复杂的复合句分解为原子化、可验证的声明（Claims）是确保核查可靠性的前置关键步骤。然而，现有的研究在这一环节存在两个主要痛点：

评估指标的局限性： prior work（先前工作）主要依赖基于词符重叠（token-overlap）的指标（如 Jaccard 相似度）来评估分解质量。这种方法在面对语义相同但表述不同的“释义性声明”（paraphrastic claims）时，会系统性地低估分解质量，导致评估结果失真。
缺乏形式化的终止分析：现有的声明修复循环（repair loop）缺乏严格的数学或逻辑终止分析，这意味着在自动化处理过程中，系统可能陷入无限循环或无法保证最终输出的稳定性。

为了解决上述问题，研究者提出了 CREDENCE 框架，这是一个修订后的声明分解与评估框架，旨在通过引入语义级评估指标和形式化的收敛性定理，提升分解的准确性和系统的可靠性。

核心内容

CREDENCE 框架的核心贡献体现在以下四个方面，涵盖了从评估指标、理论分析到基准测试的全流程优化：

1. 引入 Semantic-F1 评估指标

传统方法使用的 Jaccard 指标因无法捕捉语义相似性而存在缺陷。CREDENCE 引入了 Semantic-F1，采用 BGE-large 模型计算的余弦相似度（cosine similarity）作为保真度度量标准。

优势：该指标有效解决了 Jaccard 对释义性声明的惩罚问题。
效果：实验显示，Semantic-F1 在下游事实核查任务中的准确率显著优于 Jaccard-F1，提升了 15-32 个百分点（pp）。

2. 修复管道的收敛性定理（Convergence Theorems）

研究团队对修复管道（repair pipeline）的四个关键属性进行了形式化表征，并得出了关于不同修复机制的理论结论：

基于规则的修复（Rule-based repair）：在假设存在“预言机解析器”（oracle parser，即理想化的完美解析器）的前提下，证明了基于规则的修复是单调的（monotone）且有限终止（finitely terminating）的。这意味着只要规则正确，系统最终一定会收敛到一个稳定状态。
基于大语言模型的自修复（LLM-based self-repair）：证明了 LLM 驱动的自修复过程是非单调的（non-monotone）。由于 LLM 输出的不确定性，这种修复方式不能保证每次迭代都向正确方向收敛，因此必须引入早退守卫机制（early-exit guard）以防止错误发散或无限循环。

3. 构建跨领域评估基准

为了衡量模型在不同场景下的泛化能力，CREDENCE 构建了三个涵盖不同领域的评估基准：

SocialClaimSplit：社交媒体领域。
WikiSplitBench：百科类文本领域。
ClaimDecompBench：新闻领域。

4. 多模型基准测试

研究在四个分解器模型（参数规模从 3.8B 到 12B）以及一个闭源 API 模型上进行了广泛的基准测试。

性能表现：
- 在 SocialClaimSplit 和 WikiSplitBench 上，预期修复率（Expected Repair Rate, EPR）范围在 0.94 到 1.00 之间，表明模型在社交和百科文本上具有极高的修复成功率。
- 在 ClaimDecompBench（新闻领域）上，由于新闻文本构造更复杂，基础 EPR 较低（低至 0.824），但通过规则修复，原子性违规率（Atomicity Violation Rate, AVR）相比基础模型降低了 47%-100%，且未降低语义保真度。

关键要点

语义优于词符：传统的 Jaccard 相似度指标在评估声明分解质量时存在系统性偏差，CREDENCE 提出的 Semantic-F1 基于 BGE-large 语义嵌入，能更准确地反映分解的真实质量，显著提升下游任务性能。
理论保障修复过程：研究首次形式化地证明了规则修复的单调性和有限终止性，同时指出了 LLM 自修复的非单调性风险，为设计可靠的自动化修复管道提供了理论依据（如必须设置早退机制）。
新闻领域更具挑战性：相比社交媒体和百科文本，新闻领域的声明分解更难，基础模型的 EPR 较低，但 CREDENCE 框架通过规则修复能有效降低原子性违规，证明其在复杂语境下的鲁棒性。
广泛的模型兼容性：该框架不仅适用于开源中小模型（3.8B-12B），也适用于闭源 API 模型，展示了其作为通用评估和增强框架的适用性。
原子性提升显著：在新闻领域基准测试中，规则修复能将原子性违规率降低近一半甚至完全消除，同时保持语义保真度不下降，实现了准确性与完整性的平衡。

意义与影响

CREDENCE 框架的提出对自动化事实核查领域具有重要的理论和实践意义：

纠正评估偏差：通过引入语义级指标，CREDENCE 解决了长期困扰该领域的评估失真问题，使得研究者能够更真实地衡量分解算法的性能，避免了因指标缺陷导致的算法优化方向错误。
增强系统可靠性：通过提供修复管道的收敛性定理，CREDENCE 为构建稳定、可预测的自动化事实核查系统提供了数学保障。特别是对于依赖 LLM 的系统，明确其非单调性并建议引入早退机制，有助于防止生产环境中的不可控行为。
推动跨领域泛化研究：构建涵盖社交、百科和新闻的三大基准，填补了跨领域声明分解评估的空白，促进了模型在不同数据分布下的泛化能力研究。
提升复杂文本处理能力：在新闻领域等高难度场景下展现出的高修复率和低违规率，表明 CREDENCE 能够处理更复杂、更专业的文本结构，为高精度事实核查系统的落地应用铺平了道路。

总体而言，CREDENCE 不仅是一个新的评估工具，更是一套结合了语义理解、形式化验证和工程优化的完整解决方案，为下一代可靠的事实核查系统奠定了坚实基础。

查看原文 →arxiv.org