← 返回信息流
技术博客arXiv cs.AI·7 天前

DeepSciVerify:通过LLM驱动的证据升级验证科学主张与引用的对齐

原标题:DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation

速览

针对大语言模型在科学报告中主张与引用证据不对齐的问题,研究提出DeepSciVerify两阶段验证流程。该系统结合摘要级推理与选择性全文段落检索,仅在必要时升级证据层级。在SCitance基准测试中,该方法显著提升了验证准确率与效率。

AI 深度解读

DeepSciVerify:通过 LLM 驱动的证据升级验证科学主张与引用的对齐

背景

大型语言模型(LLM)在生成科学报告及其他高风险领域的文本时,普遍存在一个严重的可靠性问题:主张(Claims)与其引用的证据(Citations)之间的错位(Misalignment)。这种错位表现为模型生成的陈述虽然看似合理,但缺乏对应文献的支持,或者引用的文献实际上并不支持该陈述。

在科学和高stakes(高风险)场景中,这种幻觉或引用错误不仅降低了内容的可信度,还可能引发严重的误导。现有的验证方法往往依赖于全文检索或单一的抽象层推理,前者计算成本高昂,后者则可能因信息不足而误判。因此,如何平衡验证的准确性与计算效率,成为提升 LLM 生成内容可靠性的关键挑战。

核心内容

针对上述问题,研究团队提出了 DeepSciVerify,这是一种两阶段的科学主张-引用验证管道。该系统的核心设计理念是结合“抽象层推理”与“选择性证据升级(Selective Escalation)”到“段落级证据”,旨在利用不同 LLM 在不确定性下的互补行为来优化验证过程。

1. 两阶段验证流程

DeepSciVerify 的工作流程分为两个主要阶段:

  • 第一阶段:基于摘要的初步验证 系统首先利用论文摘要(Abstract)对科学主张进行初步验证。这一阶段速度快、成本低。模型会根据摘要中的信息判断主张是否成立。

    • 确定性案例:如果模型对验证结果有较高置信度(无论是支持还是反对),则直接输出结果,无需进一步操作。
    • 不确定性案例:如果模型在不确定性下表现出犹豫或置信度较低,系统不会立即放弃,而是进入第二阶段。
  • 第二阶段:基于全文段落的选择性升级 仅当第一阶段无法确定时,系统才会触发“证据升级”。此时,系统会检索并分析论文全文中的具体段落(Passages),以获取更详细的证据来辅助判断。这种“按需检索”的机制避免了为所有案例都进行昂贵的全文检索。

2. 利用 LLM 的互补行为

该设计巧妙地利用了不同 LLM 在不确定性处理上的差异:

  • 某些模型在面临不确定性时更为保守(倾向于拒绝或标记为不确定)。
  • 其他模型则更为果断(倾向于做出明确判断,即使依据不足)。

通过结合这些不同特性的模型,DeepSciVerify 能够更灵活地处理复杂案例,提高整体验证的鲁棒性。

3. 性能表现

SCitance 基准测试中,DeepSciVerify 展现了显著的性能优势:

  • 准确率:实现了 86.7 的 Micro-F1 分数。
  • 对比优势:比仅使用摘要的强基线模型高出 +4.5 个点。
  • 效率提升67% 的案例无需进行全文检索即可得到解决,大幅降低了计算资源消耗。

关键要点

  • 问题定义:LLM 生成的科学报告中,主张与引用证据错位是限制其可靠性的主要失败模式。
  • 核心方法:提出 DeepSciVerify,一种结合抽象推理与选择性全文检索的两阶段验证管道。
  • 机制创新
    • 优先使用摘要进行快速验证。
    • 仅在模型不确定时,才升级至全文段落级证据检索。
    • 利用不同 LLM 在不确定性下的保守与果断特性进行互补。
  • 实验结果
    • 在 SCitance 基准上达到 86.7 Micro-F1。
    • 相比仅基于摘要的基线,准确率提升 4.5 个点。
    • 67% 的验证任务无需全文检索即可完成,兼顾了准确性与效率。
  • 研究来源:论文由 Shaghayegh Sadeghi 等人提交至 arXiv(cs.AI),提交日期为 2026 年 5 月 26 日。

意义与影响

DeepSciVerify 的提出为解决 LLM 在科学领域的“引用幻觉”问题提供了新的思路。其核心价值在于证明了选择性证据升级策略的有效性:

  1. 提升可靠性:通过引入全文级证据作为“最终仲裁”,显著提高了验证主张与引用对齐的准确性,这对于科学文献综述、医疗建议等高可信度要求的应用至关重要。
  2. 优化成本效益:传统的全量全文检索方法计算开销巨大。DeepSciVerify 通过仅对不确定案例进行深度检索,成功将 67% 的计算成本降至最低,使得大规模、实时的科学内容验证成为可能。
  3. 模型协同范式:该工作展示了如何利用不同 LLM 的特性差异(保守 vs. 果断)来构建更强大的系统,为未来多模型协作验证框架提供了参考。

总之,DeepSciVerify 不仅在技术指标上超越了现有基线,更在工程实践上提供了一种平衡精度与效率的可行路径,有助于推动 LLM 在严肃科学场景中的落地应用。

查看原文 →arxiv.org