技术博客arXiv cs.AI·7 天前

DeepSciVerify：通过LLM驱动的证据升级验证科学主张与引用的对齐

原标题：DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation

速览

针对大语言模型在科学报告中主张与引用证据不对齐的问题，研究提出DeepSciVerify两阶段验证流程。该系统结合摘要级推理与选择性全文段落检索，仅在必要时升级证据层级。在SCitance基准测试中，该方法显著提升了验证准确率与效率。

大型语言模型（LLM）在生成科学报告及其他高风险领域的文本时，普遍存在一个严重的可靠性问题：主张（Claims）与其引用的证据（Citations）之间的错位（Misalignment）。这种错位表现为模型生成的陈述虽然看似合理，但缺乏对应文献的支持，或者引用的文献实际上并不支持该陈述。

在科学和高stakes（高风险）场景中，这种幻觉或引用错误不仅降低了内容的可信度，还可能引发严重的误导。现有的验证方法往往依赖于全文检索或单一的抽象层推理，前者计算成本高昂，后者则可能因信息不足而误判。因此，如何平衡验证的准确性与计算效率，成为提升 LLM 生成内容可靠性的关键挑战。

针对上述问题，研究团队提出了 DeepSciVerify，这是一种两阶段的科学主张-引用验证管道。该系统的核心设计理念是结合“抽象层推理”与“选择性证据升级（Selective Escalation）”到“段落级证据”，旨在利用不同 LLM 在不确定性下的互补行为来优化验证过程。

DeepSciVerify 的工作流程分为两个主要阶段：

第一阶段：基于摘要的初步验证 系统首先利用论文摘要（Abstract）对科学主张进行初步验证。这一阶段速度快、成本低。模型会根据摘要中的信息判断主张是否成立。
- 确定性案例：如果模型对验证结果有较高置信度（无论是支持还是反对），则直接输出结果，无需进一步操作。
- 不确定性案例：如果模型在不确定性下表现出犹豫或置信度较低，系统不会立即放弃，而是进入第二阶段。
第二阶段：基于全文段落的选择性升级 仅当第一阶段无法确定时，系统才会触发“证据升级”。此时，系统会检索并分析论文全文中的具体段落（Passages），以获取更详细的证据来辅助判断。这种“按需检索”的机制避免了为所有案例都进行昂贵的全文检索。

该设计巧妙地利用了不同 LLM 在不确定性处理上的差异：

通过结合这些不同特性的模型，DeepSciVerify 能够更灵活地处理复杂案例，提高整体验证的鲁棒性。

在 SCitance 基准测试中，DeepSciVerify 展现了显著的性能优势：

问题定义：LLM 生成的科学报告中，主张与引用证据错位是限制其可靠性的主要失败模式。
核心方法：提出 DeepSciVerify，一种结合抽象推理与选择性全文检索的两阶段验证管道。
机制创新：
- 优先使用摘要进行快速验证。
- 仅在模型不确定时，才升级至全文段落级证据检索。
- 利用不同 LLM 在不确定性下的保守与果断特性进行互补。
实验结果：
- 在 SCitance 基准上达到 86.7 Micro-F1。
- 相比仅基于摘要的基线，准确率提升 4.5 个点。
- 67% 的验证任务无需全文检索即可完成，兼顾了准确性与效率。
研究来源：论文由 Shaghayegh Sadeghi 等人提交至 arXiv（cs.AI），提交日期为 2026 年 5 月 26 日。

DeepSciVerify 的提出为解决 LLM 在科学领域的“引用幻觉”问题提供了新的思路。其核心价值在于证明了选择性证据升级策略的有效性：

提升可靠性：通过引入全文级证据作为“最终仲裁”，显著提高了验证主张与引用对齐的准确性，这对于科学文献综述、医疗建议等高可信度要求的应用至关重要。
优化成本效益：传统的全量全文检索方法计算开销巨大。DeepSciVerify 通过仅对不确定案例进行深度检索，成功将 67% 的计算成本降至最低，使得大规模、实时的科学内容验证成为可能。
模型协同范式：该工作展示了如何利用不同 LLM 的特性差异（保守 vs. 果断）来构建更强大的系统，为未来多模型协作验证框架提供了参考。

总之，DeepSciVerify 不仅在技术指标上超越了现有基线，更在工程实践上提供了一种平衡精度与效率的可行路径，有助于推动 LLM 在严肃科学场景中的落地应用。