← 返回信息流
技术博客arXiv cs.CL·3 小时前

继承推理能力大比拼:商业模型显著优于开源模型

原标题:Which Models Perform Better in Inheritance Reasoning?

速览

本文报告了PSL团队在QIAS 2026阿拉伯伊斯兰继承推理共享任务中的参与情况,旨在评估大语言模型在法律解释、多步推理及精确计算方面的能力。研究在统一提示策略下对比了商业与开源模型,发现商业模型在识别继承人、应用排除规则及保持推理一致性上表现更优。相比之下,开源模型在涉及依赖法律决策和份额调整的场景中稳定性较差,其中Gemini 2.5 Flash表现最佳。

AI 深度解读

模型在继承推理任务中的表现对比:深度解读 QIAS 2026 共享任务

背景

伊斯兰教法(Sharia Law)中的遗产继承(Inheritance)规则极其复杂,不仅涉及严格的亲属关系判定,还包含多步骤的逻辑推理、法律解释以及精确的分数计算。对于人工智能,尤其是大型语言模型(LLM)而言,这类任务构成了巨大的挑战,因为它要求模型在结构化法律推理中保持高度的准确性和一致性。

QIAS 2026(Quranic Islamic Inheritance Shared Task 2026)是一项专注于阿拉伯语伊斯兰遗产推理的共享任务。该任务旨在评估大语言模型在处理需要法律解释、多步推理和精确数值计算的遗产案例时的能力。PSL 团队参与了此次任务,旨在通过统一的提示策略(prompting strategy),对比商业模型与开源模型在最小化特定任务适配(minimal task-specific adaptation)情况下的表现差异。

核心内容

PSL 团队在 QIAS 2026 共享任务中,对多种大语言模型进行了系统性评估。研究的核心在于比较两类模型家族:商业模型(Commercial Models)开源模型(Open-source Models)

评估方法与设定

  • 统一提示策略:所有模型均在相同的提示框架下进行测试,以排除提示工程差异带来的干扰,从而纯粹评估模型本身的推理能力。
  • 最小化适配:研究强调“最小化特定任务适配”,即不针对每个具体案例进行大量的微调或定制,而是考察模型在零样本或少样本设置下的泛化推理能力。
  • 评估维度:重点考察模型在识别合格继承人(eligible heirs)、应用排除规则(exclusion rules)以及在推理步骤间保持逻辑一致性方面的表现。

主要发现

研究结果揭示了两类模型在可靠性方面存在显著差距:

  1. 商业模型的优势

    • 在识别合格继承人方面表现更强。
    • 能更准确地应用复杂的排除规则。
    • 在多步推理过程中保持了较高的一致性,减少了逻辑断裂或前后矛盾的情况。
  2. 开源模型的劣势

    • 表现出更大的不稳定性(instability)。
    • 在涉及依赖法律决策(dependent legal decisions)的案例中容易出错。
    • 在处理分数份额调整(fractional share adjustments)等需要精确数值计算的环节时,错误率较高。

最佳表现者

在所有测试模型中,Gemini 2.5 Flash 取得了最佳性能。其平均相对误差(Mean Relative Error, MRE)低至 0.989,表明其在数值计算和逻辑推理的准确性上显著优于其他模型。

关键要点

  • 任务复杂性:伊斯兰遗产继承推理不仅是自然语言理解问题,更是结合了法律解释、逻辑约束和精确数学计算的复合任务,对 LLM 的综合能力要求极高。
  • 商业 vs. 开源:在结构化法律推理场景中,商业模型在可靠性和一致性上明显优于开源模型。开源模型虽然灵活,但在处理复杂依赖关系和精确计算时稳定性不足。
  • 推理一致性至关重要:在多步推理任务中,保持步骤间的一致性比单步准确率更难,也是区分模型成熟度的关键指标。
  • 数值计算是短板:无论是哪类模型,涉及分数份额调整等精确数值操作时都是难点,但商业模型在此类问题上表现更为稳健。
  • SOTA 模型:Gemini 2.5 Flash 在 QIAS 2026 任务中表现最佳,MRE 为 0.989,确立了其在法律推理类任务中的领先地位。

意义与影响

这项研究对 AI 在法律科技(LegalTech)领域的应用具有重要启示:

  1. 法律 AI 的可靠性门槛:法律推理容错率极低。研究结果证明,在涉及复杂规则和精确计算的法律场景中,模型的“稳定性”和“一致性”比单纯的“知识覆盖率”更为关键。商业模型目前的优势表明,其在经过大规模高质量数据训练后,更能适应此类高约束任务。
  2. 开源模型的改进方向:对于开源模型开发者而言,该研究指出了明确的改进方向:增强模型在处理依赖关系和分数运算时的鲁棒性。可能需要引入专门的符号推理模块或强化数值计算训练数据。
  3. 提示工程的价值与局限:研究采用统一提示策略,证明了即使在不进行大量微调的情况下,模型本身的内在能力仍是决定性能的关键。这为法律 AI 系统的快速部署提供了参考,但也警示用户需谨慎选择模型,特别是在处理高风险法律决策时。
  4. 未来研究方向:随着 Gemini 2.5 Flash 等模型展现出强大的推理能力,未来研究可进一步探索如何将这些商业模型的能力迁移或蒸馏到开源模型中,或开发混合架构以结合商业模型的准确性与开源模型的灵活性。

总之,QIAS 2026 的结果表明,在复杂的法律推理任务中,模型的选择至关重要。商业模型目前提供了更可靠的解决方案,而开源生态仍需在这一垂直领域进行针对性优化。

查看原文 →arxiv.org