← 返回信息流
技术博客arXiv cs.CL·3 小时前

QIAS 2026共享任务:大模型伊斯兰继承推理能力评测

原标题:QIAS 2026: Overview of the Shared Task on Islamic Inheritance Reasoning

速览

本文介绍了作为OSACT7研讨会一部分的QIAS 2026共享任务,旨在评估大语言模型在伊斯兰继承这一宗教与法律领域的复杂推理能力。该任务基于包含12500个案例的MAWARITH数据集,要求系统从自然语言案例出发完成完整的继承计算流程。16支参赛团队采用了提示工程、检索增强生成及微调等多种方法,结果显示当前模型在此类需精确法律解释和数值推理的任务上仍面临巨大挑战。

AI 深度解读

QIAS 2026:伊斯兰继承推理共享任务综述

背景

随着大型语言模型(LLM)在自然语言处理领域的广泛应用,评估其在特定垂直领域——尤其是涉及复杂逻辑、法律规范及宗教教义的领域——的推理能力,已成为当前人工智能研究的重要议题。传统的问答基准测试(Question-Answering Benchmarks)往往侧重于事实检索或简单的逻辑推导,难以全面衡量模型在需要多步推理、精确数值计算以及特定领域知识解释方面的真实水平。

在此背景下,QIAS 2026(Islamic Inheritance Reasoning Shared Task)作为 OSACT7 Workshop 的一部分,并与 LREC 2026 会议同期举办,旨在填补这一评估空白。伊斯兰继承法(Islamic Inheritance Law)具有高度的结构化特征和严格的数学计算规则,同时要求对自然语言描述的案例进行准确的法律实体识别与份额分配。这不仅考验模型的语言理解能力,更对其逻辑一致性、数值精度以及领域知识整合能力提出了极高要求。QIAS 2026 通过构建端到端的推理评估框架,试图揭示当前主流语言模型在处理此类复杂宗教法律推理任务时的真实表现与局限性。

核心内容

QIAS 2026 共享任务的核心目标是评估大型语言模型在伊斯兰继承法领域的复杂推理能力。与传统的基于选择题或简单问答的基准不同,该任务强调“端到端”的推理过程。这意味着系统不仅需要给出最终答案,还需要完整执行从自然语言案例描述中提取关键信息、识别合格继承人、计算法定份额,直至分配最终遗产的全过程。

数据集基础:MAWARITH

为了支持这一评估,QIAS 2026 基于 MAWARITH 基准数据集构建。该数据集包含 12,500 个阿拉伯语遗产案例。其显著特点在于数据标注的粒度:每个案例不仅包含最终答案,还标注了中间推理步骤。这种细粒度的标注方式使得研究者能够深入分析模型在推理链条的各个环节(如继承人识别、份额计算逻辑)中的具体表现,而不仅仅是看最终结果是否正确。

评估指标:MIR-E

在评估方法上,任务采用了 MIR-E 指标。这是一种多步骤评估指标(multi-step metric),专门用于衡量系统在伊斯兰继承推理主要阶段的表现。MIR-E 不仅仅关注最终分配结果的准确性,还考察模型在识别合格继承人(eligible heirs)和分配正确份额(correct share)等关键步骤中的表现。这种多维度的评估方式能够更细致地反映模型在处理复杂法律逻辑时的缺陷,例如是否混淆了继承人的类别,或在数值计算中出现偏差。

参赛系统与技术方案

本次共享任务共有 16 个团队参与,展示了多种应对复杂推理挑战的技术路径。参赛系统主要采用了以下策略:

  1. 提示工程(Prompting-based methods):通过设计复杂的提示词模板,引导模型遵循特定的推理步骤。
  2. 检索增强生成(Retrieval-Augmented Generation, RAG):结合外部知识库或案例库,为模型提供相关的法律条文或类似案例参考,以增强推理的依据。
  3. 微调策略(Fine-tuning strategies):使用领域特定的数据对基础模型进行微调,以提升其在伊斯兰继承法领域的专业表现。

实验结果

实验结果表明,尽管大型语言模型在通用任务上表现优异,但在伊斯兰继承法这一特定领域,推理能力仍然面临巨大挑战。特别是在需要精确法律解释和结构化数值推理的阶段,当前模型的错误率依然较高。这反映出模型在处理需要严格遵循规则、且容错率极低的复杂逻辑任务时,仍存在明显的局限性。

关键要点

  • 任务定位:QIAS 2026 是首个专注于伊斯兰继承法复杂推理的共享任务,旨在评估 LLM 在宗教与法律交叉领域的端到端推理能力。
  • 数据规模与质量:基于 MAWARITH 数据集,包含 12,500 个阿拉伯语案例,具备中间推理步骤和最终答案的详细标注,支持细粒度分析。
  • 评估体系:采用 MIR-E 多步骤指标,不仅评估最终结果,还评估继承人识别、份额计算等关键推理阶段的表现。
  • 参与规模:共有 16 个团队参赛,涵盖了提示工程、RAG 和模型微调等多种主流技术路线。
  • 主要发现:伊斯兰继承法仍是当前语言模型的高难度基准,尤其在需要精确法律解释和结构化数值推理的场景下,模型表现尚不理想。
  • 语言特性:任务主要基于阿拉伯语案例,这对模型的多语言能力及特定语言领域的知识储备提出了特殊要求。

意义与影响

QIAS 2026 的举办对于人工智能与自然语言处理领域具有多重深远意义。

首先,它推动了垂直领域推理能力评估的发展。传统的基准测试往往侧重于通用语言能力,而 QIAS 2026 证明了在涉及复杂规则、数值计算和法律解释的垂直领域,需要专门设计的评估框架。这为未来评估 LLM 在法律、医疗、金融等高可靠性要求领域的表现提供了方法论参考。

其次,该任务揭示了当前模型在结构化推理上的局限性。结果显示,即使是最先进的模型,在处理需要严格遵循多步逻辑和精确计算的复杂任务时,仍存在显著短板。这提示研究者,单纯依赖参数规模提升可能不足以解决此类问题,需要结合更先进的推理机制(如思维链优化、外部知识增强等)。

最后,QIAS 2026 促进了多语言与跨文化 AI 研究。基于阿拉伯语遗产案例的数据集和任务设计,有助于提升非英语语言在 AI 领域的代表性,推动模型在伊斯兰文化圈法律应用中的落地潜力。通过公开任务结果和技术方案,社区可以更深入地理解如何构建更可靠、可解释的法律辅助 AI 系统。

查看原文 →arxiv.org