← 返回信息流
技术博客arXiv cs.CL·2 小时前

HKJudge:首个香港法院判决话语标注语料库

原标题:HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule

速览

研究团队发布了HKJudge,这是首个针对香港法院判决的句子级专家标注法律话语语料库。该数据集涵盖五个法院层级的约29万句刑事判决,包含26种修辞角色及量刑元素标注。研究基于此构建了修辞角色分类和法律要素提取任务,并对多种BERT模型、开源及商业大模型进行了基准评估。该工作为建模香港判决结构及法律判决预测提供了重要的数据基础。

AI 深度解读

HKJudge:首个香港司法判例话语标注语料库深度解读

背景

司法判例是法律实践与法理学研究的核心基石。然而,在自然语言处理(NLP)领域,针对香港(Hong Kong)司法判例的深入话语分析(Discourse Analysis)长期处于滞后状态。造成这一瓶颈的主要原因在于,学术界和工业界缺乏由法律专家精心标注的高质量语料库。

现有的法律NLP研究多集中于英美法系中的美国或英国判例,或者侧重于中国内地的法律文本。由于法律体系、语言习惯及司法结构的差异,直接迁移这些模型至香港语境往往效果不佳。香港拥有独特的普通法传统和复杂的法院层级体系,其判决书在事实认定、推理逻辑和裁决结果上具有独特的修辞结构。为了填补这一空白,研究人员引入了 HKJudge(Hong Kong Judgment Discourse Dataset),这是首个针对香港判例进行句子级别专家标注的法律话语语料库,旨在为理解法院“发现了什么事实”、“如何进行推理”以及“作出了何种裁决”提供数据基础。

核心内容

HKJudge 数据集的构建是一项规模庞大且专业性极强的工程,其核心内容涵盖数据规模、标注体系、质量控制及基准测试四个维度。

1. 数据规模与覆盖范围

  • 全面覆盖法院层级:数据集包含了香港所有五个法院层级的刑事判决书(Criminal Judgments),确保了数据的代表性和广泛性。
  • 海量数据量:语料库共包含约 29万(~290k) 个句子,总计约 650万(~6.5 million) 个 token。
  • 专家标注:所有数据均由法律语言学专家(Legal Linguistics Experts)进行完全标注,确保了专业领域的准确性。

2. 双层话语标注架构

研究团队设计了一个双层话语模式(Two-tier Discourse Schema),旨在捕捉判决书中的核心逻辑要素:

  • 句子级标注(Sentence Level):每个句子被分配 26种修辞角色(Rhetorical Roles) 之一。这些角色用于描述法院在判决书中的具体行为,例如“陈述事实”、“引用先例”、“解释法律”、“得出结论”等。这种细粒度的标注使得模型能够理解判决书的宏观结构。
  • 片段级标注(Span Level):在句子基础上,进一步标注三个关键的量刑要素(Sentencing Elements):
    1. 罪名(Charge):被告被指控的具体罪行。
    2. 监禁刑期(Imprisonment Term):判决的监禁时长。
    3. 罚金(Fine):判决的罚款金额。

3. 质量控制与一致性

  • 标注团队:由 10名 法律语言学专家共同完成标注工作。
  • 一致性指标:标注者之间的平均一致性(Inter-annotator Agreement)达到了 $\kappa = 0.8$。这一数值表明标注结果具有高度的一致性,证明了该语料库的高质量和高可靠性。

4. 任务定义与基准测试

研究基于 HKJudge 提出了两个核心NLP任务,并进行了全面的基准评估:

  • 修辞角色分类(Rhetorical Role Classification):预测句子所属的26种修辞角色之一,旨在解析判决书的逻辑结构。
  • 法律要素提取(Legal Element Extraction):从文本中提取罪名、刑期和罚金等关键信息。

模型评估范围: 研究对以下模型进行了零样本(Zero-shot)和微调(Fine-tuning)设置下的评估:

  • 4个基于 BERT 的预训练模型。
  • 2个开源大型语言模型(Open-source LLMs)。
  • 4个商业大型语言模型(Commercial LLMs)。

关键要点

  • 首创性HKJudge 是首个针对香港判例进行句子级专家标注的法律话语语料库,填补了该领域的空白。
  • 结构化解构:通过26种修辞角色,将非结构化的法律文本转化为结构化的逻辑单元,清晰展示了法院“发现事实-进行推理-作出裁决”的思维链条。
  • 高精度标注:10名专家标注,$\kappa = 0.8$ 的一致性系数,确保了数据在法律专业领域的可信度。
  • 多维度评估:不仅关注信息提取(如刑期、罚金),还关注深层的话语结构分析(修辞角色),为理解法律推理过程提供了新视角。
  • 模型表现差异:基准测试揭示了不同架构模型(BERT vs. LLMs)在零样本和微调场景下处理法律复杂话语结构的性能差异,为后续模型选择提供了参考。

意义与影响

HKJudge 的发布对法律科技(Legal Tech)和自然语言处理领域具有深远意义:

  1. 推动法律NLP的区域化与精细化:此前,针对普通法系特定司法管辖区(如香港)的深度NLP研究稀缺。HKJudge 为研究不同司法管辖区的法律语言特征提供了宝贵的数据资源,促进了法律NLP从通用模型向垂直领域、特定法域模型的演进。
  2. 提升法律判决预测的可解释性:传统的法律判决预测模型往往被视为“黑盒”。通过引入话语结构分析,研究人员可以更好地理解模型是如何基于判决书的逻辑结构(如先例引用、事实认定)做出预测的,从而增强模型的可解释性。
  3. 辅助法律实务与教育:高质量的标注数据可用于开发辅助法律检索、自动摘要、判决结果预测等工具,提高律师和法官的工作效率。同时,该数据集也可用于法律语言学教学,帮助学生理解判决书的修辞结构。
  4. 开源共享促进社区发展:研究团队公开了 HKJudge 数据集及相关代码,为学术界和工业界提供了丰富的数据基础,鼓励更多研究者参与法律AI领域的创新,共同推动法律智能技术的发展。

总之,HKJudge 不仅是一个数据集,更是连接法律专业知识与人工智能技术的重要桥梁,为未来在法律判决预测、法律文本理解等方向的研究奠定了坚实的数据基石。

查看原文 →arxiv.org