技术博客arXiv cs.CL·2 小时前

HKJudge：首个香港法院判决话语标注语料库

原标题：HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule

速览

研究团队发布了HKJudge，这是首个针对香港法院判决的句子级专家标注法律话语语料库。该数据集涵盖五个法院层级的约29万句刑事判决，包含26种修辞角色及量刑元素标注。研究基于此构建了修辞角色分类和法律要素提取任务，并对多种BERT模型、开源及商业大模型进行了基准评估。该工作为建模香港判决结构及法律判决预测提供了重要的数据基础。

AI 深度解读

HKJudge：首个香港司法判例话语标注语料库深度解读

背景

司法判例是法律实践与法理学研究的核心基石。然而，在自然语言处理（NLP）领域，针对香港（Hong Kong）司法判例的深入话语分析（Discourse Analysis）长期处于滞后状态。造成这一瓶颈的主要原因在于，学术界和工业界缺乏由法律专家精心标注的高质量语料库。

现有的法律NLP研究多集中于英美法系中的美国或英国判例，或者侧重于中国内地的法律文本。由于法律体系、语言习惯及司法结构的差异，直接迁移这些模型至香港语境往往效果不佳。香港拥有独特的普通法传统和复杂的法院层级体系，其判决书在事实认定、推理逻辑和裁决结果上具有独特的修辞结构。为了填补这一空白，研究人员引入了 HKJudge（Hong Kong Judgment Discourse Dataset），这是首个针对香港判例进行句子级别专家标注的法律话语语料库，旨在为理解法院“发现了什么事实”、“如何进行推理”以及“作出了何种裁决”提供数据基础。

核心内容

HKJudge 数据集的构建是一项规模庞大且专业性极强的工程，其核心内容涵盖数据规模、标注体系、质量控制及基准测试四个维度。

1. 数据规模与覆盖范围

全面覆盖法院层级：数据集包含了香港所有五个法院层级的刑事判决书（Criminal Judgments），确保了数据的代表性和广泛性。
海量数据量：语料库共包含约 29万（~290k） 个句子，总计约 650万（~6.5 million） 个 token。
专家标注：所有数据均由法律语言学专家（Legal Linguistics Experts）进行完全标注，确保了专业领域的准确性。

2. 双层话语标注架构

研究团队设计了一个双层话语模式（Two-tier Discourse Schema），旨在捕捉判决书中的核心逻辑要素：

句子级标注（Sentence Level）：每个句子被分配 26种修辞角色（Rhetorical Roles） 之一。这些角色用于描述法院在判决书中的具体行为，例如“陈述事实”、“引用先例”、“解释法律”、“得出结论”等。这种细粒度的标注使得模型能够理解判决书的宏观结构。
片段级标注（Span Level）：在句子基础上，进一步标注三个关键的量刑要素（Sentencing Elements）：
1. 罪名（Charge）：被告被指控的具体罪行。
2. 监禁刑期（Imprisonment Term）：判决的监禁时长。
3. 罚金（Fine）：判决的罚款金额。

3. 质量控制与一致性

标注团队：由 10名 法律语言学专家共同完成标注工作。
一致性指标：标注者之间的平均一致性（Inter-annotator Agreement）达到了 $\kappa = 0.8$。这一数值表明标注结果具有高度的一致性，证明了该语料库的高质量和高可靠性。

4. 任务定义与基准测试

研究基于 HKJudge 提出了两个核心NLP任务，并进行了全面的基准评估：

修辞角色分类（Rhetorical Role Classification）：预测句子所属的26种修辞角色之一，旨在解析判决书的逻辑结构。
法律要素提取（Legal Element Extraction）：从文本中提取罪名、刑期和罚金等关键信息。

模型评估范围：研究对以下模型进行了零样本（Zero-shot）和微调（Fine-tuning）设置下的评估：

4个基于 BERT 的预训练模型。
2个开源大型语言模型（Open-source LLMs）。
4个商业大型语言模型（Commercial LLMs）。

关键要点

首创性：HKJudge 是首个针对香港判例进行句子级专家标注的法律话语语料库，填补了该领域的空白。
结构化解构：通过26种修辞角色，将非结构化的法律文本转化为结构化的逻辑单元，清晰展示了法院“发现事实-进行推理-作出裁决”的思维链条。
高精度标注：10名专家标注，$\kappa = 0.8$ 的一致性系数，确保了数据在法律专业领域的可信度。
多维度评估：不仅关注信息提取（如刑期、罚金），还关注深层的话语结构分析（修辞角色），为理解法律推理过程提供了新视角。
模型表现差异：基准测试揭示了不同架构模型（BERT vs. LLMs）在零样本和微调场景下处理法律复杂话语结构的性能差异，为后续模型选择提供了参考。

意义与影响

HKJudge 的发布对法律科技（Legal Tech）和自然语言处理领域具有深远意义：

推动法律NLP的区域化与精细化：此前，针对普通法系特定司法管辖区（如香港）的深度NLP研究稀缺。HKJudge 为研究不同司法管辖区的法律语言特征提供了宝贵的数据资源，促进了法律NLP从通用模型向垂直领域、特定法域模型的演进。
提升法律判决预测的可解释性：传统的法律判决预测模型往往被视为“黑盒”。通过引入话语结构分析，研究人员可以更好地理解模型是如何基于判决书的逻辑结构（如先例引用、事实认定）做出预测的，从而增强模型的可解释性。
辅助法律实务与教育：高质量的标注数据可用于开发辅助法律检索、自动摘要、判决结果预测等工具，提高律师和法官的工作效率。同时，该数据集也可用于法律语言学教学，帮助学生理解判决书的修辞结构。
开源共享促进社区发展：研究团队公开了 HKJudge 数据集及相关代码，为学术界和工业界提供了丰富的数据基础，鼓励更多研究者参与法律AI领域的创新，共同推动法律智能技术的发展。

总之，HKJudge 不仅是一个数据集，更是连接法律专业知识与人工智能技术的重要桥梁，为未来在法律判决预测、法律文本理解等方向的研究奠定了坚实的数据基石。

查看原文 →arxiv.org