技术博客arXiv cs.CL·4 小时前

RAG框架助力尼泊尔法律领域问答

原标题：Retrieval Augmented Generation Framework for the Nepali Legal Domain Question Answering

速览

针对尼泊尔等低资源语言法律数据稀缺的问题，本研究首次应用检索增强生成（RAG）框架进行法律问答。通过从尼泊尔数字档案提取案例，结合BM25和E5模型，实现了91%的检索精度和84%的人类评估真实性。该成果证明了RAG在低资源语言法律AI系统中的有效性。

AI 深度解读

尼泊尔法律领域问答的检索增强生成框架：填补低资源语言AI空白

背景

在计算机科学，特别是自然语言处理（NLP）领域，人工智能在法律问答（Legal Question Answering）中的应用已经相当成熟，但这主要局限于英语等“高资源语言”。对于尼泊尔语等“低资源语言”而言，这一领域的发展面临巨大挑战。

核心痛点在于数据稀缺。由于缺乏足够规模的尼泊尔语法律文本数据，大型语言模型（LLMs）难以通过传统的监督微调或预训练方式，在尼泊尔法律领域获得足够的专业能力。这导致现有的通用大模型在处理尼泊尔法律问题时，往往出现幻觉、事实错误或无法提供具有法律效力的依据。

本研究旨在解决这一特定领域的空白，首次将**检索增强生成（Retrieval Augmented Generation, RAG）**框架应用于尼泊尔法律问答场景，利用从官方数字档案中提取的案例法，构建一个既准确又可信的AI系统。

核心内容

本研究提出并验证了一个针对尼泊尔法律领域的 RAG 框架。该框架的核心逻辑是通过检索外部权威知识库来增强生成模型的回答能力，从而克服低资源语言下训练数据不足的缺陷。

1. 数据来源与预处理

研究使用的数据来源于 Nepal Kanun Patrika（尼泊尔法律公报）的数字档案。这是尼泊尔官方的法律案例和法规发布平台。

数据提取：从该数字档案中提取案例法（Case Laws）。
文档分块：将提取的法律文档进行分块（Chunking），以便更高效地进行检索和匹配。

2. 技术架构：RAG 流程

该框架采用标准的 RAG 范式，主要包含两个关键阶段：

检索阶段（Retrieval）：
- 研究对比了不同的检索策略。其中，基于统计的 BM25 算法在分块文档上表现优异。
- 同时也测试了多语言嵌入模型，特别是 E5 Large 模型，用于生成文档和查询的向量表示，以实现语义匹配。
生成阶段（Generation）：
- 将检索到的相关法律文档作为上下文，输入给大语言模型，生成针对用户法律问题的回答。

3. 实验结果与评估

研究通过自动化评估和人工评估相结合的方式，对生成的答案进行了全面衡量。主要指标包括精确率（Precision）、落地性（Groundedness）、真实性（Truthfulness）以及生成成功率。

检索性能：
- 使用 BM25 进行文档检索时，Top-1 精确率达到 91%。
- 使用多语言 E5 Large 模型时，精确率最高达到 75%。
- 解读：BM25 在精确匹配法律术语和条款方面表现优于基于语义的向量检索，这可能与法律文本对精确性的高要求有关。
生成答案质量评估：
- 落地性（Groundedness）：74%。指回答内容是否严格基于检索到的法律文档，未引入外部幻觉。
- 真实性（Truthfulness）：
  - 根据自动化裁判模型（Automated Judge Model）评估：85%。
  - 根据人工评估：84%。
  - 解读：自动化评估与人工评估结果高度一致，证明了自动化评估工具在该场景下的可靠性。
- 生成成功率：92%。指模型能够成功生成完整回答的比例。

关键要点

首创性应用：这是首个将 RAG 框架应用于尼泊尔法律领域问答的研究，解决了低资源语言法律 AI 的数据瓶颈问题。
BM25 优于向量检索：在尼泊尔法律文档检索中，传统的 BM25 算法（Top-1 精确率 91%）显著优于多语言嵌入模型 E5 Large（最高 75%）。这表明在法律领域，基于关键词和统计的精确匹配可能比语义相似度更可靠。
高可信度回答：生成的法律答案在人工评估中保持了 84% 的真实性和 74% 的落地性，说明 RAG 能有效抑制大模型的幻觉问题。
自动化评估的有效性：自动化裁判模型给出的真实性评分（85%）与人工评估（84%）几乎一致，证明了在低资源语言场景中，自动化评估工具可作为高效的质量监控手段。
数据源权威性：研究直接利用 Nepal Kanun Patrika 的官方数字档案，确保了法律依据的权威性和时效性。

意义与影响

1. 为低资源语言 AI 提供新范式

本研究证明，即使在没有大量标注数据或高质量预训练语料的低资源语言中，通过 RAG 技术结合权威的外部知识库，依然可以构建出高性能、高可信度的垂直领域 AI 系统。这为其他低资源语言的法律、医疗等专业领域提供了可复制的技术路径。

2. 提升法律服务的可及性与效率

尼泊尔的法律数字化程度正在提高，但普通民众和专业人士获取、理解法律案例仍存在门槛。该框架能够自动从海量案例中检索相关信息并生成易懂的回答，有助于降低法律服务的成本，提高司法信息的透明度。

3. 验证了混合检索策略的价值

研究结果提示，在法律等高精度要求的领域，单纯的语义向量检索可能不足以应对复杂的术语匹配需求。结合 BM25 等传统检索技术与大语言模型的生成能力，可能是当前更务实且高效的解决方案。

4. 奠定可靠 AI 系统的基础

通过实现 92% 的生成成功率和超过 80% 的真实性评估，该研究为在尼泊尔法律领域部署可靠的 AI 助手奠定了数据和技术基础。未来，随着更多多语言法律数据的积累和模型优化，这一框架有望进一步扩展，服务于更广泛的南亚地区法律科技应用。

查看原文 →arxiv.org