技术博客arXiv cs.AI·2 小时前

规则也能学习：基于自进化代理的法律案例检索新方法

原标题：When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval

速览

针对法律语言复杂及词汇对齐难题，研究提出一种无需参数训练的自进化规则驱动查询重写框架。该框架赋予基于大语言模型的代理自动评估环境，使其能迭代生成重写规则、规划验证实验并剔除无效规则。在LeCaRD-v2基准上的实验表明，该方法优于人工设计及贪婪选择等基线，尤其在高性能大模型支持下效果显著。研究揭示了大模型利用历史反馈和内在知识优化规则集的自进化机制。

AI 深度解读

When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval 深度解读

背景

法律案例检索（Legal Case Retrieval）是法律科技领域的核心任务，但其长期面临两大挑战：一是法律语言的高度复杂性，包含大量专业术语、隐含逻辑和特定句式；二是查询（Query）与相关案例之间需要极高的词汇对齐精度（Lexical Alignment）。

在检索模型的发展史上，尽管基于稠密向量（Dense Retrieval）的深度学习模型取得了显著进展，但实证研究反复表明，传统的基于倒排索引的稀疏检索算法 BM25 依然是该领域一个非常强劲且难以超越的基线（Baseline）。这揭示了一个关键现象：在高度专业化、对精确匹配要求极高的法律场景中，单纯的语义向量匹配有时不如经过精心设计的关键词匹配规则有效。

然而，传统依赖人工设计规则（Hand-crafted Rules）的方法不仅耗时费力，且难以覆盖所有边缘案例。因此，如何在不增加模型参数训练成本的前提下，利用大语言模型（LLM）的能力来自动化地优化检索规则，成为提升 BM25 性能的关键突破口。

核心内容

本文提出了一种名为 “When Rules Learn” 的自我进化框架（Self-Evolving Framework），旨在通过规则驱动的查询重写（Query Rewriting）来增强 BM25 检索效果，且整个过程无需对底层检索模型进行任何参数训练。

该框架的核心在于构建了一个基于 LLM 的智能体（Agent），并为其配备了一个自动化的评估环境。该智能体具备以下核心能力：

迭代生成重写规则：智能体能够根据当前的检索瓶颈，自动生成用于改写用户查询的规则。例如，将模糊的法律术语替换为更具体的法条关键词，或调整查询的语法结构以匹配案例库中的常见表述。
规划验证实验：智能体能够针对规则的组合进行规划，设计实验来验证不同规则组合对检索效果的影响。
基于历史反馈消除无效规则：系统会记录历史实验结果，智能体利用这些反馈来识别并剔除那些对检索精度无益甚至有害的规则，从而不断精炼规则集。

为了验证该方法的有效性，研究团队在中文法律案例检索基准数据集 LeCaRD-v2 上进行了广泛评估。LeCaRD-v2 是一个旨在评估中文法律场景下案例检索能力的权威基准，涵盖了复杂的法律查询和案例匹配任务。

实验结果显示，该自我进化框架在性能上显著优于多种非进化基线方法，包括：

人工设计的规则：传统专家手动编写的规则集。
贪婪规则选择（Greedy Rule Selection）：一种传统的、缺乏全局优化视角的规则筛选策略。

特别是在使用高容量（High-capacity）核心 LLM 驱动时，该框架的优势更加明显。此外，研究还深入分析了自我进化的内在机制，发现 LLM 利用先前实验结果的能力，以及其内在的关于“规则消除”的知识，在通过自我进化精炼规则集的过程中起到了至关重要的作用。

关键要点

无需参数训练：该方法完全基于规则重写增强 BM25，不涉及对检索模型本身的微调或训练，降低了部署成本和计算资源需求。
自动化闭环：构建了“生成规则 -> 规划实验 -> 评估效果 -> 消除无效规则”的自动化闭环，实现了检索策略的自我迭代。
超越人工基线：在 LeCaRD-v2 基准测试中，自动生成的规则集表现优于人类专家设计的规则，证明了 LLM 在捕捉细微法律语言模式上的潜力。
LLM 的核心作用：
- 利用历史反馈：LLM 能够理解过往实验的成败原因，从而指导下一轮规则的生成。
- 内在规则知识：LLM 内置的逻辑推理能力使其能够判断哪些规则是冗余或冲突的，从而主动进行规则剪枝。
高容量模型优势：核心 LLM 的参数量和推理能力越强，自我进化框架的效果提升越显著，表明该框架对底层模型能力有较高依赖。

意义与影响

这项研究为法律信息检索领域提供了一个新的范式：从“静态规则”转向“动态进化规则”。

重新评估 BM25 的价值：研究证实，在垂直领域（如法律），经过精心优化的稀疏检索（BM25）依然具有极高的竞争力。这提醒业界，在追求复杂的稠密检索模型时，不应忽视对传统检索引擎的优化潜力。
降低 AI 落地门槛：由于无需训练模型参数，该方法可以迅速应用于现有的检索系统中，对于资源有限或追求快速迭代的法律科技公司而言，是一种高性价比的优化方案。
LLM 作为“策略优化器”：本文展示了 LLM 不仅可以作为生成式内容的创作者，还可以作为系统级策略的优化者。通过赋予 LLM 评估环境和反馈机制，它可以像科学家一样通过实验来优化系统参数（此处为规则），这为其他需要复杂规则配置的领域（如金融风控、医疗诊断支持）提供了可借鉴的思路。
可解释性增强：相比于黑盒的稠密向量检索，基于规则的检索具有更高的可解释性。自我进化框架生成的规则集可以被人类专家审查和理解，有助于建立用户对 AI 系统的信任，这在法律这一高度严谨的领域中尤为重要。

查看原文 →arxiv.org