← 返回信息流
技术博客arXiv cs.AI·14 小时前

Trace2Policy:从专家行为轨迹进化自决策智能体

原标题:Trace2Policy: From Expert Behavior Traces to Self-Evolving Decision Agents

速览

Trace2Policy提出EISR机制,通过迭代错误分析系统化恢复并优化企业专家的隐性决策规则。该方法将规则编译为确定性Python代码,在物流审计场景中达到79.6%准确率,显著优于纯LLM基线。其LLM驱动变体Auto-EISR能以极低成本复现此过程,并成功迁移至法律推理等公开基准测试。

AI 深度解读

Trace2Policy:从专家行为轨迹到自进化决策智能体

背景

在企业级应用中,审计(Auditing)、合规性检查(Compliance)以及合同审查(Contract Review)等场景往往涉及大量基于隐性知识的决策规则。这些规则通常由领域专家凭经验制定,难以通过传统的监督学习直接获取。尽管大型语言模型(LLM)在自然语言处理任务中表现出色,但在处理具有“低基础比率”(skewed-base-rate,即正负样本极度不平衡)且对准确性要求极高的合规类任务时,单纯依赖 LLM 的提示工程(Prompting)往往存在性能瓶颈。

此外,LLM 推理成本高、延迟大,且在确定性规则明确的场景下,其随机性可能带来不可控的风险。因此,如何将专家隐性的决策逻辑显性化、系统化,并实现持续优化,成为提升企业级决策智能体(Decision Agents)效能的关键问题。

核心内容

本文提出了 Trace2Policy 框架,旨在从专家的行为轨迹中恢复并改进决策规则。其核心机制被称为 EISR(Error-driven Iterative Skill Refinement,误差驱动的迭代技能精炼)。

1. EISR 核心机制

EISR 的目标是维护一份人类可读的规则文档,并通过以下迭代流程进行优化:

  • 执行与评估:每一轮迭代中,将当前的规则集应用于验证集。
  • 错误聚类:根据根本原因将错误聚类为三类:MISSING(缺失规则)、WRONG(错误规则)或 CONFLICT(冲突规则)。
  • 针对性修补:针对聚类结果应用特定的修补策略。
  • 回归门控:仅当修补后的规则通过了回归测试(regression gate)时,才将其提交(commit)到最终规则库中。

2. 性能杠杆:规则质量优于模型能力

研究指出,在这类对合规敏感、基础比率偏斜的决策任务中,规则质量(Rule Quality)而非模型能力(Model Capability)是主导性能的关键杠杆

  • 基线对比:在部署的数据集上,仅通过单次蒸馏(one-shot distillation)从五个不同的 LLM 中提取规则,准确率仅停留在约 70%。
  • EISR 提升:经过八轮 EISR 迭代后,相同的规则被编译为确定性 Python 代码,准确率提升至 79.6%
  • 零 LLM 调用:在推理阶段,编译后的 Python 代码无需任何 LLM 调用,实现了完全确定性的执行。

3. 执行形式的增益

研究强调,“形式与工程捆绑”(form-and-engineering bundle)显著放大了效果。在主要物流承运商为期 22 天的部署中:

  • 编译代码 vs. LLM 提示:同一套经过 EISR 精炼的内容,当编译为 Python 代码运行时,其准确率比作为 LLM Prompt 运行时高出 9.8 个百分点
  • LLM 回退的负面效应:在这些经过校准、基础比率偏斜的工作负载上,重新启用 LLM 作为回退机制(fallback)会导致准确率单调下降。

4. 自动化变体:Auto-EISR

为了降低人工成本,研究还提出了 LLM 驱动的变体 Auto-EISR

  • 成本效益:每个循环的成本仅为 5--10 美元,而传统方式需要约 70 个专家小时
  • 泛化能力:未经重新工程化,Auto-EISR 成功迁移至四个公共基准测试,涵盖法律推理(LegalBench)和流程挖掘决策(BPIC 2012)。

5. 实际部署成果

在一家大型物流承运商的实际部署中(涉及 3,349 个审计案例):

  • 编译后的管道优于其取代的纯 LLM 基线(72.7%)。
  • 证明了在特定合规场景下,确定性规则引擎优于概率性 LLM 模型。

关键要点

  • 核心创新:提出 Trace2Policy 框架及 EISR 机制,通过“执行-聚类-修补-回归”的闭环,将专家隐性知识转化为显性、可维护的规则文档。
  • 性能瓶颈突破:在低基础比率的合规任务中,规则质量是比模型能力更重要的性能指标。EISR 将准确率从 ~70% 提升至 79.6%。
  • 执行形式至关重要:将规则编译为确定性 Python 代码,比直接作为 LLM Prompt 使用,准确率高出 9.8 个百分点,且推理阶段零 LLM 调用,成本更低、延迟更可控。
  • LLM 回退的陷阱:在特定校准过的偏斜分布任务中,引入 LLM 作为回退机制反而会降低整体准确率,确定性执行更具优势。
  • 自动化与低成本:Auto-EISR 变体将每次迭代成本降至 5--10 美元,大幅低于传统专家耗时(~70 小时/次),并具备跨领域(法律、流程挖掘)的泛化能力。
  • 实证有效性:在 3,349 个真实审计案例的 22 天部署中,证明了该方法优于纯 LLM 基线,具备工业级落地价值。

意义与影响

Trace2Policy 及其 EISR 机制为 enterprise AI(企业级人工智能)落地提供了一条新的路径,特别是在高风险、高合规要求的领域。

  1. 从“黑盒”到“白盒”的转变:传统 LLM 应用往往被视为黑盒,难以解释和调试。Trace2Policy 生成的规则文档是人类可读的,使得决策逻辑透明、可审计,符合金融、物流等行业的合规要求。
  2. 重新定义 LLM 的角色:研究并未完全否定 LLM,而是将其定位为“知识提取者”和“自动化迭代助手”(如 Auto-EISR)。在推理阶段,通过编译为确定性代码,剥离了 LLM 的随机性,实现了低成本、高稳定性的生产级部署。
  3. 解决“长尾”与“偏斜”数据难题:在正负样本极度不平衡的场景下(如欺诈检测、合规审查),单纯依靠数据驱动的深度学习模型往往效果不佳。Trace2Policy 通过专家知识引导的规则精炼,有效解决了这一痛点。
  4. 工业界落地的可行性:通过在大型物流公司的实际部署,证明了该方法不仅理论可行,而且在实际业务中能带来显著的性能提升(+7%+)和成本节约。这为其他行业(如法律、医疗、金融风控)提供了可复制的范式。

总之,Trace2Policy 展示了如何结合人类专家知识、迭代优化算法和现代软件工程实践,构建出比纯 LLM 更可靠、更经济、更透明的决策智能体。

查看原文 →arxiv.org