技术博客arXiv cs.AI·14 小时前

Trace2Policy：从专家行为轨迹进化自决策智能体

原标题：Trace2Policy: From Expert Behavior Traces to Self-Evolving Decision Agents

速览

Trace2Policy提出EISR机制，通过迭代错误分析系统化恢复并优化企业专家的隐性决策规则。该方法将规则编译为确定性Python代码，在物流审计场景中达到79.6%准确率，显著优于纯LLM基线。其LLM驱动变体Auto-EISR能以极低成本复现此过程，并成功迁移至法律推理等公开基准测试。

AI 深度解读

Trace2Policy：从专家行为轨迹到自进化决策智能体

背景

在企业级应用中，审计（Auditing）、合规性检查（Compliance）以及合同审查（Contract Review）等场景往往涉及大量基于隐性知识的决策规则。这些规则通常由领域专家凭经验制定，难以通过传统的监督学习直接获取。尽管大型语言模型（LLM）在自然语言处理任务中表现出色，但在处理具有“低基础比率”（skewed-base-rate，即正负样本极度不平衡）且对准确性要求极高的合规类任务时，单纯依赖 LLM 的提示工程（Prompting）往往存在性能瓶颈。

此外，LLM 推理成本高、延迟大，且在确定性规则明确的场景下，其随机性可能带来不可控的风险。因此，如何将专家隐性的决策逻辑显性化、系统化，并实现持续优化，成为提升企业级决策智能体（Decision Agents）效能的关键问题。

核心内容

本文提出了 Trace2Policy 框架，旨在从专家的行为轨迹中恢复并改进决策规则。其核心机制被称为 EISR（Error-driven Iterative Skill Refinement，误差驱动的迭代技能精炼）。

1. EISR 核心机制

EISR 的目标是维护一份人类可读的规则文档，并通过以下迭代流程进行优化：

执行与评估：每一轮迭代中，将当前的规则集应用于验证集。
错误聚类：根据根本原因将错误聚类为三类：MISSING（缺失规则）、WRONG（错误规则）或 CONFLICT（冲突规则）。
针对性修补：针对聚类结果应用特定的修补策略。
回归门控：仅当修补后的规则通过了回归测试（regression gate）时，才将其提交（commit）到最终规则库中。

2. 性能杠杆：规则质量优于模型能力

研究指出，在这类对合规敏感、基础比率偏斜的决策任务中，规则质量（Rule Quality）而非模型能力（Model Capability）是主导性能的关键杠杆。

基线对比：在部署的数据集上，仅通过单次蒸馏（one-shot distillation）从五个不同的 LLM 中提取规则，准确率仅停留在约 70%。
EISR 提升：经过八轮 EISR 迭代后，相同的规则被编译为确定性 Python 代码，准确率提升至 79.6%。
零 LLM 调用：在推理阶段，编译后的 Python 代码无需任何 LLM 调用，实现了完全确定性的执行。

3. 执行形式的增益

研究强调，“形式与工程捆绑”（form-and-engineering bundle）显著放大了效果。在主要物流承运商为期 22 天的部署中：

编译代码 vs. LLM 提示：同一套经过 EISR 精炼的内容，当编译为 Python 代码运行时，其准确率比作为 LLM Prompt 运行时高出 9.8 个百分点。
LLM 回退的负面效应：在这些经过校准、基础比率偏斜的工作负载上，重新启用 LLM 作为回退机制（fallback）会导致准确率单调下降。

4. 自动化变体：Auto-EISR

为了降低人工成本，研究还提出了 LLM 驱动的变体 Auto-EISR：

成本效益：每个循环的成本仅为 5--10 美元，而传统方式需要约 70 个专家小时。
泛化能力：未经重新工程化，Auto-EISR 成功迁移至四个公共基准测试，涵盖法律推理（LegalBench）和流程挖掘决策（BPIC 2012）。

5. 实际部署成果

在一家大型物流承运商的实际部署中（涉及 3,349 个审计案例）：

编译后的管道优于其取代的纯 LLM 基线（72.7%）。
证明了在特定合规场景下，确定性规则引擎优于概率性 LLM 模型。

关键要点

核心创新：提出 Trace2Policy 框架及 EISR 机制，通过“执行-聚类-修补-回归”的闭环，将专家隐性知识转化为显性、可维护的规则文档。
性能瓶颈突破：在低基础比率的合规任务中，规则质量是比模型能力更重要的性能指标。EISR 将准确率从 ~70% 提升至 79.6%。
执行形式至关重要：将规则编译为确定性 Python 代码，比直接作为 LLM Prompt 使用，准确率高出 9.8 个百分点，且推理阶段零 LLM 调用，成本更低、延迟更可控。
LLM 回退的陷阱：在特定校准过的偏斜分布任务中，引入 LLM 作为回退机制反而会降低整体准确率，确定性执行更具优势。
自动化与低成本：Auto-EISR 变体将每次迭代成本降至 5--10 美元，大幅低于传统专家耗时（~70 小时/次），并具备跨领域（法律、流程挖掘）的泛化能力。
实证有效性：在 3,349 个真实审计案例的 22 天部署中，证明了该方法优于纯 LLM 基线，具备工业级落地价值。

意义与影响

Trace2Policy 及其 EISR 机制为 enterprise AI（企业级人工智能）落地提供了一条新的路径，特别是在高风险、高合规要求的领域。

从“黑盒”到“白盒”的转变：传统 LLM 应用往往被视为黑盒，难以解释和调试。Trace2Policy 生成的规则文档是人类可读的，使得决策逻辑透明、可审计，符合金融、物流等行业的合规要求。
重新定义 LLM 的角色：研究并未完全否定 LLM，而是将其定位为“知识提取者”和“自动化迭代助手”（如 Auto-EISR）。在推理阶段，通过编译为确定性代码，剥离了 LLM 的随机性，实现了低成本、高稳定性的生产级部署。
解决“长尾”与“偏斜”数据难题：在正负样本极度不平衡的场景下（如欺诈检测、合规审查），单纯依靠数据驱动的深度学习模型往往效果不佳。Trace2Policy 通过专家知识引导的规则精炼，有效解决了这一痛点。
工业界落地的可行性：通过在大型物流公司的实际部署，证明了该方法不仅理论可行，而且在实际业务中能带来显著的性能提升（+7%+）和成本节约。这为其他行业（如法律、医疗、金融风控）提供了可复制的范式。

总之，Trace2Policy 展示了如何结合人类专家知识、迭代优化算法和现代软件工程实践，构建出比纯 LLM 更可靠、更经济、更透明的决策智能体。

查看原文 →arxiv.org