← 返回信息流
技术博客arXiv cs.AI·14 小时前

Regimes:基于ActiveGraph的可审计自主改进循环

原标题:Regimes: An Auditable, Held-Out-Gated Improvement Loop Demonstrated on LongMemEval with ActiveGraph

速览

该研究提出Regimes,一种基于ActiveGraph运行时的可审计自主改进循环。通过将代理状态设为追加事件日志的确定性投影,实现了故障记录、精确回放及可审计的决策流程。在LongMemEval上的实验显示,该循环能发现并修复读者提示问题,显著提升保留验证集的准确率。

AI 深度解读

Regimes:基于 ActiveGraph 的可审计、隔离门控改进循环

背景

在人工智能代理(Agent)系统的演进中,实现“自主改进循环”一直是一个极具挑战性的难题。传统的改进机制通常依赖于外部脚手架(external scaffolding)强行附加在代理之上,这种架构导致了严重的信任危机:

  1. 故障记录缺失:改进过程中的失败往往未被详细记录,导致问题难以追溯。
  2. 诊断不可重放:由于状态非确定性,针对特定失败的诊断无法通过重放日志来复现和验证。
  3. 决策黑盒化:代理是“保留”还是“丢弃”某个改进版本,这些决策通常落入侧数据库(side database),而非代理自身的历史状态中。

这种架构使得受控的改进过程变得不可信且难以调试。为了解决这一摩擦,我们需要一种新的运行时环境,能够将受控改进转化为代理工作流中的“一等公民”(first-class workflow)。

核心内容

本文提出了 Regimes,这是一个基于 ActiveGraph 运行时的自主改进循环框架,并在 LongMemEval 数据集上进行了演示。其核心思想是通过事件溯源(Event Sourcing)技术,将代理的状态转化为只追加事件日志(append-only event log)的确定性投影,从而实现可审计、可重放的改进闭环。

1. 技术架构:ActiveGraph 与事件溯源

Regimes 建立在 ActiveGraph 运行时之上。在该架构中:

  • 状态即投影:代理的当前状态是其只追加事件日志的确定性投影。
  • 故障可记录:任何失败都会作为事件被记录在日志中。
  • 精确重放:运行可以从日志中精确重放,确保诊断过程的可复现性。
  • 作用域明确:候选补丁(candidate patches)的作用域被限制在类型化的管道接缝(typed pipeline seams)处。
  • 门控可审计:改进流程中的每一个“通过”或“拒绝”决策本身也是一个事件,完全可审计。

2. Regimes 改进循环的工作流程

Regimes 是一个目标无关(target-agnostic)的循环,通过通用接口运行不同的任务。其核心控制流包括以下步骤:

  1. 诊断:识别评估中的失败案例。
  2. 提议修复:在管道的特定节点提出修复方案(如提示词调整)。
  3. 门控验证:在正式推广(promote)修复之前,必须通过一系列严格的检查:
    • 静态检查:代码或配置语法验证。
    • 沙箱执行:在隔离环境中运行。
    • 样本内评估:在训练/测试集内部进行性能验证。
    • 隔离验证(Held-out Validation):在从未见过的隔离数据集上进行最终验证。

只有当修复通过所有门控后,它才会被提升为代理历史的一部分。

3. 实验演示:LongMemEval 上的发现

研究团队在 LongMemEval-S 数据集上应用了 Regimes。LongMemEval 是一个用于评估长上下文记忆能力的基准测试。

  • 主要失败模式:研究发现,在 LongMemEval-S 中,主导性的失败并非检索(retrieval)问题,而是**协调(reconciliation)**问题。即,证据已经存在于组装好的上下文(context)中,但阅读模块(reader)却给出了错误的答案。
  • 改进效果
    • Regimes 发现了针对“阅读提示词”(reader-prompt)的修复方案。
    • 在五个种子隔离分割(seeded held-out splits)中,四个分割的最终隔离准确率提高了 +0.05 到 +0.10
    • 其中一个分割因过度推广(over-promotion)仅提高了 +0.01
    • 其中两个分割的提升具有统计学显著性(种子 5 未针对其顺序推广结构进行调整)。
    • 注:由于所有分割共享一个 500 题的池子,汇总计数仅具描述性意义。

4. 核心贡献与假设

  • ActiveGraph:作为一个可审计的底层基础,使得受控改进循环变得可行。
  • 隔离门控循环:支持严格验证的改进流程。
  • 失败模式分类法(Failure-regime taxonomy):将每种失败路由到管道的特定位置。其相对于无路由基线的边际价值是主要待解决的开放性问题。
  • 提示词即探测探针假设(Prompt-as-discovery-probe hypothesis):提示词不仅是输入,更是发现系统缺陷和进行修复的探针。

关键要点

  • 信任机制重构:通过事件溯源技术,将代理的状态和决策过程转化为可审计、可重放的日志,解决了自主改进循环中的信任黑盒问题。
  • 结构化修复:改进不再是不确定的随机尝试,而是作用域限定在管道接缝处的结构化补丁,并通过静态检查、沙箱、样本内评估和隔离验证四层门控。
  • 长记忆评估的新发现:在 LongMemEval 上证实,长上下文模型的主要瓶颈往往不是“找不到信息”(检索失败),而是“找不到逻辑关联”(协调失败),即已有证据但推理错误。
  • 显著的性能提升:通过自动发现并应用阅读提示词的修复,Regimes 在多个隔离测试集上实现了 5% 到 10% 的准确率提升。
  • 通用性框架:Regimes 是目标无关的,其控制流可以通过统一接口应用于不同的任务和管道结构。

意义与影响

这项研究标志着 AI 代理开发范式的一个重要转变:从“构建后修补”转向“内生式可审计改进”。

  1. 可信赖的 AI 工程:传统机器学习中的 MLOps 侧重于模型版本管理,而 Regimes 将这一理念深入到了 Agent 的运行时状态和决策逻辑中。通过确保每一次改进都是可记录、可重放且经过严格门控的,它为构建高可靠性、高安全性的自主代理系统提供了工程基础。
  2. 揭示长上下文模型的深层缺陷:研究指出“协调失败”是长记忆评估中的主要痛点,这为未来的模型架构优化指明了方向——即不仅要增强检索能力,更要增强模型在复杂上下文中的逻辑整合与推理能力。
  3. 自动化调试的标准化:通过定义“失败模式分类法”并将失败路由到特定管道节点,Regimes 为自动化调试提供了一种标准化的方法论。这使得代理能够像人类工程师一样,定位错误发生的层级(是检索层、处理层还是输出层),并针对性地提出修复。
  4. 推动 Agent 运行时的发展:ActiveGraph 作为底层运行时,证明了事件溯源在复杂 AI 工作流中的可行性。这可能会激励更多研究者探索基于不可变日志的 AI 系统架构,以解决当前 Agent 系统中普遍存在的状态不一致和调试困难问题。

总之,Regimes 不仅是一个改进工具,更是一种新的 AI 系统哲学:通过严格的审计和隔离机制,将“改进”这一行为本身纳入系统的核心工作流,从而在动态环境中实现持续、可信的进化。

查看原文 →arxiv.org