技术博客arXiv cs.AI·14 小时前

Regimes：基于ActiveGraph的可审计自主改进循环

原标题：Regimes: An Auditable, Held-Out-Gated Improvement Loop Demonstrated on LongMemEval with ActiveGraph

速览

该研究提出Regimes，一种基于ActiveGraph运行时的可审计自主改进循环。通过将代理状态设为追加事件日志的确定性投影，实现了故障记录、精确回放及可审计的决策流程。在LongMemEval上的实验显示，该循环能发现并修复读者提示问题，显著提升保留验证集的准确率。

AI 深度解读

Regimes：基于 ActiveGraph 的可审计、隔离门控改进循环

背景

在人工智能代理（Agent）系统的演进中，实现“自主改进循环”一直是一个极具挑战性的难题。传统的改进机制通常依赖于外部脚手架（external scaffolding）强行附加在代理之上，这种架构导致了严重的信任危机：

故障记录缺失：改进过程中的失败往往未被详细记录，导致问题难以追溯。
诊断不可重放：由于状态非确定性，针对特定失败的诊断无法通过重放日志来复现和验证。
决策黑盒化：代理是“保留”还是“丢弃”某个改进版本，这些决策通常落入侧数据库（side database），而非代理自身的历史状态中。

这种架构使得受控的改进过程变得不可信且难以调试。为了解决这一摩擦，我们需要一种新的运行时环境，能够将受控改进转化为代理工作流中的“一等公民”（first-class workflow）。

核心内容

本文提出了 Regimes，这是一个基于 ActiveGraph 运行时的自主改进循环框架，并在 LongMemEval 数据集上进行了演示。其核心思想是通过事件溯源（Event Sourcing）技术，将代理的状态转化为只追加事件日志（append-only event log）的确定性投影，从而实现可审计、可重放的改进闭环。

1. 技术架构：ActiveGraph 与事件溯源

Regimes 建立在 ActiveGraph 运行时之上。在该架构中：

状态即投影：代理的当前状态是其只追加事件日志的确定性投影。
故障可记录：任何失败都会作为事件被记录在日志中。
精确重放：运行可以从日志中精确重放，确保诊断过程的可复现性。
作用域明确：候选补丁（candidate patches）的作用域被限制在类型化的管道接缝（typed pipeline seams）处。
门控可审计：改进流程中的每一个“通过”或“拒绝”决策本身也是一个事件，完全可审计。

2. Regimes 改进循环的工作流程

Regimes 是一个目标无关（target-agnostic）的循环，通过通用接口运行不同的任务。其核心控制流包括以下步骤：

诊断：识别评估中的失败案例。
提议修复：在管道的特定节点提出修复方案（如提示词调整）。
门控验证：在正式推广（promote）修复之前，必须通过一系列严格的检查：
- 静态检查：代码或配置语法验证。
- 沙箱执行：在隔离环境中运行。
- 样本内评估：在训练/测试集内部进行性能验证。
- 隔离验证（Held-out Validation）：在从未见过的隔离数据集上进行最终验证。

只有当修复通过所有门控后，它才会被提升为代理历史的一部分。

3. 实验演示：LongMemEval 上的发现

研究团队在 LongMemEval-S 数据集上应用了 Regimes。LongMemEval 是一个用于评估长上下文记忆能力的基准测试。

主要失败模式：研究发现，在 LongMemEval-S 中，主导性的失败并非检索（retrieval）问题，而是**协调（reconciliation）**问题。即，证据已经存在于组装好的上下文（context）中，但阅读模块（reader）却给出了错误的答案。
改进效果：
- Regimes 发现了针对“阅读提示词”（reader-prompt）的修复方案。
- 在五个种子隔离分割（seeded held-out splits）中，四个分割的最终隔离准确率提高了 +0.05 到 +0.10。
- 其中一个分割因过度推广（over-promotion）仅提高了 +0.01。
- 其中两个分割的提升具有统计学显著性（种子 5 未针对其顺序推广结构进行调整）。
- 注：由于所有分割共享一个 500 题的池子，汇总计数仅具描述性意义。

4. 核心贡献与假设

ActiveGraph：作为一个可审计的底层基础，使得受控改进循环变得可行。
隔离门控循环：支持严格验证的改进流程。
失败模式分类法（Failure-regime taxonomy）：将每种失败路由到管道的特定位置。其相对于无路由基线的边际价值是主要待解决的开放性问题。
提示词即探测探针假设（Prompt-as-discovery-probe hypothesis）：提示词不仅是输入，更是发现系统缺陷和进行修复的探针。

关键要点

信任机制重构：通过事件溯源技术，将代理的状态和决策过程转化为可审计、可重放的日志，解决了自主改进循环中的信任黑盒问题。
结构化修复：改进不再是不确定的随机尝试，而是作用域限定在管道接缝处的结构化补丁，并通过静态检查、沙箱、样本内评估和隔离验证四层门控。
长记忆评估的新发现：在 LongMemEval 上证实，长上下文模型的主要瓶颈往往不是“找不到信息”（检索失败），而是“找不到逻辑关联”（协调失败），即已有证据但推理错误。
显著的性能提升：通过自动发现并应用阅读提示词的修复，Regimes 在多个隔离测试集上实现了 5% 到 10% 的准确率提升。
通用性框架：Regimes 是目标无关的，其控制流可以通过统一接口应用于不同的任务和管道结构。

意义与影响

这项研究标志着 AI 代理开发范式的一个重要转变：从“构建后修补”转向“内生式可审计改进”。

可信赖的 AI 工程：传统机器学习中的 MLOps 侧重于模型版本管理，而 Regimes 将这一理念深入到了 Agent 的运行时状态和决策逻辑中。通过确保每一次改进都是可记录、可重放且经过严格门控的，它为构建高可靠性、高安全性的自主代理系统提供了工程基础。
揭示长上下文模型的深层缺陷：研究指出“协调失败”是长记忆评估中的主要痛点，这为未来的模型架构优化指明了方向——即不仅要增强检索能力，更要增强模型在复杂上下文中的逻辑整合与推理能力。
自动化调试的标准化：通过定义“失败模式分类法”并将失败路由到特定管道节点，Regimes 为自动化调试提供了一种标准化的方法论。这使得代理能够像人类工程师一样，定位错误发生的层级（是检索层、处理层还是输出层），并针对性地提出修复。
推动 Agent 运行时的发展：ActiveGraph 作为底层运行时，证明了事件溯源在复杂 AI 工作流中的可行性。这可能会激励更多研究者探索基于不可变日志的 AI 系统架构，以解决当前 Agent 系统中普遍存在的状态不一致和调试困难问题。

总之，Regimes 不仅是一个改进工具，更是一种新的 AI 系统哲学：通过严格的审计和隔离机制，将“改进”这一行为本身纳入系统的核心工作流，从而在动态环境中实现持续、可信的进化。

查看原文 →arxiv.org