← 返回信息流
技术博客arXiv cs.AI·1 小时前

自适应代理实现任意时刻有效的证书

原标题:Self-Evolving Agents with Anytime-Valid Certificates

速览

SEA架构打破了自进化代理的常见假设,仅允许在冻结基础模型周围的版本化适配器和门控层进行修改。每轮修改均需通过任何时刻有效的证书审核,限制修改范围以保证安全性。五个循环控制器利用已发布的理论保证,基于基础模型自身输出的信号无需人工标注即可驱动验证机制,包括最佳N选择、微步搜索等。实验在52实例的SWE-bench Verified子集上验证,结果显示基础能力是主要影响因素,自适应机制在两款强基模型上分别带来4和5分提升,有效防止回归。

AI 深度解读

## 背景

传统机器学习理论保证的核心假设是:数据生成器、评估器、组件集合以及假设空间均由被更新的策略独立生产。然而,自进化代理(self-evolving agents)会违反这一假设——数据、评估器、组件和假设空间全部由正在更新的策略自身生成,导致以往的统计学和学习理论保障失效。

该论文针对这一根本挑战,提出一种可信赖的自进化架构,旨在限制自修改范围,并通过任何时间有效(anytime-valid)的门控机制确保可审计性与安全边界。

## 核心内容

论文定义并呈现 SEA(Self-Evolving Agents)架构。该架构将自修改严格限定在两个核心部分:一个小型“转向适配器”(steering adapter)和一个版本化的“驯服层”(versioned harness)。基础模型被明确冻结(frozen base model),因此所有自进化操作均不触及基础模型的权重或核心能力。

每个修改仅能通过一个“任何时间有效门”(anytime-valid gate)被批准,该门会实时发出一个可审计的证书,并严格约束在固定的错误预算(fixed error budget)之内。这一设计允许门控机制在不牺牲基础能力的前提下,安全地筛选并应用改进行为。

SEA 体系由五个循环控制器(loop controllers)组成,这些控制器直接利用已发表的保障技术。门控机制的特性决定了它只能在基础模型已产生的所有行为中进行选择,因此无需训练信号。相反,论文开发了五种“验证器在循环内”(verifier-in-the-loop)机制——包括:

  • best-of-N 选择
  • 微步搜索(micro-step search)
  • 自创作再现预言机(self-authored reproduction oracles)
  • 搜索层控制(search-layer control)
  • 自修复(self-repair)

这些机制全部从问题文本(issue text)本身生成密集型、无需人工标注的信号,为门控提供持续的 grader-free 反馈。五个循环控制器分别封装了这些机制,并通过任意时间有效的统计检验机制进行监控和决策。

在实验验证中,论文使用了 SWE-bench Verified 的 52 个实例子集,覆盖四个基础模型。结果显示,基础模型的能力是主导因素,且为混淆无关(confound-free)的关键效应。在两台强基础模型上,论文通过一个有意的无操作复合控制(no-op-composite control)单独隔离了 SEA 套件的贡献:效果分别为 +4(Glm 5.2:24 提升至 28)和 +5(Gpt:29 提升至 34,达到 65% 的最佳表现)。事件日志进一步确认,SEA 的机制确实被触发并有效阻止了退化现象。

所有结果均为单次运行,论文明确指出这是昂贵评估的现实限制。未来工作将涉及确认运行间方差(run-to-run variance)以及根据任务动态调整算法组合。

## 关键要点

  • 自进化代理的核心挑战:数据、评估器、组件和假设空间均由自身策略生成,传统学习理论保障失效。
  • SEA 架构核心:仅允许小型转向适配器 + 版本化驯服层修改,基础模型完全冻结。
  • 任何时间有效门控:实时生成可审计证书,严格绑定固定错误预算,确保修改安全通过。
  • 五个循环控制器:封装任意时间有效统计检验,驱动门控决策。
  • 五种验证器机制:best-of-N、微步搜索、自创作再现、搜索层控制、自修复,仅依赖问题文本生成信号。
  • 实验结果:基础模型能力主导效应;强基底上 SEA 套件贡献 +4/+5,事件日志验证安全触发与防退化。
  • 局限:单次运行结果,未来需验证方差并动态调优算法混合。

## 意义与影响

该论文为自进化代理领域带来了首个兼具理论可验证性与实践可行性的安全框架。它直接解决了核心假设冲突问题,使代理能够在不引入灾难性退化的前提下持续进化,同时保留了对最终输出的严格控制权。

在实际应用中,SEA 架构特别适合需要高可靠性的场景(如代码修复、自动化研发),其任何时间有效证书机制为安全部署提供了可量化、可审计的信任锚点。未来,这一思路有望扩展到更广泛的代理系统,推动从“自进化”向“可信赖自进化”的范式转变,具有重要理论与工程价值。

查看原文 →arxiv.org