技术博客arXiv cs.AI·2 小时前

PACE：为自进化智能体提供随时有效的接受测试

原标题：PACE: Anytime-Valid Acceptance Tests for Self-Evolving Agents

速览

自进化智能体在反复提议变更时，常因缺乏控制的适应性多重检验而积累错误提交，导致性能漂移。PACE提出一种无需训练的随时有效提交门控机制，通过配对检验累积决定性证据，在控制假阳性概率的同时支持早期停止。实验显示，相比贪婪接受策略，PACE在Qwen2.5智能体上显著降低了错误和有害编辑，以更低评估成本匹配准确率，并在无真实增益时保持基线稳定。

AI 深度解读

PACE: 面向自进化智能体的任意时刻有效接受测试

背景

自进化智能体（Self-evolving agents）的核心机制在于通过反复提议对其提示词（prompts）、技能或工作流的修改，并保留那些在小型保留集（held-out set）上得分更高的版本，从而实现自我改进。然而，当前的研究几乎将所有精力都投入到了生成候选方案的“提议者”（proposer）上，而忽视了决定何时提交（commit）这些更改的“接受者”（acceptor）。

在现有的实践中，最普遍的做法是“如果分数上升就保留”。当这一规则被应用于同一组噪声偏差估计（noisy dev estimate）数百次时，它实际上构成了不受控制的自适应多重检验（adaptive multiple testing）。这导致智能体有效地在进行“p值操纵”（p-hacking），积累了大量的错误提交。其后果并非智能体的进步，而是导致智能体陷入循环（churn）和漂移（drift），无法实现真正的性能提升。

核心内容

为了解决上述问题，作者将“提交更改”这一行为重新构建为顺序假设检验（sequential hypothesis test），并提出了 PACE（Paired Anytime-valid Commit Evaluation，配对任意时刻有效提交评估）。PACE 是一种无需训练、具有任意时刻有效性（anytime-valid）的提交门控机制。

PACE 的核心工作原理如下：

配对比较：每个候选方案都与当前 incumbent（在任方案）在相同的实例上进行比较。
基于赌注的检验（Testing-by-betting）：PACE 使用 e-process（e-过程）来累积决定性的证据。只有当证据足够强时，才会提交更改。
任意时刻有效性：即使在允许“可选停止”（optional stopping，即随时可以停止评估）的情况下，PACE 也能将每个候选方案的错误提交概率控制在用户设定的水平。这是一种针对每个决策的保证（per-decision guarantee）。
早期停止：通过尽早停止评估，PACE 节省了计算资源。

在实验部分，作者对 Qwen2.5 智能体（0.5B-3B 参数规模）在提示词层面进行的自进化进行了测试，数据集包括 GSM8K、SVAMP 和 ARC-Challenge。

实验结果对比：

在存在真实改进但被噪声掩盖的情况下：
- 贪婪接受（Greedy acceptance）：提交了 30-42% 的错误编辑和 10-33% 的有害编辑。
- PACE：提交了真实的改进，且几乎不提交其他内容。其保留集准确率与贪婪方法相当，但方差显著降低，且评估成本降低了约 18%。
在没有任何真实改进可用的情况下：
- 贪婪接受：每次运行提交了 13-21 次虚假的自我修改（其中 72-100% 是错误的），并将最脆弱的智能体性能降低了 4.9 分。
- PACE：保持在基线水平，未发生性能下降。

关键要点

接受者比提议者更关键：自进化智能体的可靠性不仅取决于生成候选方案的提议者，更取决于决定提交更改的接受者。
传统“分数上升即保留”规则的缺陷：该规则在多次测试同一噪声数据时，等同于不受控制的多重假设检验，导致智能体产生虚假的“p值操纵”，积累错误提交，引发性能漂移而非提升。
PACE 的技术优势：
- 无需训练：作为一种门控机制，PACE 不需要额外的训练过程。
- 统计严谨性：基于顺序假设检验和 e-process，提供了严格的错误控制。
- 任意时刻有效：支持可选停止（early stopping），既节省了评估成本，又保证了在任何停止点错误提交的概率都在可控范围内。
- 配对比较：通过在相同实例上比较候选方案与当前方案，提高了评估的稳健性。
性能提升：在 Qwen2.5 智能体的实验中，PACE 在保持准确率的同时，显著降低了方差和评估成本，并完全避免了在无明显改进时的虚假修改和性能退化。

意义与影响

PACE 的提出揭示了自进化智能体研究中一个被长期忽视的关键瓶颈：接受机制的统计严谨性。传统的启发式规则（如简单的分数比较）在噪声环境下极易失效，导致智能体“自我欺骗”。

PACE 通过引入统计学习理论中的顺序检验概念，为自进化智能体提供了一个可靠、高效且无需额外训练的检查机制。这不仅提高了智能体在复杂、噪声环境下的鲁棒性，还通过早期停止机制优化了计算资源的使用。对于追求长期稳定进化的 AI 系统而言，PACE 证明了“如何判断改进”与“如何产生改进”同等重要，为构建更可靠、更可信赖的自进化智能体奠定了方法论基础。

查看原文 →arxiv.org