← 返回信息流
AI 资讯雷峰网·3 小时前

GAIR发布GDPevo基准:首把衡量AI Agent自进化能力的尺子

原标题:GAIR Paper 104|Agent 真的能自我进化吗?我们造了一把它骗不过去的尺子

速览

GAIR发布GDPevo,这是首个在具有真实经济价值的企业任务上评估AI Agent自进化能力的基准。该基准覆盖CRM、ERP和金融三大场景共120个任务,通过自动化流水线构建并采用规则打分机制。其核心创新在于利用“规则杂交”方法,有效防止模型通过死记硬背测试集作弊,从而真实衡量Agent的泛化与进化能力。

AI 深度解读

背景

在人工智能领域,存在一条被反复验证的“铁律”:一旦某件事能够被清晰地评估,并且能够被自动化地执行,那么它离被做到极致就不远了。围棋、代码生成、数学解题等任务之所以能迅速突破瓶颈,正是因为有了可靠的评估标准(尺子),模型才能沿着这条标准不断迭代优化。

当前,AI 领域的下一个前沿焦点是自进化 Agent(Self-evolving Agent)。与传统的“一次性” Agent 不同,自进化 Agent 旨在像人类员工一样,通过完成任务积累经验、更新内部状态,从而在后续任务中表现得更加精准、高效。学术界相关的概念包括持续学习(Continual Learning)和递归自我改进(Recursive Self-Improvement, RSI)。

然而,这一方向面临一个核心痛点:资本虽然已投入数十亿美元(如 NeoCognition、Recursive 等公司),但业界缺乏衡量 Agent 是否真正“进化”的标准。现有的评估基准多集中在通用能力或简单任务上,缺乏针对具有真实经济价值(GDP 相关)的复杂企业场景的评估工具。此外,传统评估容易陷入“在测试集上训练”的陷阱,即 Agent 通过记忆而非泛化能力获得高分,导致评估失效。为了解决这一问题,研究者提出了 GDPevo,旨在为自进化 Agent 提供一把“骗不过去的尺子”。

核心内容

GDPevo 是首个专注于评估 Agent 在具有真实经济价值任务上自进化能力的基准。它既是一套自动化的基准构建流程,也是一份开箱即用的评估数据集,覆盖客户关系管理(CRM)、企业资源计划(ERP)和金融(Finance)三大场景,包含 120 个真实企业任务。

1. 自动化构建与防泄露机制 GDPevo 采用端到端全自动的数据流水线,灵感来源于 Loop Engineering 理念。人类仅负责设计流程,其余由 AI 执行:

  • 种子数据:从公开基准(如 GDPval、SOP-Bench、JobBench)中选取种子场景。
  • 任务工厂:批量生成候选任务组,每组包含共享环境、5 个训练样本和 5 个测试样本,并附带基于规则的评分脚本。
  • 难度校准:通过专门 Agent 筛选出那些“进化后表现明显高于进化前”的样本,剔除无法体现进化能力的任务。
  • 多重审计:6 个独立的 Reviewer Agent 对数据进行端到端审计,需获得至少 5 票通过方可采用,确保文件结构完整且规则隐蔽性良好。

2. “规则杂交”解决泛化难题 为区分 Agent 是“死记硬背”还是“真正学习”,GDPevo 引入了类似遗传算法交叉进化的“规则杂交”策略:

  • 规则拆解:将复杂的业务逻辑拆分为“元规则”,分散隐藏在 5 个训练样本中。例如,在 CRM 中隐藏“赞助商优先级”和“黑名单策略”的不同部分。
  • 规则重组:测试样本由这些分散的规则组合而成(如同时触发优先级和黑名单)。
  • 效果:不具备自进化能力的 Agent 只能看到碎片化规则,无法拼凑全貌;而具备自进化能力的 Agent 能归纳规律并迁移至新任务,从而有效区分记忆与泛化。

3. 评估标准:确定性打分与成本考量 GDPevo 制定了严格的评估规矩:

  • 拒绝 LLM-as-a-Judge:采用确定性的规则打分器,基于具体的评分点(rubrics)计算分数。这保证了分数的可复现性(同一答案多次运行得分一致)和可追溯性(明确告知哪条规则未通过),使基准同时成为 Agent 的诊断工具。
  • 成本与准确率并重:不仅关注任务准确率,还记录总 Token 消耗。理想的自进化策略应实现“又准又省”。
  • 极简易用性:评估过程纯自然语言驱动,无需编写适配代码或学习复杂 SDK。用户只需使用 Claude Code 或 Codex 打开工作区,通过自然语言描述实验需求即可自动生成报告和图表。

4. 实验结果验证 研究者在 12 个任务组(共 120 个任务)上测试了三种方案:

  • Base:不接触训练集,直接测试。
  • Fewshot:类似监督微调(SFT),先学习训练集答案再测试。
  • Reflect:类似强化学习(RL),先试错并反思再测试。

测试对象包括 Claude Code、Codex 和 Panofy 三个 Agent。结果显示:

  • 自进化策略能将测试集准确率提升约 17–22%
  • Claude Code 和 Codex 在提升准确率的同时,Token 消耗反而降低,实现了效率与效果的双重优化。
  • 在“运营建模”场景中,Codex 准确率从 42.76% 飙升至 92.47%,Claude Code 的 Fewshot 方案更是达到 100%。

关键要点

  • 填补评估空白:GDPevo 是首个针对 GDP 相关真实企业任务(CRM、ERP、Finance)的自进化 Agent 评估基准,解决了复杂规则场景下缺乏自动化评估工具的问题。
  • 自动化数据生产:通过 AI 自动构建数据流水线,以更快的出题速度跑赢模型的记忆速度,有效防止数据泄露,并具备高度的可扩展性。
  • 规则杂交技术:利用“训练集分散规则、测试集组合规则”的策略,强制要求 Agent 进行规则归纳与迁移,而非简单的记忆背诵,从而真实衡量自进化能力。
  • 确定性评估体系:摒弃主观的 LLM 裁判,采用基于规则的确定性打分,确保结果可复现、错误可追溯,兼具评估与诊断功能。
  • 效率与效果双赢:实验证明,具备自进化能力的 Agent 不仅能显著提升准确率(+17-22%),还能通过优化工作流降低 Token 消耗,验证了自进化在商业落地中的实际价值。
  • 开源与易用:项目完全开源,且评估流程无需代码适配,通过自然语言交互即可运行,极大降低了研究和应用门槛。

意义与影响

GDPevo 的发布标志着 AI Agent 从“单次任务执行”向“持续能力积累”迈进的关键一步。

首先,它验证了当前主流 Agent 确实具备初步的自进化能力。通过 GDPevo 的严格测试,Claude Code、Codex 等模型证明了它们不仅能从经验中学习,还能将这种能力泛化到未见过的复杂任务中,这与 Recursive 等机构的研究结论相呼应。

其次,GDPevo 为自进化 Agent 的商业化落地提供了可量化的标准。在金融、合规、审批等高风险、高规则密度的领域,明确的评估基准使得企业能够客观衡量 AI 系统的改进效果,从而更有信心地引入自进化技术以替代重复性人力劳动。

最后,该项目倡导了一种新的研究范式:不再仅仅追求排行榜上的分数,而是通过构建高难度、防作弊的基准,推动 Agent 向真正具备“长记性”和“自我优化”能力的智能体演进。随着 GDPevo 的开源,社区可以在此基础上进一步探索更高效的进化策略,加速 AI 从“工具”向“合作伙伴”的转变。

查看原文 →leiphone.com