AI 资讯雷峰网·3 小时前

GAIR发布GDPevo基准：首把衡量AI Agent自进化能力的尺子

原标题：GAIR Paper 104｜Agent 真的能自我进化吗？我们造了一把它骗不过去的尺子

速览

GAIR发布GDPevo，这是首个在具有真实经济价值的企业任务上评估AI Agent自进化能力的基准。该基准覆盖CRM、ERP和金融三大场景共120个任务，通过自动化流水线构建并采用规则打分机制。其核心创新在于利用“规则杂交”方法，有效防止模型通过死记硬背测试集作弊，从而真实衡量Agent的泛化与进化能力。

AI 深度解读

背景

在人工智能领域，存在一条被反复验证的“铁律”：一旦某件事能够被清晰地评估，并且能够被自动化地执行，那么它离被做到极致就不远了。围棋、代码生成、数学解题等任务之所以能迅速突破瓶颈，正是因为有了可靠的评估标准（尺子），模型才能沿着这条标准不断迭代优化。

当前，AI 领域的下一个前沿焦点是自进化 Agent（Self-evolving Agent）。与传统的“一次性” Agent 不同，自进化 Agent 旨在像人类员工一样，通过完成任务积累经验、更新内部状态，从而在后续任务中表现得更加精准、高效。学术界相关的概念包括持续学习（Continual Learning）和递归自我改进（Recursive Self-Improvement, RSI）。

然而，这一方向面临一个核心痛点：资本虽然已投入数十亿美元（如 NeoCognition、Recursive 等公司），但业界缺乏衡量 Agent 是否真正“进化”的标准。现有的评估基准多集中在通用能力或简单任务上，缺乏针对具有真实经济价值（GDP 相关）的复杂企业场景的评估工具。此外，传统评估容易陷入“在测试集上训练”的陷阱，即 Agent 通过记忆而非泛化能力获得高分，导致评估失效。为了解决这一问题，研究者提出了 GDPevo，旨在为自进化 Agent 提供一把“骗不过去的尺子”。

核心内容

GDPevo 是首个专注于评估 Agent 在具有真实经济价值任务上自进化能力的基准。它既是一套自动化的基准构建流程，也是一份开箱即用的评估数据集，覆盖客户关系管理（CRM）、企业资源计划（ERP）和金融（Finance）三大场景，包含 120 个真实企业任务。

1. 自动化构建与防泄露机制 GDPevo 采用端到端全自动的数据流水线，灵感来源于 Loop Engineering 理念。人类仅负责设计流程，其余由 AI 执行：

种子数据：从公开基准（如 GDPval、SOP-Bench、JobBench）中选取种子场景。
任务工厂：批量生成候选任务组，每组包含共享环境、5 个训练样本和 5 个测试样本，并附带基于规则的评分脚本。
难度校准：通过专门 Agent 筛选出那些“进化后表现明显高于进化前”的样本，剔除无法体现进化能力的任务。
多重审计：6 个独立的 Reviewer Agent 对数据进行端到端审计，需获得至少 5 票通过方可采用，确保文件结构完整且规则隐蔽性良好。

2. “规则杂交”解决泛化难题 为区分 Agent 是“死记硬背”还是“真正学习”，GDPevo 引入了类似遗传算法交叉进化的“规则杂交”策略：

规则拆解：将复杂的业务逻辑拆分为“元规则”，分散隐藏在 5 个训练样本中。例如，在 CRM 中隐藏“赞助商优先级”和“黑名单策略”的不同部分。
规则重组：测试样本由这些分散的规则组合而成（如同时触发优先级和黑名单）。
效果：不具备自进化能力的 Agent 只能看到碎片化规则，无法拼凑全貌；而具备自进化能力的 Agent 能归纳规律并迁移至新任务，从而有效区分记忆与泛化。

3. 评估标准：确定性打分与成本考量 GDPevo 制定了严格的评估规矩：

拒绝 LLM-as-a-Judge：采用确定性的规则打分器，基于具体的评分点（rubrics）计算分数。这保证了分数的可复现性（同一答案多次运行得分一致）和可追溯性（明确告知哪条规则未通过），使基准同时成为 Agent 的诊断工具。
成本与准确率并重：不仅关注任务准确率，还记录总 Token 消耗。理想的自进化策略应实现“又准又省”。
极简易用性：评估过程纯自然语言驱动，无需编写适配代码或学习复杂 SDK。用户只需使用 Claude Code 或 Codex 打开工作区，通过自然语言描述实验需求即可自动生成报告和图表。

4. 实验结果验证 研究者在 12 个任务组（共 120 个任务）上测试了三种方案：

Base：不接触训练集，直接测试。
Fewshot：类似监督微调（SFT），先学习训练集答案再测试。
Reflect：类似强化学习（RL），先试错并反思再测试。

测试对象包括 Claude Code、Codex 和 Panofy 三个 Agent。结果显示：

自进化策略能将测试集准确率提升约 17–22%。
Claude Code 和 Codex 在提升准确率的同时，Token 消耗反而降低，实现了效率与效果的双重优化。
在“运营建模”场景中，Codex 准确率从 42.76% 飙升至 92.47%，Claude Code 的 Fewshot 方案更是达到 100%。

关键要点

填补评估空白：GDPevo 是首个针对 GDP 相关真实企业任务（CRM、ERP、Finance）的自进化 Agent 评估基准，解决了复杂规则场景下缺乏自动化评估工具的问题。
自动化数据生产：通过 AI 自动构建数据流水线，以更快的出题速度跑赢模型的记忆速度，有效防止数据泄露，并具备高度的可扩展性。
规则杂交技术：利用“训练集分散规则、测试集组合规则”的策略，强制要求 Agent 进行规则归纳与迁移，而非简单的记忆背诵，从而真实衡量自进化能力。
确定性评估体系：摒弃主观的 LLM 裁判，采用基于规则的确定性打分，确保结果可复现、错误可追溯，兼具评估与诊断功能。
效率与效果双赢：实验证明，具备自进化能力的 Agent 不仅能显著提升准确率（+17-22%），还能通过优化工作流降低 Token 消耗，验证了自进化在商业落地中的实际价值。
开源与易用：项目完全开源，且评估流程无需代码适配，通过自然语言交互即可运行，极大降低了研究和应用门槛。

意义与影响

GDPevo 的发布标志着 AI Agent 从“单次任务执行”向“持续能力积累”迈进的关键一步。

首先，它验证了当前主流 Agent 确实具备初步的自进化能力。通过 GDPevo 的严格测试，Claude Code、Codex 等模型证明了它们不仅能从经验中学习，还能将这种能力泛化到未见过的复杂任务中，这与 Recursive 等机构的研究结论相呼应。

其次，GDPevo 为自进化 Agent 的商业化落地提供了可量化的标准。在金融、合规、审批等高风险、高规则密度的领域，明确的评估基准使得企业能够客观衡量 AI 系统的改进效果，从而更有信心地引入自进化技术以替代重复性人力劳动。

最后，该项目倡导了一种新的研究范式：不再仅仅追求排行榜上的分数，而是通过构建高难度、防作弊的基准，推动 Agent 向真正具备“长记性”和“自我优化”能力的智能体演进。随着 GDPevo 的开源，社区可以在此基础上进一步探索更高效的进化策略，加速 AI 从“工具”向“合作伙伴”的转变。

查看原文 →leiphone.com

GAIR发布GDPevo基准：首把衡量AI Agent自进化能力的尺子

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐