技术博客arXiv cs.AI·12 小时前

通用智能体能否自动化数据策展？研究揭示执行与研究鸿沟

原标题：Can Generalist Agents Automate Data Curation?

速览

研究探讨通用编码智能体能否自动化数据策展循环。引入Curation-Bench基准测试显示，开箱即用智能体在十次迭代内达到强基线，但存在执行与研究鸿沟。通过要求引用和适配先前方法，智能体能自主组合出优于基线且数据预算低十倍的数据选择策略。

在现代人工智能（AI）的开发流程中，训练数据的策展（Data Curation）是极具影响力却极其耗时的人力密集型环节。从业者需要不断提出、实施、评估并修订数据策略，以应对来自噪声基准测试（Noisy Benchmark）的反馈。这一过程通常被称为“数据循环”，其质量直接决定了最终模型的性能上限。

随着通用编码智能体（Generalist Coding Agents）能力的提升，业界开始探索是否可以用这些智能体来自动化这一繁琐的数据策展循环。然而，现有的研究多集中于智能体在单一任务上的表现，缺乏一个标准化的基准来评估智能体在完整数据策展流程中的自主探索与迭代能力。

本文提出并引入了 Curation-Bench，这是一个以智能体为中心的基准测试平台，旨在回答“通用编码智能体能否自动化数据策展”这一核心问题。

该基准测试的核心设计理念是“固定变量，开放操作”：

固定部分：模型架构、训练配方（Training Recipe）以及评估套件（Evaluation Suite）保持不变。
开放部分：赋予智能体命令行访问权限，使其能够：
1. 检查数据分布与质量；
2. 实施数据筛选或增强策略（Data Policies）；
3. 将策略提交到固定的训练/评估管道中；
4. 根据反馈结果进行修订。

这种设计模拟了真实世界中数据科学家的工作流，同时确保了实验的可复现性和公平性。

研究团队在视觉-语言指令微调（Vision-Language Instruction-Tuning）的场景下进行了实例化实验。

开箱即用的表现：未经特殊微调的通用智能体（Out-of-the-box agents）在短短 10 次迭代内，就能达到与已发表的强大数据选择基线（Strong Published Data-Selection Baselines）相当的性能水平。这表明智能体具备执行基本数据策展任务的能力。

通过对智能体行为的轨迹分析，研究人员发现了一个持久的 执行-研究鸿沟（Execution-Research Gap）：

为了解决上述问题，研究引入了“脚手架”机制，要求智能体在每次迭代中必须引用、实例化并适应一种先前的方法。

自动化可行性：通用编码智能体确实可以运行数据策展循环，并在较少迭代次数内达到有竞争力的基线水平。
存在“执行-研究鸿沟”：默认情况下，智能体倾向于在现有策略框架内进行局部优化，而非探索新的策略方向。即使提供文献参考，这种倾向依然存在。
脚手架的关键作用：要求智能体在迭代中引用和适应先前方法（Scaffolds），是引导其进行有效方法探索的关键。这种机制将智能体从“执行者”转变为“方法组合者”。
数据效率的提升：经过脚手架引导的智能体能够自主发现更优的数据选择策略，在大幅减少数据用量（1/10）的同时实现性能超越，证明了自动化数据策展在提升数据效率方面的巨大潜力。
开源贡献：该研究开源了代码和基准测试平台，为社区进一步研究智能体驱动的数据科学提供了基础设施。

这项研究对 AI 开发范式具有深远的影响：

重新定义数据策展的角色：它表明数据策展不再仅仅是人工筛选数据的体力劳动，而是一个可以通过智能体自动化的、具有探索性质的研究过程。
智能体能力的边界界定：研究清晰地划定了当前通用智能体的能力边界——它们擅长执行和微调，但在缺乏结构化引导（如脚手架）时，难以进行真正的科学探索。这为未来智能体架构的设计提供了重要指导：需要引入外部知识结构和约束机制来激发其“研究”能力。
降低 AI 开发门槛与成本：如果智能体能够自主发现高效的数据策略，将大幅降低高质量训练数据获取的成本，并减少对资深数据科学家的依赖。特别是在数据标注和清洗成本高昂的领域，这种自动化能力具有极高的经济价值。
推动“AI for Science”的发展：Curation-Bench 作为一个以智能体为中心的基准，为评估智能体在复杂、多步骤科学工作流中的表现提供了新范式，有助于推动智能体从单一任务解决者向复杂系统研究者演进。

总之，虽然当前的通用智能体尚不能仅靠开放式提示（Open-ended Prompting）实现可靠的数据研究，但通过引入适当的方法论脚手架，它们展现出超越人类基线效率的潜力。这标志着自动化数据科学迈出了关键一步。