技术博客arXiv cs.AI·1 小时前

CODA-BENCH：首个评估代码智能与数据智能协同的基准

原标题：CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?

速览

论文发布CODA-BENCH，这是首个联合评估代码智能与数据智能的数据密集型基准。该基准基于Kaggle生态系统构建，包含1009个任务，模拟真实开发中的复杂文件层级和数据规模。评估显示，即使是顶级AI代理在整合数据发现与代码执行时成功率仅为61.1%，揭示了当前智能体在处理数据密集型任务方面的显著不足。

AI 深度解读

CODA-BENCH：代码智能体能否驾驭数据密集型任务？

背景

随着大型语言模型（LLM）和智能体（Agents）技术的飞速发展，高级 AI 智能体正展现出作为“自主工程师”的巨大潜力。它们不再仅仅是代码补全工具，而是能够独立规划、执行复杂软件工程任务。然而，这种能力的评估体系却滞后于技术发展。

在真实的软件开发场景中，开发者往往需要同时处理两个维度的复杂性：一是复杂的代码逻辑，二是大规模的数据资源（即文件系统）。现有的评估基准（Benchmarks）通常存在明显的割裂：要么专注于评估纯代码生成能力（Code-centric），要么专注于评估数据处理能力（Data-centric），很少能将两者结合起来。这种孤立的评价方式无法真实反映现实世界中“数据驱动型开发”的复杂性，导致我们难以准确判断当前 AI 智能体在真实工程场景下的实际水平。

为了填补这一空白，研究人员引入了 CODA-BENCH，这是首个在数据密集型环境中联合评估代码智能与数据智能的基准测试。

核心内容

CODA-BENCH 旨在模拟真实的、数据密集型的开发环境，以检验智能体在发现数据、理解数据结构以及编写代码进行分析这一完整链路中的表现。

1. 环境构建：基于 Kaggle 的 Linux 沙盒

CODA-BENCH 构建了一个基于 Kaggle 生态系统的数据密集型 Linux 沙盒环境。Kaggle 是一个拥有海量公开数据集的平台，CODA-BENCH 从中选取了数百个数据集，构建了一个接近真实世界复杂度的文件系统。

在这个环境中，智能体面临的核心挑战是“数据发现”（Data Discovery）。与传统的简单数据集不同，这里的文件层级复杂，数据分布分散。智能体必须主动探索复杂的文件目录结构，从噪音中识别出与任务相关的关键资源，然后才能基于这些数据生成代码以完成分析任务。

2. 任务规模与构成

CODA-BENCH 包含 1,009 个任务，覆盖了 31 个不同的社区/领域（communities）。每个任务环境平均包含 980 个文件。这种规模设计旨在模拟真实开发中的数据体量以及随之而来的数据噪音，迫使智能体具备处理非结构化、大规模文件系统的鲁棒性。

3. 评估结果：顶级智能体的困境

研究团队对当前最先进的代码智能体进行了评估。结果显示，即使是最顶尖的系统，在将“数据发现”与“代码执行”有效结合方面仍面临巨大困难。

成功率仅为 61.1%：这意味着在超过三分之一的任务中，智能体未能成功完成任务。
主要瓶颈：失败的主要原因并非代码生成能力不足，而是智能体难以在庞大的文件系统中准确定位相关数据，或者无法将发现的数据与后续的分析代码逻辑正确关联。

这一结果揭示了一个显著的能力缺口：当前的 Agentic（智能体）技术在处理数据密集型任务时，其数据感知能力与代码执行能力之间存在严重的脱节。

关键要点

填补评估空白：CODA-BENCH 是首个联合评估代码智能与数据智能的基准，解决了现有基准仅孤立评估代码或数据的局限性。
真实场景模拟：通过基于 Kaggle 构建的 Linux 沙盒，模拟了包含数百数据集、平均近千个文件的复杂文件系统，引入了真实世界的数据噪音和层级复杂性。
核心挑战是“数据发现”：任务要求智能体主动探索文件层级以识别相关资源，这比单纯的代码生成更具挑战性，因为涉及对非结构化文件系统的理解。
性能瓶颈明显：尽管是顶级智能体，在 CODA-BENCH 上的成功率仅为 61.1%，表明当前 AI 在整合数据探索与代码执行方面存在显著短板。
未来研究方向：研究结果指出了未来 AI 智能体发展的关键方向，即如何提升智能体在大规模、高噪音数据环境下的数据定位与分析能力。

意义与影响

CODA-BENCH 的发布对 AI 智能体领域具有重要的里程碑意义：

更贴近现实的评估标准：它迫使研究者和开发者正视“数据密集型”这一真实开发常态，推动评估体系从“理想化的代码生成”向“复杂的工程实践”转变。
揭示能力短板：61.1% 的成功率是一个警示信号。它表明，虽然 LLM 在代码生成上表现优异，但在处理真实世界杂乱、庞大的数据资源时，其“智能体”属性（如规划、探索、反思）尚未成熟。
指导模型优化：这一基准为模型优化提供了明确的目标。未来的研究不应仅关注代码生成的准确率，更应关注智能体如何高效地索引、检索和理解文件系统结构，以及如何将数据洞察转化为可执行的代码逻辑。
推动自主工程师的发展：只有当智能体能够像人类工程师一样，在海量数据中抽丝剥茧并编写出正确的分析代码时，真正的“自主软件工程师”才可能实现。CODA-BENCH 为这一愿景提供了关键的度量衡。

查看原文 →arxiv.org