技术博客arXiv cs.CL·14 小时前

CodeAlchemy：大规模合成代码重写框架生成5000亿Token

原标题：CodeAlchemy: Synthetic Code Rewriting at Scale

速览

CodeAlchemy是一个合成数据生成框架，通过代码增强、问答生成、开发者任务、多轮对话和执行轨迹追踪等5种策略，将公开代码转化为语义丰富的训练数据。该框架处理了15种语言的语料库，生成了超过5000亿Token的合成数据及3500亿推理Token。实验显示，其训练的3B模型在多项基准测试中表现优异，性能超越规模大10倍的顶尖模型。

AI 深度解读

CodeAlchemy：大规模合成代码重写技术深度解读

背景

在大型语言模型（LLM）的训练过程中，预训练数据的质量与多样性直接决定了模型的能力上限。目前，主流模型主要依赖互联网上公开获取的原始代码进行预训练。虽然这种方法能够有效地教会模型编程语言的语法结构，但在面对现实世界中多样化、复杂的具体任务格式时，原始代码提供的信号往往过于稀疏且缺乏深度。

尽管合成数据（Synthetic Data）已被证明对自然语言处理模型具有变革性作用，但在代码领域，除了有限的代码质量提升外，合成数据的应用仍处于探索阶段。现有的代码生成方法难以覆盖丰富的语义场景，导致模型在理解复杂逻辑、执行追踪以及多轮交互任务时表现不佳。为了填补这一空白，研究人员提出了 CodeAlchemy 框架，旨在通过系统化的合成数据生成策略，将公开源代码转化为语义丰富的高质量训练数据。

核心内容

CodeAlchemy 是一个大规模合成数据生成框架，其核心目标是通过五种特定的策略，将公共来源的代码转化为具有高度语义丰富性的训练数据。该框架处理了涵盖 15 种编程语言的 3 个代码语料库，生成了超过 5000 亿（500B+）个 token 的合成数据，以及 3500 亿（350B）个推理 token。这一数据规模比 prior efforts（先前努力）高出几个数量级。

五大核心策略

CodeAlchemy 通过以下五种策略实现数据的增强与多样化：

CodeEnhance（质量感知重写）：针对原始代码进行质量感知的重写。这不仅包括修复语法错误，还涉及优化代码结构、提高可读性以及增强注释，从而生成更高质量、更规范的代码样本。
CodeQA（基于模板的问题生成）：基于代码模板自动生成编程问题。这种方法能够构建大量标准化的问答对，用于训练模型解决特定类型的编程任务，增强其问题求解能力。
CodeDev（开发者任务）：模拟真实开发场景中的任务，如功能实现、bug 修复或代码重构。这些数据旨在训练模型理解软件开发的生命周期和实际工程需求。
CodeDialogue（多轮对话）：生成多轮代码相关的对话数据。这包括开发者与助手之间的交互，涉及代码解释、调试建议和技术咨询，从而提升模型在上下文理解和服务能力方面的表现。
CodeTrace（执行追踪）：这是该框架最具创新性的部分之一。CodeTrace 对代码进行仪器化（instrumentation）并执行，捕获控制流、状态跟踪以及库知识。具体而言，该策略对跨 14 种语言、5000 多个库的 130 万多个文件进行了处理，生成了详细的执行轨迹数据。

评估基准与性能表现

为了验证合成数据的有效性，研究团队引入了两个新的评估基准：

DevEval：专注于评估开发者任务的表现。
TraceEval：专注于评估执行预测能力。

在 TraceEval 基准测试中，即使是前沿模型如 Claude Sonnet 4.5，其精确匹配率（exact match）也仅为 5.6%。这一结果揭示了当前顶级模型在语义理解和执行追踪方面存在巨大的能力缺口。

相比之下，使用 CodeAlchemy 数据训练的 3B 参数模型 展现出了惊人的性能：

HumanEval：达到 83.5% 的得分。
MBPP：达到 63.2% 的得分。
DevEval：胜率达到 8.09%。
TraceEval：ROUGE-2 得分为 15.36。

令人瞩目的是，这个仅 3B 参数的模型在多项指标上超越了参数量为其 10 倍的前沿模型，包括 27B 的 Gemma-3 和 32B 的 Granite-4.0。这证明了高质量、语义丰富的合成数据在提升模型效率方面的巨大潜力。

关键要点

数据规模突破：CodeAlchemy 生成了 5000 亿+ token 的合成代码数据和 3500 亿 token 的推理数据，规模远超以往研究。
五大增强策略：通过 CodeEnhance、CodeQA、CodeDev、CodeDialogue 和 CodeTrace 五种策略，全面覆盖代码质量、问题生成、开发任务、对话交互和执行追踪。
执行追踪创新：CodeTrace 策略对 130 万+ 文件进行仪器化执行，捕获控制流和状态，解决了模型难以理解代码动态执行过程的问题。
前沿模型表现不佳：在 TraceEval 基准上，Claude Sonnet 4.5 等顶级模型的精确匹配率仅为 5.6%，暴露出当前模型在语义理解上的严重不足。
小参数模型超越大模型：3B 参数的 CodeAlchemy 训练模型在 HumanEval、MBPP 等基准上表现优异，并超越了 10 倍参数量的 Gemma-3 和 Granite-4.0，证明了数据质量的重要性优于单纯的数据规模。

意义与影响

CodeAlchemy 的研究成果对代码大模型的发展具有深远的影响。首先，它证明了合成数据在代码领域的巨大潜力。通过精心设计的策略，可以将廉价的公开代码转化为高价值的训练资源，从而缓解高质量标注数据稀缺的问题。

其次，执行追踪（CodeTrace）的引入为模型理解代码的动态行为提供了新的途径。传统的代码预训练主要关注静态语法，而 CodeTrace 让模型能够“看到”代码的运行过程，这对于调试、优化和复杂逻辑推理至关重要。TraceEval 基准中前沿模型的低分表明，当前模型在“理解代码如何工作”方面仍有巨大提升空间，这为未来的研究方向指明了路径。

最后，小模型的高效性展示了数据质量对模型性能的杠杆效应。在算力成本日益高昂的背景下，通过高质量合成数据训练小参数模型，可能成为一种更具性价比的替代方案。这不仅降低了部署和推理的成本，也为在资源受限环境下部署高性能代码助手提供了可能。CodeAlchemy 框架及其生成的数据集，有望成为推动代码 AI 从“语法模仿”向“语义理解”迈进的关键基础设施。

查看原文 →arxiv.org