技术博客arXiv cs.CL·2 小时前

合成数据扩缩放：源扩展和固定源合成各有何用？

原标题：When Does Generating More Help? Disentangling Fixed-Source Synthesis from Source Expansion in Synthetic Data Scaling

速览

合成数据扩缩放有源扩展（SE）和固定源合成（FSS）两条路径。现有研究常混淆两者，将FSS未充分探索。作者通过保持种子问题池和教师模型固定，仅调整拒绝采样响应预算，隔离FSS并适应其缩放定律。实验显示，在相同总样本预算下，SE与FSS小预算时相当，大预算时源扩展更优；FSS内无论新增问题或改变协议，都无法优于单纯RS。这表明FSS是有限的缩放轴，并为比较合成协议提供理想控制环境。

AI 深度解读

背景

近年来，大型语言模型（LLM）的训练越来越依赖于合成数据（synthetic data）来扩充训练集。由于合成数据能够以较低成本生成大量高质量样本，研究者们开始系统性地研究“数据缩放”（data scaling）问题。现有研究通常将数据增长视为源扩张（Source Expansion，简称SE）：即通过增加种子素材或生成器来扩大数据源，同时随着数据量增加而逐步扩大生成器规模。

然而，这种做法会将源扩张（SE）和固定源合成（Fixed-Source Synthesis，简称FSS）两个过程混淆在一起，导致对FSS的探索严重不足。固定源合成是指在种子问题池和教师模型保持不变的情况下，只改变每个问题上的生成预算（response budget），而不改变底层数据源本身。这种分离是理解合成数据真正缩放规律的关键。

核心内容

论文提出了一种清晰的实验设计来分离两种缩放方式：作者将种子问题池和教师模型固定不变，仅通过调整每个问题的拒绝采样（Rejection Sampling，简称RS）响应预算来控制合成数据的规模。

为了分析这一过程，作者将修正后的缩放定律（rectified scaling law）适配到FSS场景，并推导出了其理论形式。该形式基于重复采样对固定数据源的覆盖机制。具体而言，当预算增加时，模型对固定源的性能提升会呈现出特定的饱和行为，与原缩放定律不同。

实验结果表明：使用低预算拟合得到的理论形式，能够准确预测在保持不变的教师-学生模型对下，最高预算下的性能表现。这为FSS提供了可靠的预测工具。

在匹配总采样预算的情况下，作者对SE和FSS进行了直接对比：

在小预算阶段，两者性能相当。
在大预算阶段，添加新种子问题（即进行源扩张）比将相同预算用于增加单条响应的数量更有效。

进一步分析发现，在固定源合成（FSS）内部，无论是尝试从现有种子生成额外问题、还是改变合成协议，都无法在相同预算下超越基础的拒绝采样（RS）。这表明FSS本身构成了一个有界的缩放维度（bounded scaling axis），同时也提供了一个受控环境，用于公平比较不同的合成协议。

论文承诺将代码和数据公开，旨在推动该领域的后续研究。

关键要点

现有合成数据研究常将源扩张（SE）和固定源合成（FSS）混淆，导致FSS被严重低估。
通过固定种子问题池和教师模型，仅调整每个问题的RS生成预算，可以有效隔离FSS。
修正后的缩放定律能从低预算拟合后，精确预测高预算下的FSS性能。
在相同总预算下，小预算时SE与FSS相当，大预算时SE（添加种子问题）优于FSS（增加单条响应）。
在FSS内部，额外生成新问题或调整协议均无法优于基础RS，FSS为有界缩放轴。
该设计为后续合成协议比较提供可复现的受控实验框架。

意义与影响

本研究为合成数据缩放提供了清晰的理论框架和实验范式，有助于解构数据增长的真正来源，避免以往研究中SE与FSS的相互干扰。研究结果显示：在大规模合成数据阶段，单纯增加生成次数的边际收益正在递减，而通过扩展种子材料进行源扩张的效果更优。这为后续LLM训练策略提供直接指导。

同时，论文将FSS确立为一个受控、可比较的实验环境，有利于研究者系统地测试和优化不同的合成协议（如各种生成方法、提示工程等）。代码和数据将公开，预计能加速该领域的研究迭代，推动合成数据在语言模型训练中的更高效应用。

查看原文 →arxiv.org

合成数据扩缩放：源扩展和固定源合成各有何用？

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐