合成数据扩缩放:源扩展和固定源合成各有何用?
速览
合成数据扩缩放有源扩展(SE)和固定源合成(FSS)两条路径。现有研究常混淆两者,将FSS未充分探索。作者通过保持种子问题池和教师模型固定,仅调整拒绝采样响应预算,隔离FSS并适应其缩放定律。实验显示,在相同总样本预算下,SE与FSS小预算时相当,大预算时源扩展更优;FSS内无论新增问题或改变协议,都无法优于单纯RS。这表明FSS是有限的缩放轴,并为比较合成协议提供理想控制环境。
AI 深度解读
背景
近年来,大型语言模型(LLM)的训练越来越依赖于合成数据(synthetic data)来扩充训练集。由于合成数据能够以较低成本生成大量高质量样本,研究者们开始系统性地研究“数据缩放”(data scaling)问题。现有研究通常将数据增长视为源扩张(Source Expansion,简称SE):即通过增加种子素材或生成器来扩大数据源,同时随着数据量增加而逐步扩大生成器规模。
然而,这种做法会将源扩张(SE)和固定源合成(Fixed-Source Synthesis,简称FSS)两个过程混淆在一起,导致对FSS的探索严重不足。固定源合成是指在种子问题池和教师模型保持不变的情况下,只改变每个问题上的生成预算(response budget),而不改变底层数据源本身。这种分离是理解合成数据真正缩放规律的关键。
核心内容
论文提出了一种清晰的实验设计来分离两种缩放方式:作者将种子问题池和教师模型固定不变,仅通过调整每个问题的拒绝采样(Rejection Sampling,简称RS)响应预算来控制合成数据的规模。
为了分析这一过程,作者将修正后的缩放定律(rectified scaling law)适配到FSS场景,并推导出了其理论形式。该形式基于重复采样对固定数据源的覆盖机制。具体而言,当预算增加时,模型对固定源的性能提升会呈现出特定的饱和行为,与原缩放定律不同。
实验结果表明:使用低预算拟合得到的理论形式,能够准确预测在保持不变的教师-学生模型对下,最高预算下的性能表现。这为FSS提供了可靠的预测工具。
在匹配总采样预算的情况下,作者对SE和FSS进行了直接对比:
- 在小预算阶段,两者性能相当。
- 在大预算阶段,添加新种子问题(即进行源扩张)比将相同预算用于增加单条响应的数量更有效。
进一步分析发现,在固定源合成(FSS)内部,无论是尝试从现有种子生成额外问题、还是改变合成协议,都无法在相同预算下超越基础的拒绝采样(RS)。这表明FSS本身构成了一个有界的缩放维度(bounded scaling axis),同时也提供了一个受控环境,用于公平比较不同的合成协议。
论文承诺将代码和数据公开,旨在推动该领域的后续研究。
关键要点
- 现有合成数据研究常将源扩张(SE)和固定源合成(FSS)混淆,导致FSS被严重低估。
- 通过固定种子问题池和教师模型,仅调整每个问题的RS生成预算,可以有效隔离FSS。
- 修正后的缩放定律能从低预算拟合后,精确预测高预算下的FSS性能。
- 在相同总预算下,小预算时SE与FSS相当,大预算时SE(添加种子问题)优于FSS(增加单条响应)。
- 在FSS内部,额外生成新问题或调整协议均无法优于基础RS,FSS为有界缩放轴。
- 该设计为后续合成协议比较提供可复现的受控实验框架。
意义与影响
本研究为合成数据缩放提供了清晰的理论框架和实验范式,有助于解构数据增长的真正来源,避免以往研究中SE与FSS的相互干扰。研究结果显示:在大规模合成数据阶段,单纯增加生成次数的边际收益正在递减,而通过扩展种子材料进行源扩张的效果更优。这为后续LLM训练策略提供直接指导。
同时,论文将FSS确立为一个受控、可比较的实验环境,有利于研究者系统地测试和优化不同的合成协议(如各种生成方法、提示工程等)。代码和数据将公开,预计能加速该领域的研究迭代,推动合成数据在语言模型训练中的更高效应用。
