← 返回信息流
技术博客arXiv cs.CL·3 小时前

大模型继续预训练最优超参数遵循可预测缩放定律

原标题:Predictable Scaling Laws of Optimal Hyperparameters for LLM Continued Pre-training

速览

针对大语言模型继续预训练中超参数配置依赖启发式搜索导致成本高、不稳定的问题,研究首次发现最优超参数遵循稳定的可预测缩放定律。基于此,提出包含经验定律发现与状态感知超参数预测的新框架,通过评估检查点损失估算等效预训练算力,从而预测最优超参数。实验表明该方法将超参数搜索开销降低高达90%,且性能优于基线,适用于多种架构的继续预训练场景。

AI 深度解读

大语言模型继续预训练:最优超参数的可预测缩放定律

背景

在大语言模型(LLM)的持续预训练(Continued Pre-training)实践中,超参数配置——特别是学习率(Learning Rate)和批次大小(Batch Size)——直接决定了模型训练的有效性与最终性能。然而,当前的行业惯例往往依赖于经验法则(Heuristics)或耗时的网格搜索(Grid Search)。这种“试错法”不仅导致训练过程的不稳定,还造成了巨大的计算资源浪费和成本激增。

尽管基础的缩放定律(Scaling Laws)在从头预训练(Pre-training from scratch)中已被广泛研究,但在针对特定检查点(Checkpoint)进行继续预训练时,如何根据现有的模型状态和计算预算快速确定最优超参数,仍缺乏系统性的理论指导。这一空白使得许多开发者在面对不同架构或不同阶段的模型时,不得不重新投入大量算力进行超参数调优。

核心内容

本文提出了一项开创性的实证研究,首次揭示了在 LLM 继续预训练过程中,最优超参数遵循稳定且可预测的缩放定律。基于这一发现,作者提出了一种新颖的框架,旨在建立计算预算(Compute Budget)与给定检查点最优超参数之间的定量关系。

该框架主要包含两个核心阶段:

1. 经验定律发现(Empirical Law Discovery)

在这一阶段,研究团队利用小规模代理模型(Proxy Models)进行训练。通过应用标准的损失-计算缩放定律(Loss-Compute Scaling Laws),他们推导出了将计算预算映射到最优超参数的函数关系。这一步骤旨在从基础数据中提炼出超参数随计算资源变化的通用规律。

2. 状态感知超参数预测(State-Aware Hyperparameter Prediction)

这是该框架的关键创新点。对于任意一个给定的初始检查点,系统首先评估其验证集损失(Validation Loss)。随后,利用逆向缩放定律,估算该检查点的“等效预训练计算量”(Equivalent Pre-training Compute)。

  • 等效预训练计算量的定义是:如果从头开始训练,需要多少计算量才能达到当前检查点所表现出的相同损失水平。
  • 通过将这一“等效计算量”与计划用于继续预训练的额外计算预算相结合,框架能够精准预测出目标运行阶段的最优超参数。

这种方法不仅考虑了当前的模型状态,还结合了未来的资源规划,从而实现了超参数的动态调整。

关键要点

  • 超参数具有可预测性:实证研究表明,在继续预训练的全过程中,最优超参数并非随机波动,而是遵循稳定的缩放定律。
  • 双阶段预测框架
    1. 利用小模型建立“计算量-超参数”的映射函数。
    2. 利用大模型检查点的验证损失,反推其“等效预训练计算量”,并结合新预算预测最优超参数。
  • 显著降低搜索成本:实证结果显示,该方法将超参数搜索的开销降低了高达 90%
  • 性能相当或更优:在减少搜索成本的同时,该方法 achieved 与基线方法(Baselines)相当甚至更优的模型性能。
  • 架构无关性(Model-Agnostic):该框架具有通用性,能够跨不同模型架构泛化,适用于从任意检查点开始的多样化继续预训练场景。

意义与影响

这项研究为 LLM 的继续预训练提供了一套原则性强且高效的方法论。其核心价值在于将超参数调优从一种依赖经验的“艺术”转变为基于数据的“科学”。

  1. 资源效率提升:对于拥有有限计算预算的研究机构或企业而言,减少 90% 的超参数搜索开销意味着可以将宝贵的算力集中在模型训练本身,而非调试过程中。
  2. 降低技术门槛:通过自动化的预测框架,开发者无需具备深厚的超参数调优专家知识,即可为不同规模、不同阶段的模型配置合理的训练参数。
  3. 通用性潜力:由于该框架是模型无关的,它有望成为 LLM 生态系统中标准化工具链的一部分,适用于从开源模型(如 Llama 系列)到专有模型的各类继续预训练任务,包括领域适应(Domain Adaptation)和指令微调前的预训练等场景。

总之,这项工作填补了继续预训练理论中的关键空白,为构建更智能、更自动化的大模型训练流水线奠定了坚实基础。

查看原文 →arxiv.org