← 返回信息流
AI 资讯Hacker News·4 天前

谨慎对待缩放定律

原标题:Scaling Laws, Carefully

速览

文章指出,尽管缩放定律预测模型性能随参数和数据增长而提升,但盲目扩大规模可能带来效率低下和不可持续的成本。作者强调,在追求更大模型时需审慎权衡收益与资源消耗,避免陷入“越大越好”的误区。这一观点对当前AI行业的算力竞赛具有警示意义。

AI 深度解读

背景

Scaling Laws(缩放定律)是深度学习领域最重要的实证发现之一。其核心观察简洁明了:当我们扩大模型参数量 $N$、数据集大小 $D$ 和计算量 $C$ 时,训练损失 $L$ 会按照幂律曲线(power-law curve)可预测地下降,在双对数坐标图上表现为一条直线。

我们可以将 Scaling Laws 视为一个描述计算、损失、模型规模与数据之间关系的框架。其核心在于:如何在 $N$ 和 $D$ 之间最优地分配宝贵的计算资源。

这种可预测性使 Scaling Laws 在实践中极具价值。常见的工作流程是:在少量小规模训练上拟合缩放定律,然后外推以估算更大模型所需的 token 数量和计算量。

核心内容

早期研究:机器学习损失的可预测性

在 Scaling Laws 成为主流概念之前,研究者已经对泛化误差随规模变化的可预测性进行了探索。

Amari 等人(1992) 使用贝叶斯方法和退火近似推导了四种类型的学习曲线:

  1. 确定性学习算法、无噪声数据、唯一解:$\epsilon \sim c \cdot D^{-1}$,其中 $c$ 为常数。
  2. 确定性学习算法、无噪声数据、多个等效解:$\epsilon \sim c \cdot D^{-2}$;每个新数据点带来的学习效果更好,因为模型只学习最优参数流形,而非寻找单一解点。
  3. 确定性学习算法、有噪声数据:$\epsilon \sim c \cdot D^{-1/2}$;数据中的噪声使学习变得更困难。
  4. 随机学习算法、有噪声数据:$\epsilon \sim c \cdot D^{-1} + E$;其中不可约损失 $E$ 是随机学习器无法进一步减少的残差误差,例如当模型在大数据上耗尽容量时。

所有四种学习曲线都遵循幂律形式,其中 $E$ 可以为 0,$\alpha = -2, -1, -1/2$。尽管理论设定基于简化的二分类任务,但它为构建实证的 ML 损失预测模型指明了方向。

Hestness 等人(2017) 最早进行实证研究之一,解释了泛化误差、模型规模和数据之间的关系。对于给定的训练数据大小,他们通过网格搜索确定最佳拟合模型大小,然后绘制损失与训练数据集大小的关系图。在深度学习的四个不同领域(神经机器翻译、图像分类、语言建模、语音识别)中,观察到一个重复出现的模式:

  • 泛化误差随一系列因素(如数据大小)按幂律缩放。
  • 模型改进会移动误差曲线,但似乎不影响幂律指数。
  • 有趣的是,架构改变的是幂律拟合的偏移量($E$),而非指数($\alpha$)。幂律的斜率似乎是问题域的特性,而非模型架构的特性。
  • 拟合大小为 $D$ 的数据集所需的模型参数数量 $N$ 也按幂律缩放。

一个概念性图示将学习曲线分为三个阶段。在小数据区域,学习信号不足时,模型表现仅略优于随机猜测。在中间("幂律区域"),我们观察到损失、数据和模型大小之间的幂律关系。最终的不可约误差区域可归因于数据中的噪声等因素。

Rosenfeld 等人(2020) 进一步推进了这一研究,尝试将误差建模为模型大小 $N$ 和数据大小 $D$ 的联合函数,涵盖多种架构(ResNet、WRN、LSTM、Transformer)和优化器(Adam、SGD 变体)。他们在实证中观察到,固定一个轴时,误差随另一个轴按幂律衰减:

这可以组合成联合形式:

其中 $A > 0, B > 0, \alpha \geq 0, \beta \geq 0$ 是标量常数,$E$ 不依赖于 $N$ 或 $D$。

因此,他们可以构建一个简单的参数函数形式的预测模型,参数为 $\boldsymbol{\theta} = \langle A, B, E, \alpha, \beta \rangle$,仅通过在较小训练配置 $(D, N)$ 上训练,来预测 $(D, N)$ 超过某些阈值时的预期损失。

旁注:这些早期工作依赖于 VC 维(模型能打散的最大点集基数)等经典学习理论直觉作为容量的代理指标,但在现代深度学习研究中,VC 维通常过于粗糙而无法解释行为,实证幂律结果比理论提供的最坏情况界限要简洁和实用得多。

数据无限区域的 Scaling Laws

Kaplan 等人的 Scaling Laws

Kaplan 等人(2020)在语言模型社区推广了 Scaling Laws 的概念。他们发现,交叉熵测试损失 $L$ 随模型大小 $N$(不包括嵌入层)、数据集大小 $D$ 和训练计算量 $C$ 各自按幂律缩放,跨越多个数量级。这些发现与上一节的早期工作一致,但 Kaplan 等人以 Transformer 语言模型为重点,通过更大规模的实证研究(模型参数量从 7.68 亿到 15 亿非嵌入参数,数据集从 2200 万到 230 亿 token)将这一概念形式化。论文中所有训练运行都使用学习率调度:3000 步线性预热,然后余弦衰减至零。

关键发现列表

  • 损失 $L$ 随 $N$、$D$ 和 $C$ 各自按幂律缩放;为获得最佳性能,三者必须同步缩放。
  • 训练曲线遵循可预测的幂律,其参数大致与模型大小无关。
  • 大模型更具样本效率,意味着它们比小模型用更少的优化步骤和更少的训练数据点达到给定的损失。
  • 架构细节(宽度、长宽比等)不如纯粹的规模重要
查看原文 →lilianweng.github.io