技术博客arXiv cs.CL·4 小时前

论文指出大模型后训练本质上是大规模监督学习

原标题：Post-training is (Massive) Supervised Learning

速览

该论文指出，当前大语言模型依赖SFT和RL的后训练范式，实质是回归BERT时代的“预训练加微调”模式。通过对比实验发现，从零开始的后训练能显著提升模型在数学和代码基准上的表现，证明其核心作用是分布拟合。研究主张，要开发通用能力更强的模型，需超越针对特定行为的广泛后训练，转向让模型“学会如何学习”的训练机制。

AI 深度解读

Post-training is (Massive) Supervised Learning：后训练即大规模监督学习

背景

大语言模型（LLM）的训练范式在过去几年中发生了显著演变。目前，行业主流的训练流程已不再仅仅依赖于预训练（Pre-training），而是转向了一个庞大的**后训练（Post-training）阶段。这一阶段主要由监督微调（SFT, Supervised Fine-Tuning）和基于人类反馈的强化学习（RLHF, Reinforcement Learning from Human Feedback）**或其变体（如 DPO）组成。

这种范式转变的初衷是为了让模型更好地遵循指令、对齐人类价值观，并在特定基准测试中表现优异。然而，随着模型规模的扩大和能力的提升，业界开始反思这一流程的本质。本文是一篇立场论文（Position Paper），旨在重新审视当前 LLM 的训练方法论，指出其可能正在回归到类似 BERT 时代的“预训练后微调”模式，即通过大量标注数据将模型强行拟合到特定的行为分布和评估基准上，而非真正赋予模型通用的推理或学习能力。

核心内容

1. 历史回顾与范式回归

文章首先回顾了 LLM 的发展历史，将其划分为不同的阶段。作者指出，当前的 LLM 发展轨迹惊人地类似于早期 LLM 的起步阶段。在早期，模型的性能高度依赖于在分布内（in-distribution）数据集上的拟合程度。

当前的“预训练 + 大规模后训练”范式，本质上是一种**“预训练然后微调”**（pre-train then fine-tune）的回归。这种方法显式地将模型定制化为期望的行为，并针对其被评估的具体基准（benchmarks）进行优化。这意味着，模型可能并没有学会通用的世界知识或推理逻辑，而是学会了如何“模仿”训练数据中的模式以通过测试。

2. 实证分析：预训练 vs. 随机初始化

为了验证“后训练本质上是一种分布拟合机制”这一观点，作者设计了一项对比实验：

实验对象：比较预训练模型与随机初始化模型（Randomly Initialized Models）。
实验过程：对这两类模型都在现代推理数据集上进行微调（Fine-tuning）。
评估指标：在竞争性数学（Math）和代码（Code）基准上进行评估。

3. 实验发现

实验结果揭示了一个令人深思的现象：

即使是从零开始（from scratch）进行后训练的模型，也能产生**高度非平凡（highly non-trivial）**的性能表现。
这意味着，仅仅通过大量的监督数据微调，即使是随机初始化的模型也能在特定任务上取得不错的成绩。

这一发现强烈暗示，当前的后训练方法主要充当的是一种**分布拟合（distribution-fitting）**机制。模型通过拟合训练数据的统计规律来获得能力，而不是通过预训练阶段构建的深层语义理解或逻辑结构来泛化。

4. 未来方向：从“学习行为”到“学会学习”

基于上述发现，文章最后提出，要开发真正通用且具备强大能力的模型和系统，必须超越为预定义行为进行大规模后训练的做法。

未来的研究方向应转向训练程序，使模型能够**“学会如何学习”**（learn how to learn）。这暗示了从静态的、基于数据拟合的方法，向动态的、具备元学习能力（Meta-learning）或更强泛化能力的训练范式的转变。

关键要点

范式本质：当前的 LLM 训练范式（预训练 + SFT + RL）本质上是将模型强行适配到特定行为分布和评估基准上，类似于 BERT 时代的微调策略。
性能来源存疑：模型在数学和代码等复杂任务上的优异表现，可能主要源于对训练数据分布的拟合，而非真正的逻辑推理能力或通用智能。
随机初始化的力量：即使是随机初始化的模型，经过大规模监督微调后，也能在特定基准上取得显著成绩，这削弱了预训练阶段构建深层表征的必要性假设（至少在特定任务层面）。
过度拟合风险：当前的后训练方法可能导致模型过度优化于已知分布，缺乏对未见分布的泛化能力。
未来趋势：需要摆脱对预定义行为的大规模后训练依赖，转而探索让模型具备“学会学习”能力的训练机制，以实现真正的通用人工智能。

意义与影响

1. 对模型评估的挑战

如果模型的性能主要来自于对训练数据分布的拟合，那么现有的基准测试（Benchmarks）可能无法准确反映模型的通用推理能力。许多“SOTA”（State-of-the-Art）模型可能只是在过拟合测试集或训练集中的模式。这要求社区重新思考评估指标，开发更具挑战性、更能检测泛化能力的基准。

2. 对训练资源的重新审视

大规模后训练（尤其是 RLHF 和复杂 SFT）需要巨大的计算资源和人工标注成本。如果这些资源主要用于“分布拟合”，而非提升模型的通用智能，那么其投入产出比（ROI）值得商榷。行业可能需要重新分配资源，探索更高效的训练方法，如自监督学习的深化或元学习的应用。

3. 技术路线的潜在转向

本文的观点可能促使研究界从“堆砌数据+强化对齐”转向“提升预训练质量+增强推理能力”。例如，更多关注于：

数据质量：而非仅仅是数据量。
算法创新：如改进的预训练目标，使模型在预训练阶段就具备更强的逻辑结构。
推理增强：如思维链（Chain-of-Thought）的内在化，而非仅仅通过后训练模仿推理过程。

4. 对“通用人工智能”定义的反思

如果后训练只是监督学习，那么它可能无法通向真正的 AGI。AGI 的核心特征之一是适应新环境和新任务的能力，而不仅仅是复现已知模式。本文呼吁的“学会如何学习”正是 AGI 的关键特征之一，这为未来的 AI 研究指明了更具挑战但也更有价值的方向。

查看原文 →arxiv.org