技术博客arXiv cs.AI·2 小时前

AI科学需研究训练动态而非事后修补

原标题：Position: Don't Just "Fix it in Post": A Science of AI Must Study Training Dynamics

速览

本文提出AI科学必须超越将模型视为静态产物的传统视角，转而深入研究塑造模型行为的数据、目标及优化动态。研究应致力于从早期训练信号预测结果，并在轨迹偏离时进行干预，最终设计出能可靠产生期望属性的训练流程。尽管缩放定律已使损失预测成为常态，但将这一成功扩展至能力、偏见、鲁棒性及安全性等关键领域仍面临挑战。

AI 深度解读

观点：不要只靠“后期修复”，AI 科学必须研究训练动力学

来源：arXiv cs.AI 提交日期：2026年6月3日标题：Position: Don't Just "Fix it in Post": A Science of AI Must Study Training Dynamics

背景

当前人工智能（AI）研究的主流范式存在一个根本性的认知偏差：我们将模型视为静态的、固定的产物，而非动态演化过程的结果。在大多数研究中，科学家和工程师倾向于在模型训练完成之后，去分析其行为、偏差或安全性问题，这类似于电影制作中的“后期修复”（Fix it in Post）——即假设前期拍摄（训练过程）的问题可以通过后期的剪辑和特效（后处理或微调）来解决。

然而，这种观点忽视了模型本质上是数据、目标函数、架构设计以及优化动力学共同作用下，随时间演化的快照。随着大语言模型（LLMs）和其他生成式 AI 系统的规模不断扩大，仅仅关注最终模型的输出行为已不足以解释其内部机制或预测其潜在风险。我们需要一种新的科学视角，将研究重心从“结果”转向“过程”，即深入探究塑造模型行为的训练动力学（Training Dynamics）。

核心内容

本文是一篇立场论文（Position Paper），旨在论证建立一门真正的“AI 科学”的必要性，并明确提出该科学的核心任务应当是研究训练动力学，而非仅仅对训练后的模型进行事后修补。

1. 从静态对象到动态过程

文章指出，AI 模型并非静止不变的物体。它们是特定时间点上的快照，其形态和性质由以下因素共同塑造：

数据分布：训练数据的构成和偏差。
目标函数：优化过程中试图最小化的损失函数。
架构设计：神经网络的结构和参数初始化。
优化动力学：梯度下降等优化算法在训练过程中的具体行为。

现有的许多 AI 研究将模型视为固定的人工制品（fixed artifacts），仅在训练结束后分析其表现。这种做法无法回答“为什么这些行为会出现”这一根本问题。

2. AI 科学的三个理解层级

作者提出，真正的 AI 科学应当支持逐步增强的理解形式，具体包括三个层级：

预测（Predicting）：能够从早期的训练信号中预测最终的模型行为。这类似于通过观察胚胎发育的早期阶段来预测成年后的特征。
干预（Intervening）：当模型的训练轨迹偏离预期或出现错误时，能够及时介入并纠正。
设计（Designing）：最终目标是设计训练程序，以更可靠地产生所需的属性（如安全性、鲁棒性、公平性），而不是依赖运气或事后修补。

3. 从损失函数到能力与行为的扩展

过去几年，缩放定律（Scaling Laws）的成功使得预测损失函数（Loss）的变化变得常规化。然而，当前的挑战在于将这种预测能力扩展到更复杂的领域，包括：

能力（Capabilities）：模型何时获得特定技能？
偏差（Biases）：社会或数据偏差如何在训练中形成并固化？
鲁棒性（Robustness）：模型对对抗性攻击或分布外数据的抵抗力如何随训练演化？
安全相关行为（Safety-relevant behaviors）：有害行为或幻觉是如何在训练过程中涌现的？

4. 理论基础与现状评估

文章基于科学史和科学哲学的要求，阐述了构建此类理论的基础。同时，作者审查了当前在以下领域的进展：

机械可解释性（Mechanistic Interpretability）：试图打开黑盒，理解神经元和回路的具体功能。
公平性（Fairness）：研究偏差的来源和缓解机制。
记忆化（Memorization）：模型如何记忆训练数据及其对隐私和过拟合的影响。
简约性偏差（Simplicity Bias）：模型倾向于学习简单规则的现象。

最后，文章识别了该领域具体的开放性问题（Open Problems），呼吁社区共同解决这些挑战，以推动 AI 研究从工程实践向严谨科学转变。

关键要点

范式转变：AI 研究必须从关注“静态模型”转向关注“动态训练过程”。模型是训练动力学的时间快照，而非孤立存在的实体。
反对“后期修复”：依赖训练后的微调或后处理来纠正根本性缺陷是低效且不可靠的。必须在训练过程中理解和控制行为的涌现。
科学目标：AI 科学的目标不仅是描述模型行为，更是为了预测早期训练信号对最终结果的影响，干预不良的训练轨迹，并设计能可靠生成期望属性的训练流程。
超越损失函数：虽然缩放定律已成功预测损失，但科学界亟需建立类似的理论框架，以预测能力、偏差、鲁棒性和安全性等高层级行为。
跨学科基础：构建 AI 科学需要结合科学史、科学哲学、机械可解释性、公平性研究等多领域的知识。
当前进展与缺口：尽管机械可解释性和公平性研究取得了一定进展，但仍缺乏统一的理论框架来解释训练动力学如何具体导致这些现象，存在大量未解决的开放性问题。

意义与影响

这篇立场论文对 AI 研究社区具有深远的指导意义，主要体现在以下几个方面：

重塑研究重心：它挑战了当前以“刷榜”和“最终性能”为导向的研究文化，呼吁研究者投入更多资源去理解模型训练的中间过程。这将促使更多研究关注训练曲线、优化路径和早期信号分析。
提升可控性与安全性：如果 AI 科学能够实现对训练动力学的预测和干预，那么我们将能够更早地发现并纠正模型中的安全隐患、偏见或幻觉，从而构建更可靠、更安全的 AI 系统。这对于负责任地部署大规模 AI 模型至关重要。
推动理论突破：通过强调“简约性偏差”、“记忆化”等具体机制的研究，文章为机械可解释性提供了更明确的理论方向。这有助于打破深度学习模型的“黑盒”状态，使其行为更加透明和可解释。
优化资源配置：理解训练动力学有助于更智能地分配计算资源。例如，通过预测哪些数据或超参数配置会导致不良行为，可以避免在无效训练上的浪费，提高研发效率。
建立科学标准：正如物理学或生物学拥有其核心定律一样，AI 领域也需要建立基于训练动力学的科学定律。这将使 AI 从一门“手艺”转变为一门严谨的“科学”，为未来的技术创新奠定坚实的理论基础。

总之，这篇文章不仅仅是对现有研究方法的批评，更是一份行动纲领，呼吁 AI 社区共同构建一门基于训练动力学的 AI 科学，以实现从“盲目缩放”到“精准控制”的跨越。

查看原文 →arxiv.org