技术博客arXiv cs.AI·3 小时前

DataStates-LLM：利用组合状态提供者实现Transformer模型的可扩展检查点

原标题：DataStates-LLM: Scalable Checkpointing for Transformer Models Using Composable State Providers

速览

针对万亿参数大模型训练中的检查点瓶颈，DataStates-LLM引入State Providers解耦状态抽象与数据移动。该架构利用模型参数的不可变性，执行非阻塞的异步快照，并合并异构分片以重叠元数据序列化与张量I/O。在70B参数模型上的测试显示，其检查点吞吐量提升最高4倍，端到端训练时间缩短2.2倍。

AI 深度解读

DataStates-LLM：利用组合式状态提供程序实现 Transformer 模型的可扩展检查点机制

背景

随着基于 Transformer 的大规模语言模型（LLMs）的迅速增长，模型参数量已扩展至万亿级别。为了训练如此庞大的模型，必须使用数千个 GPU，并采用复杂的混合并行策略，包括数据并行（Data Parallelism）、张量并行（Tensor Parallelism）和流水线并行（Pipeline Parallelism）。

在这种极端规模的分布式训练环境中，对巨大的分布式模型状态进行“检查点”（Checkpointing，即保存模型状态以便后续恢复或分析）变得至关重要。检查点机制对于多种用例不可或缺，例如：

容错性：在硬件故障或软件崩溃后恢复训练。
挂起与恢复：暂停训练以释放资源，并在稍后继续。
轨迹调查：分析训练过程中出现的不良轨迹或异常行为。
模型演化解释：理解模型随时间演化的过程。

然而，现有的检查点解决方案通常将模型状态视为不透明的二进制数据块（opaque binary blobs），忽略了底层数据结构的“3D 异构性”（3D heterogeneity）。这种异构性体现在多个维度：

内存位置：数据分布在 GPU 显存与主机内存（Host Memory）之间。
逻辑对象数量：单个逻辑对象被分片（sharded）并分散在多个文件中。
数据类型：包括张量（Tensors）与 Python 对象等不同类型的序列化需求。

这种处理方式导致了显著的运行时间开销，主要源于阻塞式的设备到主机（Device-to-Host）数据传输、对数据无感知（data-oblivious）的序列化过程，以及存储 I/O 的竞争冲突。

核心内容

为了解决上述瓶颈，研究人员提出了 DataStates-LLM，这是一种新颖的检查点架构，旨在通过“状态提供程序”（State Providers）将状态抽象与数据移动解耦。

1. 利用不可变性进行异步快照

DataStates-LLM 的核心创新在于利用了模型参数在前向传播（Forward Pass）和后向传播（Backward Pass）过程中的不可变性（Immutability）。基于这一特性，系统能够执行“惰性”（Lazy）、非阻塞的异步快照。这意味着在模型计算过程中，检查点操作可以在后台并行进行，而不会阻塞主训练循环。

2. 组合式状态提供程序（Composable State Providers）

通过引入 State Providers 概念，DataStates-LLM 能够高效地合并碎片化、异构的分片数据。具体而言：

数据合并：将分散在不同位置、不同格式的数据片段进行有效整合。
I/O 重叠：系统能够重叠（Overlap）元数据序列化与大规模张量 I/O 操作。这意味着在读取或写入大量张量数据的同时，元数据的处理也在并行进行，从而最大化利用带宽并减少等待时间。

3. 性能评估

研究团队在 256 个 A100-40GB GPU 上，对参数量高达 700 亿（70B）的模型进行了评估。实验结果表明，与最先进的解决方案相比：

检查点吞吐量：DataStates-LLM 实现了高达 4倍的提升。
端到端训练时间：减少了高达 2.2倍 的时间。

这一结果有效地缓解了极端规模 LLM 训练中序列化瓶颈和异构性带来的性能障碍。

关键要点

解决异构性痛点：现有方案忽略数据在内存位置、分片方式和数据类型上的异构性，导致严重的 I/O 和序列化开销；DataStates-LLM 专门针对这种“3D 异构性”进行了优化。
非阻塞异步机制：利用模型参数在训练步骤中的不可变性，实现非阻塞的异步检查点快照，避免阻塞主训练进程。
状态抽象解耦：通过 State Providers 将状态的定义与数据的实际移动分离，提高了系统的灵活性和效率。
元数据与数据 I/O 重叠：通过合并碎片化数据并重叠元数据序列化与张量 I/O，显著提升了存储效率。
显著的性能提升：在 70B 参数模型和 256 个 A100 GPU 的测试环境中，检查点吞吐量提升 4 倍，整体训练时间缩短 2.2 倍。

意义与影响

DataStates-LLM 的提出标志着大规模分布式训练基础设施的一个重要进步。随着模型规模向万亿参数迈进，训练成本和时间已成为主要制约因素。任何能够减少检查点开销的技术，都能直接转化为更高的训练效率和更低的资源成本。

提升训练效率：通过减少 I/O 等待和序列化时间，DataStates-LLM 使得 GPU 集群可以更专注于计算任务，从而加速模型收敛。
增强系统可靠性与灵活性：高效的检查点机制使得“挂起-恢复”和故障恢复变得更加经济可行，允许训练任务更灵活地适应资源调度需求。
推动极端规模训练：该架构为未来更大规模（如万亿参数）模型的训练提供了可行的技术路径，证明了通过细粒度的数据管理和异步 I/O 优化，可以突破现有的存储和带宽瓶颈。

总之，DataStates-LLM 不仅是一个性能优化工具，更是为应对下一代超大规模 AI 模型训练挑战而设计的关键基础设施组件。

查看原文 →arxiv.org