技术博客Hugging Face Blog·8 天前

使用 Hub Bucket 交付万亿参数：TRL 中的 Delta 权重同步

原标题：Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL

速览

TRL 团队发布了 Delta 权重同步功能，旨在解决超大模型分发难题。该机制通过 Hub Bucket 仅同步权重差异，显著降低存储和传输成本。这对于高效交付万亿参数级别的 AI 模型具有重要意义。

AI 深度解读

使用 Hub Bucket 传输万亿参数：TRL 中的 Delta Weight Sync 深度解读

背景

在异步强化学习（Async RL）的训练范式中，存在一个长期被忽视但极具破坏性的瓶颈：权重同步。

传统的异步 RL 架构中，推理引擎（Inference Engine，如 vLLM）负责生成数据，而训练器（Trainer）负责更新模型。为了保持策略的一致性，每当训练器完成一次优化步骤（Optimizer Step），它必须将完整的模型权重发送给推理引擎。对于大型语言模型而言，这一过程极其昂贵：

一个 7B 参数、使用 bf16 精度的模型，其权重大小约为 14 GB。
对于一个前沿的 1T 参数模型检查点，单次传输的数据量高达 1 TB。

这种全量传输不仅消耗巨大的带宽，还导致 GPU 在等待数据传输时处于空闲状态，严重降低了计算效率。业界此前通常通过构建庞大的集群、使用 RDMA（远程直接内存访问）网络或建立专用的跨区域链接来解决这一问题，但这极大地增加了基础设施的复杂性和成本。

Hugging Face 团队在 TRL（Transformer Reinforcement Learning）库中引入了一项名为 Delta Weight Sync 的新机制，旨在通过仅传输变化的权重（Delta），彻底改变这一现状。

核心内容

1. 万亿参数传输难题与现有解决方案的局限

异步 RL 的核心痛点在于“关键路径”上的阻塞。推理引擎执行第 N 步的策略，而训练器刚刚完成第 N+1 步。如果新鲜权重不能及时到达，推理引擎生成的数据将严重偏离最新策略（Off-policy），导致训练失效。

此前，Fireworks AI 在其报告《Frontier RL Is Cheaper Than You Think》中指出，对于 1T 参数的 fp8 模型，全量快照高达 1024 GiB。尽管他们发现相邻检查点之间的实际差异（Delta）仅为 20.3 GiB（约 1.98%），但传统做法仍倾向于传输全量数据。

Cursor 的 Composer 2 报告也展示了类似的故事：他们在不同区域运行训练和推理，通过共享的 S3 桶传输压缩后的权重差异（Weight Diffs）。这种方法虽然解耦了训练和推理集群的直接连接，但仍依赖于外部对象存储的管理和配置。

这两份报告共同揭示了一个事实：相邻 RL 步骤之间，绝大多数权重并未发生变化。如果只传输变化的部分，带宽成本可降低两个数量级，且无需训练与推理集群位于同一数据中心。

然而，此前缺乏一个开箱即用、易于集成的开源解决方案。

2. 为什么 bf16 权重几乎是“稀疏”的？

TRL 团队通过深入分析 bf16（Brain Floating Point 16）算术特性，证实了“98% 以上的权重不变”并非演示中的特例，而是由数值精度决定的必然结果。

bf16 的可见性阈值：bf16 格式仅有 7 位尾数（Mantissa）。在两个连续的 2 的幂次之间，可表示的值是离散的。相邻 bf16 数值之间的间距约为 $2^{-7} \times 2^E$（其中 E 为指数）。
优化器的“低语”：在 RL 的典型学习率（如 $1e-5$）下，Adam 优化器对单个权重的更新量非常微小。当更新量小于 bf16 表示间距的一半时，该更新会被舍入操作“吸收”，导致权重的字节表示（Byte Representation）实际上没有改变。
实证数据：引用 PULSE 论文（Mihai & Belilovsky, 2026）的研究，在 Qwen2.5、Llama-3.2 和 Gemma-3 等模型上，每步平均稀疏度约为 99%，标准差仅为 0.2% 到 0.4%。即使在最坏情况下，变化权重比例也保持在 98% 以上。

简而言之，优化器在“低语”，而 bf16 的精度不足以“听见”这些微小的变化。因此，从推理引擎的角度看，这些权重根本没有移动。

3. 基于 HF Buckets 的架构设计

为了解决传输问题，TRL 团队设计了以下工作流程：

稀疏编码：在优化器步骤完成后，识别出发生变化的权重元素，将其编码为稀疏的 safetensors 文件。
上传至 Hub Bucket：将微小的差异文件上传到 Hugging Face Hub 上的 Bucket（一种专为高频对象存储设计的仓库类型）。
通知推理引擎：告知 vLLM 去获取这些差异。

HF Bucket 的优势：

极简接口：无需复杂的提交（Commit）或拉取请求（PR）工作流。仅需 batch_bucket_files 和 download_bucket_files 两个函数调用即可完成上传和下载。
内容定义分块（Xet）：Bucket 底层由 Xet 存储层支持。Xet 基于文件内容进行分块和去重。即使开发者偷懒直接上传全量权重，Xet 也只会传输实际变化的数据块。结合稀疏编码，实现了“只支付移动数据的费用，且只支付一次”。
无需共享集群：训练器和推理引擎可以通过一个单一的 Hub Bucket 进行通信，无需 RDMA、无需 VPN、无需共享集群。

4. 实际效果与演示

在 Qwen3-0.6B 模型的测试中：

每步传输负载从 1.2 GB 降至 20 到 35 MB。
团队运行了一个完整的**解耦训练（Disaggregated Training）**演示：
- 训练器位于一台机器上。
- vLLM 推理引擎运行在 Hugging Face Space 中。
- Wordle 环境运行在另一个 Space 中。
- 权重通过单一的 Hub Bucket 流动。

关键要点

带宽成本断崖式下降：通过仅传输变化的权重（Delta），每步传输数据量从 GB 级别降至 MB 级别（例如从 1.2 GB 降至 ~20 MB），带宽成本降低约两个数量级。
bf16 稀疏性是算术必然：由于 bf16 的精度限制和 RL 学习率较小，相邻步骤间 >98% 的权重字节表示保持不变，这是由数值舍入特性决定的，而非偶然现象。
HF Bucket 简化基础设施：利用 Hugging Face Hub 的 Bucket 功能，实现了无需共享集群、无需 RDMA 网络、无需 VPN 的解耦架构。训练和推理可以完全分布在不同的地理位置甚至不同的云服务商。
Xet 存储层的双重保障：即使不使用稀疏编码，Xet 的内容定义分块和去重机制也能自动优化传输效率；结合稀疏编码，则实现了最优的资源利用。
开源可复现：该方案已集成到 TRL 库中，用户可通过 pip install 直接使用，无需自行搭建复杂的分布式存储基础设施。

意义与影响

这项技术突破对大规模语言模型的强化学习训练具有深远意义：

降低前沿模型训练门槛：对于万亿参数（1T+）模型，全量权重同步曾是阻碍异步 RL 普及的主要障碍。Delta Weight Sync 使得在消费级或中等规模集群上运行大规模异步 RL 成为可能，显著降低了硬件和带宽成本。
解耦训练与推理基础设施：企业不再需要将训练集群和推理集群绑定在同一个数据中心或同一个云账户下。训练可以在高性能计算集群上进行，而推理可以在低成本、高弹性的边缘节点或不同的云服务上运行，通过 Hub Bucket 无缝连接。
推动异步 RL 成为主流：异步 RL 能够显著提高 GPU 利用率（训练器无需等待推理引擎完成采样）。通过消除权重同步的瓶颈，异步 RL 的效率优势得以完全释放，加速了 RLHF（基于人类反馈的强化学习）等技术的迭代速度。
Hugging Face 生态系统的闭环优势

查看原文 →huggingface.co