AI 资讯Hacker News·2 天前

Thunderbolt 支持 IBverbs：让家庭也能享受 InfiniBand 高速互联

原标题：thunderbolt-ibverbs: We have InfiniBand at home

速览

Thunderbolt 技术栈近期引入了对 IBverbs 的支持，这一进展打破了高性能计算网络仅局限于数据中心的壁垒。通过这一更新，家庭用户和小型工作室也能利用 Thunderbolt 接口实现类似 InfiniBand 的高速、低延迟数据传输。这对于需要处理大规模数据集的本地 AI 训练、高性能存储访问以及分布式计算场景具有重要意义。

AI 深度解读

thunderbolt-ibverbs：我们在家里实现了 InfiniBand

背景

随着消费级硬件算力的飞速提升，尤其是 AMD Strix Halo 等高性能迷你主机（Mini PC）的普及，个人用户和小型实验室已经拥有在单机上运行大型语言模型（LLM）推理和训练的潜力。然而，当模型规模超出单张显卡或单台机器的显存容量时，传统的以太网（Ethernet）网络往往成为瓶颈。以太网的高延迟和低带宽使得多机协同训练或推理的效率大打折扣，而企业级的 InfiniBand 网络虽然性能卓越，但成本高昂且部署复杂，普通用户难以企及。

在此背景下，开发者 thunderbolt-ibverbs 进行了一项实验性探索：利用现有的 USB4/Thunderbolt 接口，通过构建 Linux 内核模块，让普通的消费级迷你主机“伪装”成 InfiniBand 设备。其核心目标非常明确：无需购买昂贵的企业级网络设备，仅利用现有的 Thunderbolt 线缆和接口，让运行 vLLM、RCCL 等 AI 推理/训练框架的多台家用机器能够高效地协同工作，实现张量并行（Tensor Parallelism）或完全数据并行（FSDP）等分布式计算任务。

核心内容

该项目构建了一个实验性的 RDMA-over-USB4（基于 USB4 的远程直接内存访问）解决方案，专门针对配备 128GB 内存的 AMD Strix Halo 迷你主机。通过这一方案，两台消费级迷你主机之间能够建立高速连接，从而在两台机器之间分配并运行原本无法在单机上完成的张量并行推理和 FSDP 训练负载。

性能基准测试

开发者提供了详细的基准测试数据，展示了该方案相对于传统以太网方案的巨大性能优势：

吞吐量（Bandwidth）：
- 在关闭 IOMMU 的情况下，使用 4 个 HCA（Host Channel Adapter，主机通道适配器）聚合，配置为 1 MiB 块大小和 8 个队列对（QPs），双向原始 RDMA 吞吐量达到约 95 Gb/s（单向约 48 Gb/s）。
- 作为对比，板载 2.5 GbE 以太网的吞吐量仅为 ~2.3 Gb/s。
- 基于 thunderbolt-net 的软 RoCE（Soft-RoCE）方案，每通道（per-rail）吞吐量约为 ~9 Gb/s。
延迟（Latency）：
- 在 64 字节数据包、单队列对（QP）测试中，单向延迟低至 ~7 µs。
- 作为对比，基于 RXE（RDMA over Converged Ethernet）和 2.5 GbE 的延迟约为 ~28 µs。
- 基于 RXE 和 Thunderbolt 网络（TBnet）的延迟约为 ~65 µs。

实际 AI 工作负载表现

除了底层网络基准测试，开发者还展示了在真实 AI 场景下的性能提升：

MiniMax-M2.7 张量并行推理：成功运行了一个无法在单台机器上容纳的 TP=2（张量并行度为2）推理任务。
Gemma 3 27B LoRA FSDP 训练：在进行 Gemma 3 27B 模型的 LoRA 全数据并行（FSDP）训练步骤时，使用以太网需要 1359 秒，而使用 4-HCA USB4 RDMA 方案仅需 126 秒。这意味着网络通信开销减少了近一个数量级，极大地提升了训练效率。

免责声明

开发者强调，这是一段研究代码，其中大部分由 AI 生成。该代码会在开发者愿意反复崩溃的机器上加载实验性内核模块。虽然开发者尽力理解代码逻辑以保持方向正确，但其中几乎肯定存在错误的假设和粗糙的边缘情况。因此，不提供任何保证，不提供技术支持承诺，这不是生产环境软件。

关键要点

技术路径创新：通过 Linux 内核模块将 USB4/Thunderbolt 端口模拟为 InfiniBand 设备，实现了 RDMA-over-USB4，绕过了传统以太网的协议开销。
性能飞跃：
- 带宽：从以太网的 ~2.3 Gb/s 提升至 ~95 Gb/s（提升约 40 倍）。
- 延迟：从以太网的 ~28 µs 降低至 ~7 µs（降低约 75%）。
硬件门槛低：仅需支持 USB4/Thunderbolt 的消费级迷你主机（如 AMD Strix Halo 系列）和标准 Thunderbolt 线缆，无需专用网卡或交换机。
AI 工作负载受益明显：在 Gemma 3 27B LoRA FSDP 训练中，网络通信时间从 1359 秒大幅缩短至 126 秒，证明了该方案在多机分布式 AI 训练中的实用潜力。
实验性质：代码处于早期研究阶段，存在稳定性风险，仅适合技术爱好者和研究人员进行实验，不建议在生产环境中使用。

意义与影响

这项工作的意义在于它打破了高性能计算网络与企业级硬件之间的壁垒。长期以来，分布式 AI 训练和推理依赖于昂贵且复杂的 InfiniBand 或高性能以太网基础设施，这限制了个人开发者、小型团队甚至边缘计算场景下的模型扩展能力。

** democratization of High-Performance Computing（高性能计算的民主化）**：通过利用随处可见的 Thunderbolt 接口，普通用户可以以极低的成本构建接近企业级性能的多机集群。这对于资源有限的 AI 研究者和爱好者来说是一个巨大的福音。
验证了 USB4/Thunderbolt 作为计算互连的潜力：传统上，Thunderbolt 被视为一种高速外设接口（用于连接显示器、存储等）。该实验证明了其在低延迟、高带宽、低 CPU 占用（通过 RDMA）方面，足以胜任计算节点间的互连任务，为未来的消费级高性能计算架构提供了新的思路。
推动了软件栈的创新：该项目展示了通过内核级优化和协议转换（将 USB4 模拟为 InfiniBand），可以无缝对接现有的 AI 生态工具链（如 vLLM、RCCL）。这种“旧瓶装新酒”的策略，使得现有软件无需大幅修改即可享受硬件性能提升带来的红利。
警示与展望：尽管成果显著，但开发者对代码稳定性和安全性的坦诚说明也提醒我们，将消费级接口用于关键计算任务仍需谨慎。未来，随着 USB4 标准的进一步发展和内核支持的完善，这种低成本高性能的多机互联方案有望从“实验代码”走向更广泛的实际应用，特别是在边缘 AI 推理集群和小型实验室环境中。

查看原文 →blog.hellas.ai