AI 资讯Hacker News·4 天前

OpenCL与CUDA C++有哪些替代方案

原标题：What about OpenCL and CUDA C++ alternatives?

速览

本文讨论了在GPU编程领域，除了主流的OpenCL和CUDA C++之外，还有哪些可行的替代方案。这些替代技术旨在为开发者提供更灵活、跨平台或高性能的计算选择。

AI 深度解读

深度解读：OpenCL 与 CUDA C++ 替代方案的兴衰启示

背景

生成式 AI（GenAI）的爆发让 GPU 计算成为焦点，但 GPU 本身并非新技术。在过去二十年中，业界曾尝试通过 C++ 构建可移植的 GPU 编程模型，从 OpenCL 到 SYCL，再到 OneAPI，这些项目被视为最有可能实现 AI 计算民主化的 CUDA 替代方案。然而，由于未能跟上 AI 发展的节奏，这些项目逐渐边缘化，甚至鲜为人知。

尽管这些项目在通用计算领域做出了贡献，但若要从根本上释放未来 AI 的计算潜力，我们必须批判性地审视阻碍它们发展的错误，而不仅仅是庆祝过去的成功。总体而言，这些问题源于“竞合关系”（Open Coopetition，即竞争对手之间既合作又竞争的状态）中的固有张力，以及沿途具体的管理失误。

核心内容

1. OpenCL 的起源与初衷

作者回顾了 OpenCL 的个人历史：2008 年，作为 Apple 的首席工程师，作者参与了 OpenCL 的实现，这是当时正在开发的 Clang 编译器的首个生产级应用。随后，Apple 做出了一个关键决定：将 OpenCL 贡献给 Khronos Group，以便在行业内被广泛采用和标准化。

这一决定促成了 OpenCL 在硬件制造商中的广泛采用，特别是在移动设备和嵌入式领域。如今，OpenCL 在 Android 平台以及 DSP（数字信号处理器）等专业应用中依然非常成功。与 CUDA 不同，OpenCL 从设计之初就注重可移植性，旨在支持 CPU、GPU 及其他加速器之间的异构计算。OpenCL 还启发了 SYCL、Vulkan、SPIR-V、OneAPI、WebCL 等其他系统。

2. “竞合关系”导致的演进停滞

尽管 OpenCL 技术强大且被广泛采用，但它从未成为主导性的 AI 计算平台。主要原因之一是“竞合关系”带来的固有张力。

2008 年，Apple 在 PC 领域尚属小玩家，认为行业标准化能触达更多开发者。然而，虽然 OpenCL 在硬件制造商中获得了广泛支持，但其演进速度受到了委员会驱动开发的严重制约。对于希望快速迭代、添加新功能（如 C++ 模板）并体现平台差异化的 Apple 来说，这种缓慢的共识驱动过程是不可接受的。

硬件厂商虽然认识到统一软件生态的长期利益，但在短期内却是激烈的竞争对手。这导致了一个微妙但严重的问题：参与者不会在委员会中透露正在开发的新硬件功能（以免给竞争对手先机），而是将这些创新保密直到硬件发布，或者仅在功能成为商品化后通过厂商特定的扩展进行讨论。这种“竞合”模式使得 Apple 决定放弃 OpenCL，转而推出 Metal，并最终在 macOS 中弃用 OpenCL。其他公司虽然保留了 OpenCL，但结构性挑战限制了其以前沿 AI 和 GPU 创新速度演进的能力。

3. OpenCL 的技术缺陷与碎片化

Apple 将 OpenCL 作为技术规范贡献给 Khronos，但并未提供完整的参考实现。虽然编译器前端（Clang）是开源的，但缺乏共享的 OpenCL 运行时。这迫使各厂商开发自己的定制分支（forks）来完成编译器。每个厂商都必须维护自己的实现，缺乏共享且不断演进的参考标准，导致 OpenCL 变成了由厂商特定分支和扩展组成的拼凑物，削弱了其原本设计的可移植性。

此外，厂商将差异化功能隔离在厂商特定的扩展中，导致扩展数量爆炸式增长，进一步碎片化了 OpenCL 及其衍生系统，侵蚀了其作为无厂商绑定统一平台的能力。这些问题因 OpenCL 兼容性和一致性测试的弱点而加剧。开发者抱怨使用 OpenCL “就像拥抱仙人掌一样不舒服”，碎片化、薄弱的一致性测试和不一致的厂商支持使其成为一场挫折。

4. AI 需求演进与硬件差距

在 OpenCL 挣扎于碎片化和缓慢演进的同时，AI 在软件框架和硬件能力上迅速进步。TensorFlow 和 PyTorch 的引入引发了 AI 研究革命，这对 OpenCL 构成了巨大挑战。

虽然 OpenCL 支持 GPU 计算，但它缺乏大规模训练和推理所需的高级 AI 库和优化。与 CUDA 不同，OpenCL 没有内置对关键操作（如矩阵乘法、Flash Attention 或数据中心级训练）的支持。尽管业界曾尝试扩展 TensorFlow 和 PyTorch 以支持 OpenCL，但很快遇到了根本性障碍：如果无法解锁硬件的全部性能，可移植到新硬件就毫无意义。

一个明显的例子是，OpenCL 至今仍未提供对 Tensor Cores（现代 GPU 和 AI 加速器中用于高效矩阵乘法的专用硬件单元）的标准化支持。这意味着使用 OpenCL 的性能通常比使用 CUDA 或其他原生厂商软件慢 5 到 10 倍。对于计算成本已经天文数字般的生成式 AI 而言，这种性能差距不仅是麻烦，更是致命的缺陷。

5. NVIDIA 的战略优势

与 OpenCL 在碎片化治理下的挣扎形成鲜明对比，NVIDIA 采取了一种截然不同、高度受控且极具战略性的方法。NVIDIA 积极与 TensorFlow 和 PyTorch 共同设计 CUDA 的高级库，确保这些框架在 NVIDIA 硬件上运行最佳。由于这些框架原生基于 CUDA 构建，NVIDIA 获得了巨大的先发优势，并通过开箱即用的性能优化加倍投入。

NVIDIA 虽然保留了象征性的 OpenCL 实现，但在战略上对其进行了限制（例如，使其无法使用 Tensor Cores），从而确保 CUDA 实现始终是必要的。随着 NVIDIA 在行业中的主导地位持续增强，CUDA 实现获得了最多的资源投入。随着时间的推移，OpenCL 的支持逐渐消退直至消失，而 CUDA 则巩固了其作为无可争议标准的地位。

关键要点

竞合关系的陷阱：硬件厂商在标准化组织中既合作又竞争，导致创新保密、演进缓慢，无法适应 AI 快速迭代的需求。
缺乏统一参考实现：OpenCL 作为规范被贡献，但缺乏共享的运行时和参考实现，导致厂商各自为政，形成碎片化的分支，破坏了可移植性。
AI 工作负载的特殊性：AI 需要高级库（如矩阵乘法优化）和对特定硬件单元（如 Tensor Cores）的原生支持，OpenCL 在这些方面存在结构性缺失。
性能差距致命：由于缺乏对 Tensor Cores 等硬件加速的标准化支持，OpenCL 的性能比 CUDA 慢 5-10 倍，这在生成式 AI 时代是不可接受的。
NVIDIA 的战略闭环：NVIDIA 通过深度绑定主流 AI 框架（TensorFlow/PyTorch）并限制竞争对手（OpenCL）的关键功能，构建了强大的生态壁垒。

意义与影响

OpenCL 等早期 GPU 编程模型的失败，揭示了在技术快速迭代领域，试图通过松散的行业委员会标准来主导核心基础设施的局限性。对于未来的 AI 计算生态而言，这一历史教训表明：

性能与抽象的平衡：可移植性不能以牺牲性能为代价。如果抽象层无法有效映射底层硬件的最新特性（如 Tensor Cores），它将失去竞争力。
生态系统的封闭性与开放性：完全开放的“竞合”环境可能导致创新停滞，而像 NVIDIA 这样通过紧密控制软硬件栈和主流框架合作建立的生态，更能适应快速变化的市场需求。
标准化组织的角色：Khronos Group 等组织在推动跨平台兼容性方面仍有价值，但在需要极致性能和快速创新的 AI 领域，其决策速度可能成为瓶颈。

这一分析不仅解释了 CUDA 为何胜出，也为未来构建下一代异构计算平台提供了重要的反面教材：必须解决“竞合”带来的碎片化问题，并确保标准能够真正解锁硬件的全部潜力，而不仅仅是提供通用的接口。

查看原文 →modular.com