GitHub 热榜GitHub Trending · 日·3 小时前

CuPy：GPU 加速的 NumPy & SciPy 兼容库

原标题：cupy/cupy

Python★ 11,361 stars+172 今日

速览

CuPy 是一个开源的数组库，利用 NVIDIA CUDA 和 AMD ROCm 实现高性能 GPU 加速。它保持了与 NumPy 和 SciPy 相似的 API 设计，使得开发者无需大幅修改代码即可将计算密集型任务从 CPU 迁移到 GPU，显著提升数据处理和科学计算效率。

AI 深度解读

这是什么

CuPy 是一个与 NumPy/SciPy 兼容的数组库，专为 Python 环境下的 GPU 加速计算而设计。它由 Preferred Networks 及社区贡献者共同开发和维护。

CuPy 的核心设计理念是作为 NumPy/SciPy 代码的“即插即用”替代品（drop-in replacement）。这意味着开发者无需大幅重构现有代码，即可将原本运行在 CPU 上的数值计算任务迁移至 NVIDIA CUDA 或 AMD ROCm 平台，从而利用 GPU 的并行处理能力获得显著的性能提升。该项目遵循 MIT 许可证，并基于 NumPy 和 SciPy 的 API 设计。

解决的问题

在科学计算、机器学习及数据处理领域，Python 生态长期由 NumPy 和 SciPy 主导，但它们主要依赖 CPU 进行串行或有限并行计算，面对大规模矩阵运算、深度学习训练或高频信号处理时往往成为性能瓶颈。

CuPy 主要解决以下痛点：

性能瓶颈：通过利用 GPU 的数千个核心并行计算能力，大幅加速数组运算。
迁移成本：传统 GPU 编程（如 CUDA C/C++）门槛高，Python 开发者难以直接利用 GPU 资源。CuPy 提供了 API 级别的兼容性，降低了从 CPU 迁移到 GPU 的难度。
生态整合：许多现有的科学计算库依赖 NumPy 接口，CuPy 使得这些库能够无缝适配 GPU 环境，无需为每个库单独编写 GPU 后端。

核心功能

NumPy/SciPy 兼容性：CuPy 实现了与 NumPy 和 SciPy 高度一致的 API。大多数标准的数组操作（如 reshape, sum, dot 等）可以直接在 CuPy 数组上运行，代码只需将 import numpy as np 替换为 import cupy as cp 即可。
多平台支持：
- NVIDIA CUDA：原生支持 NVIDIA GPU。
- AMD ROCm：支持 AMD GPU 平台，扩展了硬件兼容性。
低级 CUDA 访问：除了高级数组操作，CuPy 还提供了对底层 CUDA 特性的直接访问：
- RawKernels：允许将 CuPy 的 ndarray 直接传递给现有的 CUDA C/C++ 程序。
- Streams：支持使用 CUDA Streams 进行异步执行和性能优化。
- CUDA Runtime APIs：可以直接调用 CUDA Runtime API，满足对底层控制有极高要求的场景。
安装灵活性：
- 提供 PyPI 上的二进制包（wheels），支持 Linux 和 Windows。
- 支持 Conda-Forge 安装，包括轻量级安装选项（cupy-core，不含 CUDA 依赖）和特定 CUDA 版本选择（通过 cuda-version metapackage）。
- 支持 Docker 容器化部署，可使用 NVIDIA Container Toolkit 运行。

亮点 / 与同类相比

无缝替换（Drop-in Replacement）：与 PyTorch 或 TensorFlow 等需要重新定义计算图或模型结构的框架不同，CuPy 的目标是“透明加速”。对于大量基于 NumPy 的科学计算脚本，修改成本极低。
混合编程能力：CuPy 不仅是一个高级数组库，还 bridging 了 Python 与底层 CUDA C/C++。开发者可以在 Python 中调用自定义的 CUDA kernel，这在需要极致性能优化的场景下（如自定义算子开发）极具价值。
社区与学术背书：CuPy 早在 2017 年就在 NIPS (现 NeurIPS) 的 LearningSys 研讨会上发表论文，证明了其在机器学习系统领域的认可度。cuSignal 等信号处理库也已整合进 CuPy（自 v13.0.0 起），增强了其在特定垂直领域的功能。
对比 Numba：虽然 Numba 也能通过 JIT 编译加速 Python 代码，但 CuPy 专注于数组级并行，更适合大规模数据并行任务；而 Numba 更偏向于循环级优化。两者可结合使用，但 CuPy 在大规模矩阵运算上通常提供更直观的 API。

适合谁用 / 上手

适合人群：

数据科学家与研究人员：习惯使用 NumPy/SciPy 进行数据分析、统计建模，但需要加速大规模计算的用户。
机器学习工程师：需要快速原型验证，或希望在不重写底层代码的情况下利用 GPU 加速预处理和后处理步骤。
科学计算开发者：处理物理模拟、金融建模等涉及大量矩阵运算的场景。
CUDA 开发者：希望用 Python 快速封装 CUDA 内核，或管理 GPU 内存和流的用户。

上手指南：

安装：
- Pip (推荐)：根据你的 CUDA 版本选择对应的包，例如 CUDA 12.x 用户可运行：
```
pip install cupy-cuda12x
```
- Conda：
```
conda install -c conda-forge cupy
```
  如需特定 CUDA 版本：
```
conda install -c conda-forge cupy cuda-version=12.0
```

基本使用：将 NumPy 代码中的 numpy 替换为 cupy，其余逻辑通常无需更改。

import cupy as cp

# 创建 GPU 数组
x = cp.arange(6).reshape(2, 3).astype('f')
print(x)
# array([[ 0.,  1.,  2.],
#        [ 3.,  4.,  5.]], dtype=float32)

# 执行 GPU 加速运算
result = x.sum(axis=1)
print(result)
# array([ 3., 12.], dtype=float32)

进阶：
- 查阅 API Reference 了解支持的函数。
- 参考 Tutorial 学习高级特性，如 RawKernels 和 Streams。
- 对于 Conda 安装遇到问题，可向 cupy-feedstock 报告。

查看原文 →github.com