GitHub 热榜GitHub Trending · 日·1 小时前

llama.cpp：C/C++ 环境下的高效大语言模型推理引擎

原标题：ggml-org/llama.cpp

C++★ 115,183 stars+197 今日

速览

该项目通过 ggml 张量库实现了 LLM 推理，支持在消费级硬件上以极低的内存占用运行 Llama、Mistral 等主流模型。其核心亮点在于对量化技术（如 Q4_K_M）的深度优化，使得普通用户也能在本地流畅部署和运行大型语言模型。

AI 深度解读

这是什么

llama.cpp 是一个由 ggml-org 维护的开源项目，主语言为 C/C++，在 GitHub 上拥有超过 115,000 颗 Star，是本地大语言模型（LLM）推理领域的标杆性项目。

其核心目标是在尽可能少的依赖和设置下，实现跨平台、高性能的 LLM 推理。它不仅是 llama.cpp 本身，更是底层张量库 ggml 的主要开发 playground。该项目支持从消费级 CPU、Apple Silicon 到 NVIDIA GPU、AMD GPU 以及 RISC-V 等多种硬件架构，极大地降低了运行大型语言模型的门槛。

解决的问题

llama.cpp 主要解决了以下痛点：

硬件兼容性差与依赖繁重：传统的 LLM 推理框架（如 PyTorch 生态）通常依赖庞大的 CUDA 库或复杂的 Python 环境，难以在轻量级环境或非 NVIDIA 硬件上运行。llama.cpp 采用纯 C/C++ 实现，无外部依赖，实现了“即插即用”。
本地部署成本高：通过量化技术（Quantization），将模型压缩至 1.5-bit 到 8-bit，大幅降低显存和内存占用，使得在普通 PC、Mac 甚至嵌入式设备上运行数十亿参数（Billion Parameters）的模型成为可能。
格式标准化与互通性：推动了 GGUF 格式成为事实上的本地模型标准，解决了不同模型格式（如 PyTorch .bin, .safetensors）之间的转换壁垒，并实现了与 Hugging Face 生态的深度集成。

核心功能

多架构硬件加速支持：
- Apple Silicon：作为一等公民，通过 ARM NEON、Accelerate 和 Metal 框架进行深度优化。
- x86：支持 AVX, AVX2, AVX512 和 AMX 指令集。
- RISC-V：支持 RVV, ZVFH, ZFH 等扩展。
- GPU 加速：提供自定义 CUDA 内核支持 NVIDIA GPU，通过 HIP 支持 AMD GPU，通过 MUSA 支持摩尔线程 GPU，并支持 Vulkan 和 SYCL 后端。
- 混合推理：支持 CPU+GPU 混合推理，当模型大小超过总 VRAM 容量时，自动将部分层卸载到 CPU 内存。
广泛的量化支持：支持 1.5-bit, 2-bit, 3-bit, 4-bit, 5-bit, 6-bit 和 8-bit 整数量化，平衡推理速度与精度。
模型格式转换与缓存：
- 原生支持 GGUF 格式。
- 提供 Python 脚本 (convert_*.py) 将 PyTorch 模型转换为 GGUF。
- 支持从 Hugging Face 直接下载模型，并自动迁移至标准的 Hugging Face 缓存目录，便于与其他 HF 工具共享。
丰富的接口与工具链：
- CLI 工具：llama-cli 用于本地推理，llama-server 提供 OpenAI 兼容的 API 服务。
- WebUI：内置基于 Web 的用户界面。
- 浏览器支持：通过 WebGPU 支持在浏览器中直接运行模型。
- 编辑器插件：提供 VS Code (llama.vscode) 和 Vim/Neovim (llama.vim) 插件，支持 FIM（Fill-In-the-Middle）补全。
广泛的模型兼容性：支持 LLaMA 系列、Mistral、Mixtral、Gemma、Qwen、Deepseek、Phi、StableLM、Mamba、RWKV 等数十种主流架构及其微调版本。

亮点 / 与同类相比

极致的轻量化与零依赖：与 Ollama 或 LM Studio 等封装好的应用不同，llama.cpp 本身是一个库和一组命令行工具，没有捆绑 Python 运行时，二进制文件体积小巧，易于嵌入到其他软件中。
生态系统的“基石”地位：许多流行的本地 AI 工具（如 Ollama, LM Studio, Jan, Text-Generation-WebUI, KoboldCPP）底层均依赖 llama.cpp。它是连接 Hugging Face 模型与本地硬件的桥梁。
Hugging Face 深度集成：
- 支持 -hf 参数直接拉取和运行 Hugging Face 上的 GGUF 模型。
- Hugging Face 官方 Inference Endpoints 现已原生支持 GGUF。
- 提供了 Hugging Face GGUF Editor 等官方工具。
多语言绑定丰富：除了 C/C++，还提供了 Python (llama-cpp-python), Go, Node.js, Rust, C#, Java, Swift, Zig, Flutter 等数十种语言的绑定，使其能轻松集成到任何技术栈中。
前沿特性支持：
- 支持 GPT-OSS 模型的原生 MXFP4 格式。
- 支持 Multimodal（多模态）推理。
- 支持 WebGPU，让模型能在浏览器沙箱中运行。

适合谁用 / 上手

适合人群：

开发者：希望在自己的应用（Web, Mobile, Desktop）中集成本地 LLM 功能的工程师。
AI 爱好者/研究者：希望在本地低成本实验各种量化模型、新架构（如 Mamba, RWKV）的用户。
运维/基础设施团队：需要构建轻量级、高可用 LLM 推理服务或 GPU 集群管理的团队。
边缘计算开发者：需要在资源受限设备（如 RISC-V 开发板、Mac Mini）上运行模型的场景。

如何上手：

安装：
- macOS/Linux：使用 Homebrew (brew install llama.cpp) 或 Nix。
- Windows：使用 Winget 或下载预编译二进制文件。
- 通用：使用 Docker 镜像，或从源码克隆仓库编译。
获取模型：
- 前往 Hugging Face 搜索 GGUF 格式模型（例如 ggml-org/gemma-3-1b-it-GGUF）。
- 或使用 llama-cli 的 -hf 参数直接下载。

运行推理：

本地 CLI：

# 使用本地模型文件
llama-cli -m my_model.gguf
# 或直接从 Hugging Face 下载并运行
llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

启动 API 服务器（兼容 OpenAI 接口）：
```
llama-server -hf ggml-org/gemma-3-1b-it-GGUF
```

进阶使用：
- 使用 llama.cpp 的 WebUI 进行交互。
- 通过 Python 绑定 (llama-cpp-python) 在代码中调用。
- 利用 unsloth 等工具对模型进行微调并导出为 GGUF。

查看原文 →github.com