技术博客Hugging Face Blog·2026/3/17

Hugging Face 开源现状：2026 年春季

原标题：State of Open Source on Hugging Face: Spring 2026

速览

本文介绍了 Hugging Face 在 2026 年春季的开源生态发展状况。内容涵盖了最新发布的 AI 模型、数据集以及社区贡献趋势。该报告为开发者提供了了解当前开源 AI 技术前沿的重要参考。

AI 深度解读

Hugging Face 开源生态现状：2026 年春季深度解读

背景

Hugging Face 发布的《2026 年春季开源现状》（State of Open Source on Hugging Face: Spring 2026）报告，是对 2025 年中旬早期分析的延续与深化。该报告旨在全面审视 Hugging Face 社区正在构建的开源人工智能（AI）生态系统的最新动态。

作为分布式生态系统的核心枢纽，Hugging Face 的数据分析结合了平台自身数据与社区成员的工作成果。本报告不仅关注平台内部的增长，还推荐读者结合 Data Provenance Initiative、Interconnects、OpenRouter、a16z、MIT 以及 Linux Foundation 等外部视角，以更全面地理解开源生态。

2025 年，Hugging Face 的用户数量、模型仓库和数据集仓库数量均接近翻倍。平台用户数达到 1300 万，公开模型超过 200 万个，公开数据集超过 50 万个。这一增长不仅反映了公众对开源的兴趣增加，更标志着用户行为从单纯的“消费预训练系统”向“主动参与”转变，用户越来越多地创建微调模型、适配器（adapters）、基准测试和应用等衍生作品。

核心内容

生态集中度与专业化社区

尽管整体规模迅速扩大，但 Hugging Face 的生态系统依然高度集中。数据显示，约有一半的模型总下载量不足 200 次；而排名前 200 的模型（仅占总量的 0.01%）占据了所有下载量的 49.6%。

然而，这种集中并不意味着单一市场的垄断。开源 AI 更应被理解为一组重叠的子生态系统。围绕特定领域、语言或问题形成的专业化社区，即使整体下载量 modest（适中），也往往表现出持续的参与度和复用率。

开源在商业竞争中的地位

越来越多的公司，无论规模大小，都在基于开源技术构建业务。

企业采纳度提升：超过 30% 的《财富》500 强公司在 Hugging Face 上拥有经过验证的账户。
初创企业与工具链：初创公司频繁将开源模型作为默认组件。例如，Thinking Machines 完全基于开源权重构建其 Tinker 模型选项；流行的集成开发环境（IDE）如 VSCode 和 Cursor 均支持开源和闭源模型。
传统企业转型：Airbnb 等美国老牌科技公司增加了对开源生态的参与，Hugging Face 在 2025 年观察到更多传统企业升级其组织订阅。
科技巨头的投入：大型科技公司频繁在 Hugging Face Hub 上创建新仓库。NVIDIA 已成为最强的贡献者，其仓库增长轨迹显示了长期的战略投资。

研究表明，开源软件产生的下游价值远超其生产成本。在 AI 领域，开源模型被数千个下游应用重复使用、适应和专业化。相比之下，完全依赖闭源系统的组织往往面临更高的成本和更低的部署及定制灵活性。

开源的地理格局变迁

过去四年的下载数据显示，美国和中国一直是模型流行度的主要领先者，英国、德国和法国紧随其后。约有一半的平台下载量来自没有明确地理基础的个体用户或分布式组织。

然而，开源生态系统的地理构成发生了根本性变化：

中国崛起：Hugging Face 数据显示，中国在月度下载量和总下载量上已超越美国。在过去一年中，中国模型迅速占据了 plurality（相对多数，即 41%）的下载量。
开发者结构转变：行业在整体开发中的份额从 2022 年之前的约 70% 降至 2025 年的约 37%。与此同时，独立或未隶属任何组织的开发者占比从 17% 上升至 39%，有时甚至占总使用量的一半以上。这些个体和小团体专注于量化、适配和重新分发基础模型，成为引导典型用户运行内容以及推动创新扩散的关键中介。
区域贡献差异：美国和西欧历史上通过大型行业实验室（如 Google、Meta、OpenAI、Stability AI）占据主导；中国则在发布和采用方面日益领先；法国、德国和英国则通过研究机构、国家 AI 倡议和专业化模型家族持续贡献。

国家、组织与个体用户的博弈

个体用户的崛起：在开发新流行模型方面，个体用户已成为第四大流行实体，超过了部分组织。这表明在用户层面创建具有竞争力的模型比以往任何时候都更加容易。法国和韩国在竞争性国家排名中表现突出。
中美两国的对比：
- 中国策略转变：2025 年，继 DeepSeek 的 R1 模型在 1 月病毒式传播后，中国 AI 生态系统 heavily（大力）转向开源。Baidu 在 Hugging Face 上的发布量从 2024 年的零发布激增至 2025 年的 100 多个；ByteDance 和 Tencent 的发布量增长了八到九倍。此前倾向于闭源的组织（包括 Baidu 和 MiniMax）已 decisively（果断地）转向开源发布。
- 美国持续投入：美国组织（如 Meta 及其前 Facebook 研究组织，以及 Google）持续贡献大量仓库，但增长轨迹相对平稳。
- 战略差异：将中美热门组织的仓库增长曲线并置，中国组织陡峭的上升轨迹成为关键的战略差异点。

全球开源与主权（Sovereignty）

开源 AI 日益与国家主权问题挂钩。开源权重模型允许政府和公共机构在本国法律框架下利用本地数据微调系统；可在国内硬件上部署的模型减少了对受外国控制的云基础设施的依赖；模型架构、训练过程和评估的透明度支持监管审查和公共问责。

各国政府正在采取行动：

韩国：2025 年中启动了“国家主权 AI 倡议”（National Sovereign AI Initiative），指定 LG AI Research、SK Telecom、Naver Cloud、NC AI 和 Upstage 为国家级冠军企业，以生产具有竞争力的国内模型。2026 年 2 月，韩国有三个模型同时在 Hugging Face Hub 上 trending（流行）。2026 年 3 月，韩国与美国初创公司 Reflection AI 宣布数据中心合作，将前沿开源权重模型引入韩国。
瑞士：（注：原文在此处截断，但提及瑞士作为背景之一，通常涉及隐私与数据主权议题，此处仅依据现有文本呈现前文逻辑）。

关键要点

生态规模爆发：2025 年 Hugging Face 用户达 1300 万，模型超 200 万，数据集超 50 万，用户行为从消费转向主动创造（微调、适配器、应用）。
高度集中与长尾并存：前 0.01% 的模型占据近 50% 的下载量，但专业化社区和子生态系统保持活跃，开源 AI 是重叠生态而非单一市场。
商业全面拥抱开源：30% 的《财富》500 强入驻，NVIDIA 成为最强贡献者，闭源系统面临成本高、灵活性低的问题。
中国成为下载主力：中国模型在 2025 年占据 41% 的下载量，超越美国；Baidu、ByteDance、Tencent 等巨头从闭源转向开源，发布量激增。
去中心化趋势：行业开发份额从 70% 降至 37%，独立开发者占比升至 39%，个体用户成为新模型开发的重要力量（第四大实体）。
主权与安全驱动：开源模型成为各国实现技术主权、数据本地化和监管合规的关键工具，韩国、瑞士等国积极布局国家级开源 AI 战略。

意义与影响

开源成为 AI 创新的默认基础设施：开源不再仅仅是学术或极客的爱好，而是大型科技公司、初创企业乃至传统行业构建产品的核心组件。NVIDIA 等硬件巨头和 Meta、Google 等软件巨头的深度参与，确立了开源在 AI 供应链中的中心地位。
**地缘政治与技术主权的重新平衡

查看原文 →huggingface.co