技术博客Hugging Face Blog·2026/4/29

DeepInfra 加入 Hugging Face 推理服务提供商

原标题：DeepInfra on Hugging Face Inference Providers 🔥

速览

DeepInfra 正式加入 Hugging Face 的推理服务提供商网络。这一合作旨在为开发者提供更高效、稳定的模型推理基础设施。通过集成 DeepInfra 的服务，Hugging Face 用户能够更便捷地部署和运行大型语言模型及其他 AI 模型。此举进一步丰富了 Hugging Face 的生态系统，提升了模型推理的可访问性和性能。

AI 深度解读

DeepInfra 正式接入 Hugging Face Inference Providers：无缝集成与成本优化

Hugging Face 官方博客宣布，DeepInfra 现已成为 Hugging Face Hub 上受支持的 Inference Provider（推理提供商）。这一合作不仅丰富了 Hub 上的无服务器推理生态，还通过 SDK 和 UI 的无缝集成，极大地简化了开发者调用各类 AI 模型的流程。

背景

随着生成式 AI 应用的爆发式增长，开发者对模型推理的需求日益多样化，从大型语言模型（LLM）到文本生成图像、视频以及嵌入向量等任务。然而，管理多个第三方推理提供商的 API 密钥、处理不同的计费方式以及维护复杂的集成代码，往往成为开发过程中的痛点。

Hugging Face 推出的 Inference Providers 旨在解决这一问题。它允许用户在 Hub 的模型页面上直接访问经过验证的第三方推理服务，并通过统一的客户端 SDK（支持 Python 和 JavaScript）进行调用。DeepInfra 作为最新加入的合作伙伴，以其极具竞争力的每 token 成本和丰富的模型库，为这一生态系统增添了重要力量。

核心内容

1. DeepInfra 平台概况

DeepInfra 是一个无服务器 AI 推理平台，以其行业内极具成本效益的定价策略著称。目前，DeepInfra 拥有超过 100 个模型的目录，支持包括 LLM、文本到图像、文本到视频、嵌入等多种模型类型。此次集成初期，主要支持对话和文本生成任务，后续将逐步扩展至图像和视频生成等领域。

2. 集成方式与功能

DeepInfra 的接入主要通过以下三种途径实现：

网站 UI 集成：
- API 密钥管理：用户可以在账户设置中为已注册的提供商设置自定义 API 密钥。若未设置自定义密钥，请求将默认通过 Hugging Face (HF) 路由。
- 优先级排序：用户可以根据偏好对提供商进行排序，这将影响模型页面小部件和代码片段中的默认选择。
- 两种调用模式：
  1. 自定义密钥模式：请求直接发送至推理提供商，使用用户自己的 API 密钥。
  2. HF 路由模式：无需提供商的 Token，费用直接计入用户的 HF 账户。
- 模型页面展示：兼容当前模型的第三方推理提供商会根据用户偏好排序展示。

客户端 SDK 集成： DeepInfra 已集成至 Hugging Face 的官方 SDK 中：

Python: huggingface_hub (版本 >= 1.11.2)
JavaScript: @huggingface/inference

开发者只需使用 Hugging Face Token 进行认证，请求即可自动路由至 DeepInfra。以下示例展示了如何通过 DeepInfra 调用 DeepSeek V4 Pro：

Python 示例：

import os
from openai import OpenAI
client = OpenAI(
    base_url="https://router.huggingface.co/v1",
    api_key=os.environ["HF_TOKEN"],
)
completion = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V4-Pro:deepinfra",
    messages=[
        {
            "role": "user",
            "content": "Write a Python function that returns the nth Fibonacci number using memoization."
        }
    ],
)
print(completion.choices[0].message)

JavaScript 示例：

import { OpenAI } from "openai";
const client = new OpenAI({
    baseURL: "https://router.huggingface.co/v1",
    apiKey: process.env.HF_TOKEN,
});
const chatCompletion = await client.chat.completions.create({
    model: "deepseek-ai/DeepSeek-V4-Pro:deepinfra",
    messages: [
        {
            role: "user",
            content: "Write a Python function that returns the nth Fibonacci number using memoization.",
        },
    ],
});
console.log(chatCompletion.choices[0].message);

Agent Harness 集成： Hugging Face Inference Providers 已整合进大多数 Agent Harness（智能体框架），包括 Pi、OpenCode、Hermes Agents、OpenClaw 等。这意味着开发者可以将 DeepInfra 托管的模型直接接入这些工具，无需编写额外的胶水代码。

3. 计费模式

直接请求：当使用推理提供商的 API 密钥时，费用由该提供商直接收取（例如，使用 DeepInfra 密钥则在 DeepInfra 账户扣费）。
路由请求：当通过 Hugging Face Hub 认证时，用户仅支付标准的提供商 API 费率。Hugging Face 不收取额外加价，仅直接转嫁提供商成本。未来可能会与提供商合作伙伴建立收入分成协议。
PRO 用户福利：Hugging Face PRO 用户每月可获得价值 $2 的推理积分（Inference credits），这些积分可在不同提供商之间通用。此外，PRO 用户还享有 ZeroGPU、Spaces Dev Mode 以及 20 倍更高的使用限制等权益。免费用户虽有小额度免费推理配额，但官方建议升级至 PRO 以获得更佳体验。

关键要点

生态扩展：DeepInfra 成为 Hugging Face Hub 新的 Inference Provider，支持 DeepSeek V4、Kimi-K2.6、GLM-5.1 等热门开源权重 LLM。
成本优势：DeepInfra 提供行业内极具竞争力的每 token 定价，且 Hugging Face 在路由模式下不收取额外加价。
开发便捷性：通过统一的 SDK 和 UI 设置，开发者无需管理多个 API 密钥，即可在 Python 和 JavaScript 中无缝切换或组合不同提供商的服务。
自动化路由：支持“自定义密钥”和“HF 路由”两种模式，后者允许用户通过 HF 账户统一结算，简化了财务流程。
广泛兼容性：集成不仅限于基础 API，还覆盖了 Pi、OpenCode 等主流 Agent Harness，实现了“零胶水代码”集成。
积分通用性：Hugging Face PRO 用户的 $2 月度推理积分可在包括 DeepInfra 在内的多个提供商间通用，提高了积分的实用价值。

意义与影响

DeepInfra 的加入标志着 Hugging Face 在构建去中心化、多供应商推理网络方面迈出了重要一步。对于开发者而言，这种模式极大地降低了技术选型的门槛和集成成本。开发者不再需要为每个新模型或新任务寻找并配置独立的 API 服务，而是可以通过 Hugging Face 的统一接口访问经过验证的高质量模型。

从平台角度来看，Hugging Face 通过引入竞争性的第三方提供商，不仅丰富了模型供给，还通过“路由模式”增强了用户粘性。用户可以将所有推理费用集中在一个 HF 账户中管理，同时享受 DeepInfra 等合作伙伴的低成本优势。这种“平台+生态”的模式，有望进一步巩固 Hugging Face 作为 AI 开发基础设施核心枢纽的地位，推动 AI 应用开发向更标准化、更经济的方向发展。

查看原文 →huggingface.co