← 返回信息流
Agent SkillLINUX DO · AI·2026/4/26

修改New API使Codex渠道直接支持gpt-image-2生图

原标题:我改了一下 New API,现在可以直接用 gpt-image-2 了

速览

该工具解决了New API中Codex渠道无法直接使用gpt-image-2生图模型的痛点。通过修改代码,将图片请求转换为Codex Responses的image_generation工具调用,并支持/v1/images/generations和edits接口。这使得用户无需登录Codex ChatGPT,即可通过New API以OpenAI兼容格式直接调用该新生图模型。

AI 深度解读

背景

目前,OpenAI 推出的最新图像生成模型 gpt-image-2 在访问权限上存在一定限制。通常情况下,只有拥有 Codex 客户端 ChatGPT 登录态的用户才能直接使用这一新生图能力。然而,对于通过 New API 这一开源代理平台来管理多渠道资源的用户而言,存在一个明显的痛点:虽然 New API 可以接入 Codex 渠道,但用户无法直接利用该渠道背后的 gpt-image-2 生图能力。

现有的工作流要求用户必须在 Codex 对话界面中通过自然语言交互来触发生图,这不仅操作繁琐,而且无法像调用普通图片模型那样,通过标准的 OpenAI 兼容接口进行程序化调用。这种割裂的体验阻碍了将 gpt-image-2 集成到自动化工作流或第三方客户端中的可能性。

核心内容

为了解决上述痛点,作者对 New API 进行了修改,核心目标是剥离并暴露 New API 中 Codex 渠道背后的 gpt-image-2 生图能力,使其能够通过标准的 OpenAI 兼容图片接口直接调用。

此次修改主要实现了以下功能升级:

  1. 接口兼容:让 Codex 渠道支持标准的 OpenAI 图片生成接口,包括 POST /v1/images/generations(图像生成)和 POST /v1/images/edits(图像编辑)。
  2. 协议转换与透传
    • 将接收到的图片请求转换为 Codex Responses 协议中的 image_generation tool(工具调用)。
    • 在 Codex Responses 链路中实现了更接近原生的透传机制,减少了中间层对协议结构的干预,确保请求和响应的准确性。
  3. 默认模型设定:在相关配置中默认使用 gpt-image-2 作为生成模型。
  4. 保留原有能力:改动完全保留了 New API 原有的核心优势,包括多渠道管理、日志记录、计费系统以及智能路由等功能。

使用方式: 用户需要在 New API 的 Codex 渠道配置中增加对应的模型名称 gpt-image-2。配置完成后,即可通过标准的 OpenAI 兼容格式发起请求。返回的数据格式依然遵循 OpenAI 标准,这意味着现有的支持 OpenAI 图片接口的客户端可以直接接入,无需额外适配。

调用示例:

curl http://你的-newapi-地址/v1/images/generations \
  -H "Authorization: Bearer sk-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "一只橘猫坐在赛博朋克风格的便利店门口,雨夜,霓虹灯,高细节",
    "size": "1024x1024"
  }'

代码修改位于作者的 fork 仓库中,核心提交记录为 feat(codex): support image tools and responses passthrough

关键要点

  • 解决访问壁垒:打破了 gpt-image-2 仅限 Codex ChatGPT 登录态使用的限制,使其可通过 New API 被更广泛地调用。
  • 标准化接口:实现了 /v1/images/generations/v1/images/edits 两个标准端点的兼容,使得调用方式与常规图片模型一致。
  • 底层协议优化:通过转换请求至 image_generation tool 并优化 Responses 链路的透传,保证了在代理层处理新生图模型时的稳定性和兼容性。
  • 无缝集成现有生态:返回格式保持 OpenAI 兼容,允许用户直接复用现有的图片客户端或自动化脚本,无需重新开发前端或接口适配层。
  • 功能完整性:在新增生图能力的同时,未牺牲 New API 原有的渠道管理、日志、计费和路由等核心企业级功能。

意义与影响

这一修改对于 New API 用户群体及 AI 应用开发者具有重要的实用价值。首先,它极大地降低了使用 gpt-image-2 的技术门槛,使得开发者无需维护复杂的 Codex 会话状态,即可通过简单的 HTTP 请求调用最新、高质量的图像生成模型。

其次,这种“代理层透传”的思路展示了开源社区如何灵活地扩展商业 API 的能力边界。通过将封闭生态内的特定功能(如 Codex 的生图能力)标准化并暴露给更广泛的 OpenAI 兼容生态,促进了工具链的互通性。

最后,对于依赖 New API 进行多渠道管理和成本控制的团队而言,这一更新意味着他们可以在不改变现有基础设施的前提下,直接利用最新的模型能力,提升了工作流的灵活性和效率。这也为其他类似“特定渠道独有功能”的标准化接入提供了参考案例。

查看原文 →linux.do