Hermes接入GPT-5.4 High实测:高负载下额度消耗异常低
速览
开发者测试Hermes接入GPT-5.4 High模型,发现其在CPU满载的高负载下运行超过1小时,额度消耗仅为13%,表现远超预期。该模型成功运行了由Codex GPT-5.5 xhigh生成的复杂Skill,并自主识别出其中存在的Bug。尽管Codex承认错误,但任务仍由Hermes继续执行,展示了Agent工作流的稳定性。
AI 深度解读
背景
近期,在 LINUX DO 社区的 AI 板块中,用户分享了一段关于 Hermes 平台接入 OpenAI 最新模型后的实际使用体验。此次分享的核心焦点在于 Hermes 平台对 GPT-5.4 high 模型的集成表现,特别是其算力消耗与额度扣除之间的比例关系。此前,用户在调试 Hermes 时曾遭遇额度快速耗尽的情况(约 1 小时消耗 5 小时额度),但此次运行超过 1 小时后,额度仅消耗 13%,尽管 CPU 始终处于满载状态。这一反常现象引发了社区对模型效率、平台调度机制以及不同 AI 代理(Agent)协作模式的深入讨论。
核心内容
此次分享主要围绕 Hermes 平台接入 GPT-5.4 high 模型后的性能测试、与 Codex 模型的协作对比,以及 CLI 工具兼容性问题进行展开。
首先,用户报告了 Hermes 接入 GPT-5.4 high 后的显著变化。在运行任务超过 1 小时且 CPU 持续满载的情况下,账户额度仅下降了 13%。这与用户之前的经验形成鲜明对比:在调试 Hermes 期间,曾出现过运行 1 小时多便消耗掉 5 小时额度的极端情况。此次“抗用”的表现表明,GPT-5.4 high 模型在 Hermes 上的执行效率或计费逻辑可能发生了优化,或者该模型在特定任务下的 Token 消耗远低于预期。
其次,用户详细描述了 Codex 与 Hermes 在复杂 Skill(技能/工作流)开发中的协作流程。用户利用 Codex GPT-5.5 xhigh 编写了一个复杂的 Skill,并在本地运行数日确认无误后,将该 Skill 安装至 Hermes 平台。值得注意的是,用户并未使用 Codex CLI,原因是 npm CLI 在识别 Codex App 的某个参数时存在 Bug。因此,用户选择直接在 Hermes 环境中运行该 Skill,由 Hermes 调用底层的 GPT-5.4 high 模型执行任务。
在结果反馈方面,Hermes 在首次运行后便识别出了一系列 Bug。相比之下,用户此前多次让 Codex 自行排查 Bug 均未成功。当用户将这些问题反馈给 Codex 时,Codex 承认了这些错误的存在。尽管用户未要求 Codex 进行修改,而是继续交由 Hermes 处理,但这一过程凸显了不同模型在代码审查和问题发现能力上的差异。整个流程展示了从 Codex 生成代码到 Hermes 执行并验证的闭环工作流。
关键要点
- 额度消耗异常降低:Hermes 接入 GPT-5.4 high 后,长时间高负载运行(CPU 满载)下的额度消耗显著低于预期(1 小时仅消耗 13%),改变了此前“1 小时耗 5 小时额度”的高消耗印象。
- 模型分工明确:
- Codex GPT-5.5 xhigh:负责复杂 Skill 的代码编写与生成,具备较强的代码产出能力。
- Hermes (底层 GPT-5.4 high):负责 Skill 的执行、运行及 Bug 识别,表现出比 Codex 更强的问题发现能力。
- 工具链兼容性痛点:由于 npm CLI 在识别 Codex App 参数时存在 Bug,用户无法通过 Codex CLI 直接调用,转而依赖 Hermes 平台直接运行 Skill,这反映了当前 AI 开发工具链中仍存在集成与兼容性问题。
- 协作工作流验证:测试证实了“Codex 生成 + Hermes 执行/验证”这一混合工作流的可行性。Hermes 在首次运行中即发现 Codex 未能识别的 Bug,且 Codex 对 Hermes 指出的问题予以确认,显示了多模型协作在提升代码质量方面的潜力。
意义与影响
此次分享为 AI 开发者提供了关于模型选型与平台调度的重要参考。首先,它揭示了 GPT-5.4 high 模型在 Hermes 平台上的实际能效比,提示用户该模型可能在长任务执行中具有更高的成本效益,尽管 CPU 满载通常意味着高计算开销,但额度消耗的低廉可能源于模型推理效率的提升或平台侧的资源优化。
其次,该案例强调了多模型协作(Multi-Agent Collaboration)的优势。Codex 擅长生成代码,而 Hermes 结合 GPT-5.4 high 在运行时验证和 Bug 检测上表现更佳。这种“生成与验证分离”的策略有助于提高复杂 Skill 的稳定性。
最后,CLI 工具兼容性问题暴露了当前 AI 开发生态中的碎片化挑战。开发者在构建自动化工作流时,需警惕不同工具链之间的参数解析差异,可能需要通过平台原生接口(如 Hermes 直接运行)来绕过底层工具的 Bug,以确保工作流的顺畅执行。这一经验对于优化 AI 应用部署和调试流程具有直接的指导意义。
