Claude Code 里 Fable 规划审核用 Hermes MOA 调度其他模型
速览
这篇帖来自 Agent Skill 讨论区,分享了 Claude Code 中 Fable 作为规划审核工具、配合其他模型执行的玩法。Fable 虽强大但 token 消耗大,用户希望找到更省 token 的方案。Hermes 刚发布的 MOA 功能类似,却实际使用下来效果好且省 token,成为了理想替代。贴文强调 1 post 1 participant 交流方式,希望帮助大家实现这一混合调度模式。
AI 深度解读
## 背景
在2026年6月下旬,Anthropic推出了Claude Fable 5(简称Fable),该模型被定位为下一代智能体,用于解决最困难的知识工作和编码问题。Fable 5 在Claude Code等智能体框架中表现出色,能独自承担多阶段规划、子智能体委托和自我验证等复杂任务,特别适合需要自主运行数天甚至数周的编码项目。
然而,Fable在实际使用中存在显著挑战:其规划与审核环节往往非常耗费Token资源,而单纯的执行任务(如代码实现)由其他模型(如GPT系列)完成则效率更高。用户在LINUX DO·AI社区分享了这一痛点,并提出了跨模型调度需求。近期,Nous Research的Hermes Agent发布了Mixture of Agents(MoA,混合智能体)功能,允许用户配置多个模型并由主模型聚合输出,这一功能被社区称为“Fable 5 Intelligence WITHOUT Fable 5”的高效替代方案。
## 核心内容
用户明确指出,Fable在规划和审核时Token消耗巨大,但执行环节(如代码编写、调试)很多情况下由GPT等模型就能高效完成。核心问题在于:如何在Claude Code的Fable调度下,利用其他模型完成执行任务,同时最大化节省Token。
用户提到前身Hermes(Hermes Agent)新发布了MoA功能,其实际表现“挺省token的,效果也还可以”。MoA被描述为通过“panel of experts”(专家小组)方式实现:参考模型(reference models)并行运行不同模型的回答,聚合模型(aggregator)则作为最终输出者判断、融合并生成更优结果。这种结构直接对应用户需求——Fable负责规划与审核,其他模型承担执行,最终由主模型(或特定聚合器)整合输出。
具体实现方式包括:
- 在Hermes Agent中将MoA预设(presets)作为虚拟模型提供商使用。
- 预设可配置多个参考模型(如OpenAI的GPT系列、Anthropic的Claude系列等)和一个聚合器模型。
- 调用时通过命令(如
/moa或--provider moa)切换到MoA模式。 - 参考模型在不带工具模式或完整系统提示的情况下并行处理输入,输出以私有上下文形式追加到主会话中,聚合器在此基础上生成最终响应,同时继续执行正常智能体循环(工具调用、迭代等)。
- 优势:即使单个参考模型较弱,组合仍能提升质量,尤其在复杂任务上;成本为多个模型调用之和,但通过配置可控制(例如默认预设包括GPT-5.5参考 + Opus聚合器)。
- 用户在社区反馈中认可MoA的Token效率和整体效果,视其为替代Fable 5规划审核的实用方案。
## 关键要点
- Fable 5 规划与审核耗费大量Token,但执行环节可由GPT等其他模型完成,形成跨模型调度需求。
- Hermes Agent MoA功能允许配置多个模型并行运行,聚合模型融合输出,核心是“专家小组”式协作。
- MoA预设作为虚拟模型直接在Claude Code等框架中调用,支持自定义配置(参考模型、聚合器、温度等参数)。
- 实际运行显示MoA Token省略且效果可接受,尤其适合需要规划审核但执行由其他模型驱动的任务。
- 这种方式本质上是单模型的扩展,而非依赖单一顶级模型,适用于有多个模型访问权的用户。
## 意义与影响
此话题反映了AI工具生态从单一顶级模型依赖转向混合智能体系统的演进。MoA的出现为Fable用户提供了低成本、灵活的替代方案,尤其在模型访问受限或费用敏感的场景下,能够显著降低Token消耗同时维持接近顶级模型的性能。
对于开发者与工程师而言,这意味着更高效的AI工作流:不再为每一步规划与审核投入高昂Token,而是将Fable的智能调度优势与执行层的并行能力结合。长期来看,这推动了更可持续的AI应用实践,降低整体使用门槛,同时为用户构建“模型联盟”提供了可复制的配置模板。社区对MoA的积极反馈,预示着类似混合系统将在2026年后续AI开发工具中普及,进一步优化Agent工作流的Token效率与质量平衡。
