Fable与10款LLM对比:重构LangGraph神节点
速览
文章通过Fable等10款大型语言模型对比实验,测试了它们在重构LangGraph框架核心‘神节点’(god node)时的代码生成与优化能力。结果显示Fable在多个维度表现突出,展现了其在处理复杂图神经网络结构时的潜力。LangGraph作为AI工作流编排工具,其节点优化直接影响应用开发效率。研究为开发者提供了更高效的LLM选择方案,有助于推动图结构AI技术在实际场景中的落地。
AI 深度解读
深度解读:Fable 与 10 款 LLMs 对比重构 LangGraph 神节点
背景
在构建 LangGraph 驱动的 AI Agent 过程中,开发者常因功能快速迭代而忽略架构清晰度。原项目中,一个名为 plan 的节点隐藏了约 350 行复杂逻辑,包括迭代检查、区域与货币引导问题、Schema 准备、任务路由、LLM 调用、决策修正等。这类“神节点”(god node)会导致图结构退化,难以解释、调试、测试与扩展。
实验核心在于验证:LLM 是否能独立提出可靠的代码解耦方案?能否通过多模型交叉验证与评估,找到最优拆分策略?为此,作者收集了 11 款模型的独立提案,并让模型间相互评价,最终通过三种决策方式确定最佳方案。
实验平台为 OpenCode(附 Oh My Openagent 插件),所有运行在最大推理强度且全新会话中,严格隔离提案生成与评估过程。
核心内容
原问题描述
原 plan 节点嵌入的逻辑用于收集下游计算所需的参数:部分参数来自网络搜索,部分需用户提问,算法并非完全确定性(同一参数在不同对话上下文下获取方式差异大)。该节点直接连接多个分支,导致图示为“章鱼图”。
实验模型列表
参与本次对比的 11 款模型包括:
- GPT-5.4
- GPT-5.5
- DeepSeek-4-pro
- Gemini-3.1-pro
- GLM-5.1
- Kimi-2.6
- MiMo-2.5-pro
- Opus-4.7
- Qwen-3.6-plus
- Qwen-3.7-max
- Fable-5
Stage 1:模型生成提案
作者为每款模型单独提供提示词:“look at docs/planner-graph-ref/current-graph.md. Looks like 'plan' node contains too many logic in it. give a proposal of how to move this logic to graph level in <model>-proposal.md”。
Fable-5 提案(流程图):
- tick 节点:负责迭代起点、步数计数、最大迭代限制、“aborted”状态检查、初始区域与货币引导问题。
- prepare 节点:主动拆解、收集后续数据收集方案、调用
compose_ready_fields。 - select 节点:执行确定性决策链(计算器检查、已收集数据快速遍历、自动完成、阻塞计算的分支)。
- decide 节点:若无确定性答案,则调用 LLM 并构建结构化决策。
- guard 节点:集中处理衍生字段的决策重定向、搜索字段的强制切换、重复动作限制,以及在最终路由至 search/ask_user/reflect/calculate/finish 前的调整。
- 所有动作节点(search、observe、ask_user、reflect、calculate、finish)均返回至 tick,而非原 plan 节点。
该方案将 350 行逻辑拆分为五个清晰阶段,使架构更可观测:从图中即可看出确定性决策、LLM 调用及限制调整位置。最关键新增节点为 decision_origin,可区分决策来源。
Stage 2:模型间交叉评价
各模型阅读所有提案后,以评估者身份给出排名与简要理由。原文未完整列出其余 10 款提案的详细内容与评价,但实验已记录所有提案、评论及排名脚本,供复现。
Stage 3:三种决策方式最终选定最佳方案
- Approach one(打分一致性):判断提案评分是否一致,选取最优。
- Approach two(比较评论者观点):评估各模型作为分析者的表现,挑选最佳评论者。
- Approach three(意见中心与中位数):再次识别最佳分析者。
Deus ex machina(上帝机器):作者补充一次“上帝视角”手动挑选,最终结果通过公开的排名脚本与原始数据确认。
关键要点
- 神节点危害:单节点隐藏 350 行复杂逻辑,图结构失去可解释性与可维护性,改变风险高。
- 实验设计严谨:11 款模型独立生成提案(无彼此可见)、独立评价(仅见提案不互见评论)、全新会话、最大推理强度。
- Fable-5 提案亮点:将逻辑拆分为 tick/prepare/select/decide/guard 五层,新增 decision_origin 节点,架构更清晰可观测。
- 多模型交叉验证优势:避免单一模型“自嗨”或“转述”,通过提案+评价双轮驱动提升可靠性。
- 三层决策机制:评分一致性、评论者表现、意见中心与中位数,共同剔除噪声,最终形成共识。
- 所有数据公开:提案、评论、排名脚本、原始运行全部发布,可复现验证。
意义与影响
本次实验首次系统化、规模化地测试 LLM 作为代码架构重构的独立能力,证明即使是“自带 spaghetti”状态的模型(典型代表 Claude 类),通过多模型交叉与评估机制,仍能产出远优于原始单节点的设计。
对开发者与架构师的直接启示:
- 构建 LangGraph Agent 时,可借鉴本实验流程:用多模型生成方案,再由模型间互评,最终选“意见中心+中位数”最稳定的方案,显著降低神节点风险。
- 未来 Agent 开发可将此类“解耦提案生成+评估”流程自动化,形成轻量级架构审查工具链。
- 对开源社区意义重大:实验数据完整公开,未来研究可在此基础上扩展至更多模型、更多任务类型(如重构多图、微服务化),推动 LangGraph 生态向“AI 辅助架构设计”方向演进。
实验结论最终指向一个务实答案:无需迷信单一模型,选用 Fable-5 等提案者作为生成器,搭配高评价模型作为评估者,即可获得既可靠又可解释的架构重构方案。你的 LangGraph 神节点,已有可复现的“上帝之手”解决方案。
