AI 资讯Hacker News·2 小时前

Fable与10款LLM对比：重构LangGraph神节点

原标题：Comparing Fable and 10 other LLMs on refactoring a LangGraph god node

速览

文章通过Fable等10款大型语言模型对比实验，测试了它们在重构LangGraph框架核心‘神节点’（god node）时的代码生成与优化能力。结果显示Fable在多个维度表现突出，展现了其在处理复杂图神经网络结构时的潜力。LangGraph作为AI工作流编排工具，其节点优化直接影响应用开发效率。研究为开发者提供了更高效的LLM选择方案，有助于推动图结构AI技术在实际场景中的落地。

AI 深度解读

深度解读：Fable 与 10 款 LLMs 对比重构 LangGraph 神节点

背景

在构建 LangGraph 驱动的 AI Agent 过程中，开发者常因功能快速迭代而忽略架构清晰度。原项目中，一个名为 plan 的节点隐藏了约 350 行复杂逻辑，包括迭代检查、区域与货币引导问题、Schema 准备、任务路由、LLM 调用、决策修正等。这类“神节点”（god node）会导致图结构退化，难以解释、调试、测试与扩展。

实验核心在于验证：LLM 是否能独立提出可靠的代码解耦方案？能否通过多模型交叉验证与评估，找到最优拆分策略？为此，作者收集了 11 款模型的独立提案，并让模型间相互评价，最终通过三种决策方式确定最佳方案。

实验平台为 OpenCode（附 Oh My Openagent 插件），所有运行在最大推理强度且全新会话中，严格隔离提案生成与评估过程。

核心内容

原问题描述

原 plan 节点嵌入的逻辑用于收集下游计算所需的参数：部分参数来自网络搜索，部分需用户提问，算法并非完全确定性（同一参数在不同对话上下文下获取方式差异大）。该节点直接连接多个分支，导致图示为“章鱼图”。

实验模型列表

参与本次对比的 11 款模型包括：

GPT-5.4
GPT-5.5
DeepSeek-4-pro
Gemini-3.1-pro
GLM-5.1
Kimi-2.6
MiMo-2.5-pro
Opus-4.7
Qwen-3.6-plus
Qwen-3.7-max
Fable-5

Stage 1：模型生成提案

作者为每款模型单独提供提示词：“look at docs/planner-graph-ref/current-graph.md. Looks like 'plan' node contains too many logic in it. give a proposal of how to move this logic to graph level in <model>-proposal.md”。

Fable-5 提案（流程图）：

tick 节点：负责迭代起点、步数计数、最大迭代限制、“aborted”状态检查、初始区域与货币引导问题。
prepare 节点：主动拆解、收集后续数据收集方案、调用 compose_ready_fields。
select 节点：执行确定性决策链（计算器检查、已收集数据快速遍历、自动完成、阻塞计算的分支）。
decide 节点：若无确定性答案，则调用 LLM 并构建结构化决策。
guard 节点：集中处理衍生字段的决策重定向、搜索字段的强制切换、重复动作限制，以及在最终路由至 search/ask_user/reflect/calculate/finish 前的调整。
所有动作节点（search、observe、ask_user、reflect、calculate、finish）均返回至 tick，而非原 plan 节点。

该方案将 350 行逻辑拆分为五个清晰阶段，使架构更可观测：从图中即可看出确定性决策、LLM 调用及限制调整位置。最关键新增节点为 decision_origin，可区分决策来源。

Stage 2：模型间交叉评价

各模型阅读所有提案后，以评估者身份给出排名与简要理由。原文未完整列出其余 10 款提案的详细内容与评价，但实验已记录所有提案、评论及排名脚本，供复现。

Stage 3：三种决策方式最终选定最佳方案

Approach one（打分一致性）：判断提案评分是否一致，选取最优。
Approach two（比较评论者观点）：评估各模型作为分析者的表现，挑选最佳评论者。
Approach three（意见中心与中位数）：再次识别最佳分析者。

Deus ex machina（上帝机器）：作者补充一次“上帝视角”手动挑选，最终结果通过公开的排名脚本与原始数据确认。

关键要点

神节点危害：单节点隐藏 350 行复杂逻辑，图结构失去可解释性与可维护性，改变风险高。
实验设计严谨：11 款模型独立生成提案（无彼此可见）、独立评价（仅见提案不互见评论）、全新会话、最大推理强度。
Fable-5 提案亮点：将逻辑拆分为 tick/prepare/select/decide/guard 五层，新增 decision_origin 节点，架构更清晰可观测。
多模型交叉验证优势：避免单一模型“自嗨”或“转述”，通过提案+评价双轮驱动提升可靠性。
三层决策机制：评分一致性、评论者表现、意见中心与中位数，共同剔除噪声，最终形成共识。
所有数据公开：提案、评论、排名脚本、原始运行全部发布，可复现验证。

意义与影响

本次实验首次系统化、规模化地测试 LLM 作为代码架构重构的独立能力，证明即使是“自带 spaghetti”状态的模型（典型代表 Claude 类），通过多模型交叉与评估机制，仍能产出远优于原始单节点的设计。

对开发者与架构师的直接启示：

构建 LangGraph Agent 时，可借鉴本实验流程：用多模型生成方案，再由模型间互评，最终选“意见中心+中位数”最稳定的方案，显著降低神节点风险。
未来 Agent 开发可将此类“解耦提案生成+评估”流程自动化，形成轻量级架构审查工具链。
对开源社区意义重大：实验数据完整公开，未来研究可在此基础上扩展至更多模型、更多任务类型（如重构多图、微服务化），推动 LangGraph 生态向“AI 辅助架构设计”方向演进。

实验结论最终指向一个务实答案：无需迷信单一模型，选用 Fable-5 等提案者作为生成器，搭配高评价模型作为评估者，即可获得既可靠又可解释的架构重构方案。你的 LangGraph 神节点，已有可复现的“上帝之手”解决方案。

查看原文 →wtf.korridzy.com