← 返回信息流
AI 资讯Hacker News·2 小时前

Fable与10款LLM对比:重构LangGraph神节点

原标题:Comparing Fable and 10 other LLMs on refactoring a LangGraph god node

速览

文章通过Fable等10款大型语言模型对比实验,测试了它们在重构LangGraph框架核心‘神节点’(god node)时的代码生成与优化能力。结果显示Fable在多个维度表现突出,展现了其在处理复杂图神经网络结构时的潜力。LangGraph作为AI工作流编排工具,其节点优化直接影响应用开发效率。研究为开发者提供了更高效的LLM选择方案,有助于推动图结构AI技术在实际场景中的落地。

AI 深度解读

深度解读:Fable 与 10 款 LLMs 对比重构 LangGraph 神节点

背景

在构建 LangGraph 驱动的 AI Agent 过程中,开发者常因功能快速迭代而忽略架构清晰度。原项目中,一个名为 plan 的节点隐藏了约 350 行复杂逻辑,包括迭代检查、区域与货币引导问题、Schema 准备、任务路由、LLM 调用、决策修正等。这类“神节点”(god node)会导致图结构退化,难以解释、调试、测试与扩展。

实验核心在于验证:LLM 是否能独立提出可靠的代码解耦方案?能否通过多模型交叉验证与评估,找到最优拆分策略?为此,作者收集了 11 款模型的独立提案,并让模型间相互评价,最终通过三种决策方式确定最佳方案。

实验平台为 OpenCode(附 Oh My Openagent 插件),所有运行在最大推理强度且全新会话中,严格隔离提案生成与评估过程。

核心内容

原问题描述

plan 节点嵌入的逻辑用于收集下游计算所需的参数:部分参数来自网络搜索,部分需用户提问,算法并非完全确定性(同一参数在不同对话上下文下获取方式差异大)。该节点直接连接多个分支,导致图示为“章鱼图”。

实验模型列表

参与本次对比的 11 款模型包括:

  • GPT-5.4
  • GPT-5.5
  • DeepSeek-4-pro
  • Gemini-3.1-pro
  • GLM-5.1
  • Kimi-2.6
  • MiMo-2.5-pro
  • Opus-4.7
  • Qwen-3.6-plus
  • Qwen-3.7-max
  • Fable-5

Stage 1:模型生成提案

作者为每款模型单独提供提示词:“look at docs/planner-graph-ref/current-graph.md. Looks like 'plan' node contains too many logic in it. give a proposal of how to move this logic to graph level in <model>-proposal.md”。

Fable-5 提案(流程图):

  • tick 节点:负责迭代起点、步数计数、最大迭代限制、“aborted”状态检查、初始区域与货币引导问题。
  • prepare 节点:主动拆解、收集后续数据收集方案、调用 compose_ready_fields
  • select 节点:执行确定性决策链(计算器检查、已收集数据快速遍历、自动完成、阻塞计算的分支)。
  • decide 节点:若无确定性答案,则调用 LLM 并构建结构化决策。
  • guard 节点:集中处理衍生字段的决策重定向、搜索字段的强制切换、重复动作限制,以及在最终路由至 search/ask_user/reflect/calculate/finish 前的调整。
  • 所有动作节点(search、observe、ask_user、reflect、calculate、finish)均返回至 tick,而非原 plan 节点。

该方案将 350 行逻辑拆分为五个清晰阶段,使架构更可观测:从图中即可看出确定性决策、LLM 调用及限制调整位置。最关键新增节点为 decision_origin,可区分决策来源。

Stage 2:模型间交叉评价

各模型阅读所有提案后,以评估者身份给出排名与简要理由。原文未完整列出其余 10 款提案的详细内容与评价,但实验已记录所有提案、评论及排名脚本,供复现。

Stage 3:三种决策方式最终选定最佳方案

  1. Approach one(打分一致性):判断提案评分是否一致,选取最优。
  2. Approach two(比较评论者观点):评估各模型作为分析者的表现,挑选最佳评论者。
  3. Approach three(意见中心与中位数):再次识别最佳分析者。

Deus ex machina(上帝机器):作者补充一次“上帝视角”手动挑选,最终结果通过公开的排名脚本与原始数据确认。

关键要点

  • 神节点危害:单节点隐藏 350 行复杂逻辑,图结构失去可解释性与可维护性,改变风险高。
  • 实验设计严谨:11 款模型独立生成提案(无彼此可见)、独立评价(仅见提案不互见评论)、全新会话、最大推理强度。
  • Fable-5 提案亮点:将逻辑拆分为 tick/prepare/select/decide/guard 五层,新增 decision_origin 节点,架构更清晰可观测。
  • 多模型交叉验证优势:避免单一模型“自嗨”或“转述”,通过提案+评价双轮驱动提升可靠性。
  • 三层决策机制:评分一致性、评论者表现、意见中心与中位数,共同剔除噪声,最终形成共识。
  • 所有数据公开:提案、评论、排名脚本、原始运行全部发布,可复现验证。

意义与影响

本次实验首次系统化、规模化地测试 LLM 作为代码架构重构的独立能力,证明即使是“自带 spaghetti”状态的模型(典型代表 Claude 类),通过多模型交叉与评估机制,仍能产出远优于原始单节点的设计。

对开发者与架构师的直接启示:

  • 构建 LangGraph Agent 时,可借鉴本实验流程:用多模型生成方案,再由模型间互评,最终选“意见中心+中位数”最稳定的方案,显著降低神节点风险。
  • 未来 Agent 开发可将此类“解耦提案生成+评估”流程自动化,形成轻量级架构审查工具链。
  • 对开源社区意义重大:实验数据完整公开,未来研究可在此基础上扩展至更多模型、更多任务类型(如重构多图、微服务化),推动 LangGraph 生态向“AI 辅助架构设计”方向演进。

实验结论最终指向一个务实答案:无需迷信单一模型,选用 Fable-5 等提案者作为生成器,搭配高评价模型作为评估者,即可获得既可靠又可解释的架构重构方案。你的 LangGraph 神节点,已有可复现的“上帝之手”解决方案。

查看原文 →wtf.korridzy.com